JP2005235206A

JP2005235206A - スパム防止のためのインテリジェントな強制隔離

Info

Publication number: JP2005235206A
Application number: JP2005036833A
Authority: JP
Inventors: Derek Hazeur; ヘイザーデリク; Geoffrey J Hulten; ジェイ．ハルトンジェフリー; Joshua T Goodman; ティー．グッドマンジョシュア; Robert L Rounthwaite; エル．ラウンスウェイトロバート
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-02-13
Filing date: 2005-02-14
Publication date: 2005-09-02
Anticipated expiration: 2025-02-14
Also published as: BRPI0500374A; CA2497012A1; CN1658572A; US7543053B2; ES2350107T3; US20040215977A1; ATE481804T1; MXPA05001677A; EP1564670A2; JP4818616B2; KR101117866B1; KR20060041934A; EP1564670A3; CN1658572B; DE602005023553D1; EP1564670B1

Abstract

【課題】スパム防止に関連してより堅牢な分類システムを実施するインテリジェントな強制隔離のシステムおよび方法を提供する。
【解決手段】フィルタが、それらのメッセージについての情報を欠いており、このため、分類が一時的に遅延される。これにより、フィルタ更新がより正確な分類を伴って届くように、さらなる時間が与えられる。疑わしいメッセージは、所定の期間にわたって強制隔離して、それらのメッセージに関してさらなるデータが収集されることを可能にする。いくつかの要因を使用して、さらなる分析のためにメッセージにフラグが付けられる可能性がより高いかどうかを判定することができる。フィードバックループシステムによるユーザフィードバックも、メッセージの分類を実施するのに利用することができる。ある期間の後、メッセージの分類を再開することができる。
【選択図】図１

Description

本発明は、正当な情報（例えば、良好なメール）と望ましくない情報（例えば、迷惑メール）の両方を識別するためのシステムおよび方法に関し、より詳細には、一つには、メッセージに関してさらなる情報を収集して疑わしいメッセージの分類を実施できるまで、そのようなメッセージの配信を少なくとも遅らせることにより、スパム防止のためにメッセージを分類することに関する。

インターネットなどの世界的な通信網の到来により、莫大な数の潜在的な顧客と接触するための商業的機会がもたらされた。電子メッセージング、特に電子メール（「ｅメール」）が、不要な広告および宣伝（「スパム」とも呼ばれる）をネットワークユーザに頒布する手段としてますます浸透している。

コンサルタント−市場調査会社であるＲａｄｉｃａｔｉＧｒｏｕｐ，Ｉｎｃ．は、２００２年８月の時点で、２０億の迷惑メールメッセージが毎日、送信されているものと推定しており、この数字は、２年ごとに３倍になるものと見込まれている。個人およびエンティティ（例えば、企業、政府機関）は、迷惑メッセージによってますます不都合を被り、しばしば、不快にさせられている。このため、迷惑メールは、現在、信頼できるコンピューティングへの大きな脅威となっているか、または近々そうなる。

迷惑メールを阻むのに利用される重要な技術が、フィルタリングシステム／方法の使用である。１つの定評のあるフィルタリング技術は、機械学習アプローチに基づき、機械学習フィルタ群が、着信メッセージに、そのメッセージが迷惑メッセージである確率を割り当てる。このアプローチでは、２つのクラスの典型的なメッセージ（例えば、迷惑メッセージと迷惑メッセージではないメッセージ）から、通常、特徴が抽出され、学習フィルタが適用されて、２つのクラスが確率論的に区別される。多くのメッセージ特徴は、内容（例えば、件名および／またはメッセージの本文の中の語および句）に関連するため、そのようなタイプのフィルタは、一般に、「内容ベースのフィルタ」と呼ばれる。

一部の迷惑メッセージ／スパムフィルタは、適応性があり、これは、複数言語使用のユーザ、および希少言語を話すユーザが、ユーザ固有のニーズに適応することが可能なフィルタを必要とするという点で重要である。さらに、すべてのユーザが、何が迷惑メッセージ／スパムであり、何が迷惑メッセージ／スパムではないかについて意見が一致しているわけではない。したがって、暗黙に（例えば、ユーザの行動を観察することを介して）訓練することができるフィルタを使用することにより、ユーザの特定のメッセージ識別のニーズに合うようにそれぞれのフィルタを動的に調整することができる。

フィルタリング適応のための１つのアプローチは、メッセージに迷惑メッセージまたは迷惑メッセージではないメッセージとしてラベルを付けるようにユーザに要求することである。残念ながら、そのような手作業を多く要する（ｍａｎｕａｌｌｙｉｎｔｅｎｓｉｖｅ）訓練技術は、そのような訓練を適切に実行するのに要求される時間は言うに及ばず、そのような訓練に関連する複雑さのため、多くのユーザには望ましくない。さらに、そのような手動の訓練技術は、しばしば、個々のユーザによって損なわれる。例えば、無料メーリングリストへの加入が、しばしば、ユーザによって忘れられ、このため、迷惑メールと誤ってラベルが付けられる。その結果、正当なメールが無期限にユーザのメールボックスからブロックされる。別の適応フィルタ訓練アプローチは、暗黙の訓練キュー（ｃｕｅ）を使用することである。例えば、ユーザが、メッセージに返信した、またはメッセージを転送した場合、このアプローチは、メッセージが迷惑メッセージではないと見なす。しかし、この種のメッセージキューだけを使用することは、訓練プロセスに統計的な偏りを導入し、それぞれより低い精度のフィルタ群をもたらす。

さらに別のアプローチは、すべてのユーザ電子メールを訓練のために利用することであり、初期ラベルが既存のフィルタによって割り当てられ、ユーザが、ときとして、明示的なキュー（例えば、「ユーザ訂正」法）−例えば、「迷惑メッセージとして削除する」や「迷惑メッセージではない」などの選択肢を選択して−および／または暗黙のキューでそれらの割り当てを指定変更する（ｏｖｅｒｒｉｄｅ）。そのようなアプローチは、先に説明した諸技術より優れているが、それでも、以下に説明し、主張する本発明と比べて不十分である。

さらに、スパムに対抗するように設計された現在のフィルタ技術は、問題を抱えたままである。例えば、スパム発信者（ｓｐａｍｍｅｒ）は、フィルタを通過することができる１つのメッセージを見つけることができた場合、フィルタが更新される前に、無数のスパムメッセージを通過させることができる。フィルタをどれだけ迅速に更新することができるかに関わらず、スパム発信者は、単により大きい帯域幅を獲得することにより、ますます速くメッセージを送ることができるものと考えられる。

以下に、本発明の一部の態様の基本的な理解を提供するため、本発明の簡略化した大要を提示する。この大要は、本発明の広範な概要ではない。この大要は、本発明の重要な／不可欠な要素を明らかにする、または本発明の範囲を画定することを意図するものではない。この大要の唯一の目的は、後に提示するより詳細な説明の前置きとして、本発明の一部の概念を簡略化した形で提示することである。

本発明は、スパム防止に関連してアイテムを分類することを実施するインテリジェントな強制隔離のシステムおよび方法を提供する。より具体的には、本発明は、メッセージを疑わしいとして分類するか、またはメッセージに疑わしいとフラグを付け、かつ／またはメッセージの分類（スパムまたは良好としての）を一時的に遅らせる。メッセージおよび／または送信者についてのさらなる情報を学習するのに好適な時間を提供する遅延期間または強制隔離期間が、フィルタおよび／またはシステムによって設定されることが可能である。

本発明の一態様によれば、情報は、メッセージ量（例えば、送信者別のメッセージ量）などの活動および／または挙動を監視するように構成することができる１つまたは複数のシステムコンポーネントから獲得されることが可能である。例えば、少量で送信されたメッセージは、スパムである可能性がそれほど高くない。同様に、大量に送信されたメッセージは、スパムである可能性がより高い。

本発明の別の態様によれば、メッセージ内容を分析して、その内容が、ハニーポット（ｈｏｎｅｙｐｏｔ）で見られるメッセージに実質的に似ているかどうかを判定することができる。ハニーポット（わな、脆弱性をもったサーバやネットワークをわざとインターネットにさらうこと）とは、既知のスパムターゲットを参照し、着信メッセージをスパムとして識別するためのおよび／または特定の商業者のメッセージアドレス処理を追跡するためのものであることを思い起こされたい。一般に、ハニーポットは、正当なメッセージのセットを特定することができ、他のすべてのメッセージをスパムと見なすことができる電子メールアドレスである。例えば、電子メールアドレスは、人々によって見つけられる可能性が低い制限された形で、Ｗｅｂサイト上で開示されることが可能である。このため、このアドレスに送信されたあらゆるメッセージは、スパムと見なすことができる。代替として、電子メールアドレスは、その商業者から正当なメッセージが受信されるものと見込まれる商業者にだけ開示されていることが可能である。このため、その商業者から受信されるメッセージは正当であるが、受信される他のすべてのメッセージは、間違いなくスパムであると考えることができる。ハニーポットおよび／または他のソース（例えば、ユーザ）に由来するスパムデータは、フィードバックループシステムに組み込むことができるが、ハニーポットを使用するスパム分類の大幅な増加のため、そのようなデータに少なめに重みを付けて（ｄｏｗｎｗｅｉｇｈｔｅｄ）、偏ったフィードバック結果を得ることを抑えることができる。

本発明の別の態様によれば、メッセージ内容を分析して、そのメッセージ内容が、他の方法を介してフィードバックを受けたメッセージに実質的に似ているかどうかを判定することができ、他の方法には、ユーザによって「これは迷惑メッセージである」とマークが付けられること、ユーザによって「これは迷惑メッセージではない」とマークが付けられること、フィードバックループユーザによって類別されること（上記の「スパム防止のためのフィードバックループ」を参照）、他の何らかの設定における（例えば、Ｊ電子メールサービスにおいてではなく、Ｙサーバ上における）フィードバックループ技術の展開によって類別されること、メッセージ内容を他のスパムリポジトリと比較することが含まれる。

本発明のさらに別の態様によれば、強制隔離をハッシュベースの技術と組み合わせることができる。１つの実例では、メッセージをハッシュして、強制隔離されたメッセージが、後に良好である、またはスパムであると分類された（以前に強制隔離された）他の何からのメッセージと類似しているかどうかを確認するのに役立てることができ、メッセージを強制隔離の外に出す。スパム発信者は、通常、数千または数百万のユーザにメールを送信する。メッセージは、ときとして、同一であるか、ほぼ同一であるか、または１つのタイプとして識別できる。このため、互いに類似するメッセージを捕捉することにより、メッセージの分類が容易になることが可能である。ただし、ハニーポット、フィードバックループ、またはユーザの苦情において類似するメッセージが全く存在しない（または非常にわずかしか存在しない）場合、そのメッセージは、多分、特定の受信者、または特定のグループの受信者を標的にしており、したがって、送信者は、スパム発信者でない可能性が高い。

強制隔離されたメッセージは、ユーザに見えることも、見えないことも可能な、「強制隔離」、「迷惑メッセージ」、「迷惑メッセージである可能性があるメッセージ」などと明示された特別フォルダの中に格納することができる。強制隔離フォルダに送られたメッセージは、強制隔離されたメッセージが、通常、ユーザに見えるか否かに関わらず、フィードバックループのために選択することができる。つまり、削除されたメッセージ、迷惑メッセージフォルダに入れられたメッセージ、または受信トレイ（ｉｎｂｏｘ）に入れられたメッセージと全く同様に、強制隔離フォルダに送られたメッセージは、ユーザ分類のために選択することができる。フィードバックループは、スパムを検出すること、およびより堅牢なスパムフィルタを構築することを実施するようにメッセージの少なくともサブセットをスパムである、または良好であると分類するようにユーザに求めることを伴うポーリング（ｐｏｌｌｉｎｇ）機構であることを思い起されたい。本発明で使用するとおり、フィードバックループを利用して、強制隔離されたメッセージのランダムなサンプリングについてユーザにポーリングを行うことができる。例えば、強制隔離されたメッセージの少なくともサブセットが、ユーザ分類のためにフィードバックループに参加している、メッセージのそれぞれの受信者（例えば、ユーザ）に到達することを許すことができる。

フィードバックループの代替として、またはフィードバックループに加えて、強制隔離フォルダがメッセージ受信者（例えば、少なくともメッセージ受信者のサブセット）に可視であり、特別フォルダの中に保持されるメッセージの少なくともサブセットを分類する機会がメッセージ受信者に与えられることも可能である。ただし、その場合、受信者は、フィードバックループ参加者を兼ねることも、そうでないことも可能である。受信者は、そのようなメッセージが良好である、または迷惑メッセージであると報告できることが可能である。そのような特徴付けは、「迷惑メッセージ報告」ボタンをクリックして、メッセージがスパムであると示すこと、あるいは「良好」ボタンまたは「メッセージ救出」ボタンをクリックして、メッセージが正当であると示すことなど、１つまたは複数のボタンをクリックすることによって実施することができる。このため、少なくとも限定された一揃いの強制隔離されたメッセージに関する、フィードバックループ方法または迷惑メッセージ／良好メッセージ報告方法を介したユーザデータが、特定の強制隔離されたメッセージがスパムであるかどうかを判定することを容易にすることができる。

不確実なメッセージをスパムとして分類して、後に、ユーザがそれらのメッセージを削除から救出する救出システムとは異なり、本発明は、分類（スパムとしての、またはスパムではないとしての）を遅らせ、一部のユーザが、特定のメッセージに関するユーザの見解を提供して、後の分類を助けることができるようにすることを理解されたい。さらに、フィードバックループ参加者および／または要請を受けていない（ｕｎｓｏｌｉｃｉｔｅｄ）メッセージ受信者によって送られた苦情などのユーザの苦情を利用して、強制隔離されているメッセージの少なくとも一部がスパムであるかどうかを判定するのを容易にすることができる。ユーザからの苦情がないことも、記録し、特定のメッセージがスパムであるかどうかを判定するのに役立てることができる。

メッセージを強制隔離することの代替として、不確かなメッセージ、または疑わしいメッセージの少なくともサブセットが、強制隔離なしに、または明示的なユーザ分類（例えば、フィードバック要求、ポーリングなど）なしにフィルタを少しずつ流れ出る、または通過することを許すこともできる。代わりに、それらのメッセージに関するユーザ／受信者の行動を監視する、または観察することができる。少しずつ流れ出ることが許されるメッセージの量は、送信者ごとに一定のメッセージ数（例えば、最初の１０００通）であること、または送信者別などの、メッセージの一定のパーセンテージであることが可能である。次に、それらのメッセージの受信者に、メッセージがスパムである、またはスパムではないと特徴付ける暗黙の機会を与えることができる。それらのメッセージに関するユーザの行動を使用して、フィルタを更新することができる。

本発明のさらに別の態様では、機械学習システム（例えば、ニューラルネットワーク、サポートベクトルマシン（ＳＶＭ）、ベイジアンビリーフネットワーク（ＢａｙｅｓｉａｎＢｅｌｉｅｆＮｅｔｗｏｒｋ））が、正当なメッセージとスパムメッセージの両方を認識し、さらに、それらを区別するように訓練された、改良され、かつ／または更新されたスパムフィルタ群を作成することを実施する。新しいスパムフィルタ、または更新されたスパムフィルタが本発明に従って訓練されると、そのフィルタをメールサーバ群およびクライアント電子メールソフトウェアプログラム群に配置することができる。さらに、新しいスパムフィルタ、または更新されたスパムフィルタを、特定のユーザによって提供された分類および／または他の情報に対して訓練して、個人用設定されたフィルタの性能を向上させることができる。追加の訓練データセットが構築されるにつれ、スパムフィルタは、機械学習を介してさらなる訓練を受け、フィルタの性能および精度が最適化されることが可能である。メッセージ分類を介するユーザフィードバックも、スパムフィルタ群および保護者による制限（ｐａｒｅｎｔａｌｃｏｎｔｒｏｌ）のためのリストを生成するため、スパムフィルタ性能を試験するため、および／またはスパム発信元を識別するために利用することができる。

さらに、部分的にはユーザならびにシステム分析によって生成された訓練データも、新たに強制隔離されたメッセージに特に適用できる新しいサブフィルタ群（良好なメッセージ、スパムメッセージ、および疑わしいメッセージに関する複数の特徴について訓練されたフルサイズのフィルタより小さい）を作成するのに利用することができる。新しいサブフィルタ群は、新たに強制隔離されたメッセージから抽出された１つまたは複数の特定の特徴（特徴のサブセット）について訓練することができる。例えば、サブフィルタをＩＰアドレスの特徴についてだけ訓練することができる。

情報が獲得されるとすぐに、かつ／または強制隔離期間が経過すると、１つまたは複数の（スパム）フィルタが更新されて、強制隔離されたメッセージの適切な分類を実施することが可能である。これは、メッセージが強制隔離から出る用意ができるたびに毎回、フィルタが更新されなければならないことを意味しないことに留意されたい（ただし、それが実用的である場合、更新されることも可能である）。本発明は、代りに、強制隔離期間を事前設定されたフィルタ更新スケジュールと同期するように選択して、フィルタ更新が行われた直後にメッセージのバッチが強制隔離から出る用意ができるように（このため、更新された情報を使用して分類される、または再分類されるように）することができる。このスケジュール設定は、暗黙に（例えば、新しいフィルタが午後１時に届くようにスケジュールされ、したがって、メッセージは、午後１時０１分まで強制隔離される）、または明示的に（例えば、メッセージは、いつであれ「新しいフィルタが届くまで」強制隔離される）行われることが可能である。このため、それらの疑わしいメッセージは、更新されたフィルタを通って戻され、スパムである、またはスパムではないと分類されることが可能である。例えば、遅らせられたメッセージが、一つには新しい否定的な情報がないことに基づき、「良好」であると分類されることが可能である。同様に、遅らせられたメッセージが、新しい肯定的な情報に基づいて良好であると分類されることも可能である。

さらに、ユーザおよび／またはシステムフィードバックから収集された情報を使用して、既に使用中の１つまたは複数のフィルタを更新することもできる。その結果、遅らせられたメッセージが、分類のために再びフィルタを通って処理される、または通過させられることが可能である。さらに、強制隔離を受ける後の着信メッセージに適用するために新しいフィルタ群を訓練することもできる。

強制隔離期間中、または遅延期間中にメッセージがスパムであると判定された場合、そのメッセージを特別フォルダ（例えば、強制隔離フォルダ）から直接に削除すること、かつ／または破棄するために別のフォルダ（例えば、トラッシュ（ｔｒａｓｈ）フォルダ）に移動させることができる。そうではなく、良好であると分類されたメッセージは、メッセージのそれぞれの解放の日付（強制隔離からの解放の日付）をタイムスタンプして、宛先の受信者に配信することができる。このため、それらのメッセージは、２つのタイムスタンプ、すなわち、最初の着信日を示す第１のタイムスタンプ、および強制隔離からの解放を示す第２のタイムスタンプを有することが可能である。強制隔離からの解放の日付は、Ｄａｔｅ、すなわち、ヘッダフィールドであることが可能であり、メッセージが見られる場合、クライアントソフトウェアがそれらのメッセージを適切に並べ替えることが確実にされる。（詳細には、メッセージが大幅に遅らせられた後、通常の順序で現れる場合、そのメッセージは、日付順に並べ替えられた受信トレイの、ユーザがメッセージを見る可能性が低いセクションに現れる可能性がある。新しい日付をスタンプすることは、メッセージがユーザに見えるようになることを確実にするのに役立つ。）
以上の目的、および関連する目的の達成のため、本発明のいくつかの例示的な態様を、以下の説明および添付の図面に関連して本明細書で説明する。ただし、それらの態様は、本発明の原理を使用することができる様々な形のいくつかに過ぎず、本発明は、すべてのそのような態様および同等の態様を含むものとする。本発明のその他の利点、および新規性のある特徴は、本発明の以下の詳細な説明を添付の図面と併せて考慮することで明白となり得る。

次に図面を参照して本発明を説明する。すべての図面で、同様の要素を指すのに同様の符号を使用している。以下の説明では、説明の目的で、本発明の完全な理解を提供するため、多数の特定の詳細を記載する。しかし、本発明は、それらの特定の詳細なしでも実施できることが明らかであろう。その他、周知の構造およびデバイスは、本発明を説明するのを容易にするため、ブロック図の形態で示す。

本出願で使用する「コンポーネント」および「システム」という用語は、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、または実行中のソフトウェアであるコンピュータ関連エンティティを指すものとする。例えば、コンポーネントは、プロセッサ上で実行されているプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行のスレッド、プログラム、および／またはコンピュータであることが可能であるが、以上には限定されない。例として、サーバ上で実行されているアプリケーションとサーバが、ともにコンポーネントであることが可能である。１つまたは複数のコンポーネントが、プロセス内部および／または実行のスレッド内部に存在することが可能であり、コンポーネントは、１つのコンピュータ上に局所化されていること、および／または２つ以上のコンピュータの間で分散されていることが可能である。

本発明は、機械学習スパムフィルタリングのために訓練データを生成することに関連して、様々な推論スキームおよび／または推論技術を組み込むことが可能である。本明細書で使用する「推論」という用語は、イベントおよび／またはデータを介してキャプチャされた所見のセットから、システム、環境、および／またはユーザの状態について推論する、または推測するプロセスを全般に指す。推論を使用して、例えば、特定のコンテキストまたはアクションを識別すること、または諸状態にわたる確率分布を生成することができる。推論は、確率論的であること、つまり、データおよびイベントの考慮に基づく、関心対象の諸状態にわたる確率分布の計算であることが可能である。推論は、イベントおよび／またはデータのセットから、より高レベルのイベントを構成するために使用される諸技術を指すことも可能である。そのような推論は、イベントが時間的に近接して互いに関連しているか否か、イベントおよびデータが、１つのイベントソースやデータソースに由来するか、複数のイベントソースやデータソースに由来するかにかかわらず、観察されたイベントおよび／または格納されたイベントデータのセットから、新しいイベントまたはアクションの構築をもたらす。

メッセージという用語を本明細書全体で広く使用しているが、この用語は、本来の電子メールに限定されず、任意の適切な通信アーキテクチャを介して配信することができる任意の形態の電子メッセージングを含むように適切に適応させることができることを理解されたい。例えば、２名以上の人々の間で会議または会話を実施する会議アプリケーション（例えば、対話型チャットプログラム、およびインスタントメッセージングプログラム）も、本明細書で開示するフィルタリングの利点を利用することができる。というのは、ユーザがメッセージを交換する際、不要なテキストが、通常のチャットメッセージの中に電子的に差し入れられ、かつ／または始めのメッセージとして、終りのメッセージとして、または以上のすべてとして挿入されることが可能である。この特定の応用例では、望ましくない内容（例えば、コマーシャル、宣伝、または広告）をキャプチャし、迷惑メッセージとしてタグを付けるために、特定のメッセージ内容（テキストおよびイメージ）を自動的にフィルタリングするようにフィルタを訓練することができる。

本発明において、「受信者」という用語は、着信メッセージの宛先を指す。「ユーザ」という用語は、本明細書で説明したフィードバックループのシステムおよびプロセスに参加するよう、受動的または能動的に選択した、または間接的に選択された受信者を指す。

本発明は、着信するアイテムまたはメッセージのインテリジェントな強制隔離を実施するシステムおよび方法に関わる。インテリジェントな強制隔離とは、スパムであると疑われる一部のメッセージを遅らせることを指す。これにより、フィルタが、更新されて、それらのメッセージのより正確な分類に達する時間が与えられる。実際、強制隔離なしの次のシナリオを考慮されたい。スパム発信者が、現在のフィルタを通過するメッセージを見つける。スパム発信者は、そのメッセージを１０００００００名の人々にできる限り迅速に、メッセージシステムがフィルタ更新を得ることができる前に送信する。１０００００００名の人々は、スパムを受信する（受信トレイの中で）。次に、強制隔離を伴う同一のシナリオを考慮されたい。スパム発信者が、現在、スパムとして捕捉されない、または分類されないメッセージを見つける。しかし、そのメッセージは、何らかの形で奇妙であり、システムに疑わしくなっている。スパム発信者は、そのメッセージを１０００００００名の人々にできる限り迅速に、フィルタが更新されることが可能である前に送信する。スパム発信者のメッセージは、疑わしく、フィルタが、そのメッセージをスパムである、またはスパムではないと簡単に分類するのに十分な情報が用意されていないため、以下に本発明で説明するとおり、強制隔離されることが可能である。

図１を参照すると、本発明の態様によるフィードバックループシステムを実装する強制隔離システム１００の全体的なブロック図が示されている。メッセージ受信コンポーネント１１０が、着信するメッセージ（ＩＭと表す）を受信し、宛先の受信者１２０に配信する。メッセージ受信コンポーネントは、多くのメッセージ受信コンポーネントで通例であるように、不要なメッセージ（例えば、スパム）の配信を抑えるため、少なくとも１つのフィルタ１３０（例えば、第１の分類コンポーネント）を含む、またはそのフィルタ１３０と協働することが可能である。メッセージ受信コンポーネント１１０は、フィルタ１３０と連携して、メッセージ（ＩＭ）を処理し、メッセージのフィルタリング済みのサブセット（ＦＩＬＴＥＲＥＤＩＭと表す）を宛先の受信者１２０に提供する。

フィルタ１３０は、フィードバックループシステムを使用して訓練されていることが可能であることに留意されたい。詳細には、フィルタ１３０は、信頼されたユーザフィードバックに少なくともある程度、基づき、スパムを識別するだけでなく、スパムメールと良好なメールを区別するようにも前もって訓練されている。機械学習システムは、良好なメッセージとスパムメッセージの両方に関するユーザフィードバックを含む訓練データを利用することにより、そのようなフィルタ群１３０の訓練を実施する。

１つまたは複数のフィルタ１３０は、着信メッセージについて十分な情報を有する場合、メッセージにより正確にスコアを付け、メッセージがスパムである、またはスパムではない（例えば、良好）と分類することができる。このため、宛先の受信者１２０に配信されるメッセージのサブセット（ＦＩＬＴＥＲＥＤＩＭ）に関して、フィルタ群１３０は、メッセージが良好であったと判定するのに十分な量の情報を含むと結論することができる。同様に、着信メッセージの別のサブセットが、スパムとして識別されて、適切な形で破棄されることが可能である（図示せず）。

あいにく、スパム発信者、および正当な送信者でも、それほどではないにせよ、自らの送信者情報のいくらかの部分を他の部分よりも頻繁に変更する傾向がある。例えば、スパム発信者は、スパムフィルタ群を欺こうとして、または通り抜けようとして、自らのＩＰアドレス、ドメイン名、およびメッセージ内容など、自らのメッセージの多くの態様を偽装する、または改変する傾向が非常に強い。逆に、一部の正当な送信者は、自らのＩＰアドレスをロジスティック上（ｌｏｇｉｓｔｉｃａｌ）の理由で変更する。例えば、ニューヨークタイムズ社は、増加した数のオンライン加入者に対応するのに必要とされる新しいサーバ群の追加のため、ときどきＩＰアドレスを変更することが知られている。着信メッセージの少なくともサブセットにおけるこれらのタイプの変更に起因して、フィルタ群１３０は、メッセージについて、スパム確率スコア（例えば、メッセージがスパムである確率）を正確に算出するのに十分な情報を有さない可能性がある。その結果、情報の欠如のため、メッセージを正確に分類することができない。

従来のスパム防止システムとは異なり、分類のための情報を欠いたメッセージは、本発明では、それらのメッセージについてさらなる情報が収集されている間、遅らせる、つまり強制隔離する（将来の分析のためにフラグを付ける）ことができる。強制隔離されたメッセージは、強制隔離期間中に収集された情報でフィルタ群１３０を更新することができるまで、ある期間（例えば、遅延期間または強制隔離期間）にわたって遅延メッセージストア１４０に移動させることができる。遅延メッセージストアは、他の何らかのストア、例えば、迷惑メッセージフォルダ、またはサーバ上のキュー（ｑｕｅｕｅ）と同一であることが可能である。このストアの中の強制隔離されたメッセージに特別にマークを付けること、あるいはこのフォルダまたはキューの中のすべてのメッセージに、あたかもそれらのメッセージが強制隔離されているかのように、定期的にスコアを付けなおすことができる。

獲得することができるいくつかのタイプの情報が存在する。１つのタイプは、細流（ｔｒｉｃｋｌｅｏｕｔ）コンポーネントである。強制隔離されたメッセージに関するユーザフィードバックには、強制隔離されたメッセージの少なくともサブセットが、メッセージの宛先の受信者に配信するために、強制隔離から「少しずつ流れ出て（ｔｒｉｃｋｌｅｏｕｔ）」出ること、またはフィルタ分類プロセスを迂回することが許される細流機構を使用することが関わる。少しずつ出されるメッセージは、一つには、宛先の受信者（例えば、ランダムなユーザまたは選択されたユーザ１５０）が、スパムフィルタ群を訓練するためのフィードバックループシステムの参加者であるということに基づいて選択されることが可能である。代替として、またはさらに、少しずつ出されるメッセージをランダムに選択することもできる。

別の形態のデータが、フィードバックループである。フィードバックループコンポーネント１７０が、ユーザ（例えば、フィードバックループに参加している受信者）からの将来のフィードバックのために、強制隔離されたか、削除されたかなどにかかわらず、メールの一部分を選択する。フィードループコンポーネント１７０は、フィルタ群を構築すること、および／または更新することを実施するフィルタ更新コンポーネント１６０にデータを与える。上記の「スパム防止のためのフィードバックループ」で説明したとおり、それらのメッセージに関してユーザに明示的にクエリを行うことができる。

さらに別の形態のデータが、ハニーポット１８０（例えば、ハニーポットコンポーネント）から来ることが可能である。メッセージがメッセージ受信コンポーネント１１０に着信すると、一部のメッセージが、ハニーポットコンポーネント１８０に流れ込むことが可能である。一般に、ハニーポットの中で見つかるメッセージは、通常、スパムである可能性がある。このため、それらのメッセージを識別する情報を、フィルタ群を更新する、または構築する際にフィルタ更新コンポーネント１６０によって後に使用されるように、収集することができる。

データは、「これは迷惑メッセージである」、「これは迷惑メッセージではない」を含む他のソース１８５から、または新しい設定において展開されたフィードバックループ技術から、またはその他のソースから来ることも可能である。

ユーザフィードバックが、フィルタ更新コンポーネント１６０によって収集され、次に、フィルタ１３０を更新するのに使用されることが可能である。強制隔離期間は、一定の時間を有することが可能であることを理解されたい。例えば、強制隔離期間は、１時間、６時間、または２４時間などの任意の時間の長さに自動的に、または手動で設定されることが可能である。これは、メッセージが遅延メッセージストア１４０に移動された後、１時間、６時間、または最大で２４時間以上の時間にわたって情報が収集されることが可能であることを意味する。一部のケースでは、少しずつ出されたメッセージに対してユーザの苦情がないことにより、メッセージ（例えば、送信者別で同一のメッセージの複数のコピー、または多くの異なるメッセージ）が、正当である可能性がより高く、スパムである可能性がより低いことが示されることが可能である。

ユーザフィードバックに加え、情報は、遅延メッセージストア１４０に動作上、接続されたメッセージ分析コンポーネント１９０によって収集されることも可能である。メッセージ分析コンポーネント１９０は、強制隔離されたメッセージを、送信者ごとの量、ならびに強制隔離されたメッセージ間の類似点について監視し、メッセージをメッセージの内容および／または発信元情報についても分析することができる。例えば、少量で（例えば、１時間当たり２０未満、１時間当たり５０未満、１時間当たり１０００未満など）送信されたメッセージは、スパム発信者の行動としてより典型的な、大量に（例えば、１時間当たり１００００、１時間当たり１０００００など）送信されたメッセージより、スパムである可能性が低い。このため、特定の送信者が少量のメッセージを送信しているという情報が、送信者について学習される情報であり、フィルタ群１３０を更新するのに使用されて、将来、その送信者のメッセージが、疑わしいと見なされず、良好であると分類されることが可能であるようになることが可能である。

さらに、強制隔離されたメッセージの少なくともサブセットに関してハッシュ関数を計算して、送信者別などでメッセージ間の類似度を算出することができる。例えば、強制隔離されているメッセージを、内容に基づいて、または送信者に基づいて、他の最近のメッセージと比較することができる。同一の、または類似するハッシュを有する、あるいは同一の、または類似するユーザからの他の最近のメッセージが、ユーザによって迷惑メッセージであると報告された、フィードバックループにおいて迷惑メッセージであると分類された、またはハニーポットに着信した場合、そのメッセージは、スパムであると分類することができる。類似するメッセージが、良好であるとマークを付けられた、あるいは強制隔離フォルダまたは迷惑メッセージフォルダから救出された、またはフィードバックループにおいて良好であると分類された場合、そのメッセージは、良好であると分類することができる。多くの類似するメッセージがメッセージ受信コンポーネントに着信した場合、そのようなメッセージの量が、メッセージがスパムであることのインジケータとなることが可能である。多くの類似するメッセージが、ユーザ受信トレイに配信され（例えば、細流を介して）、いずれにも、または少数にしか、迷惑メッセージとしてユーザによりマークが付けられていない場合、そのことを、メッセージが良好であったことのインジケータと解釈することができる。類似するメッセージがハニーポットに全く着信していない場合、そのことを、メッセージが良好であることのインジケータと解釈することができる。

強制隔離期間が終了すると、フィルタ群１３０をそれに応じて更新することができ（例えば、更新されたフィルタを第２の分類コンポーネントと呼ぶことができる）、強制隔離されたメッセージを、スパムである、または良好であると分類するために再びフィルタリングすることができる。強制隔離されたメッセージに関するフィードバックから生成された訓練データに少なくともある程度、基づくフィルタ更新は、ユーザ（例えば、個人用フィルタの場合）、クライアント、および／またはサーバによって決められた頻度で行われることが可能である。フィルタ更新を強制隔離期間の長さと一致するように設定することも可能であり、その逆も同様に可能である。

次に図２を参照すると、メッセージ分類を実施する強制隔離システム２００のブロック図が示されている。システム２００は、１つまたは複数のメッセージフィルタ２１０を含み、これらのフィルタ２１０を介して新しいメッセージがスパムである、または良好であると分類されるように処理される。閾値分析などによってスパムまたは良好のいずれの下にも明確に当てはまらないメッセージは、疑わしいと見なすことができ、メッセージまたはメッセージ送信者に関するさらなるデータがフィルタ２１０に提供されることが可能になるまで、特別強制隔離フォルダ２２０に移動される。これは、メッセージ救出システムとは極めて対照的（ｉｎｄｉｒｅｃｔｃｏｎｔｒａｓｔｔｏ）である。本発明とは異なり、メッセージ救出を実行するシステムは、不確実なメッセージをスパムとして分類して、スパムフォルダに移動させる。そのような「スパム」メッセージは、誰かが非常に類似したメッセージを良好であると分類したという理由で、後に救出される。本発明では、メッセージは、「疑わしい」と見なされることが可能であり、スパムまたは良好としての分類は、メッセージについてさらに学習する時間を与えるために一時的に遅延される。

使用することができる１つの学習技術は、疑わしいメッセージに付いて追加のデータ２３０を受け取ることに関わる。一部の状況では、一部の疑わしいメッセージが、メッセージの宛先の受信者に対して解放される（少しずつ出される）ことが可能である。代替として、フィードバックループを使用して、一部のメッセージをサンプリングしてもよい。代替として、一部のデータが、ハニーポットに配信されてもよい。代替として、データが、「これは迷惑メッセージである」報告から、「これは迷惑メッセージではない」報告から、または新しい設定において展開されたフィードバックループ技術から、または他のソースから来てもよい。

他の状況では、ユーザは、ユーザの強制隔離メッセージフォルダへのアクセスを有することが可能である。これが該当する場合、ユーザは、強制隔離されたメッセージの少なくともサブセットに関するフィードバックを提供することができる。すると、類似したメッセージに類似した扱いを与えることができ、ユーザが、すべての強制隔離されたメッセージに関するフィードバックを提供しなくてもよいようになる。これは、比較的重要である可能性がある。というのは、数千のメッセージが強制隔離される可能性があり、このため、スパムまたは良好としてのメッセージの分類が一時的に遅延されているからである。

フィードバックは、特定のメッセージに対する何らかのアクセスを有したユーザからの肯定的なコメント、または否定的なコメントの形態であることが可能である。例えば、肯定的なコメントは、メッセージが良好であるという確認「ステートメント」を含むことが可能である。さらに、肯定的なコメントは、類似の情報に対する新しい否定的コメントの欠如、および／または新しい苦情の欠如を含むことが可能である。

強制隔離されたメッセージに関するシステムフィードバックも収集することができる。これには、量（少量のメッセージ、または大量のメッセージ）、他の強制隔離されたメッセージに対するメッセージの類似性、および／またはハニーポットメッセージに対するメッセージの類似性などの特徴に関して、強制隔離フォルダ２２０の中のメッセージの少なくともサブセットを監視することで収集されたデータが含まれる。この情報が、あらゆる利用可能なユーザフィードバックと合わせて、フィルタ更新コンポーネント２４０によってそれぞれの特徴（または訓練データ）として利用されて、フィルタ２１０が訓練され、更新されることが可能である。その後、更新されたフィルタ群２５０を生成することができる。強制隔離されたメッセージは相当な部分が、更新されたフィルタ２５０を通過させられて、分類プロセスが再開されることが可能である。このため、分類が終わると、示されたスパムを強制隔離フォルダから永久に削除する、または削除のためにごみ箱２６０に送ることができる。第１の配信コンポーネント２７０は、メッセージの宛先の受信者に配信するために、「良好な」メッセージを強制隔離から解放することができる。強制隔離フォルダが迷惑メッセージフォルダも兼ねているのではない場合、強制隔離されたメッセージは、第２の配信コンポーネント２８０によって迷惑メッセージフォルダに入れられることが可能である。強制隔離フォルダが迷惑メッセージフォルダである場合、強制隔離されたメッセージから、特別な「強制隔離」フラグが除去されることが可能である。

図３は、本発明の態様による強制隔離システム３００に関連する利点の別の図を示す。詳細には、図は、新しい着信メッセージがとることが可能な１つの特定の進路を概略で示す。メッセージは、最初、フィルタ３１０を介して処理される。フィルタは、例えば、確率スコアを計算することにより、良好なメッセージ３２０とスパムメッセージ３３０を区別するように訓練されている。ただし、一部のメッセージは、スパムである、または良好であると明確に分類される境界線（ｅｄｇｅ）に該当する可能性がある。それらは、疑わしいメッセージ３４０であることが可能である。そうである１つの理由は、単に、メッセージが、フィルタが前に見たことのない、または認識しない態様または特徴を含むという理由で、メッセージに関する情報をフィルタが欠いている可能性があることである。それらの特定のメッセージに関して、スパム３３０である、または良好３２０であるという分類は、ある期間、遅延される（３５０）。この期間は、フィルタが、メッセージについてさらなる情報を学習してから（３６０）、スパムの分類または良好の分類に取り組むことを可能にする。この結果、分類誤り率を低下させ、ユーザの満足度を高めることができる。というのは、以前に見たことのない「良好な」メッセージが、単に無知なフィルタ、または適切な情報を欠いているフィルタに起因して、恣意的に「スパム」として分類されないからである。

フィルタは、更新されることが可能であり（３７０）、メッセージが良好３８０である、またはスパム３９０であるという分類が再開されることが可能である。期間は、強制隔離されたメッセージを良好である、またはスパムであると分類するのを容易にするように、さらなるデータが獲得されることが可能であり、獲得されるだけ十分に長くなければならないことを理解されたい。つまり、「疑わしい」というラベルは、強制隔離期間が経過した後、もはや利用可能でない、または強制隔離されたメッセージに適用可能でない可能性がある。

次に図４を参照すると、メッセージの分類および強制隔離の一時的な遅延をもたらす可能性がある典型的な実例の概略図４００が存在する。メッセージは、最初にメッセージ受信コンポーネント（例えば、図１、１１０）に着信すると、１つまたは複数のフィルタによって評価された後、スコアを付けることが可能である。確率スコアとは、特定のメッセージがスパムである尤度を指す。このスコアを、削除閾値や移動閾値などの閾値と比べることができる。

削除閾値を満たす、または超えるメッセージは、スパムである、または少なくともよりスパム発信者らしいと見なすことができる。０＝良好なメッセージという完全な確率スコアと、１＝スパムメッセージまたは迷惑メッセージという完全なスコアを所与として、０からおよそ０．８までの計算スコアが良好なメッセージ（または迷惑メッセージフォルダに入れる危険を冒すには良好である可能性が高すぎるメッセージ）を反映し（そのため、配信され）、およそ０．８からおよそ０．９９までのスコアが迷惑メッセージである確度の高いメッセージを反映し（そのため、迷惑メッセージフォルダに入れることができる）、およそ０．９９から１までのスコアが迷惑メッセージまたはスパム（そのため、高い確かさで削除されることが可能である）を反映すると定めることができる。スパムまたは良好の境界線（ｅｄｇｅ）にある、またはその近くにある、あるいは何らかの構成可能なアクションが定義された閾値にある、またはその近くにあるメッセージを強制隔離のために選択することができる。さもなければ、何らかの特別な形でメッセージにマークを付ける、またはメッセージを調査するようにメッセージ管理者に送るなどの、他の何らかの構成可能なアクションが行われることが可能である。

新しいＩＰアドレスをフィルタが以前に見たことがないというような理由で疑問の余地があると見なされる一部のメッセージに関して、強制隔離は、役立つ可能性も、役立たない可能性もある。つまり、一部のメッセージは、境界線に近いが、それらのメッセージのスコアは、それらのメッセージについてさらなる情報が学習された後でも、スパムである、または良好であるとの明確な分類をもたらすように、あまり変化しない可能性がある。例えば、架空の送信者、ＬａｒｇｅＧｏｏｄＮｅｗｓｐａｐｅｒＣｏｒｐおよびＭｏｓｔｌｙＥｖｉｌＳｐａｍｍｅｒＩｎｃ．からのメッセージを考慮されたい。ＬａｒｇｅＧｏｏｄＮｅｗｓｐａｐｅｒＣｏｒｐからのメッセージには、２５％のスパムである尤度（閾値）が割り当てられ、他方、ＭｏｓｔｌｙＥｖｉｌＳｐａｍｍｅｒＩｎｃ．からのメッセージには、８０％の尤度が割り当てられる。これらのパーセンテージは、以前に獲得され、フィルタ群を訓練するのに使用された（機械学習技術により）大量の情報または訓練データに基づく。ＬａｒｇｅＧｏｏｄＮｅｗｓｐａｐｅｒＣｏｒｐは、明らかに自らのリストをデバウンス（ｄｅｂｏｕｎｃｅ）せず、したがって、フィルタユーザのおよそ１／４が、そのメッセージにスパムとしてマークを付ける（例えば、一部のユーザは、加入したことを忘れ、メッセージにスパムとしてマークを付ける）。このため、フィルタは、ＬａｒｇｅＧｏｏｄＮｅｗｓｐａｐｅｒＣｏｒｐのメッセージにおよそ２５％のスパムである確率を与え、この確率は、フィルタ群を通過するだけ十分に低いが、強制隔離されるのに十分なだけ高い可能性がある。しかし、それらのメッセージは、一貫して２５％レベルにあり、フィルタは、さらなる情報が獲得されるかどうか、または翌日、それらのメッセージに関するスコアが変化しているかどうか成り行きを見守るので、すべての受信者にＬａｒｇｅＧｏｏｄＮｅｗｓｐａｐｅｒＣｏｒｐの見出しを１日、またはそれより遅れて与える必要はない。同様に、ＭｏｓｔｌｙＥｖｉｌＳｐａｍｍｅｒＩｎｃ．からのメッセージは、毎日、一貫して８０％スパムである。このため、以上の状況のいずれにおいても、強制隔離は、行われるべき最適のアプローチ、または最も効率的なアプローチではない可能性がある。というのは、追加の情報により、いずれの分類も代わる可能性が低いからである。

したがって、メッセージについて比較的大量のデータが既に知られている場合、ユーザまたはフィルタシステムは、追加の情報が分類の変更をもたらす可能性が低いため、強制隔離を行わないと決めることができる。大量のデータとは、ＩＰアドレス、メッセージの中のリンク、送信者のドメイン名（特にスプーフィング防止（ａｎｔｉ−ｓｐｏｏｆｉｎｇ）機構と組み合わせられる場合）、メッセージの中の語、および他のあらゆる特徴に関連する任意のデータを指すことが可能である。このため、検査されている特徴に関して、強制隔離を行うか否かの決定を行うのを容易にする送信者別の特徴に関する大量の情報を、フィルタが既に有するかどうかを判定することができる。

しかし、閾値までの距離は、いつ強制隔離を行うかを決める唯一の答えではない。より具体的には、メッセージのＩＰアドレスを考慮されたい。ＩＰアドレスが以前に見られていない場合、メッセージは、通常、強制隔離されることが可能である。メッセージのその他の特徴に基づいてメッセージが明らかにスパムである、または良好であるのではない場合、前に見られていないＩＰアドレスを有するメッセージが受信された場合、以下の３つの可能性が存在する。すなわち、
・アドレスは、少量ＩＰアドレス（例えば、おそらく、小企業用または個人用のサーバであり、スパムではないか、または少なくとも非常に対象を限ったスパムである）である。
・アドレスは、大きい正当な会社が、さらなるサーバ群を追加した際のその会社の新しいＩＰアドレスであり（例えば、ニューヨークタイムズ社）、やはりスパムではない。
・アドレスは、スパム発信者のＩＰアドレスである。

数時間でも待つことにより、フィルタは、おそらく、以上の３つの可能性を区別し、非常に貴重な情報を得ることができる。既知のＩＰアドレスに関しては、メッセージが極めて広い範囲に入る場合でも、メッセージを遅らせる（一時的に強制隔離する）ことが望ましい可能性がある。送信者のドメインも同様の形で扱うことができる。スプーフィング防止技術がより普及するにつれ、一部の疑問の余地があるメッセージの真の送信者を確かめるためにも、メッセージを強制隔離することができる。さらに、送信者のＩＰアドレスに関するリバースＩＰアドレスエントリが存在せず、かつ／または送信者のドメインに関する前方参照が、送信者のＩＰアドレスと少なくともほぼ一致しない場合、メッセージを強制隔離することができる（４３０）。

スパムの別の実質的なインジケータは、特にリンクに埋め込まれたドメインの存在である。メッセージが、前に全く、またはほとんど見られていないドメイン名を含む場合、メッセージは、疑わしいと見なすことができる。ＩＰアドレスの場合と全く同様に、そのようなメッセージの配信を遅らせることは、メッセージをスパムである、または良好であると適切に分類するのに役立つ可能性がある。一部のタイプの添付ファイル（４４０）は、特に疑わしく（例えば、ウイルスに特有である）、そのような拡張子（例えば、実行可能ファイル、または埋め込まれたマクロを有するドキュメントファイル）を含むメッセージは、強制隔離することができる。

強制隔離は、キーワードベースのフィルタリングの穴を使用する試みを検出することもできる。例えば、スパム発信者が、多くの良好な語を見出し、それらの良好な語を自分のメッセージに追加したが、いくつかの不良な語が、依然として検出可能である場合、そのメッセージは、疑わしいと見なすことができる（全体的に良好なスコアを有していても）。メッセージは、例えば、数時間、分類を遅らせることができ、フィードバックループシステムを介して、その種類の多くのメッセージを発見することができる。その後、フィルタは、そのタイプのメッセージが実際に不良であると学習することができる。このタイプのスパム発信者戦術に対抗するため、以前に良好であると考えられた語に少なめに重みを付けて、メッセージの発信元が不良であるとフィルタが学習することなどができる。つまり、メッセージが、矛盾する証拠を含むために機械学習フィルタには難しいタイプであるように見える場合、そのメッセージを強制隔離することができる。さらに、解析するのが困難である可能性があるＨＴＭＬを含む、または主にイメージを含むため、いずれの種類のフィルタにも困難であるように見えるいずれのメッセージも、強制隔離することができる。全体的に、複数の特徴の評価を実行してから、メッセージを強制隔離するかどうかを決定することができる。

一般に、個々のユーザは、比較的少数の場所から、少数の言語でメッセージを受信する傾向がある。個人用フィルタ群に関して、ユーザが、通常、良好なメッセージを受け取らない場所から、または、通常、良好なメッセージを受け取らない言語でメッセージを受け取った場合、そのメッセージも強制隔離することができる。場所は、地理的場所、ＩＰアドレス、ＩＰアドレス割り当て情報、ＦＲＯＭドメイン名における国コードなどにある程度、基づいて特定することができる。

次に図５を参照すると、本発明に従って少なくともサーバ上で強制隔離が使用される、少なくとも１つのサーバと少なくとも１つのクライアントの間における典型的な高レベル通信アーキテクチャ５００が示されている。一部のケースでは、メッセージが既に強制隔離されていることを何らかの形で示すことが望ましい可能性がある。例えば、クライアントとサーバがともに強制隔離を実施する場合、クライアントが、サーバにおいて既に強制隔離済みであるメッセージを強制隔離することは、望ましくない可能性がある。代替として、クライアントは、クライアントがメッセージを強制隔離する時間から、そのメッセージがサーバにおいて強制隔離される時間を差し引くことにより、強制隔離時間を適切に短縮することができる。

図に示すとおり、サーバに入ってくるメッセージは、１つまたは複数のフィルタ_Ｓ５１０を通過した後、クライアントに進むか、または分析および調査５２０のためにメッセージが保持される５３０強制隔離に進む。サーバからの、強制隔離された（その後、強制隔離から解放された）メッセージ、または強制隔離されなかったメッセージが、次に、クライアント上に配置されたフィルタ_Ｃ５４０に送られる。この時点で、メッセージは、適宜、単にフィルタ５４０によって分類された後、受信トレイ５５０に配信されることが可能である。

次に図６を参照すると、着信メッセージ６１０に関するメッセージプロセッサ６０５の動作に関わる強制隔離システム６００の概略図が示されている。メッセージ６１０は、メッセージの着信の日付と時刻をタイムスタンプされた後（６１５）、メッセージプロセッサ６０５の中に入り、フィルタリングされる（６２０）。メッセージには、そのメッセージに関する情報が欠如していることから、強制隔離のマークが付けられる（６３０）。強制隔離の結果、スパムである、または良好であるというメッセージの分類は、遅延期間の時間にわたって遅延される。

遅延期間（６３５）は、メッセージに強制隔離のマークが付けられると始まり、システムまたはユーザによって設定された任意の時間にわたって続くことが可能である。例えば、フィルタは、次回のフィルタ更新（スケジュールされた更新）にある程度、基づき、推奨される強制隔離時間を提供することができる。強制隔離は、ＡＰＩ（アプリケーションプログラミングインタフェース）を介して実施されることが可能であるため、適切なＡＰＩに送り込まれるｍ（例えば、１以上の整数）個の強制隔離時間（積極的、中程度、控えめ）を有することも可能である。ＡＰＩに関するさらなる説明は、図１０で以下に説明する。

遅延期間中、フィルタは、ユーザからフィードバックを収集すること、ならびに強制隔離で保持されるメッセージを監視すること、または分析することから得られた所見などにより、メッセージについてさらに学習することができる（６４０）。遅延期間が終了すると（６４５）、フィルタが更新されることが可能であり（６５０）、強制隔離されたメッセージが、良好である、またはスパムであると分類されることが可能である（６６０）。現在、良好であると分類されている強制隔離されたメッセージに関して、例えば、サーバによる受信の最初のタイムスタンプが、解放の日時および／または配信の日時よりも数時間、または数日早い可能性がある。これは、メッセージを受信／着信の日付順に並べ替えるユーザには、問題である可能性がある。このため、強制隔離から解放された「良好な」メッセージには、特に、強制隔離期間が、数時間を超えて続き、１日、または数日にわたった場合、メッセージの解放の日時もタイムスタンプすることができる（６７０）。そのようなメッセージは、例えば、両方の日時を含み、かつ／または、主にメッセージの解放の日時順に並べ替えられることが可能である。

次に、本発明による様々な方法を一連の動作を介して説明する。本発明は、動作の順序によって限定されないことを理解し、認識されたい。というのは、一部の動作は、本発明によれば、本明細書で図示し、説明するのとは異なった順序で行われることが可能であり、かつ／または他の動作と同時に行われることが可能だからである。例えば、方法は、代替として、状態図などで、一連の互いに関連する状態またはイベントとして表すこともできることが当業者には理解され、認識されよう。さらに、すべての例示した動作が、本発明による方法を実施するのに要求されるわけではない可能性がある。

図７を参照すると、疑わしいメッセージ、または疑問の余地があるメッセージの分類を遅らせることを実施する典型的なプロセス７００の流れ図が示されている。プロセス７００は、７１０で、スパムである、または良好であると分類するために着信メッセージを受け取ることに関わる。７２０で、メッセージをスパムである、または良好であると分類するのに十分な情報をフィルタが有するかどうかが、判定されることが可能である。「はい」である場合、７３０で、メッセージが分類されることが可能であり、続いて、７４０で、良好なメッセージが配信され、スパムメッセージが破棄されることが可能である。このプロセスは、着信メッセージが引続き受信されるにつれ、７１０で再開されることが可能である。安全リスト上の送信者からのメッセージは、メッセージがその他の点で疑わしく見えても、強制隔離されないことを理解されたい。ユーザは、特定のメッセージが一貫して強制隔離されている（送信者別に）ことに気付いた場合、送信者をそれぞれの安全リストに加えることができる。

しかし、７２０で情報の欠如がある場合、７５０で、分類が遅らせられ、メッセージは、遅延期間の時間中、強制隔離フォルダ、または他のタイプの特別なフォルダに移動されることが可能である。この遅延期間中、７６０で、メッセージ、またはメッセージの送信者についてのさらなる情報が収集されることが可能である。プロセスのこの段階に関するさらなる詳細は、以下の図８で見ることができる。収集されたあらゆる情報またはデータがフィルタにフィードバックされて、７７０で、フィルタが更新される（機械学習技術を介して）。以下の図９は、プロセスのこの段階に関するさらなる詳細について説明する。

メッセージに関するデータの収集は、遅延期間が終了する（７８０）まで続く。遅延期間が終了すると、７９０で、更新されたフィルタ群を使用して、メッセージ（または少なくともサブセット）がスパムである、または良好であると分類されることが可能である。７４０で、スパムメッセージが破棄され、良好なメッセージが配信されることが可能である。

次に図８を参照すると、上記の図７の７６０におけるように収集することができる典型的なタイプの情報の流れ図が示されている。例えば、８１０で、メッセージ量を監視して、送信者が少量送信者であるか、大量送信者であるかが判定されることが可能である。さらに、送信者別のメッセージが送信されるレートは、スパム発信者らしい挙動を示すものであることも可能である。例えば、１時間当たり数百の電子メールを送信することは、１時間に数千の電子メールを送信することと極めて対照的（ｄｉｒｅｃｔｌｙｃｏｎｔｒａｓｔｓｗｉｔｈ）である。

８２０で、強制隔離されたメッセージは、ハニーポットメッセージとも比較されることが可能である。ハニーポットは、スパムメッセージの信頼できるソースであることを思い起されたい。このため、ハニーポットメッセージに似た強制隔離されたメッセージは、よりスパムらしい可能性がある。この情報は、メッセージをどのように分類するかを決める際、フィルタに極めて役立つ可能性がある。

８３０で、ユーザは、強制隔離されたメッセージの少なくともサブセットがスパムであるか否かについてユーザの入力を提供する機会を与えられることが可能である。詳細には、強制隔離システムは、ユーザの苦情について調べる目的で、いくつかのメッセージが強制隔離から少しずつ出されるか、またはフィルタを通る（強制隔離を迂回して）ことが許されるように設計されることが可能である。例えば、新しいＩＰアドレスからのメッセージが検出された場合、フィルタは、最初の１０００のメッセージ、または１００００のメッセージさえ、強制隔離なしでフィルタを通ることを許すようにプログラミングされることが可能である。代替として、メッセージの一定のパーセンテージを通すこともできる。後に、同一のＩＰアドレスからのメッセージは、十分な数のユーザが、メッセージを検査し、メッセージがスパムであった場合、苦情を言う時間を有するまで、強制隔離される。十分な時間が経過した後、良好である、またはスパムであると分類する判定が行われることが可能である。

８５０で、強制隔離されたメッセージが、類似性について分析されることが可能である。詳細には、それらのメッセージ（または少なくともサブセット）に関するハッシュ値が計算されて、異なる送信者の間、および送信者別に、いずれのメッセージが互いに類似しているかが特定されることが可能である。大量の類似したメッセージは、スパムを示すことが可能であり、この情報を使用してフィルタを更新することができる。さらに、強制隔離されたメッセージを、スパムである、または良好であると分類済みの最近、強制隔離されたメッセージと比較することができる。類似したメッセージが見つかった場合、それらのメッセージを強制隔離から取り出し、より早期の同類のメッセージ（ｃｏｕｎｔｅｒｐａｒｔ）が分類されたとおりに分類することができる。さらに、送信者分析（例えば、送信者ＩＰアドレス）に基づいてメッセージを比較することもできる。

８６０で、フィードバックループデータが収集される。いくつかのメッセージが着信するにつれ、メッセージを良好である、またはスパムであると類別するように受信者に明確に求める特別なクエリが受信者に送られる。

図９は、強制隔離中に収集された情報をどのように利用して、メッセージの分類を改良することができるかを略述する典型的なプロセス９００の流れ図を示す。９１０で、例えば、その情報を機械学習技術に関連して訓練データとして使用して、スパムフィルタを効果的に更新することができる。スパムフィルタを更新することにより、メッセージのスパムまたは良好としての分類を改良して、偽の良好の分類、または偽のスパムの分類を抑えることができる。代替として、またはさらに、９２０で、獲得された情報の少なくともサブセットを使用して、最近、強制隔離されたメッセージのための新しいスパムフィルタ（サブフィルタ）を構築する、または訓練することができる。

さらに、強制隔離に関して機械学習アプローチを使用することができる。詳細には、プロセス（または関連するシステム）が、各メッセージに関して、強制隔離がメッセージの分類を変えることになるかどうかを記録することができる。変えることになった場合、メッセージは、強制隔離されるべきであったことになり、変えることにならなかった場合、メッセージは、強制隔離されなくてもよかったことになる。その後、プロセスおよび／またはシステムは、このデータに基づき、いずれのメッセージが強制隔離されるべきかを学習することができる。この機械学習アプローチは、強制隔離のために役立つ可能性があるあらゆる特別な特徴を考慮に入れることができる。典型的な特徴には、大量（ｈｉｇｈｖｏｌｕｍｅ）ＩＰアドレス、メッセージのＩＰアドレス（メッセージがＭｏｓｔｌｙＥｖｉｌＳｐａｍｍｅｒＩｎｃ．またはＬａｒｇｅＧｏｏｄＮｅｗｓｐａｐｅｒＣｏｒｐからである場合、分類は安定している傾向があることが分かっている）、未知のＩＰアドレスから、または未知のドメイン名を含むこと、多くの良好な特徴および不良な特徴を含むことなどが含まれるが、以上には限定されない。

次に図１０を参照すると、本発明の態様を実行するように少なくとも部分的にＡＰＩで実装することができる典型的なプロセス１０００の流れ図が示されている。プロセス１０００は、１０１０で、各着信メッセージに関してスパム確率を計算することを伴う。１０２０で、それぞれの計算されたスパム確率（スコア）に少なくともある程度、基づき、特定のメッセージを強制隔離するかどうかをフィルタが決定することができる。１０３０で、強制隔離時間が、以下の少なくとも１つに少なくともある程度、基づいて推奨されることが可能である。すなわち、
・メッセージがスパムである確率（スコア）
・次回のフィルタ更新の時刻、次回のフィルタダウンロードの時刻（その時点で、フィルタは、強制隔離を続けるか、それとも最終的な決定を行うか判断し、最終的な決定が行われるまで繰り返すことができる）、および／または
・不確実さのレベルである。

代替として、またはさらに、ｍ個の強制隔離時間（積極的、中程度、および／または控えめ）をＡＰＩに送り込むことができる。強制隔離するかどうか、およびどれだけの期間、強制隔離するかについての推奨は、ＡＰＩに送り込まれる値によって知らされることが可能である。（スパム）フィルタは、メッセージがスパムであるかどうか、ならびにどれだけの期間、メッセージを強制隔離するかどうかを含め、メッセージが強制隔離されるべきかどうかに関する情報を返すことができる。最初、推奨される強制隔離時間は、単にスパム確率に基づくことが可能であるが、前述したような他の要因も考慮することができる。

サーバとクライアントはともに、自らのフィルタ群に関して強制隔離を実施することができる。このため、サーバとクライアントがともにそのようなフィルタ群を使用し、サーバがメッセージを強制隔離する場合、１０４０で、その情報が、クライアントフィルタに通信されることが可能である。さらに、クライアントフィルタも強制隔離を行う場合、サーバ上の強制隔離時間の長さをクライアントフィルタに通信して、１０５０で、特定のメッセージに対して、サーバ強制隔離時間だけクライアント強制隔離時間を短縮すること、または呼び出さないこと、または適用しないことが可能である。

さらに、フィルタまたはスパムフィルタによるメッセージ分類の一時的な遅延は、特に、スパム防止を実施するより堅牢なフィルタリング機構をもたらす。さらに、良好なメッセージの配信の不要な遅延が、ユーザの不満を和らげる。というのは、すべての疑問の余地のあるメッセージが強制隔離を受けるわけではないからである。代わりに、いくつかの要因および／または技術が、フィルタまたはフィルタリングシステムによって前述したとおり使用されて、インテリジェントな強制隔離システムが実現されることが可能である。

本発明の様々な態様のさらなる文脈を提供するため、図１１および以下の説明は、本発明の様々な態様を実施することができる適切な動作環境１１１０の簡単で、一般的な説明を提供することを意図している。本発明を、１つまたは複数のコンピュータまたは他のデバイスによって実行される、プログラムモジュール群などのコンピュータ実行可能命令の一般的な文脈で説明するが、本発明は、その他のプログラムモジュール群と組み合わせて、かつ／またはハードウェアとソフトウェアの組み合わせとして実施することもできることが、当業者には認識されよう。

しかし、一般に、プログラムモジュールには、特定のタスクを実行する、または特定のデータ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。動作環境１１１０は、適切な動作環境の一例に過ぎず、本発明の用途または機能の範囲について何ら限定を示唆するものではない。本発明で使用するのに適する可能性があるその他の周知のコンピュータシステム、コンピュータ環境、および／またはコンピュータ構成には、パーソナルコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラマブル家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、以上のシステムまたはデバイスを含む分散コンピューティング環境が含まれるが、以上には限定されない。

図１１を参照すると、本発明の様々な態様を実施するための典型的な環境１１１０が、コンピュータ１１１２を含む。コンピュータ１１１２は、処理装置１１１４、システムメモリ１１１６、およびシステムバス１１１８を含む。システムバス１１１８は、システムメモリ１１１６から処理装置１１１４までを含むが、それらには限定されないシステムコンポーネントを結合する。処理装置１１１４は、様々な利用可能なプロセッサのいずれであることも可能である。デュアルプロセッサ、およびその他のマルチプロセッサアーキテクチャも、処理装置１１１４として使用することができる。

システムバス１１１８は、それだけに限らないが、１１ビットバス、インダストリアルスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｉａｌＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）（ＩＳＡ）、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）（ＭＣＡ）、エクステンデッドＩＳＡ（ＥｘｔｅｎｄｅｄＩＳＡ）（ＥＩＳＡ）、インテリジェントドライブエレクトロニクス（ＩｎｔｅｌｌｉｇｅｎｔＤｒｉｖｅＥｌｅｃｔｒｏｎｉｃｓ）（ＩＤＥ）、ＶＥＳＡローカルバス（ＶＬＢ）、ペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）（ＰＣＩ）、ユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）（ＵＳＢ）、アドバンストグラフィックスポート（ＡｄｖａｎｃｅｄＧｒａｐｈｉｃｓＰｏｒｔ）（ＡＧＰ）、パーソナルコンピュータメモリカードインターナショナルアソシエーション（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒＭｅｍｏｒｙＣａｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡｓｓｏｃｉａｔｉｏｎ）バス（ＰＣＭＣＩＡ）、およびスモールコンピュータシステムズインターフェース（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓＩｎｔｅｒｆａｃｅ）（ＳＣＳＩ）が含めて、メモリバスもしくはメモリコントローラ、周辺機器バスもしくは外部バス、および／または任意の様々な使用可能なバスアーキテクチャを使用するローカルバスを含む、いくつかのタイプのバス構造のいずれかとすることができる。

システムメモリ１１１６は、揮発性メモリ１１２０および不揮発性メモリ１１２２を含む。始動中などに、コンピュータ１１１２内部の要素間で情報を転送する基本ルーチンを含む基本入出力システム（ＢＩＯＳ）が、不揮発性メモリ１１２２の中に格納される。例として、限定としてではなく、不揮発性メモリ１１２２には、読み取り専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的にプログラミング可能なＲＯＭ（ＥＰＲＯＭ）、電気的に消去可能なＲＯＭ（ＥＥＰＲＯＭ）、またはフラッシュメモリが含まれることが可能である。揮発性メモリ１１２０には、外部キャッシュメモリとして動作するランダムアクセスメモリ（ＲＡＭ）が含まれる。例として、限定としてではなく、ＲＡＭは、シンクロナス（ｓｙｎｃｈｒｏｎｏｕｓ）ＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、シンクロナスＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレート（ｄｏｕｂｌｅｄａｔａｒａｔｅ）ＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、エンハンスト（ｅｎｈａｎｃｅｄ）ＳＤＲＡＭ（ＥＳＤＲＡＭ）、シンクリンク（Ｓｙｎｃｈｌｉｎｋ）ＤＲＡＭ（ＳＬＤＲＡＭ）、およびダイレクトラムバス（ｄｉｒｅｃｔＲａｍｂｕｓ）ＲＡＭ（ＤＲＲＡＭ）などの多くの形態で利用可能である。

コンピュータ１１１２は、リムーバブルな／リムーバブルでない、揮発性／不揮発性のコンピュータ記憶媒体も含む。図１１は、例えば、ディスクストレージ１１２４を示す。ディスクストレージ１１２４には、磁気ディスクドライブ、フロッピー（登録商標）ディスクドライブ、テープドライブ、Ｊａｚドライブ、Ｚｉｐドライブ、ＬＳ−１００ドライブ、フラッシュメモリカード、またはメモリスティックが含まれるが、以上には限定されない。さらに、ディスクストレージ１１２４には、コンパクトディスクＲＯＭデバイス（ＣＤ−ＲＯＭ）、書き込み可能なＣＤ（ＣＤ−ｒｅｃｏｒｄａｂｌｅ）ドライブ（ＣＤ−Ｒドライブ）、再書き込み可能ＣＤドライブ（ＣＤ−ＲＷドライブ）、またはデジタルバーサタイルディスクＲＯＭドライブ（ＤＶＤ−ＲＯＭ）が含まれるが、以上には限定されない他の記憶媒体とは別個の、または組み合わせの記憶媒体も含まれることが可能である。システムバス１１１８に対するディスク記憶装置群１１２４の接続を実施するため、インタフェース１１２６のようなリムーバブルなインタフェースまたはリムーバブルでないインタフェースが、通常、使用される。

図１１は、ユーザと適切な動作環境１１１０に示した基本的なコンピュータリソース群の間の仲介役として動作するソフトウェアを示す。そのようなソフトウェアには、オペレーティングシステム１１２８が含まれる。ディスクストレージ１１２４上に格納されることが可能なオペレーティングシステム１１２８は、コンピュータシステム１１１２のリソースを制御し、割り振るように動作する。システムアプリケーション群１１３０が、システムメモリ１１１６またはディスクストレージ１１２４に格納されたプログラムモジュール群１１３２およびプログラムデータ１１３４を介して、オペレーティングシステム１１２８によるリソースの管理を活用する。本発明は、様々なオペレーティングシステム、またはオペレーティングシステムの組み合わせを使用して実施できることを理解されたい。

ユーザは、入力デバイス１１３６を介してコマンドまたは情報をコンピュータ１１１２に入力する。入力デバイス群１１３６には、マウス、トラックボールなどのポインティングデバイス、スタイラス、タッチパッド、キーボード、マイク、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ、ＴＶチューナカード、デジタルカメラ、デジタルビデオカメラ、Ｗｅｂカメラなどが含まれるが、以上には限定されない。以上、およびその他の入力デバイス群は、インタフェースポート１１３８経由でシステムバス１１１８を介して処理装置１１１４に接続される。インタフェースポート１１３８には、例えば、シリアルポート、パラレルポート、ゲームポート、およびユニバーサルシリアルバス（ＵＳＢ）が含まれる。出力デバイス１１４０は、入力デバイス１１３６と同一タイプのポートのいくつかを使用する。このため、例えば、ＵＳＢポートが、コンピュータ１１１２に入力を与えるのに使用され、コンピュータ１１１２から出力デバイス１１４０に情報を出力するのに使用されることが可能である。特別なアダプタを要する出力デバイス群１１４０のなかでとりわけ、モニタ、スピーカ、およびプリンタのようないくつかの出力デバイス１１４０が存在することを例示するため、出力アダプタ１１４２を提供している。出力アダプタ群１１４２には、例として、限定としてではなく、出力デバイス１１４０とシステムバス１１１８の間で接続の手段を提供するビデオカードおよびサウンドカードが含まれる。リモートコンピュータ１１４４のような他のデバイス群および／またはデバイスのシステムは、入力機能と出力機能をともに提供することに留意されたい。

コンピュータ１１１２は、リモートコンピュータ１１４４のような１つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境で動作することができる。リモートコンピュータ１１４４は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ワークステーション、マイクロプロセッサベースの器具、ピアデバイス、またはその他の一般的なネットワークノードなどであることが可能であり、通常、コンピュータ１１１２に関連して説明した要素の多く、またはすべてを含む。簡明にするため、メモリ記憶装置１１４６だけをリモートコンピュータ１１４４とともに示す。リモートコンピュータ１１４４は、ネットワークインタフェース１１４８を介してコンピュータ１１１２に論理接続され、通信接続１１５０を介して物理接続される。ネットワークインタフェース１１４８は、ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）などの通信網を包含する。ＬＡＮ技術には、光ファイバ分散データインタフェース（ＦｉｂｅｒＤｉｓｔｒｉｂｕｔｅｄＤａｔａＩｎｔｅｒｆａｃｅ）（ＦＤＤＩ）、銅線分散データインタフェース（ＣｏｐｐｅｒＤｉｓｔｒｉｂｕｔｅｄＤａｔａＩｎｔｅｒｆａｃｅ）（ＣＤＤＩ）、イーサネット（登録商標）／ＩＥＥＥ１１０２．３、トークンリング／ＩＥＥＥ１１０２．５などが含まれる。ＷＡＮ技術には、ポイントツーポイントリンク、統合サービスデジタル網（ＩＳＤＮ）およびその変種のような回線交換網、パケット交換網、およびデジタル加入者線（ＤＳＬ）が含まれるが、以上には限定されない。

通信接続１１５０は、ネットワークインタフェース１１４８をバス１１１８に接続するのに使用されるハードウェア／ソフトウェアを指す。通信接続１１５０は、図を明瞭にするため、コンピュータ１１１２内部に示すが、コンピュータ１１１２の外部にあることも可能である。ネットワークインタフェース１１４８に接続するために必要なハードウェア／ソフトウェアには、単に例として、通常の電話級のモデム、ケーブルモデム、およびＤＳＬモデムを含むモデム、ＩＳＤＮアダプタ、およびイーサネット（登録商標）カードなどの内部技術および外部技術が含まれる。

以上に説明したことに、本発明の実施例が含まれる。本発明を説明する目的で、コンポーネントまたは方法の考えられるすべての組み合わせを説明することは、もちろん、不可能であるが、本発明の多くのさらなる組み合わせおよび置換が可能であることを、当業者は認めることができよう。したがって、本発明は、添付の特許請求の範囲の趣旨および範囲に含まれるすべてのそのような変更形態、改変形態、および変形形態を包含するものとする。さらに、「含まれる（ｉｎｃｌｕｄｅ）」という用語は、詳細な説明、または特許請求の範囲において使用される限り、請求項において転換語として使用される場合に、「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語が解釈されるのと同様の形で包括的であるものとする。

本発明の諸態様による、フィードバックループ訓練システムに関連してフィードバックを利用して強制隔離されたメッセージについてさらに学習する、インテリジェントな強制隔離システムを示すブロック図である。本発明の諸態様による、疑わしいメッセージについてさらなる情報を獲得して、スパムフィルタを更新すること、および、疑わしいメッセージをスパムである、またはスパムでないと分類することを実施するインテリジェントな強制隔離システムを示すブロック図である。本発明の態様による、一部は既成のフィルタ群により、また一部は更新されたフィルタ群による着信メッセージの典型的な分類を示す概略流れ図である。本発明の態様による、強制隔離の目的でメッセージを疑わしいと見なす適切な機会を特定することを実施する典型的な事例を示す概略図である。本発明の態様による、少なくとも１つのサーバ上における強制隔離システムの実装に関連するクライアントとサーバの通信を示す概略図である。本発明の態様による典型的な強制隔離プロセスを通って進むメッセージを示すブロック図である。本発明の態様による、十分な情報が利用可能な場合、メッセージを分類すること、および分類のために十分な情報を欠くメッセージを強制隔離することを実施する典型的な方法を示す流れ図である。本発明の態様による、強制隔離期間中にメッセージまたはメッセージ送信者に関するさらなる情報を収集することを実施する典型的な方法を示す流れ図である。本発明の態様による、強制隔離期間中にメッセージまたはメッセージ送信者に関するさらなる情報を収集することを実施する典型的な方法を示す流れ図である。本発明の態様による、強制隔離期間中にメッセージまたはメッセージ送信者に関するさらなる情報を収集することを実施する典型的な方法を示す流れ図である。本発明の態様による典型的な通信環境を示す概略ブロック図である。

符号の説明

１着信メッセージ
２遅延期間が終了した後
３遅延されたＩＭ
４遅延されたＩＭのサブセット
５フィルタリングされたＩＭ
１１０メッセージ受信コンポーネント
１２０宛先の受信者
１３０フィルタ
１４０遅延メッセージストア
１５０ランダムなユーザ、または選択されたユーザ
１６０フィルタ更新コンポーネント
１７０フィードバックループコンポーネント
１８０ハニーポットコンポーネント
１９０メッセージ分析コンポーネント

Claims

スパム防止に関連してメッセージを分類することを実施するシステムであって、
前記メッセージのセットを受信するコンポーネントと、
前記メッセージのサブセットをスパムとして、または、さらなる分類のためにフラグが付けられるとして識別し、メッセージの前記サブセットのさらなる分類を一時的に遅らせる第１の分類コンポーネントと、
前記遅延期間後、メッセージの前記サブセットを分類する第２の分類コンポーネントと
を含むことを特徴とするシステム。
前記第２の分類コンポーネントは、十分な新しい否定的情報の欠如に基づき、メッセージの前記サブセットのいくつかが良好であると識別することを特徴とする請求項１に記載のシステム。
前記第２の分類コンポーネントは、良好なメッセージによく一致する以外の新しい肯定的情報に基づき、メッセージの前記サブセットのいくつかを良好であると識別することを特徴とする請求項１に記載のシステム。
前記メッセージは、情報の欠如に基づき、スパムである、またはフラグが付けられる、または遅延されると分類されることを特徴とする請求項１に記載のシステム。
前記メッセージは、機械学習スパムフィルタからの更新された情報に基づいて再分類されることを特徴とする請求項１に記載のシステム。
十分な新しい否定的情報の前記欠如は、ハニーポット内で類似のメッセージが出現しないことを含むことを特徴とする請求項２に記載のシステム。
十分な新しい否定的情報の前記欠如は、類似の情報に関してユーザの苦情がないことを含むことを特徴とする請求項２に記載のシステム。
十分な新しい否定的情報の前記欠如は、メッセージの少なくともサブセットについてユーザにポーリングした情報を含むことを特徴とする請求項２に記載のシステム。
十分な新しい否定的情報の前記欠如は、類似するメッセージが少量であることを含むことを特徴とする請求項２に記載のシステム。
前記メッセージは、前記送信者の身元に基づいて類似していると分類されることを特徴とする請求項８に記載のシステム。
前記送信者の身元は、該送信者のＩＰアドレスに基づいて分類されることを特徴とする請求項１０に記載のシステム。
メッセージの前記類似性は、前記メッセージの中に含まれるＵＲＬに基づくことを特徴とする請求項８に記載のシステム。
スパムであると最初に分類されたメッセージは、新しい情報に基づいて削除されることを特徴とする請求項１に記載のシステム。
前記スパムは、永久的に削除されることを特徴とする請求項１に記載のシステム。
前記スパムは、削除済みメッセージフォルダに移動されることを特徴とする請求項１に記載のシステム。
前記第１の分類コンポーネントおよび／または前記第２の分類コンポーネントに関連する情報を受け取り、スパムフィルタを訓練すること、またはスパムリストをポピュレートすることに関連して前記情報を使用するフィードバックコンポーネントをさらに含むことを特徴とする請求項１に記載のシステム。
前記メッセージは、電子メール（ｅ−ｍａｉｌ）とメッセージの少なくともどちらかを含むことを特徴とする請求項１に記載のシステム。
前記メッセージのセットを受信する前記コンポーネントは、電子メールサーバ、メッセージサーバ、およびクライアント電子メールソフトウェアのいずれか１つであることを特徴とする請求項１に記載のシステム。
請求項１に記載のシステムを使用することを特徴とするサーバ。
請求項１に記載のシステムを使用することを特徴とする電子メールアーキテクチャ。
請求項１に記載のコンポーネントを格納していることを特徴とするコンピュータ可読媒体。
さらなる分析のためにフラグが付けられるという前記第１の分類コンポーネントによる識別に少なくともある程度、基づき、メッセージの前記サブセットを強制隔離する強制隔離コンポーネントをさらに含むことを特徴とする請求項１に記載のシステム。
前記強制隔離は、メッセージの前記サブセットを他のメッセージとは別個のフォルダの中に入れることを介して実行されることを特徴とする請求項１に記載のシステム。
前記フォルダは、ユーザに見える、または見えないことを特徴とする請求項１に記載のシステム。
メッセージの前記サブセットの高い出現率（ｏｃｃｕｒｒｅｎｃｅ）に関連するソースを識別する識別コンポーネントをさらに含むことを特徴とする請求項１に記載のシステム。
最初の着信の日時と前記メッセージの分類が再開された解放の日時の少なくともどちらかを前記メッセージ上にスタンプするタイムスタンプコンポーネントをさらに含むことを特徴とする請求項１に記載のシステム。
メッセージの前記サブセットは、安全リスト上の送信者からのメッセージ、スパムであると容易に識別され、分類されるメッセージ、良好であると容易に識別され、分類されるメッセージの少なくともいずれかを除外することを特徴とする請求項１に記載のシステム。
前記第１の分類コンポーネントは、メッセージの前記サブセットの分類が実行するまでの遅延の長さを決定することを特徴とする請求項１に記載のシステム。
遅延の前記長さは、
次回のスケジュールされたフィルタ更新までの時間、
新しいフィルタまたは更新されたフィルタのダウンロードまでの時間、および
前記サブセットの中のそれぞれのメッセージに割り当てられるスパム確率スコアの少なくともいずれかに少なくともある程度、基づくことを特徴とする請求項２８に記載のシステム。
分類されるべきメッセージのセットを受信するステップと、
十分な情報の欠如に基づき、メッセージの少なくともサブセットがスパムである、または良好であるという分類を一時的に遅らせるか、またはメッセージの前記サブセットが信頼できない、または疑わしいと最初に分類するステップと
を含むことを特徴とするメッセージを分類するための方法。
強制隔離が正しい最終的な分類に役立つ尤度を算出するように訓練された機械学習フィルタをさらに含むことを特徴とする請求項３０に記載の方法。
強制隔離期間が経過すること、および
前記サブセットの中の前記それぞれのメッセージがスパムである、または良好であると分類することを容易にする、メッセージの前記サブセットに関する追加の情報が獲得されたことの少なくともどちらかが生じた場合、分類を再開するステップ
をさらに含むことを特徴とする請求項３０に記載の方法。
メッセージの前記サブセットは、スパムである、または良好であると容易に分類されるメッセージ、または安全リスト上の送信者からのメッセージを除外することを特徴とする請求項３０に記載の方法。
前記メッセージの分類を一時的に遅らせるステップは、
前記メッセージ上の送信者のＩＰアドレスを前に見たことがない場合、
送信者のドメインを前に見たことがない場合、
送信者のドメインが、リバースＩＰアドレスを欠いている場合、
前記送信者のドメイン上の前方参照が、前記送信者のＩＰアドレスと少なくともほぼ一致しない場合、
前記メッセージが、埋め込まれたドメイン名、埋め込まれたマクロ、および実行可能ファイルの少なくとも１つを含む場合、
前記メッセージが、良好なメッセージとスパムメッセージの矛盾する証拠を含む場合、
前記メッセージが、スパムに関連する場所を発信元としている場合、
前記メッセージが、スパムに関連する言語で書かれている場合、
前記メッセージが、主にイメージを含む場合、および
前記メッセージが、ＨＴＭＬを含む場合
の少なくとも１つに少なくともある程度、基づくことを特徴とする請求項３０に記載の方法。
疑わしいメッセージの少なくともサブセットを配信するステップをさらに含むことを特徴とする請求項３０に記載の方法。
疑わしいメッセージの前記サブセットは、該メッセージのそれぞれの宛先の受信者に配信され、該メッセージの作用は、メッセージの前記サブセットがスパムであるか、または良好であるかを判定することを容易にすることを特徴とする請求項３５に記載の方法。
フィードバックが求められるメッセージの前記サブセットは、分類が一時的に遅延される送信者ごとの一定のパーセンテージのメッセージ、または一定の量のメッセージであることを特徴とする請求項３５に記載の方法。
フィードバックが求められるメッセージの前記サブセットは、前記メッセージに関してさらに学習することを容易にするように、スパムである、または良好であるという分類なしに、通過することを許されることを特徴とする請求項３５に記載の方法。
強制隔離によってメッセージを分類することを容易にするＡＰＩであって、
着信メッセージのスパム確率スコアを計算するステップと、
該メッセージのそれぞれのスパム確率スコアに少なくともある程度、基づき、メッセージの少なくともサブセットを強制隔離するステップと、
強制隔離時間を推奨するステップと
を含むことを特徴とするＡＰＩ。
次回のフィルタダウンロードまでメッセージの少なくともサブセットを強制隔離し、該ダウンロードの時点で、前記フィルタは、強制隔離を続けるか、または前記メッセージの分類を再開するかを決定し、スパムである、または良好であるという最終の分類まで繰り返すステップをさらに含むことを特徴とする請求項３９に記載のＡＰＩ。
サーバフィルタが、ある期間にわたって前記それぞれのメッセージを強制隔離したことをサーバとクライアントの間で通信し、クライアントフィルタ強制隔離時間を短縮するステップをさらに含むことを特徴とする請求項３９に記載のＡＰＩ。
メッセージを分類するためのシステムであって、
分類されるべきメッセージのセットを受信するための手段と、
十分な情報の欠如に基づき、前記メッセージがスパムである、または良好であるという分類を一時的に遅らせるか、または前記メッセージが信頼できない、または疑わしいと最初に分類するための手段と
を含むことを特徴とするシステム。