JP5053211B2

JP5053211B2 - 自動推論検出によるインバウンド・コンテンツのフィルタリング

Info

Publication number: JP5053211B2
Application number: JP2008225626A
Authority: JP
Inventors: チョウリチャード; ジャンポールゴールフィリップ; エヌスタッドンジェシカ
Original assignee: パロアルトリサーチセンターインコーポレイテッド
Priority date: 2007-12-05
Filing date: 2008-09-03
Publication date: 2012-10-17
Anticipated expiration: 2028-09-03
Also published as: US7860885B2; JP2009140469A; US20090150365A1

Description

本発明は、インテリジェント・データ処理の設計に関する。より具体的には、本発明は、推論検出によるインバウンド・コンテンツのフィルタリングのための方法及びシステムに関する。

インターネットの絶え間ない成長は、ワールド・ワイド・ウェブ（ウェブ）を今日最も大きく最もアクセスしやすい情報プールの１つにした。しかしながら、ユビキタス・インターネットの接続性はまた、スパム・メール及び悪意のあるウェブサイト等の望ましくない、時として悪意のある情報が、ユーザのコンピュータに達することができるようにもする。スパム・メールは、ユーザのメール・ボックスのスペースをふさぐだけでなく、ユーザから詐取し、慎重な扱いを要する個人データを得ることができる「フィッシング」メールである可能性もある。悪意のあるウェブサイトは、ユーザの帯域幅を消費し、トロイの木馬をインストールし、ユーザのコンピュータ及びネットワークのセキュリティを侵害することがある。

インバウンド・コンテンツのフィルタリングは、企業又は大学等の組織にとって特に重要である。このようなフィルタリングはまた、ポルノ及び暴力等の有害なコンテンツから自分の子供を守りたいと思う親にとっても有用である。従来の電子メール及びウェブサイトのフィルタリング技術は、主として、キーワード・リスト、メール・サーバのブラックリスト、及びウェブ・アドレスのブラックリストに基づいたものである。例えば、スパム・メール・プログラムは、典型的には、「モーゲージ（ｍｏｒｔｇａｇｅ）」及び「バイアグラ（ｖｉａｇｒａ）」等のスパム・キーワードのリストを保持し、これらの語を含む電子メールをフィルタリングして除外しようと試みるものである。ウェブサイト・フィルタリング・プログラムは、典型的には、アクセスを制限すべきである識別されたウェブサイトのＵＲＬのリストを保持する。しかしながら、スパム・メール及び望ましくないウェブサイトのコンテンツ、並びにそれらのサーバ・アドレスは、絶えず変化しており、そのことが、キーワード・リスト及びブラックリストを最新の状態に保つことを困難にしている。

本発明の一実施形態は、望ましくない電子メールを検出するシステムを提供する。動作中、システムは電子メールを受信し、電子メール本文からキーワードの組を抽出し、電子メール本文から抽出された少なくとも１つのキーワードに基づいて、第１の検索クエリを構築する。システムはさらに、第１の検索クエリのために用いられるキーワード及び少なくとも１つの付加的な語に基づいて、第２の検索クエリを構築する。次に、システムは、第１及び第２の検索クエリに応答して、それぞれ第１の数のヒット及び第２の数のヒットを受信する。システムは次に、第１の数及び第２の数に基づいて電子メールが望ましくないかどうかを判断し、その判断に基づいて、該電子メールが望ましくないことを示す結果を生成する。

本実施形態の変形において、電子メール本文からキーワードを抽出することは、電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度（ＴＦ．ＩＤＦ）の重みを判断することを含む。
更に別の変形においては、電子メール本文からキーワードを抽出することは、そのＴＦ．ＩＤＦの重みに基づいて、それぞれの語をランク付けすることをさらに含む。

本実施形態の変形において、付加的な語は、スパム・トピック語（ｓｐａｍｔｏｐｉｃｗｏｒｄ）である。第２のクエリを構築することは、第１のクエリ内に付加的な語を含ませることを含む。
本実施形態の変形において、付加的な語は、電子メールの件名から抽出された語である。
本実施形態の変形において、第１の数及び第２の数に基づいて電子メールが望ましくないかどうかを判断することは、第１の数と第２の数との間の比を計算することを含む。

本発明の一実施形態は、ウェブ・コンテンツをフィルタリングするシステムを提供する。動作中、システムは、制限されるべきトピックに関連する制限されたトピック語を受信する。システムは次に、制限されたトピック語に基づいてウェブを検索し、その検索に応答して文書の組を受信する。システムはさらに、受信された文書からキーワードを抽出し、少なくとも１つの抽出されたキーワードに基づいて第１の検索クエリを構築する。さらに、システムは、第１の検索クエリのために用いられるキーワード及び制限されたトピック語に基づいて、第２の検索クエリを構築する。システムは次に、第１及び第２の検索クエリに応答して、それぞれ第１の数のヒット及び第２の数のヒットを受信する。次に、システムは、第１の数及び第２の数に基づいて、キーワードが制限されたトピックに関連するかどうかを判断する。システムは、その判断に基づいて、キーワードが制限されたトピックに関連するかどうかを示す結果を生成し、これにより、制限されたトピックに関連するウェブページのフィルタリングが容易になる。

本実施形態の変形において、受信された文書からキーワードを抽出することは、該文書内に含まれるそれぞれの語又は句に関するＴＦ．ＩＤＦの重みを判断することを含む。
更に別の変形においては、受信された文書からキーワードを抽出することは、そのＴＦ．ＩＤＦの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
本実施形態の変形において、キーワードが制限されたトピックに関連するかどうかを判断することは、第１の数と第２の数との間の比を計算することを含む。

本発明の実施形態は、インバウンド・コンテンツを管理する又はフィルタリングするために用いることができる、１つ又はそれ以上の文書のコンテンツから引き出された推論を検出するための自動化された技術を提供する。特に、こうした推論検出技術は、スパム・メールを検出し、及び／又は、望ましくないウェブ・コンテンツをフィルタリングして、企業の従業員及び子供を守るために用いられる。

スパム・メール及び望ましくないウェブサイトは、そこに含まれる真の主題を曖昧にする情報を含むことが多い。時には、受信するコンテンツの１つが、望ましくない主題に関連する明確な語を含まないことがあるが、それにもかかわらず、ユーザが主題を推論することを可能にする場合がある。例えば、組織が、オサマ・ビン・ラディン（ＯｓａｍａＢｉｎＬａｄｅｎ）に関連するあらゆる受信コンテンツ（例えば、電子メール、ウェブサイト）をフィルタリングすることを望むと仮定する。フィルタリング・システムは、例えば、「オサマ（Ｏｓａｍａ）」、「ビン（Ｂｉｎ）」、「ラディン（Ｌａｄｅｎ）」及び「ＯＢＬ」といった語等の明確な識別情報を含む、如何なる電子メール又はウェブサイトもフィルタリングすることができる。しかしながら、コンテンツの１つが如何なる明確な識別単語も含まないとき、それがフィルタリング・システムを通過することができるが、依然としてオサマ・ビン・ラディンに関連するものとして認識されることがある。例えば、「サウジアラビア、建設業界、大物、イエメン」というクエリによるウェブ検索がオサマ・ビン・ラディンに関する多数のヒットを返すので、「イエメン出身のサウジアラビア建設業界の大物の息子」という言語を含む電子メールは、読者が、この文の主題がオサマ・ビン・ラディンであると推論することを可能にする。それでも、フィルタリング・システムは、この電子メールを見つけることができないであろう。

本発明の実施形態は、明確な語及び語句を捕らえることができるだけでなく、受信するコンテンツにおける推論を検出する新規な技術を提供し、これにより、システムが、不明瞭である望ましくないコンテンツをフィルタリングすることが可能になる。幾つかの実施形態において、ウェブ又は企業のイントラネット等の巨大なコーパスが人間の知識の代用として用いられ、電子メール又はウェブページ等の文書からどのような推論を引き出され得るかを理解することができるようにする。これらの実施形態に用いられる技術の１つは、文書からキーワードを抽出し、これらのキーワードを用いて検索エンジン・クエリを構築し、これらのクエリに応答して、返された結果（「ヒット」とも呼ばれる）を分析することである。幾つかの実施形態においては、システムは、ヒット数を調べる。更に別の実施形態において、システムは、ヒットのコンテンツを調べる。

この開示において、「コーパス」という用語は、文書の集合をいう。一実施形態において、コーパスは、ウェブ上で利用可能な全ての文書を含むことができる。コーパスはまた、組織の内部文書の集合であってもよい。さらに、システムは、１つ又はそれ以上のコーパスに基づいて動作することができる。

図１は、本発明の実施形態による、受信する電子メールをフィルタリングするシステムのための例示的なブロック図を示す。動作中、システムは電子メール１０２を受信し、電子メール１０２に対して自然言語処理（ＮＬＰ）分析１０４を実行し、キーワードの組１０６を抽出する。システムは次に、多数のクエリを公式化し（動作１１０）、これらのクエリを検索エンジン１１２に発行する。検索エンジン１１２は、インターネット１１３において対応する検索を行い、多数のヒット１１４を返す。システムは次に、そのヒットを分析し（動作１１６）、電子メール１０２に関するスパム信号を生成する（動作１０８）。

図２は、本発明の実施形態による、ウェブサイドをフィルタリングするシステムのための例示的なブロック図を示す。動作中、システムは、先ず、制限されたトピック語２０２を受信する。例えば、制限されたトピック語２０２は、「ギャンブル（ｇａｍｂｌｉｎｇ）」又は「貸付（ｌｅｎｄｉｎｇ）」とすることができる。システムは、次に、制限されたトピック語２０２に基づいて、検索クエリを検索エンジン２１２に発行する。検索エンジン２１２は、インターネット２１３において対応するウェブ検索を行い、ヒットの組２０４を返す。システムは次に、ヒット２０４に対してＮＬＰ分析２０５を実行し、キーワードの組２０６を抽出する。キーワード２０６に基づいて、システムは検索クエリの組を公式化し（動作２１０）、これらのクエリを検索エンジン２１２に発行する。これに応答して、検索エンジン２１２はヒットの組２１４を返す。システムは次に、ヒット２１４の分析を実行し（動作２１６）、制限されたトピックと関連付けられた要注意語（ｓｅｎｓｉｔｉｖｅｗｏｒｄ）２１８のリストを取得する。システムは次に、この要注意語のリストを用いて、ウェブページをフィルタリングすることができる。

一般的に実施されているスパミング技術の１つが難読化（ｏｂｆｕｓｃａｔｉｏｎ）である。難読化が用いられる場合、スパム・メールの発信者は、故意に電子メール内のキーワードのスペルミスをし、その電子メールの真のトピックを覆い隠す。例えば、表１に示される電子メールでは、「バイアグラ（ｖｉａｇｒａ）」を「ｖｉａｒｇａ」に故意にスペルミスする。
（表１）

一実施形態において、システムは、受信された電子メールからキーワードを抽出し、その電子メールの真のトピックを判断することができる。本実施形態の１つの実施は、以下の動作を含む。
１．システムが、電子メールからキーワードを抽出する。一実施形態において、システムは、ＮＬＰ技術を用いて上位にランク付けされた多数のキーワードを抽出する。
２．システムは次に、キーワード及びキーワードの組み合わせ（「句」ともいう）に基づいて、第１の組の検索クエリを構築する。{Ｑ_i}は、キーワード又はキーワードの組み合わせｉに対応して発行するクエリの組を示すものとする。それぞれのクエリに用いられるキーワードの最大数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザが調整できるパラメータであることが留意される。一実施形態において、それぞれのクエリは、選択されたキーワードを列挙し、これらのキーワードをスペースで分離することによって公式化される。他のクエリ公式化技術も可能である。
３．システムは、検索クエリ{Ｑ_i}を検索エンジンに発行し、それぞれの検索クエリＱ_iに応答して、多数のヒットｎ_iを受信する。
４．システムはまた、第２の組の検索クエリを構築する。第２の組内のそれぞれの検索クエリは、第１の組内の対応するクエリと類似しているが、「バイアグラ（ｖｉａｇｒａ）」、「くじ（ｌｏｔｔｅｒｙ）」、「モーゲージ（ｍｏｒｔｇａｇｅ）」といった、少なくとも１つの既知のスパム・トピック語を含む。この第２の組内のそれぞれのクエリは、{Ｑ_i、j}と示され、ここで、ｉは、対応するキーワード又はキーワードの組み合わせを示し、ｊは、スパム・トピック語を示す。例えば、Ｑ_i＝”ＡＢＣ”（一実施形態においては、実際のクエリは引用符を含まないことに留意されたい）である場合には、Ｑ_i、1＝”ＡＢＣｖｉａｇｒａ”、Ｑ_i、2＝”ＡＢＣｌｏｔｔｅｒｙ”等である。ｎ_ijは、Ｑ_ijに応答して、検索エンジンによって返されたヒットの数を示すものとする。
５．クエリＱ_ij及びＱ_iについて、ｎ_ij／ｎ_iが十分に大きい場合には、システムは、その電子メールがトピック語ｊに関連するスパム・メールであり得ることを知らせる。電子メールをスパムとして処理する判断は、十分に大きいｎ_ij／ｎ_i比を有するこうしたクエリの対（即ち、Ｑ_i及びＱ_ij）の数、及び、対応するトピックが確かにスパム・トピックであるという可能性にも依存することに留意されたい。

例えば、表１のスパム・メールを参照すると、Ｇｏｏｇｌｅクエリ「ｓｅｘｍｅｄｉｃｉｎｅｆｉｒｍ」は、約１，２１０，０００件のヒットを返し、一方、クエリ「ｓｅｘｍｅｄｉｃｉｎｅｆｉｒｍｖｉａｇｒａ」は、約５８６，０００件のヒットを返す。対応するｎ_ij／ｎ_i比は０．４８であり、これは、一実施形態においては、その電子メールをスパムとしてマーク付けするのに十分である。

一実施形態において、電子メールからキーワードを抽出するために、システムは、自動化されたコンテンツ分析を用いて、これらの文書内のキーワードを抽出する。システムは、テキスト抽出から綿密な言語分析に至る、任意のＮＬＰツールを用いることができる。一実施形態において、システムは、「単語出現頻度・逆出現頻度」（ｔｅｒｍｆｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ、ＴＦ．ＩＤＦ）分析に基づいてキーワードを選択する。本開示に用いられる「キーワード」という用語は、単一の語に制限されるものではなく、語、句、略語、同義語、又は言語記号の任意の組み合わせを含み得ることに留意されたい。

ＴＦ．ＩＤＦ分析では、システムは、電子メール内のそれぞれの語にＴＦ．ＩＤＦの重みを割り当てる。システムは、統計的尺度であるこの重みを用いて、その語がコーパス（例えば、ウェブ）内の文書（即ち、電子メール）に対してどれだけ重要であるかを評価する。語の重要度は、その語が文書内で出現する回数に比例して高くなるが、コーパスにおける語の出現頻度によって相殺される。例えば、所定の文書に関するｔ_iと示される用語ｉのＴＦ．ＩＤＦの重みは、次の：

のように計算することができる。この式において、用語頻度

は、文書における全ての用語出現によって正規化された、文書におけるｔ_iの出現数である。逆出現頻度

は、用語の一般的な重要度の尺度であり、用語ｔ_iを含む文書数で除算したコーパスにおける全文書数の対数として計算される。

ＴＦ．ＩＤＦの重みを計算するための上記の式は、ＴＦ．ＩＤＦ定義の一例にすぎない。異なる用途の場合には、異なるＴＦ．ＩＤＦ定義を採用することができる。さらに、本発明の実施形態はまた、分書から知識を得るために、他の言語分析手法を用いることもできる。

図３は、本発明の実施形態による、電子メールから抽出されたキーワードに基づいて、受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは、電子メールを受信する（動作３０２）。システムは次に、ＴＦ．ＩＤＦ分析を用いて、電子メールを分析し、多数のキーワードを抽出する（動作３０４）。システムはさらに、キーワード又はキーワードの組み合わせｉに基づいて構築されたクエリＱ_iを発行する（動作３０６）。これに応答して、システムは、多数のヒットｎ_iを受信する（動作３０８）。

次に、システムは、キーワード又はキーワードの組み合わせｉ、及び、スパム・トピック語ｊに基づいて構築されたクエリＱ_i,jを発行する（動作３１０）。Ｑ_i,jに応答して、システムは、多数のヒットｎ_ijを受信する（動作３１２）。その後、システムは、全てのキーワード又はキーワードの組み合わせが評価されたかどうかを判断する（動作３１３）。全てのキーワード又はキーワードの組み合わせが評価されていない場合は、システムは、続けて次のキーワード又はキーワードの組み合わせを調べる（動作３０６）。全てのキーワード又はキーワードの組み合わせが評価された場合には、システムはさらに、十分に大きいｎ_ij／ｎ_i比を有する、十分なキーワード又はキーワードの組み合わせが存在するかどうかを判断する（動作３１４）。存在する場合は、システムは、随意的に、他の条件が満たされているかどうかを判断し（動作３１６）、その電子メールがスパムであり得ることを知らせる（動作３１８）。他の場合には、システムは終了する。

別の一般的なスパミング技術は、電子メールの件名又は本文に非スパム語を挿入し、これにより、メッセージの統計値（例えば、語の頻度）を調べて電子メールがスパム・メールであるかどうかを判断する、統計的スパム・フィルタを阻止しようと試みるものである。これらの語は、スパム・フィルタをトリガする可能性が少ないランダム語又は注意深く選択された語であり得る。一実施形態において、システムは、スパム・メールから抽出されたワードに基づいてクエリから返されたヒット数を測定する。これは、典型的には、スパム・メールの件名における語はあまり意味をなさず、これらの語に基づいてクエリにより返されたヒット数が、正当な電子メールから抽出された語に基づいてクエリにより返されたヒット数よりもずっと少ないからである。表２は、スパム・メール及び正当な電子メールからの件名の例を示す。例えば、表２の第１行目は、正当な電子メールの件名からのＧｏｏｇｌｅクエリ「ｈａｒａｓｓｍｅｎｔａｗａｒｅｎｅｓｓ」（引用符なし）は約１，１８０，０００件のヒットを返し、一方、スパム・メールからの件名「ＣｈａｏｓＤＤＴ」（引用符なし）に基づいたクエリは約２４０，０００件のヒットを返すことを示す。特にスパム・メールの場合には、一般に、件名のキーワードを囲む引用符を使用することにより、ヒット・カウントが減少されることに留意されたい。さらに、正当な電子メールの件名から抽出されたクエリ内のキーワードが、必ずしも件名につながっているとは限らない。
表２

更に別の実施形態において、システムは、電子メールの件名と本文との間の整合性を調べる。例えば、件名「楽天家ガーデニング（ｏｐｔｉｍｉｓｔｇａｒｄｅｎｉｎｇ）」のメッセージが実際にガーデニングに関するものである場合には、メッセージ内の語は、一般にガーデニングと関連した語を含むはずである。従って、件名が電子メール本文のトピックを表しているかどうかを評価することによって、システムは、その電子メールがスパム・メールである可能性が高いかどうかを判断することができる。一実施形態において、システムは以下の動作に従う。すなわち、
１．システムは、電子メールのテキスト本文からキーワードを抽出し、組Ｂを形成する。システムはさらに、件名からキーワードを抽出し、組Ｓを形成する。
２．システムは次に、Ｂから上位にランク付けされたキーワードＢ_iの組を選択し、Ｓから上位にランク付けされたキーワードＳ_iの組を選択する。（一実施形態において、ランク付けは、それぞれのキーワードのＴＦ．ＩＤＦの重みに基づいて達成できることに留意されたい。）システムは次に、２つの組を併合し、併合された組からクエリを構築し、ここで、各々のクエリは、組Ｂからの少なくとも１つのキーワード、及び、組Ｓからの少なくとも１つのキーワードを含む。{Ｑ_i}は発行されたクエリの組を示し（即ち、Ｑ_iは、Ｂ_i∪Ｓ_i内の語に基づいたクエリである）、ｎ_iはクエリＱ_iによって返されたヒットの数を示すものとする。各々のクエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
３．電子メール本文から抽出された各々のキーワードＢ₁、Ｂ₂、．．．に関して、システムは別個の検索クエリを発行する。ｎ_Biは返されたヒットの数を示すものとする。
４．組Ｂ内のキーワードに関して、ｎ_i／ｎ_Bi比が十分に小さい場合には、システムは、その電子メールがスパムであり得ることを知らせる。電子メールをスパムとして処理する判断は、小さいｎ_i／ｎ_Bi比を有するこうしたクエリの対の数に依存する。

図４は、本発明の一実施形態による、電子メールの本文及び電子メールの件名から抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは電子メールを受信する（動作４０２）。システムは次に、ＴＦ．ＩＤＦを用いて電子メールの本文を分析し、キーワードの組Ｂを抽出する（動作４０４）。次に、システムは電子メールの件名を分析し、キーワードの組Ｓを抽出する（動作４０６）。一般に件名は短いので、動作４０６におけるＴＦ．ＩＤＦの使用は随意的なものであることに留意されたい。

次に、システムは、電子メール本文のキーワードＢ_i及び電子メール件名のキーワードＳ_iに基づいて構築されるクエリＱ_iを発行する（動作４０８）。システムはその後、クエリＱ_iに応答して多数のヒットｎ_iを受信する（動作４１０）。システムはさらに、電子メール本文のキーワードＢ_iに関するクエリを発行し、該クエリに応答して多数のヒットｎ_Biを受信する（動作４１２）。

システムは次に、Ｂ及びＳ内の全てのキーワードが評価されたかどうかを判断する（動作４１８）。全てのキーワードが評価されていない場合には、システムは、続けて次のクエリＱ_iを発行する（動作４０８）。Ｂ及びＳ内の全てのキーワードが評価された場合には、システムは次に、十分に小さいｎ_i／ｎ_Bi比を有するクエリの対の数が十分に大きいかどうかを判断する（動作４２０）。十分に大きい場合には、システムは、この電子メールをスパムとして処理する（動作４２２）。他の場合には、システムは終了する。

従来のウェブサイト・フィルタリング・システムは、どのサイトをブロックするべきかを判断するために、手動で生成されたブラックリスト、及び、限られた数の自動化された技術に依存する。本発明の実施形態は、ウェブを用いて、望ましくないウェブサイトと関連したキーワードを絶えず更新し、次に、これをウェブサイトのコンテンツと照合して、そのウェブサイトをブロックすべきかどうかを判断することができる。例えば、システムは、ウェブを積極的に調べ、「オマハ高い（Ｏｍａｈａｈｉｇｈ）」又は「テキサスホールデム（Ｔｅｘａｓｈｏｌｄｅｍ）」のような新しい句が、アクセスを制限すべきギャンブルのサイトに関連することを発見することができる。

一実施形態において、システムは、以下の動作を実行することによってウェブサイトにおける推論を識別する。すなわち、
１．システムは、制限されたウェブサイトのトピックＴ_l、・・・、Ｔ_k（例えば、「ギャンブル（ｇａｍｂｌｉｎｇ）」、「ポルノ（ｐｏｒｎ）」等）のリストを受信する。
２．それぞれの制限トピック語に関して、システムは検索クエリを発行し、多数のヒットを受信する。
３．システムは、返されたヒットからキーワードの組を抽出する。これらのキーワードに基づいて、システムは検索クエリＱ_iを公式化する。ｎ_iは、Ｑ_iに応答して返されたヒットの数を示すものとする。クエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
４．それぞれのクエリＱ_iに関して、システムは、Ｑ_i内のキーワード又はキーワードの組み合わせ及び制限されたトピック語を用いて、第２のクエリＱ_iTを発行する。ｎ_iTは返されたヒットの数であるものとする。
５．ｎ_iT／ｎ_iが十分に大きい場合には、システムは、Ｑ_i内の用語が制限されたトピックに関連する可能性が高いことに気付く。要注意用語を含むウェブサイトへのアクセスを制限する判断は、こうした推論を可能にするクエリの閾値数、及び、ｎ_iT／ｎ_i比の値の識別に依存することができる。

例えば、クエリ「オマハ高い（Ｏｍａｈａｈｉｇｈ）」は、Ｇｏｏｇｌｅから約３，０００，０００件のヒットを返す。クエリ「オマハ高いギャンブル（Ｏｍａｈａｈｉｇｈｇａｍｂｌｉｎｇ）」は、約１，４６０，０００件のヒットを返す。ｎ_iT／ｎ_i比は０．４８であり、これは、システムが「オマハ高い（Ｏｍａｈａｈｉｇｈ）」を要注意語であると識別し、この句を含むウェブサイドをブロックするのに十分に高いものである。

図５は、本発明の一実施形態による、ウェブサイトをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは、制限されたトピック語を用いて検索クエリを発行する（動作５０２）。システムは次に、そのクエリに応答してヒットを受信する（動作５０６）。次に、システムは、受信されたヒットからキーワードを抽出する（動作５０８）。システムはその後、キーワード又はキーワードの組み合わせｉに基づいて構築されたクエリＱ_iを発行し、クエリＱ_iに応答して多数のヒットｎ_iを受信する（動作５１０）。

システムはさらに、キーワード又はキーワードの組み合わせｉ及び制限されたトピック語に基づいて構築されたクエリＱ_iTを発行し、Ｑ_iTに応答して多数のヒットｎ_iTを受信する（動作５１２）。次に、システムは、全てのキーワードが評価されたかどうかを判断する（動作５１６）。全てのキーワードが評価されていない場合には、システムは、次のクエリＱ_iを発行する（動作５１０）。全てのキーワードが評価されている場合には、システムは次に、十分に大きいｎ_iT／ｎ_i比を有する全てのキーワード又はキーワードの組み合わせを推論可能なものとしてマーク付けする（動作５１８）。次に、システムは、推論可能なものである要注意語のリストを生成する（動作５２０）。次いで、システムは終了する。

図６は、本発明の一実施形態による、受信する電子メール及びウェブサイトをフィルタリングするためのコンピュータ・システムを示す。コンピュータ・システム６０２は、プロセッサ６０４、メモリ６０６、及び記憶装置６０８を含む。コンピュータ・システム６０２は、インターネット６０３、ディスプレイ６１３、キーボード６１０、及び位置決め装置６１２に結合される。記憶装置６０８は、ウェブコンテンツ・フィルタリング・アプリケーション６１４、電子メール・スパム検出アプリケーション６１６、並びにアプリケーション６２０及び６２２を格納する。ウェブコンテンツ・フィルタリング・アプリケーション６１４は、ＴＦ．ＩＤＦ分析モジュール６１５を含む。同様に、電子メール・スパム検出アプリケーション６１６は、ＴＦ．ＩＤＦ分析モジュール６１８を含む。動作中、ウェブコンテンツ・フィルタリング・アプリケーション６１４及び／又は電子メール・スパム検出アプリケーション６１６はメモリ６０６内にロードされ、プロセッサ６０４によって実行される。これに応じて、上述のように、プロセッサ６０４は、推論検出ベースの電子メール・スパム検出及びウェブコンテンツ・フィルタリングを実行する。

本発明の実施形態の上記の説明は、例証及び説明のために提示されたものにすぎない。これらは、網羅的であること、又は本発明を開示された形態に制限することを意図するものではない。従って、当業者であれば、多くの変更及び変形が明らかであろう。さらに、上記の開示は、本発明を制限することを意図するものではない。本発明の範囲は、添付の特許請求の範囲によって定められる。

本発明の実施形態による、受信する電子メールをフィルタリングするシステムの例示的なブロック図を示す。本発明の実施形態による、ウェブサイトをフィルタリングするシステムの例示的なブロック図を示す。本発明の実施形態による、電子メールから抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。本発明の一実施形態による、電子メールの本文及び電子メールの件名から抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。本発明の一実施形態による、ウェブサイトをフィルタリングする例示的なプロセスを示すフローチャートを表す。本発明の一実施形態による、受信する電子メール及びウェブサイトをフィルタリングするためのコンピュータ・システムを示す。

符号の説明

１０２：電子メール
１０４、２０５：ＮＬＰ分析
１０６、２０６：キーワード
１０８：スパム信号の生成
１１０、２１０：クエリの公式化
１１２、２１２：検索エンジン
１１３、２１３、６０３：インターネット
１１４、２０４、２１４：ヒット
１１６、２１６：ヒットの分析
２０２：制限されたトピック語
２１８：要注意語
６０２：コンピュータ・システム
６０４：プロセッサ
６０６：メモリ
６０８：記憶装置
６１０：キーボード
６１２：位置決め装置
６１３：ディスプレイ
６１４：ウェブコンテンツ・フィルタリング・アプリケーション
６１５、６１８：ＴＦ．ＩＤＦ分析モジュール
６１６：電子メール・スパム検出アプリケーション
６２０、６２２：アプリケーション

Claims

望ましくない電子メールを検出するためのコンピュータ・システムであって、前記コンピュータ・システムが、
プロセッサと、
前記プロセッサに結合されたメモリと、
電子メールを受信するように構成された第１の受信機構と、
前記電子メール本文からキーワードの組を抽出するように構成されたキーワード抽出機構と、
前記電子メール本文から抽出された少なくとも１つのキーワードに基づいた第１の検索クエリと、
前記第１の検索クエリのために用いられるキーワード及び少なくとも１つの付加的な語に基づいた第２のクエリと、
を構築するように構成されたクエリ公式化機構と、
前記第１及び第２の検索クエリに応答して、それぞれ第１の数のヒット及び第２の数のヒットを受信するように構成されたヒット受信機構と、
前記第１の数及び前記第２の数に基づいて、前記電子メールが望ましくないかどうかを判断するように構成された判断機構と、
前記判断に基づいて、前記電子メールが望ましくないことを示す結果を生成するように構成された結果生成機構と、
を含むことを特徴とするコンピュータ・システム。
前記電子メール本文から前記キーワードを抽出する間、前記キーワード抽出機構は、該電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度（ＴＦ．ＩＤＦ）の重みを判断するように構成されることを特徴とする、請求項１に記載のシステム。
前記付加的な語はスパムのトピック語であり、
前記第２のクエリを構築する間、前記クエリ公式化は、前記第１のクエリ内に前記付加的な語を含ませるように構成されることを特徴とする、請求項１に記載のシステム。
前記第１の数及び前記第２の数に基づいて前記電子メールが望ましくないかどうかを判断する間、前記判断機構は、該第１の数と該第２の数との間の比を計算するように構成されることを特徴とする、請求項１に記載のシステム。