JP5053211B2 - 自動推論検出によるインバウンド・コンテンツのフィルタリング - Google Patents

自動推論検出によるインバウンド・コンテンツのフィルタリング Download PDF

Info

Publication number
JP5053211B2
JP5053211B2 JP2008225626A JP2008225626A JP5053211B2 JP 5053211 B2 JP5053211 B2 JP 5053211B2 JP 2008225626 A JP2008225626 A JP 2008225626A JP 2008225626 A JP2008225626 A JP 2008225626A JP 5053211 B2 JP5053211 B2 JP 5053211B2
Authority
JP
Japan
Prior art keywords
email
query
keyword
keywords
hits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008225626A
Other languages
English (en)
Other versions
JP2009140469A (ja
Inventor
チョウ リチャード
ジャン ポール ゴール フィリップ
エヌ スタッドン ジェシカ
Original Assignee
パロ アルト リサーチ センター インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パロ アルト リサーチ センター インコーポレイテッド filed Critical パロ アルト リサーチ センター インコーポレイテッド
Publication of JP2009140469A publication Critical patent/JP2009140469A/ja
Application granted granted Critical
Publication of JP5053211B2 publication Critical patent/JP5053211B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インテリジェント・データ処理の設計に関する。より具体的には、本発明は、推論検出によるインバウンド・コンテンツのフィルタリングのための方法及びシステムに関する。
インターネットの絶え間ない成長は、ワールド・ワイド・ウェブ(ウェブ)を今日最も大きく最もアクセスしやすい情報プールの1つにした。しかしながら、ユビキタス・インターネットの接続性はまた、スパム・メール及び悪意のあるウェブサイト等の望ましくない、時として悪意のある情報が、ユーザのコンピュータに達することができるようにもする。スパム・メールは、ユーザのメール・ボックスのスペースをふさぐだけでなく、ユーザから詐取し、慎重な扱いを要する個人データを得ることができる「フィッシング」メールである可能性もある。悪意のあるウェブサイトは、ユーザの帯域幅を消費し、トロイの木馬をインストールし、ユーザのコンピュータ及びネットワークのセキュリティを侵害することがある。
インバウンド・コンテンツのフィルタリングは、企業又は大学等の組織にとって特に重要である。このようなフィルタリングはまた、ポルノ及び暴力等の有害なコンテンツから自分の子供を守りたいと思う親にとっても有用である。従来の電子メール及びウェブサイトのフィルタリング技術は、主として、キーワード・リスト、メール・サーバのブラックリスト、及びウェブ・アドレスのブラックリストに基づいたものである。例えば、スパム・メール・プログラムは、典型的には、「モーゲージ(mortgage)」及び「バイアグラ(viagra)」等のスパム・キーワードのリストを保持し、これらの語を含む電子メールをフィルタリングして除外しようと試みるものである。ウェブサイト・フィルタリング・プログラムは、典型的には、アクセスを制限すべきである識別されたウェブサイトのURLのリストを保持する。しかしながら、スパム・メール及び望ましくないウェブサイトのコンテンツ、並びにそれらのサーバ・アドレスは、絶えず変化しており、そのことが、キーワード・リスト及びブラックリストを最新の状態に保つことを困難にしている。
本発明の一実施形態は、望ましくない電子メールを検出するシステムを提供する。動作中、システムは電子メールを受信し、電子メール本文からキーワードの組を抽出し、電子メール本文から抽出された少なくとも1つのキーワードに基づいて、第1の検索クエリを構築する。システムはさらに、第1の検索クエリのために用いられるキーワード及び少なくとも1つの付加的な語に基づいて、第2の検索クエリを構築する。次に、システムは、第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信する。システムは次に、第1の数及び第2の数に基づいて電子メールが望ましくないかどうかを判断し、その判断に基づいて、該電子メールが望ましくないことを示す結果を生成する。
本実施形態の変形において、電子メール本文からキーワードを抽出することは、電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度(TF.IDF)の重みを判断することを含む。
更に別の変形においては、電子メール本文からキーワードを抽出することは、そのTF.IDFの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
本実施形態の変形において、付加的な語は、スパム・トピック語(spam topic word)である。第2のクエリを構築することは、第1のクエリ内に付加的な語を含ませることを含む。
本実施形態の変形において、付加的な語は、電子メールの件名から抽出された語である。
本実施形態の変形において、第1の数及び第2の数に基づいて電子メールが望ましくないかどうかを判断することは、第1の数と第2の数との間の比を計算することを含む。
本発明の一実施形態は、ウェブ・コンテンツをフィルタリングするシステムを提供する。動作中、システムは、制限されるべきトピックに関連する制限されたトピック語を受信する。システムは次に、制限されたトピック語に基づいてウェブを検索し、その検索に応答して文書の組を受信する。システムはさらに、受信された文書からキーワードを抽出し、少なくとも1つの抽出されたキーワードに基づいて第1の検索クエリを構築する。さらに、システムは、第1の検索クエリのために用いられるキーワード及び制限されたトピック語に基づいて、第2の検索クエリを構築する。システムは次に、第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信する。次に、システムは、第1の数及び第2の数に基づいて、キーワードが制限されたトピックに関連するかどうかを判断する。システムは、その判断に基づいて、キーワードが制限されたトピックに関連するかどうかを示す結果を生成し、これにより、制限されたトピックに関連するウェブページのフィルタリングが容易になる。
本実施形態の変形において、受信された文書からキーワードを抽出することは、該文書内に含まれるそれぞれの語又は句に関するTF.IDFの重みを判断することを含む。
更に別の変形においては、受信された文書からキーワードを抽出することは、そのTF.IDFの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
本実施形態の変形において、キーワードが制限されたトピックに関連するかどうかを判断することは、第1の数と第2の数との間の比を計算することを含む。
本発明の実施形態は、インバウンド・コンテンツを管理する又はフィルタリングするために用いることができる、1つ又はそれ以上の文書のコンテンツから引き出された推論を検出するための自動化された技術を提供する。特に、こうした推論検出技術は、スパム・メールを検出し、及び/又は、望ましくないウェブ・コンテンツをフィルタリングして、企業の従業員及び子供を守るために用いられる。
スパム・メール及び望ましくないウェブサイトは、そこに含まれる真の主題を曖昧にする情報を含むことが多い。時には、受信するコンテンツの1つが、望ましくない主題に関連する明確な語を含まないことがあるが、それにもかかわらず、ユーザが主題を推論することを可能にする場合がある。例えば、組織が、オサマ・ビン・ラディン(Osama Bin Laden)に関連するあらゆる受信コンテンツ(例えば、電子メール、ウェブサイト)をフィルタリングすることを望むと仮定する。フィルタリング・システムは、例えば、「オサマ(Osama)」、「ビン(Bin)」、「ラディン(Laden)」及び「OBL」といった語等の明確な識別情報を含む、如何なる電子メール又はウェブサイトもフィルタリングすることができる。しかしながら、コンテンツの1つが如何なる明確な識別単語も含まないとき、それがフィルタリング・システムを通過することができるが、依然としてオサマ・ビン・ラディンに関連するものとして認識されることがある。例えば、「サウジアラビア、建設業界、大物、イエメン」というクエリによるウェブ検索がオサマ・ビン・ラディンに関する多数のヒットを返すので、「イエメン出身のサウジアラビア建設業界の大物の息子」という言語を含む電子メールは、読者が、この文の主題がオサマ・ビン・ラディンであると推論することを可能にする。それでも、フィルタリング・システムは、この電子メールを見つけることができないであろう。
本発明の実施形態は、明確な語及び語句を捕らえることができるだけでなく、受信するコンテンツにおける推論を検出する新規な技術を提供し、これにより、システムが、不明瞭である望ましくないコンテンツをフィルタリングすることが可能になる。幾つかの実施形態において、ウェブ又は企業のイントラネット等の巨大なコーパスが人間の知識の代用として用いられ、電子メール又はウェブページ等の文書からどのような推論を引き出され得るかを理解することができるようにする。これらの実施形態に用いられる技術の1つは、文書からキーワードを抽出し、これらのキーワードを用いて検索エンジン・クエリを構築し、これらのクエリに応答して、返された結果(「ヒット」とも呼ばれる)を分析することである。幾つかの実施形態においては、システムは、ヒット数を調べる。更に別の実施形態において、システムは、ヒットのコンテンツを調べる。
この開示において、「コーパス」という用語は、文書の集合をいう。一実施形態において、コーパスは、ウェブ上で利用可能な全ての文書を含むことができる。コーパスはまた、組織の内部文書の集合であってもよい。さらに、システムは、1つ又はそれ以上のコーパスに基づいて動作することができる。
図1は、本発明の実施形態による、受信する電子メールをフィルタリングするシステムのための例示的なブロック図を示す。動作中、システムは電子メール102を受信し、電子メール102に対して自然言語処理(NLP)分析104を実行し、キーワードの組106を抽出する。システムは次に、多数のクエリを公式化し(動作110)、これらのクエリを検索エンジン112に発行する。検索エンジン112は、インターネット113において対応する検索を行い、多数のヒット114を返す。システムは次に、そのヒットを分析し(動作116)、電子メール102に関するスパム信号を生成する(動作108)。
図2は、本発明の実施形態による、ウェブサイドをフィルタリングするシステムのための例示的なブロック図を示す。動作中、システムは、先ず、制限されたトピック語202を受信する。例えば、制限されたトピック語202は、「ギャンブル(gambling)」又は「貸付(lending)」とすることができる。システムは、次に、制限されたトピック語202に基づいて、検索クエリを検索エンジン212に発行する。検索エンジン212は、インターネット213において対応するウェブ検索を行い、ヒットの組204を返す。システムは次に、ヒット204に対してNLP分析205を実行し、キーワードの組206を抽出する。キーワード206に基づいて、システムは検索クエリの組を公式化し(動作210)、これらのクエリを検索エンジン212に発行する。これに応答して、検索エンジン212はヒットの組214を返す。システムは次に、ヒット214の分析を実行し(動作216)、制限されたトピックと関連付けられた要注意語(sensitive word)218のリストを取得する。システムは次に、この要注意語のリストを用いて、ウェブページをフィルタリングすることができる。
一般的に実施されているスパミング技術の1つが難読化(obfuscation)である。難読化が用いられる場合、スパム・メールの発信者は、故意に電子メール内のキーワードのスペルミスをし、その電子メールの真のトピックを覆い隠す。例えば、表1に示される電子メールでは、「バイアグラ(viagra)」を「viarga」に故意にスペルミスする。
(表1)
Figure 0005053211
一実施形態において、システムは、受信された電子メールからキーワードを抽出し、その電子メールの真のトピックを判断することができる。本実施形態の1つの実施は、以下の動作を含む。
1.システムが、電子メールからキーワードを抽出する。一実施形態において、システムは、NLP技術を用いて上位にランク付けされた多数のキーワードを抽出する。
2.システムは次に、キーワード及びキーワードの組み合わせ(「句」ともいう)に基づいて、第1の組の検索クエリを構築する。{Qi}は、キーワード又はキーワードの組み合わせiに対応して発行するクエリの組を示すものとする。それぞれのクエリに用いられるキーワードの最大数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザが調整できるパラメータであることが留意される。一実施形態において、それぞれのクエリは、選択されたキーワードを列挙し、これらのキーワードをスペースで分離することによって公式化される。他のクエリ公式化技術も可能である。
3.システムは、検索クエリ{Qi}を検索エンジンに発行し、それぞれの検索クエリQiに応答して、多数のヒットniを受信する。
4.システムはまた、第2の組の検索クエリを構築する。第2の組内のそれぞれの検索クエリは、第1の組内の対応するクエリと類似しているが、「バイアグラ(viagra)」、「くじ(lottery)」、「モーゲージ(mortgage)」といった、少なくとも1つの既知のスパム・トピック語を含む。この第2の組内のそれぞれのクエリは、{Qi、j}と示され、ここで、iは、対応するキーワード又はキーワードの組み合わせを示し、jは、スパム・トピック語を示す。例えば、Qi=”A B C”(一実施形態においては、実際のクエリは引用符を含まないことに留意されたい)である場合には、Qi、1=”A B C viagra”、Qi、2=”A B C lottery”等である。nijは、Qijに応答して、検索エンジンによって返されたヒットの数を示すものとする。
5.クエリQij及びQiについて、nij/niが十分に大きい場合には、システムは、その電子メールがトピック語jに関連するスパム・メールであり得ることを知らせる。電子メールをスパムとして処理する判断は、十分に大きいnij/ni比を有するこうしたクエリの対(即ち、Qi及びQij)の数、及び、対応するトピックが確かにスパム・トピックであるという可能性にも依存することに留意されたい。
例えば、表1のスパム・メールを参照すると、Googleクエリ「sex medicine firm」は、約1,210,000件のヒットを返し、一方、クエリ「sex medicine firm viagra」は、約586,000件のヒットを返す。対応するnij/ni比は0.48であり、これは、一実施形態においては、その電子メールをスパムとしてマーク付けするのに十分である。
一実施形態において、電子メールからキーワードを抽出するために、システムは、自動化されたコンテンツ分析を用いて、これらの文書内のキーワードを抽出する。システムは、テキスト抽出から綿密な言語分析に至る、任意のNLPツールを用いることができる。一実施形態において、システムは、「単語出現頻度・逆出現頻度」(term frequency−inverse document frequency、TF.IDF)分析に基づいてキーワードを選択する。本開示に用いられる「キーワード」という用語は、単一の語に制限されるものではなく、語、句、略語、同義語、又は言語記号の任意の組み合わせを含み得ることに留意されたい。
TF.IDF分析では、システムは、電子メール内のそれぞれの語にTF.IDFの重みを割り当てる。システムは、統計的尺度であるこの重みを用いて、その語がコーパス(例えば、ウェブ)内の文書(即ち、電子メール)に対してどれだけ重要であるかを評価する。語の重要度は、その語が文書内で出現する回数に比例して高くなるが、コーパスにおける語の出現頻度によって相殺される。例えば、所定の文書に関するtiと示される用語iのTF.IDFの重みは、次の:
Figure 0005053211
のように計算することができる。この式において、用語頻度
Figure 0005053211
は、文書における全ての用語出現によって正規化された、文書におけるtiの出現数である。逆出現頻度
Figure 0005053211
は、用語の一般的な重要度の尺度であり、用語tiを含む文書数で除算したコーパスにおける全文書数の対数として計算される。
TF.IDFの重みを計算するための上記の式は、TF.IDF定義の一例にすぎない。異なる用途の場合には、異なるTF.IDF定義を採用することができる。さらに、本発明の実施形態はまた、分書から知識を得るために、他の言語分析手法を用いることもできる。
図3は、本発明の実施形態による、電子メールから抽出されたキーワードに基づいて、受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは、電子メールを受信する(動作302)。システムは次に、TF.IDF分析を用いて、電子メールを分析し、多数のキーワードを抽出する(動作304)。システムはさらに、キーワード又はキーワードの組み合わせiに基づいて構築されたクエリQiを発行する(動作306)。これに応答して、システムは、多数のヒットniを受信する(動作308)。
次に、システムは、キーワード又はキーワードの組み合わせi、及び、スパム・トピック語jに基づいて構築されたクエリQi,jを発行する(動作310)。Qi,jに応答して、システムは、多数のヒットnijを受信する(動作312)。その後、システムは、全てのキーワード又はキーワードの組み合わせが評価されたかどうかを判断する(動作313)。全てのキーワード又はキーワードの組み合わせが評価されていない場合は、システムは、続けて次のキーワード又はキーワードの組み合わせを調べる(動作306)。全てのキーワード又はキーワードの組み合わせが評価された場合には、システムはさらに、十分に大きいnij/ni比を有する、十分なキーワード又はキーワードの組み合わせが存在するかどうかを判断する(動作314)。存在する場合は、システムは、随意的に、他の条件が満たされているかどうかを判断し(動作316)、その電子メールがスパムであり得ることを知らせる(動作318)。他の場合には、システムは終了する。
別の一般的なスパミング技術は、電子メールの件名又は本文に非スパム語を挿入し、これにより、メッセージの統計値(例えば、語の頻度)を調べて電子メールがスパム・メールであるかどうかを判断する、統計的スパム・フィルタを阻止しようと試みるものである。これらの語は、スパム・フィルタをトリガする可能性が少ないランダム語又は注意深く選択された語であり得る。一実施形態において、システムは、スパム・メールから抽出されたワードに基づいてクエリから返されたヒット数を測定する。これは、典型的には、スパム・メールの件名における語はあまり意味をなさず、これらの語に基づいてクエリにより返されたヒット数が、正当な電子メールから抽出された語に基づいてクエリにより返されたヒット数よりもずっと少ないからである。表2は、スパム・メール及び正当な電子メールからの件名の例を示す。例えば、表2の第1行目は、正当な電子メールの件名からのGoogleクエリ「harassment awareness」(引用符なし)は約1,180,000件のヒットを返し、一方、スパム・メールからの件名「Chaos DDT」(引用符なし)に基づいたクエリは約240,000件のヒットを返すことを示す。特にスパム・メールの場合には、一般に、件名のキーワードを囲む引用符を使用することにより、ヒット・カウントが減少されることに留意されたい。さらに、正当な電子メールの件名から抽出されたクエリ内のキーワードが、必ずしも件名につながっているとは限らない。
表2
Figure 0005053211
更に別の実施形態において、システムは、電子メールの件名と本文との間の整合性を調べる。例えば、件名「楽天家 ガーデニング(optimist gardening)」のメッセージが実際にガーデニングに関するものである場合には、メッセージ内の語は、一般にガーデニングと関連した語を含むはずである。従って、件名が電子メール本文のトピックを表しているかどうかを評価することによって、システムは、その電子メールがスパム・メールである可能性が高いかどうかを判断することができる。一実施形態において、システムは以下の動作に従う。すなわち、
1.システムは、電子メールのテキスト本文からキーワードを抽出し、組Bを形成する。システムはさらに、件名からキーワードを抽出し、組Sを形成する。
2.システムは次に、Bから上位にランク付けされたキーワードBiの組を選択し、Sから上位にランク付けされたキーワードSiの組を選択する。(一実施形態において、ランク付けは、それぞれのキーワードのTF.IDFの重みに基づいて達成できることに留意されたい。)システムは次に、2つの組を併合し、併合された組からクエリを構築し、ここで、各々のクエリは、組Bからの少なくとも1つのキーワード、及び、組Sからの少なくとも1つのキーワードを含む。{Qi}は発行されたクエリの組を示し(即ち、Qiは、Bi∪Si内の語に基づいたクエリである)、niはクエリQiによって返されたヒットの数を示すものとする。各々のクエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
3.電子メール本文から抽出された各々のキーワードB1、B2、...に関して、システムは別個の検索クエリを発行する。nBiは返されたヒットの数を示すものとする。
4.組B内のキーワードに関して、ni/nBi比が十分に小さい場合には、システムは、その電子メールがスパムであり得ることを知らせる。電子メールをスパムとして処理する判断は、小さいni/nBi比を有するこうしたクエリの対の数に依存する。
図4は、本発明の一実施形態による、電子メールの本文及び電子メールの件名から抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは電子メールを受信する(動作402)。システムは次に、TF.IDFを用いて電子メールの本文を分析し、キーワードの組Bを抽出する(動作404)。次に、システムは電子メールの件名を分析し、キーワードの組Sを抽出する(動作406)。一般に件名は短いので、動作406におけるTF.IDFの使用は随意的なものであることに留意されたい。
次に、システムは、電子メール本文のキーワードBi及び電子メール件名のキーワードSiに基づいて構築されるクエリQiを発行する(動作408)。システムはその後、クエリQiに応答して多数のヒットniを受信する(動作410)。システムはさらに、電子メール本文のキーワードBiに関するクエリを発行し、該クエリに応答して多数のヒットnBiを受信する(動作412)。
システムは次に、B及びS内の全てのキーワードが評価されたかどうかを判断する(動作418)。全てのキーワードが評価されていない場合には、システムは、続けて次のクエリQiを発行する(動作408)。B及びS内の全てのキーワードが評価された場合には、システムは次に、十分に小さいni/nBi比を有するクエリの対の数が十分に大きいかどうかを判断する(動作420)。十分に大きい場合には、システムは、この電子メールをスパムとして処理する(動作422)。他の場合には、システムは終了する。
従来のウェブサイト・フィルタリング・システムは、どのサイトをブロックするべきかを判断するために、手動で生成されたブラックリスト、及び、限られた数の自動化された技術に依存する。本発明の実施形態は、ウェブを用いて、望ましくないウェブサイトと関連したキーワードを絶えず更新し、次に、これをウェブサイトのコンテンツと照合して、そのウェブサイトをブロックすべきかどうかを判断することができる。例えば、システムは、ウェブを積極的に調べ、「オマハ 高い(Omaha high)」又は「テキサス ホールデム(Texas holdem)」のような新しい句が、アクセスを制限すべきギャンブルのサイトに関連することを発見することができる。
一実施形態において、システムは、以下の動作を実行することによってウェブサイトにおける推論を識別する。すなわち、
1.システムは、制限されたウェブサイトのトピックTl、・・・、Tk(例えば、「ギャンブル(gambling)」、「ポルノ(porn)」等)のリストを受信する。
2.それぞれの制限トピック語に関して、システムは検索クエリを発行し、多数のヒットを受信する。
3.システムは、返されたヒットからキーワードの組を抽出する。これらのキーワードに基づいて、システムは検索クエリQiを公式化する。niは、Qiに応答して返されたヒットの数を示すものとする。クエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
4.それぞれのクエリQiに関して、システムは、Qi内のキーワード又はキーワードの組み合わせ及び制限されたトピック語を用いて、第2のクエリQiTを発行する。niTは返されたヒットの数であるものとする。
5.niT/niが十分に大きい場合には、システムは、Qi内の用語が制限されたトピックに関連する可能性が高いことに気付く。要注意用語を含むウェブサイトへのアクセスを制限する判断は、こうした推論を可能にするクエリの閾値数、及び、niT/ni比の値の識別に依存することができる。
例えば、クエリ「オマハ 高い(Omaha high)」は、Googleから約3,000,000件のヒットを返す。クエリ「オマハ 高い ギャンブル(Omaha high gambling)」は、約1,460,000件のヒットを返す。niT/ni比は0.48であり、これは、システムが「オマハ 高い(Omaha high)」を要注意語であると識別し、この句を含むウェブサイドをブロックするのに十分に高いものである。
図5は、本発明の一実施形態による、ウェブサイトをフィルタリングする例示的なプロセスを示すフローチャートを表す。動作中、システムは、制限されたトピック語を用いて検索クエリを発行する(動作502)。システムは次に、そのクエリに応答してヒットを受信する(動作506)。次に、システムは、受信されたヒットからキーワードを抽出する(動作508)。システムはその後、キーワード又はキーワードの組み合わせiに基づいて構築されたクエリQiを発行し、クエリQiに応答して多数のヒットniを受信する(動作510)。
システムはさらに、キーワード又はキーワードの組み合わせi及び制限されたトピック語に基づいて構築されたクエリQiTを発行し、QiTに応答して多数のヒットniTを受信する(動作512)。次に、システムは、全てのキーワードが評価されたかどうかを判断する(動作516)。全てのキーワードが評価されていない場合には、システムは、次のクエリQiを発行する(動作510)。全てのキーワードが評価されている場合には、システムは次に、十分に大きいniT/ni比を有する全てのキーワード又はキーワードの組み合わせを推論可能なものとしてマーク付けする(動作518)。次に、システムは、推論可能なものである要注意語のリストを生成する(動作520)。次いで、システムは終了する。
図6は、本発明の一実施形態による、受信する電子メール及びウェブサイトをフィルタリングするためのコンピュータ・システムを示す。コンピュータ・システム602は、プロセッサ604、メモリ606、及び記憶装置608を含む。コンピュータ・システム602は、インターネット603、ディスプレイ613、キーボード610、及び位置決め装置612に結合される。記憶装置608は、ウェブコンテンツ・フィルタリング・アプリケーション614、電子メール・スパム検出アプリケーション616、並びにアプリケーション620及び622を格納する。ウェブコンテンツ・フィルタリング・アプリケーション614は、TF.IDF分析モジュール615を含む。同様に、電子メール・スパム検出アプリケーション616は、TF.IDF分析モジュール618を含む。動作中、ウェブコンテンツ・フィルタリング・アプリケーション614及び/又は電子メール・スパム検出アプリケーション616はメモリ606内にロードされ、プロセッサ604によって実行される。これに応じて、上述のように、プロセッサ604は、推論検出ベースの電子メール・スパム検出及びウェブコンテンツ・フィルタリングを実行する。
本発明の実施形態の上記の説明は、例証及び説明のために提示されたものにすぎない。これらは、網羅的であること、又は本発明を開示された形態に制限することを意図するものではない。従って、当業者であれば、多くの変更及び変形が明らかであろう。さらに、上記の開示は、本発明を制限することを意図するものではない。本発明の範囲は、添付の特許請求の範囲によって定められる。
本発明の実施形態による、受信する電子メールをフィルタリングするシステムの例示的なブロック図を示す。 本発明の実施形態による、ウェブサイトをフィルタリングするシステムの例示的なブロック図を示す。 本発明の実施形態による、電子メールから抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。 本発明の一実施形態による、電子メールの本文及び電子メールの件名から抽出されたキーワードに基づいて受信する電子メールをフィルタリングする例示的なプロセスを示すフローチャートを表す。 本発明の一実施形態による、ウェブサイトをフィルタリングする例示的なプロセスを示すフローチャートを表す。 本発明の一実施形態による、受信する電子メール及びウェブサイトをフィルタリングするためのコンピュータ・システムを示す。
符号の説明
102:電子メール
104、205:NLP分析
106、206:キーワード
108:スパム信号の生成
110、210:クエリの公式化
112、212:検索エンジン
113、213、603:インターネット
114、204、214:ヒット
116、216:ヒットの分析
202:制限されたトピック語
218:要注意語
602:コンピュータ・システム
604:プロセッサ
606:メモリ
608:記憶装置
610:キーボード
612:位置決め装置
613:ディスプレイ
614:ウェブコンテンツ・フィルタリング・アプリケーション
615、618:TF.IDF分析モジュール
616:電子メール・スパム検出アプリケーション
620、622:アプリケーション

Claims (4)

  1. 望ましくない電子メールを検出するためのコンピュータ・システムであって、前記コンピュータ・システムが、
    プロセッサと、
    前記プロセッサに結合されたメモリと、
    電子メールを受信するように構成された第1の受信機構と、
    前記電子メール本文からキーワードの組を抽出するように構成されたキーワード抽出機構と、
    前記電子メール本文から抽出された少なくとも1つのキーワードに基づいた第1の検索クエリと、
    前記第1の検索クエリのために用いられるキーワード及び少なくとも1つの付加的な語に基づいた第2のクエリと、
    を構築するように構成されたクエリ公式化機構と、
    前記第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信するように構成されたヒット受信機構と、
    前記第1の数及び前記第2の数に基づいて、前記電子メールが望ましくないかどうかを判断するように構成された判断機構と、
    前記判断に基づいて、前記電子メールが望ましくないことを示す結果を生成するように構成された結果生成機構と、
    を含むことを特徴とするコンピュータ・システム。
  2. 前記電子メール本文から前記キーワードを抽出する間、前記キーワード抽出機構は、該電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度(TF.IDF)の重みを判断するように構成されることを特徴とする、請求項1に記載のシステム。
  3. 前記付加的な語はスパムのトピック語であり、
    前記第2のクエリを構築する間、前記クエリ公式化は、前記第1のクエリ内に前記付加的な語を含ませるように構成されることを特徴とする、請求項1に記載のシステム。
  4. 前記第1の数及び前記第2の数に基づいて前記電子メールが望ましくないかどうかを判断する間、前記判断機構は、該第1の数と該第2の数との間の比を計算するように構成されることを特徴とする、請求項1に記載のシステム。
JP2008225626A 2007-12-05 2008-09-03 自動推論検出によるインバウンド・コンテンツのフィルタリング Expired - Fee Related JP5053211B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/951,198 2007-12-05
US11/951,198 US7860885B2 (en) 2007-12-05 2007-12-05 Inbound content filtering via automated inference detection

Publications (2)

Publication Number Publication Date
JP2009140469A JP2009140469A (ja) 2009-06-25
JP5053211B2 true JP5053211B2 (ja) 2012-10-17

Family

ID=40722689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008225626A Expired - Fee Related JP5053211B2 (ja) 2007-12-05 2008-09-03 自動推論検出によるインバウンド・コンテンツのフィルタリング

Country Status (2)

Country Link
US (1) US7860885B2 (ja)
JP (1) JP5053211B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026598B2 (en) * 2007-12-10 2015-05-05 International Business Machines Corporation Automatically generating request-specific backup contact information in an out of office message
US8370930B2 (en) * 2008-02-28 2013-02-05 Microsoft Corporation Detecting spam from metafeatures of an email message
US9165056B2 (en) * 2008-06-19 2015-10-20 Microsoft Technology Licensing, Llc Generation and use of an email frequent word list
US20140289606A1 (en) * 2008-06-19 2014-09-25 Adobe Systems Incorporated Systems and Methods For Attribute Indication and Accessibility in Electronics Documents
CN101616101B (zh) 2008-06-26 2012-01-18 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置
CN102193929B (zh) * 2010-03-08 2013-03-13 阿里巴巴集团控股有限公司 利用词信息熵的搜索方法及其设备
US9020834B2 (en) 2010-05-14 2015-04-28 Xerox Corporation System and method to control on-demand marketing campaigns and personalized trajectories in hyper-local domains
US8645210B2 (en) 2010-05-17 2014-02-04 Xerox Corporation Method of providing targeted communications to a user of a printing system
US8571920B2 (en) 2010-10-05 2013-10-29 Xerox Corporation Optimal list-price mechanism design for multi-level device click-through in targeted print or electronic communication
US9015195B1 (en) 2013-01-25 2015-04-21 Google Inc. Processing multi-geo intent keywords
US10291628B2 (en) 2014-11-07 2019-05-14 International Business Machines Corporation Cognitive detection of malicious documents
CN107122949B (zh) * 2016-02-25 2021-02-26 阿里巴巴集团控股有限公司 电子邮件筛选方法及装置
US10791130B2 (en) * 2016-09-28 2020-09-29 Opsec Online Limited Trigger-based harvesting of data associated with malignant content in a networked environment
JP6905999B2 (ja) * 2017-02-28 2021-07-21 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP6485470B2 (ja) * 2017-02-28 2019-03-20 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
US11574371B1 (en) * 2017-12-07 2023-02-07 Pinterest, Inc. Generating personalized content

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6654787B1 (en) * 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
AU2212801A (en) * 1999-12-07 2001-06-18 Qjunction Technology, Inc. Natural english language search and retrieval system and method
US8788492B2 (en) * 2004-03-15 2014-07-22 Yahoo!, Inc. Search system and methods with integration of user annotations from a trust network
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US8010609B2 (en) * 2005-06-20 2011-08-30 Symantec Corporation Method and apparatus for maintaining reputation lists of IP addresses to detect email spam
US7930353B2 (en) * 2005-07-29 2011-04-19 Microsoft Corporation Trees of classifiers for detecting email spam
US7730081B2 (en) * 2005-10-18 2010-06-01 Microsoft Corporation Searching based on messages
US20070174255A1 (en) * 2005-12-22 2007-07-26 Entrieva, Inc. Analyzing content to determine context and serving relevant content based on the context
US20080033797A1 (en) * 2006-08-01 2008-02-07 Microsoft Corporation Search query monetization-based ranking and filtering

Also Published As

Publication number Publication date
US7860885B2 (en) 2010-12-28
JP2009140469A (ja) 2009-06-25
US20090150365A1 (en) 2009-06-11

Similar Documents

Publication Publication Date Title
JP5053211B2 (ja) 自動推論検出によるインバウンド・コンテンツのフィルタリング
Drost et al. Thwarting the nigritude ultramarine: Learning to identify link spam
JP4906273B2 (ja) 外部データを使用した検索エンジンスパムの検出
US8650199B1 (en) Document similarity detection
AU2006290977B2 (en) Ranking blog documents
US7917522B1 (en) Training procedure for N-gram-based statistical content classification
US8990225B2 (en) Outbound content filtering via automated inference detection
JP4916316B2 (ja) 電子的通信のurlベース選別のための方法及びシステム
JP2009134714A (ja) プライバシーポリシーを強化するためにコンピュータが実行する方法
US9519704B2 (en) Real time single-sweep detection of key words and content analysis
Zhang et al. Malicious web page detection based on on-line learning algorithm
WO2018077035A1 (zh) 恶意资源地址检测方法和装置、存储介质
Banerjee et al. SUT: Quantifying and mitigating url typosquatting
US20060184577A1 (en) Methods and apparatuses to determine adult images by query association
Prieto et al. Analysis and detection of web spam by means of web content
Stuart et al. A neural network classifier for junk e-mail
Wahsheh et al. Detecting Arabic web spam
Park et al. Towards text-based phishing detection
KR102169143B1 (ko) 유해 콘텐츠 웹 페이지 url 필터링 장치
Jin et al. Extracting a social network among entities by web mining
US9081858B2 (en) Method and system for processing search queries
Suliman et al. Explicit words filtering mechanism on web browser for kids
Wahsheh et al. Evaluating Arabic spam classifiers using link analysis
Liu et al. Detecting tag spam in social tagging systems with collaborative knowledge
Mengle et al. Passage detection using text classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120625

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120725

R150 Certificate of patent or registration of utility model

Ref document number: 5053211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees