JP2009146385A - 自動推論検出によるアウトバウンド・コンテンツのフィルタリング - Google Patents

自動推論検出によるアウトバウンド・コンテンツのフィルタリング Download PDF

Info

Publication number
JP2009146385A
JP2009146385A JP2008225627A JP2008225627A JP2009146385A JP 2009146385 A JP2009146385 A JP 2009146385A JP 2008225627 A JP2008225627 A JP 2008225627A JP 2008225627 A JP2008225627 A JP 2008225627A JP 2009146385 A JP2009146385 A JP 2009146385A
Authority
JP
Japan
Prior art keywords
content
outbound
keywords
mechanism configured
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008225627A
Other languages
English (en)
Other versions
JP5047909B2 (ja
Inventor
Richard Chow
チョウ リチャード
Phillipe Jean-Paul Golle
ジャン ポール ゴール フィリップ
Jessica N Staddon
エヌ スタッドン ジェシカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2009146385A publication Critical patent/JP2009146385A/ja
Application granted granted Critical
Publication of JP5047909B2 publication Critical patent/JP5047909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】推論検出によってアウトバウンド・コンテンツをフィルタリングすることを容易にするシステムを提供する。
【解決手段】動作中に、システムは、共通する第1の宛先識別子によって先に送信されたコンテンツを識別し、識別された先に送信されたコンテンツからキーワードの組を抽出する。システムは次に、識別されたコンテンツから抽出されたキーワードに基づいて、多数のウェブ検索クエリを発行し、該クエリに応答して多数のヒットを受信し、該ヒットから期待コンテンツのキーワードの組を抽出する。システムはさらに、期待コンテンツのキーワードを第1の宛先識別子に関連付ける。システムがアウトバウンド・コンテンツの1つを受信した後に、システムは、アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数を判断する。システムは次に、アウトバウンド・コンテンツのための宛先識別子とアウトバウンド・コンテンツに存在する期待コンテンツの少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断できるようにする。
【選択図】なし

Description

本発明は、インテリジェント・データ処理の設計に関する。より具体的には、本発明は、推論検出によるアウトバウンド・コンテンツのフィルタリングのための方法及びシステムに関する。
インターネットの絶え間ない成長は、ほとんどあらゆる産業に空前の生産性向上をもたらしてきた。電子メール及びウェブベース・プログラム等のインターネット・ベースの通信アプリケーションは、従来型の郵便及び掲示板のような遅い通信チャネルに急速に取って代わろうとしている。仕事場での典型的な一日は、多くの場合、おびただしい数の電子メールを送信すること、及び/又は、ウェブページ上に情報を書き込むことに携わる。こうした便利さは、情報を今やほぼ瞬時に非常に低コストで普及させることができるので、我々の作業効率を著しく向上させてきた。
しかしながら、インターネット・ベースの情報伝達アプリケーションのほとんども、人為ミスを被る傾向がより強い。例えば、電子メールのアドレスを誤入力し、その受取人に対して意図しない情報を不注意にも発信してしまう可能性がある。その上、現在の電子メール・プロトコルは、タイムリーな送達を可能にしているが、誤って送信された電子メールを撤回することを非常に難しくもしている。
アウトバウンド・コンテンツは動的で予測できない場合が多いのに、主としてキーワード及び/又はアドレスの静的リストに基づいているため、従来型のコンテンツ・フィルタリング技術は、こうした人為ミスを見つけることには適さない。
本発明の一実施形態は、推論検出によってアウトバウンド・コンテンツをフィルタリングすることを容易にするシステムを提供する。動作中に、システムは、共通する第1の宛先識別子によって先に送信されたコンテンツを識別し、識別された先に送信されたコンテンツからキーワードの組を抽出する。システムは次に、識別されたコンテンツから抽出されたキーワードに基づいて、多数のウェブ検索クエリを発行し、該クエリに応答して多数のヒットを受信し、該ヒットから期待コンテンツのキーワードの組を抽出する。システムはさらに、期待コンテンツのキーワードを第1の宛先識別子に関連付ける。システムがアウトバウンド・コンテンツの1つを受信した後に、システムは、アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数を判断する。システムは次に、アウトバウンド・コンテンツのための宛先識別子とアウトバウンド・コンテンツに存在する期待コンテンツの少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断できるようにする。
本実施形態の変形において、ヒットから期待コンテンツのキーワードを抽出することは、期待コンテンツのキーワードをランク付けすることを含む。
さらなる変形において、ヒットから期待コンテンツのキーワードを抽出することは、それぞれの文書に含まれたそれぞれの単語又は語句についての単語出現頻度と逆出現頻度(TF.IDF)とによる重みを判断することを含む。
本実施形態の変形において、システムは、アウトバウンド・コンテンツの宛先識別子が第1の宛先識別子に一致しているかどうかを判断する。
さらなる変形において、結果を生成することは、アウトバウンド・コンテンツの宛先識別子が第1の宛先識別子に一致し、アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数が所定閾値を下回るときに、又は、アウトバウンド・コンテンツの宛先識別子が第1の宛先識別子に一致せず、アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数が所定閾値を上回るときに、ユーザに警告を発することを含む。
本発明の一実施形態は、推論検出によってアウトバウンド・コンテンツをフィルタリングすることを容易にするシステムを提供する。動作中に、システムは、アウトバウンド・コンテンツの1つを受信し、該アウトバウンド・コンテンツからキーワードを抽出する。システムは次に、該キーワードに基づいてウェブ・クエリを発行し、該クエリに応答して検索エンジンによって返されたヒットに対応する文書からキーワードを抽出する。システムはさらに、ヒットから抽出されたキーワードをランク付けし、1つ又はそれ以上のランク付けされたキーワードを選択してアウトバウンド・コンテンツを表す。システムは次に、アウトバウンド・コンテンツのための宛先識別子とアウトバウンド・コンテンツを表すために選択された少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断できるようにする。
本実施形態の変形において、アウトバウンド・コンテンツからキーワードを抽出することは、アウトバウンド・コンテンツに含まれたそれぞれの単語又は語句についてのTF.IDFによる重みを判断することを含む。
さらなる変形において、ヒット文書からキーワードを抽出することは、それぞれの文書に含まれた単語又は語句についてのTF.IDFによる重みを判断することを含む。
本実施形態の変形において、ヒット文書から抽出されたキーワードをランク付けすることは、それぞれのキーワードを含むヒット文書数を判断することを含む。
本実施形態の変形において、ヒット文書から抽出されたキーワードをランク付けすることは、それぞれのキーワードを含む少なくとも1つのヒット文書をもたらすクエリ数を判断することを含む。
以下の説明は、当業者であればいずれも本発明を実施し利用できるようにするために提示され、特定の用途とその必要性とに関連して提供される。開示された実施形態に対する種々の変更は、当業者にとっては直ちに明らかとなり、本明細書で定義された一般原理は、本発明の精神及び範囲から逸脱することなく、他の実施形態及び用途に適用することができる。従って、本発明は、示された実施形態に限定されるものではなく、特許請求の範囲と一致する最も広い範囲によるべきである。
本明細書の詳細な説明において記載されたデータ構造及びコードは、典型的にはコンピュータ可読記憶媒体に格納され、それは、コンピュータ・システムによる使用のためのコード及び/又はデータを格納できる任意の装置又は媒体にすることができる。これは、揮発性メモリ、不揮発性メモリ、ディスク・ドライブなどの磁気及び光記憶装置、磁気テープ、CD(コンパクト・ディスク)、DVD(デジタル多用途ディスク又はデジタル・ビデオ・ディスク)、或いは、現在知られている又は将来開発されるコンピュータ可読媒体を格納できる他の媒体を含むが、これらに限定されるものではない。
本発明の実施形態は、1つ又はそれ以上の文書のコンテンツから導き出された推論を検出するための自動化された技術を提供する。こうした技術を用いて、アウトバウンド・コンテンツを管理すること即ちフィルタリングすることができる。特に、こうした推論検出技術は、電子メールなどのアウトバウンド・コンテンツに含まれた意図されない情報の検出を容易にすることができ、これにより、不注意で送信された情報の量を減らすことができる。「アウトバウンド・コンテンツ(outbound content)」という用語は、ユーザのシステムから別のシステムに送信されるいかなる種類のコンテンツをもいうことに注意されたい。こうしたコンテンツは、電子メール、ウェブ書き込み、インスタント・メッセージ、及び、テキストベース文書の他の形態を含むことができるが、これらに限定されるものではない。
例えば、ユーザは、受信者の電子メール・アドレスを入力するときに、電子メール・クライアント・プログラムの「オートコンプリート」機能に頼ることが多い。典型的なオートコンプリート機能は、ユーザが受信者の電子メール・アドレス又は名前の最初の数文字のみを入力すると、同じ文字で始まる先に格納されたアドレスにより、完全な電子メール・アドレスを自動的に完成させることができるようにする。オートコンプリート機能は、時間を節約し、完全な電子メール・アドレスを記憶する負担からユーザを解放する。しかしながら、オートコンプリート機能は、最も頻繁に又は最新で用いられたアドレスに有利に働く可能性があり、これは、ユーザが間違いを見つけなければ、不正確に入力されたアドレスに導かれることになる。不正確に入力されたアドレスは、電子メールが宛先不明で戻る原因になり、もっと悪い場合には、慎重な扱いを要する情報が誤った受信者に送信される事態を生じされることになる。
より具体的な例では、ユーザのボブが、彼の友達のアリスと、彼の生まれたばかりの赤ちゃんの写真を共有したいと考えているとしよう。しかしながら、ボブは、過去に多数の電子メールを彼の顧客のアリソンに送信してきた。ボブが「アリス(Alice)」という名前の最初の3文字を入力し始めたときに、電子メール・プログラムは、アリソン(Alison)の電子メール・アドレスにより、受信者のアドレス・フィールドを自動的に完成させる。電子メール・プログラムを信頼して実際の電子メール・アドレスを再確認しないで、ボブは、電子メール本文を入力し終わり、写真を添付して「送信」ボタンを押す。その結果、ボブは、不注意にも、個人的な電子メールを彼の顧客のアリソンに送信してしまう。
従来型のコンテンツ・フィルタリング技術は、こうした状況にあまり有用ではない。これらの技術は、主としてキーワード又はアドレスの静的リストに基づいている。ユーザが受信者のアドレスの各々のための慎重な扱いを要するキーワード・リストを構築することは、大変困難なことである。さらに、電子メール(及び、一般にアウトバウンド・コンテンツ)は、そこに含まれた真の主題を曖昧にする情報を含むことが多い。時に、アウトバウンド・コンテンツの1つが主題に関する明確な単語を含まないことがあるが、それにもかかわらず、受信者が主題を推論することをできるようにする場合がある。例えば、ユーザが、オサマ・ビン・ラディン(Osama Bin Laden)に関するいかなる発信コンテンツ(例えば、電子メール、ブログ書き込み)も特定の受信者に送信することを避けたいと考えているとしよう。フィルタリング・システムは、明確な識別情報、例えば「オサマ(Osama)」、「ビン(Bin)」、「ラディン(Laden)」及び「OBL」のような単語を含むいかなる電子メール又はブログ書き込みも、フィルタリングすることができる。しかしながら、コンテンツの1つがいかなる明確な識別単語も含まないとき、それは、フィルタリング・システムを通過することはできるが、依然として、オサマ・ビン・ラディンに関するものと認識される。例えば、「イエメン出身のサウジアラビア建設業界の大物の息子」という言葉を含む電子メールは、クエリの「サウジアラビア・建設業界・大物・イエメン」によるウェブ検索がオサマ・ビン・ラディンについての多数のヒットを返すため、受信者が、本文の主題がオサマ・ビン・ラディンであると推論することができる。それでも、フィルタリング・システムは、この電子メールを見つけることができないであろう。
本発明の実施形態は、キーワード・リストの動的な更新を可能にするものであってアウトバウンド・コンテンツにおける推論を検出する新技術を提供し、これにより、望ましくない情報が不注意で発信されることがないようにする。実施形態のいくつかにおいては、ウェブ又は企業のイントラネットに格納されたデータなどの巨大なコーパスが人間の知識の代用として用いられ、発信電子メール又はウェブ書き込みのような文書からどのような推論が導き出され得るかを理解することができるようにする。技術の1つは、文書からキーワードを抽出し、これらのキーワードを用い、検索エンジン・クエリを構築し、これらのクエリに応答して(「ヒット」とも呼ばれる)返された結果を分析することである。
本開示において、「コーパス」という用語は文書の集合をいう。一実施形態において、コーパスは、ウェブ上で利用可能な全ての文書を含むことができる。コーパスはまた、組織への内部文書の集合であってもよい。また、システムは1つ又はそれ以上のコーパスに基づいて動作することができる。
図1は、本発明の実施形態による先の電子メールに関連してウェブベースの推論検出によって得られた期待コンテンツのキーワードに基づいて、アウトバウンド電子メールを調べるシステムのための例示的なブロック図を示す。動作中に、システムは、最初に、共通する受信者アドレス102によって先に送信された電子メールを識別する。システムは次に、電子メール102に対して自然言語処理(NLP)分析104を実行する。結果として、システムは電子メール102からキーワードの組106を取得する。
システムは次に、キーワード106に基づいてウェブ検索クエリの組108を構築し、これらのクエリを検索エンジン110に発行する。検索エンジン110は次に、インターネット112上で検索を行い、クエリの各々に多数のヒット113を返す。システムは次に、ヒットにNLP分析114を実行し、多数のキーワード116を抽出する。キーワード116は、先に受信された電子メール102に基づいた推論検出の結果であり、それ故に用いられ、アウトバウンド電子メールの期待コンテンツを表すことができる。
その後、電子メール・フィルタリング・システム118は、アウトバウンド電子メール120を期待コンテンツのキーワード116と照合する。アウトバウンド電子メール120の受信者アドレスが電子メール102のアドレスと同じであるかどうかに基づくとともに、期待コンテンツのキーワード数がアウトバウンド電子メール102と一致していることに基づいて、フィルタリング・システム118は、アウトバウンド電子メール120のコンテンツがその受信者アドレスと矛盾するように思われるときに、ユーザに気付かせる警報122を発する。
図2は、本発明の実施形態によるウェブベースの推論検出をアウトバウンド電子メールに実行するシステムのための例示的なブロック図を示す。動作中に、システムはアウトバウンド電子メール202を受信し、電子メール202にNLP分析の組204を実行する。結果として、システムは、アウトバウンド電子メール202からキーワードの組206を取得する。キーワード206に基づいて、システムはウェブ検索クエリの組208を構築し、これらのクエリを検索エンジン210に発行する。
これに応答して、検索エンジン210はインターネット212を検索し、クエリの各々のために多数のヒット213を受信する。システムは次に、ヒット213に分析214を実行し、トピック・キーワードの組216を抽出する。その後に、システムはトピック・キーワード216とアウトバウンド電子メール202の受信者アドレス218とを示す警報メッセージ220を発し、これにより、ユーザが、アウトバウンド電子メール202が正しいコンテンツを有することを確認できるようにする。
一実施形態において、システムは、正しくアドレス指定された電子メールのデータベースを用いて、同じ受信者アドレスの電子メールのために期待コンテンツのキーワードの組を生成する。一実施形態において、システムは、特定のアドレスに送信された全ての電子メールからキーワードを抽出し、これらのキーワードを普及度によって随意にランク付けする。例えば、ユーザの友達宛の電子メールに関連付けられた最も普及度の高いキーワードは、「pic」、「baby」及び「kid」を含むことができる。そこで、システムは、これらのキーワードに基づいて多数のウェブ検索クエリを発行する。これに応答して、システムは多数のヒットを受信し、これらのヒットから第2のキーワードの組を抽出する。ヒット文書から抽出されたこの第2のキーワードの組は、それらの識別された先に送信された電子メールと同じ受信者アドレスを有する電子メールの期待コンテンツを表すものと見なされる。同じ受信者に宛てられたアウトバウンド電子メールにおいて、任意のこれらの期待コンテンツのキーワードの出現数が特定の閾値を下回るときに、システムは、ユーザに警報を発する。或いは、アウトバウンド電子メールが異なる受信者アドレスを有するが、電子メールにおいて期待コンテンツのキーワードの出現が特定の閾値を上回る場合に、システムはまた、ユーザに警報を発することができる。
本実施形態の実施の一つは、以下の動作を含む。
1.システムは、共通する受信者アドレスによって先に送信された電子メールを識別する。
2.システムは、電子メールからキーワードを抽出する。一実施形態において、システムは、NLP技術を用いて上位にランク付けされた多数のキーワードを抽出する。
3.システムは、キーワードに基づいて検索エンジンに多数のクエリを発行し、これに応答してヒットを受信する。システムは、その後に、別のNLP分析を実行し、ヒットから期待コンテンツのキーワードを抽出する。
4.システムは次に、同じ受信者アドレスを有するアウトバウンド電子メールが十分な数の期待コンテンツのキーワードの一致があるかどうかを判断するか、又は、異なる受信者アドレスを有するアウトバウンド電子メールが多すぎる期待コンテンツのキーワードの一致があるかどうかを判断する。システムは、これによってユーザに警報を発する。
1つの実施形態において、キーワードを電子メールから抽出するため、及び、キーワードをヒット文書から抽出するために、システムは、これらの文書に自動コンテンツ分析を適用する。システムは、テキスト抽出から綿密な言語分析に至る、任意のNLPツールを用いることができる。一実施形態において、システムは「単語の出現頻度と逆出現頻度」(TF.IDF)分析に基づいてキーワードを選択する。本開示で用いられる「キーワード」という用語は、単一の単語に限定されるものではなく、単語、語句、略語、同義語又は言語記号の任意の組み合わせを含むことができることに留意すべきである。
TF.IDF分析において、システムは、電子メールにおける単語のそれぞれにTF.IDFによる重みを割り当てる。システムは、統計的尺度であるこの重みを用いて、単語がコーパス(例えば、企業のデータベース又はサーバに格納された全ての電子メール)における文書(即ち電子メール)にとってどれだけ重要であるかを評価する。単語の重要度は、該単語が文書内に現れる回数に比例して高くなるが、コーパスにおける単語の出現頻度によって相殺される。例えば、所与の文書に関するtiと示される用語iのTF.IDFによる重みは、
Figure 2009146385
のように計算することができる。この式では、用語頻度
Figure 2009146385
は、文書における全ての用語出現によって正規化された、文書におけるtiの出現数である。逆出現頻度
Figure 2009146385
は、用語の一般的な重要度の尺度であり、用語tiを含む文書数で除したコーパスにおける全文書数の対数として計算される。
TF.IDFによる重みを計算するための上記の式は、TF.IDF定義の一例にすぎない。異なる用途の場合には、異なるTF.IDF定義を採用することができる。さらに、本発明の実施形態はまた、文書からキーワードを抽出するために、他の言語分析手法を用いることができる。
図3は、本発明の実施形態による先の電子メールに関連してウェブベースの推論検出によって得られた期待コンテンツのキーワードに基づいて、アウトバウンド電子メールを調べる例示的なプロセスを示すフローチャートを表す。動作中に、システムは、最初に、同じ受信者アドレスの全ての電子メールを識別する(動作302)。システムは次に、これらの電子メールにTF.IDF分析を実行し、キーワードの組を抽出する(動作303)。システムは、キーワードのTF.IDFによる重みに基づいて、それらを任意にランク付けできることに注目されたい。さらに、抽出されるキーワード数は、所望の実行時間と推論検出の徹底とに基づきユーザが調整できるパラメータとすることができる。
システムは次に、先の電子メールから抽出されたキーワードに基づいて多数のクエリを構築する(動作304)。その後、システムは検索エンジンにクエリを発行する(動作305)。これらのクエリに応答して、システムは検索エンジンから多数のヒットを受信する(動作306)。システムは次に、受信されたヒットに別のTF.IDF分析を実行し、期待コンテンツのキーワードを抽出する(動作307)。
次に、システムはアウトバウンド電子メールを受信する(動作308)。システムは、アウトバウンド電子メールに存在する期待コンテンツのキーワードを識別する(動作309)。その後、システムは、アウトバウンド電子メールの受信者アドレスが動作302で識別された電子メールの同じアドレスと一致しているかどうかを判断する(動作310)。アウトバウンド電子メールが同じ受信者アドレスを有している場合に、システムは、アウトバウンド電子メールに存在する期待コンテンツのキーワード数が所定閾値を下回るかどうかをさらに判断する(動作312)。そうであるならば、システムは、アウトバウンド電子メール・コンテンツ及び/又は受信者アドレスが正しいことをユーザが確認できるように、ユーザに警報を発する(動作316)。そうでない場合には、システムが戻る。
アウトバウンド電子メールが異なる受信者アドレスを有する場合に、システムは次に、アウトバウンド電子メールに存在する期待コンテンツのキーワード数が所定閾値を上回るかどうかを判断する(動作314)。そうであるならば、システムは、アウトバウンド電子メール・コンテンツ及び/又は受信者アドレスが正しいことをユーザが確認できるように、ユーザに警報を発する(動作316)。そうでない場合には、システムが戻る。
上述したプロセスは、ウェブ書き込みのようなアウトバウンド・コンテンツの他の形態にも適用することに留意すべきである。電子メール・アドレスの代わりに、システムは、ウェブ・アドレス、ドメイン名、インターネット・プロトコル(IP)又は様々なIPアドレスなどの任意の種類の宛先識別情報を用いることができる。例えば、システムは、同じブログ・アドレスへの過去の全てのブログ書き込みを識別し、これらの書き込みから期待コンテンツのキーワードを取得することができる。一般に、システムは、期待コンテンツのキーワードを任意の形態の宛先識別子に関連付けることができる。
本発明の一実施形態は、アウトバウンド電子メールに関連付けられた1つまたはそれ以上のトピックに対して、ウェブを用いる。システムは次に、ユーザに識別されたトピックを提示し、ユーザが、電子メールを送信するのに先立ち、トピックが電子メールの受信者には正しいものであることを確認できるようにする。例えば、前述した例において、システムは、ユーザ・ボブに電子メールのトピックを「写真共有」として通知し、「写真共有についてアリソンにメッセージを送信してもよいか」とボブに質す。この警報メッセージは、ユーザ・ボブが電子メールのコンテンツと受信者アドレスとを二重にチェックし、彼の顧客に当惑されるような電子メールの誤送信を回避できるようにする。
一実施形態において、システムは、以下の動作を実行することによってアウトバウンド電子メールにおける推論を識別する。
1.システムは、例えばTF.IDF分析を用いて、アウトバウンド電子メールからキーワードを抽出する。
2.システムは、抽出されたキーワードの種々のサブセットと組み合わせとに基づいて、検索エンジンにウェブ検索クエリを発行する。こうしたサブセット数は、所望の実行時間と推論検出の深さとに基づきユーザが調整できるパラメータである。
3.発行されたクエリの各々について、システムは、返されたヒットからキーワードの組を抽出する。
4.システムは、それぞれのキーワードを含むヒット数、及び/又は、それぞれのキーワードを含む少なくとも1つのヒットをもたらすクエリ数により、抽出されたキーワードをランク付けする。他のランク付け方法もまた実行可能である。
5.システムは、トピック・キーワードとして最高位にランク付けされた1つまたはそれ以上のキーワードを選択し、電子メールに関連付ける。システムはさらに、トピック・キーワードと電子メールの受信者アドレスとをユーザに表示し、これにより、ユーザが電子メールを送信する前にコンテンツを確認できるようにする。
図4は、本発明の一実施形態によるウェブベースの推論検出をアウトバウンド電子メールに実行する例示的なプロセスを示すフローチャートを表す。動作中に、システムはアウトバウンド電子メールを受信する(動作402)。システムは次に、アウトバウンド電子メールにTF.IDFによる演算を実行し、キーワードの組を抽出する(動作404)。一実施形態において、TF.IDFによる演算のために用いられるコーパスは、企業のデータベース又はサーバに格納された全電子メールとすることができる。システムはさらに、抽出されたキーワードに基づいて多数の検索クエリを構築する(動作406)。
次に、システムは、検索クエリを検索エンジンに発行する(動作408)。これに応答して、システムは、検索エンジンからクエリの各々に対応する多数のヒットを受信する(動作410)。その後、システムは、該ヒットにTF.IDFによる演算を実行し、別のキーワードの組を抽出する(動作412)。一実施形態において、TF.IDFによる演算のために用いられるコーパスは、企業のデータベース又はサーバに格納された全電子メールとすることができるか、又は、Brown Corpus of Standard American Englishのような一般的なコーパスとすることもできる。システムは次に、それぞれのキーワードを含むヒット数及び/又はキーワードを含むヒットをもたらすクエリ数に基づいて、動作412で抽出されたキーワードをランク付けする(動作414)。
システムはさらに、アウトバウンド電子メールのためのトピック・キーワードとして上位にランク付けされた多数のキーワードを選択する(動作416)。システムは次に、ユーザに電子メール・アドレスと選択されたトピック・キーワードとを表示し、これにより、ユーザが電子メールが正しいコンテンツを有することを確認できるようにする(動作418)。
上述したプロセスは、ウェブ書き込みのようなアウトバウンド・コンテンツの他の形態にも適用することに留意すべきである。電子メール・アドレスの代わりに、システムは、ウェブ・アドレス、ドメイン名、IPアドレス又は様々なIPアドレスなどの任意の種類の宛先識別情報を用いることができる。一般に、システムは、期待コンテンツのキーワードを任意の形態の宛先識別子に関連付けることができる。
図5は、本発明の一実施形態による推論検出によってアウトバウンド電子メールをフィルタリングするためのコンピュータ・システムを示す。コンピュータ・システム502は、プロセッサ504、メモリ506及び記憶装置508を含む。コンピュータ・システム502は、インターネット503、ディスプレイ513、キーボード510及び位置決め装置512に結合される。記憶装置508は、一実施形態において図3に記載されたプロセスを実行する電子メール・コンテンツの警報アプリケーション514と、一実施形態において図4に記載されたプロセスを実行する電子メールの推論/確認アプリケーション516とを格納する。記憶装置508はまた、アプリケーション520及び522を格納する。電子メール・コンテンツの警報アプリケーション514は、TF.IDF分析モジュール515を含む。同様に、電子メールの推論/確認アプリケーション516は、TF.IDF分析モジュール518を含む。動作中に、電子メール・コンテンツの警報アプリケーション514及び/又は電子メールの推論/確認アプリケーション516は、メモリ506に読み込まれ、プロセッサ504によって実行される。それに対応して、プロセッサ504は、上述したように、推論検出に基づいてアウトバウンド電子メールのフィルタリングを実行する。
本発明の実施形態の上記説明は、例証及び説明のためにのみに提示された。それらは、網羅的であることでも、また、本発明を開示された形態に限定することを意図するものでもない。従って、多くの変更及び変形は当業者にとって明らかであろう。さらに、上記開示は、本発明を限定することを意図しない。本発明の範囲は添付された特許請求の範囲によって定義される。
本発明の実施形態による先の電子メールに関連してウェブベースの推論検出によって得られた期待コンテンツのキーワードに基づいて、アウトバウンド電子メールを調べるシステムのための例示的なブロック図を示す。 本発明の実施形態によるウェブベースの推論検出をアウトバウンド電子メールに実行するシステムのための例示的なブロック図を示す。 本発明の実施形態による先の電子メールに関連してウェブベースの推論検出によって得られた期待コンテンツのキーワードに基づいて、アウトバウンド電子メールを調べる例示的なプロセスを示すフローチャートを表す。 本発明の一実施形態によるウェブベースの推論検出をアウトバウンド電子メールに実行する例示的なプロセスを示すフローチャートを表す。 本発明の一実施形態による推論検出によってアウトバウンド電子メールをフィルタリングするためのコンピュータ・システムを示す。
符号の説明
102:同じ受信者アドレスの電子メール
104:自然言語処理(NLP)分析
106、206:キーワード
108、208:クエリ
110、210:検索エンジン
112、212、503:インターネット
113、213:ヒット
114、214:ヒット分析
116:期待コンテンツのキーワード
118:フィルタリング・システム
120:アウトバウンド電子メール
122、220:警報
202:アウトバウンド電子メール
204:NLP分析
216:トピック・キーワード
218:電子メールの受信者アドレス
502:コンピュータ・システム
504:プロセッサ
506:メモリ
508:記憶装置
510:キーボード
512:位置決め装置
513:ディスプレイ
514:電子メール・コンテンツ警報アプリケーション
515、518:TF.IDF分析モジュール
516:電子メール推論/確認アプリケーション
520、522:アプリケーション

Claims (4)

  1. 推論検出によってアウトバウンド・コンテンツをフィルタリングするためのコンピュータ・システムであって、前記コンピュータ・システムは、
    プロセッサと、
    前記プロセッサに結合されたメモリと、
    共通する第1の宛先識別子によって先に送信されたコンテンツを識別するように構成されたコンテンツ選択機構と、
    前記識別された先に送信されたコンテンツからキーワードの組を抽出するように構成されたキーワード抽出機構と、
    前記識別されたコンテンツから抽出された前記キーワードに基づいて、多数のウェブ検索クエリを発行し、
    前記クエリに応答して多数のヒットを受信し、
    前記ヒットから期待コンテンツのキーワードの組を抽出し、
    前記期待コンテンツのキーワードを前記第1の宛先識別子に関連付ける
    ように構成されたクエリ機構と、
    アウトバウンド・コンテンツの1つを受信するように構成された受信機構と、
    前記アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数を判断するように構成された判断機構と、
    前記アウトバウンド・コンテンツのための前記宛先識別子と前記アウトバウンド・コンテンツに存在する期待コンテンツの少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、前記アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断することができるように構成された表示機構と、
    を含むことを特徴とするコンピュータ・システム。
  2. 前記ヒットから前記期待コンテンツのキーワードを抽出する間に、前記クエリ機構は、それぞれのヒット文書に含まれたそれぞれの単語又は語句についての単語の出現頻度と逆出現頻度(TF.IDF)とによる重みを判断するように構成されたことを特徴とする請求項1に記載のシステム。
  3. 推論検出によってアウトバウンド・コンテンツをフィルタリングするためのコンピュータ・システムであって、前記コンピュータ・システムは、
    プロセッサと、
    前記プロセッサに結合されたメモリと、
    アウトバウンド・コンテンツの1つを受信するように構成された受信機構と、
    前記アウトバウンド・コンテンツからキーワードを抽出するように構成された第1のキーワード抽出機構と、
    前記キーワードに基づいてウェブ・クエリを発行するように構成されたクエリ公式化機構と、
    前記クエリに応答して、検索エンジンによって返されたヒットに対応する文書からキーワードを抽出するように構成された第2のキーワード抽出機構と、
    前記ヒットから抽出された前記キーワードをランク付けするように構成されたランク付け機構と、
    前記ランク付けされた1つ又はそれ以上のキーワードを選択して前記アウトバウンド・コンテンツを表すように構成された選択機構と、
    前記アウトバウンド・コンテンツのための宛先識別子と前記アウトバウンド・コンテンツを表すために選択された少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、前記アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断することができるように構成された表示機構と、
    を含むことを特徴とするコンピュータ・システム。
  4. 前記アウトバウンド・コンテンツからキーワードを抽出する間に、前記第1のキーワード抽出機構は、前記アウトバウンド・コンテンツに含まれたそれぞれの単語又は語句についてのTF.IDFによる重みを判断するように構成されたことを特徴とする請求項3に記載のシステム。
JP2008225627A 2007-12-17 2008-09-03 自動推論検出によるアウトバウンド・コンテンツのフィルタリング Expired - Fee Related JP5047909B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/957,833 2007-12-17
US11/957,833 US8990225B2 (en) 2007-12-17 2007-12-17 Outbound content filtering via automated inference detection

Publications (2)

Publication Number Publication Date
JP2009146385A true JP2009146385A (ja) 2009-07-02
JP5047909B2 JP5047909B2 (ja) 2012-10-10

Family

ID=40754583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008225627A Expired - Fee Related JP5047909B2 (ja) 2007-12-17 2008-09-03 自動推論検出によるアウトバウンド・コンテンツのフィルタリング

Country Status (2)

Country Link
US (1) US8990225B2 (ja)
JP (1) JP5047909B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090210391A1 (en) * 2008-02-14 2009-08-20 Hall Stephen G Method and system for automated search for, and retrieval and distribution of, information
JP4983657B2 (ja) * 2008-03-11 2012-07-25 富士通株式会社 電子メール管理プログラム、該プログラムを記録した記録媒体、通信端末、および電子メール管理方法
JP2009277183A (ja) * 2008-05-19 2009-11-26 Hitachi Ltd 情報識別装置及び情報識別システム
US20100169492A1 (en) * 2008-12-04 2010-07-01 The Go Daddy Group, Inc. Generating domain names relevant to social website trending topics
US8769022B2 (en) 2009-08-31 2014-07-01 Qualcomm Incorporated System and method for evaluating outbound messages
US9020834B2 (en) 2010-05-14 2015-04-28 Xerox Corporation System and method to control on-demand marketing campaigns and personalized trajectories in hyper-local domains
US8645210B2 (en) 2010-05-17 2014-02-04 Xerox Corporation Method of providing targeted communications to a user of a printing system
US9092759B2 (en) 2010-06-29 2015-07-28 International Business Machines Corporation Controlling email propagation within a social network utilizing proximity restrictions
US8571920B2 (en) 2010-10-05 2013-10-29 Xerox Corporation Optimal list-price mechanism design for multi-level device click-through in targeted print or electronic communication
US9418160B2 (en) * 2010-12-17 2016-08-16 Microsoft Technology Licensing, Llc Hash tag management in a microblogging infrastructure
US8739247B2 (en) 2011-12-06 2014-05-27 At&T Intellectual Property I, L.P. Verification service
FR3029052A1 (fr) * 2014-11-24 2016-05-27 Orange Procede et dispositif de gestion d'un message
US20170154107A1 (en) * 2014-12-11 2017-06-01 Hewlett Packard Enterprise Development Lp Determining term scores based on a modified inverse domain frequency
US10311408B2 (en) * 2015-04-10 2019-06-04 Soliton Systems K.K. Electronic mail wrong transmission determination apparatus, electronic mail transmission system, and recording medium
JP6594981B2 (ja) * 2015-07-13 2019-10-23 帝人株式会社 情報処理装置、情報処理方法およびコンピュータプログラム
US10523635B2 (en) * 2016-06-17 2019-12-31 Assured Information Security, Inc. Filtering outbound network traffic
US11113670B2 (en) * 2017-04-03 2021-09-07 Conduent Business Services, Llc System and method for automatic process error detection and correction
WO2019059788A1 (en) * 2017-09-21 2019-03-28 Motorola Solutions, Inc SYSTEM, DEVICE AND METHOD FOR SECURE COMMUNICATION OF MESSAGE THREAD
US11206234B2 (en) * 2020-01-13 2021-12-21 International Business Machines Corporation Validating proposed message recipients based on number of message keywords

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473753B1 (en) * 1998-10-09 2002-10-29 Microsoft Corporation Method and system for calculating term-document importance
US6654735B1 (en) * 1999-01-08 2003-11-25 International Business Machines Corporation Outbound information analysis for generating user interest profiles and improving user productivity
US7272637B1 (en) * 1999-07-15 2007-09-18 Himmelstein Richard B Communication system and method for efficiently accessing internet resources
US7412478B1 (en) * 2000-01-27 2008-08-12 Marger Johnson & Mccollom, P.C. Rich media file format and delivery methods
US20030014395A1 (en) * 2001-07-12 2003-01-16 International Business Machines Corporation Communication triggered just in time information
JP2004062479A (ja) * 2002-07-29 2004-02-26 Fujitsu Ltd 情報収集装置、方法及びプログラム
US7657598B2 (en) * 2002-09-17 2010-02-02 At&T Intellectual Property I, L.P. Address book for integrating email and instant messaging (IM)
US7849103B2 (en) * 2003-09-10 2010-12-07 West Services, Inc. Relationship collaboration system
US7814155B2 (en) * 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US20070067297A1 (en) * 2004-04-30 2007-03-22 Kublickis Peter J System and methods for a micropayment-enabled marketplace with permission-based, self-service, precision-targeted delivery of advertising, entertainment and informational content and relationship marketing to anonymous internet users
US8631077B2 (en) * 2004-07-22 2014-01-14 International Business Machines Corporation Duplicate e-mail content detection and automatic doclink conversion
CN101069177A (zh) * 2004-11-05 2007-11-07 株式会社Ipb 关键字抽取装置
US7730081B2 (en) * 2005-10-18 2010-06-01 Microsoft Corporation Searching based on messages
JP4832994B2 (ja) * 2006-08-07 2011-12-07 富士通株式会社 文書管理プログラム、文書管理システムおよびアクセス権設定方法
US20080133577A1 (en) * 2006-11-07 2008-06-05 Siemens Medical Solutions Usa, Inc. Transaction Message Adaptation System For Use In Inter-System Data Exchange
US7747602B2 (en) * 2007-07-31 2010-06-29 Yahoo! Inc. Comment faces
US8375052B2 (en) * 2007-10-03 2013-02-12 Microsoft Corporation Outgoing message monitor

Also Published As

Publication number Publication date
US8990225B2 (en) 2015-03-24
US20090157650A1 (en) 2009-06-18
JP5047909B2 (ja) 2012-10-10

Similar Documents

Publication Publication Date Title
JP5047909B2 (ja) 自動推論検出によるアウトバウンド・コンテンツのフィルタリング
US10757055B2 (en) Email conversation management system
US9032031B2 (en) Apparatus, method and computer program product for processing email, and apparatus for searching email
US8307038B2 (en) Email addresses relevance determination and uses
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US9183535B2 (en) Social network model for semantic processing
JP4956420B2 (ja) 会話ベースの電子メールシステムにおける会話の表示
US9135229B2 (en) Automated clipboard software
CA2638558C (en) Topic word generation method and system
CN107657029B (zh) 被遗忘的附件的检测方法及装置
JP5053211B2 (ja) 自動推論検出によるインバウンド・コンテンツのフィルタリング
KR20060136476A (ko) 대화-기반 이메일 시스템에서 대화들을 디스플레이하는방법 및 장치
US20110093489A1 (en) Dynamic tagging
US10949418B2 (en) Method and system for retrieval of data
US20160299979A1 (en) Processing a search query and retreiving records from a local and server side database system of an electronic messaging system
US20120158773A1 (en) Method, system and computer program product for activating information of object computer system
JP2012027719A (ja) メールアドレス誤入力判定システムおよびメールアドレス誤入力判定プログラム
Bhide Enhancements for the Search Functionality of an Open Source Email Client
JP2006033405A (ja) 画像読取送信装置、及び、画像読取送信方法
TW200809555A (en) Language search tool

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120618

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5047909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees