JP2009146385A - 自動推論検出によるアウトバウンド・コンテンツのフィルタリング - Google Patents
自動推論検出によるアウトバウンド・コンテンツのフィルタリング Download PDFInfo
- Publication number
- JP2009146385A JP2009146385A JP2008225627A JP2008225627A JP2009146385A JP 2009146385 A JP2009146385 A JP 2009146385A JP 2008225627 A JP2008225627 A JP 2008225627A JP 2008225627 A JP2008225627 A JP 2008225627A JP 2009146385 A JP2009146385 A JP 2009146385A
- Authority
- JP
- Japan
- Prior art keywords
- content
- outbound
- keywords
- mechanism configured
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】動作中に、システムは、共通する第1の宛先識別子によって先に送信されたコンテンツを識別し、識別された先に送信されたコンテンツからキーワードの組を抽出する。システムは次に、識別されたコンテンツから抽出されたキーワードに基づいて、多数のウェブ検索クエリを発行し、該クエリに応答して多数のヒットを受信し、該ヒットから期待コンテンツのキーワードの組を抽出する。システムはさらに、期待コンテンツのキーワードを第1の宛先識別子に関連付ける。システムがアウトバウンド・コンテンツの1つを受信した後に、システムは、アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数を判断する。システムは次に、アウトバウンド・コンテンツのための宛先識別子とアウトバウンド・コンテンツに存在する期待コンテンツの少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断できるようにする。
【選択図】なし
Description
アウトバウンド・コンテンツは動的で予測できない場合が多いのに、主としてキーワード及び/又はアドレスの静的リストに基づいているため、従来型のコンテンツ・フィルタリング技術は、こうした人為ミスを見つけることには適さない。
さらなる変形において、ヒットから期待コンテンツのキーワードを抽出することは、それぞれの文書に含まれたそれぞれの単語又は語句についての単語出現頻度と逆出現頻度(TF.IDF)とによる重みを判断することを含む。
本実施形態の変形において、システムは、アウトバウンド・コンテンツの宛先識別子が第1の宛先識別子に一致しているかどうかを判断する。
さらなる変形において、ヒット文書からキーワードを抽出することは、それぞれの文書に含まれた単語又は語句についてのTF.IDFによる重みを判断することを含む。
本実施形態の変形において、ヒット文書から抽出されたキーワードをランク付けすることは、それぞれのキーワードを含むヒット文書数を判断することを含む。
本実施形態の変形において、ヒット文書から抽出されたキーワードをランク付けすることは、それぞれのキーワードを含む少なくとも1つのヒット文書をもたらすクエリ数を判断することを含む。
1.システムは、共通する受信者アドレスによって先に送信された電子メールを識別する。
2.システムは、電子メールからキーワードを抽出する。一実施形態において、システムは、NLP技術を用いて上位にランク付けされた多数のキーワードを抽出する。
3.システムは、キーワードに基づいて検索エンジンに多数のクエリを発行し、これに応答してヒットを受信する。システムは、その後に、別のNLP分析を実行し、ヒットから期待コンテンツのキーワードを抽出する。
4.システムは次に、同じ受信者アドレスを有するアウトバウンド電子メールが十分な数の期待コンテンツのキーワードの一致があるかどうかを判断するか、又は、異なる受信者アドレスを有するアウトバウンド電子メールが多すぎる期待コンテンツのキーワードの一致があるかどうかを判断する。システムは、これによってユーザに警報を発する。
のように計算することができる。この式では、用語頻度
は、文書における全ての用語出現によって正規化された、文書におけるtiの出現数である。逆出現頻度
は、用語の一般的な重要度の尺度であり、用語tiを含む文書数で除したコーパスにおける全文書数の対数として計算される。
1.システムは、例えばTF.IDF分析を用いて、アウトバウンド電子メールからキーワードを抽出する。
2.システムは、抽出されたキーワードの種々のサブセットと組み合わせとに基づいて、検索エンジンにウェブ検索クエリを発行する。こうしたサブセット数は、所望の実行時間と推論検出の深さとに基づきユーザが調整できるパラメータである。
3.発行されたクエリの各々について、システムは、返されたヒットからキーワードの組を抽出する。
4.システムは、それぞれのキーワードを含むヒット数、及び/又は、それぞれのキーワードを含む少なくとも1つのヒットをもたらすクエリ数により、抽出されたキーワードをランク付けする。他のランク付け方法もまた実行可能である。
5.システムは、トピック・キーワードとして最高位にランク付けされた1つまたはそれ以上のキーワードを選択し、電子メールに関連付ける。システムはさらに、トピック・キーワードと電子メールの受信者アドレスとをユーザに表示し、これにより、ユーザが電子メールを送信する前にコンテンツを確認できるようにする。
104:自然言語処理(NLP)分析
106、206:キーワード
108、208:クエリ
110、210:検索エンジン
112、212、503:インターネット
113、213:ヒット
114、214:ヒット分析
116:期待コンテンツのキーワード
118:フィルタリング・システム
120:アウトバウンド電子メール
122、220:警報
202:アウトバウンド電子メール
204:NLP分析
216:トピック・キーワード
218:電子メールの受信者アドレス
502:コンピュータ・システム
504:プロセッサ
506:メモリ
508:記憶装置
510:キーボード
512:位置決め装置
513:ディスプレイ
514:電子メール・コンテンツ警報アプリケーション
515、518:TF.IDF分析モジュール
516:電子メール推論/確認アプリケーション
520、522:アプリケーション
Claims (4)
- 推論検出によってアウトバウンド・コンテンツをフィルタリングするためのコンピュータ・システムであって、前記コンピュータ・システムは、
プロセッサと、
前記プロセッサに結合されたメモリと、
共通する第1の宛先識別子によって先に送信されたコンテンツを識別するように構成されたコンテンツ選択機構と、
前記識別された先に送信されたコンテンツからキーワードの組を抽出するように構成されたキーワード抽出機構と、
前記識別されたコンテンツから抽出された前記キーワードに基づいて、多数のウェブ検索クエリを発行し、
前記クエリに応答して多数のヒットを受信し、
前記ヒットから期待コンテンツのキーワードの組を抽出し、
前記期待コンテンツのキーワードを前記第1の宛先識別子に関連付ける
ように構成されたクエリ機構と、
アウトバウンド・コンテンツの1つを受信するように構成された受信機構と、
前記アウトバウンド・コンテンツに存在する期待コンテンツのキーワード数を判断するように構成された判断機構と、
前記アウトバウンド・コンテンツのための前記宛先識別子と前記アウトバウンド・コンテンツに存在する期待コンテンツの少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、前記アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断することができるように構成された表示機構と、
を含むことを特徴とするコンピュータ・システム。 - 前記ヒットから前記期待コンテンツのキーワードを抽出する間に、前記クエリ機構は、それぞれのヒット文書に含まれたそれぞれの単語又は語句についての単語の出現頻度と逆出現頻度(TF.IDF)とによる重みを判断するように構成されたことを特徴とする請求項1に記載のシステム。
- 推論検出によってアウトバウンド・コンテンツをフィルタリングするためのコンピュータ・システムであって、前記コンピュータ・システムは、
プロセッサと、
前記プロセッサに結合されたメモリと、
アウトバウンド・コンテンツの1つを受信するように構成された受信機構と、
前記アウトバウンド・コンテンツからキーワードを抽出するように構成された第1のキーワード抽出機構と、
前記キーワードに基づいてウェブ・クエリを発行するように構成されたクエリ公式化機構と、
前記クエリに応答して、検索エンジンによって返されたヒットに対応する文書からキーワードを抽出するように構成された第2のキーワード抽出機構と、
前記ヒットから抽出された前記キーワードをランク付けするように構成されたランク付け機構と、
前記ランク付けされた1つ又はそれ以上のキーワードを選択して前記アウトバウンド・コンテンツを表すように構成された選択機構と、
前記アウトバウンド・コンテンツのための宛先識別子と前記アウトバウンド・コンテンツを表すために選択された少なくとも1つのキーワードとを示す結果を生成し、これにより、ユーザが、前記アウトバウンド・コンテンツが適切なコンテンツと宛先識別子とを有しているかどうかを判断することができるように構成された表示機構と、
を含むことを特徴とするコンピュータ・システム。 - 前記アウトバウンド・コンテンツからキーワードを抽出する間に、前記第1のキーワード抽出機構は、前記アウトバウンド・コンテンツに含まれたそれぞれの単語又は語句についてのTF.IDFによる重みを判断するように構成されたことを特徴とする請求項3に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/957,833 | 2007-12-17 | ||
US11/957,833 US8990225B2 (en) | 2007-12-17 | 2007-12-17 | Outbound content filtering via automated inference detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009146385A true JP2009146385A (ja) | 2009-07-02 |
JP5047909B2 JP5047909B2 (ja) | 2012-10-10 |
Family
ID=40754583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008225627A Expired - Fee Related JP5047909B2 (ja) | 2007-12-17 | 2008-09-03 | 自動推論検出によるアウトバウンド・コンテンツのフィルタリング |
Country Status (2)
Country | Link |
---|---|
US (1) | US8990225B2 (ja) |
JP (1) | JP5047909B2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210391A1 (en) * | 2008-02-14 | 2009-08-20 | Hall Stephen G | Method and system for automated search for, and retrieval and distribution of, information |
JP4983657B2 (ja) * | 2008-03-11 | 2012-07-25 | 富士通株式会社 | 電子メール管理プログラム、該プログラムを記録した記録媒体、通信端末、および電子メール管理方法 |
JP2009277183A (ja) * | 2008-05-19 | 2009-11-26 | Hitachi Ltd | 情報識別装置及び情報識別システム |
US20100169492A1 (en) * | 2008-12-04 | 2010-07-01 | The Go Daddy Group, Inc. | Generating domain names relevant to social website trending topics |
US8769022B2 (en) | 2009-08-31 | 2014-07-01 | Qualcomm Incorporated | System and method for evaluating outbound messages |
US9020834B2 (en) | 2010-05-14 | 2015-04-28 | Xerox Corporation | System and method to control on-demand marketing campaigns and personalized trajectories in hyper-local domains |
US8645210B2 (en) | 2010-05-17 | 2014-02-04 | Xerox Corporation | Method of providing targeted communications to a user of a printing system |
US9092759B2 (en) | 2010-06-29 | 2015-07-28 | International Business Machines Corporation | Controlling email propagation within a social network utilizing proximity restrictions |
US8571920B2 (en) | 2010-10-05 | 2013-10-29 | Xerox Corporation | Optimal list-price mechanism design for multi-level device click-through in targeted print or electronic communication |
US9418160B2 (en) * | 2010-12-17 | 2016-08-16 | Microsoft Technology Licensing, Llc | Hash tag management in a microblogging infrastructure |
US8739247B2 (en) | 2011-12-06 | 2014-05-27 | At&T Intellectual Property I, L.P. | Verification service |
FR3029052A1 (fr) * | 2014-11-24 | 2016-05-27 | Orange | Procede et dispositif de gestion d'un message |
US20170154107A1 (en) * | 2014-12-11 | 2017-06-01 | Hewlett Packard Enterprise Development Lp | Determining term scores based on a modified inverse domain frequency |
US10311408B2 (en) * | 2015-04-10 | 2019-06-04 | Soliton Systems K.K. | Electronic mail wrong transmission determination apparatus, electronic mail transmission system, and recording medium |
JP6594981B2 (ja) * | 2015-07-13 | 2019-10-23 | 帝人株式会社 | 情報処理装置、情報処理方法およびコンピュータプログラム |
US10523635B2 (en) * | 2016-06-17 | 2019-12-31 | Assured Information Security, Inc. | Filtering outbound network traffic |
US11113670B2 (en) * | 2017-04-03 | 2021-09-07 | Conduent Business Services, Llc | System and method for automatic process error detection and correction |
WO2019059788A1 (en) * | 2017-09-21 | 2019-03-28 | Motorola Solutions, Inc | SYSTEM, DEVICE AND METHOD FOR SECURE COMMUNICATION OF MESSAGE THREAD |
US11206234B2 (en) * | 2020-01-13 | 2021-12-21 | International Business Machines Corporation | Validating proposed message recipients based on number of message keywords |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6473753B1 (en) * | 1998-10-09 | 2002-10-29 | Microsoft Corporation | Method and system for calculating term-document importance |
US6654735B1 (en) * | 1999-01-08 | 2003-11-25 | International Business Machines Corporation | Outbound information analysis for generating user interest profiles and improving user productivity |
US7272637B1 (en) * | 1999-07-15 | 2007-09-18 | Himmelstein Richard B | Communication system and method for efficiently accessing internet resources |
US7412478B1 (en) * | 2000-01-27 | 2008-08-12 | Marger Johnson & Mccollom, P.C. | Rich media file format and delivery methods |
US20030014395A1 (en) * | 2001-07-12 | 2003-01-16 | International Business Machines Corporation | Communication triggered just in time information |
JP2004062479A (ja) * | 2002-07-29 | 2004-02-26 | Fujitsu Ltd | 情報収集装置、方法及びプログラム |
US7657598B2 (en) * | 2002-09-17 | 2010-02-02 | At&T Intellectual Property I, L.P. | Address book for integrating email and instant messaging (IM) |
US7849103B2 (en) * | 2003-09-10 | 2010-12-07 | West Services, Inc. | Relationship collaboration system |
US7814155B2 (en) * | 2004-03-31 | 2010-10-12 | Google Inc. | Email conversation management system |
US20070067297A1 (en) * | 2004-04-30 | 2007-03-22 | Kublickis Peter J | System and methods for a micropayment-enabled marketplace with permission-based, self-service, precision-targeted delivery of advertising, entertainment and informational content and relationship marketing to anonymous internet users |
US8631077B2 (en) * | 2004-07-22 | 2014-01-14 | International Business Machines Corporation | Duplicate e-mail content detection and automatic doclink conversion |
CN101069177A (zh) * | 2004-11-05 | 2007-11-07 | 株式会社Ipb | 关键字抽取装置 |
US7730081B2 (en) * | 2005-10-18 | 2010-06-01 | Microsoft Corporation | Searching based on messages |
JP4832994B2 (ja) * | 2006-08-07 | 2011-12-07 | 富士通株式会社 | 文書管理プログラム、文書管理システムおよびアクセス権設定方法 |
US20080133577A1 (en) * | 2006-11-07 | 2008-06-05 | Siemens Medical Solutions Usa, Inc. | Transaction Message Adaptation System For Use In Inter-System Data Exchange |
US7747602B2 (en) * | 2007-07-31 | 2010-06-29 | Yahoo! Inc. | Comment faces |
US8375052B2 (en) * | 2007-10-03 | 2013-02-12 | Microsoft Corporation | Outgoing message monitor |
-
2007
- 2007-12-17 US US11/957,833 patent/US8990225B2/en active Active
-
2008
- 2008-09-03 JP JP2008225627A patent/JP5047909B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8990225B2 (en) | 2015-03-24 |
US20090157650A1 (en) | 2009-06-18 |
JP5047909B2 (ja) | 2012-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5047909B2 (ja) | 自動推論検出によるアウトバウンド・コンテンツのフィルタリング | |
US10757055B2 (en) | Email conversation management system | |
US9032031B2 (en) | Apparatus, method and computer program product for processing email, and apparatus for searching email | |
US8307038B2 (en) | Email addresses relevance determination and uses | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
US9183535B2 (en) | Social network model for semantic processing | |
JP4956420B2 (ja) | 会話ベースの電子メールシステムにおける会話の表示 | |
US9135229B2 (en) | Automated clipboard software | |
CA2638558C (en) | Topic word generation method and system | |
CN107657029B (zh) | 被遗忘的附件的检测方法及装置 | |
JP5053211B2 (ja) | 自動推論検出によるインバウンド・コンテンツのフィルタリング | |
KR20060136476A (ko) | 대화-기반 이메일 시스템에서 대화들을 디스플레이하는방법 및 장치 | |
US20110093489A1 (en) | Dynamic tagging | |
US10949418B2 (en) | Method and system for retrieval of data | |
US20160299979A1 (en) | Processing a search query and retreiving records from a local and server side database system of an electronic messaging system | |
US20120158773A1 (en) | Method, system and computer program product for activating information of object computer system | |
JP2012027719A (ja) | メールアドレス誤入力判定システムおよびメールアドレス誤入力判定プログラム | |
Bhide | Enhancements for the Search Functionality of an Open Source Email Client | |
JP2006033405A (ja) | 画像読取送信装置、及び、画像読取送信方法 | |
TW200809555A (en) | Language search tool |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120618 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120718 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5047909 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |