JP5053211B2 - 自動推論検出によるインバウンド・コンテンツのフィルタリング - Google Patents
自動推論検出によるインバウンド・コンテンツのフィルタリング Download PDFInfo
- Publication number
- JP5053211B2 JP5053211B2 JP2008225626A JP2008225626A JP5053211B2 JP 5053211 B2 JP5053211 B2 JP 5053211B2 JP 2008225626 A JP2008225626 A JP 2008225626A JP 2008225626 A JP2008225626 A JP 2008225626A JP 5053211 B2 JP5053211 B2 JP 5053211B2
- Authority
- JP
- Japan
- Prior art keywords
- query
- keyword
- keywords
- hits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
更に別の変形においては、電子メール本文からキーワードを抽出することは、そのTF.IDFの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
本実施形態の変形において、付加的な語は、電子メールの件名から抽出された語である。
本実施形態の変形において、第1の数及び第2の数に基づいて電子メールが望ましくないかどうかを判断することは、第1の数と第2の数との間の比を計算することを含む。
更に別の変形においては、受信された文書からキーワードを抽出することは、そのTF.IDFの重みに基づいて、それぞれの語をランク付けすることをさらに含む。
本実施形態の変形において、キーワードが制限されたトピックに関連するかどうかを判断することは、第1の数と第2の数との間の比を計算することを含む。
(表1)
1.システムが、電子メールからキーワードを抽出する。一実施形態において、システムは、NLP技術を用いて上位にランク付けされた多数のキーワードを抽出する。
2.システムは次に、キーワード及びキーワードの組み合わせ(「句」ともいう)に基づいて、第1の組の検索クエリを構築する。{Qi}は、キーワード又はキーワードの組み合わせiに対応して発行するクエリの組を示すものとする。それぞれのクエリに用いられるキーワードの最大数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザが調整できるパラメータであることが留意される。一実施形態において、それぞれのクエリは、選択されたキーワードを列挙し、これらのキーワードをスペースで分離することによって公式化される。他のクエリ公式化技術も可能である。
3.システムは、検索クエリ{Qi}を検索エンジンに発行し、それぞれの検索クエリQiに応答して、多数のヒットniを受信する。
4.システムはまた、第2の組の検索クエリを構築する。第2の組内のそれぞれの検索クエリは、第1の組内の対応するクエリと類似しているが、「バイアグラ(viagra)」、「くじ(lottery)」、「モーゲージ(mortgage)」といった、少なくとも1つの既知のスパム・トピック語を含む。この第2の組内のそれぞれのクエリは、{Qi、j}と示され、ここで、iは、対応するキーワード又はキーワードの組み合わせを示し、jは、スパム・トピック語を示す。例えば、Qi=”A B C”(一実施形態においては、実際のクエリは引用符を含まないことに留意されたい)である場合には、Qi、1=”A B C viagra”、Qi、2=”A B C lottery”等である。nijは、Qijに応答して、検索エンジンによって返されたヒットの数を示すものとする。
5.クエリQij及びQiについて、nij/niが十分に大きい場合には、システムは、その電子メールがトピック語jに関連するスパム・メールであり得ることを知らせる。電子メールをスパムとして処理する判断は、十分に大きいnij/ni比を有するこうしたクエリの対(即ち、Qi及びQij)の数、及び、対応するトピックが確かにスパム・トピックであるという可能性にも依存することに留意されたい。
のように計算することができる。この式において、用語頻度
は、文書における全ての用語出現によって正規化された、文書におけるtiの出現数である。逆出現頻度
は、用語の一般的な重要度の尺度であり、用語tiを含む文書数で除算したコーパスにおける全文書数の対数として計算される。
表2
1.システムは、電子メールのテキスト本文からキーワードを抽出し、組Bを形成する。システムはさらに、件名からキーワードを抽出し、組Sを形成する。
2.システムは次に、Bから上位にランク付けされたキーワードBiの組を選択し、Sから上位にランク付けされたキーワードSiの組を選択する。(一実施形態において、ランク付けは、それぞれのキーワードのTF.IDFの重みに基づいて達成できることに留意されたい。)システムは次に、2つの組を併合し、併合された組からクエリを構築し、ここで、各々のクエリは、組Bからの少なくとも1つのキーワード、及び、組Sからの少なくとも1つのキーワードを含む。{Qi}は発行されたクエリの組を示し(即ち、Qiは、Bi∪Si内の語に基づいたクエリである)、niはクエリQiによって返されたヒットの数を示すものとする。各々のクエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
3.電子メール本文から抽出された各々のキーワードB1、B2、...に関して、システムは別個の検索クエリを発行する。nBiは返されたヒットの数を示すものとする。
4.組B内のキーワードに関して、ni/nBi比が十分に小さい場合には、システムは、その電子メールがスパムであり得ることを知らせる。電子メールをスパムとして処理する判断は、小さいni/nBi比を有するこうしたクエリの対の数に依存する。
1.システムは、制限されたウェブサイトのトピックTl、・・・、Tk(例えば、「ギャンブル(gambling)」、「ポルノ(porn)」等)のリストを受信する。
2.それぞれの制限トピック語に関して、システムは検索クエリを発行し、多数のヒットを受信する。
3.システムは、返されたヒットからキーワードの組を抽出する。これらのキーワードに基づいて、システムは検索クエリQiを公式化する。niは、Qiに応答して返されたヒットの数を示すものとする。クエリに用いられたキーワードの数及び発行されるクエリの数は、推論検出の所望の実行時間及び徹底度に基づいてユーザによって調整可能なパラメータである。
4.それぞれのクエリQiに関して、システムは、Qi内のキーワード又はキーワードの組み合わせ及び制限されたトピック語を用いて、第2のクエリQiTを発行する。niTは返されたヒットの数であるものとする。
5.niT/niが十分に大きい場合には、システムは、Qi内の用語が制限されたトピックに関連する可能性が高いことに気付く。要注意用語を含むウェブサイトへのアクセスを制限する判断は、こうした推論を可能にするクエリの閾値数、及び、niT/ni比の値の識別に依存することができる。
104、205:NLP分析
106、206:キーワード
108:スパム信号の生成
110、210:クエリの公式化
112、212:検索エンジン
113、213、603:インターネット
114、204、214:ヒット
116、216:ヒットの分析
202:制限されたトピック語
218:要注意語
602:コンピュータ・システム
604:プロセッサ
606:メモリ
608:記憶装置
610:キーボード
612:位置決め装置
613:ディスプレイ
614:ウェブコンテンツ・フィルタリング・アプリケーション
615、618:TF.IDF分析モジュール
616:電子メール・スパム検出アプリケーション
620、622:アプリケーション
Claims (4)
- 望ましくない電子メールを検出するためのコンピュータ・システムであって、前記コンピュータ・システムが、
プロセッサと、
前記プロセッサに結合されたメモリと、
電子メールを受信するように構成された第1の受信機構と、
前記電子メール本文からキーワードの組を抽出するように構成されたキーワード抽出機構と、
前記電子メール本文から抽出された少なくとも1つのキーワードに基づいた第1の検索クエリと、
前記第1の検索クエリのために用いられるキーワード及び少なくとも1つの付加的な語に基づいた第2のクエリと、
を構築するように構成されたクエリ公式化機構と、
前記第1及び第2の検索クエリに応答して、それぞれ第1の数のヒット及び第2の数のヒットを受信するように構成されたヒット受信機構と、
前記第1の数及び前記第2の数に基づいて、前記電子メールが望ましくないかどうかを判断するように構成された判断機構と、
前記判断に基づいて、前記電子メールが望ましくないことを示す結果を生成するように構成された結果生成機構と、
を含むことを特徴とするコンピュータ・システム。 - 前記電子メール本文から前記キーワードを抽出する間、前記キーワード抽出機構は、該電子メール本文内に含まれるそれぞれの語又は句に関する単語出現頻度・逆出現頻度(TF.IDF)の重みを判断するように構成されることを特徴とする、請求項1に記載のシステム。
- 前記付加的な語はスパムのトピック語であり、
前記第2のクエリを構築する間、前記クエリ公式化は、前記第1のクエリ内に前記付加的な語を含ませるように構成されることを特徴とする、請求項1に記載のシステム。 - 前記第1の数及び前記第2の数に基づいて前記電子メールが望ましくないかどうかを判断する間、前記判断機構は、該第1の数と該第2の数との間の比を計算するように構成されることを特徴とする、請求項1に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/951,198 | 2007-12-05 | ||
US11/951,198 US7860885B2 (en) | 2007-12-05 | 2007-12-05 | Inbound content filtering via automated inference detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009140469A JP2009140469A (ja) | 2009-06-25 |
JP5053211B2 true JP5053211B2 (ja) | 2012-10-17 |
Family
ID=40722689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008225626A Expired - Fee Related JP5053211B2 (ja) | 2007-12-05 | 2008-09-03 | 自動推論検出によるインバウンド・コンテンツのフィルタリング |
Country Status (2)
Country | Link |
---|---|
US (1) | US7860885B2 (ja) |
JP (1) | JP5053211B2 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9026598B2 (en) * | 2007-12-10 | 2015-05-05 | International Business Machines Corporation | Automatically generating request-specific backup contact information in an out of office message |
US8370930B2 (en) * | 2008-02-28 | 2013-02-05 | Microsoft Corporation | Detecting spam from metafeatures of an email message |
US9165056B2 (en) * | 2008-06-19 | 2015-10-20 | Microsoft Technology Licensing, Llc | Generation and use of an email frequent word list |
US20140289606A1 (en) * | 2008-06-19 | 2014-09-25 | Adobe Systems Incorporated | Systems and Methods For Attribute Indication and Accessibility in Electronics Documents |
CN101616101B (zh) | 2008-06-26 | 2012-01-18 | 阿里巴巴集团控股有限公司 | 一种用户信息过滤方法及装置 |
CN102193929B (zh) * | 2010-03-08 | 2013-03-13 | 阿里巴巴集团控股有限公司 | 利用词信息熵的搜索方法及其设备 |
US9020834B2 (en) | 2010-05-14 | 2015-04-28 | Xerox Corporation | System and method to control on-demand marketing campaigns and personalized trajectories in hyper-local domains |
US8645210B2 (en) | 2010-05-17 | 2014-02-04 | Xerox Corporation | Method of providing targeted communications to a user of a printing system |
US8571920B2 (en) | 2010-10-05 | 2013-10-29 | Xerox Corporation | Optimal list-price mechanism design for multi-level device click-through in targeted print or electronic communication |
US9015195B1 (en) | 2013-01-25 | 2015-04-21 | Google Inc. | Processing multi-geo intent keywords |
US10291628B2 (en) | 2014-11-07 | 2019-05-14 | International Business Machines Corporation | Cognitive detection of malicious documents |
CN107122949B (zh) * | 2016-02-25 | 2021-02-26 | 阿里巴巴集团控股有限公司 | 电子邮件筛选方法及装置 |
US10791130B2 (en) * | 2016-09-28 | 2020-09-29 | Opsec Online Limited | Trigger-based harvesting of data associated with malignant content in a networked environment |
JP6905999B2 (ja) * | 2017-02-28 | 2021-07-21 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP6485470B2 (ja) * | 2017-02-28 | 2019-03-20 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
US11574371B1 (en) * | 2017-12-07 | 2023-02-07 | Pinterest, Inc. | Generating personalized content |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
US6654787B1 (en) * | 1998-12-31 | 2003-11-25 | Brightmail, Incorporated | Method and apparatus for filtering e-mail |
AU2212801A (en) * | 1999-12-07 | 2001-06-18 | Qjunction Technology, Inc. | Natural english language search and retrieval system and method |
US8788492B2 (en) * | 2004-03-15 | 2014-07-22 | Yahoo!, Inc. | Search system and methods with integration of user annotations from a trust network |
US7664734B2 (en) * | 2004-03-31 | 2010-02-16 | Google Inc. | Systems and methods for generating multiple implicit search queries |
US8010609B2 (en) * | 2005-06-20 | 2011-08-30 | Symantec Corporation | Method and apparatus for maintaining reputation lists of IP addresses to detect email spam |
US7930353B2 (en) * | 2005-07-29 | 2011-04-19 | Microsoft Corporation | Trees of classifiers for detecting email spam |
US7730081B2 (en) * | 2005-10-18 | 2010-06-01 | Microsoft Corporation | Searching based on messages |
US20070174255A1 (en) * | 2005-12-22 | 2007-07-26 | Entrieva, Inc. | Analyzing content to determine context and serving relevant content based on the context |
US20080033797A1 (en) * | 2006-08-01 | 2008-02-07 | Microsoft Corporation | Search query monetization-based ranking and filtering |
-
2007
- 2007-12-05 US US11/951,198 patent/US7860885B2/en active Active
-
2008
- 2008-09-03 JP JP2008225626A patent/JP5053211B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7860885B2 (en) | 2010-12-28 |
JP2009140469A (ja) | 2009-06-25 |
US20090150365A1 (en) | 2009-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5053211B2 (ja) | 自動推論検出によるインバウンド・コンテンツのフィルタリング | |
Drost et al. | Thwarting the nigritude ultramarine: Learning to identify link spam | |
JP4906273B2 (ja) | 外部データを使用した検索エンジンスパムの検出 | |
US8650199B1 (en) | Document similarity detection | |
AU2006290977B2 (en) | Ranking blog documents | |
US7917522B1 (en) | Training procedure for N-gram-based statistical content classification | |
US8990225B2 (en) | Outbound content filtering via automated inference detection | |
JP4916316B2 (ja) | 電子的通信のurlベース選別のための方法及びシステム | |
JP2009134714A (ja) | プライバシーポリシーを強化するためにコンピュータが実行する方法 | |
US9519704B2 (en) | Real time single-sweep detection of key words and content analysis | |
Zhang et al. | Malicious web page detection based on on-line learning algorithm | |
WO2018077035A1 (zh) | 恶意资源地址检测方法和装置、存储介质 | |
Banerjee et al. | SUT: Quantifying and mitigating url typosquatting | |
US20060184577A1 (en) | Methods and apparatuses to determine adult images by query association | |
Prieto et al. | Analysis and detection of web spam by means of web content | |
Stuart et al. | A neural network classifier for junk e-mail | |
Wahsheh et al. | Detecting Arabic web spam | |
Park et al. | Towards text-based phishing detection | |
KR102169143B1 (ko) | 유해 콘텐츠 웹 페이지 url 필터링 장치 | |
Jin et al. | Extracting a social network among entities by web mining | |
US9081858B2 (en) | Method and system for processing search queries | |
Suliman et al. | Explicit words filtering mechanism on web browser for kids | |
Wahsheh et al. | Evaluating Arabic spam classifiers using link analysis | |
Liu et al. | Detecting tag spam in social tagging systems with collaborative knowledge | |
Mengle et al. | Passage detection using text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110902 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120625 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5053211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |