CN101374122B

CN101374122B - 过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性

Info

Publication number: CN101374122B
Application number: CN2008101354991A
Authority: CN
Inventors: 肖恩·库利
Original assignee: Symantec Corp
Current assignee: Norton Identity Protection
Priority date: 2007-08-24
Filing date: 2008-08-12
Publication date: 2011-05-04
Anticipated expiration: 2028-08-12
Also published as: EP2028806B1; US7941437B2; JP2009076063A; JP4955627B2; EP2028806A1; CN101374122A; US20090055412A1

Abstract

一种贝叶斯垃圾过滤器，确定由训练知道的输入电邮信息中的内容量。如果过滤器熟悉阈值量的内容，则过滤器处理以分类电邮信息为垃圾或合法。另一方面，如果过滤器经训练没有知道电邮中的足够词汇，则过滤器不能准确确定信息是否是垃圾。对该情形，过滤器分类该信息为未知类型。可以使用不同的阈值矩阵，诸如已知词汇的百分比和在处理中使用的最大校正值的百分比。这极大的改进了对以过滤器未被训练的语言记载的电邮的处理。

Description

过滤非训练语言的内容中的贝叶斯担保校验以减少假阳性

技术领域

本发明通常涉及电子内容的贝叶斯过滤，并更具体地涉及当处理以非训练语言记载的电邮时，在贝叶斯垃圾电邮过滤中使用担保校验以减少假阳性。

背景技术

当前统计垃圾电邮的检测技术主要依靠在分类电子信息时寻找已知词汇的能力。垃圾电邮的发布者已意识到这一点，并经常在他们的信息中包括无意义(nonsense)的词汇。使用无意义的词汇以欺骗垃圾检测采取两种主要形式。第一种是向电邮中插入少量(例如，一或二个)的无意义词汇。这用于阻碍单个信息的复制备份(发送到一个因特网服务运营商的许多用户)的简单哈希检测。通过将不同的无意义词汇插入信息的每个备份，简单哈希检测程序不能确定该信息是复制的。这种无意义的词汇插入的形式称为“哈希破坏法”。第二种形式由向电邮中插入更多的无意义词汇所组成。该词汇作为组合造成整体信息的误分类。

垃圾电邮分类引擎基于诸如贝叶斯分析的各种统计技术来分析电邮信息的内容并试图确定哪些邮件是垃圾。贝叶斯垃圾过滤是基于出现在垃圾或合法电邮中的具体词汇的已建立的概率。例如，上述的无意义词汇以及诸如“伟哥(Viagra)”、“再筹款(Refinance)”、“抵押(Mortgage)”等的特定词汇频繁出现在垃圾中，而很少或不常出现在合法电邮中。因此，这些术语的出现增加了电邮成为垃圾的概率。贝叶斯垃圾分类引擎对这些概率没有原有的知识，而相反通过由电邮信息集合训练而建立这些概率。

当使用诸如贝叶斯法的统计方法分类文档时，分类输出的可靠性只和输入一样(output is as good as input)。这在统计分类器遇到以该分类器没有受训的语言记载的信息时(例如，当以英语受训的分类器试图分类德文文档时)，就产生了问题。更具体地，与无意义词汇相反或除了无意义词汇以外，垃圾邮件发布者在垃圾电邮中插入外语词汇或短语已变得很普遍。这经常导致某些常用的外语词汇(例如，“el”、“los”、“der”、“die”、“und”等)被分类引擎分类为与垃圾电邮相关。因为这些词汇出现在许多垃圾电邮中但实际上不出现在以英语写成的合法电邮中，用英语数据集训练的贝叶斯分类引擎将把它们在电邮信息中的出现解释为包括垃圾的信息的强烈指示。

过去，已提出两种不同方式用于非训练语言中的内容的问题。一种方法是使用能确定文档语言的二级分类器。对贝叶斯垃圾过滤器的输入随后被限制为以其已经被训练的语言记载的内容。第二种方法是使贝叶斯过滤器尝试分类每个文档而不论语言。

第一种方法在金钱和计算效率上都是昂贵的。为了通过语言分类每个文档，必须注册或构建昂贵的语言分类引擎以仅仅确定垃圾引擎是否应监视输入的信息。而且，用其他引擎分类每个输入的电邮是耗时的，并减慢垃圾过滤处理。

在垃圾的范围中，当过滤以贝叶斯过滤器没有受训的语言记载的电邮时，第二种方法通常导致极高的假阳性率。如上所指出，以未训练的外语记载的非常常用的词汇可能在垃圾的训练数据中很普遍。例如，当用英语记载的电邮集训练时，类似“und”和“der”的词汇经常出现在垃圾中并几乎不出现在合法电邮中。然而，当处理德文电邮时，这些词汇几乎出现在无论是垃圾或合法的每个信息中。因此，以英语而不是德语训练的分类器会将所有或大多数德文电邮分类为垃圾。

当处理以贝叶斯过滤器没有受训的语言记载的内容时，期望能不必须使用能确定文档语言的昂贵的二级分类器而避免该过量的假阳性率。

发明概述

特殊处理允许极大地改进以外语记载的电邮信息的贝叶斯垃圾过滤。贝叶斯垃圾过滤器确定输入的电邮信息中由训练知道的内容量。如果过滤器了解该内容的阈值量，则过滤器将该将电邮信息进行分类为垃圾或合法。另一方面，如果过滤器经训练所知道的电邮中的词汇不够，则过滤器不能准确确定该信息是否是垃圾。当电邮信息是以过滤器没有被训练的语言写成时通常是这一情形。对该情形，分类器分类该信息为类型未知。按需要可以使用不同的阈值矩阵，诸如已知电邮中词汇的百分比，以及在电邮的贝叶斯处理中使用的最大校正值的百分比。

根据本发明的一个方面，一种用于在贝叶斯过滤中减少假分类的计算机实施的方法包括如下步骤：

在贝叶斯过滤的范围中，分析要被分类的至少一个文档的内容；

确定所述至少一个文档中是否已知大于阈值量的内容；以及

响应所确定的结果来分类所述文档，

其中，所述确定所述至少一个文档中是否已知大于阈值量的内容进一步包括执行来自下述步骤组的至少一个步骤，所述步骤组包括：确定至少一个文档中由贝叶斯过滤训练已知的词汇的百分比；以及确定在至少一个文档的贝叶斯过滤中使用的最大校正值的百分比，以及

其中，所述响应所确定的结果来分类所述文档进一步包括执行来自下述步骤组的步骤，包括：响应大于阈值量的文档内容是未知的确定，分类所述文档为未知类型；以及响应少于阈值量的文档内容是未知的确定，根据标准贝叶斯过滤的结果分类所述文档。

根据本发明的另一方面，一种在贝叶斯过滤中减少假分类的计算机系统包括：

用于在贝叶斯过滤的范围中，分析要被分类的至少一个文档的内容的装置；

用于确定所述至少一个文档中是否已知大于阈值量的内容的装置；以及

用于响应所确定的结果来分类所述文档的装置，

其中，所述用于确定所述至少一个文档中是否已知大于阈值量的内容的装置进一步包括用于执行来自下述步骤组的至少一个步骤的装置，所述步骤组包括：确定至少一个文档中由贝叶斯过滤训练已知的词汇的百分比；以及确定在至少一个文档的贝叶斯过滤中使用的最大校正值的百分比，以及

其中，所述用于响应所确定的结果来分类所述文档的装置进一步包括用于执行来自下述步骤组的步骤的装置，包括：响应大于阈值量的文档内容是未知的确定，分类所述文档为未知类型；以及响应少于阈值量的文档内容是未知的确定，根据标准贝叶斯过滤的结果分类所述文档。

在该概述和如下详细说明中记载的特点和优点并非包括一切，并尤其是，许多其他特点和优点通过附图、说明书、和其权利要求对于本领域技术人员将变的显而易见。而且，应该注意，说明书中使用的语言主要用于可读性和指导目的，并不用于勾画或限制发明的主题，权利要求用于确定该发明的主题。

附图的简要说明

图1是框图，说明根据本发明的一些实施例的系统，其中当处理以非训练语言记载的电邮时，在贝叶斯垃圾电邮过滤中使用担保校验以减少假阳性。

本图描绘本发明的实施例只用于说明。本领域技术人员将从如下讨论中轻易理解到，可以使用本文说明的结构和方法的其他实施例而不不背离本文所述的发明的原理。

详细说明

图1说明根据本发明的一些实施例的系统100，其中当处理以非训练语言记载的电邮时，在贝叶斯垃圾电邮过滤中使用担保校验105以减少假阳性。应该理解，虽然图1所示的各种组件为单独实体，每个所示组件表示能以软件、硬件、固件或这些的任何组合实施的功能体的组合。组件以软件实施时，其可以以孤立程序实施，但也可以以其他方式实施，例如作为较大程序的一部分、作为多个单独程序、作为内核可加载模块、作为一个或多个设备驱动或作为一个或多个静止或动态链接库。

如图1所示，贝叶斯垃圾过滤器101接收输入的电邮信息103。标准贝叶斯垃圾过滤器101的实施机制对本领域技术人员是已知的，并在本发明的范围内其用法对于该技术水平的人员根据本说明书是很明显的。在使用贝叶斯法以浏览输入电邮103时，贝叶斯垃圾过滤器101分析这些电邮信息103的内容。除了标准贝叶斯处理，贝叶斯垃圾过滤器101对输入的电邮103执行担保校验105。本文的担保校验105指分析以确定是否已知大于阈值107量的内容。例如，为了对输入电邮信息103执行担保校验105，贝叶斯垃圾过滤器101根据对其训练的数据，分析电邮信息103的内容，并确定其中哪些词汇是贝叶斯垃圾过滤器101已知的。换而言之，如果贝叶斯垃圾过滤器101在训练期间遇到特定词汇并且该词汇与分类概率相关，则该词汇是已知的。如果贝叶斯垃圾过滤器101在训练期间没有遇到词汇从而不与设定的概率相关，则该词汇是未知的。如下文的更详细描述，电邮103中未知内容的量帮助贝叶斯垃圾过滤器101分类电邮103。

更具体地，如果大于阈值107量的电邮内容103是未知的，贝叶斯垃圾过滤器101分类该文档为未知106类型。换而言之，由于太多内容对于过滤器101是未知的，所以不能可靠地将电邮103分类为垃圾102或合法104。因为过滤器101没有对电邮103中的足够词汇受训，不能根据它知道的词汇的概率数据对于电邮103的特性得出可靠的结论。另一方面，如果贝叶斯垃圾过滤器101确定少于阈值107量的电邮103的内容是已知的，则过滤器101有足够信息以执行文档的标准贝叶斯概率分类。

例如，如果贝叶斯垃圾过滤器101已对英语电邮集而不是德语电邮集受训，由于大多数德语词汇对于过滤器101是未知的，过滤器101将错误地将所有或大多数德语电邮103分类为垃圾102，但一些常用的德语词汇(例如，定冠词和常用连词)与垃圾102的高概率相关，因为它们在英语训练数据中只出现在垃圾102中。担保校验105将表征这样的事实：过滤器101不知道德语电邮中的大多数词汇，并因此过滤器不能得出该电邮不是包括垃圾102而是包括未知内容的结论。另一方面，包含一些德语词汇的英语垃圾102将被标记为垃圾102，因为过滤器101知道电邮103中的大多数(英语)词汇，并因此实质分类该电邮103。

可以根据本发明的不同实施例进行不同形式的担保校验105。在一个实施例中，过滤器101仅计算由贝叶斯过滤训练已知的输入电邮信息103中的词汇的概率。在该实施例中，过滤器101只在所需的内容量是已知时才进行实质分类电邮103。当然应该理解，使用的阈值107是变量设计参数。在一个实施例中，85％用作已知词汇阈值107，而在其他实施例中使用其他值(例如，80％，90％，95％等)。

在一些实施例中，用于电邮信息103的担保校验105是在电邮信息103 的贝叶斯过滤期间使用的最大校正值111的百分比。为了一般了解校正并具体了解最大校正，首先注意在贝叶斯过滤中，过滤器101对在训练中没有遇到的词汇使用特别的概率值。在没有调整的情况下，电邮103中出现一个或多个训练中没有遇到的词汇会不恰当地影响电邮101的贝叶斯分类。为此，贝叶斯处理可以对该词汇使用默认概率。该默认概率用在本发明的许多实施例中，包括但不限于使用用作担保校验105的最大校正111的百分比。

在贝叶斯处理中对训练中没有遇到的词汇使用的默认概率在本文中被称为零计数109。零计数109可以在本发明的不同实施例中按照需要以不同方式计算。在一个实施例中，根据下面表1中的公式计算零计数109，其中总词汇表示来自训练集的词汇数：

表1：

现在继续解释校正，注意一般在贝叶斯分类中，当分类词汇集(例如，电邮103中的词汇)时，通过为该集中每个词汇计算P(类别|词汇)的总和向每个类别(例如，垃圾102和合法电邮104)给出原始分数(即，假定出现词汇时，文档是该类别的概率)。在该步骤中，也能计算误差(校正)值113，该值可以用于避免单个词汇超过(overpower)文档(例如，电邮信息103)中的其他词汇。该校正值用在本发明的许多实施例中。校正值113可以按需要以不同形式计算。在本发明的一些实施例中，根据下表2中的数学计算校正值：

表2：

CC＝类别数

WC＝词汇数

现在继续讨论最大校正，在一些实施例中，贝叶斯过滤器101计算对于给定的电邮信息103能发生的最大可能校正111。它能按需以不同形式计算。在本发明的一些实施例中，根据下表3中的公式计算用于电邮信息103的最大校正值111：

表3：

最大校正＝零计数/2*电邮中的词汇

最后，通过将校正113(例如，如根据表2计算的)除以最大校正111(例如，根据表3计算的)然后可以计算实际使用的最大校正的量115。该结果115在本发明的一些实施例中的担保校验105中用作阈值107矩阵。当然，要使用的具体阈值107是变量设计参数。在一些实施例中，如果所用的校正115大于最大的95％，过滤器101调整电邮为类型未知106。其他阈值107值也是可能的(例如，＞98％，＞90％等)。

在本发明的一些实施例中，由过滤器101检查多个阈值107矩阵。例如，在一个实施例中，贝叶斯过滤器101只有当a)电邮中小于15％的词汇是已知的以及b)贝叶斯过滤器101对电邮103使用的校正115大于最大校正111的95％才调整电邮为类型未知106。按需要在其他实施例中使用其他特定阈值107值和矩阵。

担保校验105的应用在贝叶斯垃圾过滤器101的范围内运行良好。它也很快适应在部署点执行的其他训练，从而允许发布者在仅对英语电邮信息103训练之后就装载(ship)反垃圾产品。当产品在基于非训练语言的环境中使用时，贝叶斯过滤器101迅速对该语言(例如，借助接收(inbound)信息103的自动发送(outbound)训练和再分类)受训，并因此担保校验105不再宣布以那些语言写成的邮件为类型未知106。

本发明也允许反垃圾方法在没有训练数据的区域中快速配置。此外，本发明使得反垃圾软件的发布者通过不注册昂贵语言分类引擎而仅以确定垃圾引擎是否应监视信息103而节省金钱。

也应进一步理解，虽然本说明书已讨论将电邮信息103分类为垃圾102、合法104或未知106，本发明并不受限于此。虽然垃圾分类对本发明具有很大用处，其也能用在将任何文档类型贝叶斯分类为任何数量的合适类别的范围内。

如本领域技术人员所理解的，在不背离其精神或实质特性的情况下本发明可体现为其他特定形式。类似地，部分、模块、引擎(agent)、管理器、组件、函数、过程、操作、层、特性、属性、方法以及其他方面的特定命令和划分不是强制的或有影响的，并且实施本发明或其特性的机制可具有不同的名称、划分和/或格式。此外，对本领域技术人员明显的是，本发明的部分、模块、引擎、管理器、组件、函数、过程、操作、层、特性、属性、方法和其他方面可以实施为软件、硬件、固件或这三类的任意组合。当然，在本发明的组件实施为软件时，该组件可以实施为脚本、孤立程序、较大程序的一部分、多个独立脚本和/或程序、静止或动态的链接库、内核可加载模块、设备驱动、和/或现在或将来对计算机编程领域的技术人员所公知的每种以及任何其他形式。此外，本发明并不限于任何特定的编程语言、或任何特定的操作系统或环境。而且，对相关领域技术人员明显的是，在本发明整体或部分实施为软件时，其软件组件可以作为计算机程序产品存储在计算机可读介质上。任何形式的计算机可读介质都能用于此，例如磁性或光学存储介质。此外，可以在任何可编程计算设备的内存中例示本发明的软件部分(例如，作为对象编码或可执行图像)。因此，本发明的说明书意图用于说明而非限制在随后的权利要求书中提出的本发明的范围。

Claims

1.一种用于在贝叶斯过滤中减少假分类的计算机实施的方法，所述方法包括如下步骤：

确定所述至少一个文档中是否已知大于阈值量的内容；以及

响应所确定的结果来分类所述文档，

2.根据权利要求1所述的方法，其中所述确定在至少一个文档的贝叶斯过滤中使用的最大校正值的百分比进一步包括：

作为至少一个文档中零计数值和若干词汇的变量计算至少一个文档的最大校正值；以及

作为至少一个文档的贝叶斯过滤中使用的校正值和至少一个文档的最大校正值的变量计算至少一个文档的贝叶斯过滤中使用的最大校正值的百分比。

3.根据权利要求2所述的方法，其中所述零计数值进一步包括贝叶斯过滤中对贝叶斯训练中没有遇到的词汇所使用的特定值，该方法进一步包括：

以训练数据集中的词汇数与常数的乘积被一除后的自然对数计算零计数值。

4.根据权利要求2所述的方法，其中所述在至少一个文档的贝叶斯过滤中使用的校正值进一步包括：

特定值，经计算以避免任何单个词汇不适当地影响至少一个文档的分类。

5.根据权利要求1所述的方法，其中所述至少一个文档包括至少一个电邮信息，以及贝叶斯过滤分类所述至少一个电邮信息为归属于下述类别组的单个类别，该类别组包括：

垃圾；

合法电邮；以及

未知。

6.一种在贝叶斯过滤中减少假分类的计算机系统，所述计算机系统包括：

用于响应所确定的结果来分类所述文档的装置，

7.根据权利要求6所述的计算机系统，其中用于执行确定在至少一个文档的贝叶斯过滤中使用的最大校正值的百分比的步骤的装置进一步包括：

用于作为至少一个文档中零计数值和若干词汇的变量计算至少一个文档的最大校正值的装置；以及

用于作为至少一个文档的贝叶斯过滤中使用的校正值和至少一个文档的最大校正值的变量计算至少一个文档的贝叶斯过滤中使用的最大校正值的百分比的装置。

8.根据权利要求7所述的计算机系统，其中所述零计数值进一步包括贝叶斯过滤中对于贝叶斯训练中没有遇到的词汇使用的特定值，所述计算机系统进一步包括：

用于以训练数据集中的词汇数与常数的乘积被一除后的自然对数计算零计数值的装置。

9.根据权利要求6所述的计算机系统，其中所述至少一个文档包括至少一个电邮信息，以及所述计算机系统进一步包括：用于通过贝叶斯过滤分类所述至少一个电邮信息为归属于下述类别组的单个类别的装置，所述类别组包括：

垃圾；

合法电邮；以及

未知。