CN1987909B

CN1987909B - 一种提纯贝叶斯垃圾邮件的方法、系统及装置

Info

Publication number: CN1987909B
Application number: CN2005101319886A
Authority: CN
Inventors: 周颢
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2005-12-22
Filing date: 2005-12-22
Publication date: 2012-08-15
Anticipated expiration: 2025-12-22
Also published as: CN1987909A

Abstract

本发明公开了一种提纯贝叶斯负样本的方法、系统及装置，用以解决目前无法自动调节贝叶斯负样本学习库中负样本数量与贝叶斯正样本学习库中正样本数量比例失衡的问题。本发明方法包括步骤：当前网络信息被判定为负样本后，归入对应的负样本类别，并统计当前该类别中的负样本数量；若所述当前网络信息归属的类别中的负样本数量不大于预设的阈值，则将所述当前网络信息中的内容录入贝叶斯负样本学习库，否则，对所述当前网络信息不做处理。

Description

一种提纯贝叶斯垃圾邮件的方法、系统及装置

技术领域

本发明涉及网络领域，特别是涉及一种提纯贝叶斯垃圾邮件的方法、系统及装置。

背景技术

目前对垃圾邮件的过滤通常采用关键字统计的方法。贝叶斯过滤法是其中使用频率最高、过滤效果最明显的方法。所述贝叶斯过滤法是通过对一定量的已知垃圾邮件(负样本)和非垃圾邮件(正样本)进行学习，生成一套贝叶斯学习库，然后利用贝叶斯公式结合贝叶斯学习库来判断一封邮件是否为垃圾邮件的方法，其具有不断自学的能力。

目前贝叶斯学习库中的垃圾邮件的数目远远多于非垃圾邮件，造成这一状况的原因是目前在判断新邮件为垃圾邮件后，直接录入贝叶斯负样本学习库，而现实中垃圾邮件的数量往往很大，并且存在内容相同或相近的特点，这使得大量内容重复的垃圾邮件被录入贝叶斯负样本学习库，造成贝叶斯学习库中的垃圾邮件数和非垃圾邮件数比例失衡。

而根据现有数据表明非垃圾邮件和垃圾邮件的样本数为1∶1时，而且贝叶斯学习库学习了最具有代表性的垃圾邮件和非垃圾邮件时，可以达到最佳的过滤效果。若要达到这一效果，目前只能通过人工筛选来实现。

进一步，目前贝叶斯学习库中的垃圾邮件与非垃圾邮件在内容上存在很大的交集，在录入垃圾邮件的同时录入了若干干扰字符串，即录入了对于区分正负样本能力不强的信息，使得贝叶斯训练效果不理想，进而造成系统的正误判率较高。

发明内容

本发明提供一种提纯贝叶斯垃圾邮件的方法、系统及装置，用以解决目前无法自动调节贝叶斯垃圾邮件学习库中垃圾邮件数量与贝叶斯正样本学习库中正样本数量比例失衡的问题。进一步解决垃圾邮件直接录入贝叶斯垃圾邮件学习库会带入干扰字符串，造成系统的正误判率较高的问题。

本发明方法包括步骤：判断当前网络信息是否为负样本；当判断为是时，将所述当前网络信息与各个类别中的负样本比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的负样本类别，并统计当前该类别中的负样本数量；若否，则以所述当前网络信息创建一个新类别；若所述当前网络信息归属的类别中的负样本数量不大于预设的阈值，则将所述当前网络信息中的内容录入贝叶斯负样本学习库，否则，对所述当前网络信息不做处理。

直接将所述当前网络信息中的全部内容录入贝叶斯负样本学习库。

或者，将所述当前网络信息中的内容提纯后，再录入贝叶斯负样本学习库。

将所述当前网络信息中的内容提纯，包括下列步骤：将所述当前网络信息中的内容与其归属类别中的负样本逐一对比，并分别提取相同的特征；取所述提取的各个相同特征的交集。

所述网络信息为电子邮件或短消息。

本发明的系统，包括：负样本库、贝叶斯负样本学习库，以及提纯装置，用于判断当前网络信息是否为负样本；所述当前网络信息被判定为负样本时，将所述当前网络信息与各个类别中的负样本比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的负样本类别中，若否，则以所述当前网络信息创建一个新类别；并在当前负样本归属的类别中的负样本数量不大于预设的阈值时，将当前负样本中的内容录入所述贝叶斯负样本学习库。

所述提纯装置包括下列单元：分类单元，用于对所述负样本库中的初始负样本分类；相似度判定单元，用于判断当前网络信息是否为负样本；当判断为是时，通过预设的相似度算法，将当前负样本分别与分类单元中的各个类别比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的负样本类别；若否，则以所述当前网络信息创建一个新类别；计数和比较单元，用于分别统计所述分类单元中每一类别中的负样本数量，并与预设的阈值对比，若当前网络信息归属的类别中的负样本数量不大于预设的阈值，则将当前网络信息中的内容录入贝叶斯负样本学习库，否则，对当前网络信息不做处理。

所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时，将所述当前负样本中的全部内容录入所述贝叶斯负样本学习库。

所述提纯装置还包括：提纯单元，用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时，将所述当前负样本提纯，将提纯后的负样本内容录入所述贝叶斯负样本学习库。

本发明的提纯装置，包括：分类单元，用于对所述负样本库中的初始负样本分类；相似度判定单元，用于判断当前网络信息是否为负样本；当判断为是时，通过预设的相似度算法，将当前负样本分别与分类单元中的各个类别比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的负样本类别；若否，则以所述当前网络信息创建一个新类别；计数和比较单元，用于分别统计所述分类单元中每一类别中的负样本数量，并与预设的阈值对比，若当前网络信息归属的类别中的负样本数量不大于预设的阈值，则将当前网络信息中的内容录入贝叶斯负样本学习库，否则，对当前网络信息不做处理。

所述装置还包括：提纯单元，用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时，将所述当前负样本提纯。

本发明有益效果如下：本发明先将现有的一定数量的负样本(负样本为垃圾邮件，但不限于邮件)分类，在获得并判定当前邮件为负样本时，将所述当前邮件归入相似度最高的类别中；若当前邮件归属类别中的负样本数量不大于预设的阈值，则将所述当前邮件录入贝叶斯负样本学习库，否则，判定所述当前邮件无效，不做任何处理。通过上述方法的实施，可以有效的减少同一类别的负样本重复录入贝叶斯负样本学习库的次数，所以控制了贝叶斯负样本学习库中负样本的数量，使正负样本得以平衡，并提高了贝叶斯负样本学习库中负样本集的质量，改善了贝叶斯学习的效果。

进一步，本发明方法在将确定的负样本录入贝叶斯负样本学习库之前，还对该负样本中的内容进行提纯，即只向贝叶斯负样本学习库输入所述负样本与其归属的类别中的其它负样本的共同特征。所以避免了干扰字符串的录入，使得贝叶斯学习库的工作精确度更高。

为了支撑本发明方法，本发明还提供了一种提纯贝叶斯垃圾邮件的系统，包括：负样本库和贝叶斯负样本学习库，还包括：提纯装置，用于将当前的负样本归入对应的类别中，并在当前负样本归属的类别中的负样本数量不大于预设的阈值时，将当前负样本中的内容录入所述贝叶斯负样本学习库。所述提纯装置包括：分类单元，用于对所述负样本库中的初始负样本分类；相似度判定单元，用于通过预设的相似度算法，将当前负样本分别与分类单元中的各个类别比较，以将所述当前负样本归入相似度最高的类别；计数和比较单元，用于分别记录所述分类单元中的每一类别中的负样本数量，并与预设的阈值对比，以确定当前负样本的处理策略。所述提纯装置进一步还包括：提纯单元，用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时，将所述当前负样本提纯。

为了支撑本发明方法，本发明又提供了一种贝叶斯垃圾邮件的提纯装置。

附图说明

图1为本发明系统结构示意图；

图2为本发明提纯装置结构示意图；

图3为本发明方法步骤流程图。

具体实施方式

为了控制贝叶斯负样本学习库中负样本的数量，使正负样本的数量均衡，本发明提供了一种提纯贝叶斯负样本的系统，应用于负样本数量远远大于正样本数量的情况，参见图1所示，包括：依次串连的负样本库、提纯装置和贝叶斯负样本学习库。

所述负样本库，用于存储负样本。

所述提纯装置，用于从所述负样本库中提取一定数量的负样本，并对其分类；以及将当前获取的负样本归入对应的类别中，并在当前负样本归属类别中的负样本数量不大于预设的阈值时，将当前负样本中的内容录入所述贝叶斯负样本学习库。所述阈值的取值可根据当前正负样本的比例而定。

所述贝叶斯负样本学习库，用于存储并学习典型的负样本和正样本，并完成正负样本的判定工作。

参见图2所示，上述提纯装置(即本发明的提纯装置)中可包括分类单元，以及分别与所述分类单元相连的相似度判定单元及计数和比较单元；进一步还可包括与所述分类单元相连的提纯单元。

所述分类单元，用于对所述负样本库中的初始负样本分类。

所述相似度判定单元，用于通过预设的相似度算法，将当前负样本分别与分类单元中的各个类别比较，以将所述当前负样本归入相似度最高的类别。

所述计数和比较单元，用于分别统计所述分类单元中每一类别中的负样本数量，并与预设的阈值对比，以确定当前负样本的处理策略。

所述提纯单元，用于在所述计数和比较单元判定当前负样本归属的类别中的负样本数量不大于所述阈值时，将所述当前负样本提纯。

应用上述系统，本发明提供了一种提纯贝叶斯负样本的方法，参见图3所示，其包括下列步骤：

S1、对初始负样本分类。

S2、判定当前网络信息是否为负样本，若是，则转入步骤S3；否则直接录入贝叶斯正样本学习库。

S3、将当前网络信息归入对应的类别，并统计当前该类别中的负样本数量。

S4、当前网络信息归属类别中的负样本数量与预设的阈值对比，若大于，则不做任何处理；否则转入步骤S5。

S5、将当前网络信息的内容录入贝叶斯负样本学习库。

以下通过两个实例具体描述本发明方法。

方法实例一：将确定的负样本中的全部内容直接录入贝叶斯负样本学习库。

S101、对初始负样本分类。

本步骤为准备步骤。

本发明提纯装置中的分类单元从负样本库中提取一定数量的初始负样本，所述提取初始负样本的数量根据实际情况而定，以满足后续流程的处理精度为准。

根据相似度对所述初始负样本分类，包括以下步骤：

1、进行特征提取。

以邮件为例，所述提取的特征为下述属性中的至少一个，但不限于下述属性：

(1)对邮件结构的描述，字符串类型(例如：(multipart/alternative，(text/html，text/plain)))。

(2)对于Subject字段的字符集及编码方式的描述(例如：gb2312，base64)。

(3)对于From字段的字符集及编码方式的描述(例如：gb2312，base64，quoted)。

(4)邮件全长(例如：1230293(Bytes))。

(5)第一个“可阅读”部分的类型描述，对应于Outlook Express显示的邮件可阅读部分(例如：(text/html))。

(6)第一个“可阅读”部分的字符集和编码方式(例如：gb2312，base64)。

(7)第一个“可阅读”部分的文本长度(例如：11231(Bytes))。

(8)第一个“可阅读”部分如果是text/html，则提取其HTML的结构描述(将关键的HTML Tag连接起来，成为一个字符串，例如：<body><font><table>…)。

(9)第一个“可阅读”部分如果含有Http Link，则提取其包含的Http Link个数。

(10)第一个“可阅读”部分如果含有Email地址，则提取其包含的Email地址个数。

(11)第一个“可阅读”部分的大写字符占全部字符的比例(例如：27％)。

(12)第一个“可阅读”部分的中文字符的比例(例如：80％)。

(13)第一个“可阅读”部分的行数。

(14)第一个“可阅读”部分中含有特殊字符(例如！和*)的个数。

(15)第一个“可阅读”部分的段落数。

(16)第一个“可阅读”部分的每行长度与平均长度的方差。

(17)最大的附件的类型描述(例如(application/msword))。

(18)最大的附件的长度(例如：51200(Bytes))。

2、相似度判断

若两封邮件的上述属性1、2、3、5、6、8、9、10和17相等，属性4相差在1K之内，属性7相差在512Bytes之内，属性11相差在5％以内，属性12相差在5％以内，属性13相差在10以内，属性14相差在5以内，属性15相差在3以内，属性16相差在10以内，以及属性18相差在512Bytes之内，则判定两封邮件相似，并归为一类。

S102、判定当前网络信息是否为负样本，若是，则转入步骤S103；否则直接录入贝叶斯正样本学习库。

根据现有的机制判定当前网络信息是否为负样本，若为正样本，则直接录入贝叶斯正样本学习库；若为负样本，则转入步骤S103。所述网络信息可为电子邮件或短消息，也可为在网络中传播的其它信息。

S103、将当前网络信息归入对应的类别，并统计当前该类别中的负样本数量。

在当前网络信息被判定为负样本后，提纯装置中的相似度判定单元将当前网络信息与分类单元中的各个类别中的负样本比较，并分别记录相似度，以将所述当前网络信息归类到相似度最高的类别中。所述相似度判定单元对相似度的判断过程详见步骤S101。

本发明中所述相似度判定单元中预设有最低相似度，所以经过相似度计算后会出现两种情况。情况一：计算得到的最高相似度不小于所述最低相似度，则将所述当前网络信息归入对应的类别；情况二：计算得到的最高相似度小于所述最低相似度，则以所述当前网络信息创建一个类别(此时该类别中仅有当前网络信息这一个负样本)。

归类完成后，所述分类单元触发提纯装置中的计数和比较单元，所述计数和比较单元统计所述当前网络信息归属类别中的负样本数量(即在原统计数量上加1)。

S104、当前网络信息归属的类别中的负样本数量与预设的阈值对比，若大于，则不做任何处理；否则转入步骤S105。

所述提纯装置中的计数和比较单元在所述负样本数量统计工作完成后，将所述当前网络信息归属类别中的负样本数量与预设的阈值对比，若大于，则判定所述当前网络信息无效，不做任何处理；若不大于，则转入步骤S105。

S105、将当前网络信息的内容录入贝叶斯负样本学习库。

在本例中所述分类单元将确定的所述当前网络信息中的全部内容直接录入贝叶斯负样本学习库。

方法实例二：将确定的负样本提纯后，录入贝叶斯负样本学习库。

S201、对初始负样本分类。(与步骤S101相同)

S202、判定当前网络信息是否为负样本，若是，则转入步骤S203；否则直接录入贝叶斯正样本学习库。(与步骤S102相同)

S203、将当前网络信息归入对应的类别，并统计当前该类别中的负样本数量。(与步骤S103相同)

S204、当前网络信息归属的类别中的负样本数量与预设的阈值对比，若大于，则不做任何处理；否则转入步骤S205。(与步骤S104相同)

S205、将当前网络信息的内容录入贝叶斯负样本学习库。

在本例中为了达到更好的实施效果，通过所述提纯装置中的提纯单元，将确定的所述当前网络信息中的内容提纯后，再录入贝叶斯负样本学习库。

现有的提纯算法，例如：编辑距离算法、覆盖率算法、余弦距离算法或TF.IDF算法。提纯的过程包括：

-将所述当前网络信息中的内容与其归属类别中的负样本逐一对比，并分别提取相同的特征。

-取所述提取的各个相同特征的交集。

本例中仅将所述交集生成文本，录入贝叶斯负样本学习库，去除了干扰字符串。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种提纯贝叶斯垃圾邮件的方法，其特征在于，包括下列步骤：

判断当前网络信息是否为垃圾邮件；

当判断为是时，将所述当前网络信息与各个类别中的垃圾邮件比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的垃圾邮件类别，并统计当前该类别中的垃圾邮件数量；若否，则以所述当前网络信息创建一个新类别；

若当前网络信息归属的类别中的垃圾邮件数量不大于预设的阈值，则将当前网络信息中的内容录入贝叶斯垃圾邮件学习库，否则，对当前网络信息不做处理。

2.如权利要求1项所述的方法，其特征在于，直接将所述当前网络信息中的全部内容录入贝叶斯垃圾邮件学习库。

3.如权利要求2所述的方法，其特征在于，将所述当前网络信息中的内容提纯后，再录入贝叶斯垃圾邮件学习库。

4.如权利要求3所述的方法，其特征在于，将所述当前网络信息中的内容提纯，包括下列步骤：

-将所述当前网络信息中的内容与其归属类别中的垃圾邮件逐一对比，并分别提取相同的特征；

-取所述提取的各个相同特征的交集。

5.如权利要求1项所述的方法，其特征在于，所述网络信息为电子邮件或短消息。

6.如权利要求5所述的方法，其特征在于，若所述当前网络信息被判定为非垃圾邮件，则直接将所述当前网络信息中的内容录入贝叶斯非垃圾邮件学习库。

7.一种提纯贝叶斯垃圾邮件的系统，包括：垃圾邮件库和贝叶斯垃圾邮件学习库，其特征在于，所述系统还包括：

提纯装置，用于判断当前网络信息是否为垃圾邮件；所述当前网络信息被判定为垃圾邮件时，将所述当前网络信息与各个类别中的垃圾邮件比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的垃圾邮件类别中，若否，则以所述当前网络信息创建一个新类别；并在当前垃圾邮件归属的类别中的垃圾邮件数量不大于预设的阈值时，将当前垃圾邮件中的内容录入所述贝叶斯垃圾邮件学习库。

8.如权利要求7所述的系统，其特征在于，所述提纯装置包括下列单元：

分类单元，用于对所述垃圾邮件库中的初始垃圾邮件分类；

相似度判定单元，用于判断当前网络信息是否为垃圾邮件；当判断为是时，通过预设的相似度算法，将当前垃圾邮件分别与分类单元中的各个类别比较，分别记录相似度，判断得到的最高相似度是否大于预设的最低相似度；若是，将所述当前网络信息归入最高相似度对应的垃圾邮件类别；若否，则以所述当前网络信息创建一个新类别；

计数和比较单元，用于分别统计所述分类单元中每一类别中的垃圾邮件数量，并与预设的阈值对比，若当前网络信息归属的类别中的垃圾邮件数量不大于预设的阈值，则将当前网络信息中的内容录入贝叶斯垃圾邮件学习库，否则，对当前网络信息不做处理。

9.如权利要求8所述的系统，其特征在于，所述计数和比较单元判定当前垃圾邮件归属的类别中的垃圾邮件数量不大于所述阈值时，将所述当前垃圾邮件中的全部内容录入所述贝叶斯垃圾邮件学习库。

10.如权利要求8所述的系统，其特征在于，所述提纯装置还包括：

提纯单元，用于在所述计数和比较单元判定当前垃圾邮件归属的类别中的垃圾邮件数量不大于所述阈值时，将所述当前垃圾邮件提纯，将提纯后的垃圾邮件内容录入所述贝叶斯垃圾邮件学习库。

11.一种贝叶斯垃圾邮件的提纯装置，其特征在于，包括：

分类单元，用于对所述垃圾邮件库中的初始垃圾邮件分类；

12.如权利要求11所述的装置，其特征在于，所述装置还包括：

提纯单元，用于在所述计数和比较单元判定当前垃圾邮件归属的类别中的垃圾邮件数量不大于所述阈值时，将所述当前垃圾邮件提纯。