CN103186845B

CN103186845B - 一种垃圾邮件过滤方法

Info

Publication number: CN103186845B
Application number: CN201110450352.3A
Authority: CN
Inventors: 林延中; 潘庆峰
Original assignee: MAIMAILTECH (BEIJING) CO Ltd
Current assignee: Critics of science and Technology (Guangzhou) Co. Ltd.
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2016-06-08
Anticipated expiration: 2031-12-29
Also published as: CN103186845A; WO2013097327A1

Abstract

本发明公开了一种垃圾邮件过滤方法，包括：从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；通过统计学习样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述中文文本的特征向量；将所述特征向量输入支持向量机模型，获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类，提高垃圾邮件的识别准确率。

Description

一种垃圾邮件过滤方法

技术领域

本发明涉及通信技术领域，尤其涉及一种垃圾邮件过滤方法。

背景技术

随着网络的快速发展，使用电子邮件(E-mail)进行通信已十分普遍，图片、文档、影音等各种计算机文件均可通过E-mail的方式传送给接收者，给人们的生活带来了极大的方便。但同时垃圾邮件也随之蔓延，严重威胁到用户邮箱的稳定性及安全性。

中国专利CN201010179995公开一种基于N-GRAM分词模型的反向神经网络垃圾邮件过滤装置，使用N-GRAM分词模型对邮件样本进行分词，并使用TF-IDF(TermFrequency–InverseDocumentFrequency)算法对分词进行权重排序，然后使用zipf法则提取最重要的特征分词列表(未被挑中的特征分词则被丢弃)。根据文本中是否包含这些“重要特征分词”构造出文档的特征向量，并以此特征向量进行神经网络的学习和分类，最后输出正常邮件和垃圾邮件两个类别的分类结果。

上述现有技术使用zipf法则来提取最重要的特征分词，会导致某些次重要的特征分词被丢弃，但是这些次重要的特征分词数量较多，总体仍会对分类系统有相当大的贡献。因此，丢弃这些次重要分词，会影响分类器的准确性。而且，在实际应用中，存在部分灰色地带的邮件，比如某些信用卡的积分广告邮件，对于某些用户来说是希望接收的，但是上述现有技术只有垃圾邮件和正常邮件两个分类结果，由于这些灰色地带的邮件是大量群发的，因此分类器会将其归类到垃圾邮件内；此外，上述现有技术使用神经网络对特征向量进行分类，只能获得一个邮件属于垃圾邮件还是正常邮件的分类结果，不能获得分类结果的置信度；而且没有考虑当前大量的垃圾邮件使用html方式包装，并通过添加大量不可见或者不同大小的字体，来干扰文本分类的效果，影响分类器的准确性。

发明内容

本发明实施例提出一种垃圾邮件过滤方法，邮件分类准确，能够提高垃圾邮件的识别准确率。

本发明实施例提供的垃圾邮件过滤方法，包括：

S11、从待过滤邮件中提取中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语；

S12、通过统计已知分类的邮件样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

S13、统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述中文文本的特征向量；

S14、将所述特征向量输入支持向量机模型，获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

在步骤S11中，采用排列组合方式从所述中文文本中分离出词语的方法，具体包括：扫描所述中文文本中的每一个中文文字，以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来，组成文字组合，获得词语；其中，S为自然数。

步骤S12具体包括：

收集已知分类的邮件样本，所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本；

从所述邮件样本中提取分词样本，对每一个分词样本的区分邮件类型的能力进行排序，形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表；每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号，所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性；

将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中；

从所述待过滤邮件的中文文本中分离出词语后，根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号，来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号。

进一步的，在步骤S14之后，还包括：

S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值，若是，则判定所述待过滤邮件为垃圾邮件，否则不是垃圾邮件。

本发明实施例提供的垃圾邮件过滤方法，从待过滤邮件中提取出中文字符，组合成中文文本，并采用排列组合方式从所述中文文本中分离出词语，不依赖于中文字典，而是通过排列组合穷举所有可能的分词形式，然后通过统计来确认哪些分词比较重要，不会丢弃次重要的特征分词，将分类结果分成垃圾邮件、正常邮件、广告邮件和订阅邮件四个类型，邮件分类准确。而且使用支持向量机作为特征向量的分类器，能够提高垃圾邮件的识别准确率。

附图说明

图1是本发明实施例一提供的垃圾邮件过滤方法的流程示意图；

图2是本发明实施例二提供的垃圾邮件过滤方法的流程示意图；

图3是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的垃圾邮件过滤方法，预先收集正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本，分析邮件样本中每个分词属于不同邮件类型的概率，形成样本数据库；再使用支持向量机学习这些样本，获得支持向量机模型。具体如下：

一、收集邮件样本：

收集正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本，加入到样本数据库中。

具体实施时，可以在邮件系统中部署举报系统，收集用户举报的垃圾邮件、广告邮件和订阅邮件，加入到样本数据库中。

二、提取邮件样本中的词语：

首先对邮件样本中的文本进行预处理，从邮件样本中提取出html文档、中文文本和英文文本。对于html文档，将其中的html标签(htmltag)提取出来单独处理。之后从剩余的信息中提取中文字符和英文字符，形成只有英文字符的文档和只有中文字符的文档。

(1)、对于英文文本，以标点符号和空格分隔各个分词。

(2)、对于中文文本，则使用机械的排列组合方式从句子中分离出词语。分离的方法如下：对于一个中文字符数为L中文文本，扫描所述中文文本中的每一个中文文字C，以S个中文字符为步长将每一个中文文字C后面的文字逐个提取出来，组成文字组合；其中，S为1、2、3、…。例如，对于句子“我是中国人”，设定扫描步长为3，分词最大长度为3，则可能的分词为：我、我是、我是中、是、是中、是中国、中、中国、中国人、国、国人、人。

使用此分词的好处是无需中文词典，由于中文的特性，使用此办法分词肯定可以覆盖到绝大部分的中文词语。另外可以处理形如“我a是a中a国a人”的带有干扰信息的文本。而且使用此分词方法，还可以获得很多次重要的分词，在后续处理会将这些分词按照区分能力进行排序，区分能力低的词语会排到较后的位置。一些次重要的词语对文本分类有较大作用，例如对于“芙王”这个分词，经过程序处理之后发现它是垃圾邮件的一个有较大区分作用的分词，仔细查看发现这个词来源于销售假烟“芙蓉王”的垃圾邮件样本，而芙蓉可能会在其他正常邮件中经常出现，所以“芙蓉”对于垃圾邮件的区分作用不如“芙王”。

(3)、对于html文档，从html文档中提取html标签(htmltag)。根据html格式要求，每个htmltag包含一个标签名称(tag名称)以及若个数量不确定的标签属性(tag属性)。提取htmltag信息的时候，假如htmltag只有tag名称没有tag属性的，则提取的html标签分词为tag名称。如果htmltag包含tag名称和n个tag属性的，则将tag名称和每个tag属性一一组合后，形成n个html标签分词。

三、对分词进行排序处理：

从邮件中提取出词语(包括中文分词、英文分词和html标签分词)后，使用TF-IDF算法对上述第二步的分词进行排序处理。排序后，获得正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表，每个分词列表中包含最能代表这个邮件类型的分词样本，并按照区分能力从高到低的顺序对分词进行排序，并按照分词在每个列表中的排序位置赋予一个重要性位置区间编号。该重要性位置区间编号表示分词样本在某类邮件样本中的重要性。例如“芙王”这个分词在垃圾邮件分词列表的位置是位于10％位置的，则赋予“芙王”的重要性位置区间编号为10；而“芙蓉”这个分词在垃圾邮件分词列表的位置是位于90％的，则赋予“芙蓉”的重要性位置区间编号为90。某一分词在垃圾邮件分词列表的排序位置越靠前，表示该分词在垃圾邮件分类中的重要性越大。

将正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中，供后续进行邮件过滤时使用。

四、支持向量机模型：

对于每一个邮件样本，获得邮件中的每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号后，对每个重要性位置区间编号上分布的词语的个数进行统计，如下：

构建一个四维数组，本实施例仅以4*10的四维数组为例进行说明。

四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为Array[3][10]、Array[3][20]、Array[3][30]、Array[13][40]、Array[3][50]、Array[3][60]、Array[3][70]、Array[3][80]、Array[3][90]、Array[3][100]。其中，Array[3][10]表示分布在正常邮件分词列表的重要性位置区间编号10上的分词个数，Array[3][20]表示分布在正常邮件分词列表的重要性位置区间编号20上的分词个数，以此类推。

四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为Array[2][10]、Array[2][20]、Array[2][30]、Array[13][40]、Array[2][50]、Array[2][60]、Array[2][70]、Array[2][80]、Array[2][90]、Array[2][100]。其中，Array[2][10]表示分布在垃圾邮件分词列表的重要性位置区间编号10上的分词个数，Array[2][20]表示分布在垃圾邮件分词列表的重要性位置区间编号20上的分词个数，以此类推。

四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为Array[1][10]、Array[1][20]、Array[1][30]、Array[13][40]、Array[1][50]、Array[1][60]、Array[1][70]、Array[1][80]、Array[1][90]、Array[1][100]。其中，Array[1][10]表示分布在广告邮件分词列表的重要性位置区间编号10上的分词个数，Array[1][20]表示分布在广告邮件分词列表的重要性位置区间编号20上的分词个数，以此类推。

四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词语个数，分别为Array[0][10]、Array[0][20]、Array[0][30]、Array[13][40]、Array[0][50]、Array[0][60]、Array[0][70]、Array[0][80]、Array[0][90]、Array[0][100]。其中，Array[0][10]表示分布在正常邮件分词列表的重要性位置区间编号10上的分词个数，Array[0][20]表示分布在正常邮件分词列表的重要性位置区间编号20上的分词个数，以此类推。

四维数组中的每一个数的初始值为0，在对每个分词列表中的每个重要性位置区间编号上分布的词语的个数进行统计时，邮件样本中的词语在某一重要性位置区间编号上出现，该重要性位置区间编号的词语个数就加1。例如，某一邮件样本中的分词“发票”，在正常邮件分词列表的出现重要性位置区间编号是30(代表在列表的29％-30％位置之间)，则Array[0][30]将会加1。“发票”在垃圾邮件分词列表的出现重要性位置区间编号是0(代表在列表的0％-1％位置之间)，则Array[1][0]将会加1。该邮件样本中“你好”在正常邮件分词列表的出现重要性位置区间编号是30，则Array[0][30]再加1，其余情况类推，从而统计出四维数组中的每一个数的值。

将上述四维数组按照先行后列的方式转换成一维数组，此一维数组即为文本的特征向量。具体的，转换方法为：(1)、把四维数组的第一行拷贝到一维数组；(2)、把四维数组的第二行的内容添加到上述步骤(1)的一维数组的后面；(3)、把四维数组的第三行的内容添加到上述步骤(2)的一维数组的后面；(4)、把四维数组的第四行的内容添加到上述步骤(3)的一维数组的后面，到此，一维数组包含四维数组的所有内容，且只有一维。

将上述特征向量输入支持向量机，输出支持向量机模型。其中，支持向量机为现有技术，在此不进行详细说明。

获得样本数据库和支持向量机模型后，对于一个未知邮件类型的待过滤的邮件，邮件过滤方法如下：

参见图1，是本发明实施例一提供的垃圾邮件过滤方法的流程示意图。

在本实施例一中，待过滤邮件中包含中文文本；垃圾邮件过滤方法包括以下步骤：

其中，在步骤S11中，采用排列组合方式从所述中文文本中分离出词语的方法，具体包括：扫描所述中文文本中的每一个中文文字，以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来，组成文字组合，获得词语；其中，S为自然数。

上述步骤S12具体包括：

从所述邮件样本中提取分词样本，对每一个分词样本的区分邮件类型的能力进行判定，形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表；每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号，所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性；

上述步骤S13具体包括：

构建一个四维数组，四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数；四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数；四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数；四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词语个数；所述词语是从所述待过滤邮件的中文文本中分离出的词语；

按照先行后列的方式将所述四维数组转换成一维数组，获得所述中文文本的特征向量。

在一个可选的实施方式中，在步骤S14之后，还包括：

参见图2，是本发明实施例二提供的垃圾邮件过滤方法的流程示意图。

在本实施例二中，待过滤邮件中包含中文文本和英文文本；其中，对中文文本的处理流程与上述步骤S11～S14相同，在此不予赘述。

如图2所示，对英文文本的处理流程包括以下步骤：

S21、从待过滤邮件中提取英文字符，组合成英文文本，且以标点符号和空格分隔每个分词，从所述英文文本中分离出词语；

S22、通过统计已知分类的邮件样本，获得所述英文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

S23、统计每个重要性位置区间编号上分布的词语的个数，并转换成一维数组，获得所述英文文本的特征向量；

S24、将所述英文文本的特征向量输入支持向量机模型，获得所述英文文本分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

在步骤S24之后，根据S14和S24的结果，判断待过滤邮件是否为垃圾邮件，具体如下：

S25、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行S26；

S26、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值；若是，则判定所述待过滤邮件为垃圾邮件；否则判定所述待过滤邮件不是垃圾邮件。

参见图3，是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。

在本实施例三中，待过滤邮件中包含中文文本、英文文本和html文档；其中，对中文文本的处理流程与上述步骤S11～S14相同，对英文文本的处理流程与上述步骤S21～S24相同，在此不予赘述。

如图3所示，对html文档的处理流程包括以下步骤：

S31、从待过滤邮件中提取html文档，从所述html文档中提取html标签分词；

S32、通过统计已知分类的邮件样本，获得所述html文档的每一个html标签分词在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

S33、统计每个重要性位置区间编号上分布的html标签分词的个数，并转换成一维数组，获得所述html文档的特征向量；

S34、将所述html文档的特征向量输入支持向量机模型，获得所述html文档分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。

其中，步骤S31具体包括：从待过滤邮件中提取html文档，从所述html文档中提取html标签；若所述html标签包含标签名称，则将所述标签名称提取出来，形成html标签分词；若所述html标签包含标签名称和至少一个标签属性，则将所述标签名称提取出来，和每个标签属性一一组合后，形成html标签分词。

在步骤S34之后，根据S14、S24和S34的结果，判断待过滤邮件是否为垃圾邮件，具体如下：

S35、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行S36；

S36、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值；若是，则判定所述待过滤邮件为垃圾邮件；若否，则执行S37；

S37、判断所述html文档为垃圾邮件的概率是否大于设定的第三阀值；若是，则判定所述待过滤邮件为垃圾邮件；否则判定所述待过滤邮件不是垃圾邮件。

本实施例从待过滤邮件中提取html文档，将所述html文档中的html标签提出来单独处理。由于当前大量的垃圾邮件使用html方式包装，并通过添加大量不可见或者不同大小的字体，来干扰文本分类的效果，本发明实施例将邮件中的html文档提取出来单独处理，能够提高分类器的准确性

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种垃圾邮件过滤方法，其特征在于，包括：

S12、通过统计已知分类的邮件样本，获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；其中具体包括：

从所述待过滤邮件的中文文本中分离出词语后，根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号，来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号；

2.如权利要求1所述的垃圾邮件过滤方法，其特征在于，在步骤S11中，采用排列组合方式从所述中文文本中分离出词语的方法，具体包括：

扫描所述中文文本中的每一个中文文字，以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来，组成文字组合，获得词语；其中，S为自然数。

3.如权利要求1所述的垃圾邮件过滤方法，其特征在于，步骤S13具体包括：

4.如权利要求3所述的垃圾邮件过滤方法，其特征在于，在步骤S14之后，还包括：

5.如权利要求1～3任一项所述的垃圾邮件过滤方法，其特征在于，所述垃圾邮件过滤方法还包括：

6.如权利要求5所述的垃圾邮件过滤方法，其特征在于，在步骤S24之后，还包括：

7.如权利要求5所述的垃圾邮件过滤方法，其特征在于，所述垃圾邮件过滤方法还包括：

8.如权利要求7所述的垃圾邮件过滤方法，其特征在于，步骤S31具体包括：

从待过滤邮件中提取html文档，从所述html文档中提取html标签；

若所述html标签包含标签名称，则将所述标签名称提取出来，形成html标签分词；

若所述html标签包含标签名称和至少一个标签属性，则将所述标签名称提取出来，和每个标签属性一一组合后，形成html标签分词。

9.如权利要求8所述的垃圾邮件过滤方法，其特征在于，在步骤S34之后，还包括：