CN105357102A

CN105357102A - 一种垃圾邮件过滤方法及系统

Info

Publication number: CN105357102A
Application number: CN201510652044.7A
Authority: CN
Inventors: 孙佳
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-10-10
Filing date: 2015-10-10
Publication date: 2016-02-24

Abstract

本发明公开了垃圾邮件过滤方法及系统，该方法包括：接收电子邮件并提取电子邮件的基因序列；对比电子邮件的基因序列与预设的邮件DNA库中的基因序列，确定电子邮件的基因序列与每个邮件DNA库中的基因序列的相似度；将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为电子邮件的邮件属性。当该邮件属性为垃圾邮件时确定接收到的电子邮件为垃圾邮件。综上，上述基于邮件DNA库的垃圾邮件过滤方法弥补了IP过滤技术、用户黑白名单技术、基于规则的关键字过滤、规则评分等方法的不足，大大降低了因垃圾邮件的多源性、不确定性、多变性带来的垃圾邮件过滤系统的设计复杂度，有效提高了垃圾邮件过滤的准确性。

Description

一种垃圾邮件过滤方法及系统

技术领域

本发明涉及垃圾邮件处理技术领域，特别是涉及一种垃圾邮件过滤方法及系统。

背景技术

当今，随着计算机技术以及互联网的飞速发展，电子邮件(E-mail)早已成为人们日常工作、生活中不可或缺的沟通方式。

实际上，电子邮件在给人们带来极大便利的同时也带来了一些负面影响，即我们每天收到的邮件有很大一部分是不请自来的，其中，有些是商业广告，有些是政治宣传，有些是色情广告，还有一些甚至是病毒，我们俗称这些邮件为垃圾邮件。垃圾邮件的发布者为了大面积散布信息，通常采用多台机器同时巨量发送的方式攻击邮件服务器，导致被攻击邮件服务器大量带宽的损失，并影响人们正常的工作与生活。因此，寻找一种切实可行的垃圾邮件过滤方法显得尤为重要。

现有的垃圾邮件过滤方法主要有IP过滤技术、用户黑白名单技术、基于规则的关键字过滤、规则评分等，然而，这些技术都存在共同的缺点：由于垃圾邮件的多源性、不确定性、多变性，使得垃圾邮件过滤方法的设计复杂度高，并且垃圾邮件过滤的准确率低，已无法满足当前形势下垃圾邮件过滤的需求。

发明内容

有鉴于此，本发明提供了一种垃圾邮件过滤方法及系统，以降低垃圾邮件过滤方法的设计复杂度，提高垃圾邮件过滤的准确性。

为解决上述技术问题，本发明提供一种垃圾邮件过滤方法，包括：

接收电子邮件，并提取所述电子邮件的基因序列；

对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序列，确定所述电子邮件的基因序列与每个所述邮件DNA库中的基因序列的相似度；

将所述相似度超过预设阈值的所述邮件DNA库中的基因序列对应的邮件属性作为所述电子邮件的邮件属性；

其中，所述邮件属性包括垃圾邮件或者非垃圾邮件。

上述方法中，优选的，所述提取所述电子邮件的基因序列包括：

对所述电子邮件进行分词，得到分词结果；

利用贝叶斯统计模型，计算所述分词结果中词语序列对应的先验概率；

利用所述词语序列和所述词语序列对应的先验概率，构成所述电子邮件的基因序列。

上述方法中，优选的，在所述对所述电子邮件进行分词，得到分词结果之前，还包括：

将编码格式的所述电子邮件转换为可处理文本格式的电子邮件。

上述方法中，优选的，在所述对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序列之前，还包括：

获取作为训练样本的电子邮件，并提取所述训练样本的基因序列；

确定所述训练样本的基因序列对应的邮件属性；

利用所述训练样本的基因序列、所述训练样本的基因序列对应的邮件属性及两者之间的对应关系，构建得到所述邮件DNA库。

上述方法中，优选的，在所述将所述相似度超过预设阈值的所述邮件DNA库中的基因序列对应的邮件属性作为所述电子邮件的邮件属性之后，还包括：

将所述电子邮件的基因序列和所述电子邮件的基因序列对应的邮件属性更新至所述邮件NDA库。

本发明还提供了一种垃圾邮件过滤系统，包括：

提取单元，用于接收电子邮件，并提取所述电子邮件的基因序列；

比对单元，用于对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序列，确定所述电子邮件的基因序列与每个所述邮件DNA库中的基因序列的相似度；

属性确定单元，用于将所述相似度超过预设阈值的所述邮件DNA库中的基因序列对应的邮件属性作为所述电子邮件的邮件属性；

其中，所述邮件属性包括垃圾邮件或者非垃圾邮件。

上述系统中，优选的，所述提取单元包括：

分词子单元，用于对所述电子邮件进行分词，得到分词结果；

先验概率计算子单元，用于利用贝叶斯统计模型，计算所述分词结果中词语序列对应的先验概率；

基因序列构建子单元，用于利用所述词语序列和所述词语序列对应的先验概率，构成所述电子邮件的基因序列。

上述系统中，优选的，还包括：

预处理模块，用于在所述对所述电子邮件进行分词，得到分词结果之前，将编码格式的所述电子邮件转换为可处理文本格式的电子邮件。

上述系统中，优选的，还包括：

邮件DNA库生成模块，用于在所述对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序列之前，获取作为训练样本的电子邮件，并提取所述训练样本的基因序列；确定所述训练样本的基因序列对应的邮件属性；利用所述训练样本的基因序列、所述训练样本的基因序列对应的邮件属性及两者之间的对应关系，构建得到所述邮件DNA库。

上述系统中，优选的，还包括：

邮件NDA库更新模块，用于在所述将所述相似度超过预设阈值的所述邮件DNA库中的基因序列对应的邮件属性作为所述电子邮件的邮件属性之后，将所述电子邮件的基因序列和所述电子邮件的基因序列对应的邮件属性更新至所述邮件NDA库。

以上本发明提供的一种垃圾邮件过滤方法及系统中，基于邮件DNA库，首先，接收电子邮件并提取该电子邮件的基因序列；然后，对比电子邮件的基因序列与预先构建的邮件DNA库中的基因序列，确定该电子邮件的基因序列与每个邮件DNA库中的基因序列的相似度；最后，将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为上述电子邮件的邮件属性，当该邮件属性为垃圾邮件时确定接收到的电子邮件为垃圾邮件。综上，上述基于邮件DNA库的垃圾邮件过滤方法弥补了IP过滤技术、用户黑白名单技术、基于规则的关键字过滤、规则评分等方法的不足，大大降低了因垃圾邮件的多源性、不确定性、多变性带来的垃圾邮件过滤系统的设计复杂度，有效提高了垃圾邮件过滤的准确性，均具有较高的技术价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种垃圾邮件过滤方法的流程图；

图2为本发明实施例提供的电子邮件预处理的具体过程流程图；

图3为本发明实施例提供的提取电子邮件的基因序列的具体过程流程图；

图4为本发明实施例提供的邮件DNA库的具体生成过程流程图；

图5为本发明实施例提供的一种垃圾邮件过滤系统的结构框图示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的核心是提供垃圾邮件过滤方法及系统，以降低垃圾邮件过滤方法的设计复杂度，提高垃圾邮件过滤的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

参考图1，图1示出了本发明实施例提供的一种垃圾邮件过滤方法的流程图，该方法具体可以包括如下步骤：

步骤S100、接收电子邮件，并提取电子邮件的基因序列。

本发明实施例方法的执行主体为垃圾邮件过滤系统，具体地，可由垃圾邮件过滤系统中的垃圾邮件过滤模块来完成步骤S100至步骤S102的具体内容。

在实际应用中，接收到的电子邮件(也称新邮件)的格式通常都是编码格式的，因此，在提取电子邮件的基因序列之前，需要基于电子邮件的传输协议和编码，将编码格式的电子邮件转换为可处理文本格式的电子邮件。具体实施时，可以由垃圾邮件过滤系统中的预处理模块实现上述转换过程。参考图2，示出了电子邮件预处理的具体过程，在电子邮件接收端，邮件依次经过邮件用户代理模块MUA(MailUserAgent)、邮件传输代理模块MTA(MailTransferAgent)和邮件投递代理模块MDA(MailDeliveryAgent)最终到达收件人邮箱。接着，预处理模块提取电子邮件的完整内容，然后将提取的内容根据标签格式化为可处理文本以供后续处理。

参考图3，提取电子邮件的基因序列的具体过程如下：

步骤S300、对电子邮件进行分词，得到分词结果。

在实际应用中，首先需要基于电子邮件的传输协议和编码，将编码格式的电子邮件转换为可处理文本格式的电子邮件。具体实施时，可以由垃圾邮件过滤系统中的预处理模块实现上述转换过程。

在接收到新邮件后，对可处理文本格式的电子邮件的内容进行分词，得到分词结果。

步骤S301、利用贝叶斯统计模型，计算分词结果中词语序列对应的先验概率。

具体地，将新邮件的基因序列与邮件DNA库中的基因序列进行比对，利用贝叶斯统计模型设定阈值并判定新邮件的属性。

步骤S302、利用词语序列和词语序列对应的先验概率，构成电子邮件的基因序列。

以上为提取电子邮件的基因序列的具体过程。

步骤S101、对比电子邮件的基因序列与预设的邮件DNA库中的基因序列，确定电子邮件的基因序列与每个邮件DNA库中的基因序列的相似度。

其中，由垃圾邮件过滤系统中的邮件DNA库生成模块完成预先构建上述预设的邮件DNA库的具体过程：首先，获取作为训练样本的电子邮件，并提取训练样本的基因序列；然后，确定训练样本的基因序列对应的邮件属性；最后，利用训练样本的基因序列、训练样本的基因序列对应的邮件属性及两者之间的对应关系，构建得到邮件DNA库。

参考图4，示出了邮件DNA库的具体生成过程，在邮件DNA库初始化阶段，需要导入训练样本，按类别读取训练样本，然后将训练样本进行分词，得到训练样本的分词结果，再将分词结果中的停留词去除并存储此时的结果。将去除停留词之后的分词结果依据贝叶斯统计模型统计相应的先验概率，具体地，用二值变量以来表示特征词w_t在文本d_x中的出现情况，B_xt＝1表示出现；B_xt＝0表示不出现，则有：

P (d_{x} | c_{j}) = Π_{t = 1}^{n} (B_{x t} P (w_{t} | c_{j}) + (1 - B_{x t}) (1 - P (w_{t} | c_{j})))

其中，P(w_t|c_j)表示文本属于类c，通过贝叶斯统计模型，计算所有分词结果的先验概率，由词语和先验概率组成一个基因序列，所有的基因序列按字典序升序排列并分类别存储，即生成邮件DNA库。

步骤S102、将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为电子邮件的邮件属性。

其中，邮件属性包括垃圾邮件或者非垃圾邮件，当电子邮件的邮件属性为垃圾邮件时，确定接收到的电子邮件为垃圾邮件。实际应用中，通过与邮件DNA库内基因序列比对，找到与新邮件的基因序列最相近的那个基因序列，该基因序列的类别即判定为新邮件属性类别，是否为垃圾邮件即可知道。

本发明中，为了进一步保证邮件DNA库的与时俱进和垃圾邮件过滤的准确性，在步骤S102将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为电子邮件的邮件属性之后，可以将电子邮件的基因序列和电子邮件的基因序列对应的邮件属性更新至邮件NDA库。更具体地，可由垃圾邮件过滤系统中的邮件DNA库更新模块来实现上述更新过程。邮件DNA库更新模块主要是指对由基因序列组成的基因库进行更新维护，将新收到的电子邮件在垃圾邮件过滤模块产生的属性结果和基因序列不断更新到邮件DNA库中。

可以看出，以上本发明实施例提供的垃圾邮件过滤方法主要考虑电子邮件的传输过程及垃圾邮件的特点，对垃圾邮件进行过滤，有效弥补了IP过滤技术、用户黑白名单技术、基于规则的关键字过滤、规则评分等方法的不足，大大降低了因垃圾邮件的多源性、不确定性、多变性带来的垃圾邮件过滤系统的设计复杂度，有效提高了垃圾邮件过滤的准确性，均具有较高的技术价值。

基于上述本发明实施例提供的垃圾邮件过滤方法，本发明实施例还提供了一种垃圾邮件过滤系统，参考图5，该系统500可以包括如下内容：

提取单元501，用于接收电子邮件，并提取电子邮件的基因序列；

比对单元502，用于对比电子邮件的基因序列与预设的邮件DNA库中的基因序列，确定电子邮件的基因序列与每个邮件DNA库中的基因序列的相似度；

属性确定单元503，用于将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为电子邮件的邮件属性；

其中，邮件属性包括垃圾邮件或者非垃圾邮件。

本发明中，上述提取单元501可以包括：

分词子单元，用于对电子邮件进行分词，得到分词结果；

先验概率计算子单元，用于利用贝叶斯统计模型，计算分词结果中词语序列对应的先验概率；

基因序列构建子单元，用于利用词语序列和词语序列对应的先验概率，构成电子邮件的基因序列。

本发明中，上述垃圾邮件过滤系统500还可以包括预处理模块，用于在对电子邮件进行分词，得到分词结果之前，将编码格式的电子邮件转换为可处理文本格式的电子邮件。

本发明中，上述垃圾邮件过滤系统500还可以包括邮件DNA库生成模块，用于在对比电子邮件的基因序列与预设的邮件DNA库中的基因序列之前，获取作为训练样本的电子邮件，并提取训练样本的基因序列；确定训练样本的基因序列对应的邮件属性；利用训练样本的基因序列、训练样本的基因序列对应的邮件属性及两者之间的对应关系，构建得到邮件DNA库。

本发明中，上述垃圾邮件过滤系统500还可以包括邮件NDA库更新模块，用于在将相似度超过预设阈值的邮件DNA库中的基因序列对应的邮件属性作为电子邮件的邮件属性之后，将电子邮件的基因序列和电子邮件的基因序列对应的邮件属性更新至邮件NDA库。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种垃圾邮件过滤方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种垃圾邮件过滤方法，其特征在于，包括：

接收电子邮件，并提取所述电子邮件的基因序列；

其中，所述邮件属性包括垃圾邮件或者非垃圾邮件。

2.如权利要求1所述的垃圾邮件过滤方法，其特征在于，所述提取所述电子邮件的基因序列包括：

对所述电子邮件进行分词，得到分词结果；

3.如权利要求2所述的垃圾邮件过滤方法，其特征在于，在所述对所述电子邮件进行分词，得到分词结果之前，还包括：

4.如权利要求1至3任意一项所述的垃圾邮件过滤方法，其特征在于，在所述对比所述电子邮件的基因序列与预设的邮件DNA库中的基因序列之前，还包括：

确定所述训练样本的基因序列对应的邮件属性；

5.如权利要求1所述的垃圾邮件过滤方法，其特征在于，在所述将所述相似度超过预设阈值的所述邮件DNA库中的基因序列对应的邮件属性作为所述电子邮件的邮件属性之后，还包括：

6.一种垃圾邮件过滤系统，其特征在于，包括：

其中，所述邮件属性包括垃圾邮件或者非垃圾邮件。

7.如权利要求6所述的垃圾邮件过滤系统，其特征在于，所述提取单元包括：

8.如权利要求7所述的垃圾邮件过滤系统，其特征在于，还包括：

9.如权利要求6至6任意一项所述的垃圾邮件过滤系统，其特征在于，还包括：

10.如权利要求6所述的垃圾邮件过滤系统，其特征在于，还包括：