CN102664817A

CN102664817A - 一种垃圾邮件过滤的方法及系统

Info

Publication number: CN102664817A
Application number: CN2012100375751A
Authority: CN
Inventors: 赵孟德
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2012-09-12

Abstract

本发明提供了一种垃圾邮件过滤的方法及系统，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤，进而降低邮件过滤的开销，提高入侵检测系统的效率。

Description

一种垃圾邮件过滤的方法及系统

技术领域

本发明涉及网络安全技术领域，特别涉及一种垃圾邮件过滤的方法及系统。

背景技术

垃圾邮件是用专门的邮件地址搜索软件和邮件群发软件来完成电子邮件地址收集和垃圾邮件散发的，一个邮件地址搜索软件每次可以搜索到几万至十几万个有用邮件地址，一个邮件群发软件每天可以发送百万封同样或不同内容的垃圾邮件。对于这种自动化的垃圾邮件制造方代，人工手段进行删除显得无能为力，必须借助一种的技术手段进行反垃圾邮件工作。

(1)黑白名单

黑白名单是垃圾邮件过滤最传统的方式，它通过基于IP地址、域名以及邮件地址等信息的黑名单技术对垃圾邮件进行屏蔽，通过白名单技术对允许的邮件进行放行。这种技术的优势在于不占用系统资源，易部署；缺点是需要用户手动维护，而且垃圾邮件发送者可以通过更改相关信息来逃避过滤。

RBL(实时黑名单)技术是从黑名单技术发展而来的，它可以通过RBL运营服务商提供的公共RBL数据进行更新，弥补了单纯黑名单需要手工维护的缺陷。遗憾的是，目前很多黑名单数据库具有很强的区域歧视性，例如，北美的RBL包含了我国大量的主机名字和IP地址，其中有些是早期的Open Relay造成的，有些则是由于误报造成的。但这些迟迟得不到纠正，在一定程度上阻碍了我国与北美地区的邮件联系，也妨碍了我国的用户使用这些黑名单服务。

(2)SMTP连接频度控制

垃圾邮件发送者经常会在一段时间内发送大量的垃圾邮件，阻塞邮件服务器。SMTP连接频度控制可以保证邮件服务器不响应异常的连接请求，保证正常邮件的顺利通行。

(3)逆向域名验证

无论哪一种认证，其目的都是避免MTA被垃圾邮件发送者所利用，但是对于发送到本地的垃圾邮件可能仍然无可奈何。要解决这个问题，最简单有效的方法是对发送者的IP地址进行逆向域名验证。

通过DNS查询来判断发送者的IP与其声称的名字是否一致，例如其声称的名字为mx.yahoo.com，而其连接地址为10.10.10.10，与其DNS记录不符，则予以拒收。这种方法可以有效过滤掉来自动态IP的垃圾邮件，对于某些使用动态域名的发送者，也可以根据实际情况进行屏蔽。

(4)内容过滤

即使使用了前面诸多环节中的技术，仍然会有相当一部分垃圾邮件漏网。对此情况，目前常用的方法是基于邮件标题或正文的内容过滤。关键词过滤法是通过邮件内容扫描引擎，对邮件的常用标题语，垃圾邮件受益者的姓名、电话号码等信息进行过滤。由于不同时期垃圾邮件的关键词会发生变化，因此需要定期更新关键词过滤集。

基于贝叶斯概率理论的统计方法更加复杂，但又同时更具智能性。这种方法的理论基础是通过对大量垃圾邮件中常见关键词进行分析后得出其分布的统计模型，并由此推算目标邮件是垃圾邮件的可能性。这种方法具有一定的自适应、自学习能力，目前已经得到了广泛的应用。

还有一种基于规则评分的过滤技术，目前比较有代表性的是SpamAssassin，它是一种人工智能技术应用系统，它对邮件中发现的每一个关键词进行打分，分数越高，垃圾邮件的可能性就越高，当所有关键词得分超过一定数值时，该邮件将被判定为垃圾邮件。

需要指出的是，内容过滤是以上所有各种方法中耗费系统资源最多的。因此，在邮件流量较大的场合，最好配合高性能服务器使用。

(5)病毒扫描

很多垃圾邮件往往是由病毒程序产生的，而且病毒会随邮件在网络上传播。因此病毒扫描也是减少垃圾邮件的一个重要手段。本次参测的所有产品均具备杀毒引擎。

(6)行为分析技术

行为分析技术是最近兴起的一种邮件过滤技术，它的优势在于可以对垃圾邮件进行空中拦截，减少了因接收邮件并进行内容分析所占用的系统资源和网络带宽。虽然目前行为过滤技术还不完全成熟，而且对网络环境要求较高，但是行为分析技术凭借其良好的应用前景还是引起了各大安全厂商的关注。本次参加测试的产品或多或少均具备一定的行为分析能力，特别是梭子鱼垃圾邮件防火墙有2000多条行为分析规则来识别垃圾邮件。

针对现有技术中的不足，即系统的灵活性和准确性不够，不能有效识别新型垃圾邮件，自适应能力不足，故提出一种能有效降低邮件过滤的开销，提高入侵检测系统的效率的一种垃圾邮件过滤的方法及系统，是网络安全技术领域目前急待解决的问题之一。

发明内容

有鉴于此，本发明实施例提出了一种垃圾邮件过滤的方法及系统，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤，进而降低邮件过滤的开销，提高入侵检测系统的效率。

为解决上述技术问题，本发明实施例的目的是通过以下技术方案实现的：

一种垃圾邮件过滤的方法，包括：

步骤一、在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义；

步骤二、采用数字化表示形式将表现型映射成基因型之编码处理；

步骤三、通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤。

优选的，上述步骤一中，模式集是对8个属性的描述。

优选的，上述8个属性包括但不限于服务类型，源地址，源端口，目的地址，时延，源端发送字节数，目的端发送字节数以及状态。

优选的，进一步包括检测是指检测模式和被检测模式间的匹配。

优选的，上述步骤二中，表现性模式是指可读的、由联接记录直接得到的规则。

优选的，上述步骤二中，基因型模式是指抗体演化、否定选择和克隆选择时使用的一种内部表现形式。

优选的，进一步包括将占用字节数较多的时延和源和目的端发送字节三个属性转化为模糊集形式，只分别用俩位二进制即可表示出来，缩短二进制表示抗体的长度，把二进制基因位转化为对应模糊集。

优选的，上述步骤三中，进一步包括算法中包括亲和力计算、抗原样本训练、克隆变异和否定选择。

一种垃圾邮件过滤系统，包括定义单元、编码单元及算法单元，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤。

优选的，上述定义单元用于在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义。

优选的，上述编码单元用于采用数字化表示形式将表现型映射成基因型之编码处理。

优选的，上述算法单元用于通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤。

综上所述，本发明提供了一种垃圾邮件过滤的方法及系统，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤，进而降低邮件过滤的开销，提高入侵检测系统的效率。

附图说明

图1为本发明实施例提供的一种垃圾邮件过滤方法流程图；

图2为本发明实施例提供的一种垃圾邮件过滤系统示意图。

具体实施方式

本发明实施例提供的一种垃圾邮件过滤的方法及系统，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤，进而降低邮件过滤的开销，提高入侵检测系统的效率。

本技术方案的主要思路为：利用人工免疫原理进行邮件过滤检测已成为一个研究方向，运用计算机免疫的目的和生物机体免疫一样，为的是使系统能够快速、准确地检测出未授权的邮件的侵入以及其它非法使用，并对之作出相应反应。基于免疫原理的过滤检测主要开销在抗体生成阶段，尤其是当初始模式集规模很大的时候.虽然运用克隆选择的约束可以大大减少空间和时间的需求，但寻找更加高效的抗体生成算法仍是应用人工免疫原理必须解决的问题，它决定了整个系统的实用性。通过提出一种新的抗体生成算法以降低邮件过滤的开销，提高入侵检测系统的效率。

为使本发明的目的、技术方案及优点更加清楚明白，下面参照附图并举实施例，对本发明进一步详细说明。

本发明实施例提供一种垃圾邮件过滤的方法，如图1所示，具体步骤包括：

具体而言，在本发明实施例中，是把垃圾邮件检测中存在的问题，用免疫系统的免疫思想来解决。在生物体中，抗体对抗原物质的识别是依靠抗体表面的受体与特定抗原的抗原决定基问化学健的“结合”，安全系统中的检测是指检测模式和被检测模式间的匹配。

进一步的，在本方案中，对人工免疫原理的应用是功能上的模拟而非所有部件的实现。在生物体中，抗体对抗原物质的识别是依靠抗体表面的受体与特定抗原的抗原决定基问化学健的“结合”，过滤系统中的检测是指检测模式和被检测模式间的匹配。本方案在原来建立的过滤系统模型时基础上引入人工免疫的概念，构建了一个更加精确合理的模型。模型综合考虑精确性和效率。

克隆选择和否定选择是抗体生成和演化过程中两个重要过程。

克隆选择学说中，机体免疫系统被认为事先就存在能识别各种抗原的细胞克隆，每个克隆细胞表面都有针对不同特定抗原的受体，不同抗原选择与之相适应的受体结合，从而刺激该细胞克隆的增殖分化，产生免疫应答而生成多样性的各种抗体。该学说说明了抗体形成的机制，解释了免疫系统对抗原的识别、免疫记忆等形成的原因。说明抗体的生成演化向着接近已有抗原的方向进行。利用这一原理可以约简垃圾邮件检测中入侵行为规则集，使检测器的构造不是盲目的进行。

否定选择学说认为机体内先产生大量随机抗体，其中对“自己”抗原物质产生破坏的将被清除(否则将导致自身免疫功能疾病)，剩余的抗体可以检测一切外来抗原物质。

在本方案中可分阶段使用两个过程：根据保留数据挖掘出异常模式，并根据经验知识补充之，以这些模式作为父代抗原，经编码后利用遗传算子对它们进行变异和增殖，生成一个大的候选抗体库，对其中每一个个体要进行适应度测定，计算与现有抗原的相似度，这样做是因为假设所有新生成的个体都是以现有异常模式为基础的，而非一种不可能存在的模式，这样做有利于保障检测效率，节约存储空间；然后再进行否定选择，删除其中的自体模式。最后生成一个较完备的异己模式库。

本方案利用数据挖掘方法挖掘出训练数据中的使用模式，建立起“自体模式集”和“异己模式集”。这些模式是对8个属性的描述，即，服务类型(service)，源地址(src_host)，源端口(src_port)，目的地址(dst_host)，时延(dur)，源端发送字节数(src_bytes)，目的端发送字节数(dst_bytes)，状态(flag)。为了便于描述和理解，

下面给出一些与频繁序列模式相关的定义。

定义1：一阶模式(一阶染色体)：包含一个项目集的频繁模式。

模式中的项目(属性)来自于一个网络联接，如(service＝http，flag＝SO)或(service＝icmp_echo，flag＝SF，src_host＝host2，dst_host＝hostl)。我们约定，一阶模式中的属性按其重要程度排列，即service，flag，src_host，src_port，dst_host，dur，src_bytes，dst_bytes等属性在决定一个联接时，重要性依次降低。

定义2：完整一阶模式：模式中包含了所有属性值描述，即包含了完整的项目集。通过将缺失属性值补为零可以将非完整模式转变为完整模式。

定义3：多阶模式(多阶染色体)：包含了多个项目集的频繁序列模式。

模式中的项目集来自于多个联接，这些项目集描述了一种频繁的操作序列，如(service＝http，flag＝SO)→(service＝http，flag＝SO)→(service＝http，flag＝SO)。

定义4：基因是模式中的各个属性。

定义5：基因链是将系统中每个属性的取值组织成为一个链表，标记该属性的取值情况，链表入口项表示为Glist(number，attribute value)。

也就是说，系统中存在有8条基因链，分别对应了8种属性的所有取值。这8条基因链组成了一个基因库。随着系统的运行有新的属性值产生的话，需要更新基因库。

此外，在本方案中，有意义的多阶模式主要集中在三阶，有部分的二阶和四阶模式。一阶频繁模式由于不具有统计意义而被忽略。编码过程中我们将超过四阶的模式截取为四阶处理，即，如有模式X1→X2→X3→X4→X5…，则转化为x1→X2→X3→X4。可以证明这种截取不影响系统的检测结果。

具体而言，在本发明实施例中，使用的模式包含“表现型”和“基因型”，前者指可读的、由联接记录直接得到的规则，后者指“抗体演化、否定选择和克隆选择”时使用的一种内部表现形式.由于运算必须对群体中具有某种结构形式的个体施加结构重组、挑选和量化计算来完成，因此需要一种直接的数字化表示形式.将表现型映射成基因型的过程称为编码。

进一步的，在本方案中，为了便于模式间比较，本方案中将数值型属性离散化为区间值。属性dur(时延)分别按照其长短离散化为短、一般、长、很长；同理，将源和目的端发送字节分为少、一般、多和很多.于是可以将网络入侵中占用字节数较多的dur(时延)和源和目的端发送字节三个属性可以转化为模糊集形式，只分别用俩位二进制即可表示出来，大大缩短了二进制表示抗体的长度。把二进制基因位转化为对应模糊集，如下表所示：

参数基因	模糊集
		00	LOW
01	NORMAL
		10	HIGH
11	HIGHER

具体而言，在本发明实施例中，设计抗体生成算法，算法中包括亲和力计算、抗原样本训练、克隆变异和否定选择。

进一步的，在本方案中，把每个垃圾邮件的检测和被检测模式表示为一个八维向量，分为服务类型(service)，源地址(src_host)，源端口(src_port)，目的地址(dst_host)，时延(dur)，源端发送字节数(src_bytes)，目的端发送字节数(dst_bytes)，状态(flag)八部分

Vector＝<service，flag，src_host，src_port，dst_host，dur，src_bytes，dst_bytes>

为方便下述的算法设计，这里先给出免疫系统的一些初始设定：

BC-初始为空的B细胞集，//bc为B细胞集中的B细胞，代表“非己”信息，即垃圾邮件信息，主要由服务类型(service)，源地址(src_host)，源端口(src_port)，目的地址(dst_host)，时延(dur)，源端发送字节数(src_bytes)，目的端发送字节数(dst_bytes)，状态(flag)组成；B细胞分泌抗体；

MC-初始为空的记忆B细胞集//mc为记忆B细胞集中的记忆细胞，代表被用户确认的“非己”信息，主要由服务类型(service)，源地址(src_host)，源端口(src_port)，目的地址(dst_host)组成；

R-抗体二进制表示；

Kt-初始记忆细胞数目；

Ka-亲和力阀值；

ε-匹配阈值；

Kl-克隆常量；

Km-变异常量；

Ag-抗原；代表用户所面对的“自体”和“非自体”信息；

本方案的算法如下：

否定选择算法：

否定免疫算法是对免疫细胞的成熟过程的模拟，经历耐受的检测器模拟成熟的免疫细胞。

克隆选择算法：

垃圾邮件入侵攻击是会发生变化的，有时用户对是否是垃圾邮件入侵攻击模糊不清，或很难选择准确的关键词，以致提交的信息不一定准确，本发明提供了克隆选择的算法来结合多个用户的信息反馈，进行交叉变异可以生成新的抗体。

针对用户的反馈，要对规则进行提升，规则的提升算法：

系统内的规则克隆变异和系统外的用户反馈共同决定规则的变化。

其中，亲和力的计算按下式进行：

Affinity(i，j)＝code(i)-code(j)式中code表示待测模式的二进制编码。

在本方案中，克隆选择和否定选择是抗体生成和演化过程中两个重要过程，也是现代免疫学中比较完善的两个理论学说。本发明将克隆选择与否定选择相结合，大大缩小了系统的时空开销。将二进制位转化为对应的模糊集大大缩短了抗体的长度，将克隆选择和否定选择相结合，使抗体进行否定选择时时空开销降低，提高了入侵检测的效率。

将垃圾邮件入侵检测的过程视做抗体培养和抗原检测的过程，提出了一种有效的模式编码方法。由分析可知，应用人工免疫原理的开销主要集中在抗体生成阶段，尤其是当初始模式集规模很大的时候。运用克隆选择和否定选择的约束可以大大减少空间和时间的需求。此外，一旦抗体成熟后，它的检测效率和系统鲁棒性是很高的。

另外，本发明实施例还提供一种垃圾邮件过滤系统。如图2所示，为本发明实施例提供的一种垃圾邮件过滤系统示意图。

一种垃圾邮件过滤系统，包括定义单元11、编码单元22及算法单元33。

定义单元11，用于在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义；

下面给出一些与频繁序列模式相关的定义。

定义4：基因是模式中的各个属性。

编码单元22，用于采用数字化表示形式将表现型映射成基因型之编码处理；

算法单元33，用于通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤。

MC-初始为空的记忆B细胞集//mc为记忆B细胞集中的记忆细胞，代表被用户确认的“非己”信息，主要由服务类型(service)，源地址(src_host)，源端口(src port)，目的地址(dst_host)组成；

R-抗体二进制表示；

Kt-初始记忆细胞数目；

Ka-亲和力阀值；

ε-匹配阈值；

Kl-克隆常量；

Km-变异常量；

Ag-抗原；代表用户所面对的“自体”和“非自体”信息；

本方案的算法如下：

否定选择算法：

克隆选择算法：

针对用户的反馈，要对规则进行提升，规则的提升算法：

其中，亲和力的计算按下式进行：

本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

综上所述，本文提供了一种垃圾邮件过滤的方法及系统，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤，进而降低邮件过滤的开销，提高入侵检测系统的效率。

以上对本发明所提供的一种垃圾邮件过滤的方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方案；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种垃圾邮件过滤的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤一中，模式集是对8个属性的描述。

3.根据权利要求2所述的方法，其特征在于，所述8个属性包括但不限于服务类型，源地址，源端口，目的地址，时延，源端发送字节数，目的端发送字节数以及状态。

4.根据权利要求1所述的方法，其特征在于，进一步包括检测是指检测模式和被检测模式间的匹配。

5.根据权利要求1所述的方法，其特征在于，所述步骤二中，表现性模式是指可读的、由联接记录直接得到的规则。

6.根据权利要求1所述的方法，其特征在于，所述步骤二中，基因型模式是指抗体演化、否定选择和克隆选择时使用的一种内部表现形式。

7.根据权利要求1或3所述的方法，其特征在于，进一步包括将占用字节数较多的时延和源和目的端发送字节三个属性转化为模糊集形式，只分别用俩位二进制即可表示出来，缩短二进制表示抗体的长度，把二进制基因位转化为对应模糊集。

8.根据权利要求1所述的方法，其特征在于，所述步骤三中，进一步包括算法中包括亲和力计算、抗原样本训练、克隆变异和否定选择。

9.一种垃圾邮件过滤系统，其特征在于，所述系统包括定义单元、编码单元及算法单元，通过在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义，接着采用数字化表示形式将表现型映射成基因型之编码处理，然后通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤。

10.根据权利要求9所述的系统，其特征在于，所述定义单元用于在垃圾邮件检测中利用数据挖掘方法挖掘出训练数据中的使用模式，建立自体模式集和异己模式集，并对模式集中的属性进行定义。

11.根据权利要求9所述的系统，其特征在于，所述编码单元用于采用数字化表示形式将表现型映射成基因型之编码处理。

12.根据权利要求9所述的系统，其特征在于，所述算法单元用于通过结合否定选择算法和克隆选择算法，产生新的抗体，进而对垃圾邮件进行检测和过滤。