CN104731772B

CN104731772B - 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法

Info

Publication number: CN104731772B
Application number: CN201510179688.9A
Authority: CN
Inventors: 王青松; 魏如玉; 温翠娟; 张黎
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2015-04-14
Filing date: 2015-04-14
Publication date: 2017-05-24
Anticipated expiration: 2035-04-14
Also published as: CN104731772A

Abstract

基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，步骤如下：1)对训练邮件集进行预处理分为邮件头部和正文部分；2)分别在两个特征集T₁，T₂中删除介词、代词、副词、助词，连接词以及词频低于给定的阈值p的词语；3)分别在特征项集合T₁’，T₂’中运用改进的特征评估函数计算出互信息值MI(t_k)’；4)在训练集内，对MI(t_k)’其按从大到小的顺序进行排序，选择前n个值对应的特征项用于训练集的表示；5)分类阶段运用贝叶斯分类器对待测试的样本进行垃圾邮件过滤。本发明能够高效准确的对邮件进行分类，并且过滤掉垃圾邮件。

Description

基于改进特征评估函数的贝叶斯垃圾邮件过滤方法

技术领域

本发明涉及一种基于改进特征评估函数的贝叶斯垃圾邮件过滤方法。

背景技术

贝叶斯垃圾邮件过滤中最常见的特征选择方法是“互信息”方法，这一方法在文本分类中能比较有效地表达词间的依赖程度，然而用在垃圾邮件过滤的特征选择阶段会凸显出如下问题使整个过滤方法在性能上有欠缺：1正负相关问题：特征项与文本类别之间的相关性分为正相关和负相关两种，两种情况都表示特征项对类别界定有作用，只是正相关对类别的表现能力较强，负相关表现能力较弱，但从公式表现出来的意义是正负相抵消，即是负相关在表现方面起相反作用了，与本意相违背；2忽略词频和趋向低频词问题：互信息特征选择方法是基于各个类别中的文本量大致相等来假设的。正常邮件的数量远大于垃圾邮件的数量，正常邮件的文本总量一定会远远超过垃圾邮件的文本总量。另外只考虑词条出现和不出现,而不考虑词条在文档中出现的次数，但通常我们都会认为出现次数越多(即词频大)的特征词与类别的相关程度更大,更能代表此类别，所以这对一封邮件中出现次数多的特征项是有影响的；3不同位置的特征项对类别界定贡献能力不同的问题：邮件标题和正文这两种不同位置上提取的特征项对分类的贡献能力会有很大的不同，在实际垃圾邮件过滤中，用户往往从其主要形象就可以判断出一封邮件是正常邮件还是垃圾邮件。然而针对以上问题，目前还没有关于这些不适应问题的改善方法。

发明内容

为了解决上述存在的技术问题，本发明提供了一种基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，通过在预处理阶段对文本再分类，将邮件分为邮件头部和正文部分，分词时删除介词、代词、副词、助词连接词和低于阈值的低频词，在特征项提取阶段对互信息特征选择方法进行补充和完善，在过滤阶段使用贝叶斯分类方法进行分类，进而高效准确的过滤垃圾邮件。

本发明的目的是通过下述技术方案实现的：一种基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，其步骤如下：

1、基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，其特征在于，步骤如下：

1)对训练邮件集进行预处理：将邮件分为邮件头部和正文部分两个子文本集S₁,S₂，在其中分别进行分词，组成两个特征项集合T₁，T₂；

2)分别在两个特征集T₁，T₂中使用停用词表删除介词、代词、副词、助词，连接词以及词频低于给定的阈值p的词语，处理后的特征项集合记为T₁’，T₂’；

3)分别在特征项集合T₁’，T₂’中运用改进的特征评估函数计算出互信息值MI(t_k)’：

3a)设特征向量集合T＝{t_k,k＝1,2,…,n}，在网络文件文本库中获得训练集类别集合C＝{c_j,i＝1,2,…,r}；

3b)利用公式(1)计算得出修正系数λ：

其中，表示特征项t_k在c_j里的词频数；

3c)利用公式(2)计算得出MI(t_k)：

其中，P(t_k|c_j)为类c_j内含有t_k的文本概率，P(t_k)为含有t_k的文本在训练集类别集合里出现的概率，P(c_j)为训练集类别集合里属于类别c_j的文本出现概率；

3d)利用公式(3)得出t_k基于训练集的互信息值MI(t_k)’：

其中，β_i(i＝2)代表邮件头部和正文部分两个子集位置的不同权重，β₁代表邮件头部的权重，β₂代表正文部分的权重，且应满足β₁>β₂,β1+β2＝1；

4)在训练集内，计算出特征项t_k相应的互信息值MI(t_k)，并对其按从大到小的顺序进行排序，选择前n个值对应的特征项用于训练集的表示,得出特征属性和训练样本；

5)运用贝叶斯分类器对测试样本进行垃圾邮件过滤，贝叶斯公式如下：

本发明的有益效果：

(1)、在特征选择阶段避免了由于正负相关相抵消造成的信息损失；

(2)、在特征项选择阶段重视词语出现的频率而不仅仅是文本的频率，避免了将稀有低频词作为互信息值大的特征项界定文本；

(3)、在特征项选择阶段，有效区分了不同位置的特征项对类别界定的贡献能力；

(4)、本发明方法是基于一种能够针对垃圾邮件过滤的互信息特征项选择法来进行的，能够高效准确的过滤垃圾邮件。

附图说明

图1：为运用改进的特征评估函数提取特征项的流程图。

图2：为贝叶斯垃圾邮件过滤方法流程图。

图3：本发明与现有技术在性能上的提升对比图。

具体实施方式

基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，其特征在于，步骤如下：

1)对训练邮件集进行预处理：将邮件分为邮件头部和正文部分两个子文本集S₁,S₂，在其中分别进行分词，组成两个特征项集合T₁，T₂；2)分别在两个特征集T₁，T₂中使用停用词表删除介词、代词、副词、助词，连接词以及词频低于给定的阈值p的词语，处理后的特征项集合记为T₁’，T₂’；

3b)利用公式(1)计算得出修正系数λ：

其中，表示特征项t_k在c_j里的词频数；

3c)利用公式(2)计算得出MI(t_k)：

3d)利用公式(3)得出t_k基于训练集的互信息值MI(t_k)’：

在实际使用时：

1、由原始公式：

可知，P(t_k|c_j)>P(t_k)时，MI为正值，反之为负值，也因此称为正相关和负相关。其区别只在于正相关对区别正常和垃圾邮件的能力大于负相关，负相关对于分类界定也是具有作用的,但(5)中体现出的意义是正负两者的相抵消，显然与本意相违背。因此在本次发明的方法中引入绝对值来避免这一问题：

2、忽略词频和趋向低频词问题：

互信息方法的提出是在假定训练样本类别分类均匀的条件下提出的，但在垃圾邮件过滤这一问题中，通常来讲，正常邮件的数量远大于垃圾邮件的数量，这一前提是不成立的。(6)式中P(t_k|c_j)、P(t_k)均表示含有t_k的文本在不同范围内出现的概率。t_k的词频信息这一重要指标并没有被考虑在内。另外从(6)式中可以看出，分子P(t_k|c_j)相同时，分母P(t_k)越大，互信息值反而越小，即更多的低频词和稀有词会被选中。因此本次发明中针对忽略词频和趋向低频词问题的解决方案是预处理时即删除词频低于阈值p的词并且在公式中引入修正系数λ,其中表示特征项t_k在类c_j里的词频数，

再将λ带入公式(2)中：

3、不同位置的特征项对类别界定贡献能力不同的问题：

(2)式中没有体现出出现在不同位置的特征项对类别界定影响能力的不同，但在实际垃圾邮件过滤中，用户往往从其主要形象就可以判断出一封邮件是正常邮件还是垃圾邮件。比如在邮件头出现的词一般比正文中出现的词更有代表力。电子邮件格式是由RFC8222所定义的，半结构化的文本主要包括邮件头和正文。其中邮件头含有From，Subject，Date等关键信息。因此这里将文本一开始就分为两个子集T₁，T₂并引入β_i(i＝2)代表位置的不同权重，应满足β₁>β₂,β₁+β₂＝1,

4、贝叶斯垃圾邮件过滤：

贝叶斯垃圾邮件过滤方法是目前使用广泛且易于实现的一种垃圾邮件过滤方法，它利用贝叶斯公式计算文本属于每个类别(即正常邮件和垃圾邮件)的概率，从而将其归为概率最大的那一类。贝叶斯公式如下：

其中W_i代表类别，这里W₁代表垃圾邮件，W₂代表正常邮件，X_j为待分类的文本；训练阶段，在训练集内，计算出特征项t_k相应的互信息值MI(t_k)，并对其按从大到小的顺序进行排序，选择前n个值对应的特征项用于训练集的表示。这一阶段得出的特征属性和训练样本的质量很大程度上决定贝叶斯分类器的质量。分类阶段主要的任务就是生成分类器并运用贝叶斯分类器对测试样本进行垃圾邮件过滤。分别利用贝叶斯公式计算垃圾邮件P(W₁|X_j)和正常邮件P(W₂|X_j)的概率，若有P(W₁|X_j)<P(W₂|X_j)，则判断为正常邮件，否则作为垃圾邮件被过滤。

5.算法的评价标准：

查全率SR(Spam Recall)：又称召回率，即正确过滤的邮件数占所有需要被过滤的邮件数的百分比，反映的是垃圾邮件过滤的有效性。数学公式定义如下：

查准率SP(Spam Precision)：即正确识别的垃圾邮件数占实际所有被识别为垃圾邮件数的百分比，反映的是垃圾邮件过滤的安全性。数学公式定义如下：

综合指标F1：查全率和查准率反映垃圾邮件过滤性能的两个不同侧重方面，这里引入一个新的评估指标F1综合考虑对性能的改善。数学公式定义如下：

6、实现步骤：

1)对训练邮件集进行预处理：本发明所用的语料选自中国教育和科研计算机网紧急响应组提供的电子邮件数据集CCERT 2005-Jul，这个数据集中包括一个正常邮件集和一个垃圾邮件集，我们从中选择了正常邮件500封、垃圾邮件200封，其中html标记和附件都已被除去。实验环境为Intel Core i3-2330M CPU,2.20GHz、内存为2GB、Windows7professional。使用JAVA语言在Eclipse平台上对算法进行测试。将邮件分为邮件头部和正文部分两个子文本集S1,S2，在其中分别进行分词，组成两个特征项集合T₁，T₂。训练邮件集文本向量化可以方便计算机对邮件进行学习和处理，将训练邮件集转化为向量表示，之后所有的运算以此为基础，基于向量集进行；

2)分别在两个特征集中使用停用词表删除助词，虚词等无意义或者贡献能力不大的词语以及词频低于阈值p的词语，本实验取p＝3，处理后的特征项集合记为T₁’，T₂’；

3)分别在特征项集T₁’，T₂’，中运用改进的特征评估函数计算出互信息值MI(t_k)，并将其记为MI(t_k)_i(i＝1,2)，改进的互信息公式如下：

其中

4)在步骤3)的基础上，在训练集内，计算出t_k相应的互信息值MI’(tk)。根据不同位置的特征项对类别界定贡献能力不同，利用引入参数β(β1>β2,β1+β2＝1)计算特征项tk在训练集内相应的互信息值MI’(tk)，根据相关文献的研究，本实验取β1＝0.65，β2＝0.35公式如下：

对MI’(tk)的值从大到小进行排序，选择前n个值对应的特征用于训练集的表示,在本实验中取n＝150。

5)分类阶段运用贝叶斯方法进行垃圾邮件过滤。运用本方法能够更加符合垃圾邮件过滤的需求，改善特征项选择阶段正负相消，忽略词频，趋向低频词以及区别不同位置的特征项对类别界定贡献能力问题，进而高效准确过滤垃圾邮件，贝叶斯分类公式如下：

Claims

1.基于改进特征评估函数的贝叶斯垃圾邮件过滤方法，其特征在于，步骤如下：

2)分别在两个特征集T₁，T₂中使用停用词表删除介词、代词、副词、助词、连接词以及词频低于给定的阈值p的词语，处理后的特征项集合记为T₁’，T₂’；

3b)利用公式(1)计算得出修正系数λ：

其中，表示特征项t_k在c_j里的词频数；

3c)利用公式(2)计算得出MI(t_k)：

3d)利用公式(3)得出t_k基于训练集的互信息值MI(t_k)’：

其中，β_i(i＝1,2)代表邮件头部和正文部分两个子集位置的不同权重，β₁代表邮件头部的权重，β₂代表正文部分的权重，且应满足β₁>β₂,β₁+β₂＝1；