CN103490974A

CN103490974A - 一种垃圾邮件检测方法及装置

Info

Publication number: CN103490974A
Application number: CN201210195957.7A
Authority: CN
Inventors: 韦媚; 刘晓峰; 梁耿; 陈阳; 凌俊民
Original assignee: China Mobile Group Guangxi Co Ltd
Current assignee: China Mobile Group Guangxi Co Ltd
Priority date: 2012-06-14
Filing date: 2012-06-14
Publication date: 2014-01-01

Abstract

本发明公开了一种垃圾邮件检测方法及装置，该方法包括：针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值与每个邮件样本对应的第二特征向量值之间的相似度值，其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本；根据确定出的相似度值，在邮件样本集合中获得与所述待检测邮件相似的邮件样本；确定待检测邮件和相似的邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量；分别确定该邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值；根据所述权重值，确定该待检测邮件的类型。采用本发明这里提出的技术方案，能够较好地提高垃圾邮件归类的准确性。

Description

一种垃圾邮件检测方法及装置

技术领域

本发明涉及业务支撑技术领域，尤其是涉及一种垃圾邮件检测方法及装置。

背景技术

自从1994年出现了第一封以Spam为代表的垃圾邮件开始，垃圾邮件检测方法也应运而生。垃圾邮件检测方法经历了不同的发展阶段：

第一阶段：基于黑白名单的垃圾邮件检测方法，该方法通过判断当前邮件是否是黑白名单中的邮件来检测垃圾邮件。例如在黑名单中的任何邮件都是垃圾邮件，可以直接删除或者归类至垃圾邮件类别中，反之，在白名单中的任何邮件都是正常邮件，允许通过。该方法的优点是简单明确，能最大程度的节省垃圾邮件检测过程中占用的系统资源。其缺点是当接收到的邮件不在黑白名单中，该方法就失去了判断力，容易造成误判，因此基于黑白名单的垃圾邮件检测方法准确性较低。

第二阶段：基于人工规则的垃圾邮件检测方法，该方法根据一定的规则对垃圾邮件检测系统进行预先设置，根据设置的规则对接收到的邮件进行检测。其中，检测规则主要根据关键词匹配、信头分析、群发策略和邮件内容的其它特征等几个方面来进行设置，该方法的缺点是受人为因素影响比较大。

第三阶段：基于内容的垃圾邮件检测方法，该方法是将机器学习中的一些算法应用到对垃圾邮件的检测中，一般分为基于规则和基于统计的两种检测算法。基于内容的垃圾邮件检测方法主要是通过分析垃圾邮件的主题和正文，获得垃圾邮件具备的相关特征，将这些特征作为训练样本，对垃圾邮件进行检测。该方法优点是在识别垃圾邮件方面有较高的准确率和召回率，但是该方法的准确性依赖于大量的训练样本。

在现有技术中，一般采用基于K最近邻(KNN，K-Nearest Neighbor)分类算法实现对垃圾邮件的检测。KNN算法基本理论是：对于给定文本，如果该文本在特征空间中的K个最近或最相似的文本中的大多数属于一个类别，则可以判定该文本也属于这个类别。例如图1所示，图1中所示的三角形是等待归类处理的形状，正方形和圆形是两个已知的类别，若K=3，由于圆形所占比例为2/3，则等待归类处理的三角形将被归类到圆形类别中，若K=5，由于正方形所占比例为3/5，因此三角形被归类到正方形类别中。基于上述原理，现有技术中基于KNN算法实现垃圾邮件检测方法流程具体如下述：

步骤一：选取训练样本集合，其中，训练样本集合中包括垃圾邮件样本和正常邮件样本。在训练样本集合中，分别确定表征垃圾邮件样本和正常邮件样本的属性信息的特征向量值。

步骤二：对于等待归类确认的每一个邮件，获得表征该邮件属性信息的特征向量值。

步骤三：根据夹角余弦法，分别计算该邮件对应的特征向量值与训练样本集合中所有样本对应的特征向量值之间的相似度，将确定出的所有相似度按照大小排序，选取出与该等待归类的邮件比较相似、比较接近的K个样本。

步骤四：对选取出的K个样本，分别计算该待确定的邮件归属垃圾邮件和归属正常邮件的权重值，根据确定出的权重值，判断该邮件是否是垃圾邮件，如果是将该邮件滤除，反之不做处理。

现有技术中提出的基于KNN算法实现垃圾邮件检测的方法，对等待归类确认的邮件进行归类确认时，仅通过比较与垃圾邮件和正常邮件两类的相似度之和来确定权重值，未考虑到其它因素等也会影响最终的归类结果，因此准确性较低。

发明内容

本发明实施例提供一种垃圾邮件检测方法及装置，能够较好地提高垃圾邮件检测的准确性。

一种垃圾邮件检测方法，包括：针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值，其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本；根据确定出的相似度值，在邮件样本集合中获得与所述待检测邮件相似的邮件样本；确定待检测邮件和相似的邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量；根据所述相似度均值和数量，分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值；根据垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型。

一种垃圾邮件检测装置，包括：相似度值确定单元，用于针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值，其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本；获得单元，用于根据确定单元确定出的相似度值，在邮件样本集合中获得与所述待检测邮件相似的邮件样本；相似度均值确定单元，还用于确定待检测邮件和相似的邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量；权重值确定单元，用于根据所述相似度均值确定出的相似度均值和数量，分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值；邮件类型确认单元，用于根据权重值确定单元确定出的垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型。

采用本发明上述提出的技术方案，对于一个待检测邮件，通过确定该邮件对应的第一特征向量值与邮件样本集合中的每个邮件样本对应的第二特征向量值之间的相似度值，获得该邮件与邮件样本集合中的相似邮件样本，然后再确定该邮件和获得的相似邮件样本之间的相似度均值，以及获得相似度值大于相似度均值的相似邮件样本的数量，根据相似度均值和数量，分别确定该邮件归属垃圾邮件类别的权重值和归属正常邮件样本的权重值，最后根据归属不同类别的权重值，确定该待检测邮件的类型。从而实现将待检测邮件归类为垃圾邮件或者归类为正常邮件，本发明提出的技术方案中，引入了相似度均值作为参考，较好地提高了确定待检测邮件类型的准确性。

附图说明

图1为现有技术中，提出的KNN算法示意图；

图2为本发明实施例一中，提出的垃圾邮件检测方法流程图；

图3为本发明实施例一中，提出的训练样本的伪聚类示意图；

图4为本发明实施例一中，提出的原始样本分成小类过程示意图；

图5为本发明实施例一中，提出的APC-KNN分类器的训练流程图；

图6为本发明实施例一中，提出的不同特征维数三组实验的F1值对比示意图；

图7为本发明实施例一中，提出的不同特征维数对分类结果的影响对比示意图；

图8为本发明实施例一中，提出的不同K值三组实验的F1值对比示意图；

图9为本发明实施例一中，提出的不同K值对分类结果的影响对比示意图；

图10为本发明实施例二中，提出的俩及邮件检测装置结构示意图。

具体实施方式

针对现有技术中垃圾邮件检测方法，仅根据待检测邮件与邮件样本集合中的邮件样本之间的相似度值之和来确定权重值，然后对待检测邮件进行归类，使得对邮件检测的准确性较低的问题，本发明实施例这里提出的技术方案，结合改进的KNN算法和预先设置的邮件样本集合，综合考虑影响归类结果的条件来确定待检测的邮件类型，能够较好地提高垃圾邮件检测的准确性。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

实施例一

本发明实施例一这里提出一种垃圾邮件检测方法，如图2所示，具体处理过程如下：

步骤21，选取邮件样本集合，邮件样本集合也可以称之为训练样本集合。

其中，邮件样本集合中包括垃圾邮件样本和正常邮件样本，垃圾邮件样本的数量和正常邮件样本的数量可以相同，也可以不相同。在敏感度要求较高的应用环境中，在选取的邮件样本集合中，包含的垃圾邮件样本的数量可以大于正常邮件样本的数量，反之，在敏感度要求较低的场合中，在选取的邮件样本集合中，包含的垃圾邮件样本的数量可以小于正常邮件样本的数量。基于公平的原则，本发明实施例一这里提出的技术方案，在选取的邮件样本集合中，包含相同数量的垃圾邮件样本和正常邮件样本。

步骤22，针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值以及确定选取的邮件样本集合中每个邮件样本对应的表征邮件属性信息的第二特征向量值。

其中，每个邮件都具备表征邮件属性信息的特征向量值，为便于阐述，本发明实施例一这里待检测邮件对应的表征邮件属性信息的特征向量值规定为第一特征向量值，将邮件样本对应的表征邮件属性信息的特征向量值规定为第二特征向量值。具体地，第一特征向量值的选取和第二特征向量值的选取方法是相同的。

步骤23，根据确定出的第一特征向量值和第二特征向量值，计算二者之间的相似度值。

其中，可以基于夹角余弦算法，根据确定出的第一特征向量值和第二特征向量值，计算相似度值，该相似度值可以表征待检测邮件和邮件样本集合中包含的邮件样本之间的相似度。

具体地，可以采用下述公式1来计算相似度值：

Sim (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{M} W_{ik} \times W_{jk}}{\sqrt{(Σ_{k = 1}^{M} W_{ik}^{2}) (Σ_{j = 1}^{M} W_{jk}^{2})}}

公式1

其中，Sim是相似度值，d_i是第i个待检测邮件，d_j是邮件样本集合中的第j邮件样本，W_ik是与待检测邮件对应的表征邮件属性信息的第一特征向量值，W_jk是与邮件样本对应的表征邮件属性信息的第二特征向量值。

步骤24，根据确定出的相似度值，获得所述待检测邮件与邮件样本集合中的相似邮件样本。

其中，邮件样本集合中包含有多少个邮件样本，对应就确定出多少个相似度值。具体地，根据确定出的相似度值，获得待检测邮件与邮件样本集合中的相似邮件样本可以但不限于采用下述两种方式：

第一种方式：将确定出的全部相似度值按照从大到小或者从小到大的顺序进行排序，在排序后的全部相似度值中，选取满足条件的相似度值对应的邮件样本作为相似邮件样本。较佳地，在排序后的全部相似度值中，选取大于预设阈值的相似度值对应的邮件样本作为相似邮件样本。

第二种方式：在确定出的全部相似度值中，随机选取一定数量的相似度值对应的邮件样本作为相似邮件样本。

步骤25，确定待检测邮件和相似邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量。

其中，可以采用下述方式确定相似度均值：将获得的所有相似邮件对应的相似度值相加，得到的和值再与获得的所有相似邮件的数量求商，得到的结果作为相似度均值。

在确定出相似度均值之后，将步骤23中获得的全部相似度值依次和确定出的相似度均值比较，确定出相似度值大于相似度均值的相似邮件样本的数量。例如，假设邮件样本集合中一共有10个邮件样本，通过相似度的计算，得到S1~S10共10个相似度值，在10个相似度值中，根据步骤24的实施方法，获得的相似邮件样本数量是5个，对应的相似度值分别为S5~S1，则将S1~S5相加求和值，然后再与5相除得到的结果S0作为相似度均值。然后依次将S1~S10与S0比较，统计S1~S10中大于S0的数量。

步骤26，根据所述相似度均值和数量，分别确定该邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值。

其中，可以采用下述公式2确定正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}, i = 1,2 . . . k_{m}

公式2

其中，可以采用下述公式3确定垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}, i = 1,2 . . . k_{n}

公式3；

其中，P_m是正常邮件类别的权重值，P_n是垃圾邮件类别的权重值，

是第一特征向量值集合，C_m是正常邮件类别的样本集合，C_n是垃圾邮件类别的样本集合，p₁，p₂是调整参数，Sim是相似度值，

是第二特征向量值集合，k_m是正常邮件类别中与待检测邮件的相似邮件样本的数量，k_n是垃圾邮件类别中与待检测邮件的相似邮件样本的数量，P_legit是相似邮件样本集合中属于正常邮件类别的正常邮件样本集合，P_spam是相似邮件样本集合中属于垃圾邮件类别的垃圾邮件样本集合。

具体地，在上述公式2和公式3中，调整参数p₁+p₂＝1。较佳地，调整参数p₁＝0.8，p₂＝0.2。k_m和k_n的和值，即为KNN算法中的K值。

基于上述公式2和公式3，可以分别得到正常邮件类别的权重值和垃圾邮件类别的权重值。而在现有技术中，是通过下述公式4来分别确定正常邮件类别的权重值和垃圾邮件类别的权重值：

p (\overset{&OverBar;}{x}, C_{j}) = \underset{{\overset{&OverBar;}{d}}_{i} &Element; KNN}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i}) y ({\overset{&OverBar;}{d}}_{i}, C_{j})

公式4

其中，p根据j的取值，表征正常邮件类别的权重值和垃圾邮件类别的权重值，

y ({\overset{&OverBar;}{d}}_{i}, C_{j}) = \{\begin{matrix} 1 & {\overset{&OverBar;}{d}}_{i} &Element; C_{j} \\ 0 & {\overset{&OverBar;}{d}}_{i} &NotElement; C_{j} \end{matrix},

是第一特征向量值集合，Sim是相似度值，是第二特征向量值集合，C根据j的取值，分别表征正常邮件类别和垃圾邮件类别。

将本发明实施例一这里提出的权重值计算方法和现有技术中的权重值计算方法对比可知，现有技术中提出的计算方法，仅是简单的根据KNN算法，通过相似邮件样本的个数或者通过相似度之和对待检测邮件进行判断，比较片面。而本发明实施例这里提出的技术方案，综合考虑了相似邮件样本的相似度均值和相似邮件样本的数量也会对KNN算法造成影响，从而最终影响到邮件类型判别的准确性，因此本发明实施例一这里提出的权重值计算方法，能够较好地提高确认邮件类型的准确性。

由于现有技术中采用KNN算法对垃圾邮件进行检测时，准确性较低，具体表现在对垃圾邮件的误报率和漏报率较高，对于电子邮件用户来说，在对待检测邮件进行分类时，垃圾邮件误报所产生的影响与垃圾邮件漏报所产生的影响完全不同。在对待检测邮件进行分类时，垃圾邮件的误报率比漏报率的代价具有更高的敏感度，即对垃圾邮件进行归类时具有偏依赖性。现有技术中确定待检测邮件的类型时，没有考虑到正常邮件和垃圾邮件这两类邮件的不对称。基于此，本发明实施例一这里还提出一种确定垃圾邮件类别权重值和正常邮件类别的权重值方法，具体如下述公式5和公式6：

可以采用下述公式5确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = C_{+} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}), i = 1,2 . . . k_{m}

公式5；

可以采用下述公式6确定所述垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = C_{-} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}), i = 1,2 . . . k_{n}

公式6；

是第二特征向量值集合，k_m是正常邮件类别中与待检测邮件的相似邮件样本的数量，k_n是垃圾邮件类别中与待检测邮件的相似邮件样本的数量，P_legit是相似邮件样本集合中属于正常邮件类别的正常邮件样本集合，P_spam是相似邮件样本集合中属于垃圾邮件类别的垃圾邮件样本集合，C₊是对正常邮件错分的惩罚因子，C_-是对垃圾邮件错分的惩罚因子，并且C₊/C_-＝γ，γ是预先设定的平衡值。

具体地，C₊是对正常邮件错分的惩罚因子，即确定待检测邮件类型时产生误报的情况，C_-是对垃圾邮件错分的惩罚因子，即确定待检测邮件类型时产生漏报的情况。

在对待检测邮件进行归类时，对垃圾邮件类别的确认，产生的误报和漏报对用户的影响完全不同。可以理解为错分正常邮件所应承担的代价是错分垃圾邮件的好多倍。基于此，本发明实施例一这里引入一个预先设定的平衡值γ，假设C₊是C_-的γ倍，则如果γ过高，虽然减少了正常邮件被误判为垃圾邮件的概率，但是却提高了垃圾邮件的误报率，所以需要合适的参数值，让误报率和漏报率达到相对的平衡，这样可以使得确定待检测邮件类型时可以达到较优值，从而可以较好地提高对确定待检测邮件类型的准确性。

具体地，γ的取值可以为1或者9。如果预先设置的条件是对确认出的垃圾邮件不删除，仅进行标记时，可以认为不能区分两者的代价哪个重要，即二者同样重要，因此γ的取值可以为1，而当对检测出的垃圾邮件直接删除时，因为删除的邮件无法找回，这种情况下，将正常邮件误判为垃圾邮件时，可能会造成严重的影响，代价比较大，而对于垃圾邮件的误报，后续只需要将其手动删除，这样代价小些，此时γ的取值可以为9，表明前者比后者重要。当然，在实际应用中，也可以根据多次试验选择合适的参数值。

步骤27，根据垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型。

其中，根据垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型可以但不限于采用下述三种方式：

第一种方式：当确定主的垃圾邮件类别的权重值小于正常邮件类别的权重值时，确定待检测邮件的类型为正常邮件。

第二种方式：当确定出的垃圾邮件类别的权重值与正常邮件类别的权重值的比值大于预设第一门限值时，确定待检测邮件的类型为垃圾邮件。反之，确定待检测邮件的类型为正常邮件。

第三种方式：仅根据确定出的垃圾邮件类别的权重值或确定出的正常邮件类别的权重值，确定该待检测邮件的类型。

较佳地，在步骤27确定出待检测邮件的类型时，还可以对确定出的邮件进行相应的处理。例如，若确定出待检测邮件为垃圾邮件时，可以将该邮件过滤或者删除或者标记，若确定出待检测邮件为正常邮件时，则允许该邮件通过。

本发明实施例一上述提出的技术方案，在对待检测邮件进行归类时，综合考虑到其它因素也会影响最终确定待检测邮件类型的准确性，引入了相似邮件样本的数量和相似邮件样本的相似度均值，能够较好地提高确定待检测邮件类型的准确性。进一步地，由于KNN算法的计算量比较大，处理时需要占用较多的处理资源，采用KNN算法进行垃圾邮件检测时，使得确定待检测邮件类型时，分类效率较低，基于此，本发明实施例一这里提出将类中心向量算法与KNN算法结合使用，能够较好的提升确定邮件类型的分类效率。

类中心向量算法的基本思想是将每一类别文本经过训练后得到该类别的中心向量，分类时，将测试样本与每类的中心向量进行相似度计算，通过比较将测试样本归为与其相似度最大的类中。类中心向量算法对训练样本集合进行了最大程度的裁剪，因此分类速度很快。基于此，本发明实施例一这里通过类中心向量算法来对选取的邮件样本集合进行优化，能够较好地提高KNN算法的分类效率。

在本发明实施例一这里提出的技术方案中，在步骤21中，基于类中心向量算法对选取的邮件样本集合进一步进行归类，以降低运算的复杂度。首先对选取的邮件样本集合，计算样本集合中每个邮件样本之间的相似度，根据计算的相似度值，将相似的邮件样本合并成至少一个小类，然后确定每个小类的类中心向量，将确定出的每个小类的类中心向量作为组成邮件样本集合的邮件样本。这样，可以较好地降低KNN算法的计算量，提高分类速度。

一种较佳地实现方式，对于步骤21中已经选取出的邮件样本集合，可以采用下述方式进一步地确定邮件样本集合：

步骤一：基于聚类算法，将选取的邮件样本集合中包含的正常邮件样本和垃圾邮件样本分别进行聚类，得到至少一个正常邮件样本簇和至少一个垃圾邮件样本簇。

其中，将正常邮件样本进行聚类，得到至少一个正常邮件样本簇，包括：

确定每个正常邮件样本对应的第一特征权重值，根据确定的所述第一特征权重值，按照预设的步进值将所有正常邮件样本划分为至少一个正常邮件样本簇。具体地，可以采用下述公式7确定第一特征权重值：

D_{1} = Σ_{i = 1}^{n} w_{i} x_{i}, n = 1,2 . . . N

公式7

其中，D₁是第一特征权重值，x_i是每个正常邮件样本对应的正常邮件样本特征向量值，w_i是预设的对应正常邮件样本的参数值。

其中，将垃圾邮件样本进行聚类，得到至少一个垃圾邮件样本簇，包括：

确定每个垃圾邮件样本对应的第二特征权重值；

根据所述第二特征权重值，按照预设的步进值将垃圾邮件样本划分为至少一个垃圾邮件样本簇。

具体地，可以采用下述公式8确定第二特征权重值：

D_{2} = Σ_{j = 1}^{n} w_{j} x_{j}, n = 1,2 . . . N

公式8

其中，D₂是第二特征权重值，x_j是每个垃圾邮件样本对应的垃圾邮件样本特征向量值，w_j是预设的对应垃圾邮件样本的参数值。

具体地，本发明实施例一这里以对步骤21中选取的邮件样本集合中包含的正常邮件样本和垃圾邮件样本进行归类为例来进行详细阐述，这种分类过程也可以称之为伪聚类过程，如图3所示：对于选取的邮件样本集合中包含的正常邮件样本，将确定出的第一特征权重值按照从大到小的顺序进行排序，第一特征权重值每相差预设的步进值H的所有对应的正常邮件样本作为一个正常邮件样本簇。相似地，对于选取的邮件样本集合中包含的垃圾邮件样本，将确定出的第二特征权重值按照从大到小的顺序进行排序，第二特征权重值每相差预设的步进值H的所有对应的正常邮件样本作为一个正常邮件样本簇。直到将样本集合中所有的正常邮件样本和垃圾邮件样本都归类完毕。假设正常邮件样本进行聚类后得到m个正常邮件样本簇，垃圾邮件样本进行聚类后得到M个垃圾邮件样本簇，这样，所选取的邮件样本集合中，就转化为m个正常邮件样本簇和M个垃圾邮件样本簇之和。

需要说明的是，在整个过程中，所有伪聚类后的正常邮件样本簇和垃圾邮件样本簇，是根据确定出的第一特征权重值和第二特征权重值，相隔预设的步进值得到的，并不是相隔固定的样本数量。较佳地，本发明实施例一这里提出的技术方案，预设的步进值可以取值H=4，例如，对于正常邮件样本（或垃圾邮件样本）对应的第一特征权重值（或第二特征权重值），在每间隔数值4就将所有的正常邮件样本（垃圾邮件样本）归类为一个正常邮件样本簇（或垃圾邮件样本簇）中。如图4所示，形成的每个正常邮件样本簇（垃圾邮件样本簇）中包含的正常邮件样本（垃圾邮件样本）数量并不完全相同，即每个簇中的样本数并不均匀，但是处理后的每个样本簇之间的密度是均匀的，这样可以较好地避免由于样本分布不均匀而造成的分类准确率下降的问题。

步骤二：在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。

其中，可以基于平均中心算法，在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。例如，对于一个分类得到的正常邮件样本簇，计算该正常邮件样本簇中包含的所有正常邮件样本之间的相似度值，然后根据计算得到的相似度值，确定该正常邮件样本簇的相似度均值，最后，选择相似度值和相似度均值相同或者差距比较小的相似度值对应的正常邮件样本作为该正常邮件样本簇的第一中心样本。相似地，对于垃圾邮件样本簇，也采用相同的方式在每个垃圾邮件样本簇选择第二中心样本。

步骤三：将选择出的第一中心样本和第二中心样本组成邮件样本集合。

基于类中心向量算法对选取的邮件样本集合进行分类处理，能够较好地降低后续处理过程中KNN算法的复杂度，能够较好地节省系统的处理资源，提高垃圾邮件的分类效率。

上述提出的基于类中心向量算法和KNN算法相结合来实现垃圾邮件的检测，可以较好地降低KNN算法的计算量，提高分类速度，本发明实施例这里将改进后的垃圾邮件检测方法应用到垃圾邮件检测系统中，该系统可以称之为APC-KNN系统。该系统的处理流程具体可参见图5所示。其中，APC-KNN系统可以基于Windows XP系统（Pentium4CPU\3GHz\512M）中实现。主要包括预处理部分、训练部分、分析部分以及反馈部分。其中：

预处理部分：该部分主要包括邮件解码器和中文分词两个模块。在本发明实施例这里提出的技术方案中，选取的邮件样本，只保存邮件的内容，因此省略了对邮件进行解码，可以较好地提升处理效率。中文分词则采用中国科学院计算技术研究所研发的汉语词法分析系统ICTCLAS。预处理部分用于对选取的邮件样本集合中包含的正常邮件样本和垃圾邮件样本进行预处理，即采用类中心向量算法将邮件样本集合中包含的正常邮件样本和垃圾邮件样本进行归类，形成正常邮件样本簇和垃圾邮件样本簇，并分别选取第一中心样本和第二中心样本组成邮件样本集合。

训练部分，也称之为学习部分，为了提升确定待检测邮件类型的准确性，即能让本系统对待检测邮件进行准确地分类，首先需要对系统进行训练，即让系统进行学习。训练过程包括邮件属性提取、计算权重值、将待检测邮件表示为向量形式以及进行伪聚类。属性提取采用词与类别互信息量的方法；伪聚类过程请参见上述实施例一中的详细阐述，这里不再赘述。较佳地，进行邮件属性提取时，可以综合考虑每个属性信息的属性特征权重，属性特征权重的计算可以采用下述公式9：

w_{k} = \frac{tf (t_{k}, D_{i}) \times \log (N / n_{t_{k}} + 0.01)}{\sqrt{Σ {[f (t_{k}, D_{i}) \times \log (N / n_{t_{k}} + 0.01)]}^{2}}}

公式9

其中w_k是属性特征权重，tf(t_k,D_i)是邮件的特征词t_k在文本D_i中的频数，N为文本的总数，

为训练文本集中出现的特征词t_k文本数。

分类部分：对待测邮件进行预处理，然后采用上述实施例一中提出的技术方案进行分类，具体请参见上述实施例一中步骤22~步骤27中详细阐述，这里不再赘述。

反馈部分：当电子邮件用户使用该检测系统发现邮件被错分时，则将错分的电子邮件进行反馈，该系统经过预设时间后，对用户反馈的错分邮件和邮件样本一起再次进行预处理，将所有邮件样本分成小类，计算小类的中心向量来代替原始样本建立模型，以减少分类的误判率。

进一步地，本发明实施例二这里还对垃圾邮件检测方法进行评估，其中，在工程应用中，评价垃圾邮件检测方法通常借用评估文本分类系统的三个重要指标准确率、召回率和F1值来衡量。假设待测试的邮件集合中共有N封邮件，即共有N封待检测邮件，则判定结果存在下述表1中四种情况：

表1

则假设N=Ns+Nl，其中，Ns=A+C为实际的垃圾邮件数目，Nl=B+D为实际的正常邮件数目。N为邮件总数量，则定义如下：

召回率(Recall)，即垃圾邮件检出率：召回率

该指标反映了邮件检测系统发现垃圾邮件的能力，召回率R越高，“漏网”的垃圾邮件就越少。

正确率(Precision)，即垃圾邮件检对率，正确率

正确率P反应了邮件检测系统“找对”垃圾邮件的能力，正确率越大，将正常邮件误判为垃圾邮件的数量越少。

F1值，是衡量系统性能的综合指标：

其中P表示正确率，R表示召回率。

本发明实施例二这里提出的技术方案，通过上述评估指标来验证本发明实施例一中提出的垃圾邮件检测方法的可行性以及分类性能，由于本发明实施例这里提出的垃圾邮件检测方法，是基于KNN算法基础之上，综合使用类中心向量方法，即基于改进的KNN算法来实现垃圾邮件的检测，由上述实施例一中记载的内容可知，本发明实施例这里提出的垃圾邮件检测方法，同时受到特征维数、参数γ值、K值的影响，因此在测试APC-KNN算法的性能之前，先对这些参数的最佳取值进行实验。本实验分三组进行测试，第一组实验的语料库为2000封电子邮件，其中训练样本（即邮件样本集合）为1400，测试样本（即待检测邮件）为600，垃圾邮件和正常邮件的比例都为1:1。第二组和第三组的语料库各位4000封和6000封电子邮件，训练样本和测试样本的比例为2:1，垃圾邮件和正常邮件的比例为1∶1。这三组实验分别对上述几个参数值的选取进行实验测试，并对APC-KNN分类算法与传统KNN算法在性能和效率上进行对比实验。

一：特征维数对检测结果的影响

取特征维数N分别为100，500，1000，1500，2000，2500，3000，3500，4000，4500。对于不同的维数，作为一个分类模型，其中K值假设等于15，H=0.01，γ=1，利用APC-KNN分类算法对测试样本进行分类，计算分类的召回率、正确率和F1值。通过选取不同的特征维数分别对三组语料库进行实验，其中如图6所示是三组实验得到的F1值曲线图。

从图6中可以看出，三组实验结果的整体趋势是一致的，都是随着特征维数的增加而增大，随后表现出小幅度的下降，其中第一组和第三组实验特征维数的最佳取值为2000，第二组特征维数最佳取值为3000。图7是第一组的实验结果，特征维数的变化对分类结果的影响很大，当维数为2000时，垃圾邮件过滤系统的得到最好的分类效果。当维数大于2000维之后，分类的各个评价指标随着维数的增加小幅度的降低。因此特征维数需要根据训练集本身来确定，不是越多越好，它的选择一般是通过实验得到最佳值。

二、K值对分类性能的影响

对于KNN分类算法，K值的选取是比较重要的步骤，为了得到适合本发明实验的最佳K值，设计实验如下：特征维数N取上述实验得到的最佳值，H假设为0.01，假设为1，分类算法为APC-KNN，计算K值分别取5到40之间过滤系统分类的召回率、正确率和F1值。

如图8所示是三组实验F1值的对比结果，第二组K值选取的实验结果如图9所示，从图中可以看出：三组实验值K值对分类性能的影响是一致的，其中第二组实验K等于15时表现出最好的分类效果，F1值达到97.6%，当K值大于15之后其各项指标值逐渐降低。在三组实验中，K的最佳取值都为15。

三、γ值对分类性能的影响

对于APC-KNN算法，不仅考虑了平均相似度和相似样本个数的影响，而且引入了电子邮件本身的偏依赖特性，用参数γ表示。本实验是验证γ值对分类性能的影响。设计如下实验：特征维数取为最佳值，K值为15，γ值分别取1到10进行实验，求得APC-KNN算法的召回率、正确率和F1值。实验结果如下表所示：

表2

由上述表2可知，随着γ值的增加，正确率也随着增加，这表明本发明实施例这里提出的邮件检测方法引入偏依赖特性之后，垃圾邮件的误报减少（即正常邮件判定为垃圾邮件）。引入参数γ相当于给邮件检测增加了一道监控，阻止正常邮件被误判，降低系统的误报率。但随着正确率的增加，垃圾邮件漏报的数量也随之增多，因此γ值的选取需要同时考虑误报率和漏报率，不宜过大，在本实验中γ的最佳取值为2。

实施例二

本发明实施例二这里提出一种垃圾邮件检测装置，如图10所示，具体包括：

相似度值确定单元901，用于针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值，其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本。

获得单元902，用于根据相似度值确定单元901确定出的相似度值，获得所述待检测邮件与邮件样本集合中的相似邮件样本.

相似度均值确定单元903，用于确定待检测邮件和相似邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量。

权重值确定单元904，用于根据所述相似度均值确定出的相似度均值和数量，分别确定该邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值。

具体地，上述权重值确定单元904具体采用下述公式确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}, i = 1,2 . . . k_{m};

以及上述权重值确定单元904，具体采用下述公式确定所述垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}, i = 1,2 . . . k_{n};

具体地，上述权重值确定单元904，具体采用下述公式确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = C_{+} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}), i = 1,2 . . . k_{m};

P_{n} (\overset{&OverBar;}{x}, C_{n}) = C_{-} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}), i = 1,2 . . . k_{n};

是第一特征向量值集合，C_m是正常邮件类别的样本集合，C_n是垃圾邮件类别的样本集合，p₁，p₂是调整参数，Sim是相似度值，是第二特征向量值集合，k_m是正常邮件类别中与待检测邮件的相似邮件样本的数量，k_n是垃圾邮件类别中与待检测邮件的相似邮件样本的数量，P_legit是相似邮件样本集合中属于正常邮件类别的正常邮件样本集合，P_spam是相似邮件样本集合中属于垃圾邮件类别的垃圾邮件样本集合，C₊是对正常邮件错分的惩罚因子，C_-是对垃圾邮件错分的惩罚因子，并且C₊/C_-＝γ，γ是预先设定的平衡值。

邮件类型确认单元905，用于根据权重值确定单元904确定出的垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型。

其中，上述垃圾邮件检测装置还包括邮件样本集合确定单元906，具体用于采用下述方式确定邮件样本集合：基于聚类算法，将正常邮件样本和垃圾邮件样本分别进行聚类，得到至少一个正常邮件样本簇和至少一个垃圾邮件样本簇；在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本；将选择出的第一中心样本和第二中心样本组成邮件样本集合。

具体地，上述邮件样本集合确定单元906，具体用于确定每个正常邮件样本对应的第一特征权重值；根据确定的所述第一特征权重值，按照预设的步进值将所有正常邮件样本划分为至少一个正常邮件样本簇。

具体地，上述邮件样本集合确定单元906，具体采用下述公式确定第一特征权重值：

D_{1} = Σ_{i = 1}^{n} w_{i} x_{i}, n = 1,2 . . . N

具体地，上述邮件样本集合确定单元906，具体用于确定每个垃圾邮件样本对应的第二特征权重值；根据所述第二特征权重值，按照预设的步进值将垃圾邮件样本划分为至少一个垃圾邮件样本簇。

具体地，上述邮件样本集合确定单元906，具体用于采用下述公式确定第二特征权重值：

D_{2} = Σ_{j = 1}^{n} w_{j} x_{j}, n = 1,2 . . . N

具体地，上述邮件样本集合确定单元906，具体用于基于平均中心算法，在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种垃圾邮件检测方法，其特征在于，包括：

针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值，其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本；

根据确定出的相似度值，在邮件样本集合中获得与所述待检测邮件相似的邮件样本；

确定待检测邮件和相似的邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量；

根据所述相似度均值和数量，分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值；

根据垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型。

2.如权利要求1所述的方法，其特征在于，采用下述公式确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}, i = 1,2 . . . k_{m};

采用下述公式确定所述垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}, i = 1,2 . . . k_{n};

3.如权利要求1所述的方法，其特征在于，采用下述公式确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = C_{+} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}), i = 1,2 . . . k_{m};

采用下述公式确定所述垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = C_{-} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}), i = 1,2 . . . k_{n};

4.如权利要求1所述的方法，其特征在于，采用下述方式确定邮件样本集合：

基于聚类算法，将正常邮件样本和垃圾邮件样本分别进行聚类，得到至少一个正常邮件样本簇和至少一个垃圾邮件样本簇；

在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本；

将选择出的第一中心样本和第二中心样本组成邮件样本集合。

5.如权利要求4所述的方法，其特征在于，所述将正常邮件样本进行聚类，得到至少一个正常邮件样本簇，包括：

确定每个正常邮件样本对应的第一特征权重值；

根据确定的所述第一特征权重值，按照预设的步进值将所有正常邮件样本划分为至少一个正常邮件样本簇。

6.如权利要求5所述的方法，其特征在于，采用下述公式确定第一特征权重值：

D_{1} = Σ_{i = 1}^{n} w_{i} x_{i}, n = 1,2 . . . N

7.如权利要求4所述的方法，其特征在于，所述将垃圾邮件样本进行聚类，得到至少一个垃圾邮件样本簇，包括：

确定每个垃圾邮件样本对应的第二特征权重值；

8.如权利要求7所述的方法，其特征在于，采用下述公式确定第二特征权重值：

D_{2} = Σ_{j = 1}^{n} w_{j} x_{j}, n = 1,2 . . . N

9.如权利要求4所述的方法，其特征在于，所述在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本，包括：

基于平均中心算法，在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。

10.一种垃圾邮件检测装置，其特征在于，包括：

相似度值确定单元，用于针对一个待检测邮件，确定该邮件对应的表征邮件属性信息的第一特征向量值与邮件样本集合中的每个邮件样本对应的表征邮件属性信息的第二特征向量值之间的相似度值，其中所述邮件样本集合中包含至少一个正常邮件样本和至少一个垃圾邮件样本；

获得单元，用于根据确定单元确定出的相似度值，在邮件样本集合中获得与所述待检测邮件相似的邮件样本；

相似度均值确定单元，还用于确定待检测邮件和相似的邮件样本之间的相似度均值，以及确定出对应的相似度值大于所述相似度均值的相似邮件样本的数量；

权重值确定单元，用于根据所述相似度均值确定出的相似度均值和数量，分别确定该待检测邮件归属于垃圾邮件类别和归属于正常邮件类别的权重值；

邮件类型确认单元，用于根据权重值确定单元确定出的垃圾邮件类别的权重值和正常邮件类别的权重值，确定该待检测邮件的类型。

11.如权利要求10所述的装置，其特征在于，所述权重值确定单元，具体采用下述公式确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}, i = 1,2 . . . k_{m};

所述权重值确定单元具体，采用下述公式确定所述垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}, i = 1,2 . . . k_{n};

是第一特征向量值集合，C_m是正常邮件类别的样本集合，C_n是垃圾邮件类别的样本集合，p₁，p₂是调整参数，Sim是相似度值，是第二特征向量值集合，k_m是正常邮件类别中与待检测邮件的相似邮件样本的数量，k_n是垃圾邮件类别中与待检测邮件的相似邮件样本的数量，P_legit是相似邮件样本集合中属于正常邮件类别的正常邮件样本集合，P_spam是相似邮件样本集合中属于垃圾邮件类别的垃圾邮件样本集合。

12.如权利要求10所述的装置，其特征在于，所述权重值确定单元，具体采用下述公式确定所述正常邮件类别的权重值：

P_{m} (\overset{&OverBar;}{x}, C_{m}) = C_{+} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{legit}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{m}} + p_{2} k_{m}), i = 1,2 . . . k_{m};

所述权重值确定单元具体采用下述公式确定所述垃圾邮件类别的权重值：

P_{n} (\overset{&OverBar;}{x}, C_{n}) = C_{-} (p_{1} \frac{\underset{{\overset{&OverBar;}{d}}_{i} &Element; p_{spam}}{Σ} Sim (\overset{&OverBar;}{x}, {\overset{&OverBar;}{d}}_{i})}{k_{n}} + p_{2} k_{n}), i = 1,2 . . . k_{n};

13.如权利要求10所述的装置，其特征在于，还包括邮件样本集合确定单元，具体用于采用下述方式确定邮件样本集合：

基于聚类算法，将正常邮件样本和垃圾邮件样本分别进行聚类，得到至少一个正常邮件样本簇和至少一个垃圾邮件样本簇；在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本；将选择出的第一中心样本和第二中心样本组成邮件样本集合。

14.如权利要求13所述的装置，其特征在于，所述邮件样本集合确定单元，具体用于确定每个正常邮件样本对应的第一特征权重值；根据确定的所述第一特征权重值，按照预设的步进值将所有正常邮件样本划分为至少一个正常邮件样本簇。

15.如权利要求14所述的装置，其特征在于，所述邮件样本集合确定单元，具体采用下述公式确定第一特征权重值：

D_{1} = Σ_{i = 1}^{n} w_{i} x_{i}, n = 1,2 . . . N

16.如权利要求13所述的装置，其特征在于，所述邮件样本集合确定单元，具体用于确定每个垃圾邮件样本对应的第二特征权重值；根据所述第二特征权重值，按照预设的步进值将垃圾邮件样本划分为至少一个垃圾邮件样本簇。

17.如权利要求16所述的装置，其特征在于，所述邮件样本集合确定单元，具体用于采用下述公式确定第二特征权重值：

D_{2} = Σ_{j = 1}^{n} w_{j} x_{j}, n = 1,2 . . . N

18.如权利要求13所述的装置，其特征在于，邮件样本集合确定单元，具体用于基于平均中心算法，在每个正常邮件样本簇中选择一个第一中心样本和在每个垃圾邮件样本簇中选择一个第二中心样本。