CN114254997B

CN114254997B - 基于密度自适应过采样的垃圾邮件分类系统及方法

Info

Publication number: CN114254997B
Application number: CN202111488827.8A
Authority: CN
Inventors: 张莉; 魏真; 赵雷; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2023-03-10
Anticipated expiration: 2041-12-07
Also published as: CN114254997A

Abstract

本发明涉及一种基于密度自适应过采样的垃圾邮件分类系统，包括数据输入模块用于输入原始邮件数据集合，其中原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合；过采样模块用于剔除垃圾邮件数据集合中的噪音样本点，使噪音样本点不参与过采样的过程，获得第一垃圾邮件数据集合，计算第一垃圾邮件数据集合中的每个样本点的密度，生成第二垃圾邮件数据集合；数据训练模块用于获得最终的邮件数据集合，利用其对神经网络模型进行训练，获得邮件识别模型；邮件识别模块用于将待识别的邮件数据输入至邮件识别模型，并输出识别结果。本发明能够达到数据样本数量的平衡，克服现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。

Description

基于密度自适应过采样的垃圾邮件分类系统及方法

技术领域

本发明涉及数据挖掘技术领域，尤其是指一种基于密度自适应过采样的垃圾邮件分类系统及方法。

背景技术

随着互联网技术的日趋发展，电子邮件已成为人们日常交流和获取信息的一种方式。在电子邮件的使用过程中，难免会遇到广告邮件、骚扰邮件、欺诈邮件等垃圾邮件。某些商家和不法分子会利用垃圾邮件传播广告信息，甚至获取用户的消费行为等信息。因此，分辨这些垃圾邮件并将其归类为至垃圾邮件存放会大大提升用户使用电子邮件的交流体验感，并破坏不法分子利用垃圾邮件来获取利益的企图。

目前，机器学习方法已经被用到了垃圾邮件识别中，然而，在日常生活中，一般收到的都是非垃圾邮件，垃圾邮件较少，这是典型的数据分布不平衡的问题，因此经典的学习模型对垃圾邮件检测率往往较低。因此，需要一种方法使得垃圾邮件和非垃圾邮件的数量达到平衡。过采样方法就是使得数量达到平衡的一种方法，其中SMOTE(SyntheticMinority Oversampling Technique)是最为经典的过采样技术之一，SMOTE是通过线性插值的方式在少数类样本之间进行插值，生成新的样本点，但是这个方法存在对无用的样本点过采样以及类边界重叠的问题。然后Borderline-SMOTE是SMOTE的一种改进方法，其能够解决SMOTE样本重叠问题。但是该方法选择样本的生成区域有限，存在一定的局限性。因此，如何选择哪些样本点进行过采样以及如何选择合适的位置进行样本点生成是过采样方法中值得研究的问题。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种基于密度自适应过采样的垃圾邮件分类系统及方法，其通过去除数据集合中的噪音样本，计算每个样本点的密度大小，并生成新的样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。

为解决上述技术问题，本发明提供一种基于密度自适应过采样的垃圾邮件分类系统，包括：

数据输入模块，所述数据输入模块用于输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合；

过采样模块，所述过采样模块用于剔除所述垃圾邮件数据集合中的噪音样本点，获得剔除噪音样本点后的第一垃圾邮件数据集合，计算所述第一垃圾邮件数据集合中的每个样本点的密度，并生成第二垃圾邮件数据集合；

数据训练模块，所述数据训练模块用于将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和，获得最终的邮件数据集合，利用最终的邮件数据集合对神经网络模型进行训练，获得邮件识别模型；

邮件识别模块，所述邮件识别模块用于接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果。

在本发明的一个实施例中，所述过采样模块包括：

噪音样本点剔除子模块，所述噪音样本点剔除子模块用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若为噪音样本点，则不参与后续样本生成；

样本密度计算子模块，所述样本密度计算子模块用于计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一邮件数据集合中每个样本点周围应生成的样本点个数；

样本生成子模块，所述样本生成子模块用于依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合。

在本发明的一个实施例中，所述噪音样本点剔除子模块包括：

计算单元，所述计算单元用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差；

判决单元，所述判决单元用于基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若判断结果为是，则剔除该样本点，并更新所述垃圾邮件数据集合中的样本点，若判断结果为否，则保留该样本点，剔除的噪音样本点不参与后续样本生成。

在本发明的一个实施例中，所述样本密度计算子模块包括：

密度计算单元，所述密度计算单元用于在第一垃圾邮件数据集合中针对样本点寻找其同类近邻，基于样本点与其近邻之间的欧氏距离计算每个样本点的密度值；

数据处理单元，所述数据处理单元用于对所述密度值进行归一化处理；

样本点个数生成单元，所述样本点个数生成单元用于计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数。

在本发明的一个实施例中，所述样本生成子模块包括：

样本生成单元，所述样本生成子单元用于在第一垃圾邮件数据集合中的某一个样本点周围生成新的样本；

样本数据更新单元，所述样本数据更新单元用于对第一垃圾邮件数据集合中的所有样本点重复新样本生成的步骤，获得第二垃圾邮件数据集合。

此外，本发明还提供一种基于密度自适应过采样的垃圾邮件分类方法，包括：

输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合；

剔除所述垃圾邮件数据集合中的噪音样本点，获得剔除噪音样本点后的第一垃圾邮件数据集合，计算所述第一垃圾邮件数据集合中的每个样本点的密度，并生成第二垃圾邮件数据集合；

将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和，获得最终的邮件数据集合，利用最终的邮件数据集合对神经网络模型进行训练，获得邮件识别模型；

接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果。

7.根据权利要求6所述的基于密度自适应过采样的垃圾邮件分类方法，其特征在于，剔除所述垃圾邮件数据集合中的噪音样本点，获得剔除噪音样本点后的第一垃圾邮件数据集合，计算所述第一垃圾邮件数据集合中的每个样本点的密度，并生成第二垃圾邮件数据集合，包括：

计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点；

计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数；

依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合。

在本发明的一个实施例中，计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，包括：

计算所述垃圾邮件数据集合中的样本点的均值以及标准差；

基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若判断结果为是，则剔除该样本点，并更新所述垃圾邮件数据集合中的样本点，若判断结果为否，则保留该样本点。

在本发明的一个实施例中，计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数，包括：

在第一垃圾邮件数据集合中针对样本点寻找其同类近邻，基于样本点与其近邻之间的欧氏距离计算每个样本点的密度值

其中，

表示样本点x_i和其近邻

之间的欧氏距离；

对所述密度值进行归一化处理为

计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数为N_new(x_i)＝n_new×nor_density(x_i)(i＝1,…,n'_min)。

在本发明的一个实施例中，依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合，包括：

在第一垃圾邮件数据集合中的某一个样本点周围生成新的样本

对第一垃圾邮件数据集合中的所有样本点重复新样本生成的步骤，获得第二垃圾邮件数据集合。

本发明的上述技术方案相比现有技术具有以下优点：

本发明提出了基于密度自适应过采样的垃圾邮件识别系统及方法，其通过去除数据集合中的噪音样本，计算每个样本点的密度大小，并生成新的样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明基于密度自适应过采样的垃圾邮件分类系统的硬件结构示意图。

图2是本发明基于密度自适应过采样的垃圾邮件分类方法的流程示意图。

其中，附图标记说明如下：10、数据输入模块；20、过采样模块；21、噪音样本点剔除子模块；22、样本密度计算子模块；23、样本生成子模块；30、数据训练模块；40、邮件识别模块。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

请参阅图1所示，本发明实施例提供一种基于密度自适应过采样的垃圾邮件分类系统，包括：

数据输入模块10，所述数据输入模块10用于输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合；

过采样模块20，所述过采样模块20用于剔除所述垃圾邮件数据集合中的噪音样本点，获得剔除噪音样本点后的第一垃圾邮件数据集合，计算所述第一垃圾邮件数据集合中的每个样本点的密度，并生成第二垃圾邮件数据集合；

数据训练模块30，所述数据训练模块30用于将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和，获得最终的邮件数据集合，利用最终的邮件数据集合对神经网络模型进行训练，获得邮件识别模型；

邮件识别模块40，所述邮件识别模块40用于接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果。

本发明提出了基于密度自适应过采样的垃圾邮件识别系统，其通过去除数据集合中的噪音样本，计算每个样本点的密度大小，并生成新的样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中，所述过采样模块20包括：

噪音样本点剔除子模块21，所述噪音样本点剔除子模块21用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若为噪音样本点，则不参与后续样本生成。

样本密度计算子模块22，所述样本密度计算子模块22用于计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一邮件数据集合中每个样本点周围应生成的样本点个数；

样本生成子模块23，所述样本生成子模块23用于依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合。

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中，所述噪音样本点剔除子模块21包括：

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中，所述样本密度计算子模块22包括：

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类系统中，所述样本生成子模块23包括：

此外，请参阅图2所示，本发明实施例还提供一种基于密度自适应过采样的垃圾邮件分类方法，包括：

S1：输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合；

S2：剔除所述垃圾邮件数据集合中的噪音样本点，获得剔除噪音样本点后的第一垃圾邮件数据集合，计算所述第一垃圾邮件数据集合中的每个样本点的密度，并生成第二垃圾邮件数据集合；

S3：将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和，获得最终的邮件数据集合，利用最终的邮件数据集合对神经网络模型进行训练，获得邮件识别模型；

S4：接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果。

本发明提出了基于密度自适应过采样的垃圾邮件识别方法，其通过去除数据集合中的噪音样本，计算每个样本点的密度大小，并生成新的样本点，从而达到数据样本数量的平衡，克服了现有技术因数据样本数量不平衡而导致的对垃圾邮件检测率较低的问题。

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中，对于上述实施方式的输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合S1，包括：

输入原始邮件数据集合D＝{(x_i,y_i)|x_i∈R^d,y_i∈{0,1},i＝1,…,n}，n是原始邮件数据集合中样本的总数，d是原始邮件数据集合的特征数，x_i表示第i条邮件数据，y_i是其标签。若y_i＝0，则x_i为非垃圾邮件；若y_i＝1，则x_i为垃圾邮件。令D＝D_maj∪D_min，其中D_maj为多数类数据集合，即非垃圾邮件数据集合，其样本数记为n_maj；D_min为少数类数据集合，即垃圾邮件数据集合，其样本数记为n_min。令所需新生成的样本点个数为n_new＝n_maj-n_min。

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中，对于上述实施方式的剔除所述垃圾邮件数据集合中的噪音样本点，获得剔除噪音样本点后的第一垃圾邮件数据集合，计算所述第一垃圾邮件数据集合中的每个样本点的密度，并生成第二垃圾邮件数据集合S2，包括：

S2.1：计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若判断结果为是，则剔除该样本点，并更新所述垃圾邮件数据集合中的样本点，若判断结果为否，则保留该样本点。具体地，计算垃圾邮件数据集合中的样本点的均值μ＝[μ₁,μ₂,...,μ_d]^T以及标准差σ＝[σ₁,σ₂,...,σ_d]^T，若对i∈[1,…,n_min]，j＝1,…,d，只要|x_ij-μ_j|＞4σ_j成立，则该样本点被认为是噪音样本点，若样本点为噪音样本点，则去除这些样本点，得到第一垃圾邮件数据集合D'_min，其样本点个数记为n'_min。

S2.2：计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数。具体地，在第一垃圾邮件数据集合D'_min中，对于样本点x_i(x_i∈D'_min,i＝1,…,n'_min)寻找其K个同类近邻

令

表示样本点x_i和其近邻

之间的欧氏距离，则第一垃圾邮件数据集合中每个样本点的密度计算为

得到D'_min中每个样本点的密度之后，先对密度值大小进行归一化操作，即

然后，再计算D'_min中每个样本点周围应生成的样本点个数：N_new(x_i)＝n_new×nor_density(x_i)(i＝1,…,n'_min)。

S2.3：依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合。具体地，由样本点x_i∈D'_min生成一个新样本第j个特征的方案：

其中α_j∈(0,1)是为第j个特征随机产生的生成系数，函数

表示从x_i的近邻集合中

中随机选择一个近邻并取其第j个特征值。由此，在x_i周围生成的新样本为：

并将其加入到集合D_new中，对样本点x_i，需要在其周围生成N_new(x_i)个新样本，重复新样本生成的步骤即可；对D'_min中的所有样本点，重复新样本生成的步骤，直到所有样本点都被遍历过。由此，得到第二垃圾邮件数据集合D_new。

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中，对于上述实施方式的将所述生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和，获得最终的邮件数据集合，利用最终的邮件数据集合对神经网络模型进行训练，获得邮件识别模型S3，包括：

令D'＝D∪D_new为过采样之后的最终的邮件数据集合，将D'作为训练模型的输入数据，采用成熟的分类技术，例如决策树或者朴素贝叶斯分类器来训练得到邮件识别模型。

在本发明公开的一种基于密度自适应过采样的垃圾邮件分类方法中，对于上述实施方式的接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果S4，包括：

将接收到的待识别的邮件数据x∈R^d输入到邮件识别模型中，由输出来判断该邮件数据是否为垃圾邮件。

为了验证本发明提出的基于密度自适应过采样的垃圾邮件分类系统及其方法的性能。本发明在Spambase数据集上进行五折交叉验证实验。将数据集随机划分成五份，其中一份最为测试集，其余四份作为训练集进行新数据样本的生成。在样本生成后，对测试集进行分类，采用决策树CART(max_depth＝10)和GaussianNB(高斯分布朴素贝叶斯)来对过采样之后得到新的数据集进行分类，我们取十次五折交叉验证得到的平均值作为该实验的结果。在过采样方法中，对比方法采用SMOTE和BorderLine-SMOTE。

采用AUC，F1-score，G-mean三个不同评价指标下对分类效果进行评估，混淆矩阵如表1所示：

表1混淆矩阵

	预测值＝1	预测值＝0
			真实值＝1	TP	FN
真实值＝0	FP	TN

AUC＝Area Under Receiver Operating Characteristic Curve

分类结果如表2所示，本发明与SMOTE和BorderLineSMOTE相比，在AUC，F1-score，G-mean这三个指标下均取得了比较好的效果。

表2三种过采样方法的结果对比

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于密度自适应过采样的垃圾邮件分类系统，其特征在于，包括：

数据输入模块，所述数据输入模块用于输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合，包括输入原始邮件数据集合D＝{(x_i,y_i)|x_i∈R^d,y_i∈{0,1},i＝1,L,n}，n是原始邮件数据集合中样本的总数，d是原始邮件数据集合的特征数，x_i表示第i条邮件数据，y_i是其标签,若y_i＝0，则x_i为非垃圾邮件；若y_i＝1，则x_i为垃圾邮件,令D＝D_maj∪D_min，其中D_maj为多数类数据集合，即非垃圾邮件数据集合，其样本数记为n_maj；D_min为少数类数据集合，即垃圾邮件数据集合，其样本数记为n_min,令所需新生成的样本点个数为n_new＝n_maj-n_min；

数据训练模块，所述数据训练模块用于将生成的第二垃圾邮件数据集合和原始邮件数据集合进行求和，获得最终的邮件数据集合，利用最终的邮件数据集合对神经网络模型进行训练，获得邮件识别模型；

邮件识别模块，所述邮件识别模块用于接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果；

其中，所述过采样模块包括：

噪音样本点剔除子模块，其用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若判断结果为是，则剔除该样本点，并更新所述垃圾邮件数据集合中的样本点，若判断结果为否，则保留该样本点,具体包括计算垃圾邮件数据集合中的样本点的均值μ＝[μ₁,μ₂,...,μ_d]^T以及标准差σ＝[σ₁,σ₂,...,σ_d]^T，若对i∈[1,L,n_min]，j＝1,L,d，只要|x_ij-μ_j|＞4σ_j成立，则该样本点被认为是噪音样本点，若样本点为噪音样本点，则去除这些样本点，得到第一垃圾邮件数据集合D'_min，其样本点个数记为n'_min；

样本密度计算子模块，其用于计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数，具体包括在第一垃圾邮件数据集合D'_min中，对于样本点x_i(x_i∈D'_min,i＝1,L,n'_min)寻找其K个同类近邻

令

表示样本点x_i和其近邻

然后，再计算D'_min中每个样本点周围应生成的样本点个数：N_new(x_i)＝n_new×nor_density(x_i)(i＝1,L,n'_min)；

样本生成子模块，其用于依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合，具体包括由样本点x_i∈D'_min生成一个新样本第j个特征的方案：

其中α_j∈(0,1)是为第j个特征随机产生的生成系数，函数

表示从x_i的近邻集合中

中随机选择一个近邻并取其第j个特征值，由此，在x_i周围生成的新样本为：

并将其加入到集合D_new中，对样本点x_i，需要在其周围生成N_new(x_i)个新样本，重复新样本生成的步骤即可；对D'_min中的所有样本点，重复新样本生成的步骤，直到所有样本点都被遍历过，由此，得到第二垃圾邮件数据集合D_new。

2.根据权利要求1所述的基于密度自适应过采样的垃圾邮件分类系统，其特征在于：所述噪音样本点剔除子模块包括：

判决单元，所述判决单元用于基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若判断结果为是，则剔除该样本点，并更新所述垃圾邮件数据集合中的样本点，若判断结果为否，则保留该样本点。

3.根据权利要求1所述的基于密度自适应过采样的垃圾邮件分类系统，其特征在于：所述样本密度计算子模块包括：

4.根据权利要求1所述的基于密度自适应过采样的垃圾邮件分类系统，其特征在于：所述样本生成子模块包括：

5.一种基于密度自适应过采样的垃圾邮件分类方法，其特征在于，包括：

S1：输入原始邮件数据集合，其中所述原始邮件数据集合包括垃圾邮件数据集合和非垃圾邮件数据集合，包括输入原始邮件数据集合D＝{(x_i,y_i)|x_i∈R^d,y_i∈{0,1},i＝1,L,n}，n是原始邮件数据集合中样本的总数，d是原始邮件数据集合的特征数，x_i表示第i条邮件数据，y_i是其标签,若y_i＝0，则x_i为非垃圾邮件；若y_i＝1，则x_i为垃圾邮件,令D＝D_maj∪D_min，其中D_maj为多数类数据集合，即非垃圾邮件数据集合，其样本数记为n_maj；D_min为少数类数据集合，即垃圾邮件数据集合，其样本数记为n_min,令所需新生成的样本点个数为n_new＝n_maj-n_min；

S4：接收待识别的邮件数据，并将其输入至所述邮件识别模型，输出所述邮件数据的识别结果；

其中，步骤S2包括以下步骤：

S2.1：噪音样本点剔除子模块，其用于计算所述垃圾邮件数据集合中的样本点的均值以及标准差，并基于所述样本点的均值和标准差判断所述样本点是否为噪音样本点，若判断结果为是，则剔除该样本点，并更新所述垃圾邮件数据集合中的样本点，若判断结果为否，则保留该样本点,具体包括计算垃圾邮件数据集合中的样本点的均值μ＝[μ₁,μ₂,...,μ_d]^T以及标准差σ＝[σ₁,σ₂,...,σ_d]^T，若对i∈[1,L,n_min]，j＝1,L,d，只要|x_ij-μ_j|＞4σ_j成立，则该样本点被认为是噪音样本点，若样本点为噪音样本点，则去除这些样本点，得到第一垃圾邮件数据集合D'_min，其样本点个数记为n'_min；

S2.2：样本密度计算子模块，其用于计算第一垃圾邮件数据集合中的每个样本点的密度值，并对密度值进行归一化处理，并计算第一垃圾邮件数据集合中每个样本点周围应生成的样本点个数，具体包括在第一垃圾邮件数据集合D'_min中，对于样本点x_i(x_i∈D'_min,i＝1,L,n'_min)寻找其K个同类近邻

令

表示样本点x_i和其近邻

S2.3：样本生成子模块，其用于依据每个样本点周围应生成的样本点个数生成新的样本点，获得第二垃圾邮件数据集合，具体包括由样本点x_i∈D'_min生成一个新样本第j个特征的方案：

其中α_j∈(0,1)是为第j个特征随机产生的生成系数，函数

表示从x_i的近邻集合中