CN108694202A

CN108694202A - 基于分类算法的可配置垃圾邮件过滤系统及过滤方法

Info

Publication number: CN108694202A
Application number: CN201710230749.9A
Authority: CN
Inventors: 于泽平; 褚乾峰; 张学文; 朱信宇; 苏波; 刘功申
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2018-10-23

Abstract

本发明提供了一种基于分类算法的可配置垃圾邮件过滤系统，包括：训练模块、测试模块、应用模块以及中间文件生成模块，所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接；同时提供了一种基于分类算法的可配置垃圾邮件过滤方法。本发明将不同种类的垃圾邮件分类训练的结果要优秀很多。不同受众群体对于垃圾邮件的定义不同，需要过滤的邮件种类也不同，提供垃圾邮件分类过滤的功能正是符合用户的需求，提升用户体验。

Description

基于分类算法的可配置垃圾邮件过滤系统及过滤方法

技术领域

本发明涉及邮件过滤技术领域，具体地，涉及一种基于分类算法的可配置垃圾邮件过滤系统及过滤方法。

背景技术

垃圾邮件的识别很早就引起了人们的关注，学者们尝试了不同的方法来解决这个问题。比如基于内容的垃圾邮件过滤技术，基于社会信息的垃圾邮件过滤技术等。目前基于内容的反垃圾邮件技术主要分为基于规则的过滤方法和基于概率的过滤方法。其中，基于规则的过滤方法主要有决策树算法等；基于概率的过滤方法主要有贝叶斯过滤算法等。这些垃圾邮件过滤方法考虑了邮件的内容等信息，但很有可能错把普通邮件当成垃圾邮件，或是把垃圾邮件当成普通邮件。因此，需要更有效的方法对垃圾邮件进行识别与过滤。深度学习作为新兴的机器学习方法，在语音识别、图像识别等领域取得巨大成功。在垃圾信息识别领域，深度学习方法同样有很大的建树。

目前比较经典的垃圾邮件过滤方法是基于朴素贝叶斯(Bayes)算法的过滤方法。由于邮件是一个无结构的文本，需要把它表示成一个向量才能进行计算。在贝叶斯分类算法中，一般采用向量空间模型来实现邮件向量化。

贝叶斯网络是一个二元组B＝<G，Θ>。其中，G是一个有向无环图，图中的节点表示随机变量Xi，节点之间的有向边表示随机变量之间的条件依赖关系。Θ是节点的参数向量，每个分量是一个条件概率表，定义了对应节点的局部概率分布。

贝叶斯网络结构表示了一个节点Xi在给定其父节点条件下和网络中的非后代节点条件独立。一个贝叶斯分类器就是用于分类任务的贝叶斯网络，它包含了一个代表类别变量的节点C，以及代表特征变量的节点Xi。给定一个实例x(特征变量的一组值x1，x2，…，xn)，贝叶斯网络能让我们计算出每个可能的类别ck的概率P(C＝ck|X＝x)，而分类的任务就是找出使得P(C＝ck|X＝x)最大的ck。根据贝叶斯定理：

P(C＝Ck|X＝x)＝P(X＝x|C＝ck)P(C＝ck)/P(X＝x)

上述公式中，P(X＝x)对每个类别ck都相同，不需要考虑。先验概率P(C＝ck)可以用样本空间中属于类别ck中的向量总数占样本空间中的向量总数的比例表示，最后计算出P(X＝x|C＝ck)即可。

但是，在众多垃圾邮件过滤器中，很少有对垃圾邮件进行分类过滤的软件。在日常生活中，我们发现不同年龄段、不同职业的人群对垃圾邮件有着不同的理解。例如学术会议类的邮件，大部分人平时不会去阅读这类邮件，但许多科研人员都需要通过阅读它们来了解最新的科学知识，它们对于从事科研的学者来说是提升自我的机会；又如最经典的商业广告类邮件，它们严重影响了大部分群众的邮件交流体验，但对于从事商业广告类的研究人员，这些邮件却是不可多得的样本。同理，很多外文邮件对于年轻人未必是垃圾邮件，反而有可能是工作中的机会，或是与外国朋友间的交往；但对于那些从不用外文的中、老年人来说，哪怕是看见这些不认识的文字都会觉得头痛。

因此，对垃圾邮件的识别与过滤需要建立在不同受众的需求之上，对垃圾邮件进行多种分类与过滤正是解决这个问题的良好方法。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中存在的上述不足，本发明的目的是提供一种基于分类算法的可配置垃圾邮件过滤系统及过滤方法，“可配置”垃圾邮件分类过滤的功能符合用户的需求，并可以提升用户体验。将垃圾邮件分为商业广告类、征婚交友类、英文类、学术会议类等六类，使用深度学习分类器进行垃圾邮件过滤，本发明不仅能有效过滤垃圾邮件，更是从垃圾邮件过滤器使用者的角度出发，提出了一种垃圾邮件分类过滤的新方案。

为实现上述目的，本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于分类算法的可配置垃圾邮件过滤系统，包括：训练模块、测试模块、应用模块以及中间文件生成模块，所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接；

其中：

所述训练模块用于建立初步的垃圾邮件分类模型；

所述测试模块用于确定初步的垃圾邮件分类模型的最优参数，并得到最优的垃圾邮件分类模型；

所述应用模块用于识别并过滤不同种类的垃圾邮件，其中垃圾邮件的类别根据用户的需求具体配置；

所述中间文件生成模块用于存储中间生成的文件，并应用于训练模块、测试模块以及应用模块。

优选地，所述训练模块包括依次连接的训练数据集载入单元、中文分词单元A、数字矩阵生成单元A、特征选择单元和分类算法单元；其中：

所述训练数据集载入单元用于载入用于训练的中文邮件数据集；

中文分词单元A用于将用于训练的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本，得到分词后的邮件；

数字矩阵生成单元A用于将分词后的邮件转化为数字矩阵；所述数字矩阵包括矩阵x和矩阵y，其中，矩阵x是一个m×n的矩阵，表示单词的数据部分，矩阵x的每一行表示一个单词的维数为n的词向量，矩阵x的每一列表示一个单词，m为单词个数；矩阵y是一个m×1的矩阵，表示邮件中每篇文档对应的分类；

特征选择单元用于剔除不相关或亢余的特征；

分类算法单元用于训练初步的垃圾邮件分类模型，将不同种类的垃圾邮件分为不同的类别进行训练，并经过分类算法得到初步的垃圾邮件分类模型。

优选地，所述用于训练的中文邮件数据集包括二分类和多分类两种属性，其中：

所述二分类属性，是指中文邮件数据集根据邮件类别分为垃圾邮件和普通邮件两类；

所述多分类属性，是指中文邮件数据集分为具体的垃圾邮件种类；

优选地，当中文邮件数据集为二分类属性时，矩阵y包括普通邮件和垃圾邮件两类，当中文邮件数据集为多分类属性时，矩阵y中有多类，分别表示不同种类的垃圾邮件。

优选地，特征选择单元在剔除特征时，采用卷积神经网络的池化方法进行特征选择；

优选地，所述不相关或亢余的特征在数字矩阵中表示为0项。

优选地，所述分类算法采用深度学习分类算法。

优选地，所述测试模块包括测试数据集载入单元、中文分词单元B、数字矩阵生成单元B以及应用模型生成单元；其中：

所述测试数据集载入单元用于载入用于测试的中文邮件数据集；

所述中文分词单元B用于将用于测试的中文邮件数据集中以句子为单位的邮件样本转化为以词为单位的邮件样本，生成分词后的邮件；

数字矩阵生成单元B用于将分词后的邮件转化为数字矩阵；所述数字矩阵包括矩阵x和矩阵y，其中，矩阵x是一个m×n的矩阵，表示单词的数据部分，矩阵x的每一行表示一个单词的维数为n的词向量，矩阵x的每一列表示一个单词，m为单词个数；矩阵y是一个m×1的矩阵，表示邮件中每篇文档对应的分类；

模型优化单元用于优化训练初步的垃圾邮件分类模型的参数，根据用于测试的中文邮件数据集的准确率判断参数的优劣，并经过调整参数，得到最优的垃圾邮件分类模型。

所述多分类属性，是指中文邮件数据集分为具体的垃圾邮件种类。

优选地，所述应用模块包括：客户端模式单元和服务器端模式单元；其中：

所述客户端模式单元用于提供客户端模式，所述客户端模式具体为：

在客户端进行垃圾邮件过滤时，针对不同客户端设置垃圾邮件过滤插件；

所述服务器端模块单元用于提供服务器端模块，所述服务器端模式具体为：

在服务器端进行垃圾邮件过滤时，在服务器后台设置垃圾邮件分类模型；包括如下步骤：服务器端配置分类算法单元，再根据用户类型设置垃圾邮件类型，最后用户选择希望过滤的垃圾邮件类型。

优选地，中间文件生成模块包括：训练语料词典集单元、得到模型单元以及得到最终结果单元；其中：

所述训练语料词典集单元连接于训练模块的中文分词单元A和测试模块的中文分词单元B之间，用于保存中文分词单元A中的单词集合，形成训练语料词典集，所述训练语料词典集中的单词以词频排序，其中每个单词赋予一个词向量，在应用中文分词单元B时，经过中文分词后，每个单词在训练语料词典集中找到对应的词向量，再以词频排序形成数字矩阵；

所述得到模型单元连接于训练模块的分类算法单元和测试模块的应用模型单元之间，用于存储初步的垃圾邮件分类模型，在训练模块中，分类算法单元对不同种类的垃圾邮件训练后得到初步的垃圾邮件分类模型；在测试模块中，使用用于测试的中文邮件数据集测试初步的垃圾邮件分类模型，计算初步的垃圾邮件分类模型的准确率，再调整初步的垃圾邮件分类模型的参数，重新计算准确率，直到准确率最大，即得到最优的垃圾邮件分类模型。

所述得到最终结果单元连接于测试模块的应用模型单元与应用模块之间，用于判断是否为垃圾邮件。

优选地，所述词向量采用one-hot向量、GloVe向量或word2vec向量。

根据本发明的另一个方面，提供了一种基于分类算法的可配置垃圾邮件过滤方法，包括如下步骤：

步骤S1，将标准数据集作为训练中文文本载入训练模块的训练数据集载入单元，并将标准数据集中的中文词汇通过训练模块的中文分词单元A进行分词操作，训练出一个训练语料词典集；

步骤S2，训练模块的数字矩阵生成单元A将训练语料词典集内的邮件文档转化为数字矩阵，即，即将邮件文档的文本格式转化为数学描述语言；

步骤S3，训练模块的特征选择单元对生成的数字矩阵进行不相关或亢余的特征提取；

步骤S4，训练模块的分类算法单元对提取出特征的数字矩阵进行训练，得到初步的垃圾邮件分类模型；

步骤S5，使用测试模块中载入的用于测试的中文邮件数据集对初步的垃圾邮件分类模型的参数进行调整优化，计算初步的垃圾邮件分类模型的准确率，直至得到最高的准确率，生成最优的垃圾邮件分类模型。

优选地，所述标准数据集采用CDSCE垃圾邮件语料库。

优选地，所述分词操作包括如下步骤：

基于HMM模型，将标准数据集中的中文词汇按照B、E、M、S四个状态进行标记；其中，B代表开始位置，E代表结束位置，M代表中间位置，S代表单独成词的位置。

优选地，所述数字矩阵包括矩阵x和矩阵y；

其中，矩阵x是一个m×n的矩阵，表示数据部分，矩阵x的每一行表示一个单词的维数为n的词向量，矩阵x的每一列表示一个单词，m为单词个数；矩阵y是一个m×1的矩阵，表示邮件中每篇文档对应的分类。

优选地，所述特征选择单元采用卷积神经网络分类算法对不相关或亢余的特征进行提取，所述分类算法单元通过池化过程进行特征筛选及矩阵训练，具体包括如下步骤：

特征选择单元采用卷积神经网络分类算法对数字矩阵中的不相关或亢余的特征进行提取，设数字矩阵的大小为r×c，所述数字矩阵中包含有k个特征矩阵，每个特征矩阵大小为a×b，每一篇邮件能够学习到k个大小为(r-a+1)×(c-b+1)的卷积特征；将卷积特征看做一个子矩阵，并在这个子矩阵上划分出不重合的区域，然后在每个不重合的区域上计算该区域内特征的均值或最大值，然后利用这些均值或最大值参与后续的矩阵训练，完成池化过程。

与现有技术相比，本发明具有如下的有益效果：

采用本发明提供的基于分类算法的可配置垃圾邮件过滤系统，实现垃圾邮件的具体分类，不仅仅可以提高垃圾邮件过滤的成功率，更大大提升了用户体验，具体有如下：

1、提高训练效率

现有的垃圾邮件过滤器通常将所有垃圾邮件一起训练，但由于不同种类垃圾邮件的关键词、成句方式等特征不同，将所有垃圾邮件归于一类会降低分类的准确率。采用垃圾邮件分类过滤的方法可以将不同种类的垃圾邮件分类训练，提高训练效率与准确率。同时，使用深度学习分类方法作为分类器，效果优于传统的贝叶斯过滤、黑白名单过滤等用于垃圾邮件过滤的分类器。

2、提升用户体验

不同用户对邮件的过滤需求不同，对垃圾邮件的定义也不同。现有的垃圾邮件过滤器通常将所有垃圾邮件都过滤到垃圾箱内，但由于用户需求的不确定性，许多“垃圾邮件”对于不同职业、年龄的用户，正是他们所需的邮件。而许多正常的邮件是他们需要过滤的邮件。因此，预先建立多种类别的垃圾邮件分类过滤器，可以让用户根据自己的需求选择过滤相应类别的邮件，从而实现了方便用户的垃圾邮件过滤方法，提升用户体验。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为系统设计框图

图2为outlook插件示意图；

图3为选择过滤的邮件类型；

图4为发送商业广告类邮件；

图5为若选择了商业广告类，则被过滤；

图6为不选择商业广告类；

图7为不被过滤，为正常邮件；

图8为服务器端邮件过滤流程图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

实施例

本实施例提供了一种基于分类算法的可配置垃圾邮件过滤系统，包括：训练模块、测试模块、应用模块以及中间文件生成模块，所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接；其中：

所述训练模块用于建立初步的垃圾邮件分类模型；

所述应用模块用于识别并过滤具体的不同种类的垃圾邮件，其中垃圾邮件的类别可根据用户的需求具体配置；

所述中间文件生成模块用于存储中间生成的文件，并应用于其它模块(训练模块、测试模块、应用模块)。

进一步地，所述训练模块包括依次连接的训练数据集载入单元、中文分词单元A、数学矩阵生成单元A、特征选择单元和分类算法单元；其中：

所述训练数据集载入单元用于载入用于训练的中文邮件数据集。中文邮件数据集包括二分类和多分类两种属性，若是二分类，则将中文邮件数据集根据邮件种类分为垃圾邮件和普通邮件两类。若是多分类，则将中文邮件数据集分为具体的垃圾邮件种类；

中文分词单元A用于将中文邮件数据集中原本是以句子为单位的邮件样本转化为以词为单位的邮件样本，生成分词后的邮件，便于将文本语言转化为计算机可识别的信息；

数字矩阵生成单元A用于将分词后的邮件转化为数字矩阵，便于计算机识别与训练。数字矩阵包括矩阵x和矩阵y，矩阵x是一个m×n的表示单词数据部分的矩阵，它每一行表示一个单词的维数为n的词向量，每一列表示一个单词，m为单词个数。例如一个200词的邮件文本，若用100维的词向量表示，则将得到200×100维的矩阵作为输入。矩阵y是一个m×1的矩阵，表示邮件中每篇文档对应的分类。在二分类中，矩阵y中只有两类，分别为普通邮件和垃圾邮件，在多分类中，矩阵y中有多类，表示不同种类的垃圾邮件；

特征选择单元用于将不相关或亢余的特征剔除，从而达到提高模型精确度，减少运行时间的目的。在本实施例中使用的卷积神经网络深度学习分类算法中，采用卷积神经网络具有的池化方法进行特征选择；

分类算法单元用于训练初步的垃圾邮件分类模型，将不同种类的垃圾邮件分为不同的类别进行训练，经过分类算法得到初步的模型。

分类算法单元可以采用任一种分类算法训练初步的垃圾邮件分类模型，在本实施例中，采用深度学习分类算法训练，能够得到最佳的效果。

进一步地，所述不相关或亢余的特征在数字矩阵中表示为0项。

进一步地，所述测试模块包括测试数据集载入单元、中文分词单元B、数学矩阵生成单元B以及应用模型生成单元，经过测试模块对初步的垃圾邮件分类模型参数的优化，得到最优的垃圾邮件分类模型；其中：

所述测试数据集载入单元用于载入用于测试的中文邮件数据集。所述中文邮件数据集包括二分类和多分类两种属性，若是二分类，则将中文邮件数据集根据邮件种类分为垃圾邮件和普通邮件两类。若是多分类，则将中文邮件数据集分为具体的垃圾邮件种类；

所述中文分词单元B用于将原本是以句子为单位的邮件样本转化为以词为单位的邮件样本，生成分词后的邮件，便于将文本语言转化为计算机可识别的信息；

数字矩阵生成单元B用于将分词后的邮件转化为数字矩阵，便于计算机识别与训练。数字矩阵包括矩阵x和矩阵y，矩阵x是一个m×n的表示单词数据部分的矩阵，它每一行表示一个单词的维数为n的词向量，每一列表示一个单词，m为单词个数。例如一个200词的邮件文本，若用100维的词向量表示，则将得到200×100维的矩阵作为输入。矩阵y是一个m×1的矩阵，表示每篇文档对应的分类。在二分类中，矩阵y中只有两类，分别为普通邮件和垃圾邮件，在多分类中，矩阵y中有多类，表示不同种类的垃圾邮件；

模型优化单元用于优化初步的垃圾邮件分类模型的参数，根据测试集(用于测试的中文邮件数据集)的准确率判断模型参数的优劣，并经过调整模型参数，得到最优的垃圾邮件分类模型。

进一步地，所述应用模块包括：客户端模式单元和服务器端模式单元；其中：

所述客户端模式单元用于提供客户端模式，所述客户端模式具体为：在客户端进行垃圾邮件过滤时，针对不同客户端设置垃圾邮件过滤插件；

例如对于foxmail的客户端，需要编写foxmail垃圾邮件过滤插件，而对于outlook客户端，则需要编写outlook垃圾邮件过滤插件。以outlook为例，基于Visual Studio 2015平台下VSTO(Visual Studio Tools for Office)，以C#实现编写可配置的outlook插件，导入在.NET上实现Python语言的工具IronPython模块。通过使用IronPython运行库，让Python脚本运行在.NET程序中。利用MailItem库获取接收到的邮件，将其作为输入导入至执行垃圾邮件判定的python代码中，经过分类算法单元的判定，返回用户所设置的各个需要过滤的邮件种类的概率。若此邮件的某类概率超过某阈值，则判定该邮件为垃圾邮件，将其移至outlook垃圾邮件箱，否则就正常接收邮件；

所述服务器端模块单元用于提供服务器端模块，所述服务器端模式具体为：在服务器端进行垃圾邮件过滤时，在服务器后台设置垃圾邮件分类模型。服务器端可进行更复杂的设置，根据用户类型设置垃圾邮件的类型，同时也可以在用户使用时自己配置需要过滤的垃圾邮件类型。具体步骤为：服务器端配置分类算法单元，再根据用户类型设置垃圾邮件类型，最后用户可选择自己希望过滤的垃圾邮件类型。

进一步地，中间文件生成模块包括：训练语料词典集单元、得到模型单元以及得到最终结果单元；其中：

所述训练语料词典集单元连接于训练模块的中文分词单元A和测试模块的中文分词单元B之间，用于保存中文分词单元A中的单词集合(即训练语料词典集)，单词集合中的单词以词频排序，其中每个单词赋予一个词向量，这个向量可以是one-hot向量，也可以是GloVe、word2vec等词向量。在应用测试模块时，经过中文分词后，每个单词到单词集合(即训练语料词典集)中找到对应的词向量，再以词频排序形成数字矩阵；

所述得到模型单元连接于训练模块的分类算法单元和测试模块的应用模型单元之间，用于存储初步的垃圾邮件分类模型，在训练模块中，分类算法单元对不同种类的垃圾邮件训练后得到初步的垃圾邮件分类模型。在测试模块中，使用测试集(用于测试的中文邮件数据集)测试初步的垃圾邮件分类模型，计算模型的准确率，再调整模型参数，重新计算，直到模型的准确率最大，形成最优的垃圾邮件分类模型；

本实施例同时提供了一种基于分类算法的可配置垃圾邮件过滤方法，包括如下步骤：

步骤S1，将标准数据集作为训练中文文本(即中文邮件数据集)载入训练数据集载入单元，并将标准数据集中的中文词汇通过中文分词单元A进行分词操作，训练出一个训练语料词典集；

步骤S2，数字矩阵生成单元A将训练语料词典集内的邮件文档转化为数字矩阵，即，文档的文本格式转化为数学描述语言；

步骤S3，特征选择单元对生成的数字矩阵进行特征提取；

步骤S4，分类算法单元对提取出的特征进行训练，得到初步的垃圾邮件分类模型；

步骤S5，使用测试的中文邮件数据集对初步的垃圾邮件分类模型的参数进行调整优化，计算初步的垃圾邮件分类模型的准确率，直至得到最高的准确率，即最优的垃圾邮件分类模型。

进一步地，所述标准数据集采用CDSCE(CCERT Data Sets of Chinese Emails)垃圾邮件语料库。

进一步地，所述分词操作包括如下步骤：

基于HMM(隐马尔科夫)模型，将标准数据集中的中文词汇按照B、E、M、S四个状态进行标记；其中，B(Begin)代表开始位置，E(End)代表结束位置，M(Middle)代表中间位置，S(Single)代表单独成词的位置。

进一步地，所述数字矩阵包括矩阵x和矩阵y；其中，矩阵x是一个m×n的表示单词数据部分的矩阵，它每一行表示一个单词的维数为n的词向量，每一列表示一个单词，m为单词个数。例如一个200词的邮件文本，若用100维的词向量表示，则将得到200*100维的矩阵作为输入。矩阵y是一个m×1的矩阵，表示邮件中每篇文档对应的分类。在二分类中，矩阵y中只有两类，分别为普通邮件和垃圾邮件，在多分类中，矩阵y中有多类，表示不同种类的垃圾邮件。

进一步地，所述特征选择单元采用卷积神经网络分类算法对特征进行提取，所述分类算法单元通过池化过程进行特征筛选及训练，具体包括如下步骤：

特征选择单元采用卷积神经网络分类算法对数字矩阵中的特征进行提取，，设数字矩阵大小为r×c，包含有k个特征矩阵，每个特征矩阵大小为a×b，那么每一篇邮件就可以学习到k个大小为(r-a+1)×(c-b+1)的卷积特征；将卷积特征看做一个子矩阵，并在这个子矩阵上划分出不重合的区域，然后在每个不重合的区域上计算该区域内特征的均值或最大值，然后利用这些均值或最大值参与后续的训练，完成池化过程。

下面结合附图对本实施例进一步描述。

如图1所示，本实施例提供的基于分类算法的可配置垃圾邮件过滤系统，包括四个模块，分别是训练模块、测试模块、应用模块和中间文件生成模块。其中，部分A是训练模块，部分B是测试模块，部分C是应用模块。部分D是中间文件生成模块，中间文件生成模块生成的中间文件在整个过滤系统的操作过程中起到关键作用，相当于是其他三个模块彼此连接的枢纽。

图1中，从左到右是过滤系统的过滤方法算法流程。

首先，将标准数据集以2∶1的比例分为训练集和测试集，训练集用于训练出初步的模型，测试集用于对初步模型进行测试，并根据准确率的大小调整参数，最终得到最优的模型。

其次，载入训练集，并将每一个邮件文档进行分词操作，训练出一个语料词典集，并将文本转化为数学矩阵。经过了生成矩阵的步骤之后，文本就转化为数学语言，之后的算法都是对数学语言进行操作，不再关心输入的数据是否是文档。生成矩阵的步骤相当于一个分割线，它将纯数学表示的算法和原始的标准文本语料数据集分割开来。生成数学矩阵后，经过特征选择的步骤，剔除不明显的特征，并保留明显的特征，将它作为深度学习分类算法的输入。使用深度学习分类算法训练出初步的模型。

再次，使用测试集对初步的模型进行测试。应用语料词典集，使用深度学习分类算法训练出的模型对测试集中的所有邮件进行分类，并计算分类的准确率。不断调整参数，直至准确率最高，得到最优的模型。

最后，使用得到的最优模型作为垃圾邮件分类模型，训练出几个不同类别的模型。在用户使用时，勾选自己想要过滤的邮件类型，接收邮件时自动完成对邮件的过滤。若是用户需要过滤的邮件，则直接移至垃圾箱内。

事实上，使用许多分类算法都可以得到良好的效果，本研究中使用的是众多分类算法中效果优秀的卷积神经网络分类算法，经过逐层计算，得到最终的训练结果。

(2)模块详述

a.标准数据集

本实施例采用CDSCE(CCERT Data Sets of Chinese Emails)垃圾邮件语料库作为标准数据集载入，这个样本集是CCERT公开的中文邮件样本集，由CERNET收集并维护。CDSCE利用蜜罐技术以收集垃圾邮件，采集所有被发送至尾部为ccert.edu.cn的邮件，最终经人工筛选后加入中文垃圾邮件数据集。CDSCE数据集中，包含20308封垃圾邮件与9042封普通邮件。本实施例将这两个数据集(CDSCE、CCERT)共同作为系统中采用的数据。

b.中文分词方法

对于未在语料词典集中的词，采用基于HMM(隐马尔科夫)模型，将标准数据集中的中文词汇按照B、E、M、S四个状态进行标记。其中，B(Begin)代表开始位置，E(End)代表结束位置，M(Middle)代表中间位置，S(Single)代表单独成词的位置。标记后的中文词汇根据Viterbi算法找到最佳的BEMS序列。按照B打头，E结尾的方式，对待分词的句子重新组合，就得到了分词结果。比如，对待分词的句子“全世界都在学中国话”得到一个BEMS序列[S，B，E，S，S，S，B，E，S]。通过把连续的BE凑合到一起得到一个词，单独的S放单，就得到一个分词结果了：上面的BE位置和句子中单个汉字的位置一一对应，得到全/S世界/BE都/S在/S学/S中国/BE话/S，从而将句子切分为词语。

c.特征提取(生成数学矩阵)

分词过程结束后，生成矩阵x和矩阵y。其中，矩阵x是一个m*n的表示数据部分的矩阵，它每一行表示一个单词的维数为n的词向量，每一列表示一个单词，m为单词个数。例如一个200词的邮件文本，若用100维的词向量表示，则将得到200*100维的矩阵作为输入。矩阵y是一个m*1的矩阵，表示每篇文档对应的分类。在二分类中，矩阵y中只有两类，分别为普通邮件和垃圾邮件，在多分类中，矩阵y中有多类，表示不同种类的垃圾邮件。在生成矩阵后，算法看到的信息就只有矩阵了。

d.特征选择(特征选择及筛选)

由于提取到的特征中有许多不明显的特征，用数学语言表示生成的数学矩阵中有许多为0的项，因此需要进行特征选择，将不明显的特征筛选出来。由于卷积神经网络的特点，可以通过池化过程进行特征选择。在完成卷积特征提取之后，假如矩阵大小为r×c，有k个特征矩阵，每个特征矩阵大小为a×b，那么每一篇邮件就可以学习到k个大小为(r-a+1)×(c-b+1)的卷积特征，把它看做一个矩阵，并在这个矩阵上划分出几个不重合的区域，然后在每个区域上计算该区域内特征的均值或最大值，然后用这些均值或最大值参与后续的训练，完成池化过程。

在本实施例的实现过程中，使用的是一般池化方式(General-Pooling)中的平均池化(Mean-Pooling)，可以有效减少邻域大小受限造成的估计值方差增大的误差。

(3)使用方法

在使用可配置垃圾邮件分类系统进行垃圾邮件过滤时，分为客户端与服务器端两种模式分别实现。

A.客户端

在客户端进行垃圾邮件过滤时，需要针对不同客户端开发插件。例如对于foxmail的客户端，需要编写foxmail垃圾邮件过滤插件，而对于outlook客户端，则需要编写outlook的插件。

以outlook为例，基于Visual Studio 2015平台下VSTO(Visual Studio Toolsfor Office)，以C#实现编写可配置的outlook插件，可安装于Microsoft Outlook2010应用程序。Outlook插件导入在.NET上实现Python语言的工具IronPython模块。通过使用IronPython运行库，让Python脚本运行在.NET程序中。利用MailItem库获取接收到的邮件，将其作为输入导入至执行垃圾邮件判定的python代码中，经过深度学习模型的判定，返回用户所设置的各个需要过滤的邮件种类的概率。若此邮件的某类概率超过某阈值，则判定该邮件为垃圾邮件，将其移至outlook垃圾邮件箱，否则就正常接收邮件。

具体步骤如下：

a.打开outlook插件

图2outlook插件示意图

b.勾选需要过滤的邮件种类

图3选择过滤的邮件类型

c.发送商业广告类邮件，以一封当当专业图书网的垃圾邮件作为例子

图4发送商业广告类邮件

d.若勾选了商业广告类，则被当成垃圾邮件，过滤到垃圾箱内

图5若选择了商业广告类，则被过滤

e.如果不勾选商业广告类，则不被当成垃圾邮件

图6不选择商业广告类

图7不被过滤，为正常邮件

其他几种类别的邮件同样可以被分类算法识别并过滤，这里不一一赘述。

B.服务器端

在服务器端进行垃圾邮件过滤时，需要在服务器端进行设置。例如上海交通大学的sjtu邮箱，在上海交通大学网络中心的服务器端编写分类过滤的功能与界面，即可实现可配置垃圾邮件过滤系统。不同的服务器端应根据不同用户的需求进行邮件分类，例如学校邮箱的用户是学生与教工，即可在分类配置中加入“求职”类与“学术会议”类等类别，分别为学生与教工使用不同的过滤器。每当毕业季来临，许多实习或是工作的邮件都会挤满学生们的邮箱，“求职类”邮件对于一些意向为工作的学生需求很大，但对于其他没有到毕业季或是选择升学的学生便成为了垃圾邮件的困扰。经过可配置垃圾邮件过滤系统，他们可以在配置中选择不接受“求职”类邮件，便不会再经受这样的困扰。同样，在很多大学中，许多“学术会议”类邮件会发送到教工的邮箱中。对于那些不从事科研工作类的教工，他们便可以经过可配置垃圾邮件过滤系统选择不接受“学术会议”类邮件。经过分别训练，在学生或教工使用jaccount账号登录邮箱时，便可以根据自己的需求，过滤不同种类的垃圾邮件。我们以上海交通大学邮箱为例，具体的流程如图8所示。

与之前的垃圾邮件过滤方法相比，采用本实施例可配置垃圾邮件过滤系统实现垃圾邮件的具体分类，不仅仅可以提高垃圾邮件过滤的成功率，更大大提升了用户体验，具体有如下优点：

a.提高训练效率

在众多垃圾邮件中，不同种类的垃圾邮件的特点不同，其关键词也不同，因此，经过分词、特征提取等步骤之后得到的词典集、训练结果也不同。把这些不同特点的垃圾邮件分类之后训练出的结果效率必然比没有分类的训练结果高。例如广告类和征婚交友类的邮件，它们分词之后形成的词典集是很不一样的，如果把它们放在一起训练，会有一些不明显却又很有代表性特征被筛选掉。相比之下，将不同种类的垃圾邮件分类训练的结果要优秀很多。

b.提升用户体验

对于不同的用户来说，垃圾邮件的定义并不同。很多大众普遍认为的垃圾邮件对于不同种类的人群都未必是垃圾邮件。例如商业广告类的邮件，对于从事新闻、广告行业的工作人员来说，未必是垃圾邮件，相反，这些邮件往往是最受欢迎的。同理，很多外文邮件对于年轻人未必是垃圾邮件，反而有可能是工作中的机会，或是与外国朋友间的交往；但对于那些从不用外文的中、老年人来说，哪怕是看见这些不认识的文字都会觉得头痛。因此，不同受众群体对于垃圾邮件的定义不同，需要过滤的邮件种类也不同，提供垃圾邮件分类过滤的功能正是符合用户的需求，提升用户体验。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于分类算法的可配置垃圾邮件过滤系统，其特征在于，包括：训练模块、测试模块、应用模块以及中间文件生成模块，所述训练模块、测试模块和应用模块之间分别通过中间文件生成模块连接；

其中：

所述训练模块用于建立初步的垃圾邮件分类模型；

2.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统，其特征在于，所述训练模块包括依次连接的训练数据集载入单元、中文分词单元A、数字矩阵生成单元A、特征选择单元和分类算法单元；其中：

特征选择单元用于剔除不相关或亢余的特征；

3.根据权利要求2所述的基于分类算法的可配置垃圾邮件过滤系统，其特征在于，还包括如下任一项或任多项：

-所述用于训练的中文邮件数据集包括二分类和多分类两种属性，其中：

当中文邮件数据集为二分类属性时，矩阵y包括普通邮件和垃圾邮件两类，当中文邮件数据集为多分类属性时，矩阵y中有多类，分别表示不同种类的垃圾邮件；

-特征选择单元在剔除特征时，采用卷积神经网络的池化方法进行特征选择；

-所述不相关或亢余的特征在数字矩阵中表示为0项；

-所述分类算法采用深度学习分类算法。

4.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统，其特征在于，所述测试模块包括测试数据集载入单元、中文分词单元B、数字矩阵生成单元B以及应用模型生成单元；其中：

5.根据权利要求4所述的基于分类算法的可配置垃圾邮件过滤系统，其特征在于，所述用于训练的中文邮件数据集包括二分类和多分类两种属性，其中：

当中文邮件数据集为二分类属性时，矩阵y包括普通邮件和垃圾邮件两类，当中文邮件数据集为多分类属性时，矩阵y中有多类，分别表示不同种类的垃圾邮件。

6.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统，其特征在于，所述应用模块包括：客户端模式单元和服务器端模式单元；其中：

在服务器端进行垃圾邮件过滤时，在服务器后台设置垃圾邮件分类模型；具体步骤为：服务器端配置分类算法单元，再根据用户类型设置垃圾邮件类型，最后用户选择希望过滤的垃圾邮件类型。

7.根据权利要求1所述的基于分类算法的可配置垃圾邮件过滤系统，其特征在于，中间文件生成模块包括：训练语料词典集单元、得到模型单元以及得到最终结果单元；其中：

所述得到模型单元连接于训练模块的分类算法单元和测试模块的应用模型单元之间，用于存储初步的垃圾邮件分类模型，在训练模块中，分类算法单元对不同种类的垃圾邮件训练后得到初步的垃圾邮件分类模型；在测试模块中，使用用于测试的中文邮件数据集测试初步的垃圾邮件分类模型，计算初步的垃圾邮件分类模型的准确率，再调整初步的垃圾邮件分类模型的参数，重新计算准确率，直到准确率最大，即得到最优的垃圾邮件分类模型；

8.一种基于分类算法的可配置垃圾邮件过滤方法，其特征在于，包括如下步骤：

9.根据权利要求8所述的基于分类算法的可配置垃圾邮件过滤方法，其特征在于，所述分词操作包括如下步骤：

10.根据权利要求8所述的基于分类算法的可配置垃圾邮件过滤方法，其特征在于，所述特征选择单元采用卷积神经网络分类算法对不相关或亢余的特征进行提取，所述分类算法单元通过池化过程进行特征筛选及矩阵训练，具体包括如下步骤：