CN111079427A

CN111079427A - 一种垃圾邮件识别方法及系统

Info

Publication number: CN111079427A
Application number: CN201911329369.6A
Authority: CN
Inventors: 曲武
Original assignee: Beijing Jinjingyunhua Technology Co ltd
Current assignee: Beijing Jinjingyunhua Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-04-28

Abstract

本发明属于邮件识别技术领域，具体涉及一种垃圾邮件识别方法及系统，方法具体包括：获取邮件文本数据；对获取到的邮件文本数据在预先建好的词典中进行分词，得到构成邮件文本数据的项的集合；计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型，并对向量空间模型中项的维数进行压缩，输出经过选择的特征项；对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件。本发明提供的技术方案容易实现，具有普适性，解决了现有垃圾邮件识别方法在特征空间构建时，不能很好的选择特征，以至于后续模型在识别垃圾邮件时准确率低的问题。

Description

一种垃圾邮件识别方法及系统

技术领域

本发明属于邮件识别技术领域，具体涉及一种垃圾邮件识别方法及系统。

背景技术

在传统机器学习理论向垃圾邮件智能处理领域迁移的热潮中，几乎所有可用于文本分类的线性分类算法都被应用到垃圾邮件识别领域中，近年来在反垃圾邮件研究领域的努力呈分化趋势，大体可归纳为如下三个研究方向：对现有统计学习方法进行广泛深入的测评，利用实际采集的垃圾邮件样本对现有算法模型进行测试和比较，通过实验数据揭示各个算法的优缺点，以期寻找最佳的分类算法；二是从经济学视角审视垃圾邮件问题，以提高垃圾邮件发送代价为目标来构造反垃圾邮件机制；三是研究和寻找新的垃圾邮件识别方法，在这方面被广泛关注的研究主题包括：基于行为的垃圾邮件识别方法研究，基于社交网络的垃圾邮件发现与阻断技术研究，采用流量工程理论和思想解决垃圾邮件问题的探索研究，以及从身份验证和圆头追踪角度出发解决垃圾邮件问题的方法设计。

随着垃圾邮件发送者所采用的技术手段不断进步，现有的反垃圾邮件技术并不能一劳永逸的解决垃圾邮件问题。因此，该研究领域的发展趋势呈现出多元化倾向，一部分研究者坚持才采用统计方法构造具备学习能力的垃圾邮件过滤器，其科研努力方向主要是通过广泛测评选择最适宜用于垃圾邮件分类的算法，并设法改进算法以适应垃圾邮件的新变化。

上述解决方案普遍具有对垃圾邮件的显著特征选择性差，从而导致后续模型对垃圾邮件识别率低的问题，为此，本发明提供了一种从算法和变量上综合设计的垃圾邮件识别方法。

发明内容

为了解决上述现有垃圾邮件识别方法在特征空间构建时，不能很好的选择特征，以至于后续模型在识别时准确率低的问题，本发明提供了一种垃圾邮件识别方法及系统，容易实现，具有普适性。

本发明是这样实现的，首先提供一种垃圾邮件识别方法，包括：

获取邮件文本数据；

对获取到的邮件文本数据在预先建好的词典中进行分词，得到构成邮件文本数据的项的集合；

计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型，并对向量空间模型中项的维数进行压缩，输出经过选择的特征项；

对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件。

进一步地，针对不同用户，所述词典中的词不相同，词典构建时将每个词按照每行单独存放的方式存放在文件中，对词典中最长的词的长度进行设置。

进一步地，所述分词采用正向最大匹配分词算法，具体过程为：

以获取到的邮件文本数据的首字为起点，在所述词典中搜索与邮件文本数据匹配的最长的词；

将搜索到的与邮件文本数据匹配的最长的词进行切分，对余下的邮件文本数据重复上述分词过程，直至将邮件文本数据包括的词全部切分完毕，完成分词过程，分出的每一个词即作为构成邮件文本数据的项，得到构成邮件文本数据的项的集合。

进一步地，所述词袋是包括各类文本数据的词典。

进一步地，采用L1/2正则化特征选择算法对所述向量空间模型中项的维数进行压缩。

进一步地，所述分类模型的选择过程为：

将经过特征项选择的、代表邮件文本数据的向量空间模型样本随机划分为训练集和测试集；

对训练集的样本采用5折交叉验证方法选择模型，具体步骤为：

1)将训练集的样本等分为5份；

2)下列步骤重复5次：

201)每一次迭代留存其中一份数据，第一次迭代留存第1份，第二次迭代留存第2份，以此类推，第i次迭代留存第i份；

202)每次迭代中用其他4份数据作为训练数据，训练分类器；

203)每次迭代中利用留存的1份数据作为测试数据，来测试分类器并保存分类结果；

3)从步骤2)中得到的5个分类器模型中，选择准确率最高的模型作为分类模型；

4)用测试集中的样本对步骤3)中选择的分类模型进行结果测试。

进一步地，所述训练集与所述测试集按照7:3的比例进行划分。

进一步地，所述分类模型选择朴素贝叶斯分类模型。

另外，本发明还提供一种垃圾邮件识别系统，包括：

数据获取模块，用于获取邮件文本数据；

分词模块，用于对获取到的邮件文本数据在预先建好的词典中进行分词，得到构成邮件文本数据的项的集合；

降维模块，用于计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型，并对向量空间模型中项的维数进行压缩，输出经过选择的特征项；

垃圾邮件确定模块，用于对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件。

进一步地，所述分词模块包括：

搜索单元，用于以获取到的邮件文本数据的首字为起点，在所述词典中搜索与邮件文本数据匹配的最长的词；

切分单元，用于将搜索单元搜索到的与邮件文本数据匹配的最长的词进行切分，对余下的邮件文本数据重复上述搜索、切分过程，直至将邮件文本数据包括的词全部切分完毕，完成分词过程，分出的每一个词即作为构成邮件文本数据的项，得到构成邮件文本数据的项的集合；

所述降维模块包括：

向量空间模型确定单元，用于计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型；

特征项选择单元，用于对向量空间模型中项的维数进行压缩，输出经过选择的特征项；

所述垃圾邮件确定模块包括：

训练寻优单元模块，用于对分类模型进行训练，从而找到准确率最高的分类模型；

分类模型输出模块，用于使用最优的分类模型，对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件；

所述训练寻优单元模块包括：

样本获取单元，用于获取训练样本集；

词典构建单元，用于构建针对某类用户的词典，并对获取到的样本在词典中进行分词；

词袋构建单元，用于将某类用户不同类别的词典形成词袋，并通过词袋模型形成代表样本邮件数据的向量空间模型；

变量选择单元，用于利用L1/2正则化特征选择算法对代表不同样本的向量空间模型进行降维；

随机划分单元，用于对经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集；

模型训练选择单元，用于利用训练集中的样本训练不同分类模型并选择最优分类模型；

测试单元，用于利用测试集中的样本对选择出的最优模型进行测试验证。

与现有技术相比，本发明的优点在于：利用在词典中分词、L1/2正则化特征选择算法对向量空间模型进行降维的方法，得到具有显著性的高识别度的特征，使后续的分类模型能够准确率更高地识别垃圾邮件。

附图说明

图1为本发明总体框架图；

图2为正向最大匹配分词算法流程图；

图3为利用本发明的技术方案识别垃圾邮件的具体流程图；

图4为本发明提供的一种垃圾邮件识别系统结构图；

图5为垃圾邮件确定模块系统结构图；

图6为训练寻优单元模块系统结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参考图3，为本发明提供的技术方案识别垃圾邮件的具体流程图，具体包括：

步骤301：获取新邮件文本数据；

步骤302：对获取到的邮件文本数据在预先建好的词典中进行分词，得到构成邮件文本数据的项的集合；

针对不同用户，所述词典中的词不相同，例如，可以利用某个词在某领域垃圾邮件中出现的阈值来判断是否要将其放置到词典中。词典构建时将每个词按照每行单独存放的方式存放在文件中，对词典中最长的词的长度(MaxL)进行设置。词袋是包括各类文本数据的词典。

分词方法采用正向最大匹配分词算法，参考图2，具体过程为：

步骤201：设获取到的邮件文本数据即待切分字符为S₁，待输出的词语串为S₂，S₂初始值为0，设置最长切分的词长为MaxL，比如可以设MaxL＝8；

步骤202：首先检测S₁是否为空；

步骤203：若S₁为空，则直接输出结果；

步骤204：若S₁不为空，则从S₁的左边开始，截取候选的字符串W，W的长度不能大于MaxL；

步骤205：查词典，看W是否在词典中；

步骤206：如果在，则将S₁重新定义为S₁-W，将S2定义为S2+W+‘/’，其中‘/’表示后续继续被切分出的字符串，重复步骤202、步骤203、步骤204、步骤205；

步骤207：如果W不在词典中，则将W最右边的一个字去掉；

步骤208：检测W是否为单字，如果是，则转到步骤206，然后重复步骤202、步骤204、步骤205、步骤206、步骤202、步骤203；如果W不是单字，则转到步骤205，循环分词，直至将待切分字符为S₁全部分词完毕，输出结果S₂。

分出的每一个词即作为构成邮件文本数据的项，得到构成邮件文本数据的项的集合。

步骤303：计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型，并对向量空间模型中项的维数进行压缩，输出经过选择的特征项；

词袋模型的主要思想，是构建各类文本的词典，然后针对获取到的邮件文本数据，计算该邮件的文本数据的分好的每个词在词典中对应位置出现的次数，并且词袋模型忽略掉文本的语法和语序要素，将邮件文本数据看做是若干个词汇的结合，文档中每个词的出现都是独立的，即使用一组无序的单词来表达一段文字或者一个文档，置于本实施例中即时使用一组无序的单词来表达一个邮件的文本数据，并且赋予每个单词唯一的索引，因此，一个邮件的文本就形成了一个多维的向量。

一个邮件的文本词汇可以是很大的，因此构成邮件的向量空间模型的维数也是很大的，由此容易造成两个问题：一是程序运行的效率下降，二是由于文本的所有词汇对于文本的分类意义不同，例如通用的词汇对于文本分类的贡献小，而某些特定类别中的词语对文本分类贡献的意义大，对文本分类意义不大的词汇的存在，容易造成对文本的分类精度下降。

为了实现对构成邮件的向量空间模型的降维，本发明采用L1/2正则化特征选择算法。

步骤304：对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件。

而并不是任意的分类模型均可以作为垃圾邮件的识别模型，参考图1，为本发明的整体构思框架图，包括：

步骤101：搜集要训练的文本样本；

步骤102：将搜集到的每个文本样本，在构建好的词典中进行分词，词典是根据不同的用户对其所处领域的垃圾邮件中含有的特征词的类别而建立的；

步骤103：将分好词的每个文本样本在构建好的词袋中建立向量空间模型；

步骤104：利用L1/2正则化特征选择算法进行变量选择，也就是对向量空间模型进行降维；

步骤105：将经过降维的所有样本进行随机划分，在本实施例中，训练集占70％，测试集占30％；

步骤106：根据训练集进行模型选择，具体过程采用5折交叉验证方法选择模型，具体步骤为：

1)将训练集的样本等分为5份；

2)下列步骤重复5次：

202)每次迭代中用其他4份数据作为训练数据，训练分类器；

3)从步骤2)中得到的5个分类器模型中，选择准确率最高的模型作为分类模型，本实施例选择朴素贝叶斯模型；

步骤107：用步骤3)中选择的分类模型对测试集中的样本对进行结果测试，验证该模型的正确性。

根据训练及测试结果，能够确认朴素贝叶斯模型为准确率最高的模型，即可将本发明的技术方案按照图3进行垃圾邮件的识别。

参考图4，本发明还提供了一种垃圾邮件识别系统，包括数据获取模块401、分词模块402、降维模块403和垃圾邮件确定模块404，数据获取模块401用于获取邮件文本数据，分词模块402用于对获取到的邮件文本数据在预先建好的词典中进行分词，得到构成邮件文本数据的项的集合；降维模块403用于计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型，并对向量空间模型中项的维数进行压缩，输出经过选择的特征项；垃圾邮件确定模块404用于对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件。

其中，分词模块402包括搜索单元和切分单元，搜索单元用于以获取到的邮件文本数据的首字为起点，在所述词典中搜索与邮件文本数据匹配的最长的词；切分单元用于将搜索单元搜索到的与邮件文本数据匹配的最长的词进行切分，对余下的邮件文本数据重复上述搜索、切分过程，直至将邮件文本数据包括的词全部切分完毕，完成分词过程，分出的每一个词即作为构成邮件文本数据的项，得到构成邮件文本数据的项的集合；

降维模块403包括向量空间模型确定单元和特征项选择单元，向量空间模型确定单元用于计算集合中每一项在预先建好的词袋中出现的次数，形成邮件文本数据的向量空间模型；特征项选择单元用于对向量空间模型中项的维数进行压缩，输出经过选择的特征项。

参考图5，垃圾邮件确定模块404包括训练寻优单元模块501和分类模型输出模块502，训练寻优单元模块501用于对分类模型进行训练，从而找到准确率最高的分类模型，分类模型输出模块502用于使用最优的分类模型，对经过特征项选择的、代表邮件文本数据的向量空间模型通过分类模型进行输出，确定垃圾邮件。

参考图6，训练寻优单元模块包括样本获取单元601、词典构建单元602、词袋构建单元603、变量选择单元604、随机划分单元605、模型训练选择单元606和测试单元607，样本获取单元601用于获取训练样本集；词典构建单元602用于构建针对某类用户的词典，并对获取到的样本在词典中进行分词；词袋构建单元603用于将某类用户不同类别的词典形成词袋，并通过词袋模型形成代表样本邮件数据的向量空间模型；变量选择单元604用于利用L1/2正则化特征选择算法对代表不同样本的向量空间模型进行降维；随机划分单元605用于对经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集；模型训练选择单元606用于利用训练集中的样本训练不同分类模型并选择最优分类模型；测试单元607用于利用测试集中的样本对选择出的最优模型进行测试验证。

Claims

1.一种垃圾邮件识别方法，其特征在于，包括：

获取邮件文本数据；

2.如权利要求1所述的垃圾邮件识别方法，其特征在于，针对不同用户，所述词典中的词不相同，词典构建时将每个词按照每行单独存放的方式存放在文件中，对词典中最长的词的长度进行设置。

3.如权利要求1所述的垃圾邮件识别方法，其特征在于，所述分词采用正向最大匹配分词算法，具体过程为：

4.如权利要求1所述的垃圾邮件识别方法，其特征在于，所述词袋是包括各类文本数据的词典。

5.如权利要求1所述的垃圾邮件识别方法，其特征在于，采用L1/2正则化特征选择算法对所述向量空间模型中项的维数进行压缩。

6.如权利要求1所述的垃圾邮件识别方法，其特征在于，所述分类模型的选择过程为：

将经过特征项选择的、代表样本邮件文本数据的向量空间模型样本随机划分为训练集和测试集；

1)将训练集的样本等分为5份；

2)下列步骤重复5次：

202)每次迭代中用其他4份数据作为训练数据，训练分类器；

7.如权利要求6所述的垃圾邮件识别方法，其特征在于，所述训练集与所述测试集按照7:3的比例进行划分。

8.如权利要求6所述的垃圾邮件识别方法，其特征在于，所述分类模型选择朴素贝叶斯分类模型。

9.一种垃圾邮件识别系统，其特征在于，包括：

数据获取模块，用于获取邮件文本数据；

10.如权利要求9所述的一种垃圾邮件识别系统，其特征在于，所述分词模块包括：

所述降维模块包括：

所述垃圾邮件确定模块包括：

所述训练寻优单元模块包括：

样本获取单元，用于获取训练样本集；