CN112182226B

CN112182226B - 一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法

Info

Publication number: CN112182226B
Application number: CN202011114698.1A
Authority: CN
Inventors: 刘世华; 张�浩; 刘向华
Original assignee: Wenzhou Polytechnic
Current assignee: Beijing Yunche Yigou Technology Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-09-30
Anticipated expiration: 2040-10-16
Also published as: CN112182226A

Abstract

本发明公开了一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法，包括如下步骤：步骤一，收集现有明确的垃圾邮件，将这些垃圾邮件收集到一个分析数据集内；步骤二，对步骤一中形成的词条集进行聚类分析，分析出词条集中出现比较多的词条；步骤三，在接收到邮件以后，分析该邮件的内容，并与步骤二中获得的垃圾词条集内部的词条进行比对；步骤四，根据步骤三中获得的垃圾词条的占有情况判断邮件是否为垃圾邮件。本发明的基于主成分分析和密度峰值聚类的垃圾邮件检测方法，便可有效的实现基于邮件内容来对垃圾邮件的判断了，避免了筛选垃圾邮件精度下降的问题。

Description

一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法

技术领域

本发明涉及一种垃圾邮件检测方法，更具体的说是涉及一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法。

背景技术

随着网络用户的迅速增加，收发邮件已成为用户进行交流联系的主要手段。由于无需事前征求用户同意就可以在短时间内发送大量邮件给一个或者多个用户，因此邮件为广告宣传提供了成本低廉、传播面广的传播平台；正是由于这种非法利益的驱使，近年来垃圾邮件快速增长，所以迫切需要一个有效的方式来过滤垃圾邮件。

邮件过滤的核心问题是如何使用已知的邮件文本数据集合建立一个文本分类模型，然后使用这个模型对邮件类型进行判别，从而过滤出垃圾邮件。由于垃圾邮件过滤实际上是一个二分类问题，所以传统的分类方法虽然可以达到目的，但是效果并不好。目前邮件过滤主要采用的方法是给予规则过滤的方法，这种方法对于规则的依赖性很强，只要规则选取的好，相应的过滤结果也会非常好。但是垃圾邮件的特征也会不断的变化，导致传统的垃圾邮件过滤技术存在缺陷，对于垃圾邮件误判或漏判的可能性大大增加。

因此现有技术中申请号为2017105373134，名称为一种过滤垃圾邮件的方法、装置及邮件服务器，利用历史邮件作为机器学习的训练样板，然后通过基于聚类算法引出垃圾邮件的判断规则，之后通过一个垃圾分值代表邮件的垃圾程度，最后通过参考垃圾评分和垃圾分值的和，判断邮件是否为垃圾邮件，以此避免现有技术中给予规则导致的误判和漏判的问题，然而上述方法中筛选垃圾邮件的主要工作方式为第一规则和第二规则，而第一规则是基于历史邮件的机器学习产生，同时第二规则则是通过聚类算法对第一规则进行处理得出，如此历史邮件的选择对于上述方法来说极为重要，会直接影响方法的精确度，因此会存在历史邮件选择不好的时候，导致整体方法筛选垃圾邮件的精度下降的问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种筛选精度更高的基于主成分分析和密度峰值聚类的垃圾邮件检测方法。

为实现上述目的，本发明提供了如下技术方案：一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法，包括如下步骤：

步骤一，收集现有明确的垃圾邮件，将这些垃圾邮件收集到一个分析数据集内，将这些垃圾邮件的内容进行分解，将内容分解成一个个词条，形成词条集；

步骤二，对步骤一中形成的词条集进行聚类分析，分析出词条集中出现比较多的词条，计算每个较多词条的出现次数，并按照出现次数从大到小排列，形成垃圾词条集；

步骤三，在接收到邮件以后，分析该邮件的内容，并与步骤二中获得的垃圾词条集内部的词条进行比对，计算邮件内容中垃圾词条的占有情况；

步骤四，根据步骤三中获得的垃圾词条的占有情况判断邮件是否为垃圾邮件。作为本发明的进一步改进，所述步骤二中对词条集进行聚类分析的具体步骤如下：

步骤二一，以字读音作为竖轴，字形为横轴构建分布坐标轴，将词条集内词条输入到分布坐标轴内，在分布坐标轴上构成数量相对应的聚类点；

步骤二二，以两个读音长度作为截断距离，计算步骤一种各个聚类点的局部密度，并选取出聚类中心，然后根据聚类中心对词条集内的词条进行聚类。

作为本发明的进一步改进，所述步骤三中的比对步骤具体如下：

步骤三一，将步骤二中的垃圾词条集内的垃圾词条按照出现次数从大到小进行标记，分别标记为显著词条、较显著词条和普通词条；

步骤三二，对步骤三一中标记好的显著词条、较显著词条和普通词条设置权值；

步骤三三，将邮件内容输入到词条集内，计算邮件内容中的显著词条、较显著词条和普通词条的出现次数，并将显著词条出现次数先与显著词条权值相比较，判断出现次数是否大于或等于显著词条权值，若大于或等于显著词条权值则判断为垃圾邮件；

步骤三四，若小于显著词条权值，则继续判断较显著词条出现次数与较显著词条权值相比较，判断出现次数是否大于或等于较显著词条权值，若大于或等于较显著词条权值则初步判断为垃圾邮件，发出垃圾邮件提醒供用户选择；

步骤三五，若小于较显著词条权值，则继续比较普通词条出现次数与普通词条权值，若出现次数大于或等于普通词条权值，则计算显著词条出现次数所占显著词条权值比例，若超过一半，则初步判断为垃圾邮件，发出垃圾邮件提醒供用户选择，若少于一半，则判断为待定邮件，发出待定邮件提醒用户判断；

步骤三六，若出现次数小于普通词条权值，则判断为普通邮件。

作为本发明的进一步改进，所述步骤三二中设置权值的具体步骤如下：

步骤三二一，提取显著词条、较显著词条和普通词条的出现次数；

步骤三二二，通过出现次数计算权值数值，具体的计算步骤为计算显著词条、较显著词条和普通词条的出现次数总和；

步骤三二三，将总和数值依次减掉显著词条、较显著词条和普通词条的出现次数，获得显著词条基础值、较显著词条基础值和普通词条基础值，计算显著词条基础值、较显著词条基础值和普通词条基础值的最大公约数，将显著词条基础值、较显著词条基础值和普通词条基础值均除于最大公约数的余数作为显著词条权值、较显著词条权值和普通词条权值。

本发明的有益效果，通过步骤一的设置，便可有效的利用现有技术中的垃圾邮件集合获得与垃圾邮件相关的词条集，然后通过步骤二的设置，便可有效的根据词条集聚类出垃圾词条集，然后通过步骤三和步骤四的设置，便可通过对邮件词条与垃圾词条集的比对，来判断当前的邮件是否是垃圾邮件，如此相比于现有技术中采用历史邮件作为基准判断的方式，以确定为垃圾邮件的判断方式可以避免采用历史邮件不好的时候导致判断精度下降的问题。

具体实施方式

下面将结合所给出的实施例对本发明做进一步的详述。

本实施例的一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法，包括如下步骤：

步骤四，根据步骤三中获得的垃圾词条的占有情况判断邮件是否为垃圾邮件，在使用本实施例的检测方法的过程中，只需要依次执行步骤一至步骤四即可，如此便采用了现有明确的垃圾邮件作为基础样本，然后再对新的邮件是否为垃圾邮件进行判断了，因而相比于现有技术中采用历史邮件的方式，可以避免选择的历史邮件不太合适导致的最后判断垃圾邮件的精度下降的问题。

作为改进的一种具体实施方式，所述步骤二中对词条集进行聚类分析的具体步骤如下：

步骤二二，以两个读音长度作为截断距离，计算步骤一种各个聚类点的局部密度，并选取出聚类中心，然后根据聚类中心对词条集内的词条进行聚类，通过步骤二一的设置，便可有效的实现将词条集内的词条按照读音和字形排布到坐标轴内，如此读音相似、字形相似的词条便会聚集在一起，因而通过步骤二二的作用，实现了利用密度峰值聚类算法找出字读音和字形最多的词条，如此便可提取出现有的垃圾邮件的共有的词条，即现有的垃圾邮件的共同特征，例如目前最常见的垃圾邮件为诈骗邮件，其内出现的较为频繁的词条应该为“中奖”，因此通过上述步骤的设置，便可有效的提取出“中奖”这个词条，然后利用这个词条来判断当前邮件是否为垃圾邮件了，当然本实施例中为了增加词条的精确度，可以剔除掉现有的日常常用词条，增加垃圾词条集的精准度。

作为改进的一种具体实施方式，所述步骤三中的比对步骤具体如下：

步骤三六，若出现次数小于普通词条权值，则判断为普通邮件，通过上述步骤的设置，便可有效的通过设置显著词条权值、较显著词条权值和普通词条权值的方式来实现对于垃圾邮件的比对和判断，如此在比对和判断的过程中，只需要进行见得数学加减运算即可，大大的增加了整体方法的运行效率。

作为改进的一种具体实施方式，所述步骤三二中设置权值的具体步骤如下：

步骤三二三，将总和数值依次减掉显著词条、较显著词条和普通词条的出现次数，获得显著词条基础值、较显著词条基础值和普通词条基础值，计算显著词条基础值、较显著词条基础值和普通词条基础值的最大公约数，将显著词条基础值、较显著词条基础值和普通词条基础值均除于最大公约数的余数作为显著词条权值、较显著词条权值和普通词条权值，通过上述步骤的设置，便可有效的实现利用出现次数计算出相应的权值，并且在计算最终权值的过程中采用了扣除最大公约数的方式，可以降低权值的数量，避免因为样本数量过多导致的影响最后垃圾邮件判断精度的问题。

综上所述，本实施例的检测方法，通过步骤一至步骤四的设置，便可利用现有已知的垃圾邮件做基础样本，因此相比于现有技术中采用历史邮件的方式，便可大大的增加样本的精准度，提升检测方法的精度。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于主成分分析和密度峰值聚类的垃圾邮件检测方法，其特征在于：包括如下步骤：

步骤四，根据步骤三中获得的垃圾词条的占有情况判断邮件是否为垃圾邮件；所述步骤二中对词条集进行聚类分析的具体步骤如下：

步骤二二，以两个读音长度作为截断距离，计算步骤一种各个聚类点的局部密度，并选取出聚类中心，然后根据聚类中心对词条集内的词条进行聚类；所述步骤三中的比对步骤具体如下：

2.根据权利要求1所述的基于主成分分析和密度峰值聚类的垃圾邮件检测方法，其特征在于：所述步骤三二中设置权值的具体步骤如下：