CN112990852A

CN112990852A - 垃圾邮件过滤方法、装置、电子装置和存储介质

Info

Publication number: CN112990852A
Application number: CN202110200482.5A
Authority: CN
Inventors: 陈应婷; 范渊; 杨勃
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-06-18
Anticipated expiration: 2041-02-23
Also published as: CN112990852B

Abstract

本申请涉及一种垃圾邮件过滤方法、装置、电子装置和存储介质，其中，该垃圾邮件过滤方法包括：获取样本邮件后进行解析得到文本信息，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量；将特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个逻辑回归子模型，得到训练后的逻辑回归子模型；将待过滤邮件进行输入每个训练后的逻辑回归子模型，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到垃圾邮件概率值，通过本申请，解决了垃圾邮件检测精度低的问题，实现了对样本邮件中所有特征项的处理，提高了垃圾邮件的检测精度。

Description

垃圾邮件过滤方法、装置、电子装置和存储介质

技术领域

本申请涉及机器学习领域，特别是涉及垃圾邮件过滤方法、装置、电子装置和存储介质。

背景技术

垃圾邮件一般具有批量发送的特征。其内容包括赚钱信息、商业或个人网站广告、电子杂志。垃圾邮件可以分为良性和恶性的。良性垃圾邮件是各种宣传广告等对收件人影响不大的信息邮件。恶性垃圾邮件是指具有破坏性的电子邮件。有些垃圾邮件发送组织或是非法信息传播者，为了大面积散布信息，常采用多台机器同时巨量发送的方式攻击邮件服务器，造成邮件服务器大量带宽损失，并严重干扰邮件服务器进行正常的邮件递送工作。

目前常用机器学习方法对垃圾邮件进行检测并过滤，目前的机器学习方法进行垃圾邮件过滤时需要对邮件中特征进行选择，不能有效地处理高维数据，存在垃圾邮件检测精度低的问题。

目前针对相关技术中垃圾邮件检测精度低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种垃圾邮件过滤方法、装置、电子装置和存储介质，以至少解决相关技术中垃圾邮件检测精度低的问题。

第一方面，本申请实施例提供了一种垃圾邮件过滤方法，包括：

获取样本邮件，对所述样本邮件进行解析得到文本信息，对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量；

将所述特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型；

利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值。

在其中一些实施例中，基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型包括：

基于人工蜂群算法更新每个所述特征子向量中的特征项的权重，得到所述特征项的最优权重，根据每个所述特征项的最优权重，得到训练后的逻辑回归子模型。

在其中一些实施例中，基于人工蜂群算法更新每个所述特征子向量中的特征项的权重，得到所述特征项的最优权重，根据每个所述特征项的最优权重，得到训练后的逻辑回归子模型包括：

将每个所述特征子向量分为训练集和测试集，将训练集输入逻辑回归子模型，初始化人工蜂群算法中的相关参数，其中，人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集，其中，食物源表示特征项的权重的可能解，初始解集为原始的食物源；

采蜜蜂根据初始解集生成新的食物源，采用评估函数计算食物源的适应值，若新的食物源的适应值大于原始的食物源的适应值，则用新的食物源代替原始的食物源，其中，适应值为食物源的花蜜量；

观察蜂重新计算初始解集的适应值，根据适应值计算可能为蜜源的概率，根据蜜源的概率选择食物源，并记录全局最优的食物源以及对应的适应值；

当判断采蜜蜂完成N次循环后，若食物源的适应值没有被提高，则丢弃该食物源，与该食物源对应的采蜜蜂变成侦查蜂，所述侦查蜂根据所述特征子向量的上限和下限，计算新的食物源；

判断算法迭代次数是否达到M，若是，则输出花蜜量最大的食物源，并作为所述特征项的最优权重，根据所述特征项的最优权重，得到训练后的逻辑回归子模型；

将测试集输入训练后的逻辑回归子模型，验证所述特征项最优权重的准确性。

在其中一些实施例中，将测试集输入训练后的逻辑回归子模型，验证所述特征项最优权重的准确性包括：

将测试集输入训练后的逻辑回归子模型，得到每个训练后的逻辑回归子模型预测的垃圾邮件概率；

基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值；

比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值，确定所述特征项最优权重的准确性，其中，所述实际垃圾邮件的概率通过所述样本邮件中的垃圾邮件和非垃圾邮件计算得出。

在其中一些实施例中，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值包括：

基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和，得到待过滤邮件中的垃圾邮件概率值。

在其中一些实施例中，获取样本邮件，对所述样本邮件进行解析得到文本信息包括：

基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对所述样本邮件进行解码和解析，得到样本邮件的文本信息，其中，所述文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。

在其中一些实施例中，所述特征项包括以下至少之一：

字特征、词特征、短语特征、概念特征、字节级n-gram的特征。

第二方面，本申请实施例提供了一种垃圾邮件过滤装置，包括：

获取模块，用于获取样本邮件，对所述样本邮件进行解析得到文本信息，对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量；

训练模块，用于将所述特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型；

分类模型，用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的垃圾邮件过滤方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的垃圾邮件过滤方法的步骤。

相比于相关技术，本申请实施例提供的垃圾邮件过滤方法、装置、电子装置和存储介质，通过获取样本邮件，对样本邮件进行解析得到文本信息，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量；将特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型；利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值，解决了垃圾邮件检测精度低的问题，实现了对样本邮件中所有特征项的处理，提高了垃圾邮件的检测精度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的垃圾邮件过滤方法的应用终端的硬件结构框图；

图2是根据本申请实施例的垃圾邮件过滤方法的流程图一；

图3是根据本申请实施例的垃圾邮件过滤方法的流程图二；

图4是根据本申请实施例的垃圾邮件过滤方法的流程图三；

图5是根据本申请实施例的垃圾邮件过滤装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例，图1是根据本申请实施例的垃圾邮件过滤方法的应用终端的硬件结构框图。如图1所示，终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限定。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的垃圾邮件过滤方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

本实施例提供了一种垃圾邮件过滤方法，图2是根据本申请实施例的垃圾邮件过滤方法的流程图一，如图2所示，该流程包括如下步骤：

步骤S201，获取样本邮件，对样本邮件进行解析得到文本信息，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量。

在本实施例中，样本邮件的特征向量记为M，M＝(t₁，w₁；t₂，w₂；…；t_n，w_n)，其中，t_i(i＝1，2，3，.....，n)为特征项，w_i(i＝1，2，3，.....，n)为特征项t_i对应的权重。

步骤S202，将特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型。

在本实施例中，将特征向量M＝(t₁，w₁；t₂，w₂；…；t_n，w_n)分为k个特征子向量，记为M₁～M_k，M₁～M_k中的特征项之间相互独立，M_i(i＝1,2,3，.....，k)对应于一个逻辑回归子模型，利用人工蜂群算法训练每个特征子向量的权重w_i，根据训练后的权重w_i得到训练后的逻辑回归子模型，其中，k≥2。

需要说明的是，人工蜂群算法是模仿蜜蜂行为提出的一种优化方法，是集群智能思想的一个具体应用，它的主要特点是不需要了解问题的特殊信息，只需要对问题进行优劣的比较，通过各人工蜂个体的局部寻优行为，最终在群体中使全局最优值突现出来，有着较快的收敛速度。

步骤S203，利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值。

在本实施例中，每个逻辑回归子模型预测的垃圾邮件概率值如下式所示。

其中，Pi(i＝1,2,3，.....，k)为第i个逻辑回归子模型预测的垃圾邮件概率值，

为特征子向量，

为特征子向量中所有特征项对应权重组成的权重向量，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值P如下式所示。

需要说明的是，贝叶斯公式如下式所示。

其中，p(y＝1/x)为根据所有特征项得到的待过滤邮件中的垃圾邮件概率值，将特征向量分为K个特征子向量后，待过滤邮件中的垃圾邮件概率值如下式所示。

其中，根据贝叶斯公式(3)得到p(xi/＝1)如下式所示。

将式(5)代入式(4)得到式(2)。

通过上述步骤，通过获取样本邮件，对样本邮件进行解析得到文本信息，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量；将特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型；利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值，解决了垃圾邮件检测精度低的问题，实现了对样本邮件中所有特征项的处理，提高了垃圾邮件的检测精度。

在其中一些实施例中，步骤S202，基于人工蜂群算法训练每个特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型包括：

基于人工蜂群算法更新每个特征子向量中的特征项的权重，得到特征项的最优权重，根据每个特征项的最优权重，得到训练后的逻辑回归子模型。

在本实施例中，通过人工蜂群算法更新每个特征子向量中的特征项的最优权重w_i，将最优权重w_i代入式(1)，得到训练后的逻辑回归子模型。

通过上述方式，实现了每个特征项的最优权重的获取，并根据所有特征项的最优权重得到训练后的逻辑回归子模型，为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备。

在其中一些实施例中，基于人工蜂群算法更新每个特征子向量中的特征项的权重，得到特征项的最优权重，根据每个特征项的最优权重，得到训练后的逻辑回归子模型包括如下步骤：

步骤S2020，将每个特征子向量分为训练集和测试集，将训练集输入逻辑回归子模型，初始化人工蜂群算法中的相关参数，其中，人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集，其中，食物源表示特征项的权重的可能解，初始解集为原始的食物源。

在本实施例中，初始解集为x_ij(i＝1，2，3.....M，j＝1，2，3.....D)，D是特征子向量的空间维度。

步骤S2021，采蜜蜂根据初始解集生成新的食物源，采用评估函数计算食物源的适应值，若新的食物源的适应值大于原始的食物源的适应值，则用新的食物源代替原始的食物源，其中，适应值为食物源的花蜜量。

在本实施例中，按照下式生成新的食物源。

v_ij＝x_ij+L_ij(x_ij-x_kj) (6)

其中，v_ij是新的食物源，L_ij是区间[-1，1]的随机数，x_ij和x_kj是初始解，其中，k≠i，若v_ij的适应值大于x_ij的适应值，则把v_ij的值赋给x_ij。

需要说明的是，适应度又称“适应值(adaptive value)”，“适存度”，“适合度”。适应度是指某个群体内某种基因型机体存活并将其基因传递至下一代的相对能力(与其他基因型比较)。适合度越大，存活和生殖机会越高。

步骤S2022，观察蜂重新计算初始解集的适应值，根据适应值计算可能为蜜源的概率，根据蜜源的概率选择食物源，并记录全局最优的食物源以及对应的适应值。

在本实施例中，观察蜂根据下式计算蜜源的概率。

其中，fit_i和fit_j是可能解x_ij的适应值，SN是是观察蜂的个数，p_i是第i个蜜源的概率。

步骤S2023，当判断采蜜蜂完成N次循环后，若食物源的适应值没有被提高，则丢弃该食物源，与该食物源对应的采蜜蜂变成侦查蜂，侦查蜂根据特征子向量的上限和下限，计算新的食物源。

在本实施例中，新的食物源通过下式计算得出。

其中，r是[0，1]的随机数，x_iD是新的食物源，x_D ^max和x_D ^min分别是D维特征向量的上限和下限。

步骤S2024，判断算法迭代次数是否达到M，若是，则输出花蜜量最大的食物源，并作为特征项的最优权重，根据特征项的最优权重，得到训练后的逻辑回归子模型。

步骤S2025，将测试集输入训练后的逻辑回归子模型，验证特征项最优权重的准确性。

通过上述步骤，基于人工蜂群算法更新每个特征项的权重，并得到最优权重，根据最优权重得到训练后的逻辑回归子模型，实现了每个特征项最优权重的获取，为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备，提高了过滤垃圾邮件的精确度。

在其中一些实施例中，步骤S2025，将测试集输入训练后的逻辑回归子模型，验证特征项最优权重的准确性包括如下步骤：

步骤S210，将测试集输入训练后的逻辑回归子模型，得到每个训练后的逻辑回归子模型预测的垃圾邮件概率；

步骤S211，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值；

步骤S212，比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值，确定特征项最优权重的准确性，其中，实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。

通过上述步骤，实现了对特征项最优权重的准确性，为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备，提高了过滤垃圾邮件的精确度。

在其中一些实施例中，步骤S203，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值包括：

在本实施例中，根据式(2)计算所有逻辑回归子模型预测的垃圾邮件概率值和，得到待过滤邮件中的垃圾邮件概率值。

通过上述方式，实现了待过滤邮件中的垃圾邮件概率值的确定。

在其中一些实施例中，步骤S201，获取样本邮件，对样本邮件进行解析得到文本信息包括：

基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对样本邮件进行解码和解析，得到样本邮件的文本信息，其中，文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。

通过上述方式，实现了样本邮件的文本信息的获取，为后续对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量做准备。

在其中一些实施例中，特征项包括以下至少之一：字特征、词特征、短语特征、概念特征、字节级n-gram的特征。

在一个实施例中，提供了一种垃圾邮件过滤方法，图3是根据本申请实施例的垃圾邮件过滤方法的流程图二，如图3所示，该流程包括如下步骤：

步骤S301，基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对样本邮件进行解码和解析，得到样本邮件的文本信息，其中，文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。

步骤S302，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量，将特征向量分为特征项相互独立的两个以上特征子向量。

在本实施例中，特征项包括以下至少之一：字特征、词特征、短语特征、概念特征、字节级n-gram的特征。

步骤S303，基于人工蜂群算法更新每个特征子向量中的特征项的权重，得到特征项的最优权重，根据每个特征项的最优权重，得到训练后的逻辑回归子模型。

在本实施例中，将每个特征子向量分为训练集和测试集，将训练集输入逻辑回归子模型，初始化人工蜂群算法中的相关参数，其中，人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集，其中，食物源表示特征项的权重的可能解，初始解集为原始的食物源；

当判断采蜜蜂完成N次循环后，若食物源的适应值没有被提高，则丢弃该食物源，与该食物源对应的采蜜蜂变成侦查蜂，侦查蜂根据特征子向量的上限和下限，计算新的食物源；

判断算法迭代次数是否达到M，若是，则输出花蜜量最大的食物源，并作为特征项的最优权重，根据特征项的最优权重，得到训练后的逻辑回归子模型；

将测试集输入训练后的逻辑回归子模型，得到每个训练后的逻辑回归子模型预测的垃圾邮件概率，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值；

比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值，确定特征项最优权重的准确性，其中，实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。

步骤S304，基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和，得到待过滤邮件中的垃圾邮件概率值。

在一个实施例中，提供了一种垃圾邮件过滤方法，图4是根据本申请实施例的垃圾邮件过滤方法的流程图三，如图4所示，该流程包括如下步骤：

步骤S401，获取样本邮件，基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对样本邮件进行解码和解析，得到样本邮件的文本信息。

在本实施例中，邮件的文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题，若邮件的文本信息已通过Base64和Quoted Printable编码方式进行编码，则采用对应的方式进行解码，基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对html格式的邮件主体进行解析。

步骤S402，基于字节级n-gram来定义特征项，将样本邮件的文本信息转化为由各特征项及其对应的权重组成的特征向量。

需要说明的是，n-gram是一种基于统计语言模型的算法，又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有的gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。

步骤S403，将特征向量分为8个特征项相互独立的特征子向量，基于人工蜂群算法训练每个特征子向量的回归模型，得到8个训练后的逻辑回归子模型。

在本实施例中，将特征向量分为8个特征项相互独立的特征子向量M₁～M₈，基于人工蜂群算法更新每个特征子向量中的每个特征项的权重，并通过比较得到每个特征项的最优权重，将每个特征项的最优权重代入式(1)，得到8个训练后的逻辑回归子模型。

步骤S404，将待过滤的邮件分别输入到每个训练后的逻辑回归子模型，得到每个逻辑子模型预测的垃圾邮件概率值。

在本实施例中，获取待过滤邮件，基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对待过滤邮件进行解码和解析，得到待过滤邮件的文本信息，基于字节级n-gram来定义特征项，将待过滤邮件的文本信息转化为由各特征项及其对应的权重组成的特征向量，将待过滤邮件的特征向量输入每个训练后的逻辑回归子模型，即将待过滤邮件的特征向量代入式(1)，得到每个逻辑回归模型预测的垃圾邮件概率值。

步骤S405，根据贝叶斯公式，计算所有逻辑回归子模型预测的垃圾邮件概率值和，得到待过滤邮件中的垃圾邮件概率值。

在本实施例中，将每个逻辑回归模型预测的垃圾邮件概率值代入式(2)，得到待过滤邮件中的垃圾邮件概率值。

本实施例还提供了一种垃圾邮件过滤装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的垃圾邮件过滤装置的结构框图，如图5所示，该装置包括：

获取模块51，用于获取样本邮件，对样本邮件进行解析得到文本信息，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量；

训练模块52，用于将特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型；

分类模型53，用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值。

通过上述实施例，解决了垃圾邮件检测精度低的问题，实现了对样本邮件中所有特征项的处理，提高了垃圾邮件的检测精度。

在一个实施例中，训练模块52还用于基于人工蜂群算法更新每个特征子向量中的特征项的权重，得到特征项的最优权重，根据每个特征项的最优权重，得到训练后的逻辑回归子模型。

在一个实施例中，训练模块52还用于将每个特征子向量分为训练集和测试集，将训练集输入逻辑回归子模型，初始化人工蜂群算法中的相关参数，其中，人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集，其中，食物源表示特征项的权重的可能解，初始解集为原始的食物源；

采蜜蜂根据初始解集生成新的食物源，采用评估函数计算食物源的适应度值，若新的食物源的适应度值大于原始的食物源的适应度值，则用新的食物源代替原始的食物源，其中，适应度值为食物源的花蜜量；

观察蜂重新计算初始解集的适应度值，根据适应度值计算可能为蜜源的概率，根据蜜源的概率选择食物源，并记录全局最优的食物源以及对应的适应度值；

当判断采蜜蜂完成N次循环后，若食物源的适应度值没有被提高，则丢弃该食物源，与该食物源对应的采蜜蜂变成侦查蜂，侦查蜂根据特征子向量的上限和下限，计算新的食物源；

将测试集输入训练后的逻辑回归子模型，验证特征项最优权重的准确性。

在一个实施例中，训练模块52还用于将测试集输入训练后的逻辑回归子模型，得到每个训练后的逻辑回归子模型预测的垃圾邮件概率；

在一个实施例中，分类模型53还用于基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和，得到待过滤邮件中的垃圾邮件概率值。

在一个实施例中，获取模块51还用于基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准，对样本邮件进行解码和解析，得到样本邮件的文本信息，其中，文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。

在一个实施例中，特征项包括以下至少之一：字特征、词特征、短语特征、概念特征、字节级n-gram的特征。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取样本邮件，对样本邮件进行解析得到文本信息，对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量。

S2，将特征向量分为特征项相互独立的两个以上特征子向量，基于人工蜂群算法训练每个特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型，其中，逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型。

S3，利用每个训练后的逻辑回归子模型对待过滤邮件进行分类，得到每个逻辑回归子模型预测的垃圾邮件概率值，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的垃圾邮件过滤方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种垃圾邮件过滤方法的步骤。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种垃圾邮件过滤方法，其特征在于，包括：

2.根据权利要求1所述的垃圾邮件过滤方法，其特征在于，基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型，得到训练后的逻辑回归子模型包括：

3.根据权利要求2所述的垃圾邮件过滤方法，其特征在于，基于人工蜂群算法更新每个所述特征子向量中的特征项的权重，得到所述特征项的最优权重，根据每个所述特征项的最优权重，得到训练后的逻辑回归子模型包括：

4.根据权利要求3所述的垃圾邮件过滤方法，其特征在于，将测试集输入训练后的逻辑回归子模型，验证所述特征项最优权重的准确性包括：

5.根据权利要求1所述的垃圾邮件过滤方法，其特征在于，基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值，得到待过滤邮件中的垃圾邮件概率值包括：

6.根据权利要求1所述的垃圾邮件过滤方法，其特征在于，获取样本邮件，对所述样本邮件进行解析得到文本信息包括：

7.根据权利要求1所述的垃圾邮件过滤方法，其特征在于，所述特征项包括以下至少之一：

8.一种垃圾邮件过滤装置，其特征在于，包括：

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的垃圾邮件过滤方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述的垃圾邮件过滤方法的步骤。