CN115329084A

CN115329084A - 基于稀疏线性在线学习的垃圾邮件分类方法及系统

Info

Publication number: CN115329084A
Application number: CN202211032809.3A
Authority: CN
Inventors: 张莉; 苏畅之; 金玲彬; 赵雷; 王邦军; 周伟达
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-11

Abstract

本发明公开了一种基于稀疏线性在线学习的垃圾邮件分类方法及系统，方法包括：S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本，得到预处理后的训练样本集；S2、利用预处理后的训练样本集训练线性分类模型，并采用FTRL算法对模型参数进行更新，得到训练后的线性分类模型；S3、利用训练后的线性分类模型对电子邮件进行预测分类。本发明基于稀疏线性在线学习的垃圾邮件分类方法通过将特征化的电子邮件原始数据集映射为高维特征空间的训练样本，并在模型训练时采用FTRL算法对模型参数进行更新，在保留了线性分类模型快速高效特点的同时进一步取得了稀疏性，提升了分类准确率。

Description

基于稀疏线性在线学习的垃圾邮件分类方法及系统

技术领域

本发明涉及邮件分类技术领域，特别涉及一种基于稀疏线性在线学习的垃圾邮件分类方法及系统。

背景技术

如今，电子邮件是人们信息获取和交流的一个重要渠道。随着电子邮件产业规模的增长，垃圾邮件的问题也愈加严重。垃圾邮件的泛滥使电子邮件运营商不堪重负，用户也不得不花费大量时间清理邮箱里的垃圾邮件。垃圾邮件的检测与识别是反垃圾邮件技术的重要环节，对垃圾邮件的过滤能够有效降低其造成的损失。

随着人工智能技术的发展，垃圾邮件的分类算法也得到了广泛的研究。通过对垃圾邮件中文本的特征提取，传统的批量机器学习算法比如SVM(support vector machine)能够在训练样本较少的情况下构建出有效的垃圾邮件过滤模型，具有一定的成果。但当样本总量较大时，就会产生训练时间长、训练效率低的问题。此外SVM产出的模型无法实现增量更新，面对实际环境中不断增长的垃圾邮件显得力不从心。在线机器学习的计算模式可以适应大规模数据并能够实时更新模型，如Lu等人在“LargeScaleOnlineKernelLearning”中提出了傅里叶在线梯度下降(Fourier Online Gradient Descent,FOGD)。FOGD通过引入随机傅里叶特征实现了线性在线学习，极大地降低了算法的时间开销。但是其产出的模型稀疏性较差，导致内存需求较高，仍然无法在实际环境中有效运用。

发明内容

本发明要解决的技术问题是提供一种可行性高、准确度高的基于稀疏线性在线学习的垃圾邮件分类方法。

为了解决上述问题，本发明提供了一种基于稀疏线性在线学习的垃圾邮件分类方法，所述基于稀疏线性在线学习的垃圾邮件分类方法包括以下步骤：

S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本，得到预处理后的训练样本集；

S2、利用预处理后的训练样本集训练线性分类模型，并采用FTRL算法对模型参数进行更新，得到训练后的线性分类模型；

S3、利用训练后的线性分类模型对电子邮件进行预测分类。

作为本发明的进一步改进，所述特征化的电子邮件原始数据集X为：

X＝{(x₁,y₁),…,(x_m,y_m)}

其中，x_i∈Rⁿ为描述电子邮件原始数据集中第i封电子邮件文本信息特征的向量；y_i∈{-1,+1}为x_i对应标签；若y_i＝-1，则邮件是垃圾邮件；若y_i＝+1，则邮件不是垃圾邮件；i＝1,2,…,m。

作为本发明的进一步改进，步骤S1包括：

S11、对选定的平移不变核函数k(x_i,x_j)＝k(x_i-x_j)＝k(Δx)进行傅里叶逆变换，得到：

其中，p(u)为随机变量u∈Rⁿ的概率密度函数；

S12、在p(u)上独立采集N个样本，记为u₁,…,u_N，则特征空间中x的像表示为：

其中，T表示转置；

S13、利用求得的高维显式映射z(·):Rⁿ→R^2N将电子邮件原始数据集中的样本x映射为z(x)，得到预处理后的训练样本集，即{(z(x₁),y₁),…,(z(x_m),y_m)}。

作为本发明的进一步改进，所述线性分类模型f(x)表示为：

f(x)＝w^Tz(x)

其中，x为描述电子邮件原始数据集中电子邮件文本信息特征的向量；w∈R^2N为模型参数；z(x)为电子邮件原始数据集中的样本x的高维显式映射；T表示转置。

作为本发明的进一步改进，所述线性分类模型训练时采用如下损失函数：

l(f(x),y)＝[1-yf(x)]₊

其中，y为x对应标签；

作为本发明的进一步改进，所述采用FTRL算法对模型参数进行更新包括：

对于预处理后的训练样本集中的第t个样本(z(x_t),y_t)，采用FTRL算法对模型参数w进行单次更新，更新规则公式为：

其中，

为第s轮的梯度；σ_s为学习率相关参数，满足

η_t为第t轮的学习率；λ₁>0为L1正则项的系数；更新规则公式的第一项用来近似前t轮的累计误差；第二项为稳定正则项；第三项为L1正则项。

作为本发明的进一步改进，求解更新规则公式时，将其按维度拆分成2N个独立的标量最小化问题：

其中，w_i表示模型参数的第i维，

g_s,i和w_s,i分别表示第s轮中梯度以及模型参数的第i维，解决所述标量最小化问题，得到各个维度权重更新的公式：

其中，sgn(x)为符号函数。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任意一项所述方法的步骤。

本发明还提供了一种基于稀疏线性在线学习的垃圾邮件分类系统，所述基于稀疏线性在线学习的垃圾邮件分类系统包括：

数据预处理模块，用于利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本，得到预处理后的训练样本集；

模型训练模块，用于利用预处理后的训练样本集训练线性分类模型，并采用FTRL算法对模型参数进行更新，得到训练后的分类模型；

预测分类模块，用于利用训练后的线性分类模型对电子邮件进行预测。

本发明的有益效果：

本发明基于稀疏线性在线学习的垃圾邮件分类方法通过将特征化的电子邮件原始数据集映射为高维特征空间的训练样本，并在模型训练时采用FTRL算法对模型参数进行更新，在保留了线性分类模型快速高效特点的同时进一步取得了稀疏性，提升了分类准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明中实施例中基于稀疏线性在线学习的垃圾邮件分类方法的流程图；

图2是本发明中实施例中基于稀疏线性在线学习的垃圾邮件分类系统的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

如图1所示，为本发明实施例一中基于稀疏线性在线学习的垃圾邮件分类方法，所述基于稀疏线性在线学习的垃圾邮件分类方法包括以下步骤：

步骤S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本，得到预处理后的训练样本集。

所述特征化的电子邮件原始数据集X为两类带有标签的原始数据集合：

X＝{(x₁,y₁),…,(x_m,y_m)}

为了在线性分类模型的基础上增加对于线性不可分数据的处理能力，可以利用高维的显式映射模拟核函数的作用，即k(x_i,x_j)≈z(x_i)^Tz(x_j)，其中k(·,·)为核函数，z(·)为关联于核函数k的近似显式映射。

在本实施例中，该显式映射通过随机傅里叶特征方法求得。具体地，步骤S1包括：

其中，p(u)为随机变量u∈Rⁿ的概率密度函数；

其中，T表示转置；

步骤S2、利用预处理后的训练样本集训练线性分类模型，并采用FTRL算法对模型参数进行更新，得到训练后的线性分类模型。

具体地，所述线性分类模型f(x)表示为：

f(x)＝w^Tz(x)

所述线性分类模型训练时采用合页损失作为损失函数：

l(f(x),y)＝[1-yf(x)]₊

其中，y为x对应标签；

可选地，所述采用FTRL算法对模型参数进行更新包括：

其中，

为第s轮的梯度，在本实施例中，由于采用的合页损失存在不可导点，所以用次梯度代替梯度，且仅当满足yf(x)<1时才计算；σ_s为学习率相关参数，满足

η_t为第t轮的学习率，通常取

λ₁>0为L1正则项的系数；更新规则公式的第一项用来近似前t轮的累计误差，保证训练过程中模型参数w的变化更加平滑；第二项为稳定正则项；第三项为L1正则项，目的是取得稀疏性。

进一步地，求解更新规则公式时，将其按维度拆分成2N个独立的标量最小化问题：

其中，w_i表示模型参数的第i维，

g_s,和w_s,分别表示第s轮中梯度以及模型参数的第i维，解决所述标量最小化问题，得到各个维度权重更新的公式：

其中，sgn(x)为符号函数。

当遍历完所有训练数据，输出最终模型参数w_m+1。

步骤S3、利用训练后的线性分类模型对电子邮件进行预测分类。

具体地，给定一条没有标签的描述电子邮件文本信息特征的向量x，首先通过预处理求得的显式映射将其映射为高维特征空间中的向量z(x)。再采用训练后的线性分类模型对电子邮件进行预测分类，具体规则为：

其中，

为根据训练后的模型参数求得的线性分类模型函数值。

本发明基于稀疏线性在线学习的垃圾邮件分类在UCI数据集Spambase上进行了测试，该数据集主要用于垃圾邮件的识别分类，包含了56个属性和4601个实例，其中1813个实例为垃圾邮件。该数据集中样本的特征对应了邮件中某个关键字或特殊符号的词频。

其中，m＝4601，n＝57，N＝100，核函数为高斯核函数

对应的分布p为正态分布

其中I表示单位矩阵。

通过在Spambase数据集上进行实验，并用4个指标衡量不同方法的综合分类效果：平均误分率、平均训练时间、平均精度和平均测试时间。将原始数据集按照4:1的比例划分训练集和测试集。对于训练集做5折交叉验证，即将其随机划分为5份，每份数据依次作为验证集，其余为训练集进行五次实验以选取最优参数。得到最优参数后再将完整的训练集输入模型训练模块重新训练5次，取5次实验的平均值作为该实验的最终结果。如表1所示，从实验结果可知，本发明中基于稀疏线性在线学习的垃圾邮件分类方法在训练和测试精度上都高于主流方法，其对垃圾邮件的判断更为精准。

表1本发明与当前主流方法结果对比

	误分率(％)	训练时间(s)	精度(％)	测试时间(s)
					NORMA	7.68±0.17	231.33±1.39	91.81±1.05	114.43±0.20
BNORMA	7.59±0.11	5.94±0.03	91.19±1.52	1.41±0.01
					FOGD	7.27±0.04	0.11±0.00	92.80±0.12	0.02±0.00
本发明	6.90±0.06	10.59±10.4	93.55±0.93	0.02±0.01

实施例二

本实施例公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中所述基于稀疏线性在线学习的垃圾邮件分类方法的步骤。

实施例三

本实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一中所述基于稀疏线性在线学习的垃圾邮件分类方法的步骤。

实施例四

如图2所示，为本发明实施例四中基于稀疏线性在线学习的垃圾邮件分类系统，所述基于稀疏线性在线学习的垃圾邮件分类系统包括以下模块：

本发明实施例中的基于稀疏线性在线学习的垃圾邮件分类系统用于实现前述的基于稀疏线性在线学习的垃圾邮件分类方法，因此该系统的具体实施方式可见前文中的基于稀疏线性在线学习的垃圾邮件分类方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于稀疏线性在线学习的垃圾邮件分类系统用于实现前述的基于稀疏线性在线学习的垃圾邮件分类方法，因此其作用与上述方法的作用相对应，这里不再赘述。

以上实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。