CN115329084A - 基于稀疏线性在线学习的垃圾邮件分类方法及系统 - Google Patents
基于稀疏线性在线学习的垃圾邮件分类方法及系统 Download PDFInfo
- Publication number
- CN115329084A CN115329084A CN202211032809.3A CN202211032809A CN115329084A CN 115329084 A CN115329084 A CN 115329084A CN 202211032809 A CN202211032809 A CN 202211032809A CN 115329084 A CN115329084 A CN 115329084A
- Authority
- CN
- China
- Prior art keywords
- model
- classification
- linear
- online learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于稀疏线性在线学习的垃圾邮件分类方法及系统,方法包括:S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;S2、利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的线性分类模型;S3、利用训练后的线性分类模型对电子邮件进行预测分类。本发明基于稀疏线性在线学习的垃圾邮件分类方法通过将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,并在模型训练时采用FTRL算法对模型参数进行更新,在保留了线性分类模型快速高效特点的同时进一步取得了稀疏性,提升了分类准确率。
Description
技术领域
本发明涉及邮件分类技术领域,特别涉及一种基于稀疏线性在线学习的垃圾邮件分类方法及系统。
背景技术
如今,电子邮件是人们信息获取和交流的一个重要渠道。随着电子邮件产业规模的增长,垃圾邮件的问题也愈加严重。垃圾邮件的泛滥使电子邮件运营商不堪重负,用户也不得不花费大量时间清理邮箱里的垃圾邮件。垃圾邮件的检测与识别是反垃圾邮件技术的重要环节,对垃圾邮件的过滤能够有效降低其造成的损失。
随着人工智能技术的发展,垃圾邮件的分类算法也得到了广泛的研究。通过对垃圾邮件中文本的特征提取,传统的批量机器学习算法比如SVM(support vector machine)能够在训练样本较少的情况下构建出有效的垃圾邮件过滤模型,具有一定的成果。但当样本总量较大时,就会产生训练时间长、训练效率低的问题。此外SVM产出的模型无法实现增量更新,面对实际环境中不断增长的垃圾邮件显得力不从心。在线机器学习的计算模式可以适应大规模数据并能够实时更新模型,如Lu等人在“LargeScaleOnlineKernelLearning”中提出了傅里叶在线梯度下降(Fourier Online Gradient Descent,FOGD)。FOGD通过引入随机傅里叶特征实现了线性在线学习,极大地降低了算法的时间开销。但是其产出的模型稀疏性较差,导致内存需求较高,仍然无法在实际环境中有效运用。
发明内容
本发明要解决的技术问题是提供一种可行性高、准确度高的基于稀疏线性在线学习的垃圾邮件分类方法。
为了解决上述问题,本发明提供了一种基于稀疏线性在线学习的垃圾邮件分类方法,所述基于稀疏线性在线学习的垃圾邮件分类方法包括以下步骤:
S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;
S2、利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的线性分类模型;
S3、利用训练后的线性分类模型对电子邮件进行预测分类。
作为本发明的进一步改进,所述特征化的电子邮件原始数据集X为:
X={(x1,y1),…,(xm,ym)}
其中,xi∈Rn为描述电子邮件原始数据集中第i封电子邮件文本信息特征的向量;yi∈{-1,+1}为xi对应标签;若yi=-1,则邮件是垃圾邮件;若yi=+1,则邮件不是垃圾邮件;i=1,2,…,m。
作为本发明的进一步改进,步骤S1包括:
S11、对选定的平移不变核函数k(xi,xj)=k(xi-xj)=k(Δx)进行傅里叶逆变换,得到:
其中,p(u)为随机变量u∈Rn的概率密度函数;
S12、在p(u)上独立采集N个样本,记为u1,…,uN,则特征空间中x的像表示为:
其中,T表示转置;
S13、利用求得的高维显式映射z(·):Rn→R2N将电子邮件原始数据集中的样本x映射为z(x),得到预处理后的训练样本集,即{(z(x1),y1),…,(z(xm),ym)}。
作为本发明的进一步改进,所述线性分类模型f(x)表示为:
f(x)=wTz(x)
其中,x为描述电子邮件原始数据集中电子邮件文本信息特征的向量;w∈R2N为模型参数;z(x)为电子邮件原始数据集中的样本x的高维显式映射;T表示转置。
作为本发明的进一步改进,所述线性分类模型训练时采用如下损失函数:
l(f(x),y)=[1-yf(x)]+
作为本发明的进一步改进,所述采用FTRL算法对模型参数进行更新包括:
对于预处理后的训练样本集中的第t个样本(z(xt),yt),采用FTRL算法对模型参数w进行单次更新,更新规则公式为:
作为本发明的进一步改进,求解更新规则公式时,将其按维度拆分成2N个独立的标量最小化问题:
其中,sgn(x)为符号函数。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任意一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述方法的步骤。
本发明还提供了一种基于稀疏线性在线学习的垃圾邮件分类系统,所述基于稀疏线性在线学习的垃圾邮件分类系统包括:
数据预处理模块,用于利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;
模型训练模块,用于利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的分类模型;
预测分类模块,用于利用训练后的线性分类模型对电子邮件进行预测。
本发明的有益效果:
本发明基于稀疏线性在线学习的垃圾邮件分类方法通过将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,并在模型训练时采用FTRL算法对模型参数进行更新,在保留了线性分类模型快速高效特点的同时进一步取得了稀疏性,提升了分类准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明中实施例中基于稀疏线性在线学习的垃圾邮件分类方法的流程图;
图2是本发明中实施例中基于稀疏线性在线学习的垃圾邮件分类系统的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
如图1所示,为本发明实施例一中基于稀疏线性在线学习的垃圾邮件分类方法,所述基于稀疏线性在线学习的垃圾邮件分类方法包括以下步骤:
步骤S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集。
所述特征化的电子邮件原始数据集X为两类带有标签的原始数据集合:
X={(x1,y1),…,(xm,ym)}
其中,xi∈Rn为描述电子邮件原始数据集中第i封电子邮件文本信息特征的向量;yi∈{-1,+1}为xi对应标签;若yi=-1,则邮件是垃圾邮件;若yi=+1,则邮件不是垃圾邮件;i=1,2,…,m。
为了在线性分类模型的基础上增加对于线性不可分数据的处理能力,可以利用高维的显式映射模拟核函数的作用,即k(xi,xj)≈z(xi)Tz(xj),其中k(·,·)为核函数,z(·)为关联于核函数k的近似显式映射。
在本实施例中,该显式映射通过随机傅里叶特征方法求得。具体地,步骤S1包括:
S11、对选定的平移不变核函数k(xi,xj)=k(xi-xj)=k(Δx)进行傅里叶逆变换,得到:
其中,p(u)为随机变量u∈Rn的概率密度函数;
S12、在p(u)上独立采集N个样本,记为u1,…,uN,则特征空间中x的像表示为:
其中,T表示转置;
S13、利用求得的高维显式映射z(·):Rn→R2N将电子邮件原始数据集中的样本x映射为z(x),得到预处理后的训练样本集,即{(z(x1),y1),…,(z(xm),ym)}。
步骤S2、利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的线性分类模型。
具体地,所述线性分类模型f(x)表示为:
f(x)=wTz(x)
其中,x为描述电子邮件原始数据集中电子邮件文本信息特征的向量;w∈R2N为模型参数;z(x)为电子邮件原始数据集中的样本x的高维显式映射;T表示转置。
所述线性分类模型训练时采用合页损失作为损失函数:
l(f(x),y)=[1-yf(x)]+
可选地,所述采用FTRL算法对模型参数进行更新包括:
对于预处理后的训练样本集中的第t个样本(z(xt),yt),采用FTRL算法对模型参数w进行单次更新,更新规则公式为:
其中,为第s轮的梯度,在本实施例中,由于采用的合页损失存在不可导点,所以用次梯度代替梯度,且仅当满足yf(x)<1时才计算;σs为学习率相关参数,满足ηt为第t轮的学习率,通常取λ1>0为L1正则项的系数;更新规则公式的第一项用来近似前t轮的累计误差,保证训练过程中模型参数w的变化更加平滑;第二项为稳定正则项;第三项为L1正则项,目的是取得稀疏性。
进一步地,求解更新规则公式时,将其按维度拆分成2N个独立的标量最小化问题:
其中,sgn(x)为符号函数。
当遍历完所有训练数据,输出最终模型参数wm+1。
步骤S3、利用训练后的线性分类模型对电子邮件进行预测分类。
具体地,给定一条没有标签的描述电子邮件文本信息特征的向量x,首先通过预处理求得的显式映射将其映射为高维特征空间中的向量z(x)。再采用训练后的线性分类模型对电子邮件进行预测分类,具体规则为:
本发明基于稀疏线性在线学习的垃圾邮件分类在UCI数据集Spambase上进行了测试,该数据集主要用于垃圾邮件的识别分类,包含了56个属性和4601个实例,其中1813个实例为垃圾邮件。该数据集中样本的特征对应了邮件中某个关键字或特殊符号的词频。
通过在Spambase数据集上进行实验,并用4个指标衡量不同方法的综合分类效果:平均误分率、平均训练时间、平均精度和平均测试时间。将原始数据集按照4:1的比例划分训练集和测试集。对于训练集做5折交叉验证,即将其随机划分为5份,每份数据依次作为验证集,其余为训练集进行五次实验以选取最优参数。得到最优参数后再将完整的训练集输入模型训练模块重新训练5次,取5次实验的平均值作为该实验的最终结果。如表1所示,从实验结果可知,本发明中基于稀疏线性在线学习的垃圾邮件分类方法在训练和测试精度上都高于主流方法,其对垃圾邮件的判断更为精准。
表1本发明与当前主流方法结果对比
误分率(%) | 训练时间(s) | 精度(%) | 测试时间(s) | |
NORMA | 7.68±0.17 | 231.33±1.39 | 91.81±1.05 | 114.43±0.20 |
BNORMA | 7.59±0.11 | 5.94±0.03 | 91.19±1.52 | 1.41±0.01 |
FOGD | 7.27±0.04 | 0.11±0.00 | 92.80±0.12 | 0.02±0.00 |
本发明 | 6.90±0.06 | 10.59±10.4 | 93.55±0.93 | 0.02±0.01 |
实施例二
本实施例公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中所述基于稀疏线性在线学习的垃圾邮件分类方法的步骤。
实施例三
本实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例一中所述基于稀疏线性在线学习的垃圾邮件分类方法的步骤。
实施例四
如图2所示,为本发明实施例四中基于稀疏线性在线学习的垃圾邮件分类系统,所述基于稀疏线性在线学习的垃圾邮件分类系统包括以下模块:
数据预处理模块,用于利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;
模型训练模块,用于利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的分类模型;
预测分类模块,用于利用训练后的线性分类模型对电子邮件进行预测。
本发明实施例中的基于稀疏线性在线学习的垃圾邮件分类系统用于实现前述的基于稀疏线性在线学习的垃圾邮件分类方法,因此该系统的具体实施方式可见前文中的基于稀疏线性在线学习的垃圾邮件分类方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的基于稀疏线性在线学习的垃圾邮件分类系统用于实现前述的基于稀疏线性在线学习的垃圾邮件分类方法,因此其作用与上述方法的作用相对应,这里不再赘述。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (10)
1.基于稀疏线性在线学习的垃圾邮件分类方法,其特征在于,包括以下步骤:
S1、利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;
S2、利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的线性分类模型;
S3、利用训练后的线性分类模型对电子邮件进行预测分类。
2.如权利要求1所述的基于稀疏线性在线学习的垃圾邮件分类方法,其特征在于,所述特征化的电子邮件原始数据集X为:
X={(x1,y1),…,(xm,ym)}
其中,xi∈Rn为描述电子邮件原始数据集中第i封电子邮件文本信息特征的向量;yi∈{-1,+1}为xi对应标签;若yi=-1,则邮件是垃圾邮件;若yi=+1,则邮件不是垃圾邮件;i=1,2,…,m。
4.如权利要求3所述的基于稀疏线性在线学习的垃圾邮件分类方法,其特征在于,所述线性分类模型f(x)表示为:
f(x)=wTz(x)
其中,x为描述电子邮件原始数据集中电子邮件文本信息特征的向量;w∈R2N为模型参数;z(x)为电子邮件原始数据集中的样本x的高维显式映射;T表示转置。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8中任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任意一项所述方法的步骤。
10.基于稀疏线性在线学习的垃圾邮件分类系统,其特征在于,包括:
数据预处理模块,用于利用随机傅里叶特征方法将特征化的电子邮件原始数据集映射为高维特征空间的训练样本,得到预处理后的训练样本集;
模型训练模块,用于利用预处理后的训练样本集训练线性分类模型,并采用FTRL算法对模型参数进行更新,得到训练后的分类模型;
预测分类模块,用于利用训练后的线性分类模型对电子邮件进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211032809.3A CN115329084A (zh) | 2022-08-26 | 2022-08-26 | 基于稀疏线性在线学习的垃圾邮件分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211032809.3A CN115329084A (zh) | 2022-08-26 | 2022-08-26 | 基于稀疏线性在线学习的垃圾邮件分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329084A true CN115329084A (zh) | 2022-11-11 |
Family
ID=83927991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211032809.3A Pending CN115329084A (zh) | 2022-08-26 | 2022-08-26 | 基于稀疏线性在线学习的垃圾邮件分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329084A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989374A (zh) * | 2015-03-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 一种在线训练模型的方法和设备 |
CN106980906A (zh) * | 2017-03-19 | 2017-07-25 | 国网福建省电力有限公司 | 一种基于spark的Ftrl电压预测方法 |
CN108805613A (zh) * | 2018-05-23 | 2018-11-13 | 平安科技(深圳)有限公司 | 电子装置、推销名单推荐方法和计算机可读存储介质 |
CN112784927A (zh) * | 2021-02-09 | 2021-05-11 | 中国人民解放军国防科技大学 | 一种基于在线学习的半自动图像标注方法 |
-
2022
- 2022-08-26 CN CN202211032809.3A patent/CN115329084A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989374A (zh) * | 2015-03-03 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 一种在线训练模型的方法和设备 |
CN106980906A (zh) * | 2017-03-19 | 2017-07-25 | 国网福建省电力有限公司 | 一种基于spark的Ftrl电压预测方法 |
CN108805613A (zh) * | 2018-05-23 | 2018-11-13 | 平安科技(深圳)有限公司 | 电子装置、推销名单推荐方法和计算机可读存储介质 |
CN112784927A (zh) * | 2021-02-09 | 2021-05-11 | 中国人民解放军国防科技大学 | 一种基于在线学习的半自动图像标注方法 |
Non-Patent Citations (2)
Title |
---|
JING LU等: "《Large Scale Online Kernel Learning》", 《JOURNAL OF MACHINE LEARNING RESEARCH》 * |
廖振伟等: "《面向流式数据的演化式预测技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN112231562B (zh) | 一种网络谣言识别方法及系统 | |
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
CN111368920B (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
Nigam et al. | Impact of noisy labels in learning techniques: a survey | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN108564107A (zh) | 基于原子拉普拉斯图正则化的半监督字典学习的样本类别归类方法 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN112465226B (zh) | 一种基于特征交互和图神经网络的用户行为预测方法 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN111931499A (zh) | 模型训练方法及系统、垃圾邮件识别方法及系统和设备 | |
CN114329124A (zh) | 基于梯度重优化的半监督小样本分类方法 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN109902174B (zh) | 一种基于方面依赖的记忆网络的情感极性检测方法 | |
CN116467451A (zh) | 一种文本分类方法、装置、存储介质以及电子设备 | |
CN115329084A (zh) | 基于稀疏线性在线学习的垃圾邮件分类方法及系统 | |
CN111428510B (zh) | 一种基于口碑的p2p平台风险分析方法 | |
Wei et al. | The instructional design of Chinese text classification based on SVM | |
CN115510961A (zh) | 一种基于主动学习的社区综合能源系统运行安全评估方法 | |
CN114153977A (zh) | 一种异常数据检测方法及系统 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 | |
CN111275201A (zh) | 一种基于子图划分的图半监督学习的分布式实现方法 | |
CN111914108A (zh) | 基于语义保持的离散监督跨模态哈希检索方法 | |
CN116821349B (zh) | 一种基于大数据的文献分析方法及管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |