CN112990852A - 垃圾邮件过滤方法、装置、电子装置和存储介质 - Google Patents

垃圾邮件过滤方法、装置、电子装置和存储介质 Download PDF

Info

Publication number
CN112990852A
CN112990852A CN202110200482.5A CN202110200482A CN112990852A CN 112990852 A CN112990852 A CN 112990852A CN 202110200482 A CN202110200482 A CN 202110200482A CN 112990852 A CN112990852 A CN 112990852A
Authority
CN
China
Prior art keywords
logistic regression
sub
feature
model
mails
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110200482.5A
Other languages
English (en)
Other versions
CN112990852B (zh
Inventor
陈应婷
范渊
杨勃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dbappsecurity Technology Co Ltd
Original Assignee
Hangzhou Dbappsecurity Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dbappsecurity Technology Co Ltd filed Critical Hangzhou Dbappsecurity Technology Co Ltd
Priority to CN202110200482.5A priority Critical patent/CN112990852B/zh
Publication of CN112990852A publication Critical patent/CN112990852A/zh
Application granted granted Critical
Publication of CN112990852B publication Critical patent/CN112990852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种垃圾邮件过滤方法、装置、电子装置和存储介质,其中,该垃圾邮件过滤方法包括:获取样本邮件后进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个逻辑回归子模型,得到训练后的逻辑回归子模型;将待过滤邮件进行输入每个训练后的逻辑回归子模型,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到垃圾邮件概率值,通过本申请,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。

Description

垃圾邮件过滤方法、装置、电子装置和存储介质
技术领域
本申请涉及机器学习领域,特别是涉及垃圾邮件过滤方法、装置、电子装置和存储介质。
背景技术
垃圾邮件一般具有批量发送的特征。其内容包括赚钱信息、商业或个人网站广告、电子杂志。垃圾邮件可以分为良性和恶性的。良性垃圾邮件是各种宣传广告等对收件人影响不大的信息邮件。恶性垃圾邮件是指具有破坏性的电子邮件。有些垃圾邮件发送组织或是非法信息传播者,为了大面积散布信息,常采用多台机器同时巨量发送的方式攻击邮件服务器,造成邮件服务器大量带宽损失,并严重干扰邮件服务器进行正常的邮件递送工作。
目前常用机器学习方法对垃圾邮件进行检测并过滤,目前的机器学习方法进行垃圾邮件过滤时需要对邮件中特征进行选择,不能有效地处理高维数据,存在垃圾邮件检测精度低的问题。
目前针对相关技术中垃圾邮件检测精度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种垃圾邮件过滤方法、装置、电子装置和存储介质,以至少解决相关技术中垃圾邮件检测精度低的问题。
第一方面,本申请实施例提供了一种垃圾邮件过滤方法,包括:
获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
在其中一些实施例中,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型。
在其中一些实施例中,基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型包括:
将每个所述特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,所述侦查蜂根据所述特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为所述特征项的最优权重,根据所述特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性。
在其中一些实施例中,将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性包括:
将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定所述特征项最优权重的准确性,其中,所述实际垃圾邮件的概率通过所述样本邮件中的垃圾邮件和非垃圾邮件计算得出。
在其中一些实施例中,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值包括:
基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在其中一些实施例中,获取样本邮件,对所述样本邮件进行解析得到文本信息包括:
基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对所述样本邮件进行解码和解析,得到样本邮件的文本信息,其中,所述文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
在其中一些实施例中,所述特征项包括以下至少之一:
字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
第二方面,本申请实施例提供了一种垃圾邮件过滤装置,包括:
获取模块,用于获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
训练模块,用于将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
分类模型,用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的垃圾邮件过滤方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的垃圾邮件过滤方法的步骤。
相比于相关技术,本申请实施例提供的垃圾邮件过滤方法、装置、电子装置和存储介质,通过获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的垃圾邮件过滤方法的应用终端的硬件结构框图;
图2是根据本申请实施例的垃圾邮件过滤方法的流程图一;
图3是根据本申请实施例的垃圾邮件过滤方法的流程图二;
图4是根据本申请实施例的垃圾邮件过滤方法的流程图三;
图5是根据本申请实施例的垃圾邮件过滤装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是根据本申请实施例的垃圾邮件过滤方法的应用终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的垃圾邮件过滤方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例提供了一种垃圾邮件过滤方法,图2是根据本申请实施例的垃圾邮件过滤方法的流程图一,如图2所示,该流程包括如下步骤:
步骤S201,获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量。
在本实施例中,样本邮件的特征向量记为M,M=(t1,w1;t2,w2;…;tn,wn),其中,ti(i=1,2,3,.....,n)为特征项,wi(i=1,2,3,.....,n)为特征项ti对应的权重。
步骤S202,将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型。
在本实施例中,将特征向量M=(t1,w1;t2,w2;…;tn,wn)分为k个特征子向量,记为M1~Mk,M1~Mk中的特征项之间相互独立,Mi(i=1,2,3,.....,k)对应于一个逻辑回归子模型,利用人工蜂群算法训练每个特征子向量的权重wi,根据训练后的权重wi得到训练后的逻辑回归子模型,其中,k≥2。
需要说明的是,人工蜂群算法是模仿蜜蜂行为提出的一种优化方法,是集群智能思想的一个具体应用,它的主要特点是不需要了解问题的特殊信息,只需要对问题进行优劣的比较,通过各人工蜂个体的局部寻优行为,最终在群体中使全局最优值突现出来,有着较快的收敛速度。
步骤S203,利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
在本实施例中,每个逻辑回归子模型预测的垃圾邮件概率值如下式所示。
Figure BDA0002948504560000061
其中,Pi(i=1,2,3,.....,k)为第i个逻辑回归子模型预测的垃圾邮件概率值,
Figure BDA0002948504560000062
为特征子向量,
Figure BDA0002948504560000063
为特征子向量中所有特征项对应权重组成的权重向量,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值P如下式所示。
Figure BDA0002948504560000071
需要说明的是,贝叶斯公式如下式所示。
Figure BDA0002948504560000072
其中,p(y=1/x)为根据所有特征项得到的待过滤邮件中的垃圾邮件概率值,将特征向量分为K个特征子向量后,待过滤邮件中的垃圾邮件概率值如下式所示。
Figure BDA0002948504560000073
其中,根据贝叶斯公式(3)得到p(xi/=1)如下式所示。
Figure BDA0002948504560000074
将式(5)代入式(4)得到式(2)。
通过上述步骤,通过获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型;利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
在其中一些实施例中,步骤S202,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型。
在本实施例中,通过人工蜂群算法更新每个特征子向量中的特征项的最优权重wi,将最优权重wi代入式(1),得到训练后的逻辑回归子模型。
通过上述方式,实现了每个特征项的最优权重的获取,并根据所有特征项的最优权重得到训练后的逻辑回归子模型,为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备。
在其中一些实施例中,基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型包括如下步骤:
步骤S2020,将每个特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源。
在本实施例中,初始解集为xij(i=1,2,3.....M,j=1,2,3.....D),D是特征子向量的空间维度。
步骤S2021,采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量。
在本实施例中,按照下式生成新的食物源。
vij=xij+Lij(xij-xkj) (6)
其中,vij是新的食物源,Lij是区间[-1,1]的随机数,xij和xkj是初始解,其中,k≠i,若vij的适应值大于xij的适应值,则把vij的值赋给xij
需要说明的是,适应度又称“适应值(adaptive value)”,“适存度”,“适合度”。适应度是指某个群体内某种基因型机体存活并将其基因传递至下一代的相对能力(与其他基因型比较)。适合度越大,存活和生殖机会越高。
步骤S2022,观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值。
在本实施例中,观察蜂根据下式计算蜜源的概率。
Figure BDA0002948504560000081
其中,fiti和fitj是可能解xij的适应值,SN是是观察蜂的个数,pi是第i个蜜源的概率。
步骤S2023,当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,侦查蜂根据特征子向量的上限和下限,计算新的食物源。
在本实施例中,新的食物源通过下式计算得出。
Figure BDA0002948504560000082
其中,r是[0,1]的随机数,xiD是新的食物源,xD max和xD min分别是D维特征向量的上限和下限。
步骤S2024,判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为特征项的最优权重,根据特征项的最优权重,得到训练后的逻辑回归子模型。
步骤S2025,将测试集输入训练后的逻辑回归子模型,验证特征项最优权重的准确性。
通过上述步骤,基于人工蜂群算法更新每个特征项的权重,并得到最优权重,根据最优权重得到训练后的逻辑回归子模型,实现了每个特征项最优权重的获取,为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备,提高了过滤垃圾邮件的精确度。
在其中一些实施例中,步骤S2025,将测试集输入训练后的逻辑回归子模型,验证特征项最优权重的准确性包括如下步骤:
步骤S210,将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
步骤S211,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
步骤S212,比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定特征项最优权重的准确性,其中,实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。
通过上述步骤,实现了对特征项最优权重的准确性,为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备,提高了过滤垃圾邮件的精确度。
在其中一些实施例中,步骤S203,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值包括:
基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在本实施例中,根据式(2)计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
通过上述方式,实现了待过滤邮件中的垃圾邮件概率值的确定。
在其中一些实施例中,步骤S201,获取样本邮件,对样本邮件进行解析得到文本信息包括:
基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息,其中,文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
通过上述方式,实现了样本邮件的文本信息的获取,为后续对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量做准备。
在其中一些实施例中,特征项包括以下至少之一:字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
在一个实施例中,提供了一种垃圾邮件过滤方法,图3是根据本申请实施例的垃圾邮件过滤方法的流程图二,如图3所示,该流程包括如下步骤:
步骤S301,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息,其中,文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
步骤S302,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量,将特征向量分为特征项相互独立的两个以上特征子向量。
在本实施例中,特征项包括以下至少之一:字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
步骤S303,基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型。
在本实施例中,将每个特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,侦查蜂根据特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为特征项的最优权重,根据特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定特征项最优权重的准确性,其中,实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。
步骤S304,基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
通过上述步骤,通过获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型;利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
在一个实施例中,提供了一种垃圾邮件过滤方法,图4是根据本申请实施例的垃圾邮件过滤方法的流程图三,如图4所示,该流程包括如下步骤:
步骤S401,获取样本邮件,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息。
在本实施例中,邮件的文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题,若邮件的文本信息已通过Base64和Quoted Printable编码方式进行编码,则采用对应的方式进行解码,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对html格式的邮件主体进行解析。
步骤S402,基于字节级n-gram来定义特征项,将样本邮件的文本信息转化为由各特征项及其对应的权重组成的特征向量。
需要说明的是,n-gram是一种基于统计语言模型的算法,又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有的gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
步骤S403,将特征向量分为8个特征项相互独立的特征子向量,基于人工蜂群算法训练每个特征子向量的回归模型,得到8个训练后的逻辑回归子模型。
在本实施例中,将特征向量分为8个特征项相互独立的特征子向量M1~M8,基于人工蜂群算法更新每个特征子向量中的每个特征项的权重,并通过比较得到每个特征项的最优权重,将每个特征项的最优权重代入式(1),得到8个训练后的逻辑回归子模型。
步骤S404,将待过滤的邮件分别输入到每个训练后的逻辑回归子模型,得到每个逻辑子模型预测的垃圾邮件概率值。
在本实施例中,获取待过滤邮件,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对待过滤邮件进行解码和解析,得到待过滤邮件的文本信息,基于字节级n-gram来定义特征项,将待过滤邮件的文本信息转化为由各特征项及其对应的权重组成的特征向量,将待过滤邮件的特征向量输入每个训练后的逻辑回归子模型,即将待过滤邮件的特征向量代入式(1),得到每个逻辑回归模型预测的垃圾邮件概率值。
步骤S405,根据贝叶斯公式,计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在本实施例中,将每个逻辑回归模型预测的垃圾邮件概率值代入式(2),得到待过滤邮件中的垃圾邮件概率值。
本实施例还提供了一种垃圾邮件过滤装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的垃圾邮件过滤装置的结构框图,如图5所示,该装置包括:
获取模块51,用于获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
训练模块52,用于将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型;
分类模型53,用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
通过上述实施例,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
在一个实施例中,训练模块52还用于基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型。
在一个实施例中,训练模块52还用于将每个特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应度值,若新的食物源的适应度值大于原始的食物源的适应度值,则用新的食物源代替原始的食物源,其中,适应度值为食物源的花蜜量;
观察蜂重新计算初始解集的适应度值,根据适应度值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应度值;
当判断采蜜蜂完成N次循环后,若食物源的适应度值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,侦查蜂根据特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为特征项的最优权重,根据特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证特征项最优权重的准确性。
在一个实施例中,训练模块52还用于将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定特征项最优权重的准确性,其中,实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。
在一个实施例中,分类模型53还用于基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在一个实施例中,获取模块51还用于基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息,其中,文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
在一个实施例中,特征项包括以下至少之一:字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量。
S2,将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型。
S3,利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的垃圾邮件过滤方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种垃圾邮件过滤方法的步骤。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种垃圾邮件过滤方法,其特征在于,包括:
获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型。
3.根据权利要求2所述的垃圾邮件过滤方法,其特征在于,基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型包括:
将每个所述特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,所述侦查蜂根据所述特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为所述特征项的最优权重,根据所述特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性。
4.根据权利要求3所述的垃圾邮件过滤方法,其特征在于,将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性包括:
将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定所述特征项最优权重的准确性,其中,所述实际垃圾邮件的概率通过所述样本邮件中的垃圾邮件和非垃圾邮件计算得出。
5.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值包括:
基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
6.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,获取样本邮件,对所述样本邮件进行解析得到文本信息包括:
基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对所述样本邮件进行解码和解析,得到样本邮件的文本信息,其中,所述文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
7.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述特征项包括以下至少之一:
字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
8.一种垃圾邮件过滤装置,其特征在于,包括:
获取模块,用于获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
训练模块,用于将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
分类模型,用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的垃圾邮件过滤方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的垃圾邮件过滤方法的步骤。
CN202110200482.5A 2021-02-23 2021-02-23 垃圾邮件过滤方法、装置、电子装置和存储介质 Active CN112990852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110200482.5A CN112990852B (zh) 2021-02-23 2021-02-23 垃圾邮件过滤方法、装置、电子装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110200482.5A CN112990852B (zh) 2021-02-23 2021-02-23 垃圾邮件过滤方法、装置、电子装置和存储介质

Publications (2)

Publication Number Publication Date
CN112990852A true CN112990852A (zh) 2021-06-18
CN112990852B CN112990852B (zh) 2024-03-29

Family

ID=76349599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110200482.5A Active CN112990852B (zh) 2021-02-23 2021-02-23 垃圾邮件过滤方法、装置、电子装置和存储介质

Country Status (1)

Country Link
CN (1) CN112990852B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016416A (zh) * 2023-03-24 2023-04-25 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN103871002A (zh) * 2014-03-25 2014-06-18 上海电机学院 基于自适应蜂群算法的风电功率预测方法及装置
CN106628097A (zh) * 2016-11-22 2017-05-10 南京航空航天大学 一种基于改进径向基神经网络的船舶设备故障诊断方法
CN107465664A (zh) * 2017-07-07 2017-12-12 桂林电子科技大学 基于并行多人工蜂群算法和支持向量机的入侵检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN103871002A (zh) * 2014-03-25 2014-06-18 上海电机学院 基于自适应蜂群算法的风电功率预测方法及装置
CN106628097A (zh) * 2016-11-22 2017-05-10 南京航空航天大学 一种基于改进径向基神经网络的船舶设备故障诊断方法
CN107465664A (zh) * 2017-07-07 2017-12-12 桂林电子科技大学 基于并行多人工蜂群算法和支持向量机的入侵检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BILGE KAGAN DEDETURK, BAHRIYE AKAY: "Spam filtering using a logistic regression model trained by an artificial bee colony algorithm", APPLIED SOFT COMPUTING, 30 September 2020 (2020-09-30) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116016416A (zh) * 2023-03-24 2023-04-25 深圳市明源云科技有限公司 垃圾邮件识别方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112990852B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
US7756535B1 (en) Lightweight content filtering system for mobile phones
EP3534283A1 (en) Classification of source data by neural network processing
US8023974B1 (en) Lightweight SVM-based content filtering system for mobile phones
EP3534284A1 (en) Classification of source data by neural network processing
CN107291780B (zh) 一种用户评论信息展示方法和装置
CN110149266B (zh) 垃圾邮件识别方法及装置
Sharma et al. Machine Learning based Spam E-Mail Detection.
Shirani-Mehr SMS spam detection using machine learning approach
CN109918498B (zh) 一种问题入库方法和装置
US9569285B2 (en) Method and system for message handling
Washha et al. A topic-based hidden Markov model for real-time spam tweets filtering
CN108985048B (zh) 模拟器识别方法及相关装置
CN112465043A (zh) 模型训练方法、装置和设备
CN111401063B (zh) 一种基于多池化网络的文本处理方法、装置和相关设备
Bhat et al. Classification of email using BeaKS: Behavior and keyword stemming
Han et al. A packet-length-adjustable attention model based on bytes embedding using flow-wgan for smart cybersecurity
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
CN112990852A (zh) 垃圾邮件过滤方法、装置、电子装置和存储介质
Dada et al. Random forests machine learning technique for email spam filtering
US20220294751A1 (en) System and method for clustering emails identified as spam
CN110196805B (zh) 数据处理方法、装置、存储介质和电子装置
Gad et al. Email filtering based on supervised learning and mutual information feature selection
Maqsood et al. An Intelligent Framework Based on Deep Learning for SMS and e‐mail Spam Detection
Devi et al. Stochastic Gradient Boosting Model for Twitter Spam Detection.
Nagwani A Bi-Level Text Classification Approach for SMS Spam Filtering and Identifying Priority Messages.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant