CN112990852B - 垃圾邮件过滤方法、装置、电子装置和存储介质 - Google Patents
垃圾邮件过滤方法、装置、电子装置和存储介质 Download PDFInfo
- Publication number
- CN112990852B CN112990852B CN202110200482.5A CN202110200482A CN112990852B CN 112990852 B CN112990852 B CN 112990852B CN 202110200482 A CN202110200482 A CN 202110200482A CN 112990852 B CN112990852 B CN 112990852B
- Authority
- CN
- China
- Prior art keywords
- logistic regression
- model
- sub
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001914 filtration Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000007477 logistic regression Methods 0.000 claims abstract description 149
- 239000013598 vector Substances 0.000 claims abstract description 96
- 238000012549 training Methods 0.000 claims abstract description 31
- 235000013305 food Nutrition 0.000 claims description 99
- 230000006978 adaptation Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 235000012907 honey Nutrition 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 241000257303 Hymenoptera Species 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 241000256844 Apis mellifera Species 0.000 description 52
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种垃圾邮件过滤方法、装置、电子装置和存储介质,其中,该垃圾邮件过滤方法包括:获取样本邮件后进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个逻辑回归子模型,得到训练后的逻辑回归子模型;将待过滤邮件进行输入每个训练后的逻辑回归子模型,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到垃圾邮件概率值,通过本申请,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
Description
技术领域
本申请涉及机器学习领域,特别是涉及垃圾邮件过滤方法、装置、电子装置和存储介质。
背景技术
垃圾邮件一般具有批量发送的特征。其内容包括赚钱信息、商业或个人网站广告、电子杂志。垃圾邮件可以分为良性和恶性的。良性垃圾邮件是各种宣传广告等对收件人影响不大的信息邮件。恶性垃圾邮件是指具有破坏性的电子邮件。有些垃圾邮件发送组织或是非法信息传播者,为了大面积散布信息,常采用多台机器同时巨量发送的方式攻击邮件服务器,造成邮件服务器大量带宽损失,并严重干扰邮件服务器进行正常的邮件递送工作。
目前常用机器学习方法对垃圾邮件进行检测并过滤,目前的机器学习方法进行垃圾邮件过滤时需要对邮件中特征进行选择,不能有效地处理高维数据,存在垃圾邮件检测精度低的问题。
目前针对相关技术中垃圾邮件检测精度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种垃圾邮件过滤方法、装置、电子装置和存储介质,以至少解决相关技术中垃圾邮件检测精度低的问题。
第一方面,本申请实施例提供了一种垃圾邮件过滤方法,包括:
获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
在其中一些实施例中,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型。
在其中一些实施例中,基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型包括:
将每个所述特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,所述侦查蜂根据所述特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为所述特征项的最优权重,根据所述特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性。
在其中一些实施例中,将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性包括:
将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定所述特征项最优权重的准确性,其中,所述实际垃圾邮件的概率通过所述样本邮件中的垃圾邮件和非垃圾邮件计算得出。
在其中一些实施例中,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值包括:
基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在其中一些实施例中,获取样本邮件,对所述样本邮件进行解析得到文本信息包括:
基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对所述样本邮件进行解码和解析,得到样本邮件的文本信息,其中,所述文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
在其中一些实施例中,所述特征项包括以下至少之一:
字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
第二方面,本申请实施例提供了一种垃圾邮件过滤装置,包括:
获取模块,用于获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
训练模块,用于将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
分类模型,用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的垃圾邮件过滤方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的垃圾邮件过滤方法的步骤。
相比于相关技术,本申请实施例提供的垃圾邮件过滤方法、装置、电子装置和存储介质,通过获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的垃圾邮件过滤方法的应用终端的硬件结构框图;
图2是根据本申请实施例的垃圾邮件过滤方法的流程图一;
图3是根据本申请实施例的垃圾邮件过滤方法的流程图二;
图4是根据本申请实施例的垃圾邮件过滤方法的流程图三;
图5是根据本申请实施例的垃圾邮件过滤装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是根据本申请实施例的垃圾邮件过滤方法的应用终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的垃圾邮件过滤方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例提供了一种垃圾邮件过滤方法,图2是根据本申请实施例的垃圾邮件过滤方法的流程图一,如图2所示,该流程包括如下步骤:
步骤S201,获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量。
在本实施例中,样本邮件的特征向量记为M,M=(t1,w1;t2,w2;…;tn,wn),其中,ti(i=1,2,3,…,n)为特征项,wi(i=1,2,3,…,n)为特征项ti对应的权重。
步骤S202,将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型。
在本实施例中,将特征向量M=(t1,w1;t2,w2;…;tn,wn)分为k个特征子向量,记为M1~Mk,M1~Mk中的特征项之间相互独立,Mi(i=1,2,3,…,k)对应于一个逻辑回归子模型,利用人工蜂群算法训练每个特征子向量的权重wi,根据训练后的权重wi得到训练后的逻辑回归子模型,其中,k≥2。
需要说明的是,人工蜂群算法是模仿蜜蜂行为提出的一种优化方法,是集群智能思想的一个具体应用,它的主要特点是不需要了解问题的特殊信息,只需要对问题进行优劣的比较,通过各人工蜂个体的局部寻优行为,最终在群体中使全局最优值突现出来,有着较快的收敛速度。
步骤S203,利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
在本实施例中,每个逻辑回归子模型预测的垃圾邮件概率值如下式所示。
其中,Pi(i=1,2,3,…,k)为第i个逻辑回归子模型预测的垃圾邮件概率值,为特征子向量,/>为特征子向量中所有特征项对应权重组成的权重向量,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值P如下式所示。
需要说明的是,贝叶斯公式如下式所示。
其中,p(y=1/x)为根据所有特征项得到的待过滤邮件中的垃圾邮件概率值,将特征向量分为K个特征子向量后,待过滤邮件中的垃圾邮件概率值如下式所示。
其中,根据贝叶斯公式(3)得到p(xi/=1)如下式所示。
将式(5)代入式(4)得到式(2)。
通过上述步骤,通过获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型;利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
在其中一些实施例中,步骤S202,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型。
在本实施例中,通过人工蜂群算法更新每个特征子向量中的特征项的最优权重wi,将最优权重wi代入式(1),得到训练后的逻辑回归子模型。
通过上述方式,实现了每个特征项的最优权重的获取,并根据所有特征项的最优权重得到训练后的逻辑回归子模型,为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备。
在其中一些实施例中,基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型包括如下步骤:
步骤S2020,将每个特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源。
在本实施例中,初始解集为xij(i=1,2,3…M,j=1,2,3…D),D是特征子向量的空间维度。
步骤S2021,采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量。
在本实施例中,按照下式生成新的食物源。
vij=xij+Lij(xij-xkj) (6)
其中,vij是新的食物源,Lij是区间[-1,1]的随机数,xij和xkj是初始解,其中,k≠i,若vij的适应值大于xij的适应值,则把vij的值赋给xij。
需要说明的是,适应度又称“适应值(adaptive value)”,“适存度”,“适合度”。适应度是指某个群体内某种基因型机体存活并将其基因传递至下一代的相对能力(与其他基因型比较)。适合度越大,存活和生殖机会越高。
步骤S2022,观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值。
在本实施例中,观察蜂根据下式计算蜜源的概率。
其中,fiti和fitj是可能解xij的适应值,SN是是观察蜂的个数,pi是第i个蜜源的概率。
步骤S2023,当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,侦查蜂根据特征子向量的上限和下限,计算新的食物源。
在本实施例中,新的食物源通过下式计算得出。
其中,r是[0,1]的随机数,xiD是新的食物源,xD max和xD min分别是D维特征向量的上限和下限。
步骤S2024,判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为特征项的最优权重,根据特征项的最优权重,得到训练后的逻辑回归子模型。
步骤S2025,将测试集输入训练后的逻辑回归子模型,验证特征项最优权重的准确性。
通过上述步骤,基于人工蜂群算法更新每个特征项的权重,并得到最优权重,根据最优权重得到训练后的逻辑回归子模型,实现了每个特征项最优权重的获取,为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备,提高了过滤垃圾邮件的精确度。
在其中一些实施例中,步骤S2025,将测试集输入训练后的逻辑回归子模型,验证特征项最优权重的准确性包括如下步骤:
步骤S210,将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
步骤S211,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
步骤S212,比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定特征项最优权重的准确性,其中,实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。
通过上述步骤,实现了对特征项最优权重的准确性,为后续根据训练后的逻辑回归子模型预测垃圾邮件的概率值做准备,提高了过滤垃圾邮件的精确度。
在其中一些实施例中,步骤S203,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值包括:
基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在本实施例中,根据式(2)计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
通过上述方式,实现了待过滤邮件中的垃圾邮件概率值的确定。
在其中一些实施例中,步骤S201,获取样本邮件,对样本邮件进行解析得到文本信息包括:
基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息,其中,文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
通过上述方式,实现了样本邮件的文本信息的获取,为后续对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量做准备。
在其中一些实施例中,特征项包括以下至少之一:字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
在一个实施例中,提供了一种垃圾邮件过滤方法,图3是根据本申请实施例的垃圾邮件过滤方法的流程图二,如图3所示,该流程包括如下步骤:
步骤S301,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息,其中,文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
步骤S302,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量,将特征向量分为特征项相互独立的两个以上特征子向量。
在本实施例中,特征项包括以下至少之一:字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
步骤S303,基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型。
在本实施例中,将每个特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,侦查蜂根据特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为特征项的最优权重,根据特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定特征项最优权重的准确性,其中,实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。
步骤S304,基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
通过上述步骤,通过获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型;利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
在一个实施例中,提供了一种垃圾邮件过滤方法,图4是根据本申请实施例的垃圾邮件过滤方法的流程图三,如图4所示,该流程包括如下步骤:
步骤S401,获取样本邮件,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息。
在本实施例中,邮件的文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题,若邮件的文本信息已通过Base64和Quoted Printable编码方式进行编码,则采用对应的方式进行解码,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对html格式的邮件主体进行解析。
步骤S402,基于字节级n-gram来定义特征项,将样本邮件的文本信息转化为由各特征项及其对应的权重组成的特征向量。
需要说明的是,n-gram是一种基于统计语言模型的算法,又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有的gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
步骤S403,将特征向量分为8个特征项相互独立的特征子向量,基于人工蜂群算法训练每个特征子向量的回归模型,得到8个训练后的逻辑回归子模型。
在本实施例中,将特征向量分为8个特征项相互独立的特征子向量M1~M8,基于人工蜂群算法更新每个特征子向量中的每个特征项的权重,并通过比较得到每个特征项的最优权重,将每个特征项的最优权重代入式(1),得到8个训练后的逻辑回归子模型。
步骤S404,将待过滤的邮件分别输入到每个训练后的逻辑回归子模型,得到每个逻辑子模型预测的垃圾邮件概率值。
在本实施例中,获取待过滤邮件,基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对待过滤邮件进行解码和解析,得到待过滤邮件的文本信息,基于字节级n-gram来定义特征项,将待过滤邮件的文本信息转化为由各特征项及其对应的权重组成的特征向量,将待过滤邮件的特征向量输入每个训练后的逻辑回归子模型,即将待过滤邮件的特征向量代入式(1),得到每个逻辑回归模型预测的垃圾邮件概率值。
步骤S405,根据贝叶斯公式,计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在本实施例中,将每个逻辑回归模型预测的垃圾邮件概率值代入式(2),得到待过滤邮件中的垃圾邮件概率值。
本实施例还提供了一种垃圾邮件过滤装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本申请实施例的垃圾邮件过滤装置的结构框图,如图5所示,该装置包括:
获取模块51,用于获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
训练模块52,用于将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型;
分类模型53,用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
通过上述实施例,解决了垃圾邮件检测精度低的问题,实现了对样本邮件中所有特征项的处理,提高了垃圾邮件的检测精度。
在一个实施例中,训练模块52还用于基于人工蜂群算法更新每个特征子向量中的特征项的权重,得到特征项的最优权重,根据每个特征项的最优权重,得到训练后的逻辑回归子模型。
在一个实施例中,训练模块52还用于将每个特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应度值,若新的食物源的适应度值大于原始的食物源的适应度值,则用新的食物源代替原始的食物源,其中,适应度值为食物源的花蜜量;
观察蜂重新计算初始解集的适应度值,根据适应度值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应度值;
当判断采蜜蜂完成N次循环后,若食物源的适应度值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,侦查蜂根据特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为特征项的最优权重,根据特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证特征项最优权重的准确性。
在一个实施例中,训练模块52还用于将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定特征项最优权重的准确性,其中,实际垃圾邮件的概率通过样本邮件中的垃圾邮件和非垃圾邮件计算得出。
在一个实施例中,分类模型53还用于基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
在一个实施例中,获取模块51还用于基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对样本邮件进行解码和解析,得到样本邮件的文本信息,其中,文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
在一个实施例中,特征项包括以下至少之一:字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取样本邮件,对样本邮件进行解析得到文本信息,对文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量。
S2,将特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,逻辑回归子模型为与每个特征子向量相对应的逻辑回归模型。
S3,利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的垃圾邮件过滤方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种垃圾邮件过滤方法的步骤。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种垃圾邮件过滤方法,其特征在于,包括:
获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
所述基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值包括:
基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
2.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型包括:
基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型。
3.根据权利要求2所述的垃圾邮件过滤方法,其特征在于,基于人工蜂群算法更新每个所述特征子向量中的特征项的权重,得到所述特征项的最优权重,根据每个所述特征项的最优权重,得到训练后的逻辑回归子模型包括:
将每个所述特征子向量分为训练集和测试集,将训练集输入逻辑回归子模型,初始化人工蜂群算法中的相关参数,其中,人工蜂群算法中的相关参数包括食物源的最大循环次数N、终止迭代次数M、食物源的数量和初始解集,其中,食物源表示特征项的权重的可能解,初始解集为原始的食物源;
采蜜蜂根据初始解集生成新的食物源,采用评估函数计算食物源的适应值,若新的食物源的适应值大于原始的食物源的适应值,则用新的食物源代替原始的食物源,其中,适应值为食物源的花蜜量;
观察蜂重新计算初始解集的适应值,根据适应值计算可能为蜜源的概率,根据蜜源的概率选择食物源,并记录全局最优的食物源以及对应的适应值;
当判断采蜜蜂完成N次循环后,若食物源的适应值没有被提高,则丢弃该食物源,与该食物源对应的采蜜蜂变成侦查蜂,所述侦查蜂根据所述特征子向量的上限和下限,计算新的食物源;
判断算法迭代次数是否达到M,若是,则输出花蜜量最大的食物源,并作为所述特征项的最优权重,根据所述特征项的最优权重,得到训练后的逻辑回归子模型;
将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性。
4.根据权利要求3所述的垃圾邮件过滤方法,其特征在于,将测试集输入训练后的逻辑回归子模型,验证所述特征项最优权重的准确性包括:
将测试集输入训练后的逻辑回归子模型,得到每个训练后的逻辑回归子模型预测的垃圾邮件概率;
基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
比较待过滤邮件中的垃圾邮件概率值与实际垃圾邮件的概率值,确定所述特征项最优权重的准确性,其中,所述实际垃圾邮件的概率通过所述样本邮件中的垃圾邮件和非垃圾邮件计算得出。
5.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,获取样本邮件,对所述样本邮件进行解析得到文本信息包括:
基于RFC2822邮件标准、RFC2045邮件标准、RFC2046邮件标准和MIME格式标准,对所述样本邮件进行解码和解析,得到样本邮件的文本信息,其中,所述文本信息包括样本邮件标题、样本邮件文本和样本邮件附件标题。
6.根据权利要求1所述的垃圾邮件过滤方法,其特征在于,所述特征项包括以下至少之一:
字特征、词特征、短语特征、概念特征、字节级n-gram的特征。
7.一种垃圾邮件过滤装置,其特征在于,包括:
获取模块,用于获取样本邮件,对所述样本邮件进行解析得到文本信息,对所述文本信息进行特征项提取得到由各特征项及其对应的权重组成的特征向量;
训练模块,用于将所述特征向量分为特征项相互独立的两个以上特征子向量,基于人工蜂群算法训练每个所述特征子向量的逻辑回归子模型,得到训练后的逻辑回归子模型,其中,所述逻辑回归子模型为与每个所述特征子向量相对应的逻辑回归模型;
分类模型,用于利用每个训练后的逻辑回归子模型对待过滤邮件进行分类,得到每个逻辑回归子模型预测的垃圾邮件概率值,基于贝叶斯公式组合每个逻辑回归子模型预测的垃圾邮件概率值,得到待过滤邮件中的垃圾邮件概率值;
所述分类模型,还用于基于贝叶斯公式计算所有逻辑回归子模型预测的垃圾邮件概率值和,得到待过滤邮件中的垃圾邮件概率值。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的垃圾邮件过滤方法。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6中任一项所述的垃圾邮件过滤方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200482.5A CN112990852B (zh) | 2021-02-23 | 2021-02-23 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110200482.5A CN112990852B (zh) | 2021-02-23 | 2021-02-23 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990852A CN112990852A (zh) | 2021-06-18 |
CN112990852B true CN112990852B (zh) | 2024-03-29 |
Family
ID=76349599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110200482.5A Active CN112990852B (zh) | 2021-02-23 | 2021-02-23 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990852B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116016416B (zh) * | 2023-03-24 | 2023-08-04 | 深圳市明源云科技有限公司 | 垃圾邮件识别方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101106539A (zh) * | 2007-08-03 | 2008-01-16 | 浙江大学 | 基于支持向量机的垃圾邮件过滤方法 |
CN101227435A (zh) * | 2008-01-28 | 2008-07-23 | 浙江大学 | 基于Logistic回归的中文垃圾邮件过滤方法 |
CN103871002A (zh) * | 2014-03-25 | 2014-06-18 | 上海电机学院 | 基于自适应蜂群算法的风电功率预测方法及装置 |
CN106628097A (zh) * | 2016-11-22 | 2017-05-10 | 南京航空航天大学 | 一种基于改进径向基神经网络的船舶设备故障诊断方法 |
CN107465664A (zh) * | 2017-07-07 | 2017-12-12 | 桂林电子科技大学 | 基于并行多人工蜂群算法和支持向量机的入侵检测方法 |
-
2021
- 2021-02-23 CN CN202110200482.5A patent/CN112990852B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101106539A (zh) * | 2007-08-03 | 2008-01-16 | 浙江大学 | 基于支持向量机的垃圾邮件过滤方法 |
CN101227435A (zh) * | 2008-01-28 | 2008-07-23 | 浙江大学 | 基于Logistic回归的中文垃圾邮件过滤方法 |
CN103871002A (zh) * | 2014-03-25 | 2014-06-18 | 上海电机学院 | 基于自适应蜂群算法的风电功率预测方法及装置 |
CN106628097A (zh) * | 2016-11-22 | 2017-05-10 | 南京航空航天大学 | 一种基于改进径向基神经网络的船舶设备故障诊断方法 |
CN107465664A (zh) * | 2017-07-07 | 2017-12-12 | 桂林电子科技大学 | 基于并行多人工蜂群算法和支持向量机的入侵检测方法 |
Non-Patent Citations (1)
Title |
---|
Spam filtering using a logistic regression model trained by an artificial bee colony algorithm;Bilge Kagan Dedeturk, Bahriye Akay;Applied Soft Computing;20200930;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990852A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598011B (zh) | 数据处理方法、装置、计算机设备以及可读存储介质 | |
CN109344884B (zh) | 媒体信息分类方法、训练图片分类模型的方法及装置 | |
US7756535B1 (en) | Lightweight content filtering system for mobile phones | |
CN107291780B (zh) | 一种用户评论信息展示方法和装置 | |
JP5031206B2 (ja) | 指数モデルの適合 | |
CN110019794B (zh) | 文本资源的分类方法、装置、存储介质及电子装置 | |
CN112465043A (zh) | 模型训练方法、装置和设备 | |
US8364615B2 (en) | Local graph partitioning using evolving sets | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
WO2019019348A1 (zh) | 产品信息推送方法、装置、存储介质和计算机设备 | |
CN111401063B (zh) | 一种基于多池化网络的文本处理方法、装置和相关设备 | |
CN113051486A (zh) | 基于交友场景的推荐模型的训练方法、装置、电子设备和计算机可读存储介质 | |
US20220383157A1 (en) | Interpretable machine learning for data at scale | |
CN108985048B (zh) | 模拟器识别方法及相关装置 | |
CN112990852B (zh) | 垃圾邮件过滤方法、装置、电子装置和存储介质 | |
CN116431597A (zh) | 用于训练数据分类模型的方法、电子设备和计算机程序产品 | |
CN110196805B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN108536666A (zh) | 一种短文本信息提取方法和装置 | |
CN111881293B (zh) | 一种风险内容识别方法及装置、服务器、存储介质 | |
CN117707902A (zh) | 基于机器学习的自动化日志解析方法、系统、电子装置和存储介质 | |
CN112417874A (zh) | 命名实体的识别方法和装置、存储介质、电子装置 | |
CN116862580A (zh) | 短信触达时间预测方法、装置、计算机设备及存储介质 | |
CN111368552A (zh) | 一种面向特定领域的网络用户群组划分方法及装置 | |
CN103810157A (zh) | 输入法实现方法和装置 | |
CN115393100A (zh) | 资源推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |