CN107844801B - 一种垃圾邮件的分类方法 - Google Patents

一种垃圾邮件的分类方法 Download PDF

Info

Publication number
CN107844801B
CN107844801B CN201710979534.7A CN201710979534A CN107844801B CN 107844801 B CN107844801 B CN 107844801B CN 201710979534 A CN201710979534 A CN 201710979534A CN 107844801 B CN107844801 B CN 107844801B
Authority
CN
China
Prior art keywords
feature
class
spam
ham
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710979534.7A
Other languages
English (en)
Other versions
CN107844801A (zh
Inventor
苏翀
刘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710979534.7A priority Critical patent/CN107844801B/zh
Publication of CN107844801A publication Critical patent/CN107844801A/zh
Application granted granted Critical
Publication of CN107844801B publication Critical patent/CN107844801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种垃圾邮件的分类方法,包括1)联合文档‑特征词频率来确定ham类和spam类的特征权重;2)采用相对文档‑特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档‑特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;4)采用包装模式的特征选择方法,结合Particle Swarm Optimization优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;该垃圾邮件的分类方法的分类效果要比传统的基于过滤模式的方法要好。

Description

一种垃圾邮件的分类方法
技术领域
本发明涉及网络安全领域,具体涉及一种垃圾邮件的分类方法。
背景技术
如今的网络时代,即使是在地理上相隔很远的人们之间联系也已经非常方便,电子邮件是一种低成本而又高效的联系方法,人们在享受这便利的信息传递方法的同时,也受到了垃圾邮件的骚扰,而且也对网络用户和服务提供商带来了严重的影响,因此如何对垃圾邮件进行有效的分类成为一个比较重要的挑战。
发明内容
为了解决上述的技术问题本发明提供一种的垃圾邮件的分类方法。
为解决上述问题,本发明采用如下技术方案:
一种垃圾邮件的分类方法,包括以下步骤:
1)联合文档-特征词频率来确定ham类和spam类的特征权重;
2)采用相对文档-特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;
3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;
4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;
5)输出F1值最高的候选特征子集作为最终的特征集合。
作为优选,所述验证为十字交叉验证。
作为优选,所述十字交叉验证为基于分类器的十字交叉验证。
作为优选,所述分类器包含有NB分类器和SVM分类器。
作为优选,所述步骤4)还包含有步骤:每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到粒子群。
本发明的有益效果为:首先使用相对文档-特征词频率差异的方法,分别计算出现在ham类和spam类中特征的权重,取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度,根据差异值的正或负,将特征集合分成两类,负值为spam类特征,正值为ham类特征。为了增强特征之间差异的组合范围,获取更好的分类性能而引入了包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行十字交叉验证,选取最好的候选特征子集。效果要比传统的基于过滤模式的方法好。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
一种垃圾邮件的分类方法,包括以下步骤:
1)联合文档-特征词频率来确定ham类和spam类的特征权重;
2)采用相对文档-特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;
3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;
4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;
5)输出F1值最高的特征子集作为最终的特征集合。
在本实施例中,所述验证为十字交叉验证。
在本实施例中,所述十字交叉验证为基于分类器的十字交叉验证。
在本实施例中,所述分类器包含有NB分类器和SVM分类器。
在本实施例中,所述步骤4)还包含有步骤:每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到粒子群。
特征权重排名算法是基于评分排名的方法来获取特征集合,不管是文档频率法还是特征词频法,一般都是将不同类别文档中的特征通过相应算法映射到一段值域空间中,而且特征选择只有单向性,那就是将所有特征按照可区分度的大小进行选择,排名靠前的特征从理论上就是相对较好的特征。事实上这些排名靠前的这些特征组合并不能保证对分类的最优化,主要原应是这些最优特征之间高度相关,形成了冗余特征,这种特性本身对分类的效果也是一种影响,因此想单纯依靠这种方式已经很难提高分类的效果了。若特征除了与类相关以外还和别的特征相关度也较高,那么这个特征也属于冗余特征,因此应该只保留与类相关的特征。事实上,特征与特征之间,特征与类之间的关系是非常复杂的,并不是所有的冗余特征都一定是不好的特征,也不是特征冗余度越低越好,在不同的数据集下会有不同的效果,即使相同的数据集在不同的分类器下也会有不同的效果,因此没有那种特征选择算法能适应所有情况。虽然基于过滤模式的方法在执行效率上比包装模式高,但是精确度往往没有包装模式高,包装模式依靠分类器的评估来完成对特征子集的选择,优点是简单且效果好,但缺点是计算成本较高,而且如果完全依靠分类器来选择特征,那么特征集合不可避免的会受到所选择的分类器的影响,因此不同的分类器产生的特征集合可能差异很大。结合过滤和包装法的优点,在多个不同的候选特征子集上通过交叉验证的办法可以获取更好的性能,且时间复杂度不会很高。由于垃圾邮件分类是一个最常见的两分类问题,该方法首先在基于过滤模式的特征选择的基础上,将特征集合按照特征的区分程度分成正类特征集合(合法邮件特征)和负类特征集合(垃圾邮件特征),再结合包装法的思路,通过高效的搜索算法,可以控制特征滑动窗口的大小来调节正负特征的比例,即分别从正类特征集合和负类特征集合中选择不同比例的正类和负类特征组合形成不同的候选特征子集,经过分类器(NB和SVM),最后挑选出符合评估函数条件的特征子集。这种方法的优点是可以进一步提高分类的效果,所选择的特征集合不完全依赖分类器,且由于特征选择的范围相对有限,若要选择N=10个特征,实际最大搜素的范围是2*N=20个特征,因此时间复杂度不会太高。
表一:
Figure GDA0002935605750000051
表二:
Figure GDA0002935605750000052
Figure GDA0002935605750000061
表一显示了两个数据集,分别包含垃圾邮件文档数(S)和正常邮件文档数(H)。表二显示了分别从两个据集上提取出来的特征词,分为两组,每组中都包含特征词对应在垃圾邮件和正常邮件中的文档频率、特征词频。我们按照文档频率和特征词频两种类型分别计算特征词在各个算法下的权重。首先,按照文档频率算法,如信息增益(IG)和卡方检验(CHI),特征词“investment”在数据集1中的权重最大,特征词“mailings”在数据集2中权重最大,因此这两个特征的区分度最好,数据显示这两个特征在垃圾邮件中出现次数均多于在正常邮件中出现的次数,因此,特征均趋向于垃圾邮件类型。尽管特征词“marketing”、“linguistic”、“sales”、“public”、“workshop”,出现的次数都很多,但由于这些特征词分别在各自数据集中的所有垃圾邮件和正常邮件中都多次出现,表明它们的区分度最差,因此在各自的文档频率算法中权重是最小的。特征词“linguistic”、“marketing”、“public”、“workshop”如果基于文档频率算法,它们的权重是一样的,因此没有区分度,特征词“marketing”应该要比“linguistic”更有区分度,因为特征词“marketing”在正常邮件中的特征词频显然要比“linguistic”的要高,从这个角度出发,说明“marketing”的区分度应该更好,但由于文档频率算法并没有考虑特征词频这一属性,因此,最后的权重排名并没有区别。此外,按照特征词频算法,如基于特征词频的信息增益(TFIG)和基于T检验的特征选择(TTFS),特征词“investment”在数据集1中的权重是最大的,特征词“mailings”在数据集2中的权重也是最大的,因为这两个特征词不仅在文档频率算法中区分度较好,在词频算法中区分度也较好。在数据集2中的特征词“workshop”,由于其文档频率和平均特征词频是一样的,因此,如果只考虑文档频率和特征词频,这两个特征的权重是一样的,就没有区分度,但是仔细分析一下这两个特征词的词频分布,可以明显看出,特征词“workshop”在正常邮件中出现的次数,明显要比在垃圾邮件中出现的次数波动要大,TTFS算法显示该特征更趋向于spam类,虽然原理分析较为但是基于T检验的特征词频分布的TTFS算法实际并不能很好的表现出特征词在spam类和ham类的区分度,所以实际效果并不理想。特征在ham类和spam类文档中所占的比重是衡量特征词重要程度的标志,出现次数太多或者太少都说明词特征区分度不够高,因此这种分布虽然是按照区分度来排序的,但是不能完全代表数据集的原空间的整体情况,因此特征选择的泛化能力不够。
为了解决上述问题,本发明提出了一种相对文档-特征词频率差(Relativedocument–terms frequency difference)的方法,以下简称RDTFD,该方法主要思想是分别在ham类和spam类中单独计算权重,最后取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度,这种按类单独计算权重的方法,还可以减少特征之间自相关性的影响。若特征只在spam类的文档中出现或者说出现在spam类中的比重更大,那么特征在spam类和ham类之间的差异就会比较大,说明该特征倾向于spam类的可能性更大,反之亦然;若特征在spam类和ham类的文档中都出现且出现的比重很接近,那么特征在类之间的差异就很小,说明该特征区分度较小,不是一个区分度很好的特征。
公式如下:
Figure GDA0002935605750000081
Figure GDA0002935605750000082
是属于ham类的文档数,
Figure GDA0002935605750000083
是属于ck类的文档数,
Figure GDA0002935605750000084
是属于非ck类的文档数,
Figure GDA0002935605750000085
表示特征ti在属于ck类的文档dj中出现的文档频率(一个文档中若出现多次,只算一次),
Figure GDA0002935605750000086
表示特征ti在属于非ck类的文档dj中出现的文档频率(一个文档中若出现多次,只算一次),
Figure GDA0002935605750000091
表示属于ck类的总词频,
Figure GDA0002935605750000092
表示属于非ck类的总词频,,
Figure GDA0002935605750000093
表示特征ti在属于ck类的文档dj中出现的词频,
Figure GDA0002935605750000094
表示特征ti在属于非ck类的文档dj中出现的词频。由于本文需要根据特征在spam和ham类中的比例来训练分类器,所以RDTFD的正值部分被归为ham类,负值部分被归为spam类,反之亦然。
Figure GDA0002935605750000095
也显示ham类和spam类的特征权重受到阈值的限制,进一步加大ham类和spam类的区分度。Table2中特征词“workshop”,如果根据的文档频率计算权重,该特征词是没有区分度的,如果根据特征词频来计算权重,也是没有区分度的,如果根据公式:
Figure GDA0002935605750000096
该特征词是有区分度的,因为虽然“workshop”在spam类和ham类中的特征词频是一样的都是20,由于对应在spam类中的总词频较ham类中的总词频要低,该特征词出现在spam类的比重要比在ham类中的比重要高
Figure GDA0002935605750000097
因此该特征更加趋向于属于spam类。这种联合文档频率和特征频率的权重计算方法,相比只考虑文档频率或者只考虑特征词频的方法要更合理些。
RDTFD method pseudo code:
Term selection and acquisition of F values
1:initialize variable Gs to preserve global optimal F Value
Set Gs=null
2:initialize variable Gf to preserve local optimal F Value
Set Gs=null
3:Put terms set of ham and spam into Fh
and Fs according to the former formula,respectively
4:Rank all the terms of Fh by the weight
with descending order,rank all the terms of Fs by the weight withascending order
5:initialize candidate term number for category
set N=2000
6:Run POS algorithm
Return global optimal F Value and put into Gs
Return local optimal F Value and put into Gf
7:output Gs and Gf
从以上算法的伪代码中可以看出,本文中的特征选择并不是对所有特征样本进行采样,因为这样做需要在很大的特征范围内搜索,这种做法不仅效率低,而且效果差。如果采用遍历所有特征的方式来选择特征,这需要2N次。因此,本发明首先按照文档-特征词频率差异算法分别生成合法邮件相关的特征集合和垃圾邮件相关的特征集合,根据权重的高低排序,从高到低选择一段特征空间值作为需要用于训练的特征子集(本发明设定特征是2000,卡方(CHI)和信息增益(IG)算法的F1值在特征数在2000时达到顶峰,在这些排名靠前的特征集合中,依靠随机生成的垃圾邮件特征和合法邮件特征的特征比来寻找最佳的特征候选子集。这种方法的优点是只需要在有限的特征范围内搜索特征集合,计算成本相对较少。
特征搜索策略分别从spam类和ham类中各选择一定比例的特征组成特征集合,当特征数较大的时候,快速寻找特征比例就成为搜索策略的关键部分。PSO优化算法是Kennedy and Eberhart在1995年提出的,最初的灵感是来自鸟群和鱼群的行为活动,事实上,人类和社会很多方面也是遵循这样的行为模式。每一个粒子都先随机初始化各自的特征比例,在特征比例的指引下,通过评价函数来判断粒子的适应度,标准的PSO公式如下:
Figure GDA0002935605750000111
Figure GDA0002935605750000112
每一个粒子都有一个空间搜索的位置,可以用向量t表示第t词迭代。D表示搜索空间的维度。
Figure GDA0002935605750000113
表示在t次迭代时,粒子i在第d维空间的速度。
Figure GDA0002935605750000114
表示在t次迭代时,粒子i与当前适应值相比的个体最佳位置。
Figure GDA0002935605750000115
表示与当前适应值相比的全局最佳位置。
Figure GDA0002935605750000116
表示在t次迭代时,粒子i在d维上的位置。
Figure GDA0002935605750000117
表示在t+1次迭代时,粒子i在d维上新的位置。W是控制前次迭代中的速度对当前速度的影响,也叫惯性权重,非负数,调节空间的搜索范围,初始化Wmin=0,Wmix=1。c1和c2是加速度常数,都初始化为2,用来调节最大步长。r1和r2是两个随机函数,取值范围[0,1],以增加搜索的随机性。粒子的最小速度Vmin=0.001,最大速度Vmix=0.01。粒子最小位置Xmin=0.001,最大位置Xmix=0.999。迭代次数最大值Nt初始化为30,每t次迭代时的w值的更新按照以下公式进行设置。
Figure GDA0002935605750000121
算法在每一次迭代的过程中都使用下面的评价函数:
Figure GDA0002935605750000122
t表示特征,n表示特征数(200≤n≤2000),分别在NB分类器和SVM分类器上使用十字交叉验证,取垃圾邮件分类的F1值的均值作为评价标准,更能客观的反应特征集合在分类器上的效果。
Figure GDA0002935605750000123
其中:
Figure GDA0002935605750000124
nss是被正确识别的垃圾邮件数,nsh是被错分为合法邮件的垃圾邮件数nhs是被错分为垃圾邮件的合法邮件数。
为了提高粒子的搜索效率,并获取最高F1值,每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到离子群中。
Pso伪代码
1:initialize the numer of particle
set Np=30
2:initialize the numer of iterations
set Nt=30
3:initialize the position of each particle
set position=random[xmin,xmax]
4:initialize the velocity of each particle
set velocity=random[vmin,vmax]
5:r is ratio,which equals to number of spam terms to number of hamterms
initialize r
set r=0
6:main prodcure
set t=0
while t Nt do
for i=1 to NP
set r=position+velocity
j=200
while j<N
Fh_temp=Fh
Fs_temp=Fs
j=j+200
Nh=r*j
Ns=j-Nh
for k=0 to Nh
put Fh_temp[k]into Fa
end for
for k=0to Ns
put Fs_temp[k]into Fa
end for
时间复杂度分析
时间复杂度分析
待选择的特征数分别设为N=1000和N=2000两档,极端情况下,ham类和spam类的特征比例接近于0或1的情况下,所选特征全部是ham类特征或者全部是spam类特征,因此实际搜索的特征空间为2*N,也就是分别从2000个或4000个特征中筛选出用于训练的1000个或2000个特征子集。本文中用于在特征空间快速搜索PSO的算法将粒子个数设定为30个,迭代次数设定为30次。若以N=1000为例,每隔200个特征集合为一个特征候选集合,那么每个粒子需要选择200,400,600,800,1000共5个特征候选子集选择用于最终的训练,最终是所有粒子在2000个spam类和ham类组成特征的空间中搜索30*30=900次,每个例子每次搜索200至1000个特征的5个特征候选子集,每个子集产生一个F1值,共产生4500个F1值的样本点。同样,若以N=2000为例,除了在前面200至1000个特征中搜索外,那么每个粒子还需要追加执行1200,1400,1600,1800,2000共5个特征候选子集选择用于最终的训练,最终是所有粒子在4000个spam类和ham类组成特征的空间中搜索30*30=900次,每个粒子每次选择200至2000的10个特征候选子集,每个子集产生一个F1值,共产生9000个F1值的样本点。Table4所示,当粒子数和迭代次数不变的时候,随着特征数的增加,搜索的时间也会随着增加。当特征数在N=2000时消耗的时间较多,N=1000时消耗的时间相当于N=2000时耗的三分之一,因此,如果搜索的特征范围进一步变少,那么时间消耗会减少很多。
统计分析
表三
Figure GDA0002935605750000151
Figure GDA0002935605750000161
当两组配对资料近似服从正态分布,它们的差值的检验可以使用配对T检验。如果配对的资料正态分布的假设不能成立,就可以使用威尔科克森符号秩检验(Wilcoxon,1945),来替代配对T检验,对配对资料的差值采用符号秩方法来检验,它的基本要求是差值数据设置为最小的序列等级和两组配对的资料是相关的。在两组配对资料的差异有具体数值的情况下,符号检验只利用大于0和小于0的信息,即正号和负号的信息,而对差异大小所包含的信息却未加利用,而Wilcoxon符号秩检验方法既考虑了正号和负号的信息,又利用了差值的大小,故效率较符号检验方法高。如表三所示,统计了CHI、IG、TFIG、TTFS、改进的基尼指数(GININTF)和改进的逆向文档频率特征选择(IMTFIDF)6个特征选择方法,特征数范围从200个特征到2000个特征,每次增加200个特征,在显著性水平为a=0.05时,测试了NB和SVM分类器在7个数据集上的性能,统计结果显示,在共84个样本例的情况下,其中有6个无统计差异,有78个有显著统计差异。因此本文的特征选择RDTFD+PSO结合的包装方法比其它的特征选择方法效果更好。
本发明的有益效果为:首先使用相对文档-特征词频率差异的方法,分别计算出现在ham类和spam类中特征的权重,取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度,根据差异值的正或负,将特征集合分成两类,负值为spam类特征,正值为ham类特征。为了增强特征之间差异的组合范围,获取更好的分类性能而引入了包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行十字交叉验证,选取最好的特征子集。效果要比传统的基于过滤模式的方法好。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种垃圾邮件的分类方法,其特征在于:包括以下步骤:
1)联合文档-特征词频率来确定ham类和spam类的特征权重;
2)采用相对文档-特征词频率差异的方法,计算特征出现在ham类与出现在spam类之间的差异程度,具体方法为取ham类和spam类特征的文档-特征词频率的差值,差值反映了特征出现在ham类与出现在spam类之间的差异程度;
3)根据差异值的正负,将特征集合分成两类,负值为spam类特征,正值为ham类特征;
4)采用包装模式的特征选择方法,结合PSO优化算法运用滑动窗口对spam类和ham类特征数的比例进行组合搜索,产生候选特征子集,然后分别在候选特征子集上进行验证并采用F1值进行迭代评价;
5)输出F1值最高的候选特征子集作为最终的特征集合,
所述验证为十字交叉验证,
所述十字交叉验证为基于分类器的十字交叉验证,
所述分类器包含有NB分类器和SVM分类器,
所述步骤4)还包含有步骤:每次迭代的开始前,根据前一轮迭代产生的F1值,挑选出F1值最低的粒子并将其移除出粒子群,另外产生新的变异粒子加入到粒子群。
CN201710979534.7A 2017-10-19 2017-10-19 一种垃圾邮件的分类方法 Active CN107844801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710979534.7A CN107844801B (zh) 2017-10-19 2017-10-19 一种垃圾邮件的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710979534.7A CN107844801B (zh) 2017-10-19 2017-10-19 一种垃圾邮件的分类方法

Publications (2)

Publication Number Publication Date
CN107844801A CN107844801A (zh) 2018-03-27
CN107844801B true CN107844801B (zh) 2021-04-06

Family

ID=61661533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710979534.7A Active CN107844801B (zh) 2017-10-19 2017-10-19 一种垃圾邮件的分类方法

Country Status (1)

Country Link
CN (1) CN107844801B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710606B (zh) * 2018-04-09 2021-10-26 平安科技(深圳)有限公司 一种任务进度监控方法、计算机可读存储介质及终端设备
CN110610213A (zh) * 2019-09-20 2019-12-24 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004265170A (ja) * 2003-03-03 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> 関係する用語の抽出方法、関係する用語の抽出プログラムおよび関係する用語の抽出プログラムの記憶媒体、ならびに、関係する用語の抽出装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN106897733A (zh) * 2017-01-16 2017-06-27 南京邮电大学 基于粒子群优化算法的视频流特征选择与分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004265170A (ja) * 2003-03-03 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> 関係する用語の抽出方法、関係する用語の抽出プログラムおよび関係する用語の抽出プログラムの記憶媒体、ならびに、関係する用語の抽出装置
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN106897733A (zh) * 2017-01-16 2017-06-27 南京邮电大学 基于粒子群优化算法的视频流特征选择与分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Improved particle swarm optimization algorithm and its application in text feature selection;yong he lu et al.;《applied soft computing》;20151031;第35卷;第629-636页 *
短文本分类中特征选择算法的研究;李太白;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215(第12期);第4.2.4节,图 4.1,第5.2节 *

Also Published As

Publication number Publication date
CN107844801A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
Mishra et al. Credit card fraud detection on the skewed data using various classification and ensemble techniques
Fan et al. Is random model better? on its accuracy and efficiency
Ting et al. Mass estimation and its applications
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN108536851A (zh) 一种基于移动轨迹相似度比较的用户身份识别方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
Cao et al. Semi-supervised hyperspectral band selection based on dynamic classifier selection
CN107844801B (zh) 一种垃圾邮件的分类方法
CN102184364A (zh) 基于半监督学习的推荐系统托攻击检测方法
Al Iqbal et al. Knowledge based decision tree construction with feature importance domain knowledge
CN111428790A (zh) 基于粒子群优化的双准确度加权随机森林算法
Shulman et al. Meta decision trees for explainable recommendation systems
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN111967909A (zh) 一种基于卷积神经网络的托攻击检测方法
Goel et al. Two‐level pruning based ensemble with abstained learners for concept drift in data streams
CN104731919A (zh) 一种基于AdaBoost算法的微信公众号用户分类方法
Chen et al. Adjusting and generalizing CBA algorithm to handling class imbalance
CN117155701A (zh) 一种网络流量入侵检测方法
Thalor et al. Review of ensemble based classification algorithms for nonstationary and imbalanced data
Roy et al. Machine Learning in Smart Transportation Systems for Mode Detection
Bertini et al. Ensemble of complete p-partite graph classifiers for non-stationary environments
Zulfikar et al. Comparison performance of decision tree classification model for spam filtering with or without the recursive feature elimination (rfe) approach
Sun et al. A novel ensemble classification for data streams with class imbalance and concept drift
Zheng et al. An Improved k-Nearest Neighbor Classification Algorithm Using Shared Nearest Neighbor Similarity.
CN112446435A (zh) 一种城市数据分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant