CN105337842B - 一种与内容无关的垃圾邮件过滤方法 - Google Patents

一种与内容无关的垃圾邮件过滤方法 Download PDF

Info

Publication number
CN105337842B
CN105337842B CN201410405970.XA CN201410405970A CN105337842B CN 105337842 B CN105337842 B CN 105337842B CN 201410405970 A CN201410405970 A CN 201410405970A CN 105337842 B CN105337842 B CN 105337842B
Authority
CN
China
Prior art keywords
mail
feature
spam
legitimate
assignment function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410405970.XA
Other languages
English (en)
Other versions
CN105337842A (zh
Inventor
胡勇
张晨威
张智军
邓勇
刘梅
张享周
陈诗峰
谢康
肖静华
姜灵敏
曾驭然
张振华
丘心颖
陈蔚琦
刘康
苏丽君
郭策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN201410405970.XA priority Critical patent/CN105337842B/zh
Publication of CN105337842A publication Critical patent/CN105337842A/zh
Application granted granted Critical
Publication of CN105337842B publication Critical patent/CN105337842B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种与内容无关的垃圾邮件过滤方法,包括如下特征提取、特征量化和机器学习分类三个步骤,其中特征量化包括如下步骤:1)对于邮件样本的标题,去除标点,特殊符号以及停用词;2)经分词转化为由单词组成的特征向量;3)将步骤2)中特征向量的每一个元素进行统计,并分别对照垃圾标题特征集和合法标题特征集进行统计,查找各个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数;4)将步骤3)的基本概率指派函数根据证据理论的D‑S组合规则进行融合,得到最终的基本概率指派函数。5)将最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。

Description

一种与内容无关的垃圾邮件过滤方法
技术领域
本发明属于垃圾邮件过滤方法,特别是涉及一种与内容无关的垃圾邮件过滤方法。
背景技术
随着互联网技术的发展,电子邮件成为一种重要的通讯工具。但随之而来的垃圾邮件数量众多,这些垃圾邮件具有反复性、强制性、欺骗性、不健康性或传播速度快等特点,严重影响了人们的正常邮件交流。对于垃圾邮件过滤技术,目前主流的技术主要分为非机器学习型和机器学习型。非机器学习型邮件过滤系统(如黑名单式)的缺点在于系统无法学习更新数据,难将其部署为一个单机(而非联网)的过滤系统,且有很大几率把正常邮件当作垃圾邮件过滤。机器学习型系统分为基于内容和不基于内容的邮件过滤系统。由于邮件中各种多媒体技术的发展,基于内容的分析变得困难,越来越多的研究转向对于邮件其他元素(标题,邮件发件人IP地址等非正文元素)的分析。
Bayes(贝叶斯)方法是当前实际使用最多的垃圾邮件过滤方法。由于Bayes对于邮件分类的速度很快,而且在识别过滤过程中可以进行动态的调整,因此在垃圾邮件过滤方面应用最为广泛。然而由于垃圾邮件本身的一些伪装方法比较好或者合法邮件的一些关键字和符合垃圾邮件的关键字匹配,使得目前垃圾邮件的识别越来越困难。一个邮件样本难以明确地归为某一类,而以一定概率或一定隶属度属于某一类。因此,在对样本的类型不确定性比较大的时候,强行分类势必会造成分类结果错误,正确率下降的情况。无论是黑名单式的方法还是贝叶斯的方法,仅用邮件分类输出y∈{spam,legitimate}表示类别信息并不恰当。可以有更恰当的方法来处理这种不确定的情况。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种处理不确定性的方法;基于这种处理不确定性的方法,提出一种与内容无关的垃圾邮件过滤方法。
本发明所使用的证据理论是一套基于“证据”和“组合”来处理不确定性推理问题的数学方法。这种Dempster-Shafer(D-S)理论能有效地提高不确定情况下目标的识别能力。该理论把概率论中的基本事件空间拓宽为基本事件的幂集(又称为辨识框架),在辨识框架上建立了基本概率指派函数(Basic Probability Assignment,下文简写为BPA)。此外,证据理论还提供了一个D-S组合规则,该规则可以在没有先验信息的情况下实现证据的融合。
本发明采用如下技术方案:
一种与内容无关的垃圾邮件过滤方法,其包含如下步骤:(1)对待过滤邮件样本的邮件信头和邮件标题进行特征提取,(2)对步骤(1)所得的邮件信头特征进行特征量化,(3)对步骤(1)所得的邮件标题特征进行特征量化,(4)将步骤(2)和(3)所得结果输入人工神经网络分类器进行分类,根据分类结果判断待过滤邮件样本是否为垃圾邮件。其特征在于:
对于一个电子邮件样本e,所述步骤(2)具体包括如下步骤:1)判断邮件信头的发件人地址特征是否合法,转化为二值特征sender(e);2)对邮件信头的收件人地址和抄送人进行量化,将收件人个数转化为特征nrcpt(e);3)对邮件信头的邮件客户端根据是否支持匿名大量发送邮件进行量化,得到二值特征xmalr(e);4)对邮件信头中的IP地址进行量化,将IP地址转化为无符号整数特征ip(e)。另外,所述步骤(3)具体包括如下步骤:
1)对邮件标题去除标点符号、特殊符号、停用词后,经分词转化为由单词组成的特征向量G;
2)对所述特征向量G中的每一个元素进行统计,并分别对照垃圾标题特征集和合法标题特征集进行统计,查找每一个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数;
3)将所述基本概率指派函数根据证据理论的D-S组合规则进行融合,得到最终的基本概率指派函数;
4)将所述最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。
所述基本概率指派函数分为如下四种情况:
(a)邮件标题的特征向量G中的每一个元素gi出现在垃圾标题特征集中,也出现在合法标题特征集中时,定义基本概率指派函数如下:
mi({spam,legitimate})=0
(b)元素gi既没有出现在垃圾标题特征集中,也没有出现在合法标题特征
集中,定义基本概率指派函数如下:
mi({spam})=0
mi({legitimate})=0
mi({spam,legitimate})=1
(c)元素gi出现在垃圾标题特征集中,但没有出现在合法标题特征集中,定义基本概率指派函数如下:
mi({spam})=1
mi({legitimate})=0
mi({spam,legitimate})=0
(d)元素gi出现在合法标题特征集中,但没有出现在垃圾标题特征集中,
定义基本概率指派函数如下:
mi({spam})=0
mi({legitimate})=1
本发明的技术方案具有如下有益效果:
(1)本发明提出的方法采用对于邮件的非正文信息进行分析,不涉及对邮件正文内容的分析,而主要对邮件报文的信头和邮件标题提取具有代表性的字段进行分析,降低了垃圾邮件分析的难度;
(2)本发明相比经典概率论中的Bayes方法,采用证据理论来进行垃圾邮件分类,具有以下三个理论优势:
1)证据理论可以更好的处理不确定性问题。
在经典概率论中,Bayes概率模型只能支持将概率分配到单子集命题上。在证据理论中,BPA既可以被指派到单子集命题上,也能被指派到多子集命题上。特别地,当BPA只在辨识框架的单子集命题上进行分配时,BPA就转换为概率论中的概率,而组合规则的融合结果与概率论中的Bayes公式相同。
2)证据理论不像Bayes概率模型一样需要先验信息支持。
Bayes概率模型需要获得一组先验信息,然后通过Bayes更新用后验概率来更新先验概率。然而在一些实际使用中,完整的先验信息不容易获得。证据理论不需要有先验信息的支持,每组BPA被认为来自一个独立信息源的证据,多个信息源的证据可以用D-S组合规则进行融合。
3)证据理论可以表示由于对客观事物没有充分了解而引起的未知信息。
D-S证据理论能够比概率论更有效地表示和处理不确定信息。当对于邮件样本的归类有较大不确定性时,相比贝叶斯更新中将概率分配到单子集命题上,证据理论能够将概率分配到多子集命题上来表现这种不确定性。当BPA只在辨识框架的单子集命题上进行分配时,证据理论可以退化成经典概率论中Bayes更新。证据理论的这些特点使其在处理垃圾邮件方面存在很大的优势。
附图说明
图1是本发明的垃圾邮件过滤方法流程图。
图2是本发明的待过滤邮件样本e的信头和标题组成结构示意图。
图3是图1中smrk(e)函数对待过滤邮件样本e的邮件主题处理流程图。
图4是图3中步骤c和步骤d数据融合原理图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案进行说明。
参见图1,本发明的垃圾邮件过滤的方法主要分为三个部分:特征提取、特征量化和机器学习分类。参见图1、2,在特征提取阶段,本发明从待过滤邮件样本e的邮件信头和邮件标题中提取了五个具有代表性的字段,即源字段、目标字段、邮件客户端字段、发送端服务器IP地址字段和邮件标题字段。其中,源自段提取自邮件信头中的from,from表示的是该电子邮件的发件人地址;目标字段提取自邮件信头中的recipient,recipient表示电子邮件信头中的收件人地址或抄送地址;邮件客户端字段提取自邮件信头中的X-Mailer,X-Mailer暗含了用来发送邮件的电子邮件客户端(Email client)或邮件用户代理(MailUser Agent,MUA)软件的名称,一般用户想要伪造一个可信度较高的X-Mailer字段较困难,因此用于垃圾邮件群发的客户端通常提供一个非法的X-Mailer字段来避免被当作垃圾邮件过滤;发送端服务器IP地址字段提取自电子邮件信头中的ip,ip表示邮件发送者的ip地址;邮件标题字段,提取自电子邮件中的subject,subject表示邮件的标题信息。
本发明提出的方法对邮件非正文信息进行分析,即对从邮件信头和邮件标题中提取的五个字段进行分析。
由于这五个字段存在文本、数值等不同格式,因此特征量化阶段对这些特征进行了具体的数值化处理,旨在将这些不同格式不同量纲的特征转化为数值。如图1的特征量化阶段所示,对于输入的待过滤电子邮件,经过特征提取后的五个字段在特征量化的过程中分别对应sender(e)、nrcpt(e)、xmalr(e)、ip(e)、smrk(e)五个函数的输出。
下面阐述特征量化的具体方法。在sender(e)函数的特征量化阶段,sender(e)用来体现邮件样本e的发件人地址是否合法。当邮件样本e的信头中from合法,sender(e)函数输出1;否则sender(e)输出0。在nrcpt(e)函数的特征量化阶段,本发明假设电子邮件中收件人地址或抄送地址不全为空,则认为这封邮件为正常邮件的概率要远高于其为垃圾邮件的概率,因此nrcpt(e)定义了邮件样本e中收件人的个数。在xmalr(e)函数的特征量化阶段,一些垃圾邮件用户代理软件例如Dark Mailer、Send Safe等由于提供匿名大量发送垃圾邮件的功能,被认为是非法的。xmalr(e)函数通过在已知合法电子邮件客户端的列表中查询从而输出值。对于邮件样本e,当邮件信头中含有不合法的X-mailer或者X-mailer为空时,xmalr(e)函数输出0,否则xmalr(e)函数输出1。在ip(e)函数的特征量化阶段,由于实际研究得到的数据发现不同地域垃圾邮件泛滥程度存在差异,IP地址在地理空间上的分布也有一定的特点,本发明将32位的二进制IP地址转化为无符号整数。之后将该整数归一化到[0,1]的数值区间中,归一化的公式如公式(1)所示。
smrk(e)函数的功能是对于邮件标题字段的垃圾邮件程度进行特征量化,输出的是一个[0,1]之间的数,代表该邮件标题的垃圾邮件程度,数值越大越倾向于判断其属于垃圾邮件。smrk(e)函数的具体工作过程如图3所示,包括a、b、c、d、e五个步骤:
a.如图3步骤a所示,对于待过滤电子邮件的标题,去除标点、特殊符号以及停用词。对于英文邮件标题,只需要在去除标点符号的情况下从头开始扫描,并认为任意两个不连续的空格之间必然存在一个单词。对于中文邮件标题的分词,本文使用汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)算法进行分词。待过滤邮件样本e的标题的字符串在分词处理后转化为一个n元组,表示为由n个单词元素组成的特征向量,记为G=<g1,g2,g3,…,gn>。
b.如图3步骤b所示,经分词转化为由单词元素组成的特征向量:经过分词,生成的特征向量G代表邮件主题的特征。每一个子元素分别作为一个分类的证据,计算各个证据到合法邮件类和垃圾邮件类的支持度,每个子元素生成一组基本概率指派(Basicprobability assignment,下文简称BPA)。
c.如图3步骤c所示,将图3步骤b中向量的每一个元素进行统计,并分别对照垃圾标题特征集(Spam Subject Feature Set)和合法标题特征集(Legitimate SubjectFeature Set)进行统计,查找各个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数。结合证据理论,这里定义辨识框架,即所有可能发生事件的集合为Θ={legitimate,spam}的互斥邮件类集合,其中legitimate表示合法邮件类,spam表示垃圾邮件类。定义m({legitimate}),m({spam})分别为证据对合法邮件类和垃圾邮件类的支持度,定义m({legitimate,spam}),即m({Θ})为证据对辨识框架Θ的支持度,其表示证据无法确定邮件属于任何一个类别。在生成BPA时,每个子向量对应生成一组BPA。要计算特征向量G中各个单词的类支持度m({legitimate}),m({spam})和m({legitimate,spam}),首先需要建立合法邮件类LSFS(Legitimate Subject FeatureSet)和垃圾邮件类SSFS(Spam Subject Feature Set)的特征集。SSFS和LSFS的数据结构相同,每一行记录由两个字段构成:某个特定的单词、该单词在对应样本中出现的次数。SSFS和LSFS由训练集中的邮件主题经过分词后进行统计得到,分别代表垃圾邮件类和正常邮件类的特征。对于向量中的每个元素gi∈G(i=1,2,3,...,n),我们在SSFS和LSFS查找其出现的频率次数,记为frequency(gi,SSFS)和frequency(gi,LSFS)。
我们分析了所有可能出现的四种情况,并分别得到了基本概率指派函数:
(a)元素gi出现在垃圾标题特征集中,也出现在合法标题特征集中时,定义基本概率指派函数如下:
mi({spam,legitimate})=0
(b)元素gi既没有出现在SSFS中,也没有出现在LSFS中,定义基本概率指派函数如下:
mi({spam})=0
mi({legitimate})=0
mi({spam,legitimate})=1
(c)元素gi出现在SSFS中,但没有出现在LSFS中定义基本概率指派函数如下:
mi({spam})=1
mi({legitimate})=0
mi({spam,legitimate})=0
(d)元素gi出现在LSFS中,但没有出现在SSFS中,定义基本概率指派函数如下:
mi({spam})=0
mi({legitimate})=1
mi({spam,legitimate})=0
另外,图1的特征量化过程中的主题评分算法主要完成的工作就是得到一个特征向量G,对于其中的每个元素根据上述的四种情况生成BPA。
d.如图3步骤d所示,将步骤c得到的基本概率指派函数根据证据理论的D-S组合规则进行融合,得到最终的基本概率指派函数。证据理论中的D-S组合规则是将两个独立信息源的证据融合为一个总的证据的过程,它是一种反应证据联合作用的法则。若m1和m2分别是同一辨识框架Θ上两组独立信息源分别得到的BPA,则将融合后的结果称为m1和m2的正交和,记为在本方法中暂记为m12。事件A在信息源m12中被支持的程度记为m12(A)。m12(A)的计算方法如下:
其中,
公式(2)和公式(3)中的称为正则化因子,表示一批证据相互冲突的程度。若K越大,表示通过该组合规则融合是产生的不合理成分越大,K接近1则可能产生与事实相悖的合成结果。运算满足结合律和交换律,即:
对于测试集中每一个邮件样本的标题,每一个元素gi∈G(i=1,2,3,...,n)会生成一组BPA,记为mi。利用证据理论的D-S组合规则,我们可以将mi=1,2,...,nn组BPA融合,得到一组最终的BPA。在本方法中,公式(2)和公式(3)中A,B,C为{spam},{legitimate}或者{legitimate,spam}事件中的任意一个。举个例子,若B为{spam},C为{legitimate},则若B为{spam},C为{legitimate,spam},则B∩C={spam}。
当需要融合的证据个数大于2时,采用迭代的方式融合,即两两融合后再融合。由于融合的过程满足交换律,如公式(5)所示,融合次序的变化不会影响最后的融合结果。举个例子,当有8组证据需要融合时,图4提供了一种可行的融合顺序。
e.将最终的基本概率指派函数经过赌博概率转化作为邮件标题特征量化的结果。赌博概率转换方法(Pignistic Probability Transform,PPT),最早由Smets在其提出的可传递置信模型(Transferable Belief Model,TBM)中给出。将在可传递置信模型层上得到的信度,利用不充分推理原则将信度转化为赌博概率(Pignistic Probability),即将未知信度按照一定的规则分配到各评价等级上,从而得到各评价等级上的赌博概率Ppig
在证据融合后,BPA可以被转化为赌博概率来为最后的决策做支持。对于事件A的赌博概率定义为:
其中card(X)代表事件X的基。举个例子,card({spam})=1,card({spam,legitimate})=2。在本方法中,Ppig({spam})作为smrk(e)函数的输出,其计算方法见公式(7)。
如图1所示,在机器学习的分类过程中,对于一个待过滤邮件样本e,基于机器学习的分类器的输入是经过特征量化后的五元组<sender(e),nrcpt(e),xmalr(e),ip(e),smrk(e)>,基于机器学习的分类器的输出是对于其是否为垃圾邮件的判断,若输出1,则代表本发明提出的垃圾邮件过滤方法认为该待过滤的邮件样本e属于垃圾邮件,输出0则代表该待过滤的邮件样本e不属于垃圾邮件。机器学习需要使用已知分类的邮件样本来构造训练集,本发明采用了经过手工分类的数据作为训练集。
下面结合图2中给出的待测邮件样本e的邮件标题对图3中smrk(e)函数对邮件标题的处理过程进行进一步的解释说明。对于邮件标题为“Limited Time Offer for NewWall Street Journal Subscribers”的邮件样本e,在经过英文分词后,邮件标题转化为一个八元组,表示为G=<Limited,Time,Offer,for,New,Wall,Street,Journal,Subscribers>的向量。SSFS(Spam Subject Feature Set)和LSFS(Legitimate Subject Feature Set)分别是垃圾邮件类和合法邮件类的特征集,通过统计合法邮件和垃圾邮件中各个单词的出现频率产生。每个单词在SSFS,LSFS中对应的出现次数以及生成的基本概率指派如下表所示:
将这八组证据由公式(2)和公式(3)说明的D-S组合规则经多次迭代两两融合,其融合过程原理如图4所示。例如,若将单词“limited”对应的基本概率指派m1和单词“time”对应的基本概率指派m2进行融合,K12的计算方法如下:
因此得到:
m1和m2两组基本概率指派经过Dempster组合规则融合后得到:
同理总共经过七轮的融合,我们获得一组最终的基本概率指派mf,其中mf({spam})=0.999971759028605,mf({legitimate})≈0.00002,mf({spam,legitimate})=0.
由于在证据理论的证据融合规则中,多子集命题上的概率指派会随着证据融合逐渐分散到单子集命题上。虽然不可避免地在某个基本概率指派函数中,可能会出现上述四种基本概率指派函数的第2)种情况(mi({spam})=0,mi({legitimate})=0,mi({spam,legitimate})=1),即将基本概率指派全部分配到全集即mi({spam,legitimate})上,表面上看对于其类别的指派并不具体,然而这正是证据理论描述不确定性的优势。随着多组证据不断融合,多子集命题上的基本概率指派(mi({spam,legitimate}))减少,单子集命题上的基本概率指派(mi({spam})和mi({legitimate}))增加。初次基本概率指派描述的在多子集命题上的不确定性在证据融合的过程被很好的处理了。因此,最后对于特定邮件样本的标题分类时,采用基于证据理论的垃圾邮件过滤框架做出了十分强有力且是正确的推测。在本发明中,我们将得到的最终BPA经过赌博概率转化(见公式(7))作为smrk(e)函数的值。因此在本例中
下面采用机器学习的方法,将已知归类邮件样本e的sender(e)、nrcpt(e)、xmalr(e)、ip(e)、smrk(e)五个值作为机器学习分类器的输入进行训练。在需要处理待分类的样本et时,通过特征提取和特征量化产生sender(et)、nrcpt(et)、xmalr(et)、ip(et)这四个值。在本例中,将该邮件样本的其他四个字段数值化后得到:sender(et)=1,nrcpt(et)=1,xmailer(et)=0,ip(et)=0.242425001,smrk(et)函数输出smrk(e)=mf({spam})+mf({spam,legitimate})/2≈0.9999。因此,输入机器学习分类器的五元组是<1,1,0,0.242425001,0.9999>。
将这五个经过特征量化后的值带入经样本学习的机器学习分类器(如朴素贝叶斯,人工神经网络,支持向量机等)中,机器学习分类器得到输出结果1,这代表本发明提出的垃圾邮件过滤方法认为该邮件样本属于垃圾邮件。在本例中,本发明提出的垃圾邮件过滤框架与人工分类方法对于该邮件的属性得出了完全一致的判断。

Claims (2)

1.一种与内容无关的垃圾邮件过滤方法,包含如下步骤:(1)对待过滤邮件样本的邮件信头和邮件标题进行特征提取,(2)对步骤(1)所得的邮件信头特征进行特征量化,(3)对步骤(1)所得的邮件标题特征进行特征量化,(4)将步骤(2)和(3)所得结果输入人工神经网络分类器进行分类,根据分类结果判断待过滤邮件样本是否为垃圾邮件;其特征在于:
对于一个电子邮件样本e,所述步骤(2)包括如下步骤:
a.判断邮件信头的发件人地址特征是否合法,转化为二值特征sender(e);
b.对邮件信头的收件人地址和抄送人进行量化,将收件人个数转化为整数特征nrcpt(e);
c.对邮件信头的邮件客户端根据是否支持匿名大量发送邮件进行量化,得到二值特征xmalr(e);
d.对邮件信头的IP地址进行量化,将IP地址转化为[0,1]间的浮点数特征ip(e);
所述步骤(3)具体包括如下步骤:
a.对邮件标题去除标点符号、特殊符号、停用词后,经分词转化为由单词组成的特征向量G;
b.对所述特征向量G中的每一个元素进行统计,并分别对照垃圾标题特征集和合法标题特征集进行统计,查找每一个元素分别在这两个集中出现的频率次数,并将结果分为四种情况,分别得到基本概率指派函数;
c.将所述基本概率指派函数根据证据理论的D-S组合规则进行融合,得到最终的基本概率指派函数;
d.将所述最终的基本概率指派函数经过赌博概率转化作为邮件标题特征smrk(e)。
2.根据权利要求1所述的与内容无关的垃圾邮件过滤方法,其特征在于所述步骤(2)的邮件信头特征量化方法以及所述步骤(3)的基本概率指派函数定义;
所述步骤(2)中对于邮件信头的特征量化如下:
(1)在sender(e)函数的特征量化阶段,当邮件样本e的信头中from字段合法,sender(e)函数输出1;否则sender(e)输出0;
(2)在nrcpt(e)函数的特征量化阶段,nrcpt(e)提取邮件信头中的to字段,并输出整数代表邮件样本e中收件人个数;
(3)在xmalr(e)函数的特征量化阶段,xmalr(e)函数通过在已知合法电子邮件客户端的列表中查询从而输出二值整数;对于邮件样本e,当邮件信头中含有不合法的X-mailer或者X-mailer为空时,xmalr(e)函数输出0,否则xmalr(e)函数输出1;
(4)在ip(e)函数的特征量化阶段,将32位的二进制IP地址转化为无符号整数;之后将该整数归一化到[0,1]的浮点数值区间;
所述步骤(3)中基本概率指派函数分为如下四种情况:
(1)邮件标题的特征向量G中的每一个元素gi出现在垃圾标题特征集中,也出现在合法标题特征集中时,定义基本概率指派函数如下:
mi({spam,legitimate})=0
(2)元素gi既没有出现在垃圾标题特征集中,也没有出现在合法标题特征集中,定义基本概率指派函数如下:
mi({spam})=0
mi({legitimate})=0
mi({spam,legitimate})=1
(3)元素gi出现在垃圾标题特征集中,但没有出现在合法标题特征集中,定义基本概率指派函数如下:
mi({spam})=1
mi({legitimate})=0
mi({spam,legitimate})=0
(4)元素gi出现在合法标题特征集中,但没有出现在垃圾标题特征集中,定义基本概率指派函数如下:
mi({spam})=0
mi({legitimate})=1
mi({spam,legitimate})=0
其中,
{legitimate}表示合法邮件类集合,m({legitimate})表示证据对合法邮件类集合的支持度;
{spam}表示垃圾邮件类集合,m({spam})表示证据对垃圾邮件类集合的支持度;
定义Θ={legitimate,spam}表示互斥邮件集合;m({legitimate,spam}),即m({Θ})表示证据对互斥类邮件集合的支持度,其表示证据无法确定邮件属于任何一个类别;
SSFS表示垃圾标题特征集,LSFS表示合法标题特征集;
frequency(gi,SSFS)表示元素gi出现在垃圾标题特征集中的频率,frequency(gi,LSFS)表示元素gi出现在合法标题特征集中的频率。
CN201410405970.XA 2014-08-14 2014-08-14 一种与内容无关的垃圾邮件过滤方法 Expired - Fee Related CN105337842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410405970.XA CN105337842B (zh) 2014-08-14 2014-08-14 一种与内容无关的垃圾邮件过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410405970.XA CN105337842B (zh) 2014-08-14 2014-08-14 一种与内容无关的垃圾邮件过滤方法

Publications (2)

Publication Number Publication Date
CN105337842A CN105337842A (zh) 2016-02-17
CN105337842B true CN105337842B (zh) 2018-08-07

Family

ID=55288152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410405970.XA Expired - Fee Related CN105337842B (zh) 2014-08-14 2014-08-14 一种与内容无关的垃圾邮件过滤方法

Country Status (1)

Country Link
CN (1) CN105337842B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301170B (zh) * 2017-06-19 2020-12-22 北京百度网讯科技有限公司 基于人工智能的切分语句的方法和装置
CN107992508B (zh) * 2017-10-09 2021-11-30 北京知道未来信息技术有限公司 一种基于机器学习的中文邮件签名提取方法及系统
CN107977399B (zh) * 2017-10-09 2021-11-30 北京知道未来信息技术有限公司 一种基于机器学习的英文邮件签名提取方法及系统
CN108009514B (zh) * 2017-12-14 2022-04-12 太原理工大学 球磨机料位预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
The Spam Filtering Technology Based on SVM and D-S Theory;Miao Ye、等;《Knowledge Discovery and Data Mining, 2008. WKDD 2008》;20080124;全文 *
基于D-S 证据理论的SPIT 检测方案;林荣、等;《计算机系统应用》;20110531;第20卷(第5期);全文 *
基于多特征模糊关联的垃圾邮件过滤方法;廖明涛、等;《微电子学与计算机》;20080331;第25卷(第3期);全文 *

Also Published As

Publication number Publication date
CN105337842A (zh) 2016-02-17

Similar Documents

Publication Publication Date Title
CN105740228B (zh) 一种互联网舆情分析方法及系统
US8489689B1 (en) Apparatus and method for obfuscation detection within a spam filtering model
CN108388651A (zh) 一种基于图核和卷积神经网络的文本分类方法
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
CN106453033B (zh) 基于邮件内容的多层次邮件分类方法
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107315778A (zh) 一种基于大数据情感分析的自然语言舆情分析方法
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN101540017B (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN107086952A (zh) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN104050556B (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
Liliana et al. Indonesian news classification using support vector machine
CN106096005A (zh) 一种基于深度学习的垃圾邮件过滤方法及系统
CN101295381A (zh) 一种垃圾邮件检测方法
CN108596637A (zh) 一种电商服务问题自动发现系统
Zhang et al. Semi-supervised discovery of informative tweets during the emerging disasters
CN107977670A (zh) 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN110851733A (zh) 基于网络拓扑和文档内容的社团发现和情感解释方法
CN108268461A (zh) 一种基于混合分类器的文本分类装置
CN113537313B (zh) 一种基于wgan训练收敛的不平衡数据集分析方法
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
Chandana et al. BCC NEWS classification comparison between naive bayes, support vector machine, recurrent neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180807

Termination date: 20210814

CF01 Termination of patent right due to non-payment of annual fee