CN101330476B - 一种垃圾邮件动态检测方法 - Google Patents

一种垃圾邮件动态检测方法 Download PDF

Info

Publication number
CN101330476B
CN101330476B CN2008101160801A CN200810116080A CN101330476B CN 101330476 B CN101330476 B CN 101330476B CN 2008101160801 A CN2008101160801 A CN 2008101160801A CN 200810116080 A CN200810116080 A CN 200810116080A CN 101330476 B CN101330476 B CN 101330476B
Authority
CN
China
Prior art keywords
mail
detected
grader
characteristic vector
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101160801A
Other languages
English (en)
Other versions
CN101330476A (zh
Inventor
谭营
阮光尘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2008101160801A priority Critical patent/CN101330476B/zh
Publication of CN101330476A publication Critical patent/CN101330476A/zh
Application granted granted Critical
Publication of CN101330476B publication Critical patent/CN101330476B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种垃圾邮件动态检测方法,包括步骤:s101,分组依次接收待检测邮件,根据用户对待检测邮件反馈的分类信息,依次构建若干个分类器;s102,利用已构建的分类器对待检测邮件进行分类;s103,获取用户对待检测邮件反馈的分类信息,删除已构建的时间最长的分类器;s104,基于步骤s102中待检测邮件的特征向量及步骤s103中的分类信息,构建新的分类器;s105:重复执行步骤s103~s104。本发明的方法利用不断接收的邮件数据流作为新增加的分类器的训练样本,保证了分类器随着邮件的内容和用户的兴趣不断的发生变化,同时删除构建时间最长的分类器,将陈旧知识及时淘汰,使分类器的性能得到优化。

Description

一种垃圾邮件动态检测方法 
技术领域
本发明涉及电子邮件处理技术领域,具体涉及一种垃圾邮件动态检测方法。 
背景技术
随着互联网的日益普及,电子邮件对于每一个人来说就已经成为一种日常通讯的重要媒介和最为便捷的通信手段之一,基本上代替了传统的纸质信件,人们越来越依赖于它和离不开它。但是,电子垃圾邮件的出现却引发了日益严重的问题,严重威胁着人们的正常电子邮件通信。垃圾邮件的膨胀不仅浪费掉大量的存储空间和通信带宽,而且还消耗了大量的用户时间去处理和删除它们。因此,研究对这种垃圾邮件的检测过滤方法就显得十分必要,具有重要意义。 
垃圾邮件的检测过程实质上是一个模式识别的分类过程,并且,邮件数据以一种数据流的形式连续不断的到达,在这个过程中,邮件的内容和用户的兴趣不断的在发生变化,增量型的学习和即时淘汰陈旧的知识是分类算法所应该具备的两个核心能力。 
支持向量机作为一种分类工具已经被广泛的应用于各个领域。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。 
当前的历史信息通过支持向量和与它们关联的权重来表示。一般来说,支持向量的数量要远小于训练样本的总数。因此,支持向量提供了对数据的一种简洁表示[C.Domeniconi and D.Gunopulos, “Incremental support vector machine construction,”in Proc.IEEEInternational Conference on Data Mining(ICDM’01),San Jose,CA,USA,Dec.2001,pp.589-592]。因此,在每一次增量更新中,描述类边界信息的支持向量以及新到来的数据被作为新的数据集对支持向量机进行更新。 
对支持向量机进行增量更新的技术包括误差驱动方法ED(Error-driven technique),固定分割方法FP(Fixed-partitiontechnique),超间隔方法EM(Exceeding-margin technique),超间隔+误差方法EM+E  (Exceeding-margin+error technique)等。文献[N.A.Syed,H.Liu,and K.K.Sung,“Incremental learning with supportvector machines,”in Proc.International Joint Conference on ArtificialIntelligence(IJCAI’99),Stockholm,Sweden,1999]在Large-noisy-crossed-norm数据集和UCI机器学习库中的Pima数据集上的实验结果表明,超间隔方法EM更新技术在使用较少的支持向量的情况下取得了和上述其他三种方法类似的性能。 
在EM更新技术中,给定t时刻的支持向量机分类器模型SVMt,算法检查由邮件特征向量得到的新数据点(xi,yi)是否位于SVMt定义的分类间隔(margin)内,即检查条件yi(w*·xi-b)≤1(其中,w为分离平面斜率,b为平面节距)是否满足。 
如果上述条件满足则将该数据点保留,否则将其丢弃。当保留的位于分类间隔(margin)内的数据点达到给定的数量ne(ne为正整数)时,触发了SVMt的更新。这时使用SVMt的支持向量连同保留的ne个数据点作为训练数据生成t+1时刻新的分类器模型SVMt+1。 
上述采用增量型支持向量机进行邮件分类的方法,对知识具有一定的更新作用,但由于邮件的数据流的特性随着时间不断变化,因此历史数据并不能十分有效的预测未来的数据,而且,也不能有效的剔除陈旧知识。 
发明内容
本发明的目的是提供一种垃圾邮件动态检测方法,可以实现对待检测邮件进行分类器的动态更新,包括已构建的分类器的增量学习、旧分类器的删除和新分类器的增加,实现了垃圾邮件的动态检测,适应不断变化的邮件内容和用户兴趣。 
为实现上述目的,本发明采用如下技术方案: 
一种垃圾邮件动态检测方法,该方法包括步骤:s101:对待检测邮件分组后,依次接收每组待检测邮件,获取待检测邮件的特征向量及用户对待检测邮件反馈的是否为垃圾邮件的分类信息,基于每组待检测邮件的特征向量及分类信息构建分类器,依次得到若干个分类器;同时预先设定好所要构建的分类器的个数;s102:接收待检测邮件,提取所述待检测邮件的特征向量,已构建的分类器根据所述待检测邮件的特征向量依次给出分类结果,所占比例大的分类结果为所述待检测邮件的分类;s103:获取用户对步骤s102中所述待检测邮件反馈的是否为垃圾邮件的分类信息;同时,若当前已构建的分类器的数目已达到s103中所预先设定的个数,则在新一批待测邮件到来时,删除已构建的时间最长的分类器;s104:基于步骤s102中所述待检测邮件的特征向量及步骤s103中获取的分类信息,构建新的分类器;s105:重复执行步骤s102~s104。 
其中,在步骤s101中,利用支持向量机基于每组待检测邮件的特征向量及分类信息构建分类器,在步骤s104中,利用支持向量机构建新的分类器。 
其中,在步骤s101中和步骤s102中,接收待检测邮件时,还包括对已构建的分类器进行增量更新的步骤,具体包括:每接收一封待检测邮件,获取该待检测邮件的特征向量;判断所述待检测邮件的特征向量是否位于已构建分类器的分类间隔内;若在所述分类间隔内,将所述待测邮件暂时存储;当存储的邮件数目达到预先设定数值时,将存储的待测邮件的特征向量与已构建分类器的支持向量共同作为新 的训练样本集,对已构建的分类器增量更新;删除暂时存储的所述待测邮件。 
其中,在步骤s102中,所述已构建的分类器在给出分类结果时被赋予不同的权值,所述权值根据待检测邮件数据流的变化特性进行动态调整。 
其中,在步骤s102中,已构建的分类器采用汉明距离分类准则,依据待检测邮件的特征向量与所述分类器的支持向量之间的汉明距离,依次给出分类结果。 
其中,在步骤s102中,已构建的分类器采用夹角分类准则,依据待检测邮件的特征向量与所述分类器的支持向量之间的夹角,依次给出分类结果。 
其中,在步骤s102中,已构建的分类器采用支持向量分类准则,依据待检测邮件的特征向量,判断所述待检测邮件位于所述分类器中最优超平面的哪一侧,依次给出分类结果。 
其中,在步骤s102中,已构建的分类器采用加权投票的分类准则,包括:利用汉明距离分类准则,依据待检测邮件的特征向量与所述分类器中的支持向量之间的汉明距离,依次给出分类结果;利用夹角分类准则,依据待检测邮件的特征向量与所述分类器的支持向量之间的夹角,依次给出分类结果;利用支持向量分类准则,依据待检测邮件的特征向量判断所述待检测邮件位于分类器中最优超平面的哪一侧,依次给出分类结果;将利用汉明距离分类准则、夹角分类准则和支持向量分类准则给出的三次分类结果,每次的分类结果赋予不同的权值,根据赋予权值后的分类结果得到待检测邮件的最终分类。 
利用本发明提供的垃圾邮件动态检测方法,具有以下优点: 
(1)同时采用若干个分类器进行垃圾邮件检测,分类结果以投票形式给出,分类结果更准确; 
(2)利用不断接收的邮件数据流作为新增加的分类器器的训练 样本,保证了分类器随着邮件的内容和用户的兴趣不断的发生变化,同时删除构建时间最长的分类器,将陈旧知识及时淘汰,使分类器的性能得到优化; 
(3)利用超间隔(EM)方法不断更新支持向量机分类器,实现了分类器的动态更新; 
(4)采用不同的分类准则对待检测邮件进行分类,分类方式灵活; 
(5)不同的分类器进行投票时,被赋予不同的权重,可以根据邮件的特性动态调整,进一步使分类结果准确。 
附图说明
图1为本发明垃圾邮件动态检测方法的流程图; 
图2为本发明实施例种滑动窗口的初始化过程流程图; 
具体实施方式
本发明提出的垃圾邮件动态检测方法,结合附图和实施例详细说明如下。 
本发明提出的垃圾邮件动态检测方法是基于免疫系统的检测器和记忆细胞原理的,所提出的垃圾邮件动态检测系统与免疫系统之间如下相似性。 
1)模式识别:垃圾邮件检测的目标是区分正常邮件和垃圾邮件,而自然免疫系统的目标是区分自己和具有潜在危险的非已。 
2)动态变化:邮件具有各式各样的格式,并且邮件的内容和用户的兴趣也在不断变化。追踪这些变化是我们的检测目标。相类似,自然免疫系统可以动态的识别一系列不同的入侵者。 
3)噪声容错:在模式识别中我们希望获得噪声容错的特性,而自然免疫系统可以识别不同病原体的变体。 
支持向量机是一个具有统计学习理论基础和出色泛化性能的分类器,它已经被成功应用到了众多领域中。因此,本实施例使用增量 支持向量机技术和免疫中的检测器和记忆细胞原理来进行动态分类器的设计。 
在模式识别中,我们希望同时获取更多的样本以便更为尽可能准确的估计数据分布。然而,对于邮件分类来说,可以获得的训练数据是相对较少的。并且,邮件数据以一种数据流的形式连续不断的到达,在这个过程中,邮件的内容和用户的兴趣不断的在发生变化,增量型的学习和即时淘汰陈旧的知识是分类算法所应该具备的两个核心能力。本实施例中使用增量型的技术来更新对流数据的知识。 
如图1所示为本发明垃圾邮件动态检测方法,该方法包括步骤:s101:分组依次接收待检测邮件,获取待检测邮件的特征向量及用户对待检测邮件反馈的分类信息,基于每组待检测邮件的特征向量及分类信息构建分类器,依次得到若干个分类器;s102:分组接收待检测邮件,提取所述待检测邮件的特征向量,已构建的分类器根据所述待检测邮件的特征向量依次给出分类结果,所占比例大的分类结果为所述待检测邮件的分类;s103:获取用户对待检测邮件反馈的分类信息,并删除已构建的时间最长的分类器;s104:基于步骤s102中所述待检测邮件的特征向量及步骤s103中获取的分类信息,构建新的分类器;s105:重复执行步骤s102~s104。 
实施例 
本实施例中采用支持向量机来构建分类器,利用支持向量机构建分类器的条件是首先获取特征向量及与特征向量对应的分类,如果获取上述特征向量及与特征向量对应的分类,利用支持向量机就可以建立特征向量与分类的对应关系,在以后的分类过程,获取待检测邮件的特征向量后,分类器依据已建立的特征向量与分类的对应关系输出待检测邮件的分类,上述过程为现有过程,另外邮件的特征向量提取也可以利用现有技术,这里不再详述。 
由于本实施例中用到若干个分类器,因此,可以看作是一个滑动 窗口承载了不同的分类器,本实施例中垃圾邮件动态检测方法的具体步骤详述如下。 
(1)滑动窗口初始化 
最初的滑动窗口为空,因此需要被初始化。滑动窗口初始化的过程即产生窗口内若干个分类器的过程。 
首先获取分类为正常邮件与垃圾邮件的训练样本集,利用现有的方法提取邮件的特征向量,因为事先知道邮件对应的分类,利用支持向量机根据训练样本集中邮件的特征向量和邮件对应的分类,构建初始的分类器。 
然后就可以进行垃圾邮件检测,由于待检测邮件以一种数据流模式接续的到来,本实施例中将流数据考虑为分组的批数据,具体实施时每组包括60封邮件,分组中的邮件个数不限于60封,可以根据需要进行设置,如在邮件特性变化大时,设置的数目相对小,使更新速度快,若邮件特性变化小,设置的数据相对大,使更新速度慢。 
本实施例中滑动窗口中承载的分类器的个数为3或5个,称滑动窗口的大小为3或5,若滑动窗口的大小为w(由于为投票给出分类结果,w取正整数且优选为奇数),以w为3为例,基于训练样本已构建的支持向量机分类器SVM1,生成滑动窗口中其它分类器SVM2、SVM3的方法为: 
s201:接收待测邮件的流数据并提取特征向量,利用SVM1根据待检测邮件特征向量对待检测邮件分类进行垃圾邮件检测; 
s202:获取用户对待检测邮件的反馈的分类信息; 
s203:在接收的流数据达到一组时,根据该组待检测邮件的特征向量和分类信息,利用支持向量机构建新的分类器SVM2; 
s204:接收待测邮件的流数据,提取待检测邮件的特征向量,利用SVM1、SVM2根据待检测邮件特征向量对待检测邮件分类进行垃圾邮件检测; 
s205:获取用户对待检测邮件的反馈的分类信息; 
s206:在接收的流数据达到一组时,根据该组待检测邮件的特征向量和分类信息,利用支持向量机构建新的分类器SVM3。 
上面给出了滑动窗口大小w为3的初始情况,在w取其它数值情况下的初始化过程原理相同,一方面利用已滑动窗口中已构建的分类器对达到的邮件进行检测,一方面在新一批数据到来时,利用新一批邮件数据的特征向量与用户反馈的分类信息作为训练样本,构建生成新的分类器,完成窗口的初始化过程。 
本实施例中,在开始接收待检测邮件的数据流的同时,利用现有技术中超间隔方法EM(Exceeding-margin)对滑动窗口中已构建的分类器进行增量型更新。具体过程为:在EM更新技术中,给定t时刻的支持向量机分类器模型SVMt,算法检查由邮件特征向量得到的新数据点(xi,yi)是否位于SVMt定义的分类间隔(margin)内,即检查条件yi(w*·xi-b)≤1(其中,w为支持向量机的分离平面斜率,b为支持向量机的平面节距,求解过程为现有技术,这里不再详述)是否满足。如果上述条件满足则将该数据点保留,否则将其丢弃。当保留的位于分类间隔(margin)内的数据点达到给定的数量ne(ne为正整数)时,触发了SVMt的更新。这时使用SVMt的支持向量连同保留的ne个数据点作为训练数据生成t+1时刻新的分类器模型SVMt+1。 
(2)滑动窗口的更新 
邮件以一种数据流模式接续的到来。对于处理这种类型的数据,需要使用增量算法反映数据流中新的知识。此外,因为邮件的内容和用户的兴趣不断的变化,我们也需要忘记不再有效的陈旧数据点。动态分类器的关键是使用一个滑动窗口同时装载若干个分类器,窗口中的每一个分类器依据EM更新技术独立的进行增量更新,具体过程采用前面步骤(1)中叙述的方法,该过程为现有技术,这里不再详细叙述。当一封新的待测邮件到来时,分类器使用不同的分类准则对该 待测邮件独立的分类。新待测邮件的类别通过投票的方式给出。本实施例的关键在于,为了清除陈旧的知识,当一批新的邮件到来时,最“年长”的分类器,即位于窗口最右端的分类器被移出窗口。其余的分类器向右滑动一个位置。同时通过最近的一批邮件数据生成最“年轻”的分类器,即窗口最左端的分类器。在工作之前需要对窗口进行初始化,在上面第(1)部分详述了本实施例的窗口初始化过程,下面详述窗口的更新过程。 
本实施例中接收的邮件的流数据考虑为分组的批数据,每组邮件的个数为b,并使用一个窗口来同时装载代表先前第1,2,...w批的w个分类器模型。因此,窗口反映了W(=wb)个邮件的数据信息。窗口中的w个分类器根据EM更新技术独立的进行增量更新。同时还进行SVM分类器的淘汰制更新,具体过程为,在时刻t,将这w个分类器模型分别表示为 
Figure DEST_PATH_GSB00000209185400071
当t+1时刻新的批数据到来时, 
Figure DEST_PATH_GSB00000209185400072
被从窗口中丢弃,同时,剩余的 
Figure DEST_PATH_GSB00000209185400073
成为 
Figure DEST_PATH_GSB00000209185400074
并且,使用最新的一批数据生成 
Figure DEST_PATH_GSB00000209185400075
这一过程可以被公式化为 
SVM i + 1 t + 1 = SVM i t 1 ≤ i ≤ w - 1 created by batch at time t i = 0 - - - ( 8 )
其中w是窗口的大小。 
窗口中的每一个支持向量机SVM分类器代表了到目前为止的一些批数据。其中 
Figure DEST_PATH_GSB00000209185400077
表示最近的一批数据,而 表示先前的w批数据。当一封新邮件到来时,根据提取的新邮件的特征向量,窗口中的每一个具有相同权重的支持向量机SVM分类器对该数据点进行独立的分类。最终数据点的类别通过投票的方式给出。窗口中的这些SVM分类器可以看作是具有不同知识的专家,他们协同工作对新数据进行决策。 
本实施例还可以采用一种更为复杂的加权投票的策略。窗口中的SVM分类器可以被赋予不同的初始权值并可在随后动态的进行调整。 当数据流的特性变化剧烈时,我们可以增加窗口中诸如分类器 
Figure DEST_PATH_GSB00000209185400081
这样“年轻”的分类器的权重,以便能够立即反映数据的变化。相反,当数据流的变化趋势比较平缓时,我们可以增大“年长”的分类器的权重,因为它们代表了较多的历史知识。在实际情况中,数据特性的变化趋势是动态改变的,因此也需要对窗口中的SVM分类器进行动态的权值更新。 
本实施例中滑动窗口中的SVM分类器在对待测邮件进行分类时,可以采用不同的分类准则,优选地可以采用下述四种分类准则中任一种:汉明距离;夹角;支持向量;加权投票。 
①汉明距离:这种方法计算待检测邮件的特征向量和SVM分类器中支持向量的汉明距离,由于本实施例中的窗口承载了多个分类器,其中每一个分类器独立对所述待检测邮件进行分类,具体为独立地计算待检测邮件的特征向量与每一个分类器中的支持向量的汉明距离,可以得到每一个独立分类器中与待检测邮件具有最小汉明距离的支持向量,并由每一个独立分类器中与待检测邮件具有最小汉明距离的支持构成会员集合。另外,因为支持向量具有两种类别,即类别为正常邮件的支持向量和类别为垃圾邮件的支持向量,可以理解为每一个分类器都具有自身的一个标号。委员会集合中每一个成员(即上述支持向量)按照自身的标号进行投票。邮件最终的类别以投票票数较多的类别结果的形式给出。值得注意的是当两方的票数相等时,我们将邮件归类为正常邮件。采取这种策略的原因是错误分类一封正常邮件所造成的危害要远大于错误分类一封垃圾邮件所造成的损失。若特征向量采用了二元表示法,最小汉明距离等价于最小欧式距离。因此这种决策方式也等价于最近邻分类法。 
②夹角:在这种方法中,使用夹角作为分类准则。计算待检测邮件的特征向量与SVM分类器的支持向量之间夹角的余弦值。同样,本实施例中也是独立地计算待检测邮件的特征向量与每一个分类器 中的支持向量之间夹角的余弦值,可以得到每一个独立分类器中与待检测邮件具有最大夹角余弦值的支持向量,并由每一个独立分类器中与待检测邮件具有最大夹角余弦值的支持向量构成会员集合。接下来的分类过程和汉明距离的分类准则一致。 
③支持向量SVM:这种方法直接使用支持向量SVM来分类邮件,即根据待测邮件的特征向量检查待测邮件位于分类器中最优超平面的哪一侧并做出相应的分类,该过程利用现有技术可以实现,这里不再详述。 
④加权投票:这种方式将上述三种方法——汉明距离,夹角,SVM进行加权组合。在汉明距离和夹角的方法中,委员会集合中的投票可以被看作是第一个层次的投票。对于支持向量SVM分类方法来说,给出的邮件标号则可看作是支持向量的投票结果。加权投票策略使用汉明距离,夹角,SVM三种方法的分类结果在高一级别的第二个层次上再次进行投票,并根据投票的结果给出最终判定。三种方法的权重可以预先设定,也可以根据其性能动态的调整。具体来说,可以对性能较好的方法赋予较高的权重,反之亦然。 
本实施例中窗口的大小被设置为奇数以避免出现分类器投票时票数相等的情况。当窗口大小超过某一值后,分类器的更新会消耗更多的CPU时间(因为这时窗口装载了更多的分类器),因而分类速度会下降。而性能却没有得到显著的提高甚至会下降。因此,希望窗口能够同时具有较好的性能和较快的速度。依据上述目标,在实验中采用了较小(窗口大小为3或5)同时性能良好的窗口大小。 
被分组的批数据每组邮件数据数目大小的设置应当依据数据流的特性。当数据流变化剧烈时,数据块的应该较小以便能够及时清除陈旧知识。反之,当数据流变化平缓时,可以采用较大的数据块。本实施例采用的标准数据集PU1(I.Androutsopoulos,J.Koutsias,K.V.Chandrinos,and C.D.Spyropoulos,“An experimental comparison of naive bayesian and keyword-based anti-spam filtering with personale-mail messages,”in Proc.of the 23rd Annual International ACM SIGIRConference on Research and Development in Information Retrieval,2000,pp.160-167.)和数据集Ling(I.Androutsopoulos,J.Koutsias,K.V.Chandrinos,G.Paliouras,and C.D.Spyropoulos,“An evaluation of naivebayesian anti-spam filtering,”in Proc.European Conference on MachineLearning(ECML’00),2000)上数据变化趋势并不十分剧烈,因此在试验中采用了相对较大的数据块(每块60封邮件)。 
超越支持向量机分类间隔margin的邮件的数目ne应当适中。一方面,当ne设置过小时,噪声点会引起抖动,并且频繁的分类器更新也是耗时的。另一方面,当ne设置过大时,由于分类器不能够及时的进行更新,因此无法及时的反映新的数据分布。本实施例中优选ne=30较好的平衡了分类器的更新频率和性能。 
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。 

Claims (8)

1.一种垃圾邮件动态检测方法,其特征在于,该方法包括步骤:
s101:对待检测邮件分组后,依次接收每组待检测邮件,获取待检测邮件的特征向量及用户对待检测邮件反馈的是否为垃圾邮件的分类信息,基于每组待检测邮件的特征向量及分类信息构建分类器,依次得到若干个分类器;同时预先设定好所要构建的分类器的个数;
s102:接收待检测邮件,提取所述待检测邮件的特征向量,已构建的分类器根据所述待检测邮件的特征向量依次给出分类结果,所占比例大的分类结果为所述待检测邮件的分类;
s103:获取用户对步骤s102中所述待检测邮件反馈的是否为垃圾邮件的分类信息;
同时,若当前已构建的分类器的数目已达到s101中所预先设定的个数,则在新一批待测邮件到来时,删除已构建的时间最长的分类器;
s104:基于步骤s102中所述待检测邮件的特征向量及步骤s103中获取的分类信息,构建新的分类器;
s105:重复执行步骤s102~s104。
2.如权利要求1所述的垃圾邮件动态检测方法,其特征在于,在步骤s101中,利用支持向量机基于每组待检测邮件的特征向量及分类信息构建分类器,在步骤s104中,利用支持向量机构建新的分类器。
3.如权利要求2所述的垃圾邮件动态检测方法,其特征在于,在步骤s101中和步骤s102中,接收待检测邮件时,还包括对已构建的分类器进行增量更新的步骤,包括:
每接收一封待检测邮件,获取该待检测邮件的特征向量;
判断所述待检测邮件的特征向量是否位于已构建分类器的分类间隔内;
若在所述分类间隔内,将所述待测邮件暂时存储;
当存储的邮件数目达到预先设定数值时,将存储的待测邮件的特征向量与已构建分类器的支持向量共同作为新的训练样本集,对已构建的分类器进行增量更新;
删除暂时存储的所述待测邮件。
4.如权利要求2所述的垃圾邮件动态检测方法,其特征在于,在步骤s102中,所述已构建的分类器在给出分类结果时被赋予不同的权值,所述权值根据待检测邮件数据流的变化特性进行动态调整。
5.如权利要求2所述的垃圾邮件动态检测方法,其特征在于,在步骤s102中,已构建的分类器采用汉明距离分类准则,依据待检测邮件的特征向量与所述分类器的支持向量之间的汉明距离,依次给出分类结果。
6.如权利要求2所述的垃圾邮件动态检测方法,其特征在于,在步骤s102中,已构建的分类器采用夹角分类准则,依据待检测邮件的特征向量与所述分类器的支持向量之间的夹角,依次给出分类结果。
7.如权利要求2所述的垃圾邮件动态检测方法,其特征在于,在步骤s102中,已构建的分类器采用支持向量分类准则,依据待检测邮件的特征向量,判断所述待检测邮件位于所述分类器中最优超平面的哪一侧,依次给出分类结果。
8.如权利要求2所述的垃圾邮件动态检测方法,其特征在于,在步骤s102中,已构建的分类器采用加权投票的分类准则,包括:
利用汉明距离分类准则,依据待检测邮件的特征向量与所述分类器中的支持向量之间的汉明距离,依次给出分类结果;
利用夹角分类准则,依据待检测邮件的特征向量与所述分类器的支持向量之间的夹角,依次给出分类结果;
利用支持向量分类准则,依据待检测邮件的特征向量判断所述待检测邮件位于分类器中最优超平面的哪一侧,依次给出分类结果;
将利用汉明距离分类准则、夹角分类准则和支持向量分类准则给出的三次分类结果,每次的分类结果赋予不同的权值,根据赋予权值后的分类结果得到待检测邮件的最终分类。
CN2008101160801A 2008-07-02 2008-07-02 一种垃圾邮件动态检测方法 Expired - Fee Related CN101330476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101160801A CN101330476B (zh) 2008-07-02 2008-07-02 一种垃圾邮件动态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101160801A CN101330476B (zh) 2008-07-02 2008-07-02 一种垃圾邮件动态检测方法

Publications (2)

Publication Number Publication Date
CN101330476A CN101330476A (zh) 2008-12-24
CN101330476B true CN101330476B (zh) 2011-04-13

Family

ID=40206072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101160801A Expired - Fee Related CN101330476B (zh) 2008-07-02 2008-07-02 一种垃圾邮件动态检测方法

Country Status (1)

Country Link
CN (1) CN101330476B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102067534B (zh) * 2009-05-25 2014-06-04 赵克锋 垃圾邮件处理器及标记垃圾邮件的方法
CN102663001A (zh) * 2012-03-15 2012-09-12 华南理工大学 基于支持向量机的博客作者兴趣与性格自动识别方法
CN102685334A (zh) * 2012-06-08 2012-09-19 青岛海信移动通信技术股份有限公司 邮件删除方法、删除装置及手机
CN103595614A (zh) * 2012-08-16 2014-02-19 无锡华御信息技术有限公司 一种基于用户反馈的垃圾邮件检测方法
CN102882768B (zh) * 2012-09-14 2015-07-08 盈世信息科技(北京)有限公司 一种基于多层次用户分类的资源分配方法、装置及系统
CN103455581B (zh) * 2013-08-26 2016-05-04 北京理工大学 基于语义扩展的海量短文本信息过滤方法
CN103793838A (zh) * 2014-01-26 2014-05-14 宇龙计算机通信科技(深圳)有限公司 拦截广告的方法及其装置
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法
CN105574538B (zh) * 2015-12-10 2020-03-17 小米科技有限责任公司 分类模型训练方法及装置
CN105550295B (zh) * 2015-12-10 2019-09-10 小米科技有限责任公司 分类模型优化方法及装置
CN105871887B (zh) * 2016-05-12 2019-01-29 北京大学 基于客户端的个性化电子邮件过滤系统和过滤方法
CN106372670A (zh) * 2016-09-06 2017-02-01 南京理工大学 基于改进最近邻算法的忠诚度预测方法
CN108199951A (zh) * 2018-01-04 2018-06-22 焦点科技股份有限公司 一种基于多算法融合模型的垃圾邮件过滤方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654787B1 (en) * 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
CN1716293A (zh) * 2004-06-29 2006-01-04 微软公司 增量反垃圾邮件查找与更新服务
CN1809821A (zh) * 2003-03-03 2006-07-26 微软公司 用于防止垃圾邮件的反馈循环
CN101005462A (zh) * 2006-01-16 2007-07-25 腾讯科技(深圳)有限公司 一种反垃圾邮件的处理装置和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654787B1 (en) * 1998-12-31 2003-11-25 Brightmail, Incorporated Method and apparatus for filtering e-mail
CN1809821A (zh) * 2003-03-03 2006-07-26 微软公司 用于防止垃圾邮件的反馈循环
CN1716293A (zh) * 2004-06-29 2006-01-04 微软公司 增量反垃圾邮件查找与更新服务
CN101005462A (zh) * 2006-01-16 2007-07-25 腾讯科技(深圳)有限公司 一种反垃圾邮件的处理装置和方法

Also Published As

Publication number Publication date
CN101330476A (zh) 2008-12-24

Similar Documents

Publication Publication Date Title
CN101330476B (zh) 一种垃圾邮件动态检测方法
CN101316246B (zh) 一种基于分类器动态更新的垃圾邮件检测方法
Renuka et al. Spam classification based on supervised learning using machine learning techniques
Sasaki et al. Spam detection using text clustering
Méndez et al. A comparative performance study of feature selection methods for the anti-spam filtering domain
CN103024746B (zh) 一种电信运营商垃圾短信处理系统及处理方法
Al-Khateeb et al. Stream classification with recurring and novel class detection using class-based ensemble
US7930353B2 (en) Trees of classifiers for detecting email spam
CN101674264B (zh) 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
US9967321B2 (en) Meme discovery system
CN1889108B (zh) 一种识别垃圾邮件的方法
CN105812554A (zh) 一种智能管理手机短信的方法和系统
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN101251896B (zh) 一种基于多分类器的物体检测系统及方法
CN102158428A (zh) 快速高准确率的垃圾邮件过滤方法
CN103618744A (zh) 一种基于快速knn算法的入侵检测方法
CN102377690B (zh) 反垃圾邮件网关系统及方法
CN110990566A (zh) 一种基于社区检测的增量聚类算法
Jawale et al. Hybrid spam detection using machine learning
Iyengar et al. Integrated spam detection for multilingual emails
Tan et al. Artificial immune system based methods for spam filtering
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN101119341B (zh) 邮件识别方法及装置
Chakrabarty et al. An optimized k-NN classifier based on minimum spanning tree for email filtering
Behjat et al. A PSO-Based Feature Subset Selection for Application of Spam/Non-spam Detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110413

Termination date: 20130702