CN103559175A - 一种基于聚类的垃圾邮件过滤系统及方法 - Google Patents

一种基于聚类的垃圾邮件过滤系统及方法 Download PDF

Info

Publication number
CN103559175A
CN103559175A CN201310476384.XA CN201310476384A CN103559175A CN 103559175 A CN103559175 A CN 103559175A CN 201310476384 A CN201310476384 A CN 201310476384A CN 103559175 A CN103559175 A CN 103559175A
Authority
CN
China
Prior art keywords
mail
module
cluster
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310476384.XA
Other languages
English (en)
Other versions
CN103559175B (zh
Inventor
董守斌
许腾
张晶
张凌
隆承志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201310476384.XA priority Critical patent/CN103559175B/zh
Publication of CN103559175A publication Critical patent/CN103559175A/zh
Application granted granted Critical
Publication of CN103559175B publication Critical patent/CN103559175B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于聚类的垃圾邮件过滤系统及方法,系统包括聚类模块、邮件训练模块、特征库存储模块、邮件过滤模块;方法包括:S1.1、从邮件备份系统获取训练邮件及未标记邮件;S1.2、聚类预处理模块对邮件进行预处理;S1.3、聚类分析模块对预处理后的邮件划分成不同的类簇;S1.4、类簇中心计算模块计算各类簇的向量表达;S1.5、训练模块对各类簇中的已标记邮件进行学习,更新对应类簇的特征库;S2.1、从邮件系统获取需要过滤的邮件;S2.2、邮件类属性判别模块计算出与该邮件内容最接近的类簇;S2.3、邮件特征提取模块对待判别邮件进行特征提取;S2.4、邮件判别模块依据邮件特征及对应的特征库给出判别结果。本发明具有提取速度快、准确度高、效果好的优点。

Description

一种基于聚类的垃圾邮件过滤系统及方法
技术领域
本发明涉及垃圾邮件过滤技术领域,特别涉及一种基于聚类的垃圾邮件过滤系统及方法。
背景技术
随着电子邮件的普及,垃圾邮件制造者通过非常廉价的手段将大量的垃圾邮件发向网络中,严重影响着网络的带宽,干扰用户的正常使用并对用户安全造成潜在威胁。
目前基于机器学习的邮件过滤系统,多只按照特定的学习算法,对训练邮件集进行单一的训练学习后,依据学习算法建模生成的特征库对新邮件进行判别。这种不加区别的对训练数据进行统一训练,作为机器学习算法在邮件过滤领域普遍采用的方式,虽然能给过滤器提供较好的学习能力,但由于没有对训练数据进行差异化对待,在过滤器的学习和判别能力上都会有所影响。
发明内容
本发明的目的之一在于克服现有技术的缺点和不足,提供一种基于聚类的垃圾邮件过滤系统,该系统基于机器学习算法,通过引入聚类分析有差别的对待训练数据,填补现有技术中过滤器在训练环节对训练数据统一训练和在判别环节简单依靠训练生成的唯一特征库进行判别的不足。
本发明的目的之二在于提供一种基于聚类的垃圾邮件过滤方法,该方法通过对训练邮件进行学习,建模形成特征库后对新邮件进行判别,给出是否为垃圾邮件的结果,具有判别速度快、准确度高的优点。
为了达到上述第一目的,本发明采用以下技术方案:
一种基于聚类的垃圾邮件过滤系统,包括:
聚类模块,用于对训练邮件的文本内容进行分析,将邮件依据主题相似性划分成不同的簇类,同一个簇中的邮件具有一个或多个主题的相似性;
邮件训练模块,用于对已标注的邮件进行训练学习,更新特征知识库;
特征库存储模块,用于存储各类簇所对应的各特征数据;
邮件过滤模块,用于对新到邮件进行过滤,依据特征库给出该封邮件是否为垃圾邮件的判别结果。
所述聚类模块包括:
聚类预处理模块,用于将要进行聚类分析的训练邮件及未标注邮件进行邮件解码,特征提取后表示成VSM向量形式,作为聚类分析模块的输入;
聚类分析模块,用于根据聚类算法对输入数据进行聚类,划分出K个不同的类簇,输出各邮件所属的类别标记;
类簇中心计算模块,用于计算每个类簇的中心,利用向量空间模型表示该类簇的内容特征。
所述邮件训练模块包括:
类属性判别模块,用于给出与邮件内容最相近的类簇,提供给判别模块;
特征提取模块,用于对邮件进行特征提取,提供给判别模块进行分析;
数据更新模块,根据训练邮件的特征更新特征库的数据。
所述邮件过滤模块包括:
类属性判别模块,用于给出与邮件内容最相近的类簇,提供给判别模块;
特征提取模块,用于对邮件进行特征提取,提供给判别模块进行分析;
判别模块,根据类属性判别模块得出的类簇编号,依据该类簇对应的特征库,用特定的机器学习算法依据该邮件的特征给出是否为垃圾邮件的判别结果。
为了达到上述第二目的,本发明采用以下技术方案:
基于聚类的垃圾邮件过滤系统的方法,分为训练阶段、过滤阶段两个环节,具体包括以下步骤:
S1、训练阶段:
步骤S1.1、若本系统在进行初始化时,获取邮件备份系统的训练邮件及未标注邮件,进入步骤S1.2;若已通过初始化,针对用户反馈的邮件或人工标识的邮件进行实时训练,跳至步骤S1.5;
步骤S1.2、聚类模块中的聚类预处理模块对要进行聚类分析的训练邮件及未标注邮件进行邮件解码,提取文本特征后表示成VSM向量形式,发送给聚类分析模块,进入步骤S1.3;
步骤S1.3、聚类模块中的聚类分析模块,根据分裂式层次聚类算法对输入数据进行聚类,划分出K个不同的类簇,输出各邮件所属的类别编号,进入步骤S1.4;
步骤S1.4、聚类模块中的类簇中心计算模块计算每个类簇的中心,利用向量空间模型表示该类簇的内容特征,跳至步骤S1.6;
步骤S1.5、邮件训练模块中的类属性判别模块通过分析邮件正文内容,给出与该邮件文本内容最接近的类簇编号,进入到步骤S1.6;
步骤S1.6、邮件训练模块中的特征提取模块对训练邮件进行特征提取,提取出有效特征并用VSM向量形式表示,传递给邮件判别模块,进入到步骤S1.7;
步骤S1.7、邮件训练模块中的数据更新模块根据训练邮件的特征,采用贝叶斯算法进行训练学习,更新该邮件所对应类簇的特征库;
S2、过滤阶段:
步骤S2.1、在过滤阶段,邮件系统获取一封新邮件,传递给邮件过滤模块中的类属性判别模块,进入步骤S2.2;
步骤S2.2、邮件过滤模块中的类属性判别模块通过分析邮件正文内容,给出与邮件文本内容最相似的类簇编号,进入到步骤S2.3;
步骤S2.3、邮件过滤模块中的特征提取模块对邮件进行特征提取,提取出有效特征用VSM向量形式表示,传递给邮件过滤模块中的判别模块,进入到步骤S2.4;
步骤S2.4、邮件过滤模块中的判别模块依据步骤S2.2中给出的最相近的类簇所对应的特征库,采用贝叶斯算法去计算分析步骤S2.3中得到的邮件特征,给出该封邮件是否为垃圾邮件的判别结果;
步骤S2.5、邮件判别模块通过邮件的向量特征和该邮件所属类簇对应的特征库计算该封邮件的得分score,若score值大于或等于预设的判断阈值,则将该封邮件打上spam标记,输出结果;若score值小于判断阈值,则将该封邮件打上ham标记,输出结果。
步骤S1.2具体包括:
S1.2.1、聚类模块中的聚类预处理模块依据邮件所采用的编码方式进行解码,进入步骤S1.2.2;
S1.2.2、聚类模块中的聚类预处理模块将解码后的邮件文本信息进行去噪、分词处理,提取出有效特征词信息,进入步骤S1.2.3;
S1.2.3、聚类模块中的聚类预处理模块利用提取出的有效特征词信息表示成VSM向量形式,交给聚类分析模块。
步骤S1.4具体包括以下步骤:
S1.4.1、聚类模块中的类簇中心计算模块分别统计各类簇中所含的聚类邮件,进入步骤S1.4.2;
S1.4.2、聚类模块中的类簇中心计算模块分别计算各类簇中心,用VSM特征向量表示类簇的中心向量Ci
C i = 1 | M i | Σ m ∈ M i m
其中Ci代表类簇i的质心向量,Mi代表类簇i中的所有邮件,|Mi|为类簇i中邮件的总数量,m为邮件的VSM向量表达式,计算完毕后,将各类簇中的训练邮件依次发给训练模块。
步骤S1.5具体包括下述步骤:
S5.1、邮件训练模块中的类属性判别模块依据邮件所采用的编码方式进行解码,进入步骤S5.2;
S5.2、邮件训练模块中的类属性判别模块将解码后的邮件文本信息进行去噪、分词处理,提取出有效特征词信息,进入步骤S5.3;
S5.3、邮件训练模块中的类属性判别模块利用提取出的有效特征词信息表示成VSM向量形式,其中权重采用tf-idf计算,进入步骤S5.4;
S5.4、邮件类属性判别模块分别计算该邮件的特征向量与各类簇中心的特征向量的相似度,选取相似度最大的类簇,将类簇编号输出给邮件判别模块。
步骤S1.6具体包括下述步骤:
S1.6.1、邮件训练模块中的特征提取模块按照邮件格式,将邮件分为邮件头和邮件体两部分,对于邮件头部分,进入步骤S1.6.2;对于邮件体部分,跳至步骤S1.6.3;
S1.6.2、邮件训练模块中的特征提取模块按字段信息提取出邮件头中的有效信息,作为邮件头的特征,进入步骤S1.6.4;
S1.6.3、邮件训练模块中的特征提取模块采用滑动窗口的指纹特征提取方法对邮件体特进行特征提取,进入步骤S1.6.4;
S1.6.4、邮件训练模块中的特征提取模块将邮件头和邮件体两部分特征合并,用向量形式表示,输出给邮件判别模块。
步骤S2.1具体包括下述步骤:
S1.2.1、邮件过滤模块中的类属性判别模块依据邮件所采用的编码方式进行解码,进入步骤S1.2.2;
S1.2.2、邮件过滤模块中的类属性判别模块将解码后的邮件文本信息进行去噪、分词处理,提取出有效特征词信息,进入步骤S1.2.3;
S1.2.3、邮件过滤模块中的类属性判别模块利用提取出的有效特征词信息表示成VSM向量形式,其中权重采用tf-idf计算,进入步骤S1.2.4;
S1.2.4、邮件过滤模块中的类属性判别模块分别计算该邮件的特征向量与各类簇中心的特征向量的相似度,选取相似度最大的类簇,将类簇编号输出给邮件判别模块;
所述步骤S2.3具体包括以下步骤:
S2.3.1、邮件过滤模块中的特征提取模块按照邮件格式,将邮件分为邮件头和邮件体两部分,对于邮件头部分,进入步骤S2.3.2;对于邮件体部分,跳至步骤S2.3.3;
S2.3.2、邮件过滤模块中的特征提取模块按字段信息提取出邮件头中的有效信息,作为邮件头的特征,跳至步骤S2.3.4;
S2.3.3、邮件过滤模块中的特征提取模块采用滑动窗口的指纹特征提取方法对邮件体特进行特征提取,进入步骤S2.3.4;
S2.3.4、邮件过滤模块中的特征提取模块将邮件头和邮件体两部分特征合并,用向量形式表示,输出给邮件判别模块。
本发明相对于现有技术具有如下的优点及效果:
第一、本发明优化了过滤器的学习流程,通过有差别的对训练邮件进行学习,使得过滤器的判别效果更加优秀;
第二、人工代价小:采用机器学习算法,过滤器的训练、判别自动化,无需人工制定判别规则;
第三、实时响应快:采用运算代价较小的贝叶斯算法,符合邮件系统过滤的实时要求;
第四、判别准确度高:依据主题性分离邮件进行差异化训练,提高邮件的判别精确度。
附图说明
图1是本实施例中一种基于聚类的邮件过滤系统的结构示意图;
图2是本实施例中聚类模块的结构示意图;
图3是本实施例中邮件训练模块的结构示意图;
图4是本实施例中邮件过滤模块的结构示意图;
图5是本实施例中一种基于聚类的邮件过滤系统的训练环节流程示意图;
图6是本实施例中聚类分析模块的流程示意图;
图7是本实施例中一种基于聚类的邮件过滤系统的判别环节流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
一种基于聚类的垃圾邮件过滤系统,如图1所示,包括:
聚类模块,用于对训练邮件的文本内容进行分析,将邮件依据主题相似性划分成不同的簇类,同一个簇中的邮件具有一个或多个主题的相似性;
邮件训练模块,用于对已标注的邮件进行训练学习,生成特征知识;
邮件过滤模块,用于对新到邮件进行过滤,依据特征库给出该封邮件是否为垃圾邮件的判别结果。
特征库存储模块,用于存储各类簇所对应的各特征数据。
如图2所示,为更好的实现本发明,所述聚类模块包括:
聚类预处理模块,用于将要进行聚类分析的训练邮件及未标注邮件进行邮件解码,特征提取后表示成VSM向量形式,作为聚类分析模块的输入;
聚类分析模块,用于根据聚类算法对输入数据进行聚类,划分出K个不同的类簇,输出各邮件所属的类别标记;
类簇中心计算模块,用于计算每个类簇的中心,利用向量空间模型表示该类簇的内容特征。
如图3所示,为更好的实现本发明,所述邮件训练模块包括:
类属性判别模块,用于给出与邮件内容最相近的类簇,提供给判别模块;
特征提取模块,用于对邮件进行特征提取,提供给判别模块进行分析;
数据更新模块,根据类属性判别模块得出的类簇编号,依据该类簇对应的特征库,用特定的机器学习算法依据该邮件的特征给出是否为垃圾邮件的判别结果。
如图4所示,为更好的实现本发明,所述邮件过滤模块包括:
类属性判别模块,用于给出与邮件内容最相近的类簇,提供给判别模块;
特征提取模块,用于对邮件进行特征提取,提供给判别模块进行分析;
判别模块,根据类属性判别模块得出的类簇编号,依据该类簇对应的特征库,用特定的机器学习算法依据该邮件的特征给出是否为垃圾邮件的判别结果。
一种基于聚类的垃圾邮件过滤方法,分训练阶段、过滤阶段两个环节,如图5所示,训练阶段具体包括以下步骤:
步骤S1、若本系统在进行初始化时,邮件备份系统获取训练邮件及未标注邮件,送到聚类预处理模块,进入步骤S2;若已通过初始化,针对用户反馈的邮件或人工标识的邮件进行训练,跳至步骤S5;
步骤S2、如图6所示,聚类模块中的聚类预处理模块检测邮件编码类型,依据对应类型进行解码,接着进行去噪处理,只提取邮件标题及正文部分,若正文部分含有HTML格式,则去除如”<>”的html标记。此后利用中科院的分词工具ICTCLAS对文本内容进行分词,并去除对分类没有贡献的停用词,如比如汉语中的“吗、的、地、得”与英语中的“the、a、an”等。计算各有效词项的词频,并表示成VSM向量形式。数据处理完毕后发送给聚类模块中的聚类分析模块,进入步骤S3;
步骤S3、聚类模块中的聚类分析模块,根据分裂式层次聚类算法对输入数据进行聚类,具体的聚类算法采用的是CLUTO聚类工具中的rb算法,其中权重计算采用tf-idf方法,相似度计算采用余弦相似度。聚类的类簇数目K值设为11,分析完毕后,给出各邮件所属的类簇编号,进入步骤S4;
步骤S4、聚类模块中的类簇中心计算模块分别统计每个类簇中的邮件,依据各类簇中各邮件由步骤S2得到的特征向量计算出对应类簇的中心向量,用该中心向量表示类簇。类簇中心向量Ci的计算方法如下:
C i = 1 | M i | &Sigma; m &Element; M i m
其中Ci代表类簇i的质心向量,Mi代表类簇i中的所有邮件,|Mi|为类簇i中邮件的总数量,m为邮件的VSM向量表达式,跳至步骤S6;
步骤S5、训练模块中的类属性判别模块检测邮件的编码方式,采用对应的编码进行解码,然后对邮件文本信息进行去噪、采用ICTCLAS对文本内容进行分词,依据特征词项权重大小,提取出最多50个有效特征词信息并表示成VSM向量形式(优先选取权重大的),其中权重采用tf-idf计算,计算与各类簇中心的特征向量的余弦相似度sim(D,D′):
sim ( D , D &prime; ) = 2 &Sigma; i = 1 n w i &times; w i &prime; &Sigma; i = 1 n w i 2 &times; &Sigma; i = 1 n w i &prime; 2
其中D为邮件的向量表示,D‘i为类簇i的中心向量,wi和w’i分别为对应的特征权重。选取相似度最大的类簇,将类簇编号输出,进入到步骤S6;
步骤S6、邮件特征提取模块分别读取已标注的邮件,按照邮件格式,将邮件分为邮件头(head)和邮件体(body)两部分,对于邮件头部分,按邮件头字段信息:From、To、Subject、Reply-To等提取出邮件头中的有效信息,作为邮件头的特征;对于邮件体部分,采用滑动窗口的指纹特征提取方法,然后将邮件头和邮件体两部分特征合并,用向量形式表示,进入步骤S7;
步骤S7、特征数据更新模块根据训练邮件的特征进行训练学习,更新该邮件所对应类簇的特征库。
如图7所示,过滤阶段具体包括以下步骤::
步骤S1、在过滤阶段,通过邮件系统取得需要过滤的邮件,传递给邮件类属性判别模块,进入步骤S2;
步骤S2、邮件过滤模块中的类属性判别模块依据邮件所采用的编码方式进行解码,然后对邮件文本信息进行去噪、分词处理,提取出有效特征词信息并表示成VSM向量形式,其中权重采用tf-idf计算,计算与各类簇中心的特征向量的相似度Sim(D,D′):
sim ( D , D &prime; ) = 2 &Sigma; i = 1 n w i &times; w i &prime; &Sigma; i = 1 n w i 2 &times; &Sigma; i = 1 n w i &prime; 2
其中D为邮件的向量表示,D‘i为类簇i的中心向量,wi和w’i分别为对应的特征权重。选取相似度最大的类簇,将类簇编号输出,进入到步骤S3;
步骤S3、邮件过滤模块中的特征提取模块分别读取已标注的邮件,按照邮件格式,将邮件分为邮件头(head)和邮件体(body)两部分,对于邮件头部分,特征提取模块按字段信息提取出邮件头中的有效信息,作为邮件头的特征;对于邮件体部分,特征提取模块采用滑动窗口的指纹特征提取方法,然后将邮件头和邮件体两部分特征合并,用向量形式表示,依据该训练邮件是否为spam的标识,进行训练学习,对应更新该邮件所属类簇的特征库i,进入步骤S4;
步骤S4、邮件过滤模块中的判别模块通过邮件的向量特征和该邮件所属类簇对应的特征库计算该封邮件的得分score,若score值大于或等于预设的判断阈值,则将该封邮件打上spam标记,输出结果;若score值小于判断阈值,则将该封邮件打上ham标记,输出结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于聚类的垃圾邮件过滤系统,其特征在于,包括:
聚类模块,用于对训练邮件的文本内容进行分析,将邮件依据主题相似性划分成不同的簇类,同一个簇中的邮件具有一个或多个主题的相似性;
邮件训练模块,用于对已标注的邮件进行训练学习,更新特征知识库;
特征库存储模块,用于存储各类簇所对应的各特征数据;
邮件过滤模块,用于对新到邮件进行过滤,依据特征库给出该封邮件是否为垃圾邮件的判别结果。
2.根据权利要1所述的基于聚类的垃圾邮件过滤系统,其特征在于,聚类模块包括:
聚类预处理模块,用于将要进行聚类分析的训练邮件及未标注邮件进行邮件解码,特征提取后表示成VSM向量形式,作为聚类分析模块的输入;
聚类分析模块,用于根据聚类算法对输入数据进行聚类,划分出K个不同的类簇,输出各邮件所属的类别标记;
类簇中心计算模块,用于计算每个类簇的中心,利用向量空间模型表示该类簇的内容特征。
3.根据权利要1所述的基于聚类的垃圾邮件过滤系统,其特征在于,所述邮件训练模块包括:
类属性判别模块,用于给出与邮件内容最相近的类簇,提供给判别模块;
特征提取模块,用于对邮件进行特征提取,提供给判别模块进行分析;
数据更新模块,根据训练邮件的特征更新特征库的数据。
4.根据权利要1所述的基于聚类的垃圾邮件过滤系统,其特征在于,所述邮件过滤模块包括:
类属性判别模块,用于给出与邮件内容最相近的类簇,提供给判别模块;
特征提取模块,用于对邮件进行特征提取,提供给判别模块进行分析;
判别模块,根据类属性判别模块得出的类簇编号,依据该类簇对应的特征库,用特定的机器学习算法依据该邮件的特征给出是否为垃圾邮件的判别结果。
5.根据权利要求1-4中任一项所述基于聚类的垃圾邮件过滤系统的方法,其特征在于,分为训练阶段、过滤阶段两个环节,具体包括以下步骤:
S1、训练阶段:
步骤S1.1、若本系统在进行初始化时,获取邮件备份系统的训练邮件及未标注邮件,进入步骤S1.2;若已通过初始化,针对用户反馈的邮件或人工标识的邮件进行实时训练,跳至步骤S1.5;
步骤S1.2、聚类模块中的聚类预处理模块对要进行聚类分析的训练邮件及未标注邮件进行邮件解码,提取文本特征后表示成VSM向量形式,发送给聚类分析模块,进入步骤S1.3;
步骤S1.3、聚类模块中的聚类分析模块,根据分裂式层次聚类算法对输入数据进行聚类,划分出K个不同的类簇,输出各邮件所属的类别编号,进入步骤S1.4;
步骤S1.4、聚类模块中的类簇中心计算模块计算每个类簇的中心,利用向量空间模型表示该类簇的内容特征,跳至步骤S1.6;
步骤S1.5、邮件训练模块中的类属性判别模块通过分析邮件正文内容,给出与该邮件文本内容最接近的类簇编号,进入到步骤S1.6;
步骤S1.6、邮件训练模块中的特征提取模块对训练邮件进行特征提取,提取出有效特征并用VSM向量形式表示,传递给邮件判别模块,进入到步骤S1.7;
步骤S1.7、邮件训练模块中的数据更新模块根据训练邮件的特征,采用贝叶斯算法进行训练学习,更新该邮件所对应类簇的特征库;
S2、过滤阶段:
步骤S2.1、在过滤阶段,邮件系统获取一封新邮件,传递给邮件过滤模块中的类属性判别模块,进入步骤S2.2;
步骤S2.2、邮件过滤模块中的类属性判别模块通过分析邮件正文内容,给出与邮件文本内容最相似的类簇编号,进入到步骤S2.3;
步骤S2.3、邮件过滤模块中的特征提取模块对邮件进行特征提取,提取出有效特征用VSM向量形式表示,传递给邮件过滤模块中的判别模块,进入到步骤S2.4;
步骤S2.4、邮件过滤模块中的判别模块依据步骤S2.2中给出的最相近的类簇所对应的特征库,采用贝叶斯算法去计算分析步骤S2.3中得到的邮件特征,给出该封邮件是否为垃圾邮件的判别结果;
步骤S2.5、邮件判别模块通过邮件的向量特征和该邮件所属类簇对应的特征库计算该封邮件的得分score,若score值大于或等于预设的判断阈值,则将该封邮件打上spam标记,输出结果;若score值小于判断阈值,则将该封邮件打上ham标记,输出结果。
6.根据权利要求5所述基于聚类的垃圾邮件过滤系统的方法,其特征在于,步骤S1.2具体包括:
S1.2.1、聚类模块中的聚类预处理模块依据邮件所采用的编码方式进行解码,进入步骤S1.2.2;
S1.2.2、聚类模块中的聚类预处理模块将解码后的邮件文本信息进行去噪、分词处理,提取出有效特征词信息,进入步骤S1.2.3;
S1.2.3、聚类模块中的聚类预处理模块利用提取出的有效特征词信息表示成VSM向量形式,交给聚类分析模块。
7.根据权利要求5所述基于聚类的垃圾邮件过滤系统的方法,其特征在于,步骤S1.4具体包括以下步骤:
S1.4.1、聚类模块中的类簇中心计算模块分别统计各类簇中所含的聚类邮件,进入步骤S1.4.2;
S1.4.2、聚类模块中的类簇中心计算模块分别计算各类簇中心,用VSM特征向量表示类簇的中心向量Ci
C i = 1 | M i | &Sigma; m &Element; M i m
其中Ci代表类簇i的质心向量,Mi代表类簇i中的所有邮件,|Mi|为类簇i中邮件的总数量,m为邮件的VSM向量表达式,计算完毕后,将各类簇中的训练邮件依次发给训练模块。
8.根据权利要求5所述基于聚类的垃圾邮件过滤系统的方法,其特征在于,步骤S1.5具体包括下述步骤:
S5.1、邮件训练模块中的类属性判别模块依据邮件所采用的编码方式进行解码,进入步骤S5.2;
S5.2、邮件训练模块中的类属性判别模块将解码后的邮件文本信息进行去噪、分词处理,提取出有效特征词信息,进入步骤S5.3;
S5.3、邮件训练模块中的类属性判别模块利用提取出的有效特征词信息表示成VSM向量形式,其中权重采用tf-idf计算,进入步骤S5.4;
S5.4、邮件类属性判别模块分别计算该邮件的特征向量与各类簇中心的特征向量的相似度,选取相似度最大的类簇,将类簇编号输出给邮件判别模块。
9.根据权利要求5所述基于聚类的垃圾邮件过滤系统的方法,其特征在于,步骤S1.6具体包括下述步骤:
S1.6.1、邮件训练模块中的特征提取模块按照邮件格式,将邮件分为邮件头和邮件体两部分,对于邮件头部分,进入步骤S1.6.2;对于邮件体部分,跳至步骤S1.6.3;
S1.6.2、邮件训练模块中的特征提取模块按字段信息提取出邮件头中的有效信息,作为邮件头的特征,进入步骤S1.6.4;
S1.6.3、邮件训练模块中的特征提取模块采用滑动窗口的指纹特征提取方法对邮件体特进行特征提取,进入步骤S1.6.4;
S1.6.4、邮件训练模块中的特征提取模块将邮件头和邮件体两部分特征合并,用向量形式表示,输出给邮件判别模块。
10.根据权利要求5所述基于聚类的垃圾邮件过滤系统的方法,其特征在于,步骤S2.1具体包括下述步骤:
S1.2.1、邮件过滤模块中的类属性判别模块依据邮件所采用的编码方式进行解码,进入步骤S1.2.2;
S1.2.2、邮件过滤模块中的类属性判别模块将解码后的邮件文本信息进行去噪、分词处理,提取出有效特征词信息,进入步骤S1.2.3;
S1.2.3、邮件过滤模块中的类属性判别模块利用提取出的有效特征词信息表示成VSM向量形式,其中权重采用tf-idf计算,进入步骤S1.2.4;
S1.2.4、邮件过滤模块中的类属性判别模块分别计算该邮件的特征向量与各类簇中心的特征向量的相似度,选取相似度最大的类簇,将类簇编号输出给邮件判别模块;
所述步骤S2.3具体包括以下步骤:
S2.3.1、邮件过滤模块中的特征提取模块按照邮件格式,将邮件分为邮件头和邮件体两部分,对于邮件头部分,进入步骤S2.3.2;对于邮件体部分,跳至步骤S2.3.3;
S2.3.2、邮件过滤模块中的特征提取模块按字段信息提取出邮件头中的有效信息,作为邮件头的特征,跳至步骤S2.3.4;
S2.3.3、邮件过滤模块中的特征提取模块采用滑动窗口的指纹特征提取方法对邮件体特进行特征提取,进入步骤S2.3.4;
S2.3.4、邮件过滤模块中的特征提取模块将邮件头和邮件体两部分特征合并,用向量形式表示,输出给邮件判别模块。
CN201310476384.XA 2013-10-12 2013-10-12 一种基于聚类的垃圾邮件过滤系统及方法 Expired - Fee Related CN103559175B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310476384.XA CN103559175B (zh) 2013-10-12 2013-10-12 一种基于聚类的垃圾邮件过滤系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310476384.XA CN103559175B (zh) 2013-10-12 2013-10-12 一种基于聚类的垃圾邮件过滤系统及方法

Publications (2)

Publication Number Publication Date
CN103559175A true CN103559175A (zh) 2014-02-05
CN103559175B CN103559175B (zh) 2016-08-10

Family

ID=50013424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310476384.XA Expired - Fee Related CN103559175B (zh) 2013-10-12 2013-10-12 一种基于聚类的垃圾邮件过滤系统及方法

Country Status (1)

Country Link
CN (1) CN103559175B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102557A (zh) * 2014-06-27 2014-10-15 武汉理工大学 一种基于聚类的云计算平台数据备份方法
CN104182539A (zh) * 2014-09-02 2014-12-03 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN104469025A (zh) * 2014-11-26 2015-03-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和系统
CN106292611A (zh) * 2016-10-10 2017-01-04 深圳万发创新进出口贸易有限公司 一种基于云计算的智慧农业控制系统
CN106844616A (zh) * 2017-01-18 2017-06-13 闽江学院 动机词汇的自动分类过滤生成创意点计算方法
CN106919545A (zh) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 用于处理文档的方法与设备
WO2017143920A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种区分主题的方法及装置
CN107171948A (zh) * 2017-07-04 2017-09-15 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器
CN107209771A (zh) * 2015-01-19 2017-09-26 谷歌公司 文档的分类和存储
CN107528763A (zh) * 2016-06-22 2017-12-29 北京易讯通信息技术股份有限公司 一种基于Spark与YARN的邮件内容分析方法
WO2018086401A1 (zh) * 2016-11-14 2018-05-17 平安科技(深圳)有限公司 自动问答系统中的问题聚类处理方法及装置
CN108073718A (zh) * 2017-12-29 2018-05-25 长春理工大学 一种基于主动学习和否定选择的邮件二类分类算法
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN105224569B (zh) * 2014-06-30 2018-09-07 华为技术有限公司 一种数据过滤、构造数据滤波器的方法及装置
CN108829807A (zh) * 2018-06-07 2018-11-16 武汉斗鱼网络科技有限公司 一种舆情归并方法、装置、服务器和存储介质
CN109344154A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089272A1 (en) * 2000-11-27 2009-04-02 Jonathan James Oliver System and method for adaptive text recommendation
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN103065122A (zh) * 2012-12-21 2013-04-24 西北工业大学 基于面部动作单元组合特征的人脸表情识别方法
CN103176981A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089272A1 (en) * 2000-11-27 2009-04-02 Jonathan James Oliver System and method for adaptive text recommendation
CN101661559A (zh) * 2009-09-16 2010-03-03 中国科学院计算技术研究所 一种数字图像训练和检测方法
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN103176981A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
CN103065122A (zh) * 2012-12-21 2013-04-24 西北工业大学 基于面部动作单元组合特征的人脸表情识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘卫红: "垃圾邮件检测与过滤关键技术的研究", 《中国博士学位论文全文数据库信息科技辑》, 15 July 2011 (2011-07-15), pages 139 - 35 *
周鑫: "带噪声的文本聚类及其在反垃圾邮件中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 October 2012 (2012-10-15) *
廖明涛等: "基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法", 《微电子学与计算机》, vol. 24, no. 8, 31 August 2007 (2007-08-31), pages 1 - 7 *
张晶等: "基于自然语言同现词汇的邮件过滤", 《第三届全国信息检索与内容安全学术会议》, 1 November 2007 (2007-11-01), pages 255 - 260 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102557A (zh) * 2014-06-27 2014-10-15 武汉理工大学 一种基于聚类的云计算平台数据备份方法
CN104102557B (zh) * 2014-06-27 2017-11-10 武汉理工大学 一种基于聚类的云计算平台数据备份方法
CN105224569B (zh) * 2014-06-30 2018-09-07 华为技术有限公司 一种数据过滤、构造数据滤波器的方法及装置
CN104182539A (zh) * 2014-09-02 2014-12-03 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN104182539B (zh) * 2014-09-02 2018-02-23 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN104469025A (zh) * 2014-11-26 2015-03-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和系统
CN104469025B (zh) * 2014-11-26 2017-08-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和系统
CN107209771A (zh) * 2015-01-19 2017-09-26 谷歌公司 文档的分类和存储
CN106919545A (zh) * 2015-12-25 2017-07-04 皇家飞利浦有限公司 用于处理文档的方法与设备
WO2017143920A1 (zh) * 2016-02-26 2017-08-31 阿里巴巴集团控股有限公司 一种区分主题的方法及装置
CN107528763A (zh) * 2016-06-22 2017-12-29 北京易讯通信息技术股份有限公司 一种基于Spark与YARN的邮件内容分析方法
CN106292611A (zh) * 2016-10-10 2017-01-04 深圳万发创新进出口贸易有限公司 一种基于云计算的智慧农业控制系统
WO2018086401A1 (zh) * 2016-11-14 2018-05-17 平安科技(深圳)有限公司 自动问答系统中的问题聚类处理方法及装置
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN108259415B (zh) * 2016-12-28 2022-08-26 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN106844616A (zh) * 2017-01-18 2017-06-13 闽江学院 动机词汇的自动分类过滤生成创意点计算方法
CN106844616B (zh) * 2017-01-18 2020-05-05 闽江学院 动机词汇的自动分类过滤生成创意点计算方法
CN107171948B (zh) * 2017-07-04 2020-08-25 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器
CN107171948A (zh) * 2017-07-04 2017-09-15 彩讯科技股份有限公司 一种过滤垃圾邮件的方法、装置及邮件服务器
CN108073718A (zh) * 2017-12-29 2018-05-25 长春理工大学 一种基于主动学习和否定选择的邮件二类分类算法
CN108829807A (zh) * 2018-06-07 2018-11-16 武汉斗鱼网络科技有限公司 一种舆情归并方法、装置、服务器和存储介质
CN109344154A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质
CN109344154B (zh) * 2018-08-22 2023-05-30 中国平安人寿保险股份有限公司 数据处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103559175B (zh) 2016-08-10

Similar Documents

Publication Publication Date Title
CN103559175A (zh) 一种基于聚类的垃圾邮件过滤系统及方法
CN108804512A (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN102289522B (zh) 一种对于文本智能分类的方法
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN109918452A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
CN103257957A (zh) 一种基于中文分词的文本相似性识别方法及装置
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN105574544A (zh) 一种数据处理方法和装置
CN104915334A (zh) 一种基于语义分析的招投标项目关键信息自动化提取方法
CN102629904A (zh) 一种网络水军的探测与判定方法
CN105117740A (zh) 字体识别方法及装置
CN105117707A (zh) 一种基于区域图像的人脸表情识别方法
CN104317784A (zh) 一种跨平台用户识别方法和系统
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN112329816A (zh) 数据分类方法、装置、电子设备和可读存储介质
CN101655911B (zh) 基于免疫抗体网络的模式识别方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN103020645A (zh) 一种垃圾图片识别方法和系统
CN113495959B (zh) 一种基于文本数据的金融舆情识别方法及系统
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN109166012B (zh) 针对行程预定类用户的分类及信息推送的方法和装置
CN107992508B (zh) 一种基于机器学习的中文邮件签名提取方法及系统
CN105335446A (zh) 一种基于词矢量的短文本分类模型生成方法与分类方法
CN109597987A (zh) 一种文本还原方法、装置及电子设备
CN103309851A (zh) 短文本的垃圾识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160810

Termination date: 20211012

CF01 Termination of patent right due to non-payment of annual fee