CN103186845B - 一种垃圾邮件过滤方法 - Google Patents

一种垃圾邮件过滤方法 Download PDF

Info

Publication number
CN103186845B
CN103186845B CN201110450352.3A CN201110450352A CN103186845B CN 103186845 B CN103186845 B CN 103186845B CN 201110450352 A CN201110450352 A CN 201110450352A CN 103186845 B CN103186845 B CN 103186845B
Authority
CN
China
Prior art keywords
mail
participle
spam
word
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110450352.3A
Other languages
English (en)
Other versions
CN103186845A (zh
Inventor
林延中
潘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Critics of science and Technology (Guangzhou) Co. Ltd.
Original Assignee
MAIMAILTECH (BEIJING) CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAIMAILTECH (BEIJING) CO Ltd filed Critical MAIMAILTECH (BEIJING) CO Ltd
Priority to CN201110450352.3A priority Critical patent/CN103186845B/zh
Priority to PCT/CN2012/071327 priority patent/WO2013097327A1/zh
Publication of CN103186845A publication Critical patent/CN103186845A/zh
Application granted granted Critical
Publication of CN103186845B publication Critical patent/CN103186845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种垃圾邮件过滤方法,包括:从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;通过统计学习样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。本发明实施例能够准确地对邮件进行分类,提高垃圾邮件的识别准确率。

Description

一种垃圾邮件过滤方法
技术领域
本发明涉及通信技术领域,尤其涉及一种垃圾邮件过滤方法。
背景技术
随着网络的快速发展,使用电子邮件(E-mail)进行通信已十分普遍,图片、文档、影音等各种计算机文件均可通过E-mail的方式传送给接收者,给人们的生活带来了极大的方便。但同时垃圾邮件也随之蔓延,严重威胁到用户邮箱的稳定性及安全性。
中国专利CN201010179995公开一种基于N-GRAM分词模型的反向神经网络垃圾邮件过滤装置,使用N-GRAM分词模型对邮件样本进行分词,并使用TF-IDF(TermFrequency–InverseDocumentFrequency)算法对分词进行权重排序,然后使用zipf法则提取最重要的特征分词列表(未被挑中的特征分词则被丢弃)。根据文本中是否包含这些“重要特征分词”构造出文档的特征向量,并以此特征向量进行神经网络的学习和分类,最后输出正常邮件和垃圾邮件两个类别的分类结果。
上述现有技术使用zipf法则来提取最重要的特征分词,会导致某些次重要的特征分词被丢弃,但是这些次重要的特征分词数量较多,总体仍会对分类系统有相当大的贡献。因此,丢弃这些次重要分词,会影响分类器的准确性。而且,在实际应用中,存在部分灰色地带的邮件,比如某些信用卡的积分广告邮件,对于某些用户来说是希望接收的,但是上述现有技术只有垃圾邮件和正常邮件两个分类结果,由于这些灰色地带的邮件是大量群发的,因此分类器会将其归类到垃圾邮件内;此外,上述现有技术使用神经网络对特征向量进行分类,只能获得一个邮件属于垃圾邮件还是正常邮件的分类结果,不能获得分类结果的置信度;而且没有考虑当前大量的垃圾邮件使用html方式包装,并通过添加大量不可见或者不同大小的字体,来干扰文本分类的效果,影响分类器的准确性。
发明内容
本发明实施例提出一种垃圾邮件过滤方法,邮件分类准确,能够提高垃圾邮件的识别准确率。
本发明实施例提供的垃圾邮件过滤方法,包括:
S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;
S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;
S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
在步骤S11中,采用排列组合方式从所述中文文本中分离出词语的方法,具体包括:扫描所述中文文本中的每一个中文文字,以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来,组成文字组合,获得词语;其中,S为自然数。
步骤S12具体包括:
收集已知分类的邮件样本,所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本;
从所述邮件样本中提取分词样本,对每一个分词样本的区分邮件类型的能力进行排序,形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表;每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号,所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;
将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中;
从所述待过滤邮件的中文文本中分离出词语后,根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号,来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号。
进一步的,在步骤S14之后,还包括:
S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值,若是,则判定所述待过滤邮件为垃圾邮件,否则不是垃圾邮件。
本发明实施例提供的垃圾邮件过滤方法,从待过滤邮件中提取出中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语,不依赖于中文字典,而是通过排列组合穷举所有可能的分词形式,然后通过统计来确认哪些分词比较重要,不会丢弃次重要的特征分词,将分类结果分成垃圾邮件、正常邮件、广告邮件和订阅邮件四个类型,邮件分类准确。而且使用支持向量机作为特征向量的分类器,能够提高垃圾邮件的识别准确率。
附图说明
图1是本发明实施例一提供的垃圾邮件过滤方法的流程示意图;
图2是本发明实施例二提供的垃圾邮件过滤方法的流程示意图;
图3是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的垃圾邮件过滤方法,预先收集正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本,分析邮件样本中每个分词属于不同邮件类型的概率,形成样本数据库;再使用支持向量机学习这些样本,获得支持向量机模型。具体如下:
一、收集邮件样本:
收集正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本,加入到样本数据库中。
具体实施时,可以在邮件系统中部署举报系统,收集用户举报的垃圾邮件、广告邮件和订阅邮件,加入到样本数据库中。
二、提取邮件样本中的词语:
首先对邮件样本中的文本进行预处理,从邮件样本中提取出html文档、中文文本和英文文本。对于html文档,将其中的html标签(htmltag)提取出来单独处理。之后从剩余的信息中提取中文字符和英文字符,形成只有英文字符的文档和只有中文字符的文档。
(1)、对于英文文本,以标点符号和空格分隔各个分词。
(2)、对于中文文本,则使用机械的排列组合方式从句子中分离出词语。分离的方法如下:对于一个中文字符数为L中文文本,扫描所述中文文本中的每一个中文文字C,以S个中文字符为步长将每一个中文文字C后面的文字逐个提取出来,组成文字组合;其中,S为1、2、3、…。例如,对于句子“我是中国人”,设定扫描步长为3,分词最大长度为3,则可能的分词为:我、我是、我是中、是、是中、是中国、中、中国、中国人、国、国人、人。
使用此分词的好处是无需中文词典,由于中文的特性,使用此办法分词肯定可以覆盖到绝大部分的中文词语。另外可以处理形如“我a是a中a国a人”的带有干扰信息的文本。而且使用此分词方法,还可以获得很多次重要的分词,在后续处理会将这些分词按照区分能力进行排序,区分能力低的词语会排到较后的位置。一些次重要的词语对文本分类有较大作用,例如对于“芙王”这个分词,经过程序处理之后发现它是垃圾邮件的一个有较大区分作用的分词,仔细查看发现这个词来源于销售假烟“芙蓉王”的垃圾邮件样本,而芙蓉可能会在其他正常邮件中经常出现,所以“芙蓉”对于垃圾邮件的区分作用不如“芙王”。
(3)、对于html文档,从html文档中提取html标签(htmltag)。根据html格式要求,每个htmltag包含一个标签名称(tag名称)以及若个数量不确定的标签属性(tag属性)。提取htmltag信息的时候,假如htmltag只有tag名称没有tag属性的,则提取的html标签分词为tag名称。如果htmltag包含tag名称和n个tag属性的,则将tag名称和每个tag属性一一组合后,形成n个html标签分词。
三、对分词进行排序处理:
从邮件中提取出词语(包括中文分词、英文分词和html标签分词)后,使用TF-IDF算法对上述第二步的分词进行排序处理。排序后,获得正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表,每个分词列表中包含最能代表这个邮件类型的分词样本,并按照区分能力从高到低的顺序对分词进行排序,并按照分词在每个列表中的排序位置赋予一个重要性位置区间编号。该重要性位置区间编号表示分词样本在某类邮件样本中的重要性。例如“芙王”这个分词在垃圾邮件分词列表的位置是位于10%位置的,则赋予“芙王”的重要性位置区间编号为10;而“芙蓉”这个分词在垃圾邮件分词列表的位置是位于90%的,则赋予“芙蓉”的重要性位置区间编号为90。某一分词在垃圾邮件分词列表的排序位置越靠前,表示该分词在垃圾邮件分类中的重要性越大。
将正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中,供后续进行邮件过滤时使用。
四、支持向量机模型:
对于每一个邮件样本,获得邮件中的每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号后,对每个重要性位置区间编号上分布的词语的个数进行统计,如下:
构建一个四维数组,本实施例仅以4*10的四维数组为例进行说明。
四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数,分别为Array[3][10]、Array[3][20]、Array[3][30]、Array[13][40]、Array[3][50]、Array[3][60]、Array[3][70]、Array[3][80]、Array[3][90]、Array[3][100]。其中,Array[3][10]表示分布在正常邮件分词列表的重要性位置区间编号10上的分词个数,Array[3][20]表示分布在正常邮件分词列表的重要性位置区间编号20上的分词个数,以此类推。
四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数,分别为Array[2][10]、Array[2][20]、Array[2][30]、Array[13][40]、Array[2][50]、Array[2][60]、Array[2][70]、Array[2][80]、Array[2][90]、Array[2][100]。其中,Array[2][10]表示分布在垃圾邮件分词列表的重要性位置区间编号10上的分词个数,Array[2][20]表示分布在垃圾邮件分词列表的重要性位置区间编号20上的分词个数,以此类推。
四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数,分别为Array[1][10]、Array[1][20]、Array[1][30]、Array[13][40]、Array[1][50]、Array[1][60]、Array[1][70]、Array[1][80]、Array[1][90]、Array[1][100]。其中,Array[1][10]表示分布在广告邮件分词列表的重要性位置区间编号10上的分词个数,Array[1][20]表示分布在广告邮件分词列表的重要性位置区间编号20上的分词个数,以此类推。
四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词语个数,分别为Array[0][10]、Array[0][20]、Array[0][30]、Array[13][40]、Array[0][50]、Array[0][60]、Array[0][70]、Array[0][80]、Array[0][90]、Array[0][100]。其中,Array[0][10]表示分布在正常邮件分词列表的重要性位置区间编号10上的分词个数,Array[0][20]表示分布在正常邮件分词列表的重要性位置区间编号20上的分词个数,以此类推。
四维数组中的每一个数的初始值为0,在对每个分词列表中的每个重要性位置区间编号上分布的词语的个数进行统计时,邮件样本中的词语在某一重要性位置区间编号上出现,该重要性位置区间编号的词语个数就加1。例如,某一邮件样本中的分词“发票”,在正常邮件分词列表的出现重要性位置区间编号是30(代表在列表的29%-30%位置之间),则Array[0][30]将会加1。“发票”在垃圾邮件分词列表的出现重要性位置区间编号是0(代表在列表的0%-1%位置之间),则Array[1][0]将会加1。该邮件样本中“你好”在正常邮件分词列表的出现重要性位置区间编号是30,则Array[0][30]再加1,其余情况类推,从而统计出四维数组中的每一个数的值。
将上述四维数组按照先行后列的方式转换成一维数组,此一维数组即为文本的特征向量。具体的,转换方法为:(1)、把四维数组的第一行拷贝到一维数组;(2)、把四维数组的第二行的内容添加到上述步骤(1)的一维数组的后面;(3)、把四维数组的第三行的内容添加到上述步骤(2)的一维数组的后面;(4)、把四维数组的第四行的内容添加到上述步骤(3)的一维数组的后面,到此,一维数组包含四维数组的所有内容,且只有一维。
将上述特征向量输入支持向量机,输出支持向量机模型。其中,支持向量机为现有技术,在此不进行详细说明。
获得样本数据库和支持向量机模型后,对于一个未知邮件类型的待过滤的邮件,邮件过滤方法如下:
参见图1,是本发明实施例一提供的垃圾邮件过滤方法的流程示意图。
在本实施例一中,待过滤邮件中包含中文文本;垃圾邮件过滤方法包括以下步骤:
S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;
S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;
S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
其中,在步骤S11中,采用排列组合方式从所述中文文本中分离出词语的方法,具体包括:扫描所述中文文本中的每一个中文文字,以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来,组成文字组合,获得词语;其中,S为自然数。
上述步骤S12具体包括:
收集已知分类的邮件样本,所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本;
从所述邮件样本中提取分词样本,对每一个分词样本的区分邮件类型的能力进行判定,形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表;每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号,所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;
将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中;
从所述待过滤邮件的中文文本中分离出词语后,根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号,来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号。
上述步骤S13具体包括:
构建一个四维数组,四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词语个数;所述词语是从所述待过滤邮件的中文文本中分离出的词语;
按照先行后列的方式将所述四维数组转换成一维数组,获得所述中文文本的特征向量。
在一个可选的实施方式中,在步骤S14之后,还包括:
S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值,若是,则判定所述待过滤邮件为垃圾邮件,否则不是垃圾邮件。
参见图2,是本发明实施例二提供的垃圾邮件过滤方法的流程示意图。
在本实施例二中,待过滤邮件中包含中文文本和英文文本;其中,对中文文本的处理流程与上述步骤S11~S14相同,在此不予赘述。
如图2所示,对英文文本的处理流程包括以下步骤:
S21、从待过滤邮件中提取英文字符,组合成英文文本,且以标点符号和空格分隔每个分词,从所述英文文本中分离出词语;
S22、通过统计已知分类的邮件样本,获得所述英文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S23、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述英文文本的特征向量;
S24、将所述英文文本的特征向量输入支持向量机模型,获得所述英文文本分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
在步骤S24之后,根据S14和S24的结果,判断待过滤邮件是否为垃圾邮件,具体如下:
S25、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S26;
S26、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值;若是,则判定所述待过滤邮件为垃圾邮件;否则判定所述待过滤邮件不是垃圾邮件。
参见图3,是本发明实施例三提供的垃圾邮件过滤方法的流程示意图。
在本实施例三中,待过滤邮件中包含中文文本、英文文本和html文档;其中,对中文文本的处理流程与上述步骤S11~S14相同,对英文文本的处理流程与上述步骤S21~S24相同,在此不予赘述。
如图3所示,对html文档的处理流程包括以下步骤:
S31、从待过滤邮件中提取html文档,从所述html文档中提取html标签分词;
S32、通过统计已知分类的邮件样本,获得所述html文档的每一个html标签分词在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S33、统计每个重要性位置区间编号上分布的html标签分词的个数,并转换成一维数组,获得所述html文档的特征向量;
S34、将所述html文档的特征向量输入支持向量机模型,获得所述html文档分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
其中,步骤S31具体包括:从待过滤邮件中提取html文档,从所述html文档中提取html标签;若所述html标签包含标签名称,则将所述标签名称提取出来,形成html标签分词;若所述html标签包含标签名称和至少一个标签属性,则将所述标签名称提取出来,和每个标签属性一一组合后,形成html标签分词。
在步骤S34之后,根据S14、S24和S34的结果,判断待过滤邮件是否为垃圾邮件,具体如下:
S35、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S36;
S36、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S37;
S37、判断所述html文档为垃圾邮件的概率是否大于设定的第三阀值;若是,则判定所述待过滤邮件为垃圾邮件;否则判定所述待过滤邮件不是垃圾邮件。
本实施例从待过滤邮件中提取html文档,将所述html文档中的html标签提出来单独处理。由于当前大量的垃圾邮件使用html方式包装,并通过添加大量不可见或者不同大小的字体,来干扰文本分类的效果,本发明实施例将邮件中的html文档提取出来单独处理,能够提高分类器的准确性
本发明实施例提供的垃圾邮件过滤方法,从待过滤邮件中提取出中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语,不依赖于中文字典,而是通过排列组合穷举所有可能的分词形式,然后通过统计来确认哪些分词比较重要,不会丢弃次重要的特征分词,将分类结果分成垃圾邮件、正常邮件、广告邮件和订阅邮件四个类型,邮件分类准确。而且使用支持向量机作为特征向量的分类器,能够提高垃圾邮件的识别准确率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种垃圾邮件过滤方法,其特征在于,包括:
S11、从待过滤邮件中提取中文字符,组合成中文文本,并采用排列组合方式从所述中文文本中分离出词语;
S12、通过统计已知分类的邮件样本,获得所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;其中具体包括:
收集已知分类的邮件样本,所述邮件样本包括正常邮件样本、垃圾邮件样本、广告邮件样本和订阅邮件样本;
从所述邮件样本中提取分词样本,对每一个分词样本的区分邮件类型的能力进行排序,形成正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表和订阅邮件分词列表四个邮件类型的分词列表;每个邮件类型的分词列表记录了每个分词样本在本邮件类型中的重要性位置区间编号,所述重要性位置区间编号表示分词样本在某类邮件样本中的重要性;
将所述正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中的分词样本及其重要性位置区间编号记录到数据库中;
从所述待过滤邮件的中文文本中分离出词语后,根据数据库中记录的每个分词样本在不同邮件类型中的重要性位置区间编号,来确定所述中文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S13、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述中文文本的特征向量;
S14、将所述特征向量输入支持向量机模型,获得所述待过滤邮件分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
2.如权利要求1所述的垃圾邮件过滤方法,其特征在于,在步骤S11中,采用排列组合方式从所述中文文本中分离出词语的方法,具体包括:
扫描所述中文文本中的每一个中文文字,以S个中文字符为步长将每一个中文文字后面的文字逐个提取出来,组成文字组合,获得词语;其中,S为自然数。
3.如权利要求1所述的垃圾邮件过滤方法,其特征在于,步骤S13具体包括:
构建一个四维数组,四维数组的第一行记录所述正常邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第二行记录所述垃圾邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第三行记录所述广告邮件分词列表的每个重要性位置区间编号上所分布的词语个数;四维数组的第四行记录所述订阅邮件分词列表的每个重要性位置区间编号上所分布的词语个数;所述词语是从所述待过滤邮件的中文文本中分离出的词语;
按照先行后列的方式将所述四维数组转换成一维数组,获得所述中文文本的特征向量。
4.如权利要求3所述的垃圾邮件过滤方法,其特征在于,在步骤S14之后,还包括:
S15、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值,若是,则判定所述待过滤邮件为垃圾邮件,否则不是垃圾邮件。
5.如权利要求1~3任一项所述的垃圾邮件过滤方法,其特征在于,所述垃圾邮件过滤方法还包括:
S21、从待过滤邮件中提取英文字符,组合成英文文本,且以标点符号和空格分隔每个分词,从所述英文文本中分离出词语;
S22、通过统计已知分类的邮件样本,获得所述英文文本中每一个词语在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S23、统计每个重要性位置区间编号上分布的词语的个数,并转换成一维数组,获得所述英文文本的特征向量;
S24、将所述英文文本的特征向量输入支持向量机模型,获得所述英文文本分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
6.如权利要求5所述的垃圾邮件过滤方法,其特征在于,在步骤S24之后,还包括:
S25、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S26;
S26、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值;若是,则判定所述待过滤邮件为垃圾邮件;否则判定所述待过滤邮件不是垃圾邮件。
7.如权利要求5所述的垃圾邮件过滤方法,其特征在于,所述垃圾邮件过滤方法还包括:
S31、从待过滤邮件中提取html文档,从所述html文档中提取html标签分词;
S32、通过统计已知分类的邮件样本,获得所述html文档的每一个html标签分词在正常邮件分词列表、垃圾邮件分词列表、广告邮件分词列表、订阅邮件分词列表中所属的重要性位置区间编号;
S33、统计每个重要性位置区间编号上分布的html标签分词的个数,并转换成一维数组,获得所述html文档的特征向量;
S34、将所述html文档的特征向量输入支持向量机模型,获得所述html文档分别为正常邮件、垃圾邮件、广告邮件、订阅邮件的概率。
8.如权利要求7所述的垃圾邮件过滤方法,其特征在于,步骤S31具体包括:
从待过滤邮件中提取html文档,从所述html文档中提取html标签;
若所述html标签包含标签名称,则将所述标签名称提取出来,形成html标签分词;
若所述html标签包含标签名称和至少一个标签属性,则将所述标签名称提取出来,和每个标签属性一一组合后,形成html标签分词。
9.如权利要求8所述的垃圾邮件过滤方法,其特征在于,在步骤S34之后,还包括:
S35、判断所述中文文本为垃圾邮件的概率是否大于设定的第一阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S36;
S36、判断所述英文文本为垃圾邮件的概率是否大于设定的第二阀值;若是,则判定所述待过滤邮件为垃圾邮件;若否,则执行S37;
S37、判断所述html文档为垃圾邮件的概率是否大于设定的第三阀值;若是,则判定所述待过滤邮件为垃圾邮件;否则判定所述待过滤邮件不是垃圾邮件。
CN201110450352.3A 2011-12-29 2011-12-29 一种垃圾邮件过滤方法 Active CN103186845B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110450352.3A CN103186845B (zh) 2011-12-29 2011-12-29 一种垃圾邮件过滤方法
PCT/CN2012/071327 WO2013097327A1 (zh) 2011-12-29 2012-02-20 一种垃圾邮件过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110450352.3A CN103186845B (zh) 2011-12-29 2011-12-29 一种垃圾邮件过滤方法

Publications (2)

Publication Number Publication Date
CN103186845A CN103186845A (zh) 2013-07-03
CN103186845B true CN103186845B (zh) 2016-06-08

Family

ID=48678004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110450352.3A Active CN103186845B (zh) 2011-12-29 2011-12-29 一种垃圾邮件过滤方法

Country Status (2)

Country Link
CN (1) CN103186845B (zh)
WO (1) WO2013097327A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716335A (zh) * 2014-01-12 2014-04-09 绵阳师范学院 基于伪造发件人的垃圾邮件检测与过滤方法
CN103955449B (zh) * 2014-04-21 2018-03-06 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN104156447B (zh) * 2014-08-14 2016-08-24 天格科技(杭州)有限公司 一种智能社交平台广告预警及处理方法
CN107025239B (zh) * 2016-02-01 2019-12-27 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN106817297B (zh) * 2017-01-19 2019-11-26 华云数据(厦门)网络有限公司 一种通过html标签识别垃圾邮件的方法
CN108572961A (zh) * 2017-03-08 2018-09-25 北京嘀嘀无限科技发展有限公司 一种文本的向量化方法以及装置
CN110019773A (zh) * 2017-08-14 2019-07-16 中国移动通信有限公司研究院 一种垃圾短信检测方法、终端及计算机可读存储介质
CN107943941B (zh) * 2017-11-23 2021-10-15 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN110019763B (zh) * 2017-12-27 2022-04-12 北京京东尚科信息技术有限公司 文本过滤方法、系统、设备及计算机可读存储介质
CN108363694B (zh) * 2018-02-23 2021-08-24 北京窝头网络科技有限公司 关键词提取方法及装置
CN110149266B (zh) * 2018-07-19 2022-06-24 腾讯科技(北京)有限公司 垃圾邮件识别方法及装置
CN110929530B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN109828957A (zh) * 2019-01-28 2019-05-31 深圳市小满科技有限公司 信息显示方法、装置、电子设备及存储介质
CN110149318B (zh) * 2019-04-26 2022-07-05 奇安信科技集团股份有限公司 邮件元数据的处理方法及装置、存储介质、电子装置
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110610213A (zh) * 2019-09-20 2019-12-24 苏州大学 一种邮件分类方法、装置、设备及计算机可读存储介质
CN113630302B (zh) * 2020-05-09 2023-07-11 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN114629873A (zh) * 2020-12-11 2022-06-14 李天明 一种垃圾邮件过滤方法、装置、系统及存储介质
CN113724037A (zh) * 2021-08-02 2021-11-30 深圳依时货拉拉科技有限公司 非正常订单处理方法、装置、存储介质和计算机设备
CN115086182B (zh) * 2022-06-20 2024-06-11 深圳市恒扬数据股份有限公司 邮件识别模型的优化方法、装置、电子设备及存储介质
CN117474510A (zh) * 2023-12-25 2024-01-30 彩讯科技股份有限公司 一种基于特征选择的垃圾邮件过滤方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100556039C (zh) * 2006-01-13 2009-10-28 腾讯科技(深圳)有限公司 消除垃圾邮件误判的方法及系统
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN101594313A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Also Published As

Publication number Publication date
CN103186845A (zh) 2013-07-03
WO2013097327A1 (zh) 2013-07-04

Similar Documents

Publication Publication Date Title
CN103186845B (zh) 一种垃圾邮件过滤方法
CN102158428B (zh) 快速高准确率的垃圾邮件过滤方法
CN101794311B (zh) 基于模糊数据挖掘的中文网页自动分类方法
CN104239436B (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN101937445B (zh) 一种文件自动分类系统
CN100533441C (zh) 基于概率主题词的两级组合文本分类方法
CN101540017B (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN104657750B (zh) 一种用于人物关系抽取的方法和装置
Ning et al. Spam message classification based on the Naïve Bayes classification algorithm
CN101784022A (zh) 短信过滤、分类方法及系统
CN103441924A (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN106095928A (zh) 一种事件类型识别方法及装置
CN109165294A (zh) 一种基于贝叶斯分类的短文本分类方法
CN103136266A (zh) 邮件分类的方法及装置
CN103823890B (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN102404249B (zh) 一种基于协同训练的垃圾邮件过滤方法和装置
CN102208992A (zh) 面向互联网的不良信息过滤系统及其方法
CN100587714C (zh) 一种过滤垃圾邮件的方法
CN101516071A (zh) 垃圾短消息的分类方法
CN107562843A (zh) 一种基于标题高频切分的新闻热点短语提取方法
Temma et al. The document similarity index based on the Jaccard distance for mail filtering
CN101923561A (zh) 一种文件自动分类方法
CN103455823A (zh) 一种基于分类模糊及图像分割的英文字符识别方法
CN105323248B (zh) 一种基于规则的交互式中文垃圾邮件过滤方法
CN101719924B (zh) 基于群件理解的不良彩信过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180110

Address after: 510000 Guangdong city of Guangzhou province Panyu District Xiaoguwei Street Mingzhi University City Street No. 1 Building 5 building 503 room information hub

Patentee after: Critics of science and Technology (Guangzhou) Co. Ltd.

Address before: 100080 room 8003, cyber building, No. 19 South Haidian Road, Beijing, Haidian District

Patentee before: MaiMailtech (Beijing) Co., Ltd.

TR01 Transfer of patent right