CN101106539A - 基于支持向量机的垃圾邮件过滤方法 - Google Patents
基于支持向量机的垃圾邮件过滤方法 Download PDFInfo
- Publication number
- CN101106539A CN101106539A CNA2007100695937A CN200710069593A CN101106539A CN 101106539 A CN101106539 A CN 101106539A CN A2007100695937 A CNA2007100695937 A CN A2007100695937A CN 200710069593 A CN200710069593 A CN 200710069593A CN 101106539 A CN101106539 A CN 101106539A
- Authority
- CN
- China
- Prior art keywords
- mails
- text
- junk
- support vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 title claims abstract description 28
- 238000012706 support-vector machine Methods 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 206010000234 Abortion spontaneous Diseases 0.000 abstract 1
- 208000015994 miscarriage Diseases 0.000 abstract 1
- 208000000995 spontaneous abortion Diseases 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 206010035148 Plague Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:1)对邮件进行解析,提取标题、文本和字符集相关信息;2)对提取的文本信息内容进行分词;3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;4)利用LibSVM对邮件样本进行训练得到支持向量机模型;5)利用支持向量机模型对新的邮件进行分类,得到邮件是否为垃圾邮件的概率值;6)利用阈值调整来保证正常邮件被误判为垃圾邮件的比率维持在较低的水平,并最终判定邮件是否为垃圾邮件。本发明利用了支持向量机所具有的单模型分类准确率最高的优点,综合利用了文本特征和行为特征,提高了垃圾邮件过滤的准确率,同时,还有效解决了垃圾邮件过滤时所面临的误判代价不对等问题。
Description
技术领域
本发明涉及垃圾邮件过滤方法,尤其涉及一种基于支持向量机的垃圾邮件过滤方法。
背景技术
自从互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。然而,随之产生的垃圾邮件像瘟疫一样蔓延,污染网络环境,占用大量传输、存储和运算资源,影响了网络的正常运行。由于垃圾邮件数量多,具有反复性、强制性、欺骗性、不健康性及传播速度快等特点,严重干扰了人们正常生活,浪费用户的时间和精力,甚至造成很多额外的经济支出和信息安全隐患。因此,垃圾邮件过滤技术已成为互联网发展中的重要研究课题之一。
垃圾邮件的过滤可以基于IP地址、邮件的信头或邮件的内容,可以在用户、MUA、MDA、MTA、网关/路由器/防火墙等多个层次实施。从电子邮件的传输过程来说,垃圾邮件过滤技术可分为起始端(Originator)、外中继(External-Relay)和接收端(Receiver)垃圾邮件过滤技术,其中,接收端垃圾邮件过滤技术是当前的主流研究方向,目前绝大多数反垃圾邮件安全产品也是基于接收端工作的。具体地说,接收端垃圾邮件过滤技术主要有:(1)IP、域名、邮件地址的黑白名单;(2)实时黑白名单;(3)反向域名验证;(4)基于信头、信体、附件内容的关键词过滤;(5)基于贝叶斯(含各种改进的贝叶斯)的内容统计分析;(6)基于规则评分系统的过滤平台;(7)其它垃圾邮件过滤技术,如病毒扫描、受益人黑名单引擎等。
目前市场上已有许多商用垃圾邮件过滤系统,例如:(1)Bogofilter系统,它主要基于贝叶斯(Bayes)原理,自动分析邮件文本或标准输入文本,基于设定的正常或垃圾邮件信息判断邮件属性,并返回是否属于垃圾邮件的判定;通过对邮件的头和内容进行统计分析来分类,并通过用户的分类和纠正来学习;对附件名进行统计,但忽略附件内容。(2)DMC系统,它主要采用统计数据压缩技术,将邮件当作字节流,无需常规的特征提取步骤,可以提取字符或二进制流层次上的特征作为过滤标准,具有快速判别和动态更新的特点。该系统中的分类器本质上是基于字符的贝叶斯分类器。(3)SpamAssassin系统,它综合应用了文本分析、贝叶斯过滤、DNS黑名单和分布式协同过滤数据库等技术。
经专利查新统计,国内外有不少与垃圾邮件过滤相关的专利,例如,基于贝叶斯分类的中文垃圾邮件内容分类鉴别算法(200510135603.3)、用于阻止垃圾邮件的源/目的地的特征和列表(200410063953.9)、社会网络电子邮件过滤(200510070053.1)、垃圾电子邮件过滤方法和系统(200510087762.0)、增量反垃圾邮件查找与更新服务(200510082282.5)、外发垃圾邮件的阻止(200410063149.0)、在系统中为紧急或重要情况使用成批电子邮件过滤器用于分类消息(200410063950.5),等等。以上专利中所采用的垃圾邮件过滤技术,均未采用基于支持向量机的垃圾邮件过滤方法。
发明内容
本发明的目的是提供一种基于支持向量机的垃圾邮件过滤方法。
基于支持向量机的垃圾邮件过滤方法的步骤如下:
1)对邮件进行解析,提取标题、文本和字符集相关信息;
2)对提取的文本信息内容进行分词;
3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;
4)利用LibSVM对邮件样本进行训练得到支持向量机模型;
5)利用LibSVM和4)中得到的支持向量机模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值;
6)利用阈值调整降低正常邮件被误判为垃圾邮件的比率,并最终判定邮件是否为垃圾邮件。
所述的对邮件进行解析,提取标题、文本和字符集相关信息:利用RFC2822,RFC2045,RFC2046邮件标准和MIME格式标准,对邮件进行解码、解析的步骤,首先提取邮件的标题、正文、附件名称、图片名称等内容,若提取的内容已通过Base64和Quoted Printable编码方式进行过编码,则采用与其对应的解码方式进行解码。
所述的对提取的文本信息内容进行分词:对于解码后的邮件文本,使用分词系统对邮件文本进行分词,以得到经过分词的邮件文本。
所述的统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量:对于经过分词的邮件文本,首先统计其中每个词的词频和所有邮件中该词条出现的词频,对于得到的每篇文本中每个词的词频和所有邮件中出现的词频,使用TF-IDF公式把邮件文本映射成邮件文本向量,在映射成向量的时候,将标题和文本词频的权重调整为3∶1,同时,加入行为特征“RE:”和“TEL:”,与文本特征混合使用。
所述的利用LibSVM对邮件样本进行训练得到支持向量机模型:对于邮件文本向量,利用LibSVM工具包中的训练程序对所有的训练样本进行训练,得到一个支持向量机模型。
所述的利用LibSVM和得到的支持向量机模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值:对于待判定邮件,重复步骤1)~3),然后把得到的邮件向量用LibSVM工具包中的预测程序和步骤4)中得到的支持向量机模型进行分类,利用支持向量回归的方法得到邮件是否为垃圾邮件的概率值。
所述的利用阈值调整降低正常邮件被误判为垃圾邮件的比率,并最终判定邮件是否为垃圾邮件:对于步骤5)中得到的垃圾邮件概率值a,设定一个阈值b,只有当a/(1-a)>b时才认定邮件是垃圾邮件。
本发明具有的有益效果:
1)提出一种基于SVM增量算法的垃圾邮件过滤方法,充分利用SVM单模型分类准确率最高的优点,大幅度提高垃圾邮件过滤的准确率;
2)提出一种基于代价敏感的垃圾邮件过滤方法,可有效解决垃圾邮件过滤时所面临的误判代价不对等问题;
3)提出一种在将邮件映射成向量时调整标题和正文内容权重的方法,且增加了标题内容的权重值,有效提高了分类准确率;
4)提出一种在将邮件映射成向量时加入邮件行为特征的方法,即加入了在邮件通信中较重要的行为特征“RE:”和“TEL:”,综合利用了文本特征和行为特征,有效提高了分类准确率。
附图说明
图1是基于支持向量机的垃圾邮件过滤方法的流程图;
图2是数据预处理的流程图;
图3是SVM分类器的训练流程图;
图4是SVM分类器的分类流程图。
具体实施方式
本发明的主要原理如下:
1)在邮件的预处理阶段,即特征层面,采用常规的解码、分词、特征选择等方法,经过预处理的邮件将包含标题内容和正文文本内容,同时还将每封邮件是否包含附件、图片、音频、视频等信息抽取出来。
2)在模型层面,利用SVM进行训练和分类。通过训练得到一个SVM模型,找到分类超平面,即垃圾邮件和正常邮件之间的分类超平面。
3)针对代价不对等问题,即正常邮件被误判为垃圾邮件的代价远大于垃圾邮件被误判为正常邮件的代价,采用阈值设定的方法,即只有当垃圾邮件的概率相比于正常邮件的概率达到一定的阈值时,才判定该邮件为垃圾邮件,以避免当垃圾邮件概率和正常邮件概率接近时产生误判。
4)在实际的邮件通信过程中,如果邮件带有行为特征“RE:”,那么该邮件为正常邮件的概率会比较大,而如果邮件中带有“TEL:”则邮件是广告邮件的概率较大,故在邮件向量中增加了行为特征向量,以提高邮件分类的效率。
5)不仅邮件正文包含了有用信息,而且邮件标题也包含了非常重要的信息,在很多情况下,邮件标题中的信息甚至比正文信息更重要,所以对邮件标题和正文中都设定权值,且增加标题中所含信息的权重,从而提高了分类准确率。
基于支持向量机的垃圾邮件过滤方法的步骤如下:
1)邮件预处理。主要包括以下5个步骤:邮件解码、解析文本内容为html的邮件、字符集转换、提取文本内容、繁简体中文转换。
a)邮件解码就是根据邮件编码方式进行解码,为了便于网络传输等原因,邮件在发送之前需要先进行编码,常见的编码方式有Base64,Quoted Printable等,邮件解码就是根据编码方式对邮件进行相应的解码,得到邮件的明文内容。首先根据邮件的格式信息,得到每封邮件每个文本部分的编码方式,然后对于文本部分使用相应的编码方式进行解码,目前的主流编程语言诸如Java、C#等均已经提供了相应的解码函数,只需要调用这些函数就可以获得明文内容。
b)解析文本内容为html格式的邮件的理由是,通常邮件发送时可选择以html方式或纯文本方式发送,对于以html格式发送的邮件,解码后的文本中含有许多html标记、脚本内容及CSS样式的代码,若不去除,将形成无用的向量,且对后续的分类将造成影响,所以,需要去除html标记、脚本代码和CSS样式的代码,并提取html格式邮件中的真正文本内容。
解析html格式的邮件时,只需顺序遍历html的正文内容,用正则表达式之类的方法去匹配html标记,同时用栈这样的数据结构来记录html标记来提取标记之间的文本内容,同时剔除掉脚本代码和CSS样式代码。
c)进行字符集转换就是把以其它方式编码的内容转换成GB2312编码,这样在后续操作时,无需选取不同的编码方式来读取邮件。
d)提取文本内容就是提取邮件的标题和正文,并提取邮件是否包含附件、图片、视频、音频等信息。
e)进行繁简体中文转换的目的是为了后续的分词步骤,使得现有的分词系统也能够对繁体的邮件内容进行分词。
详细的邮件预处理流程如图2所示。
2)对邮件进行分词。分词是针对中文等东亚语言的特有步骤,就是把连续字符分成一个个单独的有意义的词汇,然后将词汇作为邮件的特征。可采用已有的开源分词系统,目前国内主要的分词系统有:中科院ICTCLAS分词程序、哈工大分词程序、北大天网分词程序。
以北大天网分词程序为例,将程序的源代码下载之后进行编译得到可执行程序,把需要进行分词的文件作为输入给程序就可以得到经过分词的文件。
3)将邮件映射成向量。首先,统计邮件数据集中所有的词汇及其出现的频率;然后,以此为基础建立一个词汇索引表;同时,把行为特征“RE:”和“TEL:”也放入词汇索引表中。
a)建立词汇索引表之后,分别扫描每封邮件,并统计每封邮件中包含的词频,然后,将每封邮件映射成一个文本向量,其计算方法可采用如下的TF-IDF公式:
其中,tfij是词i在邮件j中的词频,|D|是训练数据集中的邮件数量,DFi是含有词i的邮件数量。
b)为了获得更好的分类效果,还需调整标题与正文的权重。实验结果表明,当标题与正文的权重比值为3∶1时,可获得最好的分类效果,故在利用TF-IDF公式进行计算时,应将标题中的词汇词频提高至原有的3倍。
4)步骤3)已将训练数据集映射到向量空间模型,本发明不采取任何降维措施,因为实践表明降维会降低分类的准确率。对于已映射为向量的邮件,只需利用LibSVM工具包中的svm-train子程序即可由现有的训练数据集获得一个SVM分类器模型。SVM分类器的训练流程如图3所示。
5)对新的待判定邮件,首先,重复步骤1)~3),把需要分类的邮件映射成文本向量;然后,利用LibSVM工具包中的svm-predict,把新的邮件向量和步骤4)中获得的分类器模型作为参数输入,并选择支持向量回归(SVR)选项进行预测,即可获得该邮件是否为垃圾邮件的概率值。SVM分类器的分类流程如图4所示。
6)经过步骤5)之后,得到了一个邮件是否为垃圾邮件的概率值,但是在邮件判定中存在着代价不对等的问题,即正常邮件被误判的代价远大于垃圾邮件被误判的代价。针对该问题,利用设定一个阈值的方法来控制正常邮件的误判率,即对垃圾邮件概率值a,设定一个阈值b,只有当a/(1-a)>b时才认定邮件是垃圾邮件,也就是说,只有当邮件为垃圾邮件的概率值远大于为正常邮件的概率值时,才判定为垃圾邮件。
Claims (7)
1.一种基于支持向量机的垃圾邮件过滤方法,其步骤如下:
1)对邮件进行解析,提取标题、文本和字符集相关信息;
2)对提取的文本信息内容进行分词;
3)统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量;
4)利用LibSVM对邮件样本进行训练得到支持向量机模型;
5)利用LibSVM和4)中得到的支持向量机模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值;
6)利用阈值调整降低正常邮件被误判为垃圾邮件的比率,并最终判定邮件是否为垃圾邮件。
2.根据权利要求1所述的一种基于支持向量机的垃圾邮件过滤方法,其特征在于所述的对邮件进行解析,提取标题、文本和字符集相关信息:利用RFC2822,RFC2045,RFC2046邮件标准和MIME格式标准,对邮件进行解码、解析的步骤,首先提取邮件的标题、正文、附件名称、图片名称等内容,若提取的内容已通过Base64和Quoted Printable编码方式进行过编码,则采用与其对应的解码方式进行解码。
3.根据权利要求1所述的一种基于支持向量机的垃圾邮件过滤方法,其特征在于所述的对提取的文本信息内容进行分词:对于解码后的邮件文本,使用分词系统对邮件文本进行分词,以得到经过分词的邮件文本。
4.根据权利要求1所述的一种基于支持向量机的垃圾邮件过滤方法,其特征在于所述的统计邮件中的词频,利用TF-IDF公式将邮件文本映射成向量:对于经过分词的邮件文本,首先统计其中每个词的词频和所有邮件中该词条出现的词频,对于得到的每篇文本中每个词的词频和所有邮件中出现的词频,使用TF-IDF公式把邮件文本映射成邮件文本向量,在映射成向量的时候,将标题和文本词频的权重调整为3∶1,同时,加入行为特征“RE:”和“TEL:”,与文本特征混合使用。
5.根据权利要求1所述的一种基于支持向量机的垃圾邮件过滤方法,其特征在于所述的利用LibSVM对邮件样本进行训练得到支持向量机模型:对于邮件文本向量,利用LibSVM工具包中的训练程序对所有的训练样本进行训练,得到一个支持向量机模型。
6.根据权利要求1所述的一种基于支持向量机的垃圾邮件过滤方法,其特征在于利用LibSVM和得到的支持向量机模型对邮件进行分类,得到邮件是否为垃圾邮件的概率值:对于待判定邮件,重复步骤1)~3),然后把得到的邮件向量用LibSVM工具包中的预测程序和步骤4)中得到的支持向量机模型进行分类,利用支持向量回归的方法得到邮件是否为垃圾邮件的概率值。
7.根据权利要求1所述的一种基于支持向量机的垃圾邮件过滤方法,其特征在于利用阈值调整降低正常邮件被误判为垃圾邮件的比率,并最终判定邮件是否为垃圾邮件:对于步骤5)中得到的垃圾邮件概率值a,设定一个阈值b,只有当a/(1-a)>b时才认定邮件是垃圾邮件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100695937A CN101106539A (zh) | 2007-08-03 | 2007-08-03 | 基于支持向量机的垃圾邮件过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007100695937A CN101106539A (zh) | 2007-08-03 | 2007-08-03 | 基于支持向量机的垃圾邮件过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101106539A true CN101106539A (zh) | 2008-01-16 |
Family
ID=39000220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007100695937A Pending CN101106539A (zh) | 2007-08-03 | 2007-08-03 | 基于支持向量机的垃圾邮件过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101106539A (zh) |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010037292A1 (zh) * | 2008-09-27 | 2010-04-08 | 腾讯科技(深圳)有限公司 | 一种确定可疑垃圾邮件范围的方法和系统 |
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN101908055A (zh) * | 2010-03-05 | 2010-12-08 | 黑龙江工程学院 | 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统 |
CN101583147B (zh) * | 2009-06-17 | 2011-01-05 | 哈尔滨工业大学 | 一种应用于话务量预测的分段在线支持向量回归方法 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN102129568A (zh) * | 2011-04-29 | 2011-07-20 | 南京邮电大学 | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 |
CN101295381B (zh) * | 2008-06-25 | 2011-09-28 | 北京大学 | 一种垃圾邮件检测方法 |
CN102255922A (zh) * | 2011-08-24 | 2011-11-23 | 山东师范大学 | 一种多层次的垃圾邮件智能过滤方法 |
CN101794378B (zh) * | 2010-01-26 | 2012-02-29 | 浙江大学 | 基于图片编码的垃圾图片过滤方法 |
CN102035753B (zh) * | 2009-10-02 | 2012-07-11 | 青岛理工大学 | 一种基于过滤器动态集成的垃圾邮件过滤方法 |
CN102710616A (zh) * | 2012-05-18 | 2012-10-03 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN102984176A (zh) * | 2012-12-24 | 2013-03-20 | 重庆大学 | 一种垃圾邮件的识别方法及系统 |
CN103001848A (zh) * | 2011-09-08 | 2013-03-27 | 中国电信股份有限公司 | 垃圾邮件过滤方法及装置 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN103186845A (zh) * | 2011-12-29 | 2013-07-03 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN103309851A (zh) * | 2013-05-10 | 2013-09-18 | 微梦创科网络科技(中国)有限公司 | 短文本的垃圾识别方法及系统 |
CN103490974A (zh) * | 2012-06-14 | 2014-01-01 | 中国移动通信集团广西有限公司 | 一种垃圾邮件检测方法及装置 |
CN103778235A (zh) * | 2014-01-26 | 2014-05-07 | 北京京东尚科信息技术有限公司 | 一种处理商品评价信息的方法和装置 |
CN103853744A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种面向用户生成内容的欺骗性垃圾意见检测方法 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN104090961A (zh) * | 2014-07-14 | 2014-10-08 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN101699432B (zh) * | 2009-11-13 | 2015-01-21 | 黑龙江工程学院 | 基于排序策略的信息过滤系统 |
WO2015032120A1 (zh) * | 2013-09-03 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
WO2015032124A1 (zh) * | 2013-09-04 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种电子邮件分类方法及其装置 |
CN104463552A (zh) * | 2013-09-22 | 2015-03-25 | 中国电信股份有限公司 | 日历提醒生成方法和装置 |
CN104866573A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种文本分类的方法 |
WO2016130029A1 (en) * | 2015-02-10 | 2016-08-18 | Nord-Systems Sp. Z O.O. | Method of classifying data with access and integrity control |
CN106096005A (zh) * | 2016-06-23 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于深度学习的垃圾邮件过滤方法及系统 |
CN106850415A (zh) * | 2017-03-17 | 2017-06-13 | 盐城工学院 | 邮件分类方法及装置 |
CN107688609A (zh) * | 2017-07-31 | 2018-02-13 | 北京拉勾科技有限公司 | 一种职位标签推荐方法和计算设备 |
CN103744905B (zh) * | 2013-12-25 | 2018-03-30 | 新浪网技术(中国)有限公司 | 垃圾邮件判定方法和装置 |
CN107911277A (zh) * | 2017-09-29 | 2018-04-13 | 北京明朝万达科技股份有限公司 | 一种基于机器学习的外发邮件审计方法及系统 |
CN109831373A (zh) * | 2019-03-01 | 2019-05-31 | 论客科技(广州)有限公司 | 基于FastText算法的邮件系统高精度智能防误判方法及装置 |
CN109889436A (zh) * | 2019-02-20 | 2019-06-14 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
CN110019763A (zh) * | 2017-12-27 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 文本过滤方法、系统、设备及计算机可读存储介质 |
CN110048936A (zh) * | 2019-04-18 | 2019-07-23 | 合肥天毅网络传媒有限公司 | 一种语义关联词判断垃圾邮件的方法 |
US10762155B2 (en) | 2018-10-23 | 2020-09-01 | International Business Machines Corporation | System and method for filtering excerpt webpages |
CN111753086A (zh) * | 2020-06-11 | 2020-10-09 | 北京天空卫士网络安全技术有限公司 | 一种垃圾邮件识别方法和装置 |
CN111782811A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 |
CN112189190A (zh) * | 2018-05-22 | 2021-01-05 | 三菱电机株式会社 | 不正当邮件判定装置、不正当邮件判定方法以及不正当邮件判定程序 |
CN112990852A (zh) * | 2021-02-23 | 2021-06-18 | 杭州安恒信息技术股份有限公司 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
CN113724037A (zh) * | 2021-08-02 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 非正常订单处理方法、装置、存储介质和计算机设备 |
CN114629870A (zh) * | 2020-12-11 | 2022-06-14 | 李天明 | 一种垃圾邮件过滤方法、装置、系统及存储介质 |
CN116308237A (zh) * | 2023-05-25 | 2023-06-23 | 湖南九立供应链有限公司 | 一种erp邮件处理方法及其相关设备 |
-
2007
- 2007-08-03 CN CNA2007100695937A patent/CN101106539A/zh active Pending
Cited By (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101295381B (zh) * | 2008-06-25 | 2011-09-28 | 北京大学 | 一种垃圾邮件检测方法 |
WO2010037292A1 (zh) * | 2008-09-27 | 2010-04-08 | 腾讯科技(深圳)有限公司 | 一种确定可疑垃圾邮件范围的方法和系统 |
CN101360074B (zh) * | 2008-09-27 | 2011-09-21 | 腾讯科技(深圳)有限公司 | 一种确定可疑垃圾邮件范围的方法和系统 |
CN101583147B (zh) * | 2009-06-17 | 2011-01-05 | 哈尔滨工业大学 | 一种应用于话务量预测的分段在线支持向量回归方法 |
CN102035753B (zh) * | 2009-10-02 | 2012-07-11 | 青岛理工大学 | 一种基于过滤器动态集成的垃圾邮件过滤方法 |
CN101699432B (zh) * | 2009-11-13 | 2015-01-21 | 黑龙江工程学院 | 基于排序策略的信息过滤系统 |
CN101794378B (zh) * | 2010-01-26 | 2012-02-29 | 浙江大学 | 基于图片编码的垃圾图片过滤方法 |
CN101908055A (zh) * | 2010-03-05 | 2010-12-08 | 黑龙江工程学院 | 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统 |
CN101908055B (zh) * | 2010-03-05 | 2013-02-13 | 黑龙江工程学院 | 一种信息过滤系统 |
CN101902523A (zh) * | 2010-07-09 | 2010-12-01 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN101902523B (zh) * | 2010-07-09 | 2014-07-16 | 中兴通讯股份有限公司 | 一种移动终端及其短信的过滤方法 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN102129568B (zh) * | 2011-04-29 | 2012-09-05 | 南京邮电大学 | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 |
CN102129568A (zh) * | 2011-04-29 | 2011-07-20 | 南京邮电大学 | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 |
CN102255922A (zh) * | 2011-08-24 | 2011-11-23 | 山东师范大学 | 一种多层次的垃圾邮件智能过滤方法 |
CN103001848A (zh) * | 2011-09-08 | 2013-03-27 | 中国电信股份有限公司 | 垃圾邮件过滤方法及装置 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
WO2013097327A1 (zh) * | 2011-12-29 | 2013-07-04 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN103186845B (zh) * | 2011-12-29 | 2016-06-08 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN103186845A (zh) * | 2011-12-29 | 2013-07-03 | 盈世信息科技(北京)有限公司 | 一种垃圾邮件过滤方法 |
CN102710616B (zh) * | 2012-05-18 | 2015-04-22 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN102710616A (zh) * | 2012-05-18 | 2012-10-03 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN103490974A (zh) * | 2012-06-14 | 2014-01-01 | 中国移动通信集团广西有限公司 | 一种垃圾邮件检测方法及装置 |
CN103853744B (zh) * | 2012-11-29 | 2017-02-22 | 中国科学院计算机网络信息中心 | 一种面向用户生成内容的欺骗性垃圾意见检测方法 |
CN103853744A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算机网络信息中心 | 一种面向用户生成内容的欺骗性垃圾意见检测方法 |
CN102984176B (zh) * | 2012-12-24 | 2016-07-27 | 重庆大学 | 一种垃圾邮件的识别方法及系统 |
CN102984176A (zh) * | 2012-12-24 | 2013-03-20 | 重庆大学 | 一种垃圾邮件的识别方法及系统 |
CN103309851B (zh) * | 2013-05-10 | 2016-01-27 | 微梦创科网络科技(中国)有限公司 | 短文本的垃圾识别方法及系统 |
CN103309851A (zh) * | 2013-05-10 | 2013-09-18 | 微梦创科网络科技(中国)有限公司 | 短文本的垃圾识别方法及系统 |
WO2015032120A1 (zh) * | 2013-09-03 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种基于短文本的垃圾邮件过滤方法及装置 |
WO2015032124A1 (zh) * | 2013-09-04 | 2015-03-12 | 盈世信息科技(北京)有限公司 | 一种电子邮件分类方法及其装置 |
CN104463552A (zh) * | 2013-09-22 | 2015-03-25 | 中国电信股份有限公司 | 日历提醒生成方法和装置 |
CN104463552B (zh) * | 2013-09-22 | 2018-10-02 | 中国电信股份有限公司 | 日历提醒生成方法和装置 |
CN103744905B (zh) * | 2013-12-25 | 2018-03-30 | 新浪网技术(中国)有限公司 | 垃圾邮件判定方法和装置 |
CN103778235A (zh) * | 2014-01-26 | 2014-05-07 | 北京京东尚科信息技术有限公司 | 一种处理商品评价信息的方法和装置 |
CN103902673A (zh) * | 2014-03-19 | 2014-07-02 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN103902673B (zh) * | 2014-03-19 | 2017-11-24 | 新浪网技术(中国)有限公司 | 反垃圾过滤规则升级方法和装置 |
CN104090961A (zh) * | 2014-07-14 | 2014-10-08 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN104090961B (zh) * | 2014-07-14 | 2017-07-04 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
WO2016130029A1 (en) * | 2015-02-10 | 2016-08-18 | Nord-Systems Sp. Z O.O. | Method of classifying data with access and integrity control |
CN104866573B (zh) * | 2015-05-22 | 2018-02-13 | 齐鲁工业大学 | 一种文本分类的方法 |
CN104866573A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种文本分类的方法 |
CN106096005A (zh) * | 2016-06-23 | 2016-11-09 | 康佳集团股份有限公司 | 一种基于深度学习的垃圾邮件过滤方法及系统 |
CN106850415B (zh) * | 2017-03-17 | 2021-01-05 | 盐城工学院 | 邮件分类方法及装置 |
CN106850415A (zh) * | 2017-03-17 | 2017-06-13 | 盐城工学院 | 邮件分类方法及装置 |
CN107688609A (zh) * | 2017-07-31 | 2018-02-13 | 北京拉勾科技有限公司 | 一种职位标签推荐方法和计算设备 |
CN107911277A (zh) * | 2017-09-29 | 2018-04-13 | 北京明朝万达科技股份有限公司 | 一种基于机器学习的外发邮件审计方法及系统 |
CN110019763B (zh) * | 2017-12-27 | 2022-04-12 | 北京京东尚科信息技术有限公司 | 文本过滤方法、系统、设备及计算机可读存储介质 |
CN110019763A (zh) * | 2017-12-27 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 文本过滤方法、系统、设备及计算机可读存储介质 |
CN112189190A (zh) * | 2018-05-22 | 2021-01-05 | 三菱电机株式会社 | 不正当邮件判定装置、不正当邮件判定方法以及不正当邮件判定程序 |
US10762155B2 (en) | 2018-10-23 | 2020-09-01 | International Business Machines Corporation | System and method for filtering excerpt webpages |
CN109889436B (zh) * | 2019-02-20 | 2020-10-13 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
CN109889436A (zh) * | 2019-02-20 | 2019-06-14 | 北京航空航天大学 | 一种社交网络中垃圾邮件发送者的发现方法 |
CN109831373A (zh) * | 2019-03-01 | 2019-05-31 | 论客科技(广州)有限公司 | 基于FastText算法的邮件系统高精度智能防误判方法及装置 |
CN110048936B (zh) * | 2019-04-18 | 2021-09-10 | 宁波青年优品信息科技有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN110048936A (zh) * | 2019-04-18 | 2019-07-23 | 合肥天毅网络传媒有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN111753086A (zh) * | 2020-06-11 | 2020-10-09 | 北京天空卫士网络安全技术有限公司 | 一种垃圾邮件识别方法和装置 |
CN111782811A (zh) * | 2020-07-03 | 2020-10-16 | 湖南大学 | 一种基于卷积神经网络和支持向量机的电子政务敏感文本检测方法 |
CN114629870A (zh) * | 2020-12-11 | 2022-06-14 | 李天明 | 一种垃圾邮件过滤方法、装置、系统及存储介质 |
CN112990852A (zh) * | 2021-02-23 | 2021-06-18 | 杭州安恒信息技术股份有限公司 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
CN112990852B (zh) * | 2021-02-23 | 2024-03-29 | 杭州安恒信息技术股份有限公司 | 垃圾邮件过滤方法、装置、电子装置和存储介质 |
CN113724037A (zh) * | 2021-08-02 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 非正常订单处理方法、装置、存储介质和计算机设备 |
CN116308237A (zh) * | 2023-05-25 | 2023-06-23 | 湖南九立供应链有限公司 | 一种erp邮件处理方法及其相关设备 |
CN116308237B (zh) * | 2023-05-25 | 2023-08-25 | 湖南九立供应链有限公司 | 一种erp邮件处理方法及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101106539A (zh) | 基于支持向量机的垃圾邮件过滤方法 | |
CN109510815B (zh) | 一种基于有监督学习的多级钓鱼网站检测方法及检测系统 | |
US7930353B2 (en) | Trees of classifiers for detecting email spam | |
KR101045452B1 (ko) | 개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체 | |
US8180837B2 (en) | Image spam filtering based on senders' intention analysis | |
US7660865B2 (en) | Spam filtering with probabilistic secure hashes | |
CA2467869C (en) | Origination/destination features and lists for spam prevention | |
CN101227435A (zh) | 基于Logistic回归的中文垃圾邮件过滤方法 | |
CN107294834A (zh) | 一种识别垃圾邮件的方法和装置 | |
US20050050150A1 (en) | Filter, system and method for filtering an electronic mail message | |
CN111198995A (zh) | 一种恶意网页识别方法 | |
CN106649338B (zh) | 信息过滤策略生成方法及装置 | |
CN106341303A (zh) | 基于邮件用户行为的发件人信誉生成方法 | |
CN101540741A (zh) | 一种基于阈值的图像垃圾邮件过滤方法 | |
CN106230690B (zh) | 一种结合用户属性的邮件分类方法及系统 | |
US8291021B2 (en) | Graphical spam detection and filtering | |
WO2017094202A1 (ja) | 画像処理を応用した文書構造解析装置 | |
Ye et al. | A spam discrimination based on mail header feature and SVM | |
He et al. | A simple method for filtering image spam | |
Gomes et al. | Improving Spam Detection Based on Structural Similarity. | |
Li et al. | E-mail filtering based on analysis of structural features and text classification | |
CN112700081A (zh) | 一种基于熵值法的标签翻转攻击方法 | |
CN1976323A (zh) | 一种基于兴趣认知的垃圾邮件识别方法及其系统 | |
CN106713108B (zh) | 一种结合用户关系与贝叶斯理论的邮件分类方法 | |
Takesue | Cascaded simple filters for accurate and lightweight email-spam detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080116 |