CN102404249A - 一种基于协同训练的垃圾邮件过滤方法和装置 - Google Patents
一种基于协同训练的垃圾邮件过滤方法和装置 Download PDFInfo
- Publication number
- CN102404249A CN102404249A CN2011103696976A CN201110369697A CN102404249A CN 102404249 A CN102404249 A CN 102404249A CN 2011103696976 A CN2011103696976 A CN 2011103696976A CN 201110369697 A CN201110369697 A CN 201110369697A CN 102404249 A CN102404249 A CN 102404249A
- Authority
- CN
- China
- Prior art keywords
- sample
- mark
- visual angle
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 title claims abstract description 57
- 238000001914 filtration Methods 0.000 title claims abstract description 53
- 230000000007 visual effect Effects 0.000 claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 85
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 13
- 239000003550 marker Substances 0.000 claims description 10
- 230000008676 import Effects 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012546 transfer Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法和装置,方法包括:输入待过滤的邮件集合;根据邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,第一特征向量子集中的特征来源于邮件头信息,第二特征向量子集中的特征来源于邮件内容信息;将第一特征向量子集和第二特征向量子集分别作为每个样本的第一视角和第二视角;利用第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;根据第一分类器和第二分类器对垃圾邮件进行分类过滤。本发明实施例可以在样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。
Description
技术领域
本发明涉及垃圾邮件过滤领域,尤其是涉及一种基于协同训练的垃圾邮件过滤方法和装置。
背景技术
目前,垃圾邮件的泛滥已经成为社会的一个公害,中国互联网协会反垃圾邮件中心与12321举报中心联合发布的第二十次《中国反垃圾邮件状况调查报告》显示,2011年第一季度,中国网民每周平均收到垃圾邮件12.5封,垃圾邮件数量占总体邮件数量比例为38.3%。
反垃圾邮件技术中目前效果最好的是基于内容的垃圾邮件过滤技术。基于内容的垃圾邮件过滤技术包括两类:基于规则的方法和基于统计的方法。其中,基于规则的方法可以通过人工设置垃圾邮件关键词(关键词过滤)、元信息(如发件人、发件地址、IP地址等)等手段来达到过滤垃圾邮件的目的。目前,市场上的很多反垃圾邮件工具都使用了该基于规则的技术。然而,设置关键词过滤或者添加黑名单只能部分解决垃圾邮件的问题,并且武断的设置会造成大量正常邮件的丢失。对于基于统计的方法来说,从内容上看,垃圾邮件过滤可以看成一个二值分类问题,把邮件分为垃圾邮件类和合法邮件类。因此,各种文本分类方法都可以用于垃圾邮件的过滤,比如贝叶斯方法(Bayes)、支持向量机方法(Support Vector Machine,SVM)、粗糙集方法(Roughset)等。
但是,上述基于内容的的过滤方法仍然存在着如下缺陷:
1、训练数据严重缺乏,以网易邮箱为例,每日拦截的垃圾邮件就有上百万封,而愿意举报(进行标注)的还不到十万封,而现在通常所用的机器学习方法,普遍是有监督的方法,如朴素贝叶斯方法,这些都需要事先有尽可能大的数据集为支撑,这些方法利用这些数据集,对垃圾邮件建立模型用于预测,一个新的邮件到来时,就可以根据这样训练出来的模型进行判断。但是,一般情况下,很难有足够多的标注数据以供这样的算法来进行建模,并且当数据量很大时,时间的开销也是相当地大。
2、目前的反垃圾邮件技术普遍只考虑了垃圾邮件的内容信息,而忽略了一个垃圾邮件的邮件头信息。邮件头当中蕴含了极其丰富的邮件特征,邮件头比起邮件体中垃圾信息的特征容易进行伪装,并且邮件头里的垃圾信息特征则相对稳定。
因此,现有的反垃圾邮件技术还有待改进。
发明内容
本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法和装置,用于在标注样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。
一方面,本发明实施例提供了一种基于协同训练的垃圾邮件过滤方法,该方法包括:输入待过滤的邮件集合,所述邮件集合包括已标注邮件和未标注邮件;根据所述邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息;将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角;利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。
优选地,本发明实施例中根据所述邮件集合得到每个样本的特征向量包括:利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征;根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征;根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。
优选地,本发明实施例中根据每个样本的邮件头信息得到基于邮件头的若干特征包括:对邮件头中各个字段进行特征信息提取;根据提取的特征信息得到时区、时间、IP地址的特征,以及IP地址与计算机名及域名的匹配特征,以及发件人地址格式特征。
优选地,本发明实施例中利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器包括如下步骤:
步骤1、从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U;
步骤2、从所述未标注邮件样本集合U中随机挑出n个未标注的样本,构成待标注样本集合Vi,余下的z-n个未标注邮件样本构成候选样本集合Hi,并将所有的已标注的样本组成已标注样本集合Li,其中,i表示迭代的次数,初始化为i=1;
步骤3、利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i;
步骤4、利用分类器h1i对待标注的样本集合Vi中待标注样本的第一视角进行标注,得到所有的待标注样本的类别标记及其隶属于此类别的置信度,并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记,将该类置信度最大的类别标记连同其相对的m个待标注样本,加入到有标注样本集合Li中,得到更新的已标注的样本集合Li′,并将上述m个待标注的样本从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;
步骤5、利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i;
步骤6、利用利用贝叶斯分类器h2i对更新的待标注邮件样本集合Vi′中待标注样本的第二视角进行标注,得到所有的待标记样本的类别标记及其隶属于此类别的置信度,从该类别标记中选出m个隶属于每一个类别置信度最大的标记,将该每一个类置信度最大的类别标记连同其对应的m个待标注样本,加入到上述更新的已标记样本集合Li′中,得到已标记样本集合Li+1,并将上述m个待标注的样本从更新的待标注样本集合Vi′中删除,得到二次更新的待标注样本集合Vi″;
步骤7、从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;
步骤8、更新变量,i=i+1;
步骤9、判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则返回步骤3。
优选地,本发明实施例中根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤包括:利用最终的分类模型h1k和h2k,对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注,得到其类别标记及其隶属于此类的置信度,并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。
另一方面,本发明实施例还提供了一种基于协同训练的垃圾邮件过滤装置,其特征在于,该装置包括:输入单元,用于输入待过滤的邮件集合,所述邮件集合包括已标注邮件和未标注邮件;特征向量获取单元,用于根据所述邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;子向量获取单元,用于将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息;视角获取单元,用于将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角;分类器获取单元,用于利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;分类过滤单元,用于根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。
优选地,本发明实施例中特征向量获取单元包括:第一特征获取模块,用于利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征;第二特征获取模块,用于根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征;向量化模块,用于根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。
优选地,本发明实施例中第二特征模块包括:提取子模块,用于对邮件头中各个字段进行特征信息提取;特征获取子模块,用于根据提取的特征信息得到时区、时间、IP地址的特征,以及IP地址与计算机名及域名的匹配特征,以及发件人地址格式特征。
优选地,本发明实施例中分类器获取单元具体用于:从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U;从所述未标注邮件样本集合U中随机挑出n个未标注的样本,构成待标注样本集合Vi,余下的z-n个未标注邮件样本构成候选样本集合Hi,并将所有的已标注的样本组成已标注样本集合Li,其中,i表示迭代的次数,初始化为i=1;利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i;利用分类器h1i对待标注的样本集合Vi中待标注样本的第一视角进行标注,得到所有的待标注样本的类别标记及其隶属于此类别的置信度,并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记,将该类置信度最大的类别标记连同其相对的m个待标注样本,加入到有标注样本集合Li中,得到更新的已标注的样本集合Li′,并将上述m个待标注的样本从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i;利用利用贝叶斯分类器h2i对更新的待标注邮件样本集合Vi′中待标注样本的第二视角进行标注,得到所有的待标记样本的类别标记及其隶属于此类别的置信度,从该类别标记中选出m个隶属于每一个类别置信度最大的标记,将该每一个类置信度最大的类别标记连同其对应的m个待标注样本,加入到上述更新的已标记样本集合Li′中,得到已标记样本集合Li+1,并将上述m个待标注的样本从更新的待标注样本集合Vi′中删除,得到二次更新的待标注样本集合Vi″;从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;更新变量,i=i+1;判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则继续利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i。
优选地,本发明实施例中分类过滤单元具体用于利用最终的分类模型h1k和h2k,对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注,得到其类别标记及其隶属于此类的置信度,并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。
本发明实施例把协同训练引入垃圾邮件过滤领域,克服了传统的只以垃圾邮件内容为过滤对象而忽略邮件头丰富信息的方法,把垃圾邮件划分为邮件头和邮件两个部分,并从两个视角来看待要分类的垃圾邮件。经过协同训练算法的处理,最后能使较少的标注数据自动生成较大的训练集,并对垃圾邮件进行新的判断和过滤,从而实现了在标注样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于协同训练的垃圾邮件过滤方法的流程示意图;
图2为本发明实施例提供的一种基于协同训练的垃圾邮件过滤方法的简单流程示意图;
图3为本发明实施例提供的一种基于协同训练的垃圾邮件过滤装置的结构示意图;
图4为本发明实施例提供的一种特征向量获取单元的结构示意图;
图5为本发明实施例提供的一种第二特征获取模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例提供的一种基于协同训练的垃圾邮件过滤方法的流程示意图,该方法包括如下步骤:
S101:输入待过滤的邮件集合,该邮件集合中包括已标注邮件和未标注邮件,其中已标注邮件是指用户举报的垃圾邮件,而未标注邮件则并不确定是否为垃圾邮件。
S102:根据上述邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件。
在本实施例中,对于已经标注好的邮件,可以分别对其邮件头和邮件内容进行处理以得到所需的特征,进而得到每个样本的特征向量。
对于邮件内容部分,可以对其随机采样,经过去停用词、分词的处理之后,通过文本分类中的特征选择技术(信息增益IG),挑选最具代表性的特征,建立向量空间模型。对于邮件内容部分的处理属于现有技术,在此不再赘述。
对于邮件头部分,首先可以对邮件头中各个字段进行特征信息提取以得到所需的特征信息。作为本发明的一个实施例,邮件头中特征信息提取可以通过如下操作实现:把邮件头中同时包含字母、数字以及“-”,“$”,“”等符号的词组看作字符序列,以空格作为分隔符,忽略那些纯数字的字符序列,网页标签以及所有自身的属性标识,同时也不将它们看作字符序列的分隔符。例如,邮件头中的“subject”,“content-type”等词汇就不纳入特征选择范围,分析邮件信头字段,利用构建的词汇分析器对所有邮件头中的中转信息字段进行特征提取,例如IP地址,邮件域名,时间信息等,按照YACC和lexer的方法,例如IP的提取格式为:UINT8:([01]?[0-9]?[0-9]?|2([0-4][0-9])|5[0-5]);或IPADDR:{UINT8}\.{UINT8}\.{UINT8}\.{UINT8}}。
然后,以上述提取的特征信息为依据,继续进行如下判断操作:
判断时区是否出错,比如对于中文邮件时区,如果CST在-0600,则该时区错误,其正确的CST应该是在+0800,若时区出错则记为1,否则记为0;
判断时间是否误差,在通常情况下,一个邮件传递过程不会太长,假如这个邮件传递经过了几天甚至更长时间,那么就可能是被伪造的(除非是传递过程中出错),因此若时间误差则记为1,否则记为0;
判断IP地址是否出错,比如出现xxx.xxx.xxx.0这样的IP地址或者一些明显的保留地址,则IP地址发生错误,若IP地址出错则记为1,否则记为0;
除了上述获取上述特征外,在本实施例中还需要对Received字段标识中垃圾邮件者隐藏的发送行为特征进行提取。因为根据该字段的分析,可以得到真实的邮件发送服务器地址或者从最后一个MUA提供的Received字段开始追踪上一次中转服务器IP地址、邮件中转服务器收到的计算机名以及发送地址域名,直至电子邮件的整个发送过程。经过对垃圾邮件的大量分析得到,大量的垃圾邮件的发送IP源相同,但是邮件域名Domain却经常被篡改伪装,导致各不相同。一般来说,网络中一个IP通常对应一个计算机名,如果邮件服务器的名称和对应的IP地址不相符或者说不对应,显然是有可信度的问题。此外,一个邮件服务器一般只有一个域名,如果一个IP对应多个域名,这显然是不正常的,类似这种特征的还有一个计算名对应不同的发送地址域名等,这些特征都大量出现在垃圾邮件中。因此,在本实施例中,还需要进行如下判断:
判断发送IP和计算机名是否匹配,从邮件头中的Received字段可以获得邮件发送人的IP,在邮件的传输过程中,如果该封邮件没有被转发,那么该IP地址就是原始地址,否则该IP地址就会变成中转MTA的地址。按照电子邮件传输协议上所定义的,一封邮件经两个不同的MTA进行中转时候,发送方的MTA需要向接收方MTA声明自身的计算机名(发送方的邮件域名)。通常,正常邮件的发送方IP都会匹配其域名,并且这一匹配关系相对十分固定。如果发送IP和计算机名匹配则记为0,不匹配则记为1。
判断发送IP与其域名是否匹配,通常来说,正常的电子邮件地址域名(例如用户所使用电子邮箱“abcxyz.com”,则“xyz.com”则为其电子邮件域名)都是与其发送邮件服务器的域名保持一致的,但对垃圾邮件来说则大不一样,为了避免被封锁域名地址,垃圾邮件制造者总是通过动态IP地址获取、自架设MTA中转服务器等手段来伪造或隐藏原域名地址,这样更方便他们发送一大批的垃圾邮件而躲过邮件中转服务器对邮件源的追踪。所以在本实施例中把这一特征作为鉴别垃圾邮件的特征之一,如果发送IP与其域名匹配则记为0,不匹配则记为1。
判断发件人地址格式是否非法,根据电子邮件格式标准RFC822的规定,以及邮件服务商的标准,邮件地址应为usersenderDomain形式,即中间为符号,前面为用户名,后面为发送服务器域名,其中用户名中不能包含中文字符等非法字符。因此,对邮件头中的From字段标识进行判别,如果在用户名中出现非法字符则记为1,否则记为0。
根据上述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。具体来说,对于输入的邮件,分别表示在两个特征空间之下,假设输入的邮件集合有N个,其中有标注的邮件有1个,未标注的邮件有(N-1)个,而每一个邮件就是一个样本,则第k个样本的特征向量为1≤k≤N,表示特征向量xk的第e维特征,1≤e≤d,d为特征向量的维数。
S103:将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息。
如上所述每个样本的特征向量为在本实施例中则将其两个特征向量子集,其中,第一特征向量子集由第a1,...,ah维特征组成,此h维特征来源于邮件头的信息;第二特征向量子集由剩余的第ah+1,...,ad维特征组成,此d-h维特征来源于邮件内容信息。
S104:将第一特征向量子集和第二特征向量子集分别作为每个样本的第一视角和第二视角。比如,对于第k个样本来说,将第一特征向量子集作为第一视角而将第二特征向量子集作为第二视角其中,ag∈[1,...,d],1≤g≤d,
S105:利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器。
作为本发明的一个实施例,该步骤具体可以包括如下步骤:
S1051:从未标注邮件集合Q中选取z个邮件构成协同训练所使用的未标注邮件样本集合U,记为:
S1052:从协同训练使用的无标注邮件样本集合U中随机挑选出n个无标注邮件,构成待标注邮件样本集合Vi,记为:其中1≤n≤z,余下的(z-n)个无标注样本构成的候选样本集合Hi,记为:协同训练所使用的已标注样本集合记为Li;
S1053:利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i,具体来说,可以将已标注的邮件样本集合Li中所有样本的第一视角组成的第一视角集合V1i,记为:其中n1为已标注集合Li中已标注样本的个数,然后将该第一视角集合V1i作为输入送给贝叶斯分类器去学习,生成分类器h1i;
S1054:利用贝叶斯分类器h1i对待标注样本集合Vi中第h个待标注样本xh的第一个视角x1h进行标注,得到其类别标记c1h及其在该类别上的置信度p1h,1≤h≤n2,n2代表待标注样本集合Vi中待标注样本的个数。将上述得到的类别标签组成部分类别标签集合该类标签集合C1i中包含了垃圾和非垃圾的类别标签,其中垃圾邮件记为C1spm,将该类别标记对应的置信度组成的概率集合P1spm,从该概率集合P1spm中选出数值最大的概率记为:此最大概率对应的类别标记记为:对应的待标记样本记为:将它加入到已标注样本集合的Li中,得到更新的已标注集合Li′,并将从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;
S1055:利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i,具体来说,可以将更新的已标注样本集合Li中所有样本的第二视角集合V2i,记为:其中,n2为此时更新的已标注训练样本集合Li′中已标注的训练样本个数,将该第二视角集合V2i作为输入数据,构造贝叶斯分类器h2i;
S1056:利用训练好的贝叶斯分类器h2i对更新的待标注样本集合Vi′中第h个待标记样本xh的第二视角x2h进行标记,得到其类别标记c2h及其隶属于该类的的概率p2h,其中1≤h≤n3,其中n3为更新的待标记样本集合Vi′中待标注样本的个数,将上述得到的类别标记组成类别标记集合C2i={c2spm,c2ham},将C2i中垃圾邮件和非垃圾邮件类别标记对应的置信度所组成的概率集合P2spm和P2ham,从中挑选出数值最大的记为此时最大概率对应的类别标记记为此类别标记对应的待标注样本记为将其加入到刚刚更新的已标注样本集合Li′中,得到有标注样本集合Li+1,并将和从更新的待标注样本集合Vi′中删除,得到二次更新的样本集合Vi″;
S1057:从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;
S1058:更新变量,i=i+1;
S1059:判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则返回步骤S1053。
S106:根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。具体来说,可以无标注样本集合中无标记样本xk的第一个视角记为x1k,第二视角记为x2k,将无标记样本xk的第一视角x1k输入最终的贝叶斯分类模型h1d中,输出其类别标签c1spm或c1ham及其属于此类别的概率p1spm和p1ham,如果p1spm≥p1ham,则把它标注为垃圾邮件,否则标注为正常邮件。将无标记样本xk的第二个视角x2k输入最终的h2k分类器中,输出其类别标签c2spm或c2ham及属于此类别的概率p2spm和p2ham,如果p2spm≥p2ham,则把该邮件标注为垃圾邮件,否则标注为正常邮件。
上述基于协同训练的垃圾邮件过滤方法可以基于图2予以清楚的描述:从未标注邮件集合Q中挑选z个邮件构成协同训练所使用的未标注邮件样本集合U;然后将训练的样例按邮件头信息和邮件内容信息分为两个视角,其中一个视角包含基于邮件头信息的特征向量,另一个视角包含基于邮件内容信息的特征向量;利用已经标注好的邮件集合L在两个特征维度上分别训练两个分类器;分别利用两个训练器对未标注邮件集合U中的邮件进行预测,从U中提取前k个置信度最高的预测结果,将该结果标注后已经标注邮件集合L中,而剩下的样例则放入未标注邮件集合Q中,如此循环往复直至所有样例都得到标注。
本发明实施例把协同训练引入垃圾邮件过滤领域,克服了传统的只以垃圾邮件内容为过滤对象而忽略邮件头丰富信息的方法,把垃圾邮件划分为邮件头和邮件两个部分,并从两个视角来看待要分类的垃圾邮件。经过协同训练算法的处理,最后能使较少的标注数据自动生成较大的训练集,并对垃圾邮件进行新的判断和过滤,从而实现了在标注样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。
如图3所示为本发明实施例提供的一种基于协同训练的垃圾邮件过滤装置的结构示意图,该装置包括:输入单元310、特征向量获取单元320、子向量获取单元330、视角获取单元340、分类器获取单元350和分类过滤单元360,其中:
输入单元310,用于输入待过滤的邮件集合,所述邮件集合包括已标注邮件和未标注邮件。
特征向量获取单元320用于根据输入单元310输入的邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件。
作为本发明的一个实施例,如图4所示,特征向量获取单元320可以包括:
第一特征获取模块321,用于利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征。
第二特征获取模块322,用于根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征。
作为本发明的另一个实施例,如图5所示,第二特征获取模块322可以进一步包括:提取子模块3221和特征获取子模块3222,其中提取子模块3221用于对邮件头中各个字段进行特征信息提取,特征获取子模块3222用于根据提取的特征信息得到时区、时间、IP地址的特征,以及IP地址与计算机名及域名的匹配特征,以及发件人地址格式特征。对于提取子模块3221及特征获取子模块3222的具体功能可以参见前述实施例S102的描述,在此不再赘述。
向量化模块323,用于根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。
子向量获取单元330用于将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息。
视角获取单元340用于将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角。
分类器获取单元350用于利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器。
作为本发明的另一个实施例,分类获取单元350具体用于:
从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U;
从所述未标注邮件样本集合U中随机挑出n个未标注的样本,构成待标注样本集合Vi,余下的z-n个未标注邮件样本构成候选样本集合Hi,并将所有的已标注的样本组成已标注样本集合Li,其中,i表示迭代的次数,初始化为i=1;
利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i;
利用分类器h1i对待标注的样本集合Vi中待标注样本的第一视角进行标注,得到所有的待标注样本的类别标记及其隶属于此类别的置信度,并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记,将该类置信度最大的类别标记连同其相对的m个待标注样本,加入到有标注样本集合Li中,得到更新的已标注的样本集合Li′,并将上述m个待标注的样本从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;
利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i;
利用利用贝叶斯分类器h2i对更新的待标注邮件样本集合Vi′中待标注样本的第二视角进行标注,得到所有的待标记样本的类别标记及其隶属于此类别的置信度,从该类别标记中选出m个隶属于每一个类别置信度最大的标记,将该每一个类置信度最大的类别标记连同其对应的m个待标注样本,加入到上述更新的已标记样本集合Li′中,得到已标记样本集合Li+1,并将上述m个待标注的样本从更新的待标注样本集合Vi′中删除,得到二次更新的待标注样本集合Vi″;
从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;
更新变量,i=i+1;
判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则继续利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i。
分类过滤单元360用于根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。
作为本发明的另一个实施例,分类过滤单元360具体用于利用最终的分类模型h1k和h2k,对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注,得到其类别标记及其隶属于此类的置信度,并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。
本发明实施例把协同训练引入垃圾邮件过滤领域,克服了传统的只以垃圾邮件内容为过滤对象而忽略邮件头丰富信息的方法,把垃圾邮件划分为邮件头和邮件两个部分,并从两个视角来看待要分类的垃圾邮件。经过协同训练算法的处理,最后能使较少的标注数据自动生成较大的训练集,并对垃圾邮件进行新的判断和过滤,从而实现了在标注样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于协同训练的垃圾邮件过滤方法,其特征在于,所述方法包括:
输入待过滤的邮件集合,所述邮件集合包括已标注邮件和未标注邮件;
根据所述邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;
将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息;
将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角;
利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;
根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。
2.如权利要求1所述的基于协同训练的垃圾邮件过滤方法,其特征在于,根据所述邮件集合得到每个样本的特征向量包括:
利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征;
根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征;
根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。
3.如权利要求2所述的基于协同训练的垃圾邮件过滤方法,其特征在于,所述根据每个样本的邮件头信息得到基于邮件头的若干特征包括:
对邮件头中各个字段进行特征信息提取;
根据提取的特征信息得到时区、时间、IP地址的特征,以及IP地址与计算机名及域名的匹配特征,以及发件人地址格式特征。
4.如权利要求1所述的基于协同训练的垃圾邮件过滤方法,其特征在于,所述利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器包括如下步骤:
步骤1、从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U;
步骤2、从所述未标注邮件样本集合U中随机挑出n个未标注的样本,构成待标注样本集合Vi,余下的z-n个未标注邮件样本构成候选样本集合Hi,并将所有的已标注的样本组成已标注样本集合Li,其中,i表示迭代的次数,初始化为i=1;
步骤3、利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i;
步骤4、利用分类器h1i对待标注的样本集合Vi中待标注样本的第一视角进行标注,得到所有的待标注样本的类别标记及其隶属于此类别的置信度,并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记,将该类置信度最大的类别标记连同其相对的m个待标注样本,加入到有标注样本集合Li中,得到更新的已标注的样本集合Li′,并将上述m个待标注的样本从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;
步骤5、利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i;
步骤6、利用利用贝叶斯分类器h2i对更新的待标注邮件样本集合Vi′中待标注样本的第二视角进行标注,得到所有的待标记样本的类别标记及其隶属于此类别的置信度,从该类别标记中选出m个隶属于每一个类别置信度最大的标记,将该每一个类置信度最大的类别标记连同其对应的m个待标注样本,加入到上述更新的已标记样本集合Li′中,得到已标记样本集合Li+1,并将上述m个待标注的样本从更新的待标注样本集合Vi′中删除,得到二次更新的待标注样本集合Vi″;
步骤7、从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;
步骤8、更新变量,i=i+1;
步骤9、判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则返回步骤3。
5.如权利要求4所述的基于协同训练的垃圾邮件过滤方法,其特征在于,所述根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤包括:
利用最终的分类模型h1k和h2k,对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注,得到其类别标记及其隶属于此类的置信度,并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。
6.一种基于协同训练的垃圾邮件过滤装置,其特征在于,所述装置包括:
输入单元,用于输入待过滤的邮件集合,所述邮件集合包括已标注邮件和未标注邮件;
特征向量获取单元,用于根据所述邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;
子向量获取单元,用于将所述每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,所述第一特征向量子集中的特征来源于邮件头信息,所述第二特征向量子集中的特征来源于邮件内容信息;
视角获取单元,用于将所述第一特征向量子集和第二特征向量子集分别作为所述每个样本的第一视角和第二视角;
分类器获取单元,用于利用所述第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;
分类过滤单元,用于根据所述第一分类器和所述第二分类器对垃圾邮件进行分类过滤。
7.如权利要求6所述的基于协同训练的垃圾邮件过滤装置,其特征在于,所述特征向量获取单元包括:
第一特征获取模块,用于利用特征选择技术对已标注邮件的每个样本的邮件内容信息进行处理得到基于邮件内容的若干特征;
第二特征获取模块,用于根据已标注邮件的每个样本的邮件头信息得到基于邮件头的若干特征;
向量化模块,用于根据所述基于邮件内容的特征以及基于邮件头的特征对邮件进行向量化以每个样本的特征向量。
8.如权利要求7所述的基于协同训练的垃圾邮件过滤装置,其特征在于,所述第二特征获取模块包括:
提取子模块,用于对邮件头中各个字段进行特征信息提取;
特征获取子模块,用于根据提取的特征信息得到时区、时间、IP地址的特征,以及IP地址与计算机名及域名的匹配特征,以及发件人地址格式特征。
9.如权利要求6所述的基于协同训练的垃圾邮件过滤装置,其特征在于,所述分类器获取单元具体用于:
从所有未标注邮件中选取z个邮件构成协同训练所使用的未标注邮件样本集合U;
从所述未标注邮件样本集合U中随机挑出n个未标注的样本,构成待标注样本集合Vi,余下的z-n个未标注邮件样本构成候选样本集合Hi,并将所有的已标注的样本组成已标注样本集合Li,其中,i表示迭代的次数,初始化为i=1;
利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i;
利用分类器h1i对待标注的样本集合Vi中待标注样本的第一视角进行标注,得到所有的待标注样本的类别标记及其隶属于此类别的置信度,并从该类别标记中选出m个隶属于垃圾邮件和非垃圾邮件的置信度最大的类别标记,将该类置信度最大的类别标记连同其相对的m个待标注样本,加入到有标注样本集合Li中,得到更新的已标注的样本集合Li′,并将上述m个待标注的样本从待标注样本集合Vi中删除,得到更新的待标注样本集合Vi′;
利用更新的已标注的样本Li′中每个样本的第二视角,采用贝叶斯方法构造贝叶斯分类器h2i;
利用利用贝叶斯分类器h2i对更新的待标注邮件样本集合Vi′中待标注样本的第二视角进行标注,得到所有的待标记样本的类别标记及其隶属于此类别的置信度,从该类别标记中选出m个隶属于每一个类别置信度最大的标记,将该每一个类置信度最大的类别标记连同其对应的m个待标注样本,加入到上述更新的已标记样本集合Li′中,得到已标记样本集合Li+1,并将上述m个待标注的样本从更新的待标注样本集合Vi′中删除,得到二次更新的待标注样本集合Vi″;
从候选样本集合Hi中选取p个样本,加入到二次更新的待标注样本集合Vi″中,得到待标注样本集合Vi+1,并将这p个样本从候选样本集合Hi中删除,得到候选样本集合Hi+1,其中,p≥2m;
更新变量,i=i+1;
判断候选样本集合Hi是否为空集,如果为空集则结束迭代,将此时的两个贝叶斯分类器分别记为最终的第一分类器h1k和第二分类器h2k,其中,k为迭代结束时i的值,如果Hi不为空集,则继续利用所述已标注样本集合Li中每一个样本的第一视角,采用贝斯方法构造贝叶斯分类器h1i。
10.如权利要求9所述的基于协同训练的垃圾邮件过滤装置,其特征在于,所述分类过滤单元具体用于利用最终的分类模型h1k和h2k,对邮件集合中每个未标注样本的第一视角和第二视角分别进行标注,得到其类别标记及其隶属于此类的置信度,并把隶属于此类别概率较大的类别标记作为该无标注样本的最终分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110369697.6A CN102404249B (zh) | 2011-11-18 | 2011-11-18 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110369697.6A CN102404249B (zh) | 2011-11-18 | 2011-11-18 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102404249A true CN102404249A (zh) | 2012-04-04 |
CN102404249B CN102404249B (zh) | 2014-04-09 |
Family
ID=45886049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110369697.6A Expired - Fee Related CN102404249B (zh) | 2011-11-18 | 2011-11-18 | 一种基于协同训练的垃圾邮件过滤方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102404249B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
CN105426534A (zh) * | 2015-12-21 | 2016-03-23 | 华为技术有限公司 | 信息确定方法及装置 |
CN106713108A (zh) * | 2015-11-13 | 2017-05-24 | 华中科技大学 | 一种结合用户关系与贝叶斯理论的邮件分类方法 |
CN106815588A (zh) * | 2015-12-01 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 垃圾图片过滤方法及装置 |
CN107977399A (zh) * | 2017-10-09 | 2018-05-01 | 北京知道未来信息技术有限公司 | 一种基于机器学习的英文邮件签名提取方法及系统 |
CN108710911A (zh) * | 2018-05-21 | 2018-10-26 | 华东师范大学 | 一种基于半监督的应用市场刷榜应用检测方法 |
CN109214463A (zh) * | 2018-09-25 | 2019-01-15 | 合肥优控科技有限公司 | 一种基于协同训练的地形分类方法 |
CN109474509A (zh) * | 2017-09-07 | 2019-03-15 | 北京二六三企业通信有限公司 | 垃圾邮件的识别方法和装置 |
CN109769041A (zh) * | 2018-12-29 | 2019-05-17 | 论客科技(广州)有限公司 | 一种邮件地址自动纠正的方法及装置 |
CN111221970A (zh) * | 2019-12-31 | 2020-06-02 | 论客科技(广州)有限公司 | 基于行为结构和语义内容联合分析的邮件分类方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1750030A (zh) * | 2005-10-25 | 2006-03-22 | 二六三网络通信股份有限公司 | 一种过滤垃圾邮件的方法 |
CN101119341A (zh) * | 2007-09-20 | 2008-02-06 | 腾讯科技(深圳)有限公司 | 邮件识别方法及装置 |
CN101212470A (zh) * | 2006-12-30 | 2008-07-02 | 中国科学院计算技术研究所 | 一种能够抵御垃圾邮件的分布式邮件系统 |
US20090043764A1 (en) * | 2005-11-14 | 2009-02-12 | Microsoft Corporation | Augmenting a training set for document categorization |
CN102098632A (zh) * | 2011-01-28 | 2011-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 邮件过滤方法和移动终端 |
-
2011
- 2011-11-18 CN CN201110369697.6A patent/CN102404249B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1750030A (zh) * | 2005-10-25 | 2006-03-22 | 二六三网络通信股份有限公司 | 一种过滤垃圾邮件的方法 |
US20090043764A1 (en) * | 2005-11-14 | 2009-02-12 | Microsoft Corporation | Augmenting a training set for document categorization |
CN101212470A (zh) * | 2006-12-30 | 2008-07-02 | 中国科学院计算技术研究所 | 一种能够抵御垃圾邮件的分布式邮件系统 |
CN101119341A (zh) * | 2007-09-20 | 2008-02-06 | 腾讯科技(深圳)有限公司 | 邮件识别方法及装置 |
CN102098632A (zh) * | 2011-01-28 | 2011-06-15 | 宇龙计算机通信科技(深圳)有限公司 | 邮件过滤方法和移动终端 |
Non-Patent Citations (4)
Title |
---|
《2011年通信与信息技术新进展--第八届中国通信学会学术年会论文集》 20111102 王琦 《基于贝叶斯决策树算法的垃圾邮件识别机制》 1-3,,6-8 , * |
刘延华 等: "《中文垃圾邮件多层次过滤技术的应用研究》", 《计算机工程与应用》 * |
王琦: "《基于贝叶斯决策树算法的垃圾邮件识别机制》", 《2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集》 * |
陆青梅: "《基于贝叶斯算法的垃圾邮件过滤研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573741A (zh) * | 2014-12-24 | 2015-04-29 | 杭州华为数字技术有限公司 | 一种特征选择方法及装置 |
CN106713108B (zh) * | 2015-11-13 | 2019-08-13 | 华中科技大学 | 一种结合用户关系与贝叶斯理论的邮件分类方法 |
CN106713108A (zh) * | 2015-11-13 | 2017-05-24 | 华中科技大学 | 一种结合用户关系与贝叶斯理论的邮件分类方法 |
CN106815588A (zh) * | 2015-12-01 | 2017-06-09 | 阿里巴巴集团控股有限公司 | 垃圾图片过滤方法及装置 |
CN106815588B (zh) * | 2015-12-01 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 垃圾图片过滤方法及装置 |
CN105426534A (zh) * | 2015-12-21 | 2016-03-23 | 华为技术有限公司 | 信息确定方法及装置 |
WO2017107551A1 (zh) * | 2015-12-21 | 2017-06-29 | 华为技术有限公司 | 信息确定方法及装置 |
CN109474509B (zh) * | 2017-09-07 | 2022-07-12 | 北京二六三企业通信有限公司 | 垃圾邮件的识别方法和装置 |
CN109474509A (zh) * | 2017-09-07 | 2019-03-15 | 北京二六三企业通信有限公司 | 垃圾邮件的识别方法和装置 |
CN107977399A (zh) * | 2017-10-09 | 2018-05-01 | 北京知道未来信息技术有限公司 | 一种基于机器学习的英文邮件签名提取方法及系统 |
CN108710911A (zh) * | 2018-05-21 | 2018-10-26 | 华东师范大学 | 一种基于半监督的应用市场刷榜应用检测方法 |
CN109214463A (zh) * | 2018-09-25 | 2019-01-15 | 合肥优控科技有限公司 | 一种基于协同训练的地形分类方法 |
CN109769041A (zh) * | 2018-12-29 | 2019-05-17 | 论客科技(广州)有限公司 | 一种邮件地址自动纠正的方法及装置 |
CN109769041B (zh) * | 2018-12-29 | 2022-08-12 | 论客科技(广州)有限公司 | 一种邮件地址自动纠正的方法及装置 |
CN111221970A (zh) * | 2019-12-31 | 2020-06-02 | 论客科技(广州)有限公司 | 基于行为结构和语义内容联合分析的邮件分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102404249B (zh) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102404249B (zh) | 一种基于协同训练的垃圾邮件过滤方法和装置 | |
CN105447505B (zh) | 一种多层次重要邮件检测方法 | |
CN101699432B (zh) | 基于排序策略的信息过滤系统 | |
CN101674264B (zh) | 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法 | |
CN104040963B (zh) | 用于使用字符串的频谱进行垃圾邮件检测的系统和方法 | |
CN101227435A (zh) | 基于Logistic回归的中文垃圾邮件过滤方法 | |
CN101784022A (zh) | 短信过滤、分类方法及系统 | |
CN104982011A (zh) | 使用多尺度文本指纹的文档分类 | |
CN103186845A (zh) | 一种垃圾邮件过滤方法 | |
CN101330473A (zh) | 一种多协议支持的网络垃圾信息过滤方法和装置 | |
CN105787025A (zh) | 网络平台公共账号分类方法及装置 | |
CN105871887A (zh) | 基于客户端的个性化电子邮件过滤系统和过滤方法 | |
CN101908055B (zh) | 一种信息过滤系统 | |
CN109800852A (zh) | 一种多模态的垃圾邮件识别方法 | |
CN103108290A (zh) | 短信处理方法和装置 | |
Bogawar et al. | Email mining: a review | |
Woitaszek et al. | Identifying junk electronic mail in Microsoft outlook with a support vector machine | |
CN110213152A (zh) | 识别垃圾邮件的方法、装置、服务器及存储介质 | |
CN114036264B (zh) | 一种基于小样本学习的电子邮件作者身份归属识别方法 | |
CN102377690A (zh) | 反垃圾邮件网关系统及方法 | |
CN103490979A (zh) | 电子邮件鉴定方法和系统 | |
CN101719924B (zh) | 基于群件理解的不良彩信过滤方法 | |
CN101329668A (zh) | 一种信息规则生成方法及装置、信息类型判断方法及系统 | |
Al Maruf et al. | Ensemble approach to classify spam sms from bengali text | |
CN105279191B (zh) | 基于网络数据分析的潜在用户挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140409 |