CN108073718A - 一种基于主动学习和否定选择的邮件二类分类算法 - Google Patents

一种基于主动学习和否定选择的邮件二类分类算法 Download PDF

Info

Publication number
CN108073718A
CN108073718A CN201711474511.7A CN201711474511A CN108073718A CN 108073718 A CN108073718 A CN 108073718A CN 201711474511 A CN201711474511 A CN 201711474511A CN 108073718 A CN108073718 A CN 108073718A
Authority
CN
China
Prior art keywords
mail
fnew
interest
feature
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711474511.7A
Other languages
English (en)
Inventor
邱宁佳
王鹏
田文山
胡小娟
杨迪
李松江
杨华民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN201711474511.7A priority Critical patent/CN108073718A/zh
Publication of CN108073718A publication Critical patent/CN108073718A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于主动学习和否定选择的邮件二类分类算法,其特征在于:首先根据已标记的邮件集建立用户双向兴趣集;然后利用否定选择算法中的异常检测机制构建邮件二类分类算法,将待分类邮件集作为自体集进行匹配检测;最后利用匹配结果得出邮件分类结果,并更新用户双向兴趣集;将主动学习方法和否定选择算法应用于垃圾邮件过滤,把待分类的邮件集作为自体集,利用现有已标注邮件集构建的用户正、负向兴趣集作为检测器,将所有通过关键特征选择算法筛选后的邮件关键特征集作为分类对象,最后通过异常检测匹配机制,获得邮件集的分类结果。该算法通过正向和负向兴趣集对邮件集进行双向的二类匹配检测,为垃圾邮件过滤方法提供了一种新的思路。

Description

一种基于主动学习和否定选择的邮件二类分类算法
技术领域
本发明涉及一种基于主动学习和否定选择的邮件二类分类算法,通过使用机器学习方法中的主动学习方法构建用户正、负向兴趣集,结合否定学习算法中的自体集和检测机制,实现快速高效的垃圾邮件过滤,属于机器学习和文本分类的交叉技术应用领域。
背景技术
文本分类技术是一种利用计算机程序对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记技术,使人们能够更好地了解、更加协调、合理地利用网络文本信息。近年来,文本分类技术被广泛应用于邮件分类、信息过滤、文本语料库构建等领域。文本分类的快速发展为文本挖掘和信息分析处理需求的不断增长提供了有效的解决方案。
准确无误的分类垃圾邮件和合法邮件是垃圾邮件过滤的最终目标。人们在邮件二类分类问题上已做了大量研究。这些研究大体分为两类:一类是系统处理方法,即从服务器端通过修改邮件传输协议、发送和接受规则等,直接屏蔽垃圾邮件。另一类是基于内容的垃圾邮件鉴别方法,该方法部署在邮件服务器端或客户端,通过检测各个邮件的内容,按照一定的规则或字词统计特性对垃圾邮件进行内容鉴别。相对来说第二类方法更加灵活,应用领域更加广泛。
现有方法及发明的缺陷:1)由于专家标注的经济代价太大,且无法对大规模问题进行有效标注,无标记样本数据数量巨大且容易获取;2)现有解决方法中的传统机器学习算法,尤其是有监督学习算法,必须大量标记样本数据,否则泛化性能较低;3)对于垃圾邮件过滤问题,用户的个人喜好对分类结果影响较大;4)在线进行人工样本标注时,专家无法直接选择最佳标注时机。
发明内容
本发明的目的是提供一种基于主动学习和否定选择的邮件二类分类算法,将主动学习方法和否定选择算法应用于垃圾邮件过滤,把待分类的邮件集作为自体集,利用现有已标注邮件集构建的用户正、负向兴趣集作为检测器,将所有通过关键特征选择算法筛选后的邮件关键特征集作为分类对象,最后通过异常检测匹配机制,获得邮件集的分类结果。该算法通过正向和负向兴趣集对邮件集进行双向的二类匹配检测,为垃圾邮件过滤方法提供了一种新的思路。
本发明的技术方案是这样实现的:一种基于主动学习和否定选择的邮件二类分类算法,其特征在于:首先根据已标记的邮件集建立用户双向兴趣集;然后利用否定选择算法中的异常检测机制构建邮件二类分类算法,将待分类邮件集作为自体集进行匹配检测;最后利用匹配结果得出邮件分类结果,并更新用户双向兴趣集;
具体步骤为:
S1、利用由合法邮件与垃圾邮件组成的邮件集S0建立用户的正向兴趣集P和负向兴趣集N,且具体过程如下:
S11、消除S0j(S0j∈S0,1≤j≤|S0|,|S0|表示S0集合中元素的个数)中的附件、标签、标点符号、特殊符号、停用词,对剩余文本进行分词和还原词根,形成S0j的原始特征集AS0j(1≤j≤|S0|,|S0|表示S0集合中元素的个数);
S12、利用基于二项假设的Bi-Test方法,获取AS0j的关键特征集FS0j,FS0j=Bi-Test(AS0j),也即S0j的关键特征集FS0j
S13、初始化若S0j已标记为合法邮件,则将S0j的关键特征集FS0j并入P中,P=P∪FS0j
S14、初始化若S0j已标记为垃圾邮件,则将S0j的关键特征集FS0j并入N中,N=N∪FS0j
S15、如果则对正向兴趣集P和负向兴趣集N作约减操作,即P=P-P∩N,N=N-P∩N;
S2、将待分类的新增样本集New作为自体集,并对New进行预处理,获取其对应的关键特征集FNew;具体处理过程如下:
S21、消除Newi(Newi∈New,1≤i≤|New|,|New|表示New集合中元素的个数)中的附件、标签、标点符号、特殊符号、停用词,对剩余文本进行分词和还原词根处理,得其原始特征集ANewi
S22、利用基于二项假设的Bi-Test方法,获取ANewi的特征集FNewi,FNewi=Bi-Test(ANewi),也即Newi的关键特征集FNewi。由所有FNewi组成关键特征集FNew,代表邮件New进行二类分类操作;FNew={FNew1,FNew2,...,FNewi,…,FNewU}(U=|FNew|),FNewi={f1,f2,…,fZ},fk表示某一关键特征,k的取值范围为:1≤k≤Z,Z表示邮件Newi的关键特征个数,利用One-hot编码方法对所有的关键特征进行编码,转换为数字代码的格式;
S3、将步骤S15得到的P和N作为检测器,对FNew进行异常检测匹配。具体过程如下:
S31、利用公式
计算海明距离的相似度HBij,上式中|B|表示检测器B中的特征个数,FNewij表示FNewi中的第j个特征,Bk表示检测器B的第k个特征,HBij表示FNewi中的第j个特征与B的相似度;
S32、将FNew中的所有集合元素FNewi与P利用相似度公式
进行特征匹配。其中|P|表示检测器P中的特征个数,FNewij表示特征集FNewi的第j个特征,Pk表示检测器P中的第k个特征。得相匹配的特征集合FP,不匹配的特征集合FNP,若FNewi中的所有关键特征都属于FP,则标记邮件Newi为合法邮件,并将该邮件记录在合法邮件集H中;
S33、将FNew中的所有集合元素FNewi与N利用
进行特征匹配,其中|N|表示检测器N中的特征个数,FNewij表示特征集FNewi的第j个特征,Nk表示检测器N中的第k个特征;得相匹配的特征集合FN,不匹配的特征集合FNN;若FNewi中的所有关键特征都属于FN,则标记邮件Newi为垃圾邮件,并将该邮件放入垃圾邮件集S中;
S4、对不匹配的关键特征,将关键特征集还原为邮件后,交给用户进行标记,并对用户标记结果进行分类;具体过程如下:
S41、对两个不匹配集合FNP和FNN做交集得XN,设为最具有标注价值的关键特征集,XN=FNP∩FNN,将XN推荐给用户进行标注,由于用户是对邮件进行标注,所以需要将XN还原为邮件集NNew,用户标注完成后再将邮件集还原为关键特征集XN;
S42、按照用户标注的结果,将已标注的垃圾邮件记录到垃圾邮件集合S中,剩余邮件记录到合法邮件H中;
S43、按照步骤1中的方法将用户标注后的NNew划分为正向兴趣子集XNP和负向兴趣子集XNN,若则将其交集从正向兴趣子集中移除,XNP=XNP-XNP∩XNN;
S5、根据用户标记的正、负向兴趣子集对P和N进行更新。具体过程如下:
S51、由于用户的动态需求,用户个性喜好会有所变化,在将新的兴趣子集并入双向用户兴趣集前,要先进行过期兴趣特征的淘汰;
a、检测XNN∩P是否为空集。若不为空,交集中的特征即为需要淘汰的过期兴趣特征,将此交集从P中删除。
b、检测XNP∩N是否为空集,若不为空,将此交集从N中移除;
S52、将正向兴趣子集XNP并入用户正向兴趣集P中,P=P∪XNP,更新用户兴趣集P完成;
S53、将负向兴趣子集XNN并入用户负向兴趣集N中,N=N∪XNN,更新用户兴趣集N完成;
S6、返回正向用户兴趣集P和负向用户兴趣集N,以及分类结果:合法邮件集H和垃圾邮件集S。
本发明与背景技术相比,具有以下优点:
1)本发明提出的算法特征选择的计算复杂度为O(|Newi|),|Newi|为新增样本集中的特征数量。分类匹配的计算复杂度为O((|P|+|N|)×|FNewi|),其中|P|、|N|和|FNewi|分别表示集合P、N和FNewi中的特征总数,且因FNewi是关键特征集,|Newi|>>|FNewi|,相较于计算复杂度为O(|S|×log(|S|))+O(|S|)的传统特征选择(|S|为样本集的原特征数量),本发明所提算法的计算复杂度O(|Newi|)能有效减少CPU处理时间。
2)将用户个性喜好转换成正、负向用户兴趣集,对新增样本集中的关键特征分别与正、负向兴趣集中的关键特征进行相似度评估,通过评估能够准确地确定特征的类别,提高了特征的分类精度。且从正、负双向进行邮件分类匹配,能够加速邮件分类过程。
3)利用双向用户兴趣集作为检测器,新增样本的关键特征集作为自体集,通过NS算法中的异常检测机制,对两者进行异常检测匹配,结果为匹配时,算法自动对特征进行精准分类,结果为不匹配时,算法收集为未知类别特征,推荐给用户进行确定化标注,降低了用户的标注负担。
附图说明
图1为用户双向兴趣集生成示意图。
图2为邮件集预处理示意图。
图3为新样本集的分类匹配过程示意图。
图4为用户标注邮件过程的示意图。
图5为基于主动学习和否定选择的邮件二类分类算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用与限定本发明。
本发明提出的基于主动学习和否定选择的邮件二类分类算法包括以下步骤:
S1、利用由合法邮件与垃圾邮件组成的邮件集S0建立用户的正向兴趣集P和负向兴趣集N,且具体过程如下:
S11、消除S0j(S0j∈S0,1≤j≤|S0|,|S0|表示S0集合中元素的个数)中的附件、标签、标点符号、特殊符号、停用词,对剩余文本进行分词和还原词根,形成S0j的原始特征集AS0j(1≤j≤|S0|,|S0|表示S0集合中元素的个数)。
S12、利用基于二项假设的Bi-Test方法,获取AS0j的关键特征集FS0j,FS0j=Bi-Test(AS0j),也即S0j的关键特征集FS0j
S13、初始化若S0j已标记为合法邮件,则将S0j的关键特征集FS0j并入P中,P=P∪FS0j
S14、初始化若S0j已标记为垃圾邮件,则将S0j的关键特征集FS0j并入N中,N=N∪FS0j
S15、如果则对正向兴趣集P和负向兴趣集N作约减操作,即P=P-P∩N,N=N-P∩N。
S2、将待分类的新增样本集New作为自体集,并对New进行预处理,获取其对应的关键特征集FNew。具体处理过程如下:
S21、消除Newi(Newi∈New,1≤i≤|New|,|New|表示New集合中元素的个数)中的附件、标签、标点符号、特殊符号、停用词,对剩余文本进行分词和还原词根处理,得其原始特征集ANewi
S22、利用基于二项假设的Bi-Test方法,获取ANewi的特征集FNewi,FNewi=Bi-Test(ANewi),也即Newi的关键特征集FNewi。由所有FNewi组成关键特征集FNew,代表邮件New进行二类分类操作。FNew={FNew1,FNew2,...,FNewi,…,FNewU}(U=|FNew|),FNewi={f1,f2,…,fZ},fk表示某一关键特征,k的取值范围为:1≤k≤Z,Z表示邮件Newi的关键特征个数。利用One-hot编码方法对所有的关键特征进行编码,转换为数字代码的格式。
S3、将步骤S15得到的P和N作为检测器,对FNew进行异常检测匹配。具体过程如下:
S31、利用公式
计算海明距离的相似度HBij,上式中|B|表示检测器B中的特征个数,FNewij表示FNewi中的第j个特征,Bk表示检测器B的第k个特征,HBij表示FNewi中的第j个特征与B的相似度。
S32、将FNew中的所有集合元素FNewi与P利用相似度公式
进行特征匹配。其中|P|表示检测器P中的特征个数,FNewij表示特征集FNewi的第j个特征,Pk表示检测器P中的第k个特征。得相匹配的特征集合FP,不匹配的特征集合FNP。若FNewi中的所有关键特征都属于FP,则标记邮件Newi为合法邮件,并将该邮件记录在合法邮件集H中。
S33、将FNew中的所有集合元素FNewi与N利用
进行特征匹配。其中|N|表示检测器N中的特征个数,FNewij表示特征集FNewi的第j个特征,Nk表示检测器N中的第k个特征。得相匹配的特征集合FN,不匹配的特征集合FNN。若FNewi中的所有关键特征都属于FN,则标记邮件Newi为垃圾邮件,并将该邮件放入垃圾邮件集S中。
S4、对不匹配的关键特征,将关键特征集还原为邮件后,交给用户进行标记,并对用户标记结果进行分类。具体过程如下:
S41、对两个不匹配集合FNP和FNN做交集得XN,设为最具有标注价值的关键特征集,XN=FNP∩FNN。将XN推荐给用户进行标注。由于用户是对邮件进行标注,所以需要将XN还原为邮件集NNew,用户标注完成后再将邮件集还原为关键特征集XN。
S42、按照用户标注的结果,将已标注的垃圾邮件记录到垃圾邮件集合S中,剩余邮件记录到合法邮件H中。
S43、按照步骤1中的方法将用户标注后的NNew划分为正向兴趣子集XNP和负向兴趣子集XNN,若则将其交集从正向兴趣子集中移除,XNP=XNP-XNP∩XNN。
S5、根据用户标记的正、负向兴趣子集对P和N进行更新。具体过程如下:
S51、由于用户的动态需求,用户个性喜好会有所变化,在将新的兴趣子集并入双向用户兴趣集前,要先进行过期兴趣特征的淘汰。
a、检测XNN∩P是否为空集。若不为空,交集中的特征即为需要淘汰的过期兴趣特征,将此交集从P中删除。
b、检测XNP∩N是否为空集。若不为空,将此交集从N中移除。
S52、将正向兴趣子集XNP并入用户正向兴趣集P中。P=P∪XNP,更新用户兴趣集P完成。
S53、将负向兴趣子集XNN并入用户负向兴趣集N中。N=N∪XNN,更新用户兴趣集N完成。
S6、返回正向用户兴趣集P和负向用户兴趣集N,以及分类结果:合法邮件集H和垃圾邮件集S。
下面结合具体例子来详细描述算法中的一些步骤。
一、用户双向兴趣集的构建
选择PU3语料集为实验数据集,其中共有4139个邮件,含有合法邮件2111个(占总数的51%),垃圾邮件2028个(占总数的49%)。分别从合法邮件和垃圾邮件中抽取30%的邮件作为已标注邮件用于建立用户双向兴趣集,其余70%邮件分成10份,作为10个新增样本集,进行分类测试。如图1所示,对已标注邮件集进行预处理和关键特征选择,并对获得的正、负向兴趣集进行约减操作,获得最终的正向兴趣集P和负向兴趣集N。
二、新增样本集二类分类
选取一份新增样本集New,预处理操作过程如图2所示,得New的关键特征集FNew。然后将FNew、正向兴趣集P和负向兴趣集N作为基于主动学习和否定选择算法的邮件二类分类算法的输入。分别对FNew与P、FNew与N进行特征异常检测,利用相似度计算公式
计算FNew中关键特征与P中正向兴趣特征的相似度,得出FNew中关键特征的正向兴趣特征匹配度。利用相似度公式
计算FNew中关键特征与N中负向兴趣特征的相似度,得出FNew中关键特征的负向兴趣特征匹配度。其中上述FNew、P和N中的特征都是数字编码的形式。最后得出匹配和不匹配的特征集合,过程如图3所示。FNew与P进行特征匹配,得相匹配的特征集合FP,不匹配的特征集合FNP。FNew与N进行特征匹配,得相匹配的特征集合FN,不匹配的特征集合FNN。FP中是和正向兴趣集P能完全匹配的关键特征,FN中是能够和负向兴趣集N能完全匹配的关键特征。若某一邮件的所有关键特征都包含在FP或FN中,则可以判定该邮件的类别。已判定类别的邮件放入相应的集合:合法邮件集H或垃圾邮件集S中,并将该邮件的关键特征集从FNew中移除,进入下一步,直到FNew中没有关键特征集为止。
三、未知类别邮件用户标注,更新正、负向兴趣集
取FNP和FNN的交集,XN=FNP∩FNN,得未知类别邮件的关键特征集XN。将XN中的关键特征还原为邮件后,送给用户进行标注,用户只需对垃圾邮件进行标注,然后将标注结果返回。对于标注结果的处理过程如图4所示。根据用户标注结果,存储标注后的邮件分类,以及利用用户标注结果更新用户正向和负向兴趣集。
四、输出邮件分类结果和已更新的正、负向兴趣集
输出已经整理好的合法邮件集H和垃圾邮件集S,以及更新后的用户正、负向兴趣集P和N。

Claims (1)

1.一种基于主动学习和否定选择的邮件二类分类算法,其特征在于:首先根据已标记的邮件集建立用户双向兴趣集;然后利用否定选择算法中的异常检测机制构建邮件二类分类算法,将待分类邮件集作为自体集进行匹配检测;最后利用匹配结果得出邮件分类结果,并更新用户双向兴趣集;
具体步骤为:
S1、利用由合法邮件与垃圾邮件组成的邮件集S0建立用户的正向兴趣集P和负向兴趣集N,且具体过程如下:
S11、消除S0j(S0j∈S0,1≤j≤|S0|,|S0|表示S0集合中元素的个数)中的附件、标签、标点符号、特殊符号、停用词,对剩余文本进行分词和还原词根,形成S0j的原始特征集AS0j(1≤j≤|S0|,|S0|表示S0集合中元素的个数);
S12、利用基于二项假设的Bi-Test方法,获取AS0j的关键特征集FS0j,FS0j=Bi-Test(AS0j),也即S0j的关键特征集FS0j
S13、初始化若S0j已标记为合法邮件,则将S0j的关键特征集FS0j并入P中,P=P∪FS0j
S14、初始化若S0j已标记为垃圾邮件,则将S0j的关键特征集FS0j并入N中,N=N∪FS0j
S15、如果则对正向兴趣集P和负向兴趣集N作约减操作,即P=P-P∩N,N=N-P∩N;
S2、将待分类的新增样本集New作为自体集,并对New进行预处理,获取其对应的关键特征集FNew;具体处理过程如下:
S21、消除Newi(Newi∈New,1≤i≤|New|,|New|表示New集合中元素的个数)中的附件、标签、标点符号、特殊符号、停用词,对剩余文本进行分词和还原词根处理,得其原始特征集ANewi
S22、利用基于二项假设的Bi-Test方法,获取ANewi的特征集FNewi,FNewi=Bi-Test(ANewi),也即Newi的关键特征集FNewi;由所有FNewi组成关键特征集FNew,代表邮件New进行二类分类操作;FNew={FNew1,FNew2,...,FNewi,…,FNewU}(U=|FNew|),FNewi={f1,f2,…,fZ},fk表示某一关键特征,k的取值范围为:1≤k≤Z,Z表示邮件Newi的关键特征个数,利用One-hot编码方法对所有的关键特征进行编码,转换为数字代码的格式;
S3、将步骤S15得到的P和N作为检测器,对FNew进行异常检测匹配;具体过程如下:
S31、利用公式
<mrow> <msub> <mi>HB</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>B</mi> <mo>|</mo> </mrow> </munderover> <mover> <mrow> <mo>(</mo> <msub> <mi>FNew</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;CirclePlus;</mo> <msub> <mi>B</mi> <mi>k</mi> </msub> <mo>)</mo> <mo>,</mo> </mrow> <mo>&amp;OverBar;</mo> </mover> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mrow> <mo>|</mo> <mrow> <mi>F</mi> <mi>N</mi> <mi>e</mi> <mi>w</mi> </mrow> <mo>|</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>j</mi> <mo>&amp;le;</mo> <mrow> <mo>|</mo> <mrow> <msub> <mi>FNew</mi> <mi>i</mi> </msub> </mrow> <mo>|</mo> </mrow> </mrow>
计算海明距离的相似度HBij,上式中|B|表示检测器B中的特征个数,FNewij表示FNewi中的第j个特征,Bk表示检测器B的第k个特征,HBij表示FNewi中的第j个特征与B的相似度;
S32、将FNew中的所有集合元素FNewi与P利用相似度公式
<mrow> <msub> <mi>HP</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>P</mi> <mo>|</mo> </mrow> </munderover> <mover> <mrow> <mo>(</mo> <msub> <mi>FNew</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;CirclePlus;</mo> <msub> <mi>P</mi> <mi>k</mi> </msub> <mo>)</mo> <mo>,</mo> </mrow> <mo>&amp;OverBar;</mo> </mover> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mrow> <mo>|</mo> <mrow> <mi>F</mi> <mi>N</mi> <mi>e</mi> <mi>w</mi> </mrow> <mo>|</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>j</mi> <mo>&amp;le;</mo> <mrow> <mo>|</mo> <mrow> <msub> <mi>FNew</mi> <mi>i</mi> </msub> </mrow> <mo>|</mo> </mrow> </mrow>
进行特征匹配;其中|P|表示检测器P中的特征个数,FNewij表示特征集FNewi的第j个特征,Pk表示检测器P中的第k个特征;得相匹配的特征集合FP,不匹配的特征集合FNP,若FNewi中的所有关键特征都属于FP,则标记邮件Newi为合法邮件,并将该邮件记录在合法邮件集H中;
S33、将FNew中的所有集合元素FNewi与N利用
<mrow> <msub> <mi>HN</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>N</mi> <mo>|</mo> </mrow> </munderover> <mover> <mrow> <mo>(</mo> <msub> <mi>FNew</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;CirclePlus;</mo> <msub> <mi>N</mi> <mi>k</mi> </msub> <mo>)</mo> <mo>,</mo> </mrow> <mo>&amp;OverBar;</mo> </mover> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mrow> <mo>|</mo> <mrow> <mi>F</mi> <mi>N</mi> <mi>e</mi> <mi>w</mi> </mrow> <mo>|</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&amp;le;</mo> <mi>j</mi> <mo>&amp;le;</mo> <mrow> <mo>|</mo> <mrow> <msub> <mi>FNew</mi> <mi>i</mi> </msub> </mrow> <mo>|</mo> </mrow> </mrow>
进行特征匹配,其中|N|表示检测器N中的特征个数,FNewij表示特征集FNewi的第j个特征,Nk表示检测器N中的第k个特征;得相匹配的特征集合FN,不匹配的特征集合FNN;若FNewi中的所有关键特征都属于FN,则标记邮件Newi为垃圾邮件,并将该邮件放入垃圾邮件集S中;
S4、对不匹配的关键特征,将关键特征集还原为邮件后,交给用户进行标记,并对用户标记结果进行分类;具体过程如下:
S41、对两个不匹配集合FNP和FNN做交集得XN,设为最具有标注价值的关键特征集,XN=FNP∩FNN,将XN推荐给用户进行标注,由于用户是对邮件进行标注,所以需要将XN还原为邮件集NNew,用户标注完成后再将邮件集还原为关键特征集XN;
S42、按照用户标注的结果,将已标注的垃圾邮件记录到垃圾邮件集合S中,剩余邮件记录到合法邮件H中;
S43、按照步骤1中的方法将用户标注后的NNew划分为正向兴趣子集XNP和负向兴趣子集XNN,若则将其交集从正向兴趣子集中移除,XNP=XNP-XNP∩XNN;
S5、根据用户标记的正、负向兴趣子集对P和N进行更新。具体过程如下:
S51、由于用户的动态需求,用户个性喜好会有所变化,在将新的兴趣子集并入双向用户兴趣集前,要先进行过期兴趣特征的淘汰;
a、检测XNN∩P是否为空集。若不为空,交集中的特征即为需要淘汰的过期兴趣特征,将此交集从P中删除。
b、检测XNP∩N是否为空集,若不为空,将此交集从N中移除;
S52、将正向兴趣子集XNP并入用户正向兴趣集P中,P=P∪XNP,更新用户兴趣集P完成;
S53、将负向兴趣子集XNN并入用户负向兴趣集N中,N=N∪XNN,更新用户兴趣集N完成;
S6、返回正向用户兴趣集P和负向用户兴趣集N,以及分类结果:合法邮件集H和垃圾邮件集S。
CN201711474511.7A 2017-12-29 2017-12-29 一种基于主动学习和否定选择的邮件二类分类算法 Pending CN108073718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711474511.7A CN108073718A (zh) 2017-12-29 2017-12-29 一种基于主动学习和否定选择的邮件二类分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711474511.7A CN108073718A (zh) 2017-12-29 2017-12-29 一种基于主动学习和否定选择的邮件二类分类算法

Publications (1)

Publication Number Publication Date
CN108073718A true CN108073718A (zh) 2018-05-25

Family

ID=62156060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711474511.7A Pending CN108073718A (zh) 2017-12-29 2017-12-29 一种基于主动学习和否定选择的邮件二类分类算法

Country Status (1)

Country Link
CN (1) CN108073718A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208856A1 (en) * 2003-03-03 2007-09-06 Microsoft Corporation Feedback loop for spam prevention
CN101764765A (zh) * 2009-12-21 2010-06-30 北京大学 基于用户兴趣的垃圾邮件过滤方法
CN102664817A (zh) * 2012-02-17 2012-09-12 上海电机学院 一种垃圾邮件过滤的方法及系统
CN103166830A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208856A1 (en) * 2003-03-03 2007-09-06 Microsoft Corporation Feedback loop for spam prevention
CN101764765A (zh) * 2009-12-21 2010-06-30 北京大学 基于用户兴趣的垃圾邮件过滤方法
CN103166830A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN102664817A (zh) * 2012-02-17 2012-09-12 上海电机学院 一种垃圾邮件过滤的方法及系统
CN103559175A (zh) * 2013-10-12 2014-02-05 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
傅明 等: "基于否定选择变异算法的电子邮件过滤器", 《计算机应用》 *
刘伍颖 等: "集成学习和主动学习相结合的个性化垃圾邮件过滤", 《计算机工程与科学》 *

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN109657011B (zh) 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN110851176A (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN116701303B (zh) 基于深度学习的电子文件分类方法、系统及可读存储介质
CN111581193A (zh) 数据处理方法、设备、计算机系统及存储介质
CN116910013A (zh) 基于语义流图挖掘的系统日志异常检测方法
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN112487306B (zh) 基于知识图谱的自动化事件标记与分类方法
CN117573876A (zh) 一种业务数据分类分级方法及装置
CN112882997A (zh) 一种基于N-gram与频繁模式挖掘的系统日志解析方法
CN116452212A (zh) 一种智能客服商品知识库信息管理方法及系统
CN113343051B (zh) 一种异常sql检测模型构建方法及检测方法
CN115062147A (zh) 融合命名实体频繁模式特征的篇章级文本事件分类方法
CN108073718A (zh) 一种基于主动学习和否定选择的邮件二类分类算法
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN112767022B (zh) 移动应用功能演化趋势预测方法、装置及计算机设备
CN117251532B (zh) 一种基于动态多级匹配的大规模文献机构消歧方法
Feng et al. A novel semantic user operation restoration from massive web URL log
EP3955130A1 (en) Template-based document extraction
CN107977399B (zh) 一种基于机器学习的英文邮件签名提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180525

WD01 Invention patent application deemed withdrawn after publication