CN108985721B - 一种邮件分类方法及系统 - Google Patents

一种邮件分类方法及系统 Download PDF

Info

Publication number
CN108985721B
CN108985721B CN201810763320.0A CN201810763320A CN108985721B CN 108985721 B CN108985721 B CN 108985721B CN 201810763320 A CN201810763320 A CN 201810763320A CN 108985721 B CN108985721 B CN 108985721B
Authority
CN
China
Prior art keywords
words
training
mail
test set
mails
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810763320.0A
Other languages
English (en)
Other versions
CN108985721A (zh
Inventor
刘浩然
丁攀
尹荣荣
崔静闯
常金凤
卢泽丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN201810763320.0A priority Critical patent/CN108985721B/zh
Publication of CN108985721A publication Critical patent/CN108985721A/zh
Application granted granted Critical
Publication of CN108985721B publication Critical patent/CN108985721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种邮件分类方法及系统。本方法及系统训练贝叶斯网络建立主分类器和客分类器,对待测邮件进行分类,一方面,能够避免DNS方式中的过滤时间差,达到事前预测、事前防御的目的;另一方面,能够避免朴素贝叶斯方法中条件独立性假设不存在和过滤速度慢的缺陷,达到提高邮件过滤效果的目的。

Description

一种邮件分类方法及系统
技术领域
本发明涉及人工智能领域,特别是涉及一种邮件分类方法及系统。
背景技术
目前,反垃圾邮件的研究主要分为两类:基于信件源的阻断技术和基于内容的过滤技术。由于垃圾邮件的格式众多(包括HTML、文本和图片等),使用单一技术已无法满足过滤需求。然而,大多数反垃圾邮件系统的核心技术偏重于使用DNS方式的实时黑白名单技术,该技术属于基于信件源的阻断技术,需要大量用户反馈和域名/IP的标记,这种事后防备型的技术对新出现的垃圾邮件过滤存在一定的时间差,而基于内容的过滤技术中的数据挖掘方法则可弥补这一缺陷。基于数据挖掘的过滤可对新出现的垃圾邮件提前预测,这种“事前先知型”的垃圾邮件过滤技术显然更符合当下多变的垃圾邮件过滤需求。
基于内容的垃圾邮件过滤技术中的数据挖掘方法就是文本分类,而在文本分类最常用的朴素贝叶斯方法中,存在条件独立性假设不存在和大规模邮件过滤速度较慢的缺陷,这直接导致邮件过滤效果不佳。
发明内容
本发明的目的是提供一种邮件分类方法及系统,用以快速、准确地对邮件进行分类、过滤。
为实现上述目的,本发明提供了如下方案:
获取训练集邮件;所述训练集邮件包括垃圾邮件以及非垃圾邮件;
通过统计算法提取所述训练集邮件的特征词,得到训练集特征词;
根据所述训练集特征词以及灰狼优化-遗传算法,对贝叶斯网络模型进行训练,得到主分类器;
获取第一测试集邮件;
通过统计算法提取所述第一测试集邮件的特征词,得到第一测试集特征
根据所述第一测试集特征词,通过所述主分类器对所述第一测试集邮件进行分类,得到分类结果;
通过所述分类结果以及所述灰狼优化-遗传算法,对所述贝叶斯网络模型进行训练,得到客分类器;
获取第二测试集邮件;
通过统计算法提取所述第二测试集邮件的特征词,得到第二测试集特征词;
根据所述第二测试集特征词,通过所述主分类器以及所述客分类器对所述第二测试集邮件进行分类。
可选的,所述通过统计算法提取所述训练集邮件的特征词,得到训练集特征词,具体包括:
获取所述训练集邮件的训练文本;
对所述训练文本进行分词、去除停用词,得到多个单词;
对所有单词进行筛选,得到出现次数高于次数阈值的单词,确定为中心词;
通过统计算法计算所有单词的权重;
筛选出权重高于权重阈值的单词,得到训练集扩展词;
根据所述中心词以及所述扩展词确定训练集特征词,所述训练集特征词包括所述中心词和所述扩展词。
可选的,所述根据所述训练集特征词以及灰狼优化-遗传算法对贝叶斯网络模型进行训练,得到主分类器,具体包括:
将所述训练集特征词作为所述贝叶斯网络模型的输入,得到输出结果;
判断所述输出结果是否在误差范围阈值内;
若是,确定所述贝叶斯网络模型为主分类器;
若否,通过灰狼优化-遗传算法优化所述贝叶斯网络模型,使所述输出结果在误差范围阈值内,得到主分类器。
可选的,还包括,对分类后的邮件进行标记。
一种邮件分类系统,所述系统包括:
训练集邮件获取模块,用于获取训练集邮件;所述训练集邮件包括垃圾邮件以及非垃圾邮件;
第一提取模块,用于通过统计算法提取所述训练集邮件的特征词,得到训练集特征词;
第一训练模块,用于根据所述训练集特征词以及灰狼优化-遗传算法,对贝叶斯网络模型进行训练,得到主分类器;
第一测试集邮件获取模块,用于获取第一测试集邮件;
第二提取模块,用于通过统计算法提取所述第一测试集邮件的特征词,得到第一测试集特征词;
第一分类模块,用于根据所述第一测试集特征词,通过所述主分类器对所述第一测试集邮件进行分类,得到分类结果;
第二训练模块,用于通过所述分类结果以及所述灰狼优化-遗传算法,对所述贝叶斯网络模型进行训练,得到客分类器;
第二测试集邮件获取模块,用于获取第二测试集邮件;
第三提取模块,用于通过统计算法提取所述第二测试集邮件的特征词,得到第二测试集特征词;
第二分类模块,用于根据所述第二测试集特征词,通过所述主分类器以及所述客分类器对所述第二测试集邮件进行分类。
可选的,所述第一提取模块包括:
训练文本获取单元,用于获取所述训练集邮件的训练文本;
文本处理单元,用于对所述训练文本进行分词、去除停用词,得到多个单词;
中心词确定单元,用于对所有单词进行筛选,得到出现次数高于次数阈值的单词,确定为中心词;
计算单元,用于通过统计算法计算所有单词的权重;
筛选单元,用于筛选出权重高于权重阈值的单词,得到训练集扩展词;
训练集特征词确定单元,用于根据所述中心词以及所述扩展词确定训练集特征词,所述训练集特征词包括所述中心词和所述扩展词。
可选的,所述第一训练模块包括:
输入单元,用于将所述训练集特征词作为所述贝叶斯网络模型的输入,得到输出结果;
判断单元,用于判断所述输出结果是否在误差范围阈值内;
确定单元,用于当所述输出结果在误差范围阈值内时,确定所述贝叶斯网络模型为主分类器;
优化单元,用于当所述输出结果不在误差范围阈值内时,通过灰狼优化-遗传算法优化所述贝叶斯网络模型,使所述输出结果在误差范围阈值内,得到主分类器。
可选的,所述系统还包括:
标记模块,用于对分类后的邮件进行标记。
与现有技术相比,本发明具有以下技术效果:
贝叶斯网络(Bayesian network,BN)是一种基于概率推理的数学网络模型,在解决不确定性和不完整性问题上具有相当的优势。训练贝叶斯网络建立主分类器和客分类器,对待测邮件进行分类。一方面,能够避免DNS方式中的过滤时间差,达到事前预测、事前防御的目的;另一方面,能够避免朴素贝叶斯方法中条件独立性假设不存在和过滤速度慢的缺陷,达到提高邮件过滤效果的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例邮件分类方法的流程图;
图2为三层贝叶斯网络结构图;
图3为轮盘赌选择图;
图4为行交换交叉操作图;
图5为本发明实施例邮件分类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例邮件分类方法的流程图;图2为三层贝叶斯网络结构图;图3为轮盘赌选择图;图4为行交换交叉操作图。
如图1所示,一种邮件分类方法包括:
步骤101:获取训练集邮件;所述训练集邮件包括垃圾邮件以及非垃圾邮件。通过统计算法提取所述训练集邮件的特征词,得到训练集特征词。使用TF-IDF算法给特征词赋予权值,选择高频特征词作为特征词,设置权重阈值,将权值高于阈值的特征词作为特征词的特征特征词存放到同一词袋中。
获取所述训练集邮件的训练文本;
对所述训练文本进行分词、去除停用词,得到多个单词;
对所有单词进行筛选,得到出现次数高于次数阈值的单词,确定为中心词;
通过统计算法计算所有单词的权重;
筛选出权重高于权重阈值的单词,得到训练集扩展词;
根据所述中心词以及所述扩展词确定训练集特征词,所述训练集特征词包括所述中心词和所述扩展词。
步骤103:根据所述训练集特征词以及灰狼优化-遗传算法,对贝叶斯网络模型进行训练,得到主分类器。
将所述训练集特征词作为所述贝叶斯网络模型的输入,得到输出结果;
判断所述输出结果是否在误差范围阈值内;
若是,确定所述贝叶斯网络模型为主分类器;
若否,通过灰狼优化-遗传算法优化所述贝叶斯网络模型,使所述输出结果在误差范围阈值内,得到主分类器。
图2为邮件过滤分类器的三层贝叶斯网络结构图。图中,将结构层分为三层,第一层为邮件层,第二层为细分类层,第三层为,特征层。其中,邮件层为一个节点,代表是否为垃圾邮件;细分类层为三个节点,包括邮件下的三个细分类(如广告类、工作类、财务类);特征层可包含有限个特征节点,根据所提取到的特征量选定。
基于GWO_GA(过灰狼优化-遗传算法)的三层贝叶斯网络结构学习分为如下七步:
a)通过计算分类器细分类(第二层)与特征节点(第三层)间的互信息构建最大支撑树;
b)将节点轮流当父子节点做BIC评分,评分高的作为分类网络中边的方向初始化结构;
c)通过随机加边、减边和转边的方式获得分类器的初始结构,并对其BIC评分;
d)采用转盘赌选择,从初始结构中选出10个(依据为GWO算法的狼群数量)作为父代结构;图3为轮盘赌选择图。图中,分为结构Ga评分、结构Gb评分和结构Gc评分三块区域,评分越高的结构轮盘中所占面积越大,被选中的几率也越大,不过,评分低的结构仍有选中的机会,因此,在优的结构得以保留的同时又增加了结构的多样性,避免了搜索陷入局部最优。
e)两两结构间进行行交换交叉操作产生子代结构;图4为行交换交叉操作图。图中,两个矩阵分别表示结构Ga和Gb,将两个父代结构Ga和Gb的同行进行交换(如Ga的第一行和第四行与Gb的第一行和第四行交换)后获得子代结构。
f)对子结构中互信息值大的进行加边操作,互信息值小的进行减边操作,并对新结构BIC评分;
g)对新结构中最优的前3个结构求交集,将3个最优结构的共同边作为下次迭代的初始结构。
在不满足迭代停止条件前,重复以上c)至g)的迭代过程,多次迭代直至搜索到最优结构,并将评分最优的结构作为最终分类器结构。
步骤104:获取第一测试集邮件。
步骤105:通过统计算法提取所述第一测试集邮件的特征词,得到第一测试集特征词。
步骤106:根据所述第一测试集特征词,通过所述主分类器对所述第一测试集邮件进行分类,得到分类结果;对分类后的邮件进行标记。
步骤107:通过所述分类结果以及所述灰狼优化-遗传算法,对所述贝叶斯网络模型进行训练,得到客分类器。
步骤108:获取第二测试集邮件。
步骤109:通过统计算法提取所述第二测试集邮件的特征词,得到第二测试集特征词。
步骤110:根据所述第二测试集特征词,通过所述主分类器以及所述客分类器对所述第二测试集邮件进行分类,对分类后的邮件进行标记。
主分类器训练随着收集到已有公开邮件数据库的更新而不间断更新训练,客分类器训练随着过滤结果和用户反馈邮件的出现而不间断更新训练。
根据本发明提供的具体实施例,本发明公开了以下技术效果:贝叶斯网络(Bayesian network,BN)是一种基于概率推理的数学网络模型,在解决不确定性和不完整性问题上具有相当的优势。训练贝叶斯网络建立主分类器和客分类器,对待测邮件进行分类。一方面,能够避免DNS方式中的过滤时间差,达到事前预测、事前防御的目的;另一方面,能够避免朴素贝叶斯方法中条件独立性假设不存在和过滤速度慢的缺陷,达到提高邮件过滤效果的目的。
图5为本发明实施例邮件分类方法的结构示意图。如图5所示,本发一种邮件分类系统包括:
训练集邮件获取模块501,用于获取训练集邮件;所述训练集邮件包括垃圾邮件以及非垃圾邮件。
第一提取模块502,用于通过统计算法提取所述训练集邮件的特征词,得到训练集特征词。
所述第一提取模块502包括:
训练文本获取单元,用于获取所述训练集邮件的训练文本;
文本处理单元,用于对所述训练文本进行分词、去除停用词,得到多个单词;
中心词确定单元,用于对所有单词进行筛选,得到出现次数高于次数阈值的单词,确定为中心词;
计算单元,用于通过统计算法计算所有单词的权重;
筛选单元,用于筛选出权重高于权重阈值的单词,得到训练集扩展词;
训练集特征词确定单元,用于根据所述中心词以及所述扩展词确定训练集特征词,所述训练集特征词包括所述中心词和所述扩展词。
第一训练模块503,用于根据所述训练集特征词以及灰狼优化-遗传算法,对贝叶斯网络模型进行训练,得到主分类器。
所述第一训练模块503包括:
输入单元,用于将所述训练集特征词作为所述贝叶斯网络模型的输入,得到输出结果;
判断单元,用于判断所述输出结果是否在误差范围阈值内;
确定单元,用于当所述输出结果在误差范围阈值内时,确定所述贝叶斯网络模型为主分类器;
优化单元,用于当所述输出结果不在误差范围阈值内时,通过灰狼优化-遗传算法优化所述贝叶斯网络模型,使所述输出结果在误差范围阈值内,得到主分类器。
第一测试集邮件获取模块504,用于获取第一测试集邮件。
第二提取模块505,用于通过统计算法提取所述第一测试集邮件的特征词,得到第一测试集特征词。
第一分类506,用于根据所述第一测试集特征词,通过所述主分类器对所述第一测试集邮件进行分类,得到分类结果。
第二训练模块507,用于通过所述分类结果以及所述灰狼优化-遗传算法,对所述贝叶斯网络模型进行训练,得到客分类器。
第二测试集邮件获取模块508,用于获取第二测试集邮件。
第三提取模块509,用于通过统计算法提取所述第二测试集邮件的特征词,得到第二测试集特征词。
第二分类模块510,用于根据所述第二测试集特征词,通过所述主分类器以及所述客分类器对所述第二测试集邮件进行分类。
所述系统还包括:标记模块,用于对分类后的邮件进行标记。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种邮件分类方法,其特征在于,所述方法包括:
获取训练集邮件;所述训练集邮件包括垃圾邮件以及非垃圾邮件;
通过统计算法提取所述训练集邮件的特征词,得到训练集特征词;具体的:获取所述训练集邮件的训练文本;对所述训练文本进行分词、去除停用词,得到多个单词;对所有单词进行筛选,得到出现次数高于次数阈值的单词,确定为中心词;通过统计算法计算所有单词的权重;筛选出权重高于权重阈值的单词,得到训练集扩展词;根据所述中心词以及所述扩展词确定训练集特征词,所述训练集特征词包括所述中心词和所述扩展词;
根据所述训练集特征词以及灰狼优化-遗传算法,对贝叶斯网络模型进行训练,得到主分类器;
获取第一测试集邮件;
通过统计算法提取所述第一测试集邮件的特征词,得到第一测试集特征词;
根据所述第一测试集特征词,通过所述主分类器对所述第一测试集邮件进行分类,得到分类结果;
通过所述分类结果以及所述灰狼优化-遗传算法,对所述贝叶斯网络模型进行训练,得到客分类器;
获取第二测试集邮件;
通过统计算法提取所述第二测试集邮件的特征词,得到第二测试集特征词;
根据所述第二测试集特征词,通过所述主分类器以及所述客分类器对所述第二测试集邮件进行分类。
2.根据权利要求1所述分类方法,其特征在于,所述根据所述训练集特征词以及灰狼优化-遗传算法对贝叶斯网络模型进行训练,得到主分类器,具体包括:
将所述训练集特征词作为所述贝叶斯网络模型的输入,得到输出结果;
判断所述输出结果是否在误差范围阈值内;
若是,确定所述贝叶斯网络模型为主分类器;
若否,通过灰狼优化-遗传算法优化所述贝叶斯网络模型,使所述输出结果在误差范围阈值内,得到主分类器。
3.根据权利要求1所述的分类方法,其特征在于,还包括,对分类后的邮件进行标记。
4.一种邮件分类系统,其特征在于,所述系统包括:
训练集邮件获取模块,用于获取训练集邮件;所述训练集邮件包括垃圾邮件以及非垃圾邮件;
第一提取模块,用于通过统计算法提取所述训练集邮件的特征词,得到训练集特征词;
第一训练模块,用于根据所述训练集特征词以及灰狼优化-遗传算法,对贝叶斯网络模型进行训练,得到主分类器;
第一测试集邮件获取模块,用于获取第一测试集邮件;
第二提取模块,用于通过统计算法提取所述第一测试集邮件的特征词,得到第一测试集特征词;
第一分类模块,用于根据所述第一测试集特征词,通过所述主分类器对所述第一测试集邮件进行分类,得到分类结果;
第二训练模块,用于通过所述分类结果以及所述灰狼优化-遗传算法,对所述贝叶斯网络模型进行训练,得到客分类器;
第二测试集邮件获取模块,用于获取第二测试集邮件;
第三提取模块,用于通过统计算法提取所述第二测试集邮件的特征词,得到第二测试集特征词;
第二分类模块,用于根据所述第二测试集特征词,通过所述主分类器以及所述客分类器对所述第二测试集邮件进行分类。
5.根据权利要求4所述的邮件分类系统,其特征在于,所述第一提取模块包括:
训练文本获取单元,用于获取所述训练集邮件的训练文本;
文本处理单元,用于对所述训练文本进行分词、去除停用词,得到多个单词;
中心词确定单元,用于对所有单词进行筛选,得到出现次数高于次数阈值的单词,确定为中心词;
计算单元,用于通过统计算法计算所有单词的权重;
筛选单元,用于筛选出权重高于权重阈值的单词,得到训练集扩展词;
训练集特征词确定单元,用于根据所述中心词以及所述扩展词确定训练集特征词,所述训练集特征词包括所述中心词和所述扩展词。
6.根据权利要求4所述的邮件分类系统,其特征在于,所述第一训练模块包括:
输入单元,用于将所述训练集特征词作为所述贝叶斯网络模型的输入,得到输出结果;
判断单元,用于判断所述输出结果是否在误差范围阈值内;
确定单元,用于当所述输出结果在误差范围阈值内时,确定所述贝叶斯网络模型为主分类器;
优化单元,用于当所述输出结果不在误差范围阈值内时,通过灰狼优化-遗传算法优化所述贝叶斯网络模型,使所述输出结果在误差范围阈值内,得到主分类器。
7.根据权利要求4所述的邮件分类系统,其特征在于,所述系统还包括:
标记模块,用于对分类后的邮件进行标记。
CN201810763320.0A 2018-07-12 2018-07-12 一种邮件分类方法及系统 Active CN108985721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810763320.0A CN108985721B (zh) 2018-07-12 2018-07-12 一种邮件分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810763320.0A CN108985721B (zh) 2018-07-12 2018-07-12 一种邮件分类方法及系统

Publications (2)

Publication Number Publication Date
CN108985721A CN108985721A (zh) 2018-12-11
CN108985721B true CN108985721B (zh) 2020-10-02

Family

ID=64537800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810763320.0A Active CN108985721B (zh) 2018-07-12 2018-07-12 一种邮件分类方法及系统

Country Status (1)

Country Link
CN (1) CN108985721B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6708160B1 (en) * 1999-04-06 2004-03-16 Paul J. Werbos Object nets
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6708160B1 (en) * 1999-04-06 2004-03-16 Paul J. Werbos Object nets
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Grey Wolf Optimizer;Seyedali Mirjalili等;<Advances in Engineering Software>;20141231;3-4章节 *
一种改进遗传算法的贝叶斯网络结构学习;刘宝宁等;《西北工业大学学报》;20131031;3章节 *

Also Published As

Publication number Publication date
CN108985721A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN111339754B (zh) 基于案件要素句子关联图卷积的案件舆情摘要生成方法
CN106815369A (zh) 一种基于Xgboost分类算法的文本分类方法
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN108009249B (zh) 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法
CN101604322B (zh) 一种决策级文本自动分类融合方法
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN105447505B (zh) 一种多层次重要邮件检测方法
CN101227435A (zh) 基于Logistic回归的中文垃圾邮件过滤方法
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
Pong-Inwong et al. Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration
CN101540017A (zh) 基于字节级n元文法的特征提取方法及垃圾邮件过滤器
CN103473231A (zh) 分类器构建方法和系统
CN110457562A (zh) 一种基于神经网络模型的食品安全事件分类方法及装置
CN103593431A (zh) 网络舆情分析方法和装置
CN107526805B (zh) 一种基于权重的ML-kNN多标签中文文本分类方法
CN103324939A (zh) 基于最小二乘支持向量机技术的偏向性分类及参数寻优方法
CN101908055A (zh) 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN108985721B (zh) 一种邮件分类方法及系统
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant