CN111563721B - 一种适用于不同标签分布场合的邮件分类方法 - Google Patents

一种适用于不同标签分布场合的邮件分类方法 Download PDF

Info

Publication number
CN111563721B
CN111563721B CN202010316830.0A CN202010316830A CN111563721B CN 111563721 B CN111563721 B CN 111563721B CN 202010316830 A CN202010316830 A CN 202010316830A CN 111563721 B CN111563721 B CN 111563721B
Authority
CN
China
Prior art keywords
mail
classification model
label
classification
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010316830.0A
Other languages
English (en)
Other versions
CN111563721A (zh
Inventor
马祥祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN202010316830.0A priority Critical patent/CN111563721B/zh
Publication of CN111563721A publication Critical patent/CN111563721A/zh
Application granted granted Critical
Publication of CN111563721B publication Critical patent/CN111563721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种适用于不同标签分布场合的邮件分类方法,包括:根据训练集,训练得到分类模型;统计训练集中各个标签的频率,以初始化得到一个对应于所有标签的向量;将分类模型应用于实际邮件场景,结合归一化操作,以输出得到当前样本特征所属标签的概率;基于当前样本特征所属标签的概率,对向量进行调整;将调整后的向量作为实际邮件场景下各个标签的先验分布,以更新分类模型;将更新后的分类模型应用于不同的实际邮件场景,以实时在线更新分类模型;将实时在线更新后的分类模型应用于目标邮件,完成邮件分类。与现有技术相比,本发明能够让分类模型在实际应用中不断更新,从而提高邮件分类的准确度。

Description

一种适用于不同标签分布场合的邮件分类方法
技术领域
本发明涉及深度学习分类技术领域,尤其是涉及一种适用于不同标签分布场合的邮件分类方法。
背景技术
随着电子邮箱收到邮件的数量不断增加,这些邮件中会存在大量垃圾邮件,目前常通过机器学习训练得到分类模型,由分类模型对邮件进行分类,以筛选出垃圾邮件。然而在机器学习应用中,普遍存在这样一种现象:训练得到的模型在验证集和测试集上的表现十分好,一旦应用到实际场景中,则表现较差,尤其是在垃圾邮件中包含不同垃圾文本标签分布时,容易出现邮件分类结果不准确的问题,一般认为造成这种现象的主要原因是过拟合,然而如果在训练过程中实时通过一个较大的验证集来判断模型是否已经过拟合,并且在验证集表现最好的时刻停止训练,那么过拟合所造成得影响几乎可以忽略不计,因此并不能简单地把原因归咎于过拟合。
本发明通过贝叶斯定理对分类模型的误差进行分析,发现当训练集的标签分布与实际应用场景差异较大时,那么将训练好的模型应用于实际场景,其产生的结果并不令人满意,也就是说,实际场景下的真实标签分布与训练集的标签分布之间存在的差异,将导致分类模型无法很好地应用于实际场景,因此,本发明考虑构建一种能够自动适用于实际场景下不同标签分布的分类模型,以保证分类模型能够在实际场景中产生较好的效果,从而提高邮件分类的准确性。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种适用于不同标签分布场合的邮件分类方法。
本发明的目的可以通过以下技术方案来实现:一种适用于不同标签分布场合的邮件分类方法,包括以下步骤:
S1、根据训练集,训练得到分类模型;
S2、统计训练集中各个标签的频率,以初始化得到一个对应于所有标签的向量;
S3、将分类模型应用于实际邮件场景,结合归一化操作,以输出得到当前样本特征所属标签的概率;
S4、基于步骤S3中当前样本特征所属标签的概率,对步骤S2中的向量进行调整;
S5、将调整后的向量作为实际邮件场景下各个标签的先验分布,得到更新后的分类模型;
S6、将该更新后的分类模型再次应用于不同的实际邮件场景,不断重复步骤S3~S5,以实时在线更新分类模型,即每应用一次,就重复步骤S3~S5,以实时在线更新一次分类模型;
S7、将实时在线更新后的分类模型应用于目标邮件,从目标邮件中分类筛选出包含垃圾文本的邮件,完成邮件分类。
进一步地,所述分类模型包括基于概率模型的二分类模型以及多分类模型。
进一步地,所述训练集中所有样本特征均来自于实际邮件场景,且各个标签下完全随机采样。
进一步地,所述步骤S1中分类模型具体为:
Figure BDA0002459877440000021
其中,P(Y|X)为样本特征X条件下标签Y的概率分布,P(X|Y)为标签取Y时样本特征为X的概率,P(Y)为标签Y的先验分布,P(X)为样本特征X的先验分布。
进一步地,所述步骤S2具体包括以下步骤:
S21、统计得到训练集中各个标签的频率;
S22、按标签顺序,将训练集中各个标签的频率组合构成向量。
进一步地,所述步骤S3中当前样本特征所属标签的概率具体为:
Pn(Y|X)=normal(model(X)*V/P0(Y))
其中,V为对应于所有标签的向量,P0(Y)为训练集中标签Y的频率,normal表示归一化操作。
进一步地,所述步骤S4中调整后的向量具体为:
Vn=(1-α)*V+α*Pn(Y|X)
α=0.001
其中,Vn为调整后的向量,α为学习率。
进一步地,所述步骤S5和S6中更新后的分类模型具体为:
Figure BDA0002459877440000031
与现有技术相比,本发明采用在线学习的方式,分类模型每应用于实际邮件场景一次,就自主调整一次向量,并以调整后的向量作为实际邮件场景中各个标签的先验分布,替换掉原本分类模型中的先验分布,以更新分类模型,通过多次应用、不断更新,最终能够得到适用于不同标签分布场合的分类模型,将该分类模型应用于邮件分类,能够大大提高邮件分类准确率;
本发明提出的方法不需要对更新后的分类模型重新训练,只需让分类模型在实际应用中进行微调,最终接近于实际邮件场景中各个标签的真实分布,即使得分类模型能够在实际应用中进行自主修正更新,从而保证本发明提出的方法能够很好地适用于不同的实际邮件场景。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的应用过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种适用于不同标签分布场合的邮件分类方法,包括以下步骤:
S1、根据训练集,训练得到分类模型;
S2、统计训练集中各个标签的频率,以初始化得到一个对应于所有标签的向量;
S3、将分类模型应用于实际邮件场景,结合归一化操作,以输出得到当前样本特征所属标签的概率;
S4、基于步骤S3中当前样本特征所属标签的概率,对步骤S2中的向量进行调整;
S5、将调整后的向量作为实际邮件场景下各个标签的先验分布,得到更新后的分类模型;
S6、将该更新后的分类模型再次应用于不同的实际邮件场景,不断重复步骤S3~S5,以实时在线更新分类模型;
S7、将实时在线更新后的分类模型应用于目标邮件,从目标邮件中分类筛选出包含垃圾文本的邮件,完成邮件分类。
为进一步对本发明提出的方法进行说明,本实施例首先通过贝叶斯定理对分类模型的误差进行分析,以找出造成分类模型在实际应用场景中表现不佳的原因,本实施例中,垃圾邮件分类训练集数据如表1所示,根据表1的统计信息,构建贝叶斯分类模型,该分类模型数据如表2所示。
表1
垃圾邮件 正常邮件
包含词汇“炒股” 90 10
不包含词汇“炒股” 10 90
表2
垃圾邮件概率 正常邮件概率
包含词汇“炒股” 0.9 0.1
不包含词汇“炒股” 0.1 0.9
利用贝叶斯分类模型对训练集中的邮件进行预测:包含“炒股”的都分为垃圾邮件,不包含“炒股”的当成正常邮件,得出如表3所示的数据。
表3
真实垃圾邮件 真实正常邮件
预测垃圾邮件 90 10
预测正常邮件 10 90
召回率 90% 90%
精确率 90% 90%
由表3数据可知,该分类模型召回率与精确率都达到了90%,是一个不错的模型,此时训练集中垃圾邮件与正常邮件的比例也是1:1,样本相当均衡。
然而如果将表2的分类模型应用到实际场景,对1000封邮件进行分类,有140封邮件因为包含了“炒股”被分类为了垃圾邮件,分类结果如表4所示。
表4
垃圾邮件 正常邮件
140 860
根据表1统计得到正常邮件与垃圾邮件包含“炒股”的概率分布如表5所示。
表5
包含“炒股”的概率 不包含“炒股”的概率
垃圾邮件 0.9 0.1
正常邮件 0.1 0.9
假如训练样本就是从当前的实际场景垃圾邮件与正常邮件中各随机采样100封得到的,那么表5不仅适用于训练集也适用于当前适用场景,此时可以分析得到表4中的数据究竟有多大的“水份”:如果真实场景中真的有860封正常邮件、140封垃圾邮件,根据表5,模型期望预测出86封包含“炒股”的正常邮件与126封包含“炒股”的垃圾邮件,共计212封垃圾邮件,这超出了模型所预测的垃圾邮件数量。为了找出真实的邮件分布,本实施例对860:140进行多次微调,最终定格在真实的正常邮件有950封,真实的垃圾邮件有50封时恰好能够满足模型预测出的结果,如表6所示。
表6
正常邮件 垃圾邮件 合计
包含“炒股” 950*0.1=95 50*0.9=45 140
不包含“炒股” 950*0.9=855 50*0.1=5 860
根据表6可知,模型预测出的140封垃圾邮件有95封竟然是合法的,误判率高达67.8%,在这种场合下不做垃圾邮件过滤的效果都比使用了模型要好,但是这样的实际应用场景与训练集到底存在什么差别呢?经过分析表6与表1,可知:在训练集中垃圾邮件与真实邮件的比例是1∶1,而在实际应用场景中该比例则变成了1∶19,也就是说真实场景下邮件真实标签分布相对于训练集发生了巨大的改变,也就表明标签先验分布的差别最终导致了分类模型在实际应用场景中表现得非常差。
那么有什么方法能让分类模型能适用于实际场景呢?如果训练集是从当前适用场合下完全随机采样的,也就是采样出的垃圾邮件与正常邮件比例为1:19,这样的训练集学习到的模型才是适应于该场景的最佳模型。那么最佳模型与旧模型相比有什么差别呢?根据贝叶斯定理分析可知:根据贝叶斯定理,样本特征向量X、分类标签为Y之间满足如下关系:
Figure BDA0002459877440000051
因此得出以下结论:
1、分类模型可以等价地认为学到了三种分布:P(X|Y)、P(Y)、P(X)。
2、因为P(Y|X)是一个概率分布,所以满足归一化约束,因此以上三种分布可以认为只有P(X|Y)与P(Y)是自由的,第三个分布P(X)可当作是P(X|Y)*P(Y)的归一化因子。
3、P(Y)表征了训练集上标签Y的先验分布,可以通过训练集直接统计各个标签的频率得到,因此模型可以看作只学到了一种分布:P(X|Y)。
即有argmax P(Y|X=X0)=argmax P(X=X0|Y)*P(Y),其中,P(Y)与分类模型无关,P(X=X0|Y)则表明模型学到的类别与特征之间相关性,该量只与模型有关,而与样本X来自哪一个数据集或应用场合无关,如果对于Y的所有取值可能,该值都相同,则说明特征X0对于分类没有影响。
根据上面的推导,可知分类模型实际上是学会了P(X|Y),如果再加上一个约束:P(X|Y)在实际应用场景与训练集上相同或差异极小(例如我们认为训练集上各类邮件是否包含“炒股”的概率分布与实际应用场景下的分布是相同的),那么就可以得出一个结论:适应于真实场合的最优模型与旧模型只差了P(Y)。根据这个结论,可知只需通过修正现有分类模型的先验分布P(Y)得到一个适合实际场景的分类模型,要让分类模型适应于实际的应用场景,可以不需要对模型进行重新训练,只需要将实际应用场景下标签的分布替换掉在训练集上的先验分布即可。但是真正的实际场景也不可能提前给出各个类别的先验分布,因此本发明考虑让分类模型在实际的使用中进行微调,最终接近于应用场合下的各类别的真实分布,其具体应用过程如图2所示,主要分为:
1、训练分类模型model,model输入样本特征X,输出类别的概率分布:P(Y|X)=model(X)。
2、统计训练集上标签Y的频率P0(Y),用P0(Y)初始化一个向量V作为实际应用场景下各个标签的先验分布。
3、将模型应用于实际场景,用P(Y|X)=normal(model(X)*V/P0(Y))来推断当前样本所属标签的概率,其中normal为归一化操作。
4、利用公式V=(1-alpha)*V+alpha*P(Y|X)对V进行微调,其中alpha表示学习率一般取一个很小的数,本实施例中,alpha=0.001,(1-alpha)*V表示保留旧的部分,alpha*P(Y|X)表示更新的部分。
5、重复3、4,当分类模型应用于实际场景的次数足够多时,向量V将微调到接近于真实场景下标签的真实分布,分类模型应用于实际的效果也会相应得到改善。
本发明只需要学习实际场景下的先验分布,而无需重新训练分类模型,因此学习量小;且适用于P(X|Y)具有相同分布的所有应用场景,部署后几乎不需要任何维护。本发明适应于基于概率模型的单标签、多标签的二分类、多分类模型,例如朴素贝叶斯、逻辑回归、sigmoid或softmax激活的MLP分类器,且适应于P(X|Y)与训练集上差异不大的应用场景。(例如:训练样本就采样自真实的应用场合,且各标签下完全随机采样。)
为验证本发明方法的有效性,本实施例采用sklearn分别构建基于高斯型特征分布的朴素贝叶斯分类器、逻辑回归分类器和多层感知机分类器。分类数据有两个特征维度:正类特征向量服从以(1,1)为中心方差为1的正态分布,负类特征向量服从以(-1,-1)为中心方差为1正态分布;
采用正负样本为1:1的训练集训练模型,输出模型测试集、应用数据集上的召回率与精确率,最后再使用本发明提出的方法对模型进行微调,找到模型的标签先验分布P0以及真实应用场景下的正负样本的分布V,然后根据P0、V对模型预测的概率进行调整,用调整后的概率作为模型预测类别的判断依据,分别测试朴素贝叶斯分类器、逻辑回归分类器和多层感知机分类器,得到如表7所示的对比数据:
表7
Figure BDA0002459877440000071
由表7的数据可知,三种分类模型经过微调后模型预测负样本的精确率都得到了大幅提高,从优化前的50%多提高到了优化后的85%以上。表明了本发明方法能够提高分类模型应用于不同标签分布场合后的应用效果,能够保证邮件分类的准确度。

Claims (5)

1.一种适用于不同标签分布场合的邮件分类方法,其特征在于,包括以下步骤:
S1、根据训练集,训练得到分类模型;
S2、统计训练集中各个标签的频率,以初始化得到一个对应于所有标签的向量;
S3、将分类模型应用于实际邮件场景,结合归一化操作,以输出得到当前样本特征所属标签的概率;
S4、基于步骤S3中当前样本特征所属标签的概率,对步骤S2中的向量进行调整;
S5、将调整后的向量作为实际邮件场景下各个标签的先验分布,得到更新后的分类模型;
S6、将该更新后的分类模型再次应用于不同的实际邮件场景,重复步骤S3~S5,以实时在线更新分类模型;
S7、将实时在线更新后的分类模型应用于目标邮件,从目标邮件中分类筛选出包含垃圾文本的邮件,完成邮件分类;
所述分类模型包括基于概率模型的二分类模型以及多分类模型,所述训练集中所有样本特征均来自于实际邮件场景,且各个标签下完全随机采样;
所述步骤S1中分类模型具体为:
Figure FDA0004254306310000011
其中,P(Y|X)为样本特征X条件下标签Y的概率分布,P(X|Y)为标签取Y时样本特征为X的概率,P(Y)为标签Y的先验分布,P(X)为样本特征X的先验分布;
所述步骤S3中当前样本特征所属标签的概率具体为:
Pn(Y|X)=normal(model(X)*V/P0(Y))
其中,V为对应于所有标签的向量,P0(Y)为训练集中标签Y的频率,normal表示归一化操作;
所述步骤S4中调整后的向量具体为:
Vn=(1-α)*V+α*Pn(Y|X)
其中,Vn为调整后的向量,α为学习率。
2.根据权利要求1所述的一种适用于不同标签分布场合的邮件分类方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、统计得到训练集中各个标签的频率;
S22、将训练集中各个标签的频率依次排列组合,以构成一个向量。
3.根据权利要求2所述的一种适用于不同标签分布场合的邮件分类方法,其特征在于,所述步骤S22具体是按标签顺序将训练集中各个标签的频率依次排列组合。
4.根据权利要求1所述的一种适用于不同标签分布场合的邮件分类方法,其特征在于,所述学习率α=0.001。
5.根据权利要求1所述的一种适用于不同标签分布场合的邮件分类方法,其特征在于,所述步骤S5和S6中更新后的分类模型具体为:
Figure FDA0004254306310000021
CN202010316830.0A 2020-04-21 2020-04-21 一种适用于不同标签分布场合的邮件分类方法 Active CN111563721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010316830.0A CN111563721B (zh) 2020-04-21 2020-04-21 一种适用于不同标签分布场合的邮件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010316830.0A CN111563721B (zh) 2020-04-21 2020-04-21 一种适用于不同标签分布场合的邮件分类方法

Publications (2)

Publication Number Publication Date
CN111563721A CN111563721A (zh) 2020-08-21
CN111563721B true CN111563721B (zh) 2023-07-11

Family

ID=72071895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010316830.0A Active CN111563721B (zh) 2020-04-21 2020-04-21 一种适用于不同标签分布场合的邮件分类方法

Country Status (1)

Country Link
CN (1) CN111563721B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656448B (zh) * 2021-08-09 2023-12-26 国家计算机网络与信息安全管理中心 一种报文处理方法、装置、设备及可读存储介质
CN115083442B (zh) * 2022-04-29 2023-08-08 马上消费金融股份有限公司 数据处理方法、装置、电子设备以及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001848A (zh) * 2011-09-08 2013-03-27 中国电信股份有限公司 垃圾邮件过滤方法及装置
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN108062331A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于终生学习的增量式朴素贝叶斯文本分类方法
CN110149268A (zh) * 2019-05-15 2019-08-20 深圳市趣创科技有限公司 一种自动过滤垃圾邮件的方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8744883B2 (en) * 2006-12-19 2014-06-03 Yahoo! Inc. System and method for labeling a content item based on a posterior probability distribution
US11636309B2 (en) * 2018-01-17 2023-04-25 Unlearn.AI, Inc. Systems and methods for modeling probability distributions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001848A (zh) * 2011-09-08 2013-03-27 中国电信股份有限公司 垃圾邮件过滤方法及装置
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN108062331A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于终生学习的增量式朴素贝叶斯文本分类方法
CN110149268A (zh) * 2019-05-15 2019-08-20 深圳市趣创科技有限公司 一种自动过滤垃圾邮件的方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kriti Agarwal et al..Email Spam Detection Using Integrated Approach of Naïve Bayes and Particle Swarm Optimization.《2018 Second International Conference on Intelligent Computing and Control System(ICICCS)》.2019,全文. *
基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现;王斌;《电子设计工程》;20180930;第26卷(第17期);全文 *

Also Published As

Publication number Publication date
CN111563721A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
US10891540B2 (en) Adaptive neural network management system
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN111882055B (zh) 一种基于CycleGAN与伪标签的目标检测自适应模型的构建方法
CN111563721B (zh) 一种适用于不同标签分布场合的邮件分类方法
CN112015863A (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN107292097B (zh) 基于特征组的中医主症选择方法
CN112862093B (zh) 一种图神经网络训练方法及装置
CN103577195A (zh) 一种软件需求分析量化方法及系统
US20150161232A1 (en) Noise-enhanced clustering and competitive learning
CN112766334A (zh) 一种基于伪标签域适应的跨域图像分类方法
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN111340107A (zh) 基于卷积神经网络代价敏感学习的故障诊断方法及系统
CN111652264B (zh) 基于最大均值差异的负迁移样本筛选方法
CN113269647A (zh) 基于图的交易异常关联用户检测方法
CN112329837A (zh) 一种对抗样本检测方法、装置、电子设备及介质
CN116192500A (zh) 一种对抗标签噪声的恶意流量检测装置及方法
CN112132257A (zh) 基于金字塔池化及长期记忆结构的神经网络模型训练方法
CN112801162A (zh) 基于图像属性先验的自适应软标签正则化方法
CN114495114B (zh) 基于ctc解码器的文本序列识别模型校准方法
Bootkrajang et al. Learning a label-noise robust logistic regression: Analysis and experiments
CN107229944B (zh) 基于认知信息粒子的半监督主动识别方法
CN109359677B (zh) 一种耐噪在线多分类核学习算法
CN113344031B (zh) 一种文本分类方法
CN114373097A (zh) 一种基于无监督的图像分类方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant