CN114629871A - 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 - Google Patents
一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114629871A CN114629871A CN202210196592.3A CN202210196592A CN114629871A CN 114629871 A CN114629871 A CN 114629871A CN 202210196592 A CN202210196592 A CN 202210196592A CN 114629871 A CN114629871 A CN 114629871A
- Authority
- CN
- China
- Prior art keywords
- samples
- small
- spam
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000013138 pruning Methods 0.000 claims abstract description 9
- 230000000717 retained effect Effects 0.000 claims abstract description 5
- 238000012952 Resampling Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 abstract description 2
- 230000010354 integration Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质。本发明首先,基于时间戳等大小划分数据块。然后,将保留的先前时刻的小样本过采样候选数据块中的小类集。并使用马氏距离评估先前小样本与当前小类集的相似度。如果基于相似度评估的过采样技术无法平衡候选数据块的类别分布,则进一步利用候选数据块中边界小样本进行SMOTE生成新的小样本。最后,使用类别分布平衡的扩充候选邮件数据块训练得到基础分类器。为了降低垃圾邮件过滤模型的时空开销以及提高模型对概念漂移适应的速度,使用集成剪枝技术去除集成框架中性能最差的若干基础分类器。对垃圾邮件的过滤即使用集成模型中每个基础分类器的预测结果。
Description
技术领域
本发明涉及一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质。
背景技术
据统计,垃圾邮件每年都会给全球的公司带来了巨大的经济损失,因此垃圾邮件的过滤是一项非常必要的任务。电子邮件中数据分布的动态性以及数据的海量性大大增加了垃圾邮件过滤任务的复杂性。电子邮件数据每天都在不断地产生,数据量非常庞大。同时,数据分布也会随着时间不断地调整,因此可以将电子邮件数据看作流数据,也被称为邮件流数据。其中,电子邮件数据分布的动态性也被称为概念漂移,这种数据分布的不稳定性出现是因为垃圾邮件散布者希望垃圾邮件能够绕开垃圾邮件过滤模型。概念漂移特征是垃圾邮件难以被邮件过滤模型识别的重要原因,垃圾邮件过滤模型需要实时地自我调整以适应新的邮件流环境。例如,垃圾邮件过滤器经过模型调整以适应当前的垃圾邮件数据类型,垃圾邮件发送者通过修改、混淆对电子邮件进行伪装,使垃圾邮件更为接近合法的电子邮件。垃圾邮件的这种数据的动态特性要求垃圾邮件过滤模型需要不断地更新。
垃圾邮件数据的数据量是海量的,因此,很难使用批处理模型对其进行处理,可以使用流数据增量方式对邮件流数据进行学习,即每次只使用最新的电子邮件数据进行垃圾邮件过滤模型的训练。由于最新的电子邮件数据通常能够最好地代表当前与未来不久的数据分布,因此使用增量学习的方式,基于邮件数据块划分技术,可以适应概念漂移问题。同时,由于垃圾邮件的个数通常是少于正常邮件的个数,传统的流数据分类技术对垃圾邮件数据类别的识别率会很低。因此,可使用不平衡动态流数据分类对新来的电子邮件的类别标签进行预测,从而可以有效地过滤垃圾邮件。
发明内容
考虑到邮件数据的海量性以及动态性,本发明旨在提供一种基于概念漂移检测的金融交易欺诈识别方法、设备及存储介质。
本发明的一方面,提供了一种基于不平衡动态流数据分类的垃圾邮件过滤方法,包括以下步骤:
步骤1)将邮件流数据基于时间戳划分成等大小的候选数据块Dt,并保留邮件数据块中的小样本,得到Mint。
步骤2)将步骤1获取的候选数据块Dt中的样本划分为小类集Pt和大类集Nt。候选数据块中的垃圾邮件被称为小样本,形成小样本集。正常邮件被称为大样本,形成大样本集。
步骤3)基于相似度评估机制,从步骤1中获取的Mint中选出小类集Pt’,并用Pt’更新Dt。
步骤4)基于更新后的Dt,训练得到基础分类器,并加入邮件流数据集成分类模型E中。
步骤5)对于步骤4)得到的邮件流数据集成分类模型E,使用基于性能的剪枝技术去除性能差的基础分类器,从而得到垃圾邮件过滤模型M,使用垃圾邮件过滤模型M对新来的邮件数据的类别进行预测。
进一步说,步骤1)中Mint中保留了目前为止到达的所有垃圾邮件样本,候选数据块Dt是最新获得的数据块。
进一步说,步骤3)中通过使用马氏距离衡量Mint中每个小样本与当前小类集Pt中样本的相似度,选择距离小于设定值的小样本集Pt’用于过采样Pt。
进一步说,所述小样本集Pt’中样本的数量|Pt’|取决于Dt中Pt与Nt中样本的个数,设Pt与Nt中样本的数量分别为|Pt|和|Nt|。若Mint中小样本足够多,足以平衡候选邮件数据块Dt的类别分布,则|Pt’|=|Nt|-|Pt|。相反地,若Mint中小样本数量不足以平衡候选数据块的类别分布,则使用Mint中所有的样本用于过采样,则|Pt’|=|Pt|。
进一步说,若步骤3)中的Pt’不足以平衡候选数据块Dt的类别分布,则使用基于边界样本的重采样技术,得到更新后的类别分布平衡的候选数据块Dt。
进一步说,所述的基于边界样本的重采样技术具体是:
使用KNN算法识别出候选数据块Dt中的边界邮件样本,得到边界样本集Bt。
使用边界样本集Bt中的小样本进行SMOTE算法生成新的小样本集。
进一步说,步骤4)中所述的基础分类器基于VFDT模型。
进一步说,步骤5)中为了适应邮件数据中的概念漂移问题,基于分类性能对每个已保留的基础分类器进行加权,最后在垃圾邮件识别时,综合考虑集成框架中所有基础分类器预测性能的加权值。每个基础分类器的权重基于其对步骤4)中更新后的Dt中样本的分类性能。
本发明的另一方面,提供了一种基于不平衡动态流数据分类的垃圾邮件过滤设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述基于不平衡动态流数据分类的垃圾邮件过滤方法。
本发明的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述基于不平衡动态流数据分类的垃圾邮件过滤方法。
本发明与现有技术相比,本发明产生的有益效果是:
本发明一方面,使用增量学习的方式训练得到垃圾邮件过滤模型,即使用流数据集成分类器来预测邮件数据的类别标签。为了解决邮件数据中的概念漂移问题,基于邮件数据分布的特点适应性地调整基础分类器的权重。其中,每个基础分类器是使用不同时间段的邮件流数据进行训练的。另一方面,为了电子邮件数据中存在的类别不平衡问题,使用重采样机制平衡每个数据块中电子邮件数据的类别分布,从而可以有效地提高垃圾邮件过滤模型对垃圾邮件的识别率。
附图说明
图1为本发明提出的一种基于不平衡动态流数据分类的垃圾邮件过滤方法原理图。
图2为本发明的设备结构图。
具体实施方式
本发明主要包含以下步骤:
步骤1)邮件数据块划分:将邮件流数据基于时间戳划分成等大小的数据块,并保留数据块中的垃圾邮件样本构成Mint。即每个邮件流数据块中含有同等数量的邮件数据,Dt是t时刻获取得到的数据块,又被称为候选数据块。数据的类别分布通常是不平衡的。同时,需要对数据块中的垃圾邮件样本进行保存,Mint表示t时刻已存储的小类集。
步骤2)候选邮件数据块中划分大类集与小类集:将步骤1获取的候选数据块Dt中的邮件数据分为垃圾邮件数据Pt以及正常邮件数据Nt两部分。其中,Pt中保留了候选数据块中的小样本或垃圾邮件样本,Nt中保留了候选数据块中的大样本或正常邮件样本。通常地,Pt中样本的数量是少于Nt中样本的数量。因此,若直接使用Dt中的邮件数据进行垃圾邮件过滤模型构建,则模型的性能会偏向于大样本,对垃圾邮件的识别率会比较低。
步骤3)基于相似度评估的重采样:从步骤1获取的Mint中基于相似度评估机制选出小类集Pt’,并用Pt’更新Dt。
为了解决Dt中的训练数据类别不平衡问题,使用Mint中保留的小样过采样当前的小类集。由于邮件数据的数据分布是不稳定的,因此Mint中的垃圾邮件样本可能会严重偏离于当前的数据分布。因此,不能盲目地用Mint中的样本用以过采样过程中。通过使用马氏距离衡量Mint中每个小样本与当前小类集中Pt中样本的相似度,选择距离较小或相似度较高的小样本集Pt’用以过采样Pt。其中,Pt’中样本的数量取决于Dt中Pt与Nt中样本的个数,分别为|Pt|和|Nt|。若Mint中小样本足够多,足以平衡候选邮件数据块的类别分布,则|Pt’|=|Nt|-|Pt|。相反地,若Mint中小样本数量不足以平衡候选数据块的类别分布,则使用Mint中所有的样本用以过采样,则|Pt’|=|Pt|。
步骤4)基于边界样本的重采样:若步骤3中的Pt’不足以平衡Dt的类别分布,则使用基于边界样本的重采样技术更新Dt,得到更新后的类别分布平衡的候选邮件数据块Dt,即此时的Dt是更新后的类别分布平衡的候选邮件数据块。
首先,使用KNN算法识别出边界小样本,若K=5,即Pt中某样本的5近邻中有3个为大样本,则该小样本处于边界区域,从而得到边界小样本集Bt。然后,Bt中的垃圾邮件样本使用SMOTE算法生成新的小样本集St,其中St中样本的个数等于|Nt|-|Pt|-|Mint|。使用基于边界样本的重采样机制,最终可以获得更新后的类别分布平衡的候选邮件数据块Dt。
步骤5)基础分类器的训练:基于获得的新的数据块Dt训练出基础分类器,并将其加入集成分类模型E中。其中,单分类器使用VFDT模型。垃圾邮件过滤模型使用了流数据集成分类模型,相比于单分类器模型,具有较高的泛化能力。其中,集成框架中每个基础分类器的训练数据即不同时刻划分得到的邮件数据块,其中的类别分布通过基于相似度评估的重采样技术以及基于边界样本的重采样技术已达到平衡。因此,基于Dt训练得到的VFDT分类器模型对垃圾邮件具有较高的过滤性能。
步骤6)集成剪枝与预测:对于训练得到的邮件数据集成分类模型E,使用集成剪枝去除性能差的基础分类器,从而得到垃圾邮件过滤模型M,并使用M对新来的邮件数据进行预测。为了提高邮件流数据集成分类模型对概念漂移适应的速度,若集成成员的个数超过预定义的阈值,则使用集成剪枝技术去除集成框架中性能最差的若干基础分类器。过时的基础分类器往往会降低流数据集成分类模型对最终的垃圾邮件的预测性能,同时会花费更多的时间与空间。另外,为了适应邮件数据中的概念漂移问题,基于分类性能对每个已保留的基础分类器进行加权,最后在垃圾邮件识别时,综合考虑集成框架中所有基础分类器预测性能的加权值。每个基础分类器的权重基于其对步骤5)中更新后的Dt中样本的分类性能。
优选地,步骤1)中,基于邮件数据达到的时间,进行等大小数据块的划分,每个数据块中邮件数据量是固定的,且其中的类别分布是不平衡的。同时,为了处理数据块中类别不平衡问题,对每个数据块中的小样本进行保存,Mint表示t时刻已收集保存的小类集。
优选地,步骤2)中,候选数据块Dt中的样本被分为Pt和Nt。由于Dt类别分布往往是不平衡的,则Pt中样本的数量是少于Nt中样本的数量。
优选地,步骤3)中,由于保留的先前时刻的垃圾邮件样本,其数据分布与候选数据块的小类集不一致,即存在概念漂移现象。需要使用基于相似度评估的过采样机制。使用马氏距离来评估Mint中每个样本与Pt中的相似度。相比于欧氏距离,马氏距离在距离计算时,可以考虑Pt的数据分布。因此,并不是盲目地将保留的过去时刻的小样本用以过采样,而且只选择与当前小类集足够相似的先前小样本用以过采样,可以避免在候选数据块中引入漂移小样本。优先选择相似度高的垃圾邮件样本用以过采样,被选中的用以平衡类别数据分布的Mint中小样本的数量,取决于候选邮件数据块中大样本集与小样本集的大小。
优选地,步骤4)中,若Mint中小样本数量不足以平衡候选数据块的类别分布,则使用Mint中所有的样本用以过采样,而不需要进行小样本的挑选。因为处于边界区域的样本往往具有更为丰富的分类信息,同时,基于Pt中处于边界区域的样本生成新的小样本,进一步平衡Dt的类别分布。最终,得到更新后的类别分布平衡的候选数据块Dt。
优选地,步骤5)中,使用流数据集成分类模型对新达到的邮件数据进行分类,从而判定其是否为垃圾邮件。集成分类模型中每个基础分类器的训练基于连续划分的数据块,因此,过采样后类别分布平衡的候选数据块Dt可以训练得到一个基础分类器。
优选地,步骤6)中,集成剪枝技术一方面提高了集成分类模型对概念漂移处理的速度,另一方面也降低了模型的时间与空间花销。垃圾邮件过滤时综合了所有集成框架中基础分类器的性能,并考虑到了每个基础分类器的权重。垃圾邮件过滤模型通过适应性地调节基础分类器的权重,可以有效地适应不断变化的邮件数据分布环境。
实施例:
本实施例提出了一种基于不平衡动态流数据分类的垃圾邮件过滤方法,如图1所示,该模型中主要包含了邮件数据块划分机制、基于相似度评估的候选邮件数据块重采样机制、基于边界样本的候选邮件数据块重采样机制、邮件数据基础分类机制、集成剪枝机制与基于流数据集成分类模型的垃圾邮件过滤机制。
首先,将邮件数据等大小地划分成连续的数据块用于描述邮件信息的数其中,每个数据块中包含了等量的邮件数据项,且类别分布通常是不平衡的。为了平衡邮件数据块中的类别分布,使用了两种重采样机制。一方面,用Mint表示t时刻存储的小类集,该集合中的样本用以重采样Pt。垃圾邮件集合被称为小样本集Pt,正常邮件集合被称为大样本集Nt。由于邮件数据中存在的概念漂移问题,则使用马氏距离评估过去时刻某小样本与Pt的相似度,只选出Mint中与当前小样本足够相似的小样本用于过采样。另一方面,基于相似度评估的重采样机制无法使得原有的Dt达到类别分布平衡,则使用基于边界样本的重采样技术过采样Pt。通过这两个重采样机制,得到更新后的Dt,此时Dt是类别分布平衡的候选数据块。
然后,基于VFDT模型,使用更新后的Dt中的样本训练出基础分类器,该基础分类器的训练数据是类别平衡的,因此基础分类器对垃圾邮件具有较高的识别率。最后,若集成模型中基础分类器的个数超过预定义的阈值,则使用集成剪枝去除性能最差的若干基础分类器。并使用集成框架中保留的基础分类器对新来的邮件数据的类别标签进行预测,从而构建了基于不平衡动态流数据分类的垃圾邮件过滤模型。
本发明的实施例可以应用在网络设备上。实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的,其中计算机程序用于执行上述步骤1)-步骤6)所确定的方法。从硬件层面而言,如图2所示,为本发明的基于不平衡动态流数据分类的垃圾邮件过滤设备的硬件结构图,除了图2所示的处理器、网络接口、内存以及非易失性存储器之外,所述设备通常还可以包括其他硬件,以便在硬件层面进行的扩展。另一方面,本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述步骤1)-步骤6)所确定的方法。
对于实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (10)
1.一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:包括以下步骤:
步骤1)将邮件流数据基于时间戳划分成等大小的候选数据块Dt,并保留邮件数据块中的小样本,得到Mint;
步骤2)将步骤1获取的候选数据块Dt中的样本划分为小类集Pt和大类集Nt;候选数据块中的垃圾邮件被称为小样本,形成小样本集;正常邮件被称为大样本,形成大样本集;
步骤3)基于相似度评估机制,从步骤1中获取的Mint中选出小类集Pt’,并用Pt’更新Dt;
步骤4)基于更新后的Dt,训练得到基础分类器,并加入邮件流数据集成分类模型E中;
步骤5)对于步骤4)得到的邮件流数据集成分类模型E,使用基于性能的剪枝技术去除性能差的基础分类器,从而得到垃圾邮件过滤模型M,使用垃圾邮件过滤模型M对新来的邮件数据的类别进行预测。
2.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:步骤1)中Mint中保留了目前为止到达的所有垃圾邮件样本,所述候选数据块Dt是最新获得的数据块。
3.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:步骤3)中通过使用马氏距离衡量Mint中每个小样本与当前小类集Pt中样本的相似度,选择距离小于设定值的小样本集Pt’用于过采样Pt。
4.根据权利要求3所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:所述小样本集Pt’中样本的数量|Pt’|取决于Dt中Pt与Nt中样本的个数,设Pt与Nt中样本的数量分别为|Pt|和|Nt|;若Mint中小样本足够多,足以平衡候选邮件数据块Dt的类别分布,则|Pt’|=|Nt|-|Pt|;相反地,若Mint中小样本数量不足以平衡候选数据块的类别分布,则使用Mint中所有的样本用于过采样,则|Pt’|=|Pt|。
5.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:若步骤3)中的Pt’不足以平衡候选数据块Dt的类别分布,则使用基于边界样本的重采样技术,得到更新后的类别分布平衡的候选数据块Dt。
6.根据权利要求5所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:所述的基于边界样本的重采样技术具体是:
使用KNN算法识别出候选数据块Dt中的边界邮件样本,得到边界样本集Bt;
使用边界样本集Bt中的小样本进行SMOTE算法生成新的小样本集。
7.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:步骤4)中所述的基础分类器基于VFDT模型。
8.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法,其特征在于:步骤5)中为了适应邮件数据中的概念漂移问题,基于分类性能对每个已保留的基础分类器进行加权,最后在垃圾邮件识别时,综合考虑集成框架中所有基础分类器预测性能的加权值;每个基础分类器的权重基于其对步骤4)中更新后的Dt中样本的分类性能。
9.一种基于不平衡动态流数据分类的垃圾邮件过滤设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述权利要求1-8任一所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210196592.3A CN114629871A (zh) | 2022-02-28 | 2022-02-28 | 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210196592.3A CN114629871A (zh) | 2022-02-28 | 2022-02-28 | 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114629871A true CN114629871A (zh) | 2022-06-14 |
Family
ID=81900004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210196592.3A Pending CN114629871A (zh) | 2022-02-28 | 2022-02-28 | 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114629871A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763466A (zh) * | 2010-01-20 | 2010-06-30 | 西安电子科技大学 | 基于动态样本选择集成的生物信息识别方法 |
CN103490974A (zh) * | 2012-06-14 | 2014-01-01 | 中国移动通信集团广西有限公司 | 一种垃圾邮件检测方法及装置 |
CN107341497A (zh) * | 2016-11-11 | 2017-11-10 | 东北大学 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
CN108009249A (zh) * | 2017-12-01 | 2018-05-08 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
EP3422262A1 (en) * | 2017-06-30 | 2019-01-02 | Royal Holloway And Bedford New College | Method of monitoring the performance of a machine learning algorithm |
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN110309198A (zh) * | 2019-06-03 | 2019-10-08 | 东北电力大学 | 一种基于分布式数据流处理的局部节点挖掘方法 |
CN111210343A (zh) * | 2020-02-21 | 2020-05-29 | 浙江工商大学 | 一种基于不平衡流数据分类的信用卡欺诈检测方法 |
CN111652268A (zh) * | 2020-04-22 | 2020-09-11 | 浙江盈狐云数据科技有限公司 | 一种基于重采样机制的不平衡流数据分类方法 |
CN111914253A (zh) * | 2020-08-10 | 2020-11-10 | 中国海洋大学 | 一种入侵检测的方法、系统、设备及可读存储介质 |
-
2022
- 2022-02-28 CN CN202210196592.3A patent/CN114629871A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763466A (zh) * | 2010-01-20 | 2010-06-30 | 西安电子科技大学 | 基于动态样本选择集成的生物信息识别方法 |
CN103490974A (zh) * | 2012-06-14 | 2014-01-01 | 中国移动通信集团广西有限公司 | 一种垃圾邮件检测方法及装置 |
CN107341497A (zh) * | 2016-11-11 | 2017-11-10 | 东北大学 | 结合选择性升采样的不均衡数据流加权集成分类预测方法 |
EP3422262A1 (en) * | 2017-06-30 | 2019-01-02 | Royal Holloway And Bedford New College | Method of monitoring the performance of a machine learning algorithm |
CN108009249A (zh) * | 2017-12-01 | 2018-05-08 | 北京中视广信科技有限公司 | 针对不平衡数据的融合用户行为规则的垃圾评论过滤方法 |
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN110309198A (zh) * | 2019-06-03 | 2019-10-08 | 东北电力大学 | 一种基于分布式数据流处理的局部节点挖掘方法 |
CN111210343A (zh) * | 2020-02-21 | 2020-05-29 | 浙江工商大学 | 一种基于不平衡流数据分类的信用卡欺诈检测方法 |
CN111652268A (zh) * | 2020-04-22 | 2020-09-11 | 浙江盈狐云数据科技有限公司 | 一种基于重采样机制的不平衡流数据分类方法 |
CN111914253A (zh) * | 2020-08-10 | 2020-11-10 | 中国海洋大学 | 一种入侵检测的方法、系统、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
任思琪: "基于概念漂移的数据流集成分类算法研究", 《博士学位论文全文库》, pages 3 - 84 * |
董明刚;张伟;敬超;: "面向不平衡数据流的动态权重集成分类算法", 小型微型计算机系统, no. 08 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Secker et al. | AISEC: an artificial immune system for e-mail classification | |
JP2007503034A (ja) | データストリーム中の異常オブジェクトを自動的にオンラインで検出及びクラス分類するための方法及び装置 | |
CN108809745A (zh) | 一种用户异常行为检测方法、装置及系统 | |
US20210073669A1 (en) | Generating training data for machine-learning models | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN116415206B (zh) | 运营商多数据融合方法、系统、电子设备及计算机存储介质 | |
CN111369009A (zh) | 一种能容忍不可信节点的分布式机器学习方法 | |
CN110213152A (zh) | 识别垃圾邮件的方法、装置、服务器及存储介质 | |
Wang et al. | Preventing discriminatory decision-making in evolving data streams | |
Kaur et al. | Improved email spam classification method using integrated particle swarm optimization and decision tree | |
CN112884121A (zh) | 基于生成对抗深度卷积网络的流量识别方法 | |
CN113516302B (zh) | 业务风险分析方法、装置、设备及存储介质 | |
CN106682058A (zh) | 应用程序的筛选方法、装置和系统 | |
CN112750038B (zh) | 交易风险的确定方法、装置和服务器 | |
CN114629871A (zh) | 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质 | |
CN112926663A (zh) | 分类模型的训练方法、装置、计算机设备及存储介质 | |
CN114826675B (zh) | 基于数据块集成分类的网络流量异常检测方法、设备及存储介质 | |
CN113986636B (zh) | 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法 | |
CN108171251A (zh) | 一种能够处理重现的概念的检测方法 | |
CN114818954A (zh) | 基于增量学习的工业互联网故障检测方法、设备及存储介质 | |
US7024426B2 (en) | Rationalization of data used in model of time varying event behavior | |
CN103001848A (zh) | 垃圾邮件过滤方法及装置 | |
CN114417958A (zh) | 基于改进图卷积神经网络的不均衡金融数据信用评估方法 | |
CN112396507A (zh) | 基于阴影划分的集成svm个人信用评估方法 | |
CN112231590A (zh) | 内容推荐方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |