CN114629871A

CN114629871A - 一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质

Info

Publication number: CN114629871A
Application number: CN202210196592.3A
Authority: CN
Inventors: 张延楠; 张珂杰; 谭锦志; 尚璇; 胡麦芳
Original assignee: Hangzhou Qulian Technology Co Ltd
Current assignee: Hangzhou Qulian Technology Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-14

Abstract

本发明涉及一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质。本发明首先，基于时间戳等大小划分数据块。然后，将保留的先前时刻的小样本过采样候选数据块中的小类集。并使用马氏距离评估先前小样本与当前小类集的相似度。如果基于相似度评估的过采样技术无法平衡候选数据块的类别分布，则进一步利用候选数据块中边界小样本进行SMOTE生成新的小样本。最后，使用类别分布平衡的扩充候选邮件数据块训练得到基础分类器。为了降低垃圾邮件过滤模型的时空开销以及提高模型对概念漂移适应的速度，使用集成剪枝技术去除集成框架中性能最差的若干基础分类器。对垃圾邮件的过滤即使用集成模型中每个基础分类器的预测结果。

Description

一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质

技术领域

本发明涉及一种基于不平衡动态流数据分类的垃圾邮件过滤方法、设备及存储介质。

背景技术

据统计，垃圾邮件每年都会给全球的公司带来了巨大的经济损失，因此垃圾邮件的过滤是一项非常必要的任务。电子邮件中数据分布的动态性以及数据的海量性大大增加了垃圾邮件过滤任务的复杂性。电子邮件数据每天都在不断地产生，数据量非常庞大。同时，数据分布也会随着时间不断地调整，因此可以将电子邮件数据看作流数据，也被称为邮件流数据。其中，电子邮件数据分布的动态性也被称为概念漂移，这种数据分布的不稳定性出现是因为垃圾邮件散布者希望垃圾邮件能够绕开垃圾邮件过滤模型。概念漂移特征是垃圾邮件难以被邮件过滤模型识别的重要原因，垃圾邮件过滤模型需要实时地自我调整以适应新的邮件流环境。例如，垃圾邮件过滤器经过模型调整以适应当前的垃圾邮件数据类型，垃圾邮件发送者通过修改、混淆对电子邮件进行伪装，使垃圾邮件更为接近合法的电子邮件。垃圾邮件的这种数据的动态特性要求垃圾邮件过滤模型需要不断地更新。

垃圾邮件数据的数据量是海量的，因此，很难使用批处理模型对其进行处理，可以使用流数据增量方式对邮件流数据进行学习，即每次只使用最新的电子邮件数据进行垃圾邮件过滤模型的训练。由于最新的电子邮件数据通常能够最好地代表当前与未来不久的数据分布，因此使用增量学习的方式，基于邮件数据块划分技术，可以适应概念漂移问题。同时，由于垃圾邮件的个数通常是少于正常邮件的个数，传统的流数据分类技术对垃圾邮件数据类别的识别率会很低。因此，可使用不平衡动态流数据分类对新来的电子邮件的类别标签进行预测，从而可以有效地过滤垃圾邮件。

发明内容

考虑到邮件数据的海量性以及动态性，本发明旨在提供一种基于概念漂移检测的金融交易欺诈识别方法、设备及存储介质。

本发明的一方面，提供了一种基于不平衡动态流数据分类的垃圾邮件过滤方法，包括以下步骤：

步骤1)将邮件流数据基于时间戳划分成等大小的候选数据块D_t，并保留邮件数据块中的小样本，得到Min_t。

步骤2)将步骤1获取的候选数据块D_t中的样本划分为小类集P_t和大类集N_t。候选数据块中的垃圾邮件被称为小样本，形成小样本集。正常邮件被称为大样本，形成大样本集。

步骤3)基于相似度评估机制，从步骤1中获取的Min_t中选出小类集Pt’，并用Pt’更新D_t。

步骤4)基于更新后的D_t，训练得到基础分类器，并加入邮件流数据集成分类模型E中。

步骤5)对于步骤4)得到的邮件流数据集成分类模型E，使用基于性能的剪枝技术去除性能差的基础分类器，从而得到垃圾邮件过滤模型M，使用垃圾邮件过滤模型M对新来的邮件数据的类别进行预测。

进一步说，步骤1)中Min_t中保留了目前为止到达的所有垃圾邮件样本，候选数据块D_t是最新获得的数据块。

进一步说，步骤3)中通过使用马氏距离衡量Min_t中每个小样本与当前小类集P_t中样本的相似度，选择距离小于设定值的小样本集P_t’用于过采样P_t。

进一步说，所述小样本集P_t’中样本的数量|P_t’|取决于D_t中P_t与N_t中样本的个数，设P_t与N_t中样本的数量分别为|P_t|和|N_t|。若Min_t中小样本足够多，足以平衡候选邮件数据块D_t的类别分布，则|P_t’|＝|N_t|-|P_t|。相反地，若Min_t中小样本数量不足以平衡候选数据块的类别分布，则使用Min_t中所有的样本用于过采样，则|P_t’|＝|P_t|。

进一步说，若步骤3)中的P_t’不足以平衡候选数据块D_t的类别分布，则使用基于边界样本的重采样技术，得到更新后的类别分布平衡的候选数据块D_t。

进一步说，所述的基于边界样本的重采样技术具体是：

使用KNN算法识别出候选数据块D_t中的边界邮件样本，得到边界样本集B_t。

使用边界样本集B_t中的小样本进行SMOTE算法生成新的小样本集。

进一步说，步骤4)中所述的基础分类器基于VFDT模型。

进一步说，步骤5)中为了适应邮件数据中的概念漂移问题，基于分类性能对每个已保留的基础分类器进行加权，最后在垃圾邮件识别时，综合考虑集成框架中所有基础分类器预测性能的加权值。每个基础分类器的权重基于其对步骤4)中更新后的D_t中样本的分类性能。

本发明的另一方面，提供了一种基于不平衡动态流数据分类的垃圾邮件过滤设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述基于不平衡动态流数据分类的垃圾邮件过滤方法。

本发明的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述基于不平衡动态流数据分类的垃圾邮件过滤方法。

本发明与现有技术相比，本发明产生的有益效果是：

本发明一方面，使用增量学习的方式训练得到垃圾邮件过滤模型，即使用流数据集成分类器来预测邮件数据的类别标签。为了解决邮件数据中的概念漂移问题，基于邮件数据分布的特点适应性地调整基础分类器的权重。其中，每个基础分类器是使用不同时间段的邮件流数据进行训练的。另一方面，为了电子邮件数据中存在的类别不平衡问题，使用重采样机制平衡每个数据块中电子邮件数据的类别分布，从而可以有效地提高垃圾邮件过滤模型对垃圾邮件的识别率。

附图说明

图1为本发明提出的一种基于不平衡动态流数据分类的垃圾邮件过滤方法原理图。

图2为本发明的设备结构图。

具体实施方式

本发明主要包含以下步骤：

步骤1)邮件数据块划分：将邮件流数据基于时间戳划分成等大小的数据块，并保留数据块中的垃圾邮件样本构成Min_t。即每个邮件流数据块中含有同等数量的邮件数据，D_t是t时刻获取得到的数据块，又被称为候选数据块。数据的类别分布通常是不平衡的。同时，需要对数据块中的垃圾邮件样本进行保存，Min_t表示t时刻已存储的小类集。

步骤2)候选邮件数据块中划分大类集与小类集：将步骤1获取的候选数据块D_t中的邮件数据分为垃圾邮件数据P_t以及正常邮件数据N_t两部分。其中，P_t中保留了候选数据块中的小样本或垃圾邮件样本，N_t中保留了候选数据块中的大样本或正常邮件样本。通常地，P_t中样本的数量是少于N_t中样本的数量。因此，若直接使用D_t中的邮件数据进行垃圾邮件过滤模型构建，则模型的性能会偏向于大样本，对垃圾邮件的识别率会比较低。

步骤3)基于相似度评估的重采样：从步骤1获取的Min_t中基于相似度评估机制选出小类集P_t’，并用Pt’更新D_t。

为了解决D_t中的训练数据类别不平衡问题，使用Min_t中保留的小样过采样当前的小类集。由于邮件数据的数据分布是不稳定的，因此Min_t中的垃圾邮件样本可能会严重偏离于当前的数据分布。因此，不能盲目地用Min_t中的样本用以过采样过程中。通过使用马氏距离衡量Min_t中每个小样本与当前小类集中P_t中样本的相似度，选择距离较小或相似度较高的小样本集P_t’用以过采样P_t。其中，P_t’中样本的数量取决于D_t中P_t与N_t中样本的个数，分别为|P_t|和|N_t|。若Min_t中小样本足够多，足以平衡候选邮件数据块的类别分布，则|P_t’|＝|N_t|-|P_t|。相反地，若Min_t中小样本数量不足以平衡候选数据块的类别分布，则使用Min_t中所有的样本用以过采样，则|P_t’|＝|P_t|。

步骤4)基于边界样本的重采样：若步骤3中的P_t’不足以平衡D_t的类别分布，则使用基于边界样本的重采样技术更新D_t，得到更新后的类别分布平衡的候选邮件数据块D_t，即此时的D_t是更新后的类别分布平衡的候选邮件数据块。

首先，使用KNN算法识别出边界小样本，若K＝5,即P_t中某样本的5近邻中有3个为大样本，则该小样本处于边界区域，从而得到边界小样本集B_t。然后,B_t中的垃圾邮件样本使用SMOTE算法生成新的小样本集S_t，其中S_t中样本的个数等于|N_t|-|P_t|-|Min_t|。使用基于边界样本的重采样机制，最终可以获得更新后的类别分布平衡的候选邮件数据块D_t。

步骤5)基础分类器的训练：基于获得的新的数据块D_t训练出基础分类器，并将其加入集成分类模型E中。其中，单分类器使用VFDT模型。垃圾邮件过滤模型使用了流数据集成分类模型，相比于单分类器模型，具有较高的泛化能力。其中，集成框架中每个基础分类器的训练数据即不同时刻划分得到的邮件数据块，其中的类别分布通过基于相似度评估的重采样技术以及基于边界样本的重采样技术已达到平衡。因此，基于D_t训练得到的VFDT分类器模型对垃圾邮件具有较高的过滤性能。

步骤6)集成剪枝与预测：对于训练得到的邮件数据集成分类模型E，使用集成剪枝去除性能差的基础分类器，从而得到垃圾邮件过滤模型M，并使用M对新来的邮件数据进行预测。为了提高邮件流数据集成分类模型对概念漂移适应的速度，若集成成员的个数超过预定义的阈值，则使用集成剪枝技术去除集成框架中性能最差的若干基础分类器。过时的基础分类器往往会降低流数据集成分类模型对最终的垃圾邮件的预测性能，同时会花费更多的时间与空间。另外，为了适应邮件数据中的概念漂移问题，基于分类性能对每个已保留的基础分类器进行加权，最后在垃圾邮件识别时，综合考虑集成框架中所有基础分类器预测性能的加权值。每个基础分类器的权重基于其对步骤5)中更新后的D_t中样本的分类性能。

优选地，步骤1)中，基于邮件数据达到的时间，进行等大小数据块的划分，每个数据块中邮件数据量是固定的，且其中的类别分布是不平衡的。同时，为了处理数据块中类别不平衡问题，对每个数据块中的小样本进行保存，Min_t表示t时刻已收集保存的小类集。

优选地，步骤2)中，候选数据块D_t中的样本被分为P_t和N_t。由于D_t类别分布往往是不平衡的，则P_t中样本的数量是少于N_t中样本的数量。

优选地，步骤3)中，由于保留的先前时刻的垃圾邮件样本，其数据分布与候选数据块的小类集不一致，即存在概念漂移现象。需要使用基于相似度评估的过采样机制。使用马氏距离来评估Min_t中每个样本与P_t中的相似度。相比于欧氏距离，马氏距离在距离计算时，可以考虑P_t的数据分布。因此，并不是盲目地将保留的过去时刻的小样本用以过采样，而且只选择与当前小类集足够相似的先前小样本用以过采样，可以避免在候选数据块中引入漂移小样本。优先选择相似度高的垃圾邮件样本用以过采样，被选中的用以平衡类别数据分布的Min_t中小样本的数量，取决于候选邮件数据块中大样本集与小样本集的大小。

优选地，步骤4)中，若Min_t中小样本数量不足以平衡候选数据块的类别分布，则使用Min_t中所有的样本用以过采样，而不需要进行小样本的挑选。因为处于边界区域的样本往往具有更为丰富的分类信息，同时，基于P_t中处于边界区域的样本生成新的小样本，进一步平衡D_t的类别分布。最终，得到更新后的类别分布平衡的候选数据块D_t。

优选地，步骤5)中，使用流数据集成分类模型对新达到的邮件数据进行分类，从而判定其是否为垃圾邮件。集成分类模型中每个基础分类器的训练基于连续划分的数据块，因此，过采样后类别分布平衡的候选数据块D_t可以训练得到一个基础分类器。

优选地，步骤6)中，集成剪枝技术一方面提高了集成分类模型对概念漂移处理的速度，另一方面也降低了模型的时间与空间花销。垃圾邮件过滤时综合了所有集成框架中基础分类器的性能，并考虑到了每个基础分类器的权重。垃圾邮件过滤模型通过适应性地调节基础分类器的权重，可以有效地适应不断变化的邮件数据分布环境。

实施例：

本实施例提出了一种基于不平衡动态流数据分类的垃圾邮件过滤方法，如图1所示，该模型中主要包含了邮件数据块划分机制、基于相似度评估的候选邮件数据块重采样机制、基于边界样本的候选邮件数据块重采样机制、邮件数据基础分类机制、集成剪枝机制与基于流数据集成分类模型的垃圾邮件过滤机制。

首先，将邮件数据等大小地划分成连续的数据块用于描述邮件信息的数其中，每个数据块中包含了等量的邮件数据项，且类别分布通常是不平衡的。为了平衡邮件数据块中的类别分布，使用了两种重采样机制。一方面，用Min_t表示t时刻存储的小类集，该集合中的样本用以重采样P_t。垃圾邮件集合被称为小样本集P_t，正常邮件集合被称为大样本集N_t。由于邮件数据中存在的概念漂移问题，则使用马氏距离评估过去时刻某小样本与P_t的相似度，只选出Min_t中与当前小样本足够相似的小样本用于过采样。另一方面，基于相似度评估的重采样机制无法使得原有的D_t达到类别分布平衡，则使用基于边界样本的重采样技术过采样P_t。通过这两个重采样机制，得到更新后的D_t，此时D_t是类别分布平衡的候选数据块。

然后，基于VFDT模型，使用更新后的Dt中的样本训练出基础分类器，该基础分类器的训练数据是类别平衡的，因此基础分类器对垃圾邮件具有较高的识别率。最后，若集成模型中基础分类器的个数超过预定义的阈值，则使用集成剪枝去除性能最差的若干基础分类器。并使用集成框架中保留的基础分类器对新来的邮件数据的类别标签进行预测，从而构建了基于不平衡动态流数据分类的垃圾邮件过滤模型。

本发明的实施例可以应用在网络设备上。实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的，其中计算机程序用于执行上述步骤1)-步骤6)所确定的方法。从硬件层面而言，如图2所示，为本发明的基于不平衡动态流数据分类的垃圾邮件过滤设备的硬件结构图，除了图2所示的处理器、网络接口、内存以及非易失性存储器之外，所述设备通常还可以包括其他硬件，以便在硬件层面进行的扩展。另一方面，本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述步骤1)-步骤6)所确定的方法。

对于实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：包括以下步骤：

步骤1)将邮件流数据基于时间戳划分成等大小的候选数据块D_t，并保留邮件数据块中的小样本，得到Min_t；

步骤2)将步骤1获取的候选数据块D_t中的样本划分为小类集P_t和大类集N_t；候选数据块中的垃圾邮件被称为小样本，形成小样本集；正常邮件被称为大样本，形成大样本集；

步骤3)基于相似度评估机制，从步骤1中获取的Min_t中选出小类集Pt’，并用Pt’更新D_t；

步骤4)基于更新后的D_t，训练得到基础分类器，并加入邮件流数据集成分类模型E中；

2.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：步骤1)中Min_t中保留了目前为止到达的所有垃圾邮件样本，所述候选数据块D_t是最新获得的数据块。

3.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：步骤3)中通过使用马氏距离衡量Min_t中每个小样本与当前小类集P_t中样本的相似度，选择距离小于设定值的小样本集P_t’用于过采样P_t。

4.根据权利要求3所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：所述小样本集P_t’中样本的数量|P_t’|取决于D_t中P_t与N_t中样本的个数，设P_t与N_t中样本的数量分别为|P_t|和|N_t|；若Min_t中小样本足够多，足以平衡候选邮件数据块D_t的类别分布，则|P_t’|＝|N_t|-|P_t|；相反地，若Min_t中小样本数量不足以平衡候选数据块的类别分布，则使用Min_t中所有的样本用于过采样，则|P_t’|＝|P_t|。

5.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：若步骤3)中的P_t’不足以平衡候选数据块D_t的类别分布，则使用基于边界样本的重采样技术，得到更新后的类别分布平衡的候选数据块D_t。

6.根据权利要求5所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：所述的基于边界样本的重采样技术具体是：

使用KNN算法识别出候选数据块D_t中的边界邮件样本，得到边界样本集B_t；

7.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：步骤4)中所述的基础分类器基于VFDT模型。

8.根据权利要求1所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法，其特征在于：步骤5)中为了适应邮件数据中的概念漂移问题，基于分类性能对每个已保留的基础分类器进行加权，最后在垃圾邮件识别时，综合考虑集成框架中所有基础分类器预测性能的加权值；每个基础分类器的权重基于其对步骤4)中更新后的D_t中样本的分类性能。

9.一种基于不平衡动态流数据分类的垃圾邮件过滤设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述权利要求1-8任一所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的一种基于不平衡动态流数据分类的垃圾邮件过滤方法。