CN110008388A

CN110008388A - 一种基于决策树的流数据分类方法

Info

Publication number: CN110008388A
Application number: CN201910238176.3A
Authority: CN
Inventors: 张莉; 马晶莹; 杨广明
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-07-12

Abstract

本发明提供一种基于决策树的流数据分类方法，涉及数据分类技术领域。本发明步骤如下：步骤1：分类器的构建；步骤2：根据初始集成分类模型对待分类数据进行分类，得到分类结果集；当数据容器Win_tmp内的数据大小满足滑动窗口大小时对当前的集成分类模型进行更新；步骤3：观察窗口内分类结果集中数据的分布状态，以该状态作为判断概念漂移是否发生的标准，完成概念漂移的检测；步骤4：获取历史数据，统计一天内数据量的增减规律；根据数据量的变化规律，获取预设时间段的数据量。步骤5：根据概念漂移检测结果和预设的数据量，对数据窗口进行扩大或缩小的操作。该方法提高了数据分类的准确率，使数据能够得到及时的处理，提高数据分类的效率。

Description

一种基于决策树的流数据分类方法

技术领域

本发明涉及数据分类技术领域，尤其涉及一种基于决策树的流数据分类方法。

背景技术

随着互联网、传感器、以至于物联网等的兴起和飞速发展，随之产生了海量流式数据，这些流数据因具有较高的研究价值和商业价值而倍受人们关注。此类数据需要根据时间序列对滑动时间窗口内的数据进行递增式处理与分析，包括分类，挖掘关联规则等，从中挖掘有用的信息，进而指导人们做出科学决策。

流数据具有实时产生、到达速度快、数据量大、难以重复获取等特点，如果仍然采用传统的分类挖掘模型与算法加以处理，将会丢失大量的有用信息。现有的一些针对流数据的数据挖掘方案及算法在分类问题上未能充分考虑到流数据的特点和实际应用场景，如数据流概念漂移问题、不完全标记问题，数据流速不均匀等。为此，很多研究人员对数据流的分类问题进行了研究，但仍存在一些不足。首先，现有的与流数据分析相关的大部分研究均假设到达的所有流数据都是被完全标记的，且这些标记可以直接利用。事实上，这种假设在许多实际应用中很难成立；另外，随着时间的变化，数据流中潜在的概念将发生变化(又称概念漂移)。很多检测算法过程复杂而繁琐，对空间和资源消耗较大；并且基于滑动窗口的数据流处理算法中，滑动窗口或者大小固定，或者仅随概念漂移发生改变，而对数据流本身的流量特点没有进行考虑，使得当数据流速很快或者很慢时得不到即时的处理，影响流数据处理的效率。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于决策树的流数据分类方法；本方法提高了数据分类的准确率，使数据能够得到及时的处理，提高数据分类的效率。

为解决上述技术问题，本发明所采取的技术方案是：

本发明提供一种基于决策树的流数据分类方法，包括以下步骤：

步骤1：分类器的构建；获取带有类标签的数据集包括训练集和测试集，通过训练集建立由多棵决策树构成初始集成分类模型；

将训练集添加到Win₁数据窗口中，根据集成分类方法对Win₁内的数据进行训练，得到分类模型M₁。然后使用分类模型M₁对滑动窗口Win₁内的数据重新进行分类，得到分类结果集并将分类结果集添加到数据窗口Win_c，使用Win_c数据窗口内数据重新构建分类模型M_c，分类模型M₁和M_c组成初始集成分类模型；

步骤2：将待分类数据集D中的数据d_x添加到临时数据容器Win_tmp内，其中x代表待分类的数据编号，用初始集成分类模型对临时数据容器内的数据进行分类，将待分类数据d_x使用分类模型M₁和M_c对数据进行分类，若分类结果一致，则该分类结果就作为该条数据的类标签，并将该标记的数据添加到临时数据容器Win_tmp内，得到分类结果集；若不一致，则将Win₁和Win_c的数据按照人为设定的比例进行混合抽样，得到K个混合数据集H₀,H₁,…,H_k-2,H_k-1，其中k代表混合数据集的数据编号，使用K个混合数据集构建K个分类模型M₀,M₁,…,M_k-2,M_k-1；使用这K个分类模型对待分类数据d_x进行分类，并对分类结果进行投票，被支持最多的类标签则作为该条数据的最终类标签，并将被标记的数据添加到临时数据容器Win_tmp内，得到分类结果集；

当数据容器Win_tmp内的数据大小满足滑动窗口大小时，利用分类结果集构建分类模型M_t，并对当前的集成分类模型进行更新；更新方法为：数据窗口Win_c对Win₁进行替换，数据容器Win_tmp对Win_c进行替换,由它们建立的分类模型也对应的进行替换，分类模型M_c对M₁进行替换，分类模型M_t对M_c进行替换。

判断当前集成分类模型是否更新了p次或p的倍数次，若否，则保留当前的集成分类模型；若是则用带有类标签的测试集对当前的集成分类模型的分类性能进行检测，判断分类准确率是否高于预设的阈值若高于预设的阈值则保留当前的集成分类模型，若低于预设的阈值则根据测试集中的数据建立由多棵决策树构成集成分类模型，将得到的集成分类模型替换当前的集成分类模型；

步骤3：根据步骤2中得到的分类结果集，观察窗口中数据的分布状态，以数据分布变化程度作为判断概念漂移是否发生的标准，完成概念漂移的检测；

步骤4：获取前M天的历史数据，将数据时间序列化，统计一天内数据量的增减规律；根据数据量的变化规律，获取预设时间段的数据量。

步骤5：根据概念漂移检测的结果和对预设时间段的数据量，对数据窗口进行扩大或缩小的操作。

所述步骤3的具体步骤如下：

步骤3.1：确定当前滑动窗口中的数据，在窗口首尾两端各截取当前滑动窗口中数据的百分比P₁，形成两个子数据集U₁、U₂；

步骤3.2：将初始滑动窗口首尾子窗口的数据差异度δ作为判断概念漂移的阈值的初始值，观察分类过程中概念漂移发生的次数，若概念漂移发生的次数在分类器更新的次数的占比大于等于a₁,则认为概念漂移过于频繁，将阈值在当前大小的基础上增加P₂。若概念漂移发生次数在分类器更新的次数的占比小于a₂或不发生，将阈值在当前大小的基础上减少P₂；最终得到阈值∈_cut，其中a₁、a₂为人为设定的百分比数值，P₂为根据分类效果设置的百分比数值；

步骤3.3：每个子数据集中的每条数据都包括属性和类属性，将每个数据集看作高维向量的集合，在每个子数据集中求取每个属性不同取值的平方均值，并将该值作为数据的分布状态；将两个子数据集计算他们之间的平方距离，并且根据平方距离判断数据分布状态的差异度δ，若δ大于阈值∈_cut，则判断数据发生概念漂移，若δ小于等于阈值∈_cut，则判断数据没有发生概念漂移。

所述步骤5的具体步骤如下：

步骤5.1：对数据进行概念漂移检测过程后，在发生概念漂移的情况下，根据Z-score数据标准方法对当前窗口首尾的数据进行标准化；按照数据标准化后得到的概念漂移的程度对窗口进行缩小；然后对数据量进行预测，根据数据量的增减规律，对窗口进行二次增大或者缩小；进行二次操作时不能影响到概念漂移对窗口大小的变化，将得到的滑动窗口的大小设置为下一个滑动窗口的大小；

步骤5.2：没有发生概念漂移时，则将窗口进行线性扩大。在不影响概念漂移对窗口大小变化的趋势下，根据数据量增减情况对窗口大小再次进行调整，再次进行时不能影响到概念漂移对窗口大小的变化，将最终得到的滑动窗口大小设置为下一个滑动窗口的大小。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于决策树的流数据分类方法，本方法提出了一种全新的概念检测方法，将数据的属性作为观察数据分布变化的对象，同时动态调整判断概念漂移是否发生的阈值的大小，在数据分类的过程中能够实时监控概念漂移发生的情况，同时，在发生概念漂移发生的情况下，计算概念漂移程度，根据程度对窗口大小进行调整，使窗口中的数据分布尽可能处于同一分布状态下，提高了数据分类的准确率，另外窗口的大小调整也考虑到了数据流量的问题，结合数据量增减情况对窗口大小进行操作，使数据能够得到及时的处理，提高数据分类的效率。

附图说明

图1为本发明实施例提供的基于决策树的流数据分类方法的架构图；

图2为本发明实施例提供的基于决策树的流数据分类的方法流程图；

图3为本发明实施例提供的准确率的对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施方式在Eclipse和weka开发环境下，对在weka开发工具上形成的合成数据进行了仿真模拟。

决策树是一种经典的流数据分类模型，在建立分类模型时，采用决策树建立基分类器，通过带有标签的训练数据，建立由多棵决策树构成的集成分类器，利用当前的分类器对不断到来的流数据进行分类，将待分类数据按照滑动窗口大小构成初始窗口，用当前的分类模型对该窗口内数据进行分类，得到分类结果集，同时利用分类结果集对旧的分类模型进行更新，定期用带有类标签的数据对分类模型的分类性能进行监控，观察准确率是否高于预设的阈值，如果分类错误的比例过大，则更新当前的分类器，利用历史数据对流数据的数据量进行预测，同时将分类过程中得到的分类结果集进行概念漂移检测，根据预测和检测后的结果调整窗口的大小，对当前的窗口大小进行更新。方法的架构图如图1所示。

本实施例的方法如下所述。

本发明提供一种基于决策树的流数据分类方法，如图2所示，包括以下步骤：

步骤1：分类器的构建；获取带有类标签的数据集包括训练集和测试集，采用增量式的Hoeffding决策树，将30个数据样本作为树节点进行分类所需的最小示例数，通过训练集建立由多棵决策树构成初始集成分类模型；

本实施例中的集成分类方法是基于VFDT模型实现的，根据集成分类算法的思想即由多个弱分类器集成在一起，产生一个有效的组合分类器，将窗口中的数据，通过VFDT建立多棵决策树构成集成分类模型。

步骤2：将待分类数据集D中的数据d_x添加到临时数据容器内，其中x代表待分类数据集的数据编号，用初始集成分类模型对临时数据容器内的数据进行分类，将待分类数据d_x使用分类模型M₁和M_c对数据进行分类，若分类结果一致，则该分类结果就作为该条数据的类标签，并将该标记的数据添加到临时数据容器Win_tmp内，得到分类结果集；若不一致，则将Win₁和Win_c的数据按照人为设定的比例进行混合抽样，得到K个混合数据集H₀,H₁,…,H_k-2,H_k-1，其中k代表混合数据集中的数据编号，使用K个混合数据集构建K个分类模型M₀,M₁,…,M_k-2,M_k-1；使用这K个分类模型对待分类数据d_x进行分类，并对分类结果进行投票，被支持最多的类标签则作为该条数据的最终类标签，并将被标记的数据添加到临时数据容器Win_tmp内，得到分类结果集；

本实施例中将3次迭代或3的倍数次迭代过程作为周期，将带有类标签的数据作为测试集，利用当前的分类模型对验证集进行分类，将分类结果与真实的类标签进行比较，如果准确率小于预设的阈值准确率则将当前的分类模型删除，并且用正确分类的数据按照初始基分类器的构建过程重新构建，预设的阈值是根据实验的分类效果确定的。

本实施例中令P₁＝30％，截取窗口首尾两端各30％的数据

步骤3.2：将初始滑动窗口首尾子窗口的数据差异度δ作为判断概念漂移的阈值的初始值，观察分类过程中概念漂移发生的次数，若概念漂移发生的次数在分类器更新的次数的占比大于等于a₁,则认为概念漂移过于频繁，将阈值在当前大小的基础上增加P₂。若概念漂移发生的比例小于a₂或不发生，将阈值在当前大小的基础上减少P₂；最终得到阈值∈_cut，其中a₁、a₂为人为设定的百分比数值，P₂为根据分类效果设置的百分比数值；

本实施例中令a₁＝50％，a₂＝50％，P₂＝20％，即当概念漂移发生的次数在分类器更新的次数的占比大于等于50％，则将阈值在当前大小的基础上增加当前大小的20％。

步骤3.3：每个子数据集中的每条数据都包括属性和类属性，将每个数据集看作高维向量的集合，在每个子数据集中求取每个属性不同取值的平方均值，并将该值作为数据的分布状态；并且根据平方距离判断数据分布状态的差异度δ，若δ大于阈值∈_cut，则判断数据发生概念漂移，若δ小于等于阈值∈_cut，则判断数据没有发生概念漂移。

将子数据集等效看做一个m×n维的矩阵M，元素a_ij∈M(0≤i＜m,0≤j＜n)，特征值集合σ为统计矩阵M的数据分布。

σ＝(σ₀,σ₁,σ_j…,σ_n-2,σ_n-1)

其中，0≤j≤n-1，σ_Win1和σ_Win0是两个子数据集的特征值集合，两个数据集之间的差异度δ大于阈值∈_cut时，则认为数据的分布状态发生变化即发生概念漂移；

步骤4：:获取前M天的历史数据，将数据时间序列化，统计一天内数据量的增减规律；根据数据量的变化规律，获取预设时间段的数据量。

v＝(v₁,v₂…,v_j,…,v_n-1,v_n)

其中,v代表子数据集中的每个属性所有取值的平均值的集合，L是概念漂移程度，k代表的是第一个子窗口的数据编号，l代表后一个子窗口的数据编号；在检测发生概念漂移后，按照L的值对窗口进行初步缩小。

数据进行标准化后得到0～1之间的数值，作为概念漂移的程度，并且按照程度对滑动窗口进行缩小；

在概念漂移发生后对窗口按照概念漂移程度缩小后，初步得到窗口的大小，将预设时间段的平均数据量作为判断数据量增减的阈值，然后根据预测的数据量，与阈值相比较，在预测数据量大于预设数据量的情况下，不改变数据窗口变小的趋势下，在概念漂移对窗口进行缩小的基础上增加预设数据量的30％；在小于预设数据量的情况下，在概念漂移对窗口进行缩小的基础上减少预测数据量的10％(不能小于窗口最低长度800)。

在预测数据量大于设定时间段的平均数据量的情况下，在概念漂移对窗口进行扩大的基础上增加预设数据量的30％；在小于预设数据量的情况下，不改变数据窗口变大的趋势下，在概念漂移对窗口进行缩小的基础上减少预测数据量的10％；

在准确率方面，方法与其他的分类方法进行了比较，准确率的提高情况如图3所示。

在方法运行初始时，由于数据量不足，导致在概念漂移检测过程中，对阈值的选取缺乏经验，使准确率偏低。但随着分类器的不断迭代更新，准确率大体上一直保持上升的趋势。同时在集成了滑动窗口后的方法在准确率上有了进一步的提升，与其他方法相比，平均准确率提高了3.66％，证明了概念检测和数据量预测的结果对滑动窗口大小调整的策略的合理性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于决策树的流数据分类方法，其特征在于：包括以下步骤：

将训练集添加到Win₁数据窗口中，根据集成分类方法对Win₁内的数据进行训练，得到分类模型M₁；然后使用分类模型M₁对滑动窗口Win₁内的数据重新进行分类，得到分类结果集并将分类结果集添加到数据窗口Win_c，使用Win_c数据窗口内数据重新构建分类模型M_c，分类模型M₁和M_c组成初始集成分类模型；

步骤2：将待分类数据集D中的数据d_x添加到临时数据容器Win_tmp内，其中x代表数据编号，用初始集成分类模型对临时数据容器内的数据进行分类，将待分类数据d_x使用分类模型M₁和M_c对数据进行分类，若分类结果一致，则该分类结果就作为该条数据的类标签，并将该标记的数据添加到临时数据容器Win_tmp内，得到分类结果集；若不一致，则将Win₁和Win_c的数据按照人为设定的比例进行混合抽样，得到K个混合数据集H₀，H₁，…，H_k-2，H_k-1，其中k代表数据编号，使用K个混合数据集构建K个分类模型M₀，M₁，…，M_k-2，M_k-1；使用这K个分类模型对待分类数据d_x进行分类，并对分类结果进行投票，被支持最多的类标签则作为该条数据的最终类标签，并将被标记的数据添加到临时数据容器Win_tmp内，得到分类结果集；

当数据容器Win_tmp内的数据大小满足滑动窗口大小时，利用分类结果集构建分类模型M_t，并对当前的集成分类模型进行更新；更新方法为：数据窗口Win_c对Win₁进行替换，数据容器Win_tmp对Win_c进行替换,由它们建立的分类模型也对应的进行替换，分类模型M_c对M₁进行替换，分类模型M_t对M_c进行替换；

步骤4：获取前M天的历史数据，将数据时间序列化，统计一天内数据量的增减规律；根据数据量的变化规律，获取预设时间段的数据量；

2.根据权利要求1所述的一种基于决策树的流数据分类方法，其特征在于：所述步骤3的具体步骤如下：

步骤3.2：将初始滑动窗口首尾子窗口的数据差异度δ作为判断概念漂移的阈值的初始值，观察分类过程中概念漂移发生的次数，若概念漂移发生的次数在分类器更新的次数的占比大于等于a₁,则认为概念漂移过于频繁，将阈值在当前大小的基础上增加P₂；若概念漂移发生次数在分类器更新的次数的占比小于a₂或不发生，将阈值在当前大小的基础上减少P₂；最终得到阈值∈_cut，其中a₁、a₂为人为设定的百分比数值，P₂为根据分类效果设置的百分比数值；

3.根据权利要求1所述的一种基于决策树的流数据分类方法，其特征在于：所述步骤5的具体步骤如下：

步骤5.2：没有发生概念漂移时，则将窗口进行线性扩大；在不影响概念漂移对窗口大小变化的趋势下，根据数据量增减情况对窗口大小再次进行调整，再次进行时不能影响到概念漂移对窗口大小的变化，将最终得到的滑动窗口大小设置为下一个滑动窗口的大小。