CN110008388A - 一种基于决策树的流数据分类方法 - Google Patents

一种基于决策树的流数据分类方法 Download PDF

Info

Publication number
CN110008388A
CN110008388A CN201910238176.3A CN201910238176A CN110008388A CN 110008388 A CN110008388 A CN 110008388A CN 201910238176 A CN201910238176 A CN 201910238176A CN 110008388 A CN110008388 A CN 110008388A
Authority
CN
China
Prior art keywords
data
window
win
concept drift
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910238176.3A
Other languages
English (en)
Inventor
张莉
马晶莹
杨广明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910238176.3A priority Critical patent/CN110008388A/zh
Publication of CN110008388A publication Critical patent/CN110008388A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于决策树的流数据分类方法,涉及数据分类技术领域。本发明步骤如下:步骤1:分类器的构建;步骤2:根据初始集成分类模型对待分类数据进行分类,得到分类结果集;当数据容器Wintmp内的数据大小满足滑动窗口大小时对当前的集成分类模型进行更新;步骤3:观察窗口内分类结果集中数据的分布状态,以该状态作为判断概念漂移是否发生的标准,完成概念漂移的检测;步骤4:获取历史数据,统计一天内数据量的增减规律;根据数据量的变化规律,获取预设时间段的数据量。步骤5:根据概念漂移检测结果和预设的数据量,对数据窗口进行扩大或缩小的操作。该方法提高了数据分类的准确率,使数据能够得到及时的处理,提高数据分类的效率。

Description

一种基于决策树的流数据分类方法
技术领域
本发明涉及数据分类技术领域,尤其涉及一种基于决策树的流数据分类方法。
背景技术
随着互联网、传感器、以至于物联网等的兴起和飞速发展,随之产生了海量流式数据,这些流数据因具有较高的研究价值和商业价值而倍受人们关注。此类数据需要根据时间序列对滑动时间窗口内的数据进行递增式处理与分析,包括分类,挖掘关联规则等,从中挖掘有用的信息,进而指导人们做出科学决策。
流数据具有实时产生、到达速度快、数据量大、难以重复获取等特点,如果仍然采用传统的分类挖掘模型与算法加以处理,将会丢失大量的有用信息。现有的一些针对流数据的数据挖掘方案及算法在分类问题上未能充分考虑到流数据的特点和实际应用场景,如数据流概念漂移问题、不完全标记问题,数据流速不均匀等。为此,很多研究人员对数据流的分类问题进行了研究,但仍存在一些不足。首先,现有的与流数据分析相关的大部分研究均假设到达的所有流数据都是被完全标记的,且这些标记可以直接利用。事实上,这种假设在许多实际应用中很难成立;另外,随着时间的变化,数据流中潜在的概念将发生变化(又称概念漂移)。很多检测算法过程复杂而繁琐,对空间和资源消耗较大;并且基于滑动窗口的数据流处理算法中,滑动窗口或者大小固定,或者仅随概念漂移发生改变,而对数据流本身的流量特点没有进行考虑,使得当数据流速很快或者很慢时得不到即时的处理,影响流数据处理的效率。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于决策树的流数据分类方法;本方法提高了数据分类的准确率,使数据能够得到及时的处理,提高数据分类的效率。
为解决上述技术问题,本发明所采取的技术方案是:
本发明提供一种基于决策树的流数据分类方法,包括以下步骤:
步骤1:分类器的构建;获取带有类标签的数据集包括训练集和测试集,通过训练集建立由多棵决策树构成初始集成分类模型;
将训练集添加到Win1数据窗口中,根据集成分类方法对Win1内的数据进行训练,得到分类模型M1。然后使用分类模型M1对滑动窗口Win1内的数据重新进行分类,得到分类结果集并将分类结果集添加到数据窗口Winc,使用Winc数据窗口内数据重新构建分类模型Mc,分类模型M1和Mc组成初始集成分类模型;
步骤2:将待分类数据集D中的数据dx添加到临时数据容器Wintmp内,其中x代表待分类的数据编号,用初始集成分类模型对临时数据容器内的数据进行分类,将待分类数据dx使用分类模型M1和Mc对数据进行分类,若分类结果一致,则该分类结果就作为该条数据的类标签,并将该标记的数据添加到临时数据容器Wintmp内,得到分类结果集;若不一致,则将Win1和Winc的数据按照人为设定的比例进行混合抽样,得到K个混合数据集H0,H1,…,Hk-2,Hk-1,其中k代表混合数据集的数据编号,使用K个混合数据集构建K个分类模型M0,M1,…,Mk-2,Mk-1;使用这K个分类模型对待分类数据dx进行分类,并对分类结果进行投票,被支持最多的类标签则作为该条数据的最终类标签,并将被标记的数据添加到临时数据容器Wintmp内,得到分类结果集;
当数据容器Wintmp内的数据大小满足滑动窗口大小时,利用分类结果集构建分类模型Mt,并对当前的集成分类模型进行更新;更新方法为:数据窗口Winc对Win1进行替换,数据容器Wintmp对Winc进行替换,由它们建立的分类模型也对应的进行替换,分类模型Mc对M1进行替换,分类模型Mt对Mc进行替换。
判断当前集成分类模型是否更新了p次或p的倍数次,若否,则保留当前的集成分类模型;若是则用带有类标签的测试集对当前的集成分类模型的分类性能进行检测,判断分类准确率是否高于预设的阈值若高于预设的阈值则保留当前的集成分类模型,若低于预设的阈值则根据测试集中的数据建立由多棵决策树构成集成分类模型,将得到的集成分类模型替换当前的集成分类模型;
步骤3:根据步骤2中得到的分类结果集,观察窗口中数据的分布状态,以数据分布变化程度作为判断概念漂移是否发生的标准,完成概念漂移的检测;
步骤4:获取前M天的历史数据,将数据时间序列化,统计一天内数据量的增减规律;根据数据量的变化规律,获取预设时间段的数据量。
步骤5:根据概念漂移检测的结果和对预设时间段的数据量,对数据窗口进行扩大或缩小的操作。
所述步骤3的具体步骤如下:
步骤3.1:确定当前滑动窗口中的数据,在窗口首尾两端各截取当前滑动窗口中数据的百分比P1,形成两个子数据集U1、U2
步骤3.2:将初始滑动窗口首尾子窗口的数据差异度δ作为判断概念漂移的阈值的初始值,观察分类过程中概念漂移发生的次数,若概念漂移发生的次数在分类器更新的次数的占比大于等于a1,则认为概念漂移过于频繁,将阈值在当前大小的基础上增加P2。若概念漂移发生次数在分类器更新的次数的占比小于a2或不发生,将阈值在当前大小的基础上减少P2;最终得到阈值∈cut,其中a1、a2为人为设定的百分比数值,P2为根据分类效果设置的百分比数值;
步骤3.3:每个子数据集中的每条数据都包括属性和类属性,将每个数据集看作高维向量的集合,在每个子数据集中求取每个属性不同取值的平方均值,并将该值作为数据的分布状态;将两个子数据集计算他们之间的平方距离,并且根据平方距离判断数据分布状态的差异度δ,若δ大于阈值∈cut,则判断数据发生概念漂移,若δ小于等于阈值∈cut,则判断数据没有发生概念漂移。
所述步骤5的具体步骤如下:
步骤5.1:对数据进行概念漂移检测过程后,在发生概念漂移的情况下,根据Z-score数据标准方法对当前窗口首尾的数据进行标准化;按照数据标准化后得到的概念漂移的程度对窗口进行缩小;然后对数据量进行预测,根据数据量的增减规律,对窗口进行二次增大或者缩小;进行二次操作时不能影响到概念漂移对窗口大小的变化,将得到的滑动窗口的大小设置为下一个滑动窗口的大小;
步骤5.2:没有发生概念漂移时,则将窗口进行线性扩大。在不影响概念漂移对窗口大小变化的趋势下,根据数据量增减情况对窗口大小再次进行调整,再次进行时不能影响到概念漂移对窗口大小的变化,将最终得到的滑动窗口大小设置为下一个滑动窗口的大小。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于决策树的流数据分类方法,本方法提出了一种全新的概念检测方法,将数据的属性作为观察数据分布变化的对象,同时动态调整判断概念漂移是否发生的阈值的大小,在数据分类的过程中能够实时监控概念漂移发生的情况,同时,在发生概念漂移发生的情况下,计算概念漂移程度,根据程度对窗口大小进行调整,使窗口中的数据分布尽可能处于同一分布状态下,提高了数据分类的准确率,另外窗口的大小调整也考虑到了数据流量的问题,结合数据量增减情况对窗口大小进行操作,使数据能够得到及时的处理,提高数据分类的效率。
附图说明
图1为本发明实施例提供的基于决策树的流数据分类方法的架构图;
图2为本发明实施例提供的基于决策树的流数据分类的方法流程图;
图3为本发明实施例提供的准确率的对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施方式在Eclipse和weka开发环境下,对在weka开发工具上形成的合成数据进行了仿真模拟。
决策树是一种经典的流数据分类模型,在建立分类模型时,采用决策树建立基分类器,通过带有标签的训练数据,建立由多棵决策树构成的集成分类器,利用当前的分类器对不断到来的流数据进行分类,将待分类数据按照滑动窗口大小构成初始窗口,用当前的分类模型对该窗口内数据进行分类,得到分类结果集,同时利用分类结果集对旧的分类模型进行更新,定期用带有类标签的数据对分类模型的分类性能进行监控,观察准确率是否高于预设的阈值,如果分类错误的比例过大,则更新当前的分类器,利用历史数据对流数据的数据量进行预测,同时将分类过程中得到的分类结果集进行概念漂移检测,根据预测和检测后的结果调整窗口的大小,对当前的窗口大小进行更新。方法的架构图如图1所示。
本实施例的方法如下所述。
本发明提供一种基于决策树的流数据分类方法,如图2所示,包括以下步骤:
步骤1:分类器的构建;获取带有类标签的数据集包括训练集和测试集,采用增量式的Hoeffding决策树,将30个数据样本作为树节点进行分类所需的最小示例数,通过训练集建立由多棵决策树构成初始集成分类模型;
将训练集添加到Win1数据窗口中,根据集成分类方法对Win1内的数据进行训练,得到分类模型M1。然后使用分类模型M1对滑动窗口Win1内的数据重新进行分类,得到分类结果集并将分类结果集添加到数据窗口Winc,使用Winc数据窗口内数据重新构建分类模型Mc,分类模型M1和Mc组成初始集成分类模型;
本实施例中的集成分类方法是基于VFDT模型实现的,根据集成分类算法的思想即由多个弱分类器集成在一起,产生一个有效的组合分类器,将窗口中的数据,通过VFDT建立多棵决策树构成集成分类模型。
步骤2:将待分类数据集D中的数据dx添加到临时数据容器内,其中x代表待分类数据集的数据编号,用初始集成分类模型对临时数据容器内的数据进行分类,将待分类数据dx使用分类模型M1和Mc对数据进行分类,若分类结果一致,则该分类结果就作为该条数据的类标签,并将该标记的数据添加到临时数据容器Wintmp内,得到分类结果集;若不一致,则将Win1和Winc的数据按照人为设定的比例进行混合抽样,得到K个混合数据集H0,H1,…,Hk-2,Hk-1,其中k代表混合数据集中的数据编号,使用K个混合数据集构建K个分类模型M0,M1,…,Mk-2,Mk-1;使用这K个分类模型对待分类数据dx进行分类,并对分类结果进行投票,被支持最多的类标签则作为该条数据的最终类标签,并将被标记的数据添加到临时数据容器Wintmp内,得到分类结果集;
当数据容器Wintmp内的数据大小满足滑动窗口大小时,利用分类结果集构建分类模型Mt,并对当前的集成分类模型进行更新;更新方法为:数据窗口Winc对Win1进行替换,数据容器Wintmp对Winc进行替换,由它们建立的分类模型也对应的进行替换,分类模型Mc对M1进行替换,分类模型Mt对Mc进行替换。
判断当前集成分类模型是否更新了p次或p的倍数次,若否,则保留当前的集成分类模型;若是则用带有类标签的测试集对当前的集成分类模型的分类性能进行检测,判断分类准确率是否高于预设的阈值若高于预设的阈值则保留当前的集成分类模型,若低于预设的阈值则根据测试集中的数据建立由多棵决策树构成集成分类模型,将得到的集成分类模型替换当前的集成分类模型;
本实施例中将3次迭代或3的倍数次迭代过程作为周期,将带有类标签的数据作为测试集,利用当前的分类模型对验证集进行分类,将分类结果与真实的类标签进行比较,如果准确率小于预设的阈值准确率则将当前的分类模型删除,并且用正确分类的数据按照初始基分类器的构建过程重新构建,预设的阈值是根据实验的分类效果确定的。
步骤3:根据步骤2中得到的分类结果集,观察窗口中数据的分布状态,以数据分布变化程度作为判断概念漂移是否发生的标准,完成概念漂移的检测;
步骤3.1:确定当前滑动窗口中的数据,在窗口首尾两端各截取当前滑动窗口中数据的百分比P1,形成两个子数据集U1、U2
本实施例中令P1=30%,截取窗口首尾两端各30%的数据
步骤3.2:将初始滑动窗口首尾子窗口的数据差异度δ作为判断概念漂移的阈值的初始值,观察分类过程中概念漂移发生的次数,若概念漂移发生的次数在分类器更新的次数的占比大于等于a1,则认为概念漂移过于频繁,将阈值在当前大小的基础上增加P2。若概念漂移发生的比例小于a2或不发生,将阈值在当前大小的基础上减少P2;最终得到阈值∈cut,其中a1、a2为人为设定的百分比数值,P2为根据分类效果设置的百分比数值;
本实施例中令a1=50%,a2=50%,P2=20%,即当概念漂移发生的次数在分类器更新的次数的占比大于等于50%,则将阈值在当前大小的基础上增加当前大小的20%。
步骤3.3:每个子数据集中的每条数据都包括属性和类属性,将每个数据集看作高维向量的集合,在每个子数据集中求取每个属性不同取值的平方均值,并将该值作为数据的分布状态;并且根据平方距离判断数据分布状态的差异度δ,若δ大于阈值∈cut,则判断数据发生概念漂移,若δ小于等于阈值∈cut,则判断数据没有发生概念漂移。
将子数据集等效看做一个m×n维的矩阵M,元素aij∈M(0≤i<m,0≤j<n),特征值集合σ为统计矩阵M的数据分布。
σ=(σ01j…,σn-2n-1)
其中,0≤j≤n-1,σWin1和σWin0是两个子数据集的特征值集合,两个数据集之间的差异度δ大于阈值∈cut时,则认为数据的分布状态发生变化即发生概念漂移;
步骤4::获取前M天的历史数据,将数据时间序列化,统计一天内数据量的增减规律;根据数据量的变化规律,获取预设时间段的数据量。
步骤5:根据概念漂移检测的结果和对预设时间段的数据量,对数据窗口进行扩大或缩小的操作。
步骤5.1:对数据进行概念漂移检测过程后,在发生概念漂移的情况下,根据Z-score数据标准方法对当前窗口首尾的数据进行标准化;按照数据标准化后得到的概念漂移的程度对窗口进行缩小;然后对数据量进行预测,根据数据量的增减规律,对窗口进行二次增大或者缩小;进行二次操作时不能影响到概念漂移对窗口大小的变化,将得到的滑动窗口的大小设置为下一个滑动窗口的大小;
v=(v1,v2…,vj,…,vn-1,vn)
其中,v代表子数据集中的每个属性所有取值的平均值的集合,L是概念漂移程度,k代表的是第一个子窗口的数据编号,l代表后一个子窗口的数据编号;在检测发生概念漂移后,按照L的值对窗口进行初步缩小。
数据进行标准化后得到0~1之间的数值,作为概念漂移的程度,并且按照程度对滑动窗口进行缩小;
在概念漂移发生后对窗口按照概念漂移程度缩小后,初步得到窗口的大小,将预设时间段的平均数据量作为判断数据量增减的阈值,然后根据预测的数据量,与阈值相比较,在预测数据量大于预设数据量的情况下,不改变数据窗口变小的趋势下,在概念漂移对窗口进行缩小的基础上增加预设数据量的30%;在小于预设数据量的情况下,在概念漂移对窗口进行缩小的基础上减少预测数据量的10%(不能小于窗口最低长度800)。
步骤5.2:没有发生概念漂移时,则将窗口进行线性扩大。在不影响概念漂移对窗口大小变化的趋势下,根据数据量增减情况对窗口大小再次进行调整,再次进行时不能影响到概念漂移对窗口大小的变化,将最终得到的滑动窗口大小设置为下一个滑动窗口的大小。
在预测数据量大于设定时间段的平均数据量的情况下,在概念漂移对窗口进行扩大的基础上增加预设数据量的30%;在小于预设数据量的情况下,不改变数据窗口变大的趋势下,在概念漂移对窗口进行缩小的基础上减少预测数据量的10%;
在准确率方面,方法与其他的分类方法进行了比较,准确率的提高情况如图3所示。
在方法运行初始时,由于数据量不足,导致在概念漂移检测过程中,对阈值的选取缺乏经验,使准确率偏低。但随着分类器的不断迭代更新,准确率大体上一直保持上升的趋势。同时在集成了滑动窗口后的方法在准确率上有了进一步的提升,与其他方法相比,平均准确率提高了3.66%,证明了概念检测和数据量预测的结果对滑动窗口大小调整的策略的合理性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种基于决策树的流数据分类方法,其特征在于:包括以下步骤:
步骤1:分类器的构建;获取带有类标签的数据集包括训练集和测试集,通过训练集建立由多棵决策树构成初始集成分类模型;
将训练集添加到Win1数据窗口中,根据集成分类方法对Win1内的数据进行训练,得到分类模型M1;然后使用分类模型M1对滑动窗口Win1内的数据重新进行分类,得到分类结果集并将分类结果集添加到数据窗口Winc,使用Winc数据窗口内数据重新构建分类模型Mc,分类模型M1和Mc组成初始集成分类模型;
步骤2:将待分类数据集D中的数据dx添加到临时数据容器Wintmp内,其中x代表数据编号,用初始集成分类模型对临时数据容器内的数据进行分类,将待分类数据dx使用分类模型M1和Mc对数据进行分类,若分类结果一致,则该分类结果就作为该条数据的类标签,并将该标记的数据添加到临时数据容器Wintmp内,得到分类结果集;若不一致,则将Win1和Winc的数据按照人为设定的比例进行混合抽样,得到K个混合数据集H0,H1,…,Hk-2,Hk-1,其中k代表数据编号,使用K个混合数据集构建K个分类模型M0,M1,…,Mk-2,Mk-1;使用这K个分类模型对待分类数据dx进行分类,并对分类结果进行投票,被支持最多的类标签则作为该条数据的最终类标签,并将被标记的数据添加到临时数据容器Wintmp内,得到分类结果集;
当数据容器Wintmp内的数据大小满足滑动窗口大小时,利用分类结果集构建分类模型Mt,并对当前的集成分类模型进行更新;更新方法为:数据窗口Winc对Win1进行替换,数据容器Wintmp对Winc进行替换,由它们建立的分类模型也对应的进行替换,分类模型Mc对M1进行替换,分类模型Mt对Mc进行替换;
判断当前集成分类模型是否更新了p次或p的倍数次,若否,则保留当前的集成分类模型;若是则用带有类标签的测试集对当前的集成分类模型的分类性能进行检测,判断分类准确率是否高于预设的阈值若高于预设的阈值则保留当前的集成分类模型,若低于预设的阈值则根据测试集中的数据建立由多棵决策树构成集成分类模型,将得到的集成分类模型替换当前的集成分类模型;
步骤3:根据步骤2中得到的分类结果集,观察窗口中数据的分布状态,以数据分布变化程度作为判断概念漂移是否发生的标准,完成概念漂移的检测;
步骤4:获取前M天的历史数据,将数据时间序列化,统计一天内数据量的增减规律;根据数据量的变化规律,获取预设时间段的数据量;
步骤5:根据概念漂移检测的结果和对预设时间段的数据量,对数据窗口进行扩大或缩小的操作。
2.根据权利要求1所述的一种基于决策树的流数据分类方法,其特征在于:所述步骤3的具体步骤如下:
步骤3.1:确定当前滑动窗口中的数据,在窗口首尾两端各截取当前滑动窗口中数据的百分比P1,形成两个子数据集U1、U2
步骤3.2:将初始滑动窗口首尾子窗口的数据差异度δ作为判断概念漂移的阈值的初始值,观察分类过程中概念漂移发生的次数,若概念漂移发生的次数在分类器更新的次数的占比大于等于a1,则认为概念漂移过于频繁,将阈值在当前大小的基础上增加P2;若概念漂移发生次数在分类器更新的次数的占比小于a2或不发生,将阈值在当前大小的基础上减少P2;最终得到阈值∈cut,其中a1、a2为人为设定的百分比数值,P2为根据分类效果设置的百分比数值;
步骤3.3:每个子数据集中的每条数据都包括属性和类属性,将每个数据集看作高维向量的集合,在每个子数据集中求取每个属性不同取值的平方均值,并将该值作为数据的分布状态;将两个子数据集计算他们之间的平方距离,并且根据平方距离判断数据分布状态的差异度δ,若δ大于阈值∈cut,则判断数据发生概念漂移,若δ小于等于阈值∈cut,则判断数据没有发生概念漂移。
3.根据权利要求1所述的一种基于决策树的流数据分类方法,其特征在于:所述步骤5的具体步骤如下:
步骤5.1:对数据进行概念漂移检测过程后,在发生概念漂移的情况下,根据Z-score数据标准方法对当前窗口首尾的数据进行标准化;按照数据标准化后得到的概念漂移的程度对窗口进行缩小;然后对数据量进行预测,根据数据量的增减规律,对窗口进行二次增大或者缩小;进行二次操作时不能影响到概念漂移对窗口大小的变化,将得到的滑动窗口的大小设置为下一个滑动窗口的大小;
步骤5.2:没有发生概念漂移时,则将窗口进行线性扩大;在不影响概念漂移对窗口大小变化的趋势下,根据数据量增减情况对窗口大小再次进行调整,再次进行时不能影响到概念漂移对窗口大小的变化,将最终得到的滑动窗口大小设置为下一个滑动窗口的大小。
CN201910238176.3A 2019-03-27 2019-03-27 一种基于决策树的流数据分类方法 Pending CN110008388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910238176.3A CN110008388A (zh) 2019-03-27 2019-03-27 一种基于决策树的流数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910238176.3A CN110008388A (zh) 2019-03-27 2019-03-27 一种基于决策树的流数据分类方法

Publications (1)

Publication Number Publication Date
CN110008388A true CN110008388A (zh) 2019-07-12

Family

ID=67168361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910238176.3A Pending CN110008388A (zh) 2019-03-27 2019-03-27 一种基于决策树的流数据分类方法

Country Status (1)

Country Link
CN (1) CN110008388A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110374907A (zh) * 2019-07-15 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于概念漂移的煤矿风机时序数据采样方法及工具
CN110659275A (zh) * 2019-09-23 2020-01-07 东华大学 面向实时数据流的动态生产环境异常监测系统
CN111142942A (zh) * 2019-12-26 2020-05-12 远景智能国际私人投资有限公司 窗口数据的处理方法、装置、服务器及存储介质
CN111191742A (zh) * 2020-02-11 2020-05-22 天津师范大学 一种用于多源异构数据流的滑动窗口长度自适应调整方法
CN111288973A (zh) * 2020-01-23 2020-06-16 中山大学 海表流速获取方法、装置、计算机设备和存储介质
CN112765324A (zh) * 2021-01-25 2021-05-07 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN113660237A (zh) * 2021-08-10 2021-11-16 和中通信科技有限公司 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110374907A (zh) * 2019-07-15 2019-10-25 山东浪潮人工智能研究院有限公司 一种基于概念漂移的煤矿风机时序数据采样方法及工具
CN110659275A (zh) * 2019-09-23 2020-01-07 东华大学 面向实时数据流的动态生产环境异常监测系统
CN110659275B (zh) * 2019-09-23 2022-02-08 东华大学 面向实时数据流的动态生产环境异常监测系统
CN111142942A (zh) * 2019-12-26 2020-05-12 远景智能国际私人投资有限公司 窗口数据的处理方法、装置、服务器及存储介质
CN111142942B (zh) * 2019-12-26 2023-08-04 远景智能国际私人投资有限公司 窗口数据的处理方法、装置、服务器及存储介质
CN111288973A (zh) * 2020-01-23 2020-06-16 中山大学 海表流速获取方法、装置、计算机设备和存储介质
CN111191742A (zh) * 2020-02-11 2020-05-22 天津师范大学 一种用于多源异构数据流的滑动窗口长度自适应调整方法
CN111191742B (zh) * 2020-02-11 2024-05-31 天津师范大学 一种用于多源异构数据流的滑动窗口长度自适应调整方法
CN112765324A (zh) * 2021-01-25 2021-05-07 四川虹微技术有限公司 一种概念漂移检测方法及装置
CN113660237A (zh) * 2021-08-10 2021-11-16 和中通信科技有限公司 一种基于动态滑动窗口的工业互联网数据流异常检测方法、存储器和处理器

Similar Documents

Publication Publication Date Title
CN110008388A (zh) 一种基于决策树的流数据分类方法
CN106779087B (zh) 一种通用机器学习数据分析平台
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN103166830B (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN105335491B (zh) 基于用户点击行为来向用户推荐图书的方法和系统
CN106056134A (zh) 一种基于Spark的半监督随机森林分类方法
CN102956023B (zh) 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法
CN108052968B (zh) 一种qsfla-svm的感知入侵检测方法
CN105930723A (zh) 一种基于特征选择的入侵检测方法
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
Gabrys et al. Combining labelled and unlabelled data in the design of pattern classification systems
CN108090499A (zh) 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN105320967A (zh) 基于标签相关性的多标签AdaBoost集成方法
CN106960017A (zh) 电子书分类及其训练方法、装置和设备
CN104820724A (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN107943830A (zh) 一种适用于高维大数据集的数据分类方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN108596227B (zh) 一种用户用电行为主导影响因素挖掘方法
CN103631753A (zh) 递减子空间集成学习算法
CN106294307B (zh) 语料筛选方法及装置
CN108805159A (zh) 一种基于过滤法和遗传算法的高维数据特征选择方法
CN110110914A (zh) 基于变换决策树和智能优化方法的学生困难程度预测方法
Ishioka Imputation of missing values for unsupervised data using the proximity in random forests
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190712