CN108985369A - 一种用于非平衡数据集分类的同分布集成预测方法及系统 - Google Patents

一种用于非平衡数据集分类的同分布集成预测方法及系统 Download PDF

Info

Publication number
CN108985369A
CN108985369A CN201810735806.3A CN201810735806A CN108985369A CN 108985369 A CN108985369 A CN 108985369A CN 201810735806 A CN201810735806 A CN 201810735806A CN 108985369 A CN108985369 A CN 108985369A
Authority
CN
China
Prior art keywords
sample
data
classification
same distribution
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810735806.3A
Other languages
English (en)
Inventor
李凤莲
张雪英
焦江丽
陈桂军
牛壮
樊宇宙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201810735806.3A priority Critical patent/CN108985369A/zh
Publication of CN108985369A publication Critical patent/CN108985369A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种用于非平衡数据集分类的同分布集成预测方法及系统。所述预测方法包括:获取数据集;采用同分布随机抽样法将所述数据集构建为多个数据样本子集;对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;对测试集采用所述CART决策树分类模型得到初步分类结果;采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。采用本发明的方法或者系统能够提高非平衡数据集中少数类样本的识别率和预测分类的精度。

Description

一种用于非平衡数据集分类的同分布集成预测方法及系统
技术领域
本发明涉及数据挖掘领域,特别是涉及一种用于非平衡数据集分类的同分布集成预测方法及系统。
背景技术
随着互联网的普及以及信息化程度的提高,虽然数据量不断增加,但是有些类别的数据量却占有很少比例,即数据集的类别比呈现出非平衡表特性,而这些数据往往是人们需要研究的重点。集成算法是当前机器学习中比较热门的分类方法,特别是随机森林算法,因为引入随机性使其具有良好的抗噪性,并且不容易出现出过拟合现象。但是目前的集成学习算法及随机森林算法分类模型是以数据类别比平衡的条件构造的,因此在对非平衡数据集进行分类预测时,该模型对少数类样本的识别率并不是很高。
在使用集成方法对非平衡数据集分类问题进行研究时,已有方法是将非平衡数据集中的多数类样本随机分为T个子集,然后分别将这些子集中的样本与少数类样本合成样本子集,通过T个决策树对所有样本子集进行训练,然后将这些决策树并行集成。但这种方法使T个数据集之间的多数类样本完全不同,虽然少数类样本充分训练,但多数类样本训练不足,因此这种方法的分类效果并不理想。
发明内容
本发明的目的是提供一种用于非平衡数据集分类的同分布集成预测方法及系统,提高非平衡数据集中预测分类的精度。
为实现上述目的,本发明提供了如下方案:
一种用于非平衡数据集分类的同分布集成预测方法,所述预测方法包括:
获取数据集;
采用同分布随机抽样法将所述数据集构建为多个数据样本子集;
对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;
对测试集采用所述CART决策树分类模型得到初步分类结果;
采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。
可选的,所述数据集包括多数类样本集和少数类样本集。
可选的,所述采用同分布随机抽样法将所述数据集构建为多个数据样本子集,具体包括:
采用K-means方法将所述多数类样本集聚为多个第一样本子集;
随机在每个所述样本子集中抽取设定数量的样本,得到多个第二样本子集;
将所述第二样本子集和所述少数类样本集合并,得到第三数据样本子集。
可选的,抽取样本的数量大于或者等于所述数据集中样本总数量的一半。
为实现上述目的,本发明提供了如下方案:
一种用于非平衡数据集分类的同分布集成预测系统,所述预测系统包括:
获取模块,用于获取数据集;
构建模块,用于采用同分布随机抽样法将所述数据集构建为多个数据样本子集;
训练模块,用于对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;
分类模块,用于对测试集采用所述CART决策树分类模型得到初步分类结果;
投票模块,用于采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。
可选的,所述数据集包括多数类样本集和少数类样本集。
可选的,所述构建模块,具体包括:
第一样本子集获取单元,用于采用K-means方法将所述多数类样本集聚为多个第一样本子集;
第二样本子集获取单元,用于随机在每个所述样本子集中抽取设定数量的样本,得到多个第二样本子集;
第三样本子集获取单元,用于将所述第二样本子集和所述少数类样本集合并,得到第三样本子集。
可选的,抽取样本的数量大于或者等于所述数据集中样本总数量的一半。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种用于非平衡数据集分类的同分布集成预测方法包括:获取数据集;采用同分布随机抽样法将所述数据集构建为多个数据样本子集;对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;对测试集采用所述CART决策树分类模型得到初步分类结果;最后采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。显然,本发明将非平衡数据集中的多数类数据样本通过特定抽样法形成数据分布相似的若干个样本集合,然后将这些样本集合与非平衡数据集中的少数类样本分别组成新的样本子集,最终将这些样本集合分别使用CART决策树方法进行分类,提高了预测分类的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例用于非平衡数据集分类的同分布集成预测方法流程图;
图2为本发明实施例同分布随机抽样法示意图;
图3为用于非平衡数据集分类的同分布集成学习方法示意图;
图4为本发明实施例用于非平衡数据集分类的同分布集成预测系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例用于非平衡数据集分类的同分布集成预测方法流程图。如图1所示,一种用于非平衡数据集分类的同分布集成预测方法,所述预测方法包括:
步骤101:获取数据集,所述数据集包括多数类样本集和少数类样本集。
步骤102:采用同分布随机抽样法将所述数据集构建为多个数据样本子集;
步骤103:对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;
步骤104:对测试集采用所述CART决策树分类模型得到初步分类结果;步骤105:采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。
步骤102,具体包括:
采用K-means方法将所述多数类样本集聚为多个第一样本子集;
随机在每个所述样本子集中抽取设定数量的样本,得到多个第二样本子集;
将所述第二样本子集和所述少数类样本集合并,得到第三数据样本子集。
抽取样本的数量大于或者等于所述数据集中样本总数量的一半,通过这样设置将会使抽样后的多数类数据集合中必然有与其他抽样后多数类数据集合相同的样本,不仅会使抽样后的多数类数据集合彼此之间保持着高度相同的数据分布,而且由于是随机抽样也使很大一部本样本有较大的差异,这样也保持了多数类数据集合彼此间有一定的差异性,最终使各个多数类样本集合形成“总体相似,局部差异”的结果。
本方法给出了一种基于同分布随机抽样的改进集成森林方法。该方法的创新性包括:1)提出一种同分布抽样法,通过这种抽样法得到的样本子集既可以保持原有数据集的数据分布规律也可以降低样本子集的非平衡率;2)将同分布随机抽样法和集成算法共同构成一种用于非平衡数据集分类的同分布集成学习方法。
本发明方法给出的用于非平衡数据集分类的同分布集成学习方法是将若干个子分类器通过并行的方式组合在一起,从而形成一个强大的分类器。通过对非平衡数据集的数据分布特性进行研究,然后根据本发明提出的同分布随机抽样法将非平衡数据集分成若干个子集,这些样本子集的数据分布特性上可以在总体上相近,但彼此间各不相同,并且各个样本子集的非平衡率均有所降低。因为各个子集的少数类样本均为非平衡数据集中的所有少数类样本,所以少数类样本进行了充分训练,最终使基于同分布随机抽样的改进集成森林方法的分类结果偏向少数类样本所在的类别。
本发明采用一种新的抽样方法——同分布随机抽样法。这种方法是从数据分布的角度考虑抽样问题的。首先通过聚类方法对多数类样本聚类,将分布相近的多数类样本划分为一个集合,然后根据多数类样本的整体分布情况对其多次进行抽样分成多个集合,进而再与少数类样本进行组合形成新的样本子集。
非平衡数据集中的多数类样本数量远远大于少数类样本的数量且这些数据样本并非均匀分布在数据集中,为此通过聚类算法将多数类样本聚类后可将其根据数据分布情况进行划分。同分布随机抽样法使用K-means方法进行聚类,多数类样本划分的个数根据少数类样本的数量而设定,将被划分后的集合看作一个整体,这些集合之间的整体分布情况与整个多数类样本数据的分布情况基本保持一致,因此从这些集合中抽取的样本也将与多数类样本数据的分布情况保持一致。在从聚类处理后的多数类样本数据集合中进行样本抽样时,抽取的样本数目应该超过集合中样本总数量的一半,通过这样设置将会使抽样后的多数类数据集合中必然有与其他抽样后多数类数据集合相同的样本,不仅会使抽样后的多数类数据集合彼此之间保持着高度相同的数据分布,而且由于是随机抽样也使很大一部本样本有较大的差异,这样也保持了多数类数据集合彼此间有一定的差异性,最终使各个多数类样本集合形成“总体相似,局部差异”的结果。最后将这些多数类样本集合与所有少数类样本构成新的数据样本子集。
具体实施例1:
图2为本发明实施例同分布随机抽样法得到样本子集的示意图。如图2所示,同分布随机抽样方法的实现步骤如下:
输入:数据集S
输出:数据样本子集SS1,SS2,...,SST
步骤1:将数据集分为多数类样本集S-,少数类样本集S+,记多数类样本的数量为m;少数类样本的数量为n;
步骤2:使用K-means方法将多数类样本集S-聚为n个样本集合Si -,i=1,2,...,n,每个样本集合Si -的样本数量为mi,i=1,2,...,n;
步骤3:随机在Si -中抽取的1/2mi数量的样本放入Sj中,其中i=1,2,...,n,j=1,2,...,T;
步骤4:将所有的Sj,j=1,2,...,T与少数类样本S+组成新的数据样本子集SSj,j=1,2,...,T即SS1,SS2,...,SST,方法结束。
根据现有集成算法的原理以及本发明给出的同分布随机抽样法,本发明给出一种用于非平衡数据集分类的同分布集成学习方法。该方法是在集成学习方法的原理上对随机森林算法进行改进。首先使用同分布抽样法获得数据样本子集,然后将每个样本子集作为各个决策树输入对其进行训练,得到各个决策树分类模型,形成决策树森林。同分布随机抽样法得到样本子集的流程图如图2所示。
图3为用于非平衡数据集分类的同分布集成学习方法示意图。如图3所示,用于非平衡数据集分类的同分布集成学习方法实现步骤如下:
输入:数据集S
输出:分类预测结果P
步骤1:将数据集分为多数类样本集S-,少数类样本集S+,记多数类样本的数量为m,少数类样本的数量为n;
步骤2:使用同分布随机抽样法将数据集S分成T个数据样本子集SS1,SS2,...,SST
步骤3:对数据子集SSi,i=1,2,...,T中的多数类样本和少数类样本合并放入集合S(i),i=1,2,...,T中;
步骤4:使用T棵CART决策树对T个集合S(i)分别进行训练建树,并将CART决策树进行分类时的分类结果记为Pi,i=1,2,...,T;
步骤5:使用投票法对所有的Pi,i=1,2,...,T进行投票,得到最终分类预测结果P,本方法结束。
图4为本发明实施例用于非平衡数据集分类的同分布集成预测系统结构图。如图4所示,一种用于非平衡数据集分类的同分布集成预测系统,所述预测系统包括:
获取模块401,用于获取数据集,所述数据集包括多数类样本集和少数类样本集;
构建模块402,用于采用同分布随机抽样法将所述数据集构建为多个数据样本子集;
训练模块403,用于对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;
分类模块404,用于对测试集采用所述CART决策树分类模型得到初步分类结果;
投票模块405,用于采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。
所述构建模块402,具体包括:
第一样本子集获取单元,用于采用K-means方法将所述多数类样本集聚为多个第一样本子集;
第二样本子集获取单元,用于随机在每个所述样本子集中抽取设定数量的样本,得到多个第二样本子集;
第三样本子集获取单元,用于将所述第二样本子集和所述少数类样本集合并,得到第三样本子集。
抽取样本的数量大于或者等于所述数据集中样本总数量的一半。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种用于非平衡数据集分类的同分布集成预测方法,其特征在于,所述预测方法包括:
获取数据集;
采用同分布随机抽样法将所述数据集构建为多个数据样本子集;
对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;
对测试集采用所述CART决策树分类模型得到初步分类结果;
采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。
2.根据权利要求1所述的用于非平衡数据集分类的同分布集成预测方法,其特征在于,所述数据集包括多数类样本集和少数类样本集。
3.根据权利要求2所述的用于非平衡数据集分类的同分布集成预测方法,其特征在于,所述采用同分布随机抽样法将所述数据集构建为多个数据样本子集,具体包括:
采用K-means方法将所述多数类样本集聚为多个第一样本子集;
随机在每个所述样本子集中抽取设定数量的样本,得到多个第二样本子集;
将所述第二样本子集和所述少数类样本集合并,得到第三数据样本子集。
4.根据权利要求3所述的用于非平衡数据集分类的同分布集成预测方法,其特征在于,抽取样本的数量大于或者等于所述数据集中样本总数量的一半。
5.一种用于非平衡数据集分类的同分布集成预测系统,其特征在于,所述预测系统包括:
获取模块,用于获取数据集;
构建模块,用于采用同分布随机抽样法将所述数据集构建为多个数据样本子集;
训练模块,用于对每个所述数据样本子集采用CART决策树方法进行模型训练,得到多个CART决策树分类模型;
分类模块,用于对测试集采用所述CART决策树分类模型,得到初步分类结果;
投票模块,用于采用投票法对所述初步分类结果进行投票,得到最终分类预测结果。
6.根据权利要求5所述的用于非平衡数据集分类的同分布集成预测系统,其特征在于,所述数据集包括多数类样本集和少数类样本集。
7.根据权利要求6所述的用于非平衡数据集分类的同分布集成预测系统,其特征在于,所述构建模块,具体包括:
第一样本子集获取单元,用于采用K-means方法将所述多数类样本集聚为多个第一样本子集;
第二样本子集获取单元,用于随机在每个所述样本子集中抽取设定数量的样本,得到多个第二样本子集;
第三样本子集获取单元,用于将所述第二样本子集和所述少数类样本集合并,得到第三样本子集。
8.根据权利要求7所述的用于非平衡数据集分类的同分布集成预测系统,其特征在于,抽取样本的数量大于或者等于所述数据集中样本总数量的一半。
CN201810735806.3A 2018-07-06 2018-07-06 一种用于非平衡数据集分类的同分布集成预测方法及系统 Pending CN108985369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810735806.3A CN108985369A (zh) 2018-07-06 2018-07-06 一种用于非平衡数据集分类的同分布集成预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810735806.3A CN108985369A (zh) 2018-07-06 2018-07-06 一种用于非平衡数据集分类的同分布集成预测方法及系统

Publications (1)

Publication Number Publication Date
CN108985369A true CN108985369A (zh) 2018-12-11

Family

ID=64536321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810735806.3A Pending CN108985369A (zh) 2018-07-06 2018-07-06 一种用于非平衡数据集分类的同分布集成预测方法及系统

Country Status (1)

Country Link
CN (1) CN108985369A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN109919931A (zh) * 2019-03-08 2019-06-21 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价系统
CN110991551A (zh) * 2019-12-13 2020-04-10 北京百度网讯科技有限公司 样本处理方法、装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN109919931A (zh) * 2019-03-08 2019-06-21 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价系统
CN110991551A (zh) * 2019-12-13 2020-04-10 北京百度网讯科技有限公司 样本处理方法、装置、电子设备和存储介质
CN110991551B (zh) * 2019-12-13 2023-09-15 北京百度网讯科技有限公司 样本处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN106022300B (zh) 基于级联深度学习的交通标志识别方法和系统
CN106650806B (zh) 一种用于行人检测的协同式深度网络模型方法
CN107153789B (zh) 利用随机森林分类器实时检测安卓恶意软件的方法
CN108122562A (zh) 一种基于卷积神经网络和随机森林的音频分类方法
CN104063472B (zh) 一种优化训练样本集的knn文本分类方法
CN103996057B (zh) 基于多特征融合的实时手写体数字识别方法
CN101329734B (zh) 基于k-l变换和ls-svm的车牌字符识别方法
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN108985369A (zh) 一种用于非平衡数据集分类的同分布集成预测方法及系统
CN112734775A (zh) 图像标注、图像语义分割、模型训练方法及装置
CN108460421A (zh) 不平衡数据的分类方法
CN103679160B (zh) 一种人脸识别方法和装置
CN102663435B (zh) 基于半监督的垃圾图片过滤方法
CN103473231A (zh) 分类器构建方法和系统
CN104573708A (zh) 组合降采样极限学习机
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
CN107273500A (zh) 文本分类器生成方法、文本分类方法、装置及计算机设备
CN101290660A (zh) 一种用于行人检测的树状组合分类方法
CN107798351B (zh) 一种基于深度学习神经网络的身份识别方法和系统
CN102663001A (zh) 基于支持向量机的博客作者兴趣与性格自动识别方法
CN105938565A (zh) 基于多层分类器和互联网图像辅助训练的彩色图像情感分类方法
CN109446986A (zh) 一种面向树木激光点云的有效特征抽取与树种识别方法
CN106250911A (zh) 一种基于卷积神经网络的图片分类方法
CN110688888B (zh) 一种基于深度学习的行人属性识别方法和系统
CN104702465A (zh) 一种并行网络流量分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication