CN109359704A - 一种基于自适应平衡集成与动态分层决策的多分类方法 - Google Patents

一种基于自适应平衡集成与动态分层决策的多分类方法 Download PDF

Info

Publication number
CN109359704A
CN109359704A CN201811599644.1A CN201811599644A CN109359704A CN 109359704 A CN109359704 A CN 109359704A CN 201811599644 A CN201811599644 A CN 201811599644A CN 109359704 A CN109359704 A CN 109359704A
Authority
CN
China
Prior art keywords
class
classification
samples
sample
num
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811599644.1A
Other languages
English (en)
Inventor
高欣
何杨
井潇
刁新平
任昺
纪维佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201811599644.1A priority Critical patent/CN109359704A/zh
Publication of CN109359704A publication Critical patent/CN109359704A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出了一种基于自适应平衡集成与动态分层决策的多分类方法,包括:根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。本发明实施例提供的技术方案,可提高一对多框架下分类模型对各类别的整体识别率。

Description

一种基于自适应平衡集成与动态分层决策的多分类方法
【技术领域】
本发明涉及机器学习领域多分类方法,尤其涉及一种基于自适应平衡集成与动态分层决策的多分类方法。
【背景技术】
在利用机器学习方法解决多分类问题时,将原始多分类问题转化为多个二分类问题是一种有效的手段。其中,一对多分解策略是一种主流的分解方法,但该框架下存在严重的正负样本数目不平衡、预测结果过度依赖二分类器置信度等问题。根据合适的机器学习方法解决一对多框架下的类不平衡与结果聚合问题,以提高分类模型的准确率,是当今研究的热点之一。解决目前对于不平衡数据的分类问题,常用技术主要分为数据级方法、算法级方法、代价敏感学习和集成学习技术。数据级方法通过对数据空间进行抽样来重新平衡类分布,具体为对多数类样本欠采样或者对少数类样本过采样。欠采样中主要有随机欠采样与基于聚类的欠采样。随机欠采样从多数类样本中随机挑选部分样本与全部少数类样本组成新的训练样本,该方法虽然生成了平衡的数据集,但随机性强、未虑整个样本空间分布特点,会造成多数类有用信息的丢失;基于聚类的欠采样将多数类样本聚成多个簇,其中簇个数等于少数类样本个数,然后从所有簇中挑选中心点或者离中心点最近的样本作为训练样本,一定程度上减少了随机欠采样的盲目性。但是当少数类样本数目很大时,直接选取少数类样本个数作为簇个数可能会影响聚类过程,不利于后续采样。过抽样中经典的方法是SMOTE,该算法随机选择部分少数类样本,从这些少数类样本最近的几个邻居点中随机挑选一个样本,然后在这两个样本之间合成新的少数类样本。过采样具有的缺点是增加少数样本,可能会造成过拟合。Borderline-SMOTE1只利用位于边界内的少数样本合成新的样本,Borderline-SMOTE2除了只考虑边界点,允许少数类邻居点中存在部分多数类样本。以上方法可以减少噪声点的产生,而基于kmeans和SMOTE的启发式过采样不仅解决类间不平衡,还可以解决类内不平衡。算法级方法通过直接修改现有方法或者提出新的方法来解决类不平衡分类问题,但需要满足一定的假设条件。代价敏感学习为少数类样本分配的错误分类代价成本高于多数类样本,优化目标是使分类器的分类结果对应总代价成本最低,如何确定合适的代价成本是这类方法需要考虑的问题,同时也是难以解决的问题。集成学习技术将数据级方法与集成学习Bagging或者Boosting方法相结合,不仅通过数据预处理降低数据不平衡程度,而且通过组合多个分类器可提高分类性能。Bagging方法虽然简单,但是如果与数据预处理合理组合将对处理类不平衡分类问题具有积极作用,有效地组合两种方法可以提高对不平衡数据的分类效果。解决目前对于一对多框架下结果聚合的问题,主要有最大置信度值与动态排序方法。最大置信度考虑全部二分类模型结果,将最大置信度值对应的类别作为预测类别,但是该方法无法解决出现多个最大置信度值的情况。动态排序方法在对测试样本进行分类前,事先根据朴素贝叶斯分类器得到所有二分类模型对该样本的测试顺序,而不用同时考虑全部二分类模型结果。但朴素贝叶斯分类器给出的输出顺序对最终预测结果具有一定的影响,当所有二分类器输出结果中出现多个正类的概率大于阈值时影响更大。
【发明内容】
有鉴于此,本发明实施例提出了一种基于自适应平衡集成与动态分层决策的多分类方法,以提高分类模型的准确率。
本发明实施例提出的一种基于自适应平衡集成与动态分层决策的多分类方法,包括:
根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;
据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;
根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。
上述方法中,根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数的方法为:假定数据集D的类别总数为m,根据一对多分解策略将原始数据集D转化为m个二类数据集Di,其中,i=1,2,...,m,每个二类数据集中正类对应某一类别,负类对应剩余所有类别;根据网格搜索法分别对每个Di在{count(less),count(more)}内进行采样数目搜索,其中count(more)为多数类训练样本总数、count(less)为少数类训练样本总数,具体地将每个Di随机划分为五折,每四折作为训练集Dtr={lesstr,moretr},lesstr为少数类训练样本,moretr为多数类训练样本,每一折作为测试集,设定间距d,其中,0<d<count(moretr),从参数区间{count(lesstr),count(moretr)}内等间距确定采样数目num,据此平衡每四折对应的样本数据以建立多个分类模型,其中,count(moretr)为moretr中样本总数、count(lesstr)为lesstr中样本总数,利用剩余一折包含的样本对这些分类模型进行测试,保留模型对各个类别的分类准确率ACCi,其中,ACCi表示每个分类模型对第i个类别正确分类的样本数目占该类样本总数的比例,将各类别分类准确率求和取平均值得到平均每类准确率MAva:
然后,以MAva作为评分标准,重复实验多次,将评分值按从大到小顺序排列,挑选出评分值前3名对应采样数目numi1、numi2、numi3,根据转化公式num'=num/count(lesstr)*count(less)得到最终采样数目numi'1、numi'2、numi'3,其中,num为转化前采样数目,num'为转化后采样数目,count(lesstr)为五折中的少数类训练样本总数。
上述方法中,据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型的方法为:比较每个二类数据集Di中正负类样本数目大小,若正负类样本数目相等,则不作任何处理,若正负类样本数目不等,则对两类中的多数类样本进行随机欠采样,利用kmeans-SMOTE方法对少数类样本进行过采样,且满足采样后的正负类样本数目均等于采样数目num';基于Bagging思想,重复采样多次,组合每次采样后的正负类样本生成多份正负样本数目平衡的二类数据集,通过训练这些数据集得到多个二分类子模型,即每个二类数据集对应一个二分类模型,该模型中包含多个子模型,最后,根据平均法集成每个二分类问题对应的所有子模型得到最终的二分类模型hi(x):
其中,i表示第i个二分类模型,i=1,2,...,m,hit(x)表示第i个二分类模型对应的第t个子模型,t=1,2,...,T,T为每个二类数据集采样后的平衡子集总数。
上述方法中,根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别的方法为:每个二分类模型对测试样本进行预测,可得到输出向量r={r1,r2,...,ri,...,rm},ri表示第i个二分类模型的输出结果,由于每个分类模型中只包含正类与负类,若预测的正类概率值pi+大于负类概率值pi-,则令ri=1,反之则令ri=0,考虑所有二分类模型对一个测试样本的预测结果,则会出现三种情况,第一种情况为只有一个二分类模型对测试样本的预测结果满足pi+>pi-,即第二种情况为有多个二分类模型对测试样本的预测结果满足pi+>pi-,即第三种情况为没有任何一个二分类模型对测试样本的预测结果满足pi+>pi-,即第一种情况为理想输出结果,表明测试样本位于决策空间正常区域,则将满足pi+>pi-条件下对应正类的实际类别作为测试样本预测类别;第二种情况为出现多个正类概率大于负类概率,表明测试样本位于决策空间交叉区,则缩小样本空间,将pi+>pi-条件下对应正类的实际类别训练数据挑选出作为新的训练数据,从整体性出发训练一个分类模型进一步分类做出最终判断;第三种情况为每个分类模型均将测试样本判断为负类,表明测试样本位于决策空间空白区,这些分类模型对测试样本的类别无法给出准确判断,这时则根据欧式距离统计测试样本最近的k个邻居点中各类别数目,其中,k=3*m,m为类别总数,出现数目最多的类别则为最终预测类别。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提出的基于自适应平衡集成与动态分层决策的多分类方法的流程示意图;
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例给出基于自适应平衡集成与动态分层决策的多分类方法,请参考图1,其为本发明实施例所提出的基于自适应平衡集成与动态分层决策的多分类方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101,根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数。
具体的,假定数据集D的类别总数为m,根据一对多分解策略将原始数据集D转化为m个二类数据集Di,其中,i=1,2,...,m,每个二类数据集中正类对应某一类别,负类对应剩余所有类别;根据网格搜索法分别对每个Di在{count(less),count(more)}内进行采样数目搜索,其中count(more)为多数类训练样本总数、count(less)为少数类训练样本总数,具体地将每个Di随机划分为五折,每四折作为训练集Dtr={lesstr,moretr},lesstr为少数类训练样本,moretr为多数类训练样本,每一折作为测试集,设定间距d,其中,0<d<count(moretr),从参数区间{count(lesstr),count(moretr)}内等间距确定采样数目num,据此平衡每四折对应的样本数据以建立多个分类模型,其中,count(moretr)为moretr中样本总数、count(lesstr)为lesstr中样本总数,利用剩余一折包含的样本对这些分类模型进行测试,保留模型对各个类别的分类准确率ACCi,其中,ACCi表示每个分类模型对第i个类别正确分类的样本数目占该类样本总数的比例,将各类别分类准确率求和取平均值得到平均每类准确率MAva:
然后,以MAva作为评分标准,重复实验多次,将评分值按从大到小顺序排列,挑选出评分值前3名对应采样数目numi1、numi2、numi3,根据转化公式num'=num/count(lesstr)*count(less)得到最终采样数目numi'1、numi'2、numi'3,其中,num为转化前采样数目,num'为转化后采样数目,count(lesstr)为五折中的少数类训练样本总数。
步骤102,据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型。
具体的,比较每个二类数据集Di中正负类样本数目大小,若正负类样本数目相等,则不作任何处理,若正负类样本数目不等,则对两类中的多数类样本进行随机欠采样,利用kmeans-SMOTE方法对少数类样本进行过采样,且满足采样后的正负类样本数目均等于采样数目num';基于Bagging思想,重复采样多次,组合每次采样后的正负类样本生成多份正负样本数目平衡的二类数据集,通过训练这些数据集得到多个二分类子模型,即每个二类数据集对应一个二分类模型,该模型中包含多个子模型,最后,根据平均法集成每个二分类问题对应的所有子模型得到最终的二分类模型hi(x):
其中,i表示第i个二分类模型,i=1,2,...,m,hit(x)表示第i个二分类模型对应的第t个子模型,t=1,2,...,T,T为每个二类数据集采样后的平衡子集总数。
算法1为步骤101与步骤102中平衡数据集与二分类模型构建过程的伪代码:
步骤103,根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。
具体的,每个二分类模型对测试样本进行预测,可得到输出向量r={r1,r2,...,ri,...,rm},ri表示第i个二分类模型的输出结果,由于每个分类模型中只包含正类与负类,若预测的正类概率值pi+大于负类概率值pi-,则令ri=1,反之则令ri=0,考虑所有二分类模型对一个测试样本的预测结果,则会出现三种情况,第一种情况为只有一个二分类模型对测试样本的预测结果满足pi+>pi-,即第二种情况为有多个二分类模型对测试样本的预测结果满足pi+>pi-,即第三种情况为没有任何一个二分类模型对测试样本的预测结果满足pi+>pi-,即第一种情况为理想输出结果,表明测试样本位于决策空间正常区域,则将满足pi+>pi-条件下对应正类的实际类别作为测试样本预测类别;第二种情况为出现多个正类概率大于负类概率,表明测试样本位于决策空间交叉区,则缩小样本空间,将pi+>pi-条件下对应正类的实际类别训练数据挑选出作为新的训练数据,从整体性出发训练一个分类模型进一步分类做出最终判断;第三种情况为每个分类模型均将测试样本判断为负类,表明测试样本位于决策空间空白区,这些分类模型对测试样本的类别无法给出准确判断,这时则根据欧式距离统计测试样本最近的k个邻居点中各类别数目,其中,k=3*m,m为类别总数,出现数目最多的类别则为最终预测类别。
算法2为步骤103中测试样本类别判定过程的伪代码:
表一是本发明实施例给出基于自适应平衡集成方法解决8例KEEL公开数据集多分类任务时,MAva值的对比实验结果,其中,本发明实施例中对比方法是典型解决不平衡分类问题的UnderBagging方法、kmeans-SMOTE方法与Bagging-RB方法,基准分类器为随机森林算法,所有对比方法均在一对多框架下进行实验。由表一可以得出,本发明所提出的方法在公开数据集中相比于对比方法在MAva值均有所提高。特别的,提出方法在太阳耀斑数据集上的提升值最高,达到2.17%。本发明实施例所提出的方法在解决一对多框架下的正负样本数据不平衡取得了一定突破。
表一
表二是本发明实施例给出基于动态分层决策的结果聚合方法解决8例KEEL公开数据集分类任务时,MAva值的对比实验结果,其中,本发明实施例中对比方法是典型解决一对多框架结果聚合问题的最大置信度与动态排序方法,基准分类器为随机森林算法。由表二可以得出,本发明所提出的方法在大部分公开数据集中相比于对比方法在MAva值均有所提高。特别的,提出方法在玻璃数据集上的提升值最高,达到1.63%。本发明实施例所提出的方法在对二分类模型输出结果的聚合取得了一定突破。
表二
表三是本发明实施例给出基于自适应平衡集成与动态分层决策的多分类方法解决8例KEEL公开数据集分类任务时,MAva值的对比实验结果,其中,本发明实施例中对比方法是典型解决多类不平衡数据分类问题的DES-MI、OVO-SMB和OVO-EASY方法,基准分类器为随机森林算法。由表三可以得出,本发明所提出的方法在大部分公开数据集中相比于对比方法在MAva值均有所提高。特别的,提出方法在玻璃数据集上的提升值最高,达到4.72%。本发明实施例所提出的方法在对多类数据集的分类取得了一定突破。
表三
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。根据本发明实施例提供的技术方案,可以有效解决一对多框架下正负样本数目不平衡问题,减少对二分类模型输出置信度值的依赖,提高模型对所有类别的整体识别率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.一种基于自适应平衡集成与动态分层决策的多分类方法,其特征在于,所述方法步骤包括:
(1)根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;
(2)据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;
(3)根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。
2.根据权利要求1所述的方法,其特征在于,根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数,具体说明如下:假定数据集D的类别总数为m,根据一对多分解策略将原始数据集D转化为m个二类数据集Di,其中,i=1,2,...,m,每个二类数据集中正类对应某一类别,负类对应剩余所有类别;根据网格搜索法分别对每个Di在{count(less),count(more)}内进行采样数目搜索,其中count(more)为多数类训练样本总数、count(less)为少数类训练样本总数,具体地将每个Di随机划分为五折,每四折作为训练集Dtr={lesstr,moretr},lesstr为少数类训练样本,moretr为多数类训练样本,每一折作为测试集,设定间距d,其中,0<d<count(moretr),从参数区间{count(lesstr),count(moretr)}内等间距确定采样数目num,据此平衡每四折对应的样本数据以建立多个分类模型,其中,count(moretr)为moretr中样本总数、count(lesstr)为lesstr中样本总数,利用剩余一折包含的样本对这些分类模型进行测试,保留模型对各个类别的分类准确率ACCi,其中,ACCi表示每个分类模型对第i个类别正确分类的样本数目占该类样本总数的比例,将各类别分类准确率求和取平均值得到平均每类准确率MAva:
然后,以MAva作为评分标准,重复实验多次,将评分值按从大到小顺序排列,挑选出评分值前3名对应采样数目numi1、numi2、numi3,根据转化公式num'=num/count(lesstr)*count(less)得到最终采样数目num′i1、num′i2、num′i3,其中,num为转化前采样数目,num'为转化后采样数目,count(lesstr)为五折中的少数类训练样本总数。
3.根据权利要求1所述的方法,其特征在于,据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型,具体说明为:比较每个二类数据集Di中正负类样本数目大小,若正负类样本数目相等,则不作任何处理,若正负类样本数目不等,则对两类中的多数类样本进行随机欠采样,利用kmeans-SMOTE方法对少数类样本进行过采样,且满足采样后的正负类样本数目均等于采样数目num';基于Bagging思想,重复采样多次,组合每次采样后的正负类样本生成多份正负样本数目平衡的二类数据集,通过训练这些数据集得到多个二分类子模型,即每个二类数据集对应一个二分类模型,该模型中包含多个子模型,最后,根据平均法集成每个二分类问题对应的所有子模型得到最终的二分类模型hi(x):
其中,i表示第i个二分类模型,i=1,2,...,m,hit(x)表示第i个二分类模型对应的第t个子模型,t=1,2,...,T,T为每个二类数据集采样后的平衡子集总数。
4.根据权利要求1所述的方法,其特征在于,根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别,具体说明为:每个二分类模型对测试样本进行预测,可得到输出向量r={r1,r2,...,ri,...,rm},ri表示第i个二分类模型的输出结果,由于每个分类模型中只包含正类与负类,若预测的正类概率值pi+大于负类概率值pi-,则令ri=1,反之则令ri=0,考虑所有二分类模型对一个测试样本的预测结果,则会出现三种情况,第一种情况为只有一个二分类模型对测试样本的预测结果满足pi+>pi-,即第二种情况为有多个二分类模型对测试样本的预测结果满足pi+>pi-,即第三种情况为没有任何一个二分类模型对测试样本的预测结果满足pi+>pi-,即第一种情况为理想输出结果,表明测试样本位于决策空间正常区域,则将满足pi+>pi-条件下对应正类的实际类别作为测试样本预测类别;第二种情况为出现多个正类概率大于负类概率,表明测试样本位于决策空间交叉区,则缩小样本空间,将pi+>pi-条件下对应正类的实际类别训练数据挑选出作为新的训练数据,从整体性出发训练一个分类模型进一步分类做出最终判断;第三种情况为每个分类模型均将测试样本判断为负类,表明测试样本位于决策空间空白区,这些分类模型对测试样本的类别无法给出准确判断,这时则根据欧式距离统计测试样本最近的k个邻居点中各类别数目,其中,k=3*m,m为类别总数,出现数目最多的类别则为最终预测类别。
CN201811599644.1A 2018-12-26 2018-12-26 一种基于自适应平衡集成与动态分层决策的多分类方法 Pending CN109359704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811599644.1A CN109359704A (zh) 2018-12-26 2018-12-26 一种基于自适应平衡集成与动态分层决策的多分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811599644.1A CN109359704A (zh) 2018-12-26 2018-12-26 一种基于自适应平衡集成与动态分层决策的多分类方法

Publications (1)

Publication Number Publication Date
CN109359704A true CN109359704A (zh) 2019-02-19

Family

ID=65330104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811599644.1A Pending CN109359704A (zh) 2018-12-26 2018-12-26 一种基于自适应平衡集成与动态分层决策的多分类方法

Country Status (1)

Country Link
CN (1) CN109359704A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652384A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种数据量分布的平衡方法及数据处理方法
CN112183576A (zh) * 2020-08-25 2021-01-05 北京邮电大学 一种基于不均衡数据集的Time-LSTM分类方法
CN112463640A (zh) * 2020-12-15 2021-03-09 武汉理工大学 一种基于联合概率域适应的跨项目软件老化缺陷预测方法
CN112465153A (zh) * 2019-12-23 2021-03-09 北京邮电大学 一种基于不平衡集成二分类的磁盘故障预测方法
CN112507366A (zh) * 2020-12-18 2021-03-16 北京国电通网络技术有限公司 一种智能电网中多维数据高效数据聚合的方法和系统
CN112541542A (zh) * 2020-12-11 2021-03-23 第四范式(北京)技术有限公司 多分类样本数据的处理方法、装置及计算机可读存储介质
CN112633319A (zh) * 2020-11-23 2021-04-09 贵州大学 一种不完备数据集中平衡输入数据类别多目标检测方法
CN113127333A (zh) * 2019-12-31 2021-07-16 中移互联网有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113361591A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于类别组合和样本采样的类别不平衡处理方法
CN115795353A (zh) * 2023-02-06 2023-03-14 北京科技大学 一种基于不均衡数据集的地下金属目标分类方法及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652384A (zh) * 2019-03-27 2020-09-11 上海铼锶信息技术有限公司 一种数据量分布的平衡方法及数据处理方法
CN111652384B (zh) * 2019-03-27 2023-08-18 上海铼锶信息技术有限公司 一种数据量分布的平衡方法及数据处理方法
CN112465153A (zh) * 2019-12-23 2021-03-09 北京邮电大学 一种基于不平衡集成二分类的磁盘故障预测方法
CN113127333A (zh) * 2019-12-31 2021-07-16 中移互联网有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112183576A (zh) * 2020-08-25 2021-01-05 北京邮电大学 一种基于不均衡数据集的Time-LSTM分类方法
CN112183576B (zh) * 2020-08-25 2022-12-27 北京邮电大学 一种基于不均衡数据集的Time-LSTM分类方法
CN112633319A (zh) * 2020-11-23 2021-04-09 贵州大学 一种不完备数据集中平衡输入数据类别多目标检测方法
CN112541542A (zh) * 2020-12-11 2021-03-23 第四范式(北京)技术有限公司 多分类样本数据的处理方法、装置及计算机可读存储介质
CN112541542B (zh) * 2020-12-11 2023-09-29 第四范式(北京)技术有限公司 多分类样本数据的处理方法、装置及计算机可读存储介质
CN112463640B (zh) * 2020-12-15 2022-06-03 武汉理工大学 一种基于联合概率域适应的跨项目软件老化缺陷预测方法
CN112463640A (zh) * 2020-12-15 2021-03-09 武汉理工大学 一种基于联合概率域适应的跨项目软件老化缺陷预测方法
CN112507366A (zh) * 2020-12-18 2021-03-16 北京国电通网络技术有限公司 一种智能电网中多维数据高效数据聚合的方法和系统
CN112507366B (zh) * 2020-12-18 2024-03-26 北京国电通网络技术有限公司 一种智能电网中多维数据高效数据聚合的方法和系统
CN113361591A (zh) * 2021-06-03 2021-09-07 重庆南鹏人工智能科技研究院有限公司 一种基于类别组合和样本采样的类别不平衡处理方法
CN115795353A (zh) * 2023-02-06 2023-03-14 北京科技大学 一种基于不均衡数据集的地下金属目标分类方法及系统

Similar Documents

Publication Publication Date Title
CN109359704A (zh) 一种基于自适应平衡集成与动态分层决策的多分类方法
CN107103332B (zh) 一种面向大规模数据集的相关向量机分类方法
Zhao et al. A weighted hybrid ensemble method for classifying imbalanced data
CN108363810A (zh) 一种文本分类方法及装置
CN102915447B (zh) 一种基于二叉树支持向量机的分类方法
CN107292350A (zh) 大规模数据的异常检测方法
CN103605990B (zh) 基于图聚类标签传播的集成多分类器融合分类方法和系统
CN111539451B (zh) 样本数据优化方法、装置、设备及存储介质
CN115048988B (zh) 基于高斯混合模型的不平衡数据集分类融合方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN102903007B (zh) 一种采用遗传算法优化二分类模型参数的方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN106482967A (zh) 一种代价敏感支持向量机机车车轮检测系统及方法
CN104809476B (zh) 一种基于分解的多目标进化模糊规则分类方法
CN108460421A (zh) 不平衡数据的分类方法
CN105740914A (zh) 一种基于近邻多分类器集成的车牌识别方法及系统
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN109902740A (zh) 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN105975611A (zh) 自适应组合降采样增强学习机
CN108171432B (zh) 基于多维云模型-模糊支持向量机的生态风险评价方法
CN109472302A (zh) 一种基于AdaBoost的支持向量机集成学习方法
CN109800810A (zh) 一种基于不平衡数据的少样本学习分类器构建方法
CN109886284A (zh) 基于层次化聚类的欺诈检测方法及系统
CN108416369A (zh) 基于Stacking和翻转随机降采样分类方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190219