CN106778853A - 基于权重聚类和欠抽样的不平衡数据分类方法 - Google Patents

基于权重聚类和欠抽样的不平衡数据分类方法 Download PDF

Info

Publication number
CN106778853A
CN106778853A CN201611116829.3A CN201611116829A CN106778853A CN 106778853 A CN106778853 A CN 106778853A CN 201611116829 A CN201611116829 A CN 201611116829A CN 106778853 A CN106778853 A CN 106778853A
Authority
CN
China
Prior art keywords
sample
cluster
weight
algorithm
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611116829.3A
Other languages
English (en)
Inventor
邓晓衡
钟维坚
任炬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201611116829.3A priority Critical patent/CN106778853A/zh
Publication of CN106778853A publication Critical patent/CN106778853A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一。因为少数类样本数量远远少于多数类,导致少数类在传统算法的分类学习过程中存在正确率低、泛化性能不好等缺陷。算法集成已经成处理该问题的一个重要方法,其中基于随机欠抽样和基于聚类的两种集成算法能有效提高分类的性能。但是,前者容易造成信息丢失,后者计算复杂不易推广。本文提出一种基于权重聚类,融合欠抽样的改进的集成分类算法,具体为基于权重聚类和欠抽样的不平衡数据分类方法。算法根据样本权重划分簇,依据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集,并利用Adaboost算法框架对分类器进行集成,提高了分类效果。实验结果表明,该算法具有准确,简单,稳定性高的特点。

Description

基于权重聚类和欠抽样的不平衡数据分类方法
技术领域
本发明属于计算机技术领域,具体涉及到一种基于Adaboost算法的权重聚类和欠抽样的不平衡数据集分类方法。
背景技术
随着互联网技术的发展,人们获取的信息类型和数量都在快速地增加。大量的数据噪声和更加复杂的数据发布类型,会给我们的数据分析带来新的挑战。其中,不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一,它广泛存在于医疗诊断,信用评估等领域。在不平衡数据中,多数类的样本数量远远大于少数类的数量,如果使用普通的机器学习方法和评价标准,很有可能会导致少数类被忽略,甚至直接被当做噪声处理掉。因此,普通的机器学习算法对不平衡数据集进行学习分类时往往难以取得较好的效果。
针对不平衡数据分类问题,研究者进行了大量研究,提出了许多解决方案。其中,基于数据层的方法前期对数据样本进行预处理,达到尽量平衡化数据样本的效果。如SMOTE方法,采用人工合成新样本的方式以平衡样本分布。然而,SMOTE在合成样本的过程中具有一定的盲目性,它不能对合成样本数量进行精确控制,同时也没有充分考虑到多数类近邻样本,往往导致严重的样本重叠。在这种情况下,SMOTEBoost算法将SMOTE方法数据层上的改进与集成学习相结合,在Adaboost算法每次迭代中引入合成样本,使得分类器对类别平衡关注。而RUSBoost算法则将欠抽样方法与Adaboost算法结合,在不平衡数据集中的多数类采用欠抽样的方式提取一部分样本,并与少数类样本组成样本平衡分布的训练集,从而在不平衡数据集上取得较好的泛化能力。然而RUSBoost算法在每一轮的Adaboost迭代的欠采样中,是从多数类样本随机地进行抽取,因此这种方法会造成多数类样本信息的丢失。即使通过Boosting的方法对这种丢失的信息进行一定程度上的弥补,但这弥补的程度是随机而不可定的。
在此背景下,提出基于权重聚类和欠抽样的不平衡数据分类算法。算法吸收Adaboost算法修改权重的方法,在训练的进行过程中,依据权重将多数类样本集合分为有序且相关性较小的子集,再从子集中进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式,在不过分提高计算开销的情况下,优化了随机欠采样,提高了分类准确率。
发明内容
本发明提出基一种于权重聚类和欠抽样的不平衡数据分类算法。由于传统聚类算法处理在算法完成后便将子集固定了下来,它对多数类数据集有序程度的规划很可能不是最优的,不能满足集成算法的动态要求。而且,聚类算法往往要对数据集中的所有样本进行迭代的距离计算,这会带来非常大的计算开销。其次,传统的欠抽样方法没有考虑不平衡数据不同分布情况对抽样效果的影响。因此本发明的方法在聚类方式和前抽样方式上对传统的方法进行改进,在Adaboost算法的迭代过程中对簇根据样本权重方差对簇进行分割,达到自动聚类的效果,再从子集中依据样本权重进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式,在不过分提高计算开销的情况下,优化了随机欠采样,提高了分类准确率。
为了达到以上目的,本发明在Adaboost算法模型的基础上,依据样本权重方差,在算法的每轮迭代过程中对簇进行分裂,从而将多数类样本划分为几个特定的簇,再从每个簇中抽取合适地样本组成平衡分布的训练集。算法具体实现步骤如下:
步骤1:建立Adaboost算法模型
Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类较难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:
步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。
步骤1.2:初始化样本权重:
wt(i)=1/n,i=1,2,…,n
步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:
其中εt为当前样本分布上的加权错误率,计算公式如下:
若t<T,令t=t+1并重复步骤c;
步骤1.4:输出强分类器:
步骤2:基于权重方差的子集分割方法在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:
通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下:
利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:
其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为NC时,可能的子集分割情况的数量为NC-1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C中样本的个数,wk为C中样本的权重,k=1,2…NC。在计算C中权重方差后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和。
wsvarmin=min0<j<J{wsvar(P1,P2)}
计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。
步骤3:融合权重聚类和Adaboost集成学习算法模型,已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,初始C1=S-;J为簇的数量;WeakLearn表示弱学习算法,则融合权重聚类和Adaboost集成学习算法模型具体步骤如下:
步骤3.1:已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,初始C1=S-;J为簇的数量,首先初始化所有样本的样本权重,公式如下:
步骤3.2:使样本集合中的多数类集合为初始第一个簇,即C1=S-
步骤3.3:从各个簇中抽取一定数量的样本构成有代表性的训练数据集,确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:
之后对每个簇采用TOP-K的方式,从没个簇Cj中随机抽取SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。
步骤3.4:使用弱学习算法,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差,分类误差计算公式如下:
由分类误差计算β=εt/(1-εt),并更新所有的样本权重,公式如下:
步骤3.5:对循环次数t,计算t%step,当t%step==0and NS<MN时,对所有簇进行步骤2所示的分裂操作。
步骤3.6:若t<T,令t=t+1,并重复步骤g,否则输出最终的集成分类器H(x):
与现有技术相比,本发明分析方法的优点是:基于欠抽样和Boosting集成学习方法,,提出一种新聚类模型,在Adaboost算法迭代过程中,通过样本权重方差综合考虑多数类样本对分类训练的重要性,并通过TOP-K的方法将有代表性的样本抽取出来组成平衡分布的训练集。实际仿真结果和理论模型分析基本相一致,证实了本方法的正确性。另外,从不同数据分布的不平衡数据集的实验分析结果和仿真结果可以看出,在各种不平衡数据集分布情况下,该发明的方法都能很好地对有代表性的多数类样本进行聚类。在样本重叠严重的情况下情况下,该方法明显优于层次聚类方法。而在少数类子集分离的情况下,相比层次聚类方法,该方法能在较少复杂度的情况下取得较好的效果。因此,本发明的方法在聚类过程中能取得更好的聚类效果,相比传统方法也能取得更高的分类精确度。
附图说明
图1是本发明提出的基于权重聚类和欠抽样的不平衡数据分类方法的流程图;
图2是人工生成的三种不同数据分布情况下的二维数据图;
图3是本发明提出权重聚类方法和K-Mean聚类、层次聚类方法在普通不平衡二维数据上的聚类结果对比图;
图4是本发明提出方法和K-Mean聚类、层次聚类方法在少数类和多数类样本严重重叠数据上的聚类结果对比图;
图5是本发明提出方法和K-Mean聚类、层次聚类方法在不平衡数据中少数类子集分离情况下的聚类结果对比图;
图6是本发明提出方法和随机权重欠抽样方法、最邻近欠抽样方法在普通不平衡二维数据上的欠抽样效果对比图;
图7是本发明提出方法和随机权重欠抽样方法、最邻近欠抽样方法在少数类和多数类样本严重重叠数据上的欠抽样效果对比图;
图8是本发明提出方法和随机权重欠抽样方法、最邻近欠抽样方法在不平衡数据中少数类子集分离情况下的欠抽样效果对比图。
具体实施方法
为了更加详细的描述本发明提出的一种基于权重聚类和欠抽样的不平衡数据分类方法,下面将结合附图和仿真实验对本发明作进一步的详细说明。
本发明在Adaboost集成学习模型的基础上,通过样本权重方差对多数类样本簇进行分裂,达到聚类的效果。在前抽样阶段中,从每个簇中抽取最具代表性的多数类样本,与少数类样本组成平衡分布的数据集供Adaboost算法进行训练,最终输出集成的强分类器H(x)。
具体方法包括以下步骤:
步骤1、已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,初始C1=S-;J为簇的数量,初始J=1;WeakLearn表示弱学习算法,本例中采用CART算法为弱学习算法,供Adaboost用作基分类器训练用。
步骤2、设定簇分裂步数Step=5,簇的最大数量MN,通常MN=size(S-)/size(S+)。
步骤3、对所有的样本权重进行归一化:
步骤4:确定每个簇的样本抽取数量SNCj。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:
步骤5:每个簇采用TOP-K的方式,从每个簇Cj中抽取权重最大的SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。
步骤6:使用CART算法为基分类器,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差εt,分类误差计算公式如下:
步骤7:由分类误差计算β=εt/(1-εt),并更新所有的样本权重,公式如下:
步骤8:对循环次数t,计算t%step,当t%step==0and NS<MN时,对所有簇进行分裂操作。当簇为C,C中样本数量为NC,集合中样本权重为w时,计算器权重方差,公式如下:
利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:
其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为NC时,可能的子集分割情况的数量为NC-1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C中样本的个数,wk为C中样本的权重,k=1,2…NC。在计算C中权重方差后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和。
wsvarmin=min0<j<J{wsvar(P1,P2)}
计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。
步骤9:若t<T,令t=t+1,并回到步骤4,否则输出最终的集成分类器H(x):
本发明提出的方法可分为三个部分:1)对多数类的聚类,2)从多数类簇中进行欠抽样,3)训练集成分类器。当少数类样本数量为Np,多数类样本数量为Nn,则本发明提出的方法在三个部分的时间复杂度分别是O(Nn log(Nn)t),O(Np log Nn),and O(tB),其中t,d,和B分别代表聚类用的迭代次数,样本的特征个数和基分类器的时间复杂度。与本方法相比,K-Means聚类方法和层次聚类方法的时间复杂度为O(Ntd)和O(N 2d logN),其中N=Nn+Np。因此,本发明提出的方法在时间复杂度上接近K-Means算法并远远小于层次聚类算法。
实施例1:
在该实施中,使用的数据为人工生成的1000条二维数据,多数类与少数类的比例为9:1。其中图2(a)为多数类和少数类边界较为明显的普通不平衡数据。图2(b)为多数类与少数类重叠的数据。图2(c)显示了少数类子集分离情况的不平衡数据。其中‘x’表示该点为多数类样本,‘o’表示该点为少数类样本。表1展示了实验对比所采用的算法,本实施在这三种分布的不平衡数据情况下,将本发明提出的基于样本权重方差聚类方法与K-Means(CEU)和层次聚类方法做聚类(EHCU)效果对比实验,实验中相同灰度的样本点表示同一簇的样本。在聚类的基础上,本实施将发明的欠抽样方法与传统基于权重随机欠抽样(CEU)、最邻近抽样方法(EHCU)进行抽样效果对比实验。
表1实验对比算法
图3-5分别显示了三种算法在三个人工生成数据集上的聚类结果,其中(a)图为本发明提出方法的聚类;(b)为K-Means聚类结果图;(c)为层次聚类结果图。由图3可知,当样本类别重叠不严重时,本发明的方法和层次聚类方法能分辨与少数类样本接触较多的多数类样本,并能很好地将少量与少数类重叠的多数类样本分为单独的几个簇。由图4可知,当数据重叠程度较高时,K-Means聚类和层次聚类不能取得较好的聚类效果,而本发明的方法能够识别重叠部分的多数类样本,并将其与其他样本区分。由图5可知,当少数类子集分离时,本发明提出的方法能够关注子集间的多数类样本。而K-Means聚类更趋向与样本的空间分布,将少数类与相近的多数类分为同一簇,其效果并不理想。
图6-8分别显示了三种算法在三个人工生成数据集上的欠抽样效果,其中(a)图为本发明提出方法的欠抽样效果图;(b)为基于权重随机欠抽样(CEU)效果图;(c)为最邻近抽样方法(EHCU)效果图。由图6可知,当样本类别重叠不严重时,本发明提出的方法能够较好地识别类别边界。由图7可知,当样本重叠严重时,基于基于K-Means聚类的随机权重抽样和基于层次聚类的最邻近抽样并不能取得太好的效果,且不能对重叠噪声进行控制。由图8可知,当少数类样本子集分离是,本发明的方法相比K-Means聚类的随机权重抽样能取得更好的效果。
实施例2:
在该实施中,选择22组具有不同实际应用背景的KEEL数据作为实验测试数据。所选取的数据集中,最小的多数类和少数类数量比为9.09,最大的为128。对于含有多个类别的数据,合并某些类别或只取两个类别。实验结果如表2所示。为了使结果更加可靠,实验对每个数据集的每次验证进行5次实验并取AUC结果的平均值。表2显示了各个对比算法和本文提出算法在22个不平衡数据集上的实验结果。
表2AUC指标实验结果
结果显示,本发明提出的算法在较多数据集上比其他算法有更好的表现,且综合平均AUC值最大。与表现第二好的算法相比,算法平均提升2%。因此,与其它算法相比,本文提出的算法在分类性能上有较好的提升。

Claims (1)

1.一种基于权重聚类和欠抽样的不平衡数据分类方法,其特征在于包括以下步骤:
步骤1:建立Adaboost集成算法模型
Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:
步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。
步骤1.2:初始化样本权重:
wt(i)=1/n,i=1,2,…,n
步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:
w t + 1 ( i ) = w t ( i ) &times; 1 - &epsiv; t 1 2 &times; | h t ( x i ) - y i | &epsiv; t
w t + 1 ( i ) w t ( i ) / &Sigma; i = 1 n w t ( i )
其中εt为当前样本分布上的加权错误率,计算公式如下:
&epsiv; t = &Sigma; jy i &NotEqual; y j i ( 1 - h t ( x i , y i ) + h t ( x i , y ) )
若t<T,令t=t+1并重复步骤c,否则,输出集成分类器H(x):
H ( x ) = argmax &Sigma; t = 1 T h t ( x , y ) l o g ( 1 - &epsiv; t &epsiv; t )
步骤2:建立基于权重方差的子集分割方法
在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:
w h ( x i ) &NotEqual; y i = w h ( x i ) &NotEqual; y i &times; 1 - &epsiv; &epsiv; , &Element; = &Sigma; h ( x i ) &NotEqual; y i w h ( x i ) &NotEqual; y i
通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下
w var ( C ) = &Sigma; i = 0 N C ( w k - &Sigma; k = 0 N C w k N C ) 2 / N C
利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:
w s var ( C 1 , C 2 ) = s i z e ( C 1 ) s i z e ( C ) &times; w var ( C 1 ) + s i z e ( C 2 ) s i z e ( C ) &times; w var ( C 2 )
其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为I时,可能的子集分割情况的数量为I-1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C重样本的个数,wk为C中样本的权重,k=1,2…NC,在计算C中权重方差wvars=wvar(C)后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和
wsvarmin=min0<j<J{wsvar(C1,C2)}
计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。
步骤3:建立融合权重聚类和Adaboost集成学习算法模型,已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,J为簇的数量;WeakLearn表示若学习算法,则融合权重聚类和Adaboost集成学习算法模型具体步骤如下:
步骤3.1:初始化所有样本的样本权重,公式如下:
w i 1 = 1 / N
步骤3.2:使样本集合中的多数类集合为初始第一个簇,即C1=S-
步骤3.3:从各个簇中抽取一定数量的样本构成有代表性的训练数据集,确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:
W = &Sigma; i = 1 N w i , SNC j = &Sigma; w k &Element; C j w k / W
步骤3.4:对每个簇采用TOP-K的方式,从每个簇Cj中随机抽取SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。
步骤d)、使用弱学习算法,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差,分类误差计算公式如下:
h ( t ) : &epsiv; t = &Sigma; jy i &NotEqual; y j i ( 1 - h t ( x i , y i ) + h t ( x i , y ) )
由分类误差计算β=εt/(1-εt),并更新所有的样本权重,公式如下:
w i t + 1 = w i t &beta; t 1 - &lsqb; &lsqb; h t ( x i ) &NotEqual; y i &rsqb; &rsqb;
步骤3.5:对循环次数t,计算t%step,当t%step==0且NS<MN时,对所有簇进行步骤2所示的分裂操作。
步骤:3.6:若t<T,令t=t+1,并重复步骤g),否则输出强分类器H(x):
H ( x ) = argmax &Sigma; t = 1 T h t ( x , y ) log ( 1 - &epsiv; t &epsiv; t )
CN201611116829.3A 2016-12-07 2016-12-07 基于权重聚类和欠抽样的不平衡数据分类方法 Pending CN106778853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611116829.3A CN106778853A (zh) 2016-12-07 2016-12-07 基于权重聚类和欠抽样的不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611116829.3A CN106778853A (zh) 2016-12-07 2016-12-07 基于权重聚类和欠抽样的不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN106778853A true CN106778853A (zh) 2017-05-31

Family

ID=58882272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611116829.3A Pending CN106778853A (zh) 2016-12-07 2016-12-07 基于权重聚类和欠抽样的不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN106778853A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657283A (zh) * 2017-10-10 2018-02-02 哈尔滨工业大学 基于多个视图的不完整数据分类方法及装置
CN107992594A (zh) * 2017-12-12 2018-05-04 北京锐安科技有限公司 一种文本属性的划分方法、装置、服务器和存储介质
CN108733633A (zh) * 2018-05-18 2018-11-02 北京科技大学 一种样本分布调整的不平衡数据回归方法及装置
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN109145978A (zh) * 2018-08-15 2019-01-04 大连海事大学 一种鞋底花纹图像的特征弱相关聚类方法
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109447158A (zh) * 2018-10-31 2019-03-08 中国石油大学(华东) 一种基于不平衡数据的Adaboost有利储层发育区预测方法
CN109615075A (zh) * 2018-12-14 2019-04-12 大连海事大学 一种基于多层聚类模型的居民日常行为识别方法
CN109783586A (zh) * 2019-01-21 2019-05-21 福州大学 基于聚类重采样的水军评论检测系统及方法
CN110108992A (zh) * 2019-05-24 2019-08-09 国网湖南省电力有限公司 基于改进随机森林算法的电缆局放故障识别方法、系统及介质
CN110175635A (zh) * 2019-05-07 2019-08-27 南京邮电大学 基于Bagging算法的OTT应用程序用户分类方法
WO2019169700A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN110378389A (zh) * 2019-06-24 2019-10-25 苏州浪潮智能科技有限公司 一种Adaboost分类器计算机创建装置
CN110516853A (zh) * 2019-08-07 2019-11-29 中南民族大学 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
CN110598798A (zh) * 2019-09-20 2019-12-20 胡燕祝 一种基于VFDT-Boosting-3WD的数据分类方法
CN110880117A (zh) * 2019-10-31 2020-03-13 北京三快在线科技有限公司 虚假业务识别方法、装置、设备和存储介质
CN113657428A (zh) * 2021-06-30 2021-11-16 北京邮电大学 网络流量数据的抽取方法及装置
CN114240101A (zh) * 2021-12-02 2022-03-25 支付宝(杭州)信息技术有限公司 一种风险识别模型的验证方法、装置以及设备
CN114548327A (zh) * 2022-04-27 2022-05-27 湖南工商大学 基于平衡子集的软件缺陷预测方法、系统、设备及介质
WO2022205554A1 (zh) * 2021-03-31 2022-10-06 电子科技大学中山学院 一种面向目标识别的多阶段训练方法
CN116758767A (zh) * 2023-08-21 2023-09-15 中南大学 基于多策略强化学习的交通信号灯控制方法
CN117332082A (zh) * 2023-09-19 2024-01-02 北京邮电大学 基于聚类和集成学习的不平衡语言隐写分析方法及装置
CN117952326A (zh) * 2024-03-27 2024-04-30 葛洲坝集团生态环保有限公司 基于人工智能的污水处理监管方法及系统

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107657283A (zh) * 2017-10-10 2018-02-02 哈尔滨工业大学 基于多个视图的不完整数据分类方法及装置
CN107992594A (zh) * 2017-12-12 2018-05-04 北京锐安科技有限公司 一种文本属性的划分方法、装置、服务器和存储介质
WO2019169700A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
CN108733633A (zh) * 2018-05-18 2018-11-02 北京科技大学 一种样本分布调整的不平衡数据回归方法及装置
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN109145978A (zh) * 2018-08-15 2019-01-04 大连海事大学 一种鞋底花纹图像的特征弱相关聚类方法
CN109272056A (zh) * 2018-10-30 2019-01-25 成都信息工程大学 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN109447158A (zh) * 2018-10-31 2019-03-08 中国石油大学(华东) 一种基于不平衡数据的Adaboost有利储层发育区预测方法
CN109615075B (zh) * 2018-12-14 2022-08-19 大连海事大学 一种基于多层聚类模型的居民日常行为识别方法
CN109615075A (zh) * 2018-12-14 2019-04-12 大连海事大学 一种基于多层聚类模型的居民日常行为识别方法
CN109783586A (zh) * 2019-01-21 2019-05-21 福州大学 基于聚类重采样的水军评论检测系统及方法
CN109783586B (zh) * 2019-01-21 2022-10-21 福州大学 基于聚类重采样的水军评论检测方法
CN110175635A (zh) * 2019-05-07 2019-08-27 南京邮电大学 基于Bagging算法的OTT应用程序用户分类方法
CN110175635B (zh) * 2019-05-07 2022-08-30 南京邮电大学 基于Bagging算法的OTT应用程序用户分类方法
CN110108992A (zh) * 2019-05-24 2019-08-09 国网湖南省电力有限公司 基于改进随机森林算法的电缆局放故障识别方法、系统及介质
CN110378389A (zh) * 2019-06-24 2019-10-25 苏州浪潮智能科技有限公司 一种Adaboost分类器计算机创建装置
CN110516853A (zh) * 2019-08-07 2019-11-29 中南民族大学 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
CN110516853B (zh) * 2019-08-07 2020-12-29 中南民族大学 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
CN110598798A (zh) * 2019-09-20 2019-12-20 胡燕祝 一种基于VFDT-Boosting-3WD的数据分类方法
CN110880117A (zh) * 2019-10-31 2020-03-13 北京三快在线科技有限公司 虚假业务识别方法、装置、设备和存储介质
WO2022205554A1 (zh) * 2021-03-31 2022-10-06 电子科技大学中山学院 一种面向目标识别的多阶段训练方法
CN113657428A (zh) * 2021-06-30 2021-11-16 北京邮电大学 网络流量数据的抽取方法及装置
CN114240101A (zh) * 2021-12-02 2022-03-25 支付宝(杭州)信息技术有限公司 一种风险识别模型的验证方法、装置以及设备
CN114548327A (zh) * 2022-04-27 2022-05-27 湖南工商大学 基于平衡子集的软件缺陷预测方法、系统、设备及介质
CN116758767A (zh) * 2023-08-21 2023-09-15 中南大学 基于多策略强化学习的交通信号灯控制方法
CN116758767B (zh) * 2023-08-21 2023-10-20 中南大学 基于多策略强化学习的交通信号灯控制方法
CN117332082A (zh) * 2023-09-19 2024-01-02 北京邮电大学 基于聚类和集成学习的不平衡语言隐写分析方法及装置
CN117332082B (zh) * 2023-09-19 2024-06-11 北京邮电大学 基于聚类和集成学习的不平衡语言隐写分析方法及装置
CN117952326A (zh) * 2024-03-27 2024-04-30 葛洲坝集团生态环保有限公司 基于人工智能的污水处理监管方法及系统

Similar Documents

Publication Publication Date Title
CN106778853A (zh) 基于权重聚类和欠抽样的不平衡数据分类方法
Chang et al. A method for classifying medical images using transfer learning: A pilot study on histopathology of breast cancer
CN102930301B (zh) 基于特征权重学习与核稀疏表示的图像分类方法
CN108460421A (zh) 不平衡数据的分类方法
CN103309953B (zh) 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
US20180165413A1 (en) Gene expression data classification method and classification system
CN104751469B (zh) 基于核模糊c均值聚类的图像分割方法
CN106919951A (zh) 一种基于点击与视觉融合的弱监督双线性深度学习方法
CN110197205A (zh) 一种多特征来源残差网络的图像识别方法
CN103489005A (zh) 一种基于多分类器融合的高分辨率遥感影像分类方法
CN110232396B (zh) X射线乳腺影像深度学习分类方法
CN109086886A (zh) 一种基于极限学习机的卷积神经网络学习算法
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN104820825B (zh) 基于Adaboost算法的人脸识别优化方法
CN103886342A (zh) 基于光谱和邻域信息字典学习的高光谱图像分类方法
CN109711433A (zh) 一种基于元学习的细粒度分类方法
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN104156690B (zh) 一种基于图像空间金字塔特征包的手势识别方法
CN105975611A (zh) 自适应组合降采样增强学习机
CN102254020A (zh) 基于特征权重的全局k-均值聚类方法
CN103577841A (zh) 一种无监督多视图特征选择的人体行为识别方法
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN105718940A (zh) 基于多组间因子分析的零样本图像分类方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN105868796A (zh) 基于核空间的线性鉴别稀疏表示分类器的设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531