CN110516853A - 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法 - Google Patents

一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法 Download PDF

Info

Publication number
CN110516853A
CN110516853A CN201910726630.XA CN201910726630A CN110516853A CN 110516853 A CN110516853 A CN 110516853A CN 201910726630 A CN201910726630 A CN 201910726630A CN 110516853 A CN110516853 A CN 110516853A
Authority
CN
China
Prior art keywords
algorithm
sample
cluster
poor
poverty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910726630.XA
Other languages
English (en)
Other versions
CN110516853B (zh
Inventor
朱容波
王俊
王德军
张静静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN201910726630.XA priority Critical patent/CN110516853B/zh
Publication of CN110516853A publication Critical patent/CN110516853A/zh
Application granted granted Critical
Publication of CN110516853B publication Critical patent/CN110516853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法,该方法包括以下步骤:通过入库贫困户相关基本信息进行整理,提取致贫敏感信息,作为模型的输入;通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限,作为模型的输出;在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进,得到ACNUSBoost算法,通过自适应聚类算法对训练样本中的多数类样本进行聚类,针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本,随机去除部分剩余的多数类样本;并对分类器进行多次线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型;本发明利用欠采样技术解决AdaBoost算法中少数类样本有限的问题,能准确进行脱贫时间的预测。

Description

一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
技术领域
本发明涉及大数据应用领域,尤其涉及一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法。
背景技术
为实现贫困户真正全面稳定脱贫,巩固脱贫成效防止返贫现象发生,需对扶贫数据进行更深入的研究分析。当前国内研究者对扶贫数据的处理研究主要集中在对扶贫资源的信息化精确整合管理上,对于贫困户基础信息、脱贫时间及帮扶措施之间内在联系的相关研究工作,仅限于理论层面的定性分析,缺乏能够实际应用的直观量化模型,对数据内在价值的挖掘利用远远不够。基于国家扶贫攻坚末期的时政背景,结合当前IT领域最热门的深度学习技术,进行脱贫时间预测的相关研究,充分挖掘扶贫数据中包含的贫困户与政策措施的潜在联系,提高帮扶效率,改善资源配置不均衡问题;在短期内实现贫困户脱贫的同时,提高贫困户自身发展能力,有效阻止返贫现象的发生。同时也为后续扶贫工作的推进提供更有效的支持,对相关政策的制定起到一定参考作用,为国际扶贫工作的开展提供新思路。
AdaBoost算法是一种极具代表性的集成学习算法,他在串行训练基分类器的过程中使用样本权重调整策略,能够逐渐降低不平衡数据产生的偏差,更多的关注少数类别样本。而在脱贫时间预测问题中,贫困户脱贫时间类别不同,可能存在少数类别样本,同时也是预测关注的一类样本,通常普通的分类算法对该类数据难以拟合,分类结果会产生较大偏差,而AdaBoost算法能有效降低这种偏差,因此更具有适用性。脱贫时间预测的研究意义重大,单独与脱贫时间预测存在很多困难:一方面贫困户数据本身具有样本不均衡的特点,导致现有的预测方法面临列别不均衡的问题;另一方面。目前针对脱贫时间预测的相关研究很少,效果较好的AdaBoost算法任然面临少数类别样本识别率低的问题。
针对上述问题。提出了一种基于自适应聚类的近邻采样技术(ACNUS),进一步改进AdaBoost算法,得到ACNUSBoost算法:ACNUS技术首先使用自适应聚类算法对多数类样本进行聚类,其次针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本,最后随机去除部分剩余的多数类样本。最终经过ACNUS技术欠采样后的两类样本数大致相同。ACNUSBoost实在AdaBoost每一轮迭代中使用ACNUS对多数类样本进行欠采样,即平衡了样本的分布,又降低了传统欠采样技术丢失更重要信息的风险。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法,该方法包括以下步骤:
训练阶段:
获取贫困户数据库,通过入库贫困户相关基本信息进行整理,提取致贫敏感信息,作为模型的输入,即训练样本;通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限,作为模型的输出;
在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进,得到了ACNUSBoost算法,通过自适应聚类算法对训练样本中的多数类样本进行聚类,针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本,随机去除部分剩余的多数类样本,少数类样本数量保持不变;并对分类器进行多次线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型;
测试阶段:
输入待预测的贫困户数据,通过基于ACNUSBoost算法的脱贫时间预测模型,输出预测的脱贫时间。
进一步地,本发明的该方法中选取模型输入和输出的方法具体为:
通过对入库贫困户相关基本信息进行整理,提取贫困户的致贫敏感信息包括:贫困户类型、致贫原因、子女数、是否有学生在读、耕地面积、技能程度以及享受的政策,作为模型的输入X,即X={x1,x2,x3,x4,...,xi};通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限Y,即Y={y1,y2,y3,...,ym},将其作为模型输出。
进一步地,本发明的该方法中采用K均值聚类作为近邻欠采样技术中的聚类算法,在确定K值的过程中,首先进行初始聚类,然后比较此时各个聚类簇中的覆盖准确率与错误率的差值,选择差值较大的K,其中K的范围是n为样本数;使用K-means算法确定初始聚类中心,通过欧式距离度量样本之间的相似性。
进一步地,本发明的该方法中改进后的ACNUSBoost算法具体包括以下步骤:
步骤1、初始化训练样本的初始权重,各个训练样本的初始权重均相同,初始权重为
步骤2、通过自适应聚类的近邻欠采样技术,即ACNUS技术,处理训练样本,对处理后的训练样本集进行训练,得到多个基分类器,并更新每个训练样本的权重;
步骤3、根据更新后的权重,对基分类器进行线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型。
进一步地,本发明的步骤2的具体方法为:
步骤2.1、对训练样本集中t=1,2,3,…,T,使用ACNUS技术处理多数类样本,产生训练样本子集Dt,其中Dt={x1,x2,…xN};
步骤2.2、对训练样本子集Dt进行训练,得到基分类器Gt(x)=f(Dt);
步骤2.3、计算Gt(x)在训练样本子集Dt上的分类错误率et
et=P(Gt(xi)≠yi)
如果et>0.5,则迭代停止;
步骤2.4、计算基分类器Gt(x)的权重αt
步骤2.5、对于训练样本子集Dt中的每一个样本更新其权重;
步骤2.6、t+1,判断t是否大于T,若是执行下一步,否则执行步骤2.1。
进一步地,本发明的步骤2.1中ACNUS算法的具体方法为:
步骤2.1.1、确定聚类簇K的个数;在范围内通过二分策略对K进行取值,每次取值后对样本进行划分并随机生成类中心,并计算上述划分类覆盖样本正确率与错误率的差值,选择差值最大时K的取值;
步骤2.1.2、使用K均值聚类算法对多数类样本进行聚类,得到K个聚类中心U={u1,u2,…uk},则每个聚类簇样本数目是
步骤2.1.3、设置采样子集i=1;
步骤2.1.4、保留第i个聚类中心μi的近邻样本,样本数为Pi
步骤2.2.5、在剩余的个样本中随机去除Oi个样本,并将其移入到子集Q中;
步骤2.1.6、i+1,判断i是否大于K,若是则执行步骤2.1.7,否则返回执行步骤2.1.4;
步骤2.1.7、得到欠采样后的样本集D'=D-Q,此时Dt=D'。
进一步地,本发明的步骤3中进行线性组合的方法为:
其中,f(x)为组合后的分类器,基分类器Gt(x)的对应权重为αt
本发明产生的有益效果是:基于欠采样改进的AdaBoost算法的脱贫时间预测方法,(1)提出一种基于自适应聚类聚类的欠采样技术(ACNUS),在聚类过程中不对聚类簇的个数进行规定,进行自适应划分,通过比较聚类效果自适应选择聚类簇个数。(2)利用自适应聚类的欠采样技术改进AdaBoost算法,该方法利用欠采样技术解决AdaBoost算法中少数类样本有限的问题。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的K-means聚类流程图;
图2是本发明实施例的ACNUS算法流程;
图3是本发明实施例的脱贫时间预测问题描述图;
图4是本发明实施例的ACNUSBoost算法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,该方法包括以下步骤:
训练阶段:
获取贫困户数据库,通过入库贫困户相关基本信息进行整理,提取致贫敏感信息,作为模型的输入,即训练样本;通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限,作为模型的输出;
在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进,得到了ACNUSBoost算法,通过自适应聚类算法对训练样本中的多数类样本进行聚类,针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本,随机去除部分剩余的多数类样本,少数类样本数量保持不变;并对分类器进行多次线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型;
测试阶段:
输入待预测的贫困户数据,通过基于ACNUSBoost算法的脱贫时间预测模型,输出预测的脱贫时间。
1)ACNUS
使用K均值聚类作为ACNUS技术中的聚类算法,在本发明中在确定K值的过程中,首先进行初始聚类,然后比较此时各个聚类簇中的覆盖准确率与错误率的差值,选择差值较大的K,其中K的范围是n为样本数;使用K-means算法确定初始聚类中心,通过欧式距离度量样本之间的相似性,图1展示了综合以上方法得到的K均值聚类算法,图2展示了ACNUS技术的算法流程。
2)构建ACNUSBoost的脱贫时间预测模型
通过对入库贫困户相关基本信息进行整理,提取贫困户的贫困户类型、致贫原因、子女数、是否有学生在读、耕地面积、技能程度以及享受的政策等敏感信息作为模型的输入X,即X={x1,x2,x3,x4,...,xi};通过抽取贫困户的入库日期以及脱贫日期,可以得到贫困户从入库到脱贫所用的时间即脱贫年限Y,即Y={y1,y2,y3,...,ym},将其作为模型输出,构建分类预测模型,如图3所示。
在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost进行改进,得到了ACNUSBoost算法,ACNUSBoost算法关键步骤包括:
(1)每次迭代之前使用CNUS技术处理训练集中的多数类样本,保证数量与少数类样本大致相等,其中少数类样本保持不变;
(2)使用采样后的数据训练基分类器,样本全职调整策略与AdaBoost相同,其中采样去除的那部分样本权值保持不变;
(3)样本调整后,得到的样本进入下一轮的迭代。
上述建模的流程图如图4所示。
在本发明的一个具体实施例中,
为了发现贫困户脱贫过程中隐藏的规律,本文提取了已脱贫贫困户的基础信息以及其在脱贫过程中所接受的一系列帮扶措施,通过对上述贫困户属性进行初步归类统计并尝试将其与地方政策进行映射匹配,我们发现:
(1)地方出台的每种政策对贫困户产生的扶贫成效不同;
(2)贫困户的属性值不同导致他们对同一种政策的受用值不同。
从理论上来说,回归模型更能体现个性化定制这一特点,即当帮扶责任人为结对贫困户提供了一系列政策措施建议后,模型可拟合出当前贫困户在享受了这些措施后的脱贫年限,此时输出的的将是一个具体时间,比如贫困户脱贫时间可能是2.8年或3.4年后。由此看来回归模型更能体现精准,能够对扶贫成效进行更加具体的量化,可以更好的刻画扶贫措施的有效性。
1.自适应聚类的欠采样技术
使用K均值聚类作为ACNUS技术中的聚类算法,在此过程中包含两个关键点:第一,聚类过程中聚类中心的个数通过二分策略进行尝试,比较每种K值下生成类别覆盖的正确率与错误率的差值,选择较大的K值作为最终聚类的个数,其中K的取值范围为其中n为样本数,利用二分策略选择K值,然后利用有效性评估函数来评价结果,对比多个结果进行对比,从而得到最佳的K值。第二,聚类初始中心的选择。在初始K-means算法中通过随机的方式生成初始的聚类中心,本发明选择K-means++进行聚类中心选择。
2.构建ACNUSBoost脱贫时间预测模型
ACNUSBoost在初始时算法为训练集中的所有样本赋予了相同权重,样本的分布均匀;对多数类样本进行欠采样处理后,每一轮的迭代支队采样后的样本权重进行更新,对于去除的样本权重保持不变,这相当于间接降低了多数类的样本权重,平衡了训练样本的分布,极大的增加了算法对少数类样本的关注。在构建ACNUSBoost脱贫时间预测模型的过程中其具体步骤如下所示,其中输入为训练样本D={(x1,y1),(x2,y2),…,(xN,yN)},迭代次数T,基分类算法f,近邻样本保留率p
步骤1:对训练样本的初始权重进行初始化
步骤2:对训练样本集t=1,2,3,…,T:
步骤2.1:使用ACNUS技术处理多数类样本,产生训练样本子集Dt;ACNUS算法的具体步骤如下,其中Dt={x1,x2,…xN};
步骤2.1.1:确定聚类簇K的个数。在范围内通过二分策略对K进行取值,每次取值后对样本进行划分并随机生成类中心,并计算上述划分类覆盖样本正确率与错误率的差值,选择差值最大时K的取值;
步骤2.1.2:使用K均值聚类算法对多数类样本进行聚类,得到K个聚类中心U={u1,u2,…uk},则每个聚类簇样本数目是
步骤2.1.3:设置采样子集i=1;
步骤2.1.4:保留第i个聚类中心μi的近邻样本,样本数为Pi
步骤2.1.5:在剩余的个样本中随机去除Oi个样本,并将其移入到子集Q中;
步骤2.1.6:i++,判断i是否大于K,若是则执行2.1.7否则执行2.1.4
步骤2.1.7:得到欠采样后的样本集D'=D-Q。此时Dt=D';
步骤2.2:对训练样本子集Dt进行训练,得到基分类器Gt(x)=f(Dt);
步骤2.3:计算Gt(x)在训练样本子集Dt上的分类错误率et
et=P(Gt(xi)≠yi)
如果et》0.5,则迭代停止。
步骤2.4:计算基分类器Gt(x)的权重αt
步骤2.5:对于训练样本子集Dt中的每一个样本更新其权重
步骤2.6:t++,判断t是否大于T,若是执行下一步,否则执行2.1
步骤3:对基分类器进行线性组合
通过实验结果表明,贫困户属性、享受政策与贫困户脱贫时间之间存在潜在联系,这种联系的具体表现就是构建的脱贫预测模型,并且模型预测的准确率达到0.7,同时证明了ACNUSBoost对样本类别不均衡数据更具有适应性。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,该方法包括以下步骤:
训练阶段:
获取贫困户数据库,通过入库贫困户相关基本信息进行整理,提取致贫敏感信息,作为模型的输入,即训练样本;通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限,作为模型的输出;
在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进,得到了ACNUSBoost算法,通过自适应聚类算法对训练样本中的多数类样本进行聚类,针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本,随机去除部分剩余的多数类样本,少数类样本数量保持不变;并对分类器进行多次线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型;
测试阶段:
输入待预测的贫困户数据,通过基于ACNUSBoost算法的脱贫时间预测模型,输出预测的脱贫时间。
2.根据权利要求1所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,该方法中选取模型输入和输出的方法具体为:
通过对入库贫困户相关基本信息进行整理,提取贫困户的致贫敏感信息包括:贫困户类型、致贫原因、子女数、是否有学生在读、耕地面积、技能程度以及享受的政策,作为模型的输入X,即X={x1,x2,x3,x4,...,xi};通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限Y,即Y={y1,y2,y3,...,ym},将其作为模型输出。
3.根据权利要求1所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,该方法中采用K均值聚类作为近邻欠采样技术中的聚类算法,在确定K值的过程中,首先进行初始聚类,然后比较此时各个聚类簇中的覆盖准确率与错误率的差值,选择差值较大的K,其中K的范围是n为样本数;使用K-means算法确定初始聚类中心,通过欧式距离度量样本之间的相似性。
4.根据权利要求3所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,该方法中改进后的ACNUSBoost算法具体包括以下步骤:
步骤1、初始化训练样本的初始权重,各个训练样本的初始权重均相同,初始权重为
步骤2、通过自适应聚类的近邻欠采样技术,即ACNUS技术,处理训练样本,对处理后的训练样本集进行训练,得到多个基分类器,并更新每个训练样本的权重;
步骤3、根据更新后的权重,对基分类器进行线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型。
5.根据权利要求4所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,步骤2的具体方法为:
步骤2.1、对训练样本集中t=1,2,3,…,T,使用ACNUS技术处理多数类样本,产生训练样本子集Dt,其中Dt={x1,x2,…xN};
步骤2.2、对训练样本子集Dt进行训练,得到基分类器Gt(x)=f(Dt);
步骤2.3、计算Gt(x)在训练样本子集Dt上的分类错误率et
et=P(Gt(xi)≠yi)
如果et>0.5,则迭代停止;
步骤2.4、计算基分类器Gt(x)的权重αt
步骤2.5、对于训练样本子集Dt中的每一个样本更新其权重;
步骤2.6、t+1,判断t是否大于T,若是执行下一步,否则执行步骤2.1。
6.根据权利要求5所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,步骤2.1中ACNUS算法的具体方法为:
步骤2.1.1、确定聚类簇K的个数;在范围内通过二分策略对K进行取值,每次取值后对样本进行划分并随机生成类中心,并计算上述划分类覆盖样本正确率与错误率的差值,选择差值最大时K的取值;
步骤2.1.2、使用K均值聚类算法对多数类样本进行聚类,得到K个聚类中心U={u1,u2,…uk},则每个聚类簇样本数目是
步骤2.1.3、设置采样子集
步骤2.1.4、保留第i个聚类中心μi的近邻样本,样本数为Pi
步骤2.2.5、在剩余的个样本中随机去除Oi个样本,并将其移入到子集Q中;
步骤2.1.6、i+1,判断i是否大于K,若是则执行步骤2.1.7,否则返回执行步骤2.1.4;
步骤2.1.7、得到欠采样后的样本集D'=D-Q,此时Dt=D'。
7.根据权利要求6所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,步骤3中进行线性组合的方法为:
其中,f(x)为组合后的分类器,基分类器Gt(x)的对应权重为αt
CN201910726630.XA 2019-08-07 2019-08-07 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法 Active CN110516853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910726630.XA CN110516853B (zh) 2019-08-07 2019-08-07 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910726630.XA CN110516853B (zh) 2019-08-07 2019-08-07 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法

Publications (2)

Publication Number Publication Date
CN110516853A true CN110516853A (zh) 2019-11-29
CN110516853B CN110516853B (zh) 2020-12-29

Family

ID=68624483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910726630.XA Active CN110516853B (zh) 2019-08-07 2019-08-07 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法

Country Status (1)

Country Link
CN (1) CN110516853B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591588A (zh) * 2021-07-02 2021-11-02 四川大学 基于双向时空切片聚类的视频内容关键帧提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN108345904A (zh) * 2018-01-26 2018-07-31 华南理工大学 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN108564235A (zh) * 2018-07-13 2018-09-21 中南民族大学 一种改进的foa-bpnn脱贫时间预测方法
CN109063787A (zh) * 2018-08-28 2018-12-21 齐齐哈尔大学 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN108345904A (zh) * 2018-01-26 2018-07-31 华南理工大学 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN108564235A (zh) * 2018-07-13 2018-09-21 中南民族大学 一种改进的foa-bpnn脱贫时间预测方法
CN109063787A (zh) * 2018-08-28 2018-12-21 齐齐哈尔大学 一种用于不平衡数据的基于X-mean和样本错分类率集成分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
武森等: "基于聚类欠采样的集成不均衡数据分类算法", 《工程科学学报》 *
王忠震等: "改进SMOTE的不平衡数据集成分类算法", 《计算机应用》 *
王玲娣等: "一种基于聚类和AdaBoost的自适应集成算法", 《吉林大学学报(理学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591588A (zh) * 2021-07-02 2021-11-02 四川大学 基于双向时空切片聚类的视频内容关键帧提取方法

Also Published As

Publication number Publication date
CN110516853B (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
Rosin Multi-armed bandits with episode context
CN104992184B (zh) 一种基于半监督极限学习机的多类图像分类方法
CN106022473B (zh) 一种融合粒子群和遗传算法的基因调控网络构建方法
CN109002861A (zh) 联邦建模方法、设备及存储介质
CN108805048A (zh) 一种人脸识别模型的调整方法、装置和存储介质
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN102034107B (zh) 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法
CN111754345A (zh) 一种基于改进随机森林的比特币地址分类方法
JP7141371B2 (ja) 学習データの精練方法及び計算機システム
Cattral et al. Evolutionary data mining with automatic rule generalization
Zhang et al. Adaptive monte carlo multiple testing via multi-armed bandits
Eryarsoy et al. Predicting the outcome of a football game: A comparative analysis of single and ensemble analytics methods
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
Ghosh et al. A comparison between different classifiers for tennis match result prediction
CN112712383A (zh) 应用程序的潜在用户预测方法、装置、设备及存储介质
CN102163285A (zh) 一种基于主动学习的跨域视频语义概念检测方法
CN114581694A (zh) 一种基于改进的支持向量机的网络安全态势评估方法
CN104809229B (zh) 一种文本特征词提取方法及系统
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
CN110516853A (zh) 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
CN106203515A (zh) 多准则融合应用于高维小样本数据特征选择的方法
CN109460872A (zh) 一种面向移动通信用户流失不平衡数据预测方法
Cheng et al. A projection-based split-and-merge clustering algorithm
CN108647789A (zh) 一种基于状态分布感知采样的智能体深度价值函数学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant