CN110516853A

CN110516853A - 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法

Info

Publication number: CN110516853A
Application number: CN201910726630.XA
Authority: CN
Inventors: 朱容波; 王俊; 王德军; 张静静
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-29
Anticipated expiration: 2039-08-07
Also published as: CN110516853B

Abstract

本发明公开了一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法，该方法包括以下步骤：通过入库贫困户相关基本信息进行整理，提取致贫敏感信息，作为模型的输入；通过抽取贫困户的入库日期以及脱贫日期，得到贫困户从入库到脱贫所用的时间即脱贫年限，作为模型的输出；在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进，得到ACNUSBoost算法，通过自适应聚类算法对训练样本中的多数类样本进行聚类，针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本，随机去除部分剩余的多数类样本；并对分类器进行多次线性组合，得到基于ACNUSBoost算法的脱贫时间预测模型；本发明利用欠采样技术解决AdaBoost算法中少数类样本有限的问题，能准确进行脱贫时间的预测。

Description

一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法

技术领域

本发明涉及大数据应用领域，尤其涉及一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法。

背景技术

为实现贫困户真正全面稳定脱贫，巩固脱贫成效防止返贫现象发生，需对扶贫数据进行更深入的研究分析。当前国内研究者对扶贫数据的处理研究主要集中在对扶贫资源的信息化精确整合管理上，对于贫困户基础信息、脱贫时间及帮扶措施之间内在联系的相关研究工作，仅限于理论层面的定性分析，缺乏能够实际应用的直观量化模型，对数据内在价值的挖掘利用远远不够。基于国家扶贫攻坚末期的时政背景，结合当前IT领域最热门的深度学习技术，进行脱贫时间预测的相关研究，充分挖掘扶贫数据中包含的贫困户与政策措施的潜在联系，提高帮扶效率，改善资源配置不均衡问题；在短期内实现贫困户脱贫的同时，提高贫困户自身发展能力，有效阻止返贫现象的发生。同时也为后续扶贫工作的推进提供更有效的支持，对相关政策的制定起到一定参考作用，为国际扶贫工作的开展提供新思路。

AdaBoost算法是一种极具代表性的集成学习算法，他在串行训练基分类器的过程中使用样本权重调整策略，能够逐渐降低不平衡数据产生的偏差，更多的关注少数类别样本。而在脱贫时间预测问题中，贫困户脱贫时间类别不同，可能存在少数类别样本，同时也是预测关注的一类样本，通常普通的分类算法对该类数据难以拟合，分类结果会产生较大偏差，而AdaBoost算法能有效降低这种偏差，因此更具有适用性。脱贫时间预测的研究意义重大，单独与脱贫时间预测存在很多困难：一方面贫困户数据本身具有样本不均衡的特点，导致现有的预测方法面临列别不均衡的问题；另一方面。目前针对脱贫时间预测的相关研究很少，效果较好的AdaBoost算法任然面临少数类别样本识别率低的问题。

针对上述问题。提出了一种基于自适应聚类的近邻采样技术(ACNUS)，进一步改进AdaBoost算法，得到ACNUSBoost算法：ACNUS技术首先使用自适应聚类算法对多数类样本进行聚类，其次针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本，最后随机去除部分剩余的多数类样本。最终经过ACNUS技术欠采样后的两类样本数大致相同。ACNUSBoost实在AdaBoost每一轮迭代中使用ACNUS对多数类样本进行欠采样，即平衡了样本的分布，又降低了传统欠采样技术丢失更重要信息的风险。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法，该方法包括以下步骤：

训练阶段：

获取贫困户数据库，通过入库贫困户相关基本信息进行整理，提取致贫敏感信息，作为模型的输入，即训练样本；通过抽取贫困户的入库日期以及脱贫日期，得到贫困户从入库到脱贫所用的时间即脱贫年限，作为模型的输出；

在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进，得到了ACNUSBoost算法，通过自适应聚类算法对训练样本中的多数类样本进行聚类，针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本，随机去除部分剩余的多数类样本，少数类样本数量保持不变；并对分类器进行多次线性组合，得到基于ACNUSBoost算法的脱贫时间预测模型；

测试阶段：

输入待预测的贫困户数据，通过基于ACNUSBoost算法的脱贫时间预测模型，输出预测的脱贫时间。

进一步地，本发明的该方法中选取模型输入和输出的方法具体为：

通过对入库贫困户相关基本信息进行整理，提取贫困户的致贫敏感信息包括：贫困户类型、致贫原因、子女数、是否有学生在读、耕地面积、技能程度以及享受的政策，作为模型的输入X，即X＝{x₁,x₂,x₃,x₄,...,x_i}；通过抽取贫困户的入库日期以及脱贫日期，得到贫困户从入库到脱贫所用的时间即脱贫年限Y，即Y＝{y₁,y₂,y₃,...,y_m}，将其作为模型输出。

进一步地，本发明的该方法中采用K均值聚类作为近邻欠采样技术中的聚类算法，在确定K值的过程中，首先进行初始聚类，然后比较此时各个聚类簇中的覆盖准确率与错误率的差值，选择差值较大的K，其中K的范围是n为样本数；使用K-means算法确定初始聚类中心，通过欧式距离度量样本之间的相似性。

进一步地，本发明的该方法中改进后的ACNUSBoost算法具体包括以下步骤：

步骤1、初始化训练样本的初始权重，各个训练样本的初始权重均相同，初始权重为

步骤2、通过自适应聚类的近邻欠采样技术，即ACNUS技术，处理训练样本，对处理后的训练样本集进行训练，得到多个基分类器，并更新每个训练样本的权重；

步骤3、根据更新后的权重，对基分类器进行线性组合，得到基于ACNUSBoost算法的脱贫时间预测模型。

进一步地，本发明的步骤2的具体方法为：

步骤2.1、对训练样本集中t＝1,2,3,…,T，使用ACNUS技术处理多数类样本，产生训练样本子集D_t，其中D_t＝{x₁,x₂,…x_N}；

步骤2.2、对训练样本子集D_t进行训练，得到基分类器G_t(x)＝f(D_t)；

步骤2.3、计算G_t(x)在训练样本子集D_t上的分类错误率e_t；

e_t＝P(G_t(x_i)≠y_i)

如果e_t>0.5，则迭代停止；

步骤2.4、计算基分类器G_t(x)的权重α_t；

步骤2.5、对于训练样本子集D_t中的每一个样本更新其权重；

步骤2.6、t+1，判断t是否大于T，若是执行下一步，否则执行步骤2.1。

进一步地，本发明的步骤2.1中ACNUS算法的具体方法为：

步骤2.1.1、确定聚类簇K的个数；在范围内通过二分策略对K进行取值，每次取值后对样本进行划分并随机生成类中心，并计算上述划分类覆盖样本正确率与错误率的差值，选择差值最大时K的取值；

步骤2.1.2、使用K均值聚类算法对多数类样本进行聚类，得到K个聚类中心U＝{u₁,u₂,…u_k}，则每个聚类簇样本数目是

步骤2.1.3、设置采样子集i＝1；

步骤2.1.4、保留第i个聚类中心μ_i的近邻样本，样本数为P_i；

步骤2.2.5、在剩余的个样本中随机去除O_i个样本，并将其移入到子集Q中；

步骤2.1.6、i+1，判断i是否大于K，若是则执行步骤2.1.7，否则返回执行步骤2.1.4；

步骤2.1.7、得到欠采样后的样本集D'＝D-Q，此时D_t＝D'。

进一步地，本发明的步骤3中进行线性组合的方法为：

其中，f(x)为组合后的分类器，基分类器G_t(x)的对应权重为α_t。

本发明产生的有益效果是：基于欠采样改进的AdaBoost算法的脱贫时间预测方法，(1)提出一种基于自适应聚类聚类的欠采样技术(ACNUS)，在聚类过程中不对聚类簇的个数进行规定，进行自适应划分，通过比较聚类效果自适应选择聚类簇个数。(2)利用自适应聚类的欠采样技术改进AdaBoost算法，该方法利用欠采样技术解决AdaBoost算法中少数类样本有限的问题。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的K-means聚类流程图；

图2是本发明实施例的ACNUS算法流程；

图3是本发明实施例的脱贫时间预测问题描述图；

图4是本发明实施例的ACNUSBoost算法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，该方法包括以下步骤：

训练阶段：

测试阶段：

1)ACNUS

使用K均值聚类作为ACNUS技术中的聚类算法，在本发明中在确定K值的过程中，首先进行初始聚类，然后比较此时各个聚类簇中的覆盖准确率与错误率的差值，选择差值较大的K，其中K的范围是n为样本数；使用K-means算法确定初始聚类中心，通过欧式距离度量样本之间的相似性，图1展示了综合以上方法得到的K均值聚类算法，图2展示了ACNUS技术的算法流程。

2)构建ACNUSBoost的脱贫时间预测模型

通过对入库贫困户相关基本信息进行整理，提取贫困户的贫困户类型、致贫原因、子女数、是否有学生在读、耕地面积、技能程度以及享受的政策等敏感信息作为模型的输入X，即X＝{x₁,x₂,x₃,x₄,...,x_i}；通过抽取贫困户的入库日期以及脱贫日期，可以得到贫困户从入库到脱贫所用的时间即脱贫年限Y，即Y＝{y₁,y₂,y₃,...,y_m}，将其作为模型输出，构建分类预测模型，如图3所示。

在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost进行改进，得到了ACNUSBoost算法，ACNUSBoost算法关键步骤包括：

(1)每次迭代之前使用CNUS技术处理训练集中的多数类样本，保证数量与少数类样本大致相等，其中少数类样本保持不变；

(2)使用采样后的数据训练基分类器，样本全职调整策略与AdaBoost相同，其中采样去除的那部分样本权值保持不变；

(3)样本调整后，得到的样本进入下一轮的迭代。

上述建模的流程图如图4所示。

在本发明的一个具体实施例中，

为了发现贫困户脱贫过程中隐藏的规律，本文提取了已脱贫贫困户的基础信息以及其在脱贫过程中所接受的一系列帮扶措施，通过对上述贫困户属性进行初步归类统计并尝试将其与地方政策进行映射匹配，我们发现：

(1)地方出台的每种政策对贫困户产生的扶贫成效不同；

(2)贫困户的属性值不同导致他们对同一种政策的受用值不同。

从理论上来说，回归模型更能体现个性化定制这一特点，即当帮扶责任人为结对贫困户提供了一系列政策措施建议后，模型可拟合出当前贫困户在享受了这些措施后的脱贫年限，此时输出的的将是一个具体时间，比如贫困户脱贫时间可能是2.8年或3.4年后。由此看来回归模型更能体现精准，能够对扶贫成效进行更加具体的量化，可以更好的刻画扶贫措施的有效性。

1.自适应聚类的欠采样技术

使用K均值聚类作为ACNUS技术中的聚类算法，在此过程中包含两个关键点：第一，聚类过程中聚类中心的个数通过二分策略进行尝试，比较每种K值下生成类别覆盖的正确率与错误率的差值，选择较大的K值作为最终聚类的个数，其中K的取值范围为其中n为样本数，利用二分策略选择K值，然后利用有效性评估函数来评价结果，对比多个结果进行对比，从而得到最佳的K值。第二，聚类初始中心的选择。在初始K-means算法中通过随机的方式生成初始的聚类中心，本发明选择K-means++进行聚类中心选择。

2.构建ACNUSBoost脱贫时间预测模型

ACNUSBoost在初始时算法为训练集中的所有样本赋予了相同权重，样本的分布均匀；对多数类样本进行欠采样处理后，每一轮的迭代支队采样后的样本权重进行更新，对于去除的样本权重保持不变，这相当于间接降低了多数类的样本权重，平衡了训练样本的分布，极大的增加了算法对少数类样本的关注。在构建ACNUSBoost脱贫时间预测模型的过程中其具体步骤如下所示，其中输入为训练样本D＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，迭代次数T，基分类算法f，近邻样本保留率p

步骤1：对训练样本的初始权重进行初始化

步骤2:对训练样本集t＝1,2,3,…,T：

步骤2.1：使用ACNUS技术处理多数类样本，产生训练样本子集D_t；ACNUS算法的具体步骤如下，其中D_t＝{x₁,x₂,…x_N}；

步骤2.1.1：确定聚类簇K的个数。在范围内通过二分策略对K进行取值，每次取值后对样本进行划分并随机生成类中心，并计算上述划分类覆盖样本正确率与错误率的差值，选择差值最大时K的取值；

步骤2.1.2：使用K均值聚类算法对多数类样本进行聚类，得到K个聚类中心U＝{u₁,u₂,…u_k}，则每个聚类簇样本数目是

步骤2.1.3：设置采样子集i＝1；

步骤2.1.4：保留第i个聚类中心μ_i的近邻样本，样本数为P_i；

步骤2.1.5：在剩余的个样本中随机去除O_i个样本，并将其移入到子集Q中；

步骤2.1.6：i++，判断i是否大于K，若是则执行2.1.7否则执行2.1.4

步骤2.1.7：得到欠采样后的样本集D'＝D-Q。此时D_t＝D'；

步骤2.2：对训练样本子集D_t进行训练，得到基分类器G_t(x)＝f(D_t)；

步骤2.3：计算G_t(x)在训练样本子集D_t上的分类错误率e_t

e_t＝P(G_t(x_i)≠y_i)

如果e_t》0.5，则迭代停止。

步骤2.4：计算基分类器G_t(x)的权重α_t

步骤2.5：对于训练样本子集D_t中的每一个样本更新其权重

步骤2.6:t++，判断t是否大于T，若是执行下一步，否则执行2.1

步骤3：对基分类器进行线性组合

通过实验结果表明，贫困户属性、享受政策与贫困户脱贫时间之间存在潜在联系，这种联系的具体表现就是构建的脱贫预测模型，并且模型预测的准确率达到0.7，同时证明了ACNUSBoost对样本类别不均衡数据更具有适应性。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，该方法包括以下步骤：

训练阶段：

测试阶段：

2.根据权利要求1所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，该方法中选取模型输入和输出的方法具体为：

3.根据权利要求1所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，该方法中采用K均值聚类作为近邻欠采样技术中的聚类算法，在确定K值的过程中，首先进行初始聚类，然后比较此时各个聚类簇中的覆盖准确率与错误率的差值，选择差值较大的K，其中K的范围是n为样本数；使用K-means算法确定初始聚类中心，通过欧式距离度量样本之间的相似性。

4.根据权利要求3所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，该方法中改进后的ACNUSBoost算法具体包括以下步骤：

5.根据权利要求4所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，步骤2的具体方法为：

步骤2.3、计算G_t(x)在训练样本子集D_t上的分类错误率e_t；

e_t＝P(G_t(x_i)≠y_i)

如果e_t>0.5，则迭代停止；

步骤2.4、计算基分类器G_t(x)的权重α_t；

步骤2.5、对于训练样本子集D_t中的每一个样本更新其权重；

6.根据权利要求5所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，步骤2.1中ACNUS算法的具体方法为：

步骤2.1.3、设置采样子集

步骤2.1.4、保留第i个聚类中心μ_i的近邻样本，样本数为P_i；

步骤2.1.7、得到欠采样后的样本集D'＝D-Q，此时D_t＝D'。

7.根据权利要求6所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法，其特征在于，步骤3中进行线性组合的方法为：