CN113743453A

CN113743453A - 一种基于随机森林的人口数量预测方法

Info

Publication number: CN113743453A
Application number: CN202110826722.2A
Authority: CN
Inventors: 高蓝宇; 张宸; 代子风; 韩松杰; 张长胜; 张斌
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-12-03

Abstract

本发明提供了一种基于随机森林的人口数量预测方法，属于机器学习技术领域。本发明包括人口数据预处理和随机森林模型构建两个模块。所述人口数量预测方法包括：步骤一，填补人口数据中空缺部分；步骤二，提取出影响人口因素的主要特征；步骤三，构建人口预测模型的基学习器；步骤四，组合基学习器，生成随机森林模型，并得出预测结果。本发明对海量人口数据进行特征提取处理，利用随机森林模型预测人口数量，预测效果比单个回归树和线性回归预测精度更高。

Description

一种基于随机森林的人口数量预测方法

技术领域

本发明属于机器学习技术领域，涉及一种基于随机森林的人口数量预测方法。

背景技术

人口数量是地区的发展基础，是社会组成中的重要资源，人口数量多的区域往往是发达地区。根据统计，东北三省的人口数量在逐渐减少，辽宁省尤为突出。因为辽宁省的GDP已经连续3年呈现负增长的态势；人口数量一旦减少将会导致非常严重的经济问题。一个地区的人口数量的变化将对该地区产生巨大的影响，若一个地区的人数慢慢减少，随之该地区的经济、科技、教育、工业都会受其影响，所有的指标都会随之降低，最后对该地区产生所有生活，交通，就业等产生负面的影响。可见准确的预测人口数量对一个地区的发展至关重要。

现有的人口预测方法对人口数据考虑有所欠缺：(1)人口的自然增长率并不是一个定值，随着地区经济的发展进步，医疗和住房等因素的改变，人口自然增长率会随之变化；(2)大多数方法都没有考虑到人口的流动问题；(3)在计算人口的参数时，受环境因素的影响，可能会导致计算结果存在误差，最终得到的人口数量预测结果也就不够准确；(4)同一因素对不同地区的影响程度又有所差异，现有的大多数预测模型不能考虑多类型数据，通用性较差。

决策树可以处理数据型和常规型属性，能考虑更多的影响因素，计算消耗代价比一般的模型小，是进行预测的有效方法。但这种方法在数据指标不平衡的情况下误差比较明显，测试数据上的错误率比较高。随机森林是一种组合分类器技术,由多颗决策树组合而成，相较于决策树等单分类器,具有更好的预测性能。针对人口数据部分指标不平衡的情况，随机森林可以平衡误差，对高维度数据处理效果更好。

发明内容

对于人口数量预测问题，由于传统的预测方法考虑的因素都比较少，人口流动性问题和以往表现的大有不同。本发明提出了一种基于随机森林的人口数量预测方法，该方法有效解决了人口数据处理问题，并通过实验结果证明准确性高。

针对海量指标数据，本发明首先对缺失类型的数据，分别使用了线性回归与拉格朗日插值技术对他们补充；其次，先使用相关系数对指标之间的线性关系进行分析并根据线性关系的程度剔除掉冗余特征，然后使用主成分分析技术，继续在数据中提取所含信息更多的特征。然后使用随机森林的方法对指标数据进行建模预测，人口指标数据中利用自助采样法采取n个样本，再从每一个样本中随机抽取n个特征，分别建立人口预测的单个学习器回归树，发明预测类型为回归，所以该单个学习器为采用均方误差准则的回归树。通过自助采样的方法，可以得到多个基于人口数据的回归预测模型，在将他们统一组合到一起，构成一个回归预测模型，这就是基于人口指标数据所形成的随机森林模型。最后将测试指标输入到随机森林中，会得到多个预测结果，对这些结果做平均值处理，得出最后的人口的预测数值。综上，该过程可以分成人口数据预处理和随机森林模型构建两部分。

本发明的技术方案为：

一种基于随机森林的人口数量预测方法，该方法包括人口数据预处理模块和随机森林模型构建模块。所述人口数据预处理模块，全面地考虑了人口数量影响因素；能有效解决处理人口数据的部分缺失；针对不同地区特点找出该地区的主要影响因素：能够处理绝大多数地区的人口数据。所述随机森口模型构建模块，能根据最优特征生成回归树及随机森林，能更好平衡误差。

所述人口数据预处理模块，实现以下功能：

(1)补充各项指标的缺失数据；

(2)剔除人口数据中的冗余特征；

(3)提取影响人口数量的关键特征。

所述随机森林模型构建模块，实现以下功能：

(1)使用均方差准则，选择训练集数据中最优特征与最优划分点；

(2)根据最优特征与划分点生成回归树；

(3)平均化所有回归树模型的预测结果。

所述的人口数量预测方法，具体包括以下步骤：

步骤1：对人口指标缺失数据填补，数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况。

步骤2：对填补后的人口数据进行冗余特征处理，并使用主成分分析法提取出真正能代表指标的特征。

步骤3：将处理后的人口指标数据集D按照某种比例分成训练集D₁与测试集D₂；设森林中回归树的数量为N，候选特征的分裂节点数目为M，最小节点大小p。

步骤4：首先，从训练集D₁中使用自助采样法获取K个样本；然后从样本中随机选择M个指标特征，基于均方差准则，选择最优特征与最优划分点，根据选择的最优特征与划分点生成2个子树，重复这个操作生成一个回归树，将这棵树加入到随机森林中；最后判断生成的森林中的树的个数是否达到N个，如果没有到达则继续生成，反之停止构建。设x为测试数据集中D₂中的样本，令f_i(x)为随机森林中第i个树的预测结果，则基于随机森林的人口数量预测结果为：

本发明选取房价等侧重于地区经济发展和民生改善等方面的信息；在人口数据中加入人口流动等因素，对数据进行综合考量，提高最终预测的准确率；与单个回归树回归生成的过程中需要根据情况进行剪枝处理不同，随机森林不必对单个回归树进行剪枝操作，预测精度高。

附图说明

图1是本发明的整体算法流程图；

图2是线性回归预测模型填补的算法流程图；

图3是拉格朗日插值模型填补的算法流程图；

图4是随机森林的方法提取影响人口数量关键特征的算法流程图；

图5是辽宁省部分指标生成的回归树结果图；

图6是基学习器组合的算法流程图；

图7是本发明预测辽宁省人口在部分年份的结果图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明。

本发明实施例是在实验室设备基础上进行，采用win10操作系统的电脑i5-6200U与2.24GHz的CPU、8GB内存、256GB硬盘，采用python做为开发语言，使用pandas开源数据处理框架、numpy高速矩阵计算框架、sklearn机器学习组件，使用PyCharm作为实验环境。

本发明所采用的数据集来自国家统计局公布的辽宁省人口宏观指标数据，每一个指标，每个特征在这里都可以看成是对该地区人口数量影响的重要因素。

图1是本发明的整体算法流程图，本发明包括人口数据预处理模块和随机森林模型构建模块两个模块：

所述人口数据预处理模块实现以下功能：

(1)补充各项指标的缺失数据；

(2)剔除人口数据中的冗余特征；

(3)提取影响人口数量的关键特征。

所述随机森林模型构建模块实现以下功能：

(1)基于均方差准则，选择训练集数据中最优特征与最优划分点；

(2)根据最优特征与划分点生成回归树；

(3)平均化所有回归树模型的预测结果。

本发明所述的人口预测方法，具体包括以下步骤：

步骤1：对人口指标缺失数据填补，数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况。详细分步骤如下：

步骤1.1：对单个年份缺失数据，采用线性回归预测模型填补。设人口指标数据集D^*中含有完整指标D^* _a和缺失数据的指标D^* _b，其缺失的年份为Y_b。如图2所示，图中完整指标为D^* _a，将D^* _a中除Y_b年份以外的数据作为线性回归的自变量，将D^* _b中Y_b年份的数据作为因变量，构建预测模型，预测出D^* _b中Y_b年份的数据填补进空缺当中。

步骤1.2：对于多个年份缺失数据，采用拉格朗日插值填补。对于这类多个年份空值的情况，可以将年份Y看成是插值点的一部分，将年份与其数据看成是平面上的一个点，即(D^*,Y)。如图3所示，通过这些平面上的点构建拉格朗日插值函数，缺失数据的年份输入函数中从而预测出数值进行填充。

步骤2：对人口数据冗余特征处理，使用主成分分析技术将真正能代表指标的特征提取出来。详细分步骤如下：

步骤2.1：使用相关性检测方法从指标数据中去处冗余特征。需要计算的是D中2个指标之间的相关性，而年份Y不属于指标范围在内的数据，所以不需要考虑年份这一字段，故将其从原始数据中删除。相关系数大于0.8，两个指标之间存在强的线性关系。对于多个指标间存在强线性关系，只需保留其中相关系数最强的一个指标，得到去处冗余特征的人口指标数据。

步骤2.2：使用主成分分析来对人口指标进行规约，继续降低数据集的特征个数，提高模型准确度。

步骤2.3：使用随机森林的方法提取影响人口数量的关键特征，算法流程如图4所示。抽样得到的辽宁人口指标数据，并且对每一次得到的数据都构建成一棵回归树，而且在生成的每一个结点随机不重复地选择特征。通过比对每个特征在随机森林中的每颗树上的贡献度，来获得每个特征的重要程度。选择占主要贡献度的特征作为预处理结果。

步骤3：构建人口预测模型的基学习器。输入数据，将处理后的人口指标数据集为D按照某种比例分成训练集与D₁与测试数据集D₂；设森林中回归树的数量为N，候选特征的分裂节点数目为M，最小节点大小p。详细分步骤如下：

步骤3.1：根据输入的每个数值，使用平方误差最小的原则，将误差最小的数据计算出来，选取的人口数量指标中的所有指标，设其中的一个人口指标为R_m，设人口数量为C_m，设C_m的最优值

设x_i为人口数量指标的全部样本数据，设y_i为人口数量，

是R_m上的所有输入实例x_i对应的输出y_i的均值，即：

步骤3.2：使用启发式空间基于人口数据指标的变量划分方法，选择第i个变量x(i)和它取的值s，这里的变量可以看作是人口指标数据中的指标，消费指数或能源指数等等，x(i)则为其中某一年份的数据，s作为切分变量和切分点，定义2个部分：

R₁(j,s)＝{x|x^(j)≤s}和R₂(j,s)＝{x|x^(j)＞s}

R₁与R₂可以看成是将人口数量指标数据切分成的2部分，接下来需要计算数值，寻找最优切分人口数量指标j，以及最优分割点s，求解：

对每一个人口数量的指标j遍历，求得最优切分点s：

和

步骤3.3：通过计算形成一对(j,s)，依次将数据空间划分为2个部分,对于每个部分，都是新执行一次前面的计算，生成一颗回归树。如图5所示，图中的叶子节点为预测的辽宁人口数量，非叶子为划分的人口数量指标。

步骤4：将基学习器按指定策略组合，算法流程如图6所示。首先，从训练集D₁中使用自助采样法获取K个样本；然后从样本中随机选择M个指标特征，基于均方差准则，选择最优特征与最优划分点，根据选择的最优特征与划分点生成2个子树，重复这个操作生成一个回归树，将这棵树加入到随机森林中；最后判断生成的森林中的树的个数是否达到N个，如果没有到达则继续生成，反之停止构建。详细分步骤如下：

步骤4.1，使用自助采样法从人口指标数据中有放回的均匀抽取人口样本。假设当前人口指标数据中有m条记录，对人口指标数据样本为数据集D进行m次“有放回的”随机采样，这样得到了大小为m的新数据集D′。可以肯定的是，在经过反复的采样后相同的指标数据一定会重新选中，每一轮采样中，对于人口指标数据x，被采样抽到的概率为1/m，因此，在对人口指标数据D进行了m轮抽样后，某些人口指标仍未被抽取到的概率为：

步骤4.2，从人口数量指标数据集中取k个训练子集，然后使用人口指标数据的回归树构建方法，在k个训练子集上分别构建回归树模型。

步骤4.3，利用随机森林对人口数量进行预测时，只需要计算k棵回归树的人口预测结果，然后所有的预测出来的人口数量做平均化处理。设x为测试数据集中D₂中的样本，令f_i(x)为随机森林中第i个树的预测结果，则基于随机森林的人口数量预测结果为：

图7给出了本方法预测辽宁省人口在部分年份的结果。

综上所述，本发明提出了一种基于随机森林的人口数量预测方法，并将这种方法应用到辽宁省人口预测中。

表1模型均方误差

	RMSE
		随机森林	84.206
线性回归	100.136

由表1可以看出，使用RMSE评价指标对模型进行评估，随机森林的准确度是优于线性回归的。本发明的基于随机森林人口预测方法适合大部分地区的人口数据，预测结果准确度更高。

Claims

1.一种基于随机森林的人口数量预测方法，其特征在于，包括以下步骤：

步骤1：对人口指标缺失数据填补，数据缺失类型包括单个年份数据缺失和多个年份数据缺失两种情况；

步骤2：对填补后的人口数据进行冗余特征处理，并使用主成分分析法提取出真正能代表指标的特征；

步骤3：将处理后的人口指标数据集D按照某种比例分成训练集D₁与测试集D₂；设森林中回归树的数量为N，候选特征的分裂节点数目为M，最小节点大小p；

步骤4：首先，从训练集D₁中使用自助采样法获取K个样本；然后从样本中随机选择M个指标特征，基于均方差准则，选择最优特征与最优划分点，根据选择的最优特征与划分点生成2个子树，重复这个操作生成一个回归树，将这棵树加入到随机森林中；最后判断生成的森林中的树的个数是否达到N个，如果没有到达则继续生成，反之停止构建；设x为测试数据集中D₂中的样本，令f_i(x)为随机森林中第i个树的预测结果，则基于随机森林的人口数量预测结果为：

2.根据权利要求1所述的方法，其特征在于，所述步骤1的具体过程为：

步骤1.1：对单个年份缺失数据，采用线性回归预测模型填补；设人口指标数据集D^*中含有完整指标D^* _a和缺失数据的指标D^* _b，其缺失的年份为Y_b；将D^* _a中除Y_b年份以外的数据作为线性回归的自变量，将D^* _b中Y_b年份的数据作为因变量，构建预测模型，预测出D^* _b中Y_b年份的数据填补进空缺当中；

步骤1.2：对于多个年份缺失数据，采用拉格朗日插值填补；对于这类多个年份空值的情况，将年份Y看成是插值点的一部分，将年份与其数据看成是平面上的一个点，即(D^*,Y)；通过这些平面上的点构建拉格朗日插值函数，缺失数据的年份输入函数中从而预测出数值进行填充。

3.根据权利要求1或2所述的方法，其特征在于，所述步骤2的具体过程为：

步骤2.1：使用相关性检测方法从指标数据中去处冗余特征；需要计算的是D中2个指标之间的相关性，而年份Y不属于指标范围在内的数据，所以不需要考虑年份这一字段，故将其从原始数据中删除；相关系数大于0.8，两个指标之间存在强的线性关系；对于多个指标间存在强线性关系，只需保留其中相关系数最强的一个指标，得到去处冗余特征的人口指标数据；

步骤2.2：使用主成分分析来对人口指标进行规约，继续降低数据集的特征个数，提高模型准确度；

步骤2.3：使用随机森林的方法提取影响人口数量的关键特征；抽样得到的辽宁人口指标数据，并且对每一次得到的数据都构建成一棵回归树，而且在生成的每一个结点随机不重复地选择特征；通过比对每个特征在随机森林中的每颗树上的贡献度，来获得每个特征的重要程度；选择占主要贡献度的特征作为预处理结果。

4.根据权利要求1或2所述的方法，其特征在于，所述步骤3的具体过程为：

设x_i为人口数量指标的全部样本数据，设y_i为人口数量，

是R_m上的所有输入实例x_i对应的输出y_i的均值，即

步骤3.2：使用启发式空间基于人口数据指标的变量划分方法，选择第i个变量x(i)和它取的值s，变量看作是人口指标数据中的指标，消费指数或能源指数等等，x(i)则为其中某一年份的数据，s作为切分变量和切分点，定义2个部分：R₁(j,s)＝{x|x^(j)≤s}和R₂(j,s)＝{x|x^(j)＞s}

其中，R₁与R₂看成是将人口数量指标数据切分成的2部分，接下来需要计算数值，寻找最优切分人口数量指标j，以及最优分割点s，求解：

对每一个人口数量的指标j遍历，求得最优切分点s：

和

步骤3.3：通过计算形成一对(j,s)，依次将数据空间划分为2个部分,对于每个部分，都是新执行一次前面的计算，生成一颗回归树。

5.根据权利要求3所述的方法，其特征在于，所述步骤3的具体过程为：

设x_i为人口数量指标的全部样本数据，设y_i为人口数量，

是R_m上的所有输入实例x_i对应的输出y_i的均值，即

对每一个人口数量的指标j遍历，求得最优切分点s：

和

6.根据权利要求1、2或5所述的方法，其特征在于，所述步骤4的具体过程为：

步骤4.1，使用自助采样法从人口指标数据中有放回的均匀抽取人口样本；假设当前人口指标数据中有m条记录，对人口指标数据样本为数据集D进行m次“有放回的”随机采样，得到了大小为m的新数据集D′；经过反复的采样后相同的指标数据一定会重新选中，每一轮采样中，对于人口指标数据x，被采样抽到的概率为1/m，在对人口指标数据D进行了m轮抽样后，某些人口指标仍未被抽取到的概率为：

步骤4.2，从人口数量指标数据集中取k个训练子集，然后使用人口指标数据的回归树构建方法，在k个训练子集上分别构建回归树模型；

步骤4.3，利用随机森林对人口数量进行预测时，只需要计算k棵回归树的人口预测结果，然后所有的预测出来的人口数量做平均化处理；设x为测试数据集中D₂中的样本，令f_i(x)为随机森林中第i个树的预测结果，则基于随机森林的人口数量预测结果为：

7.根据权利要求3所述的方法，其特征在于，所述步骤4的具体过程为：