CN111523086A

CN111523086A - 一种基于对数线性回归和随机森林的房价走势分析方法

Info

Publication number: CN111523086A
Application number: CN202010277368.8A
Authority: CN
Inventors: 石建
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-11

Abstract

本发明公开了一种基于对数线性回归和随机森林的房价走势分析方法，包括以下步骤：步骤1.对影响因素进行分析；步骤2.获取楼盘房价数据；步骤3.对楼盘数据进行预处理；步骤4.建立基于随机森林的模型：调用RandomForest Classifier函数建模并训练，对模型权重参数进行对数线性回归检验，若检验通过且模型符合正态分布，则认为模型符合条件，根据生成的决策树分类器对预测集进行预测，对每棵树的预测结果求均值即为最终预测结果；步骤5.对数线性回归测试；步骤6.模型训练与分析评估。本发明通过建立基于对数线性回归和随机森林的模型，在多个房价走势的影响因素下，达到曲线拟合精准。

Description

一种基于对数线性回归和随机森林的房价走势分析方法

技术领域

本发明涉及机器学习和数据挖掘领域，具体为一种基于对数线性回归和随机森林的房价走势分析方法。

背景技术

在我国的传统观念中房子就家，不管住别墅还是住瓦房，每一个家庭都必须有自己的住房，因此住房问题本生就是关系国计民生的大问题。同时，随着改革开放以来我国经济的高速发展，人民生活质量得到了极大提高，对住房质量、住房环境、小区配套服务等的要求也随之不断提高。

近十年来我国一些城镇的商品房价格上涨过快，过高的房价使城镇却中低收入者无力购买住房,为了社会持续稳定的发展,政府一直出台各种文件，从宏观层面对房地产市场进行调控。但由于各部门配合不协调，加上恶意炒房的炒家操作，房地产的价格在过去的几年时间里快速地上涨，房价成了各种社会矛盾的焦点。

因此，面对如此的背景条件，科学的分析房价走势成为了我们至关重要的武器。我们需要对物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率、各类保障性住房的投入使用等房地产价格的影响因素进行实证研究，找到影响房价的主要指标，建立模型，以此达到预测房价的效果。但总体而言，影响房价走势的因素太多，无法非常精准的拟合出房价的走势，难免会造成一些经济上的损失。

发明内容

本发明的目的是为了解决现有技术的不足，提供一种基于对数线性回归和随机森林的房价走势分析方法，通过建立基于对数线性回归和随机森林的模型，在多个房价走势的影响因素下，达到曲线拟合精准。

为了实现上述发明目的，本发明采用了以下技术方案：一种基于对数线性回归和随机森林的房价走势分析方法，包括以下步骤：步骤1.对影响因素进行分析，具体以下：确定影响房价走势的因素，所述因素包括小区因素和客户因素；

步骤2.获取楼盘房价数据，具体包括以下步骤：步骤(2-1).通过端口对楼盘数据进行爬取；步骤(2-2).运用selenium库与chromedriver模拟网页登陆；步骤(2-3).引入time库，对点击时常进行限制；步骤(2-4).使用了lxml库和pysql库将爬取的数据导入excel中，得到data1；步骤(2-5).预设因素变量，具体如下：占地面积area、绿化率green、容积率volume和客户评论comment；

步骤3.对楼盘数据进行预处理，具体包括以下步骤：步骤(3-1).直接删去楼盘代码的冗余字段；步骤(3-2).结合pandas，xlrd和xlutils库将文本数据进行分割；步骤(3-3).设定阈值alpha,作为去冗余字段的标准值；步骤(3-4).用value_counts计算出每个字段中，各值的数量n；若n大于等于row的80％，则删除该冗余字段；步骤(3-5).并删除符合条件的null值和空值；步骤(3-6).利用双线性内插法来填补剩下的异常值，至此异常值处理完毕，得到数据data2；步骤(3-7).设置随机种子seed，利用train_test_split随机抽取80％的data2作为训练数据train，20％的data2作为测试数据test；步骤(3-8).train进入模型训练；

步骤4.建立基于随机森林的模型，具体包括以下步骤：步骤(4-1).确定生成一棵决策树时用到的特征变量数目m；步骤(4-2).应用bootstrap法有放回随机抽取k个新的自助样本集，并由此构建k棵决策树，每次未被抽到的样本组成k个袋外数据；步骤(4-3).每个自助样本集生长为单棵决策树，每个节点处按照节点不纯度最小原则选取特征进行充分生长，不进行剪枝操作；步骤(4-4).调用RandomForestClassifier函数建模并训练；步骤(4-5).对模型权重参数进行对数线性回归检验；步骤(4-6).若检验通过且模型符合正态分布，则认为模型符合条件；步骤(4-7).根据生成的决策树分类器对预测集进行预测，对每棵树的预测结果求均值即为最终预测结果；步骤(4-8).绘制房价走势图；步骤(4-9).设定区间，预测该区间内房价的走势；

步骤5.对数线性回归测试；

步骤6.模型训练与分析评估。

优选的，在步骤1中，所述因素还包括物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率和各类保障性住房的投入使用，所述小区因素包括占地面积、绿化率、容积率和所在商圈，所述客户因素包括小区在客户中的口碑状况。

优选的，在步骤5中，所述模型测试具体包括以下步骤：步骤(5-1).输入测试集中的数据进行测试；步骤(5-2).设定预测区间；步骤(5-3).预测某楼盘在设定区间内房价的走势；步骤(5-4).与真实走势图进行对比，求得得分值，若得分值若大于0.6，则认为拟合成功，符合该楼盘房价的走势。

优选的，在步骤6中，所述分析具体包括以下步骤：步骤(6-1).根据随机森林模型中不同变量的因素所对应的权重，找出高权重的因素；步骤(6-2).将高权重的因素总结统计，进行更深层次的分析；步骤(6-3).自动生成分析报告。

与现有技术相比，采用了上述技术方案的基于对数线性回归和随机森林的房价走势分析方法，具有如下有益效果：采用本发明的基于对数线性回归和随机森林的房价走势分析方法，建立基于随机森林的模型，调用RandomForestClassifier函数建模并训练，对模型权重参数进行对数线性回归检验，在多个房价走势的影响因素下，达到曲线拟合精准。

附图说明

图1为本发明基于对数线性回归和随机森林的房价走势分析方法实施例的流程示意图；

图2为本实施例基于对数线性回归和随机森林的房价走势分析方法中模型检测的流程示意图；

图3为本实施例中房价走势拟合的曲线示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1为基于对数线性回归和随机森林的房价走势分析方法的流程示意图，包括以下步骤：步骤1.对影响因素进行分析，具体以下：确定影响房价走势的因素，所述因素包括小区因素客户因素、物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率和各类保障性住房的投入使用，所述小区因素包括占地面积、绿化率、容积率和所在商圈，所述客户因素包括小区在客户中的口碑状况；

步骤5.对数线性回归测试，如图3为本实施例中房价走势拟合的曲线示意图，具体包括以下步骤：步骤(5-1).输入测试集中的数据进行测试；步骤(5-2).设定预测区间；步骤(5-3).预测某楼盘在设定区间内房价的走势；步骤(5-4).与真实走势图进行对比，求得得分值，若得分值若大于0.6，则认为拟合成功，符合该楼盘房价的走势；

步骤6.模型训练与分析评估，具体包括以下步骤：步骤(6-1).根据随机森林模型中不同变量的因素所对应的权重，找出高权重的因素；步骤(6-2).将高权重的因素总结统计，进行更深层次的分析；步骤(6-3).自动生成分析报告。

至此，基于对数线性回归和随机森林的房价走势分析方法说明完毕，由于本发明涉及多个变量，表1对各个步骤中的变量进行说明，如表1所示为变量说明表：

表1

以上是本发明的优选实施方式，对于本领域的普通技术人员来说不脱离本发明原理的前提下，还可以做出若干变型和改进，这些也应视为本发明的保护范围。

Claims

1.一种基于对数线性回归和随机森林的房价走势分析方法，其特征在于：包括以下步骤：步骤1.对影响因素进行分析，具体以下：确定影响房价走势的因素，所述因素包括小区因素和客户因素；

步骤5.对数线性回归测试；

步骤6.模型训练与分析评估。

2.根据权利要求1所述的基于对数线性回归和随机森林的房价走势分析方法，其特征在于：在步骤1中，所述因素还包括物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率和各类保障性住房的投入使用，所述小区因素包括占地面积、绿化率、容积率和所在商圈，所述客户因素包括小区在客户中的口碑状况。

3.根据权利要求1所述的基于对数线性回归和随机森林的房价走势分析方法，其特征在于：在步骤5中，所述模型测试具体包括以下步骤：步骤(5-1).输入测试集中的数据进行测试；步骤(5-2).设定预测区间；步骤(5-3).预测某楼盘在设定区间内房价的走势；步骤(5-4).与真实走势图进行对比，求得得分值，若得分值若大于0.6，则认为拟合成功，符合该楼盘房价的走势。

4.根据权利要求1所述的基于对数线性回归和随机森林的房价走势分析方法，其特征在于：在步骤6中，所述分析具体包括以下步骤：步骤(6-1).根据随机森林模型中不同变量的因素所对应的权重，找出高权重的因素；步骤(6-2).将高权重的因素总结统计，进行更深层次的分析；步骤(6-3).自动生成分析报告。