CN111199322A

CN111199322A - 房价预测方法及计算机可读存储介质

Info

Publication number: CN111199322A
Application number: CN202010018098.9A
Authority: CN
Inventors: 段炼; 覃子涵
Original assignee: Guangxi Xinlang Communication Technology Co ltd
Current assignee: Guangxi Xinlang Communication Technology Co ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-05-26

Abstract

本发明公开一种房价预测方法及存储介质，通过获取房屋相关数据，所述房屋相关数据至少包括：房屋属性数据、原始房价数据、空间环境数据；对所述房屋相关数据进行特征提取与过滤，得到有效的房屋建成环境特征信息；基于所述特征信息，采用Stacking技术融合多种分类模型，构建Stacking房价预测模型。本发明引入了地理社会环境信息刻画房价诱因，利用Stacking集成学习技术构建房价预测模型，有力提升了房价的预测精度。

Description

房价预测方法及计算机可读存储介质

技术领域

本发明涉及房价预测技术领域，尤其涉及一种房价预测方法及计算机可读存储介质。

背景技术

房价作为多指标影响因子，受到很多条件的影响，现有的房价预测模型多属于单一算法预测，预测精度并不理想，如人工神经网络，当数据量不够庞大时预测效果得不到保证，而简单的集成模型如随机森林，当噪音较大时会出现过拟合现象。事实上，大量的与房屋相关的属性数据，比如房屋面积、房间数量和建筑年份以及房屋周围的环境信息已经积累起来。如果对这些数据进行适当的分析，这些数据可能是寻找具有高投资价值的房地产的丰富情报来源。而现有的房价预测模型无法综合考虑上述因素，因此，房价预测数据不够准确。

发明内容

本发明提出了一种房价预测方法及计算机可读存储介质，以提升房价预测模型的预测精度，提升房价预测数据的准确性。

为实现上述目的，本发明提供一种房价预测方法，包括以下步骤：

获取房屋相关数据，所述房屋相关数据至少包括：房屋属性数据、原始房价数据、空间环境数据；

对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息；

基于所述特征信息，采用Stacking技术融合多种分类模型，构建Stacking房价预测模型。

其中，所述对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息的步骤之前还包括：

对所述房屋相关数据进行预处理。

其中，所述对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息的步骤之后还包括：

对所述有效的房屋建成环境特征信息进行清洗、过滤。

其中，所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤包括：

对于所述有效的房屋建成环境特征信息中非数值数据进行数值化处理，舍弃特征缺失量达到预设条件的数据，剔除特征数据中的重复值、异常值和极端值；

通过皮尔森相关系数过滤掉所述有效的房屋建成环境特征信息中相关性满足预设强度条件的特征。

其中，所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤中还包括：

综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析，基于分析结果得到的特征重要度，从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征。

其中，所述综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析，基于分析结果得到的特征重要度，从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征的步骤包括：

利用多种分类模型分别计算所述有效的房屋建成环境特征信息中各特征的特征重要度，得到不同分类模型的多个特征重要度，其中，特征重要度与房价关系关联；

对所述不同分类模型的多个特征重要度取平均值，得到各特征的最终特征重要度；

基于各特征的最终特征重要度，按照特征重要性筛选出特征重要性较高的特征，将特征重要性较低的特征舍弃。

其中，所述对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息的步骤包括：

从所述房屋相关数据中提取房屋属性特征、原始房价特征及空间环境特征；其中：

从所述房屋相关数据中提取空间环境特征的步骤包括：

对预设的地区进行网格划分，得到若干个网格区域；

将空间环境数据投射到每个网格区域中，所述空间环境数据包括：空间地理数据、犯罪数据，所述空间地理数据包括：POIS、铁路网、交通站点、房屋建筑；

提取每个网格区域的空间环境特征，所述空间环境特征包括：POIS空间影响力、距铁路网的距离、铁路密度、道路网密度、距交通站点的距离、房屋建筑密度、犯罪强调。

其中，所述基于所述特征信息，采用Stacking技术融合多种分类模型，构建Stacking房价预测模型的步骤包括：

将所述有效的房屋建成环境特征信息随机分为训练样本数据和测试样本数据；

将所述训练样本数据随机拆分成四组，分别输入至预设的四个基础分类器中进行第一层训练，得到训练后的四个基础分类模型，所述四个基础分类模型包括：随机森林回归模型、自适应增强算法回归模型、极度随机树回归模型、梯度提升回归模型；

选取四个测试样本数据分别输入至所述四个基础分类模型进行测试，得到四个测试结果；

将所述四个测试结果作为训练数据输入至SVM模型进行第二层训练，经过多次轮回，完成所有模型训练，得到Stacking房价预测模型。

其中，所述房价预测方法还包括：

通过实验对所述Stacking房价预测模型进行评价；

基于评价结果对所述Stacking房价预测模型的预测结果进行可视化分析。

本发明还提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如上所述的房价预测方法的步骤。

本发明的有益效果是：本发明提出一种房价预测方法及计算机可读存储介质，通过获取房屋相关数据，所述房屋相关数据至少包括：房屋属性数据、原始房价数据、空间环境数据；对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息；基于所述特征信息，采用Stacking技术融合多种分类模型，构建Stacking房价预测模型。该Stacking房价预测模型基于Stacking集成学习技术实现，结合犯罪数据、兴趣点(POIs)数据、地理数据进行时空分析，利用Stacking集成学习技术构建房价预测模型，对房价进行时空分析，研究影响房价的因素，极大提升了房价预测模型的预测精度，提升了房价预测数据的准确性。

附图说明

图1是本发明房价预测方法的流程示意图；

图2是本发明涉及的基于Stacking技术房价时空预测技术框架示意图；

图3是本发明涉及的房价原始特征数据量示意图；

图4是处理后的特征属性数据示意图；

图5是部分特征间的相关性矩阵示意图；

图6是通过随机森林模型计算出的部分特征重要度示意图；

图7是通过Extra Trees模型计算出的部分特征重要度示意图；

图8是通过AdaBoost模型计算出的部分特征重要度示意图；

图9是通过XGBoost模型计算出的部分特征重要度示意图；

图10是各模型计算出的部分特征重要度的均值示意图；

图11是区域划分举例示意图；

图12-16是各类型POIs的空间影响力分布示意图；

图17是建筑密度空间分布图；

图18是路网密度空间分布图；

图19是与交通站点的距离空间分布图；

图20是与铁路线的距离空间分布图；

图21是洛杉矶区域示意图；

图22是洛杉矶犯罪强度分布图；

图23是基础分类器模型相关性示意图；

图24是Stacking房价预测模型示意图；

图25是2017年10月房价预测空间分布示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明考虑到：房价作为多指标影响因子，受到很多条件的影响，现有的房价预测模型多属于单一算法预测，预测精度并不理想，如人工神经网络，当数据量不够庞大时预测效果得不到保证，而简单的集成模型如随机森林，当噪音较大时会出现过拟合现象。事实上，大量的与房屋相关的属性数据，比如房屋面积、房间数量和建筑年份以及房屋周围的环境信息已经积累起来。如果对这些数据进行适当的分析，这些数据可能是寻找具有高投资价值的房地产的丰富情报来源。

基于以上问题，本发明提出一种基于Stacking集成学习技术的房价预测模型，以美国加利福尼亚州的洛杉矶，文图拉，橙市三个县为研究对象，基于298万个房屋数据点从房屋的各种属性信息(房屋面积、房间数量、建筑年份等)以及房屋周边的环境特征等58个房屋特性方面出发结合当地的犯罪数据、POIS数据以及各种地理数据，利用Stacking集成学习技术构建房价预测模型，对房价进行时空分析，研究影响房价的因素，得出房价预测数据。

具体地，如图1所示，本发明提出的房价预测方法，包括以下步骤：

S1，获取房屋相关数据，所述房屋相关数据至少包括：房屋属性数据、原始房价数据、空间环境数据；

其中，空间环境数据包括：空间地理数据、犯罪数据，所述空间地理数据包括：POIS、铁路网、交通站点、房屋建筑等；

在获取房屋相关数据后，对所述房屋相关数据进行预处理。

S2，对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息；

具体包括：

从所述房屋相关数据中提取空间环境特征的步骤包括：

对预设的地区进行网格划分，得到若干个网格区域；

上述方案中，在对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息之后还可以包括：对所述有效的房屋建成环境特征信息进行清洗、过滤。

进一步地，所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤中还包括：

具体实现如下：

S3，基于所述特征信息，并结合Stacking技术融合多种分类模型，构建Stacking房价预测模型。

进一步地，所述房价预测方法还可以包括：

通过实验对所述Stacking房价预测模型进行评价；

相比现有技术，本发明技术方案通过获取房屋相关数据，所述房屋相关数据至少包括：房屋属性数据、原始房价数据、空间环境数据；对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息；基于所述有效的房屋建成环境特征信息，并结合Stacking技术融合多种分类模型，构建Stacking房价预测模型。该Stacking房价预测模型基于Stacking集成学习技术实现，结合犯罪数据、兴趣点(POIs)数据、地理数据进行时空分析，利用Stacking集成学习技术构建房价预测模型，对房价进行时空分析，研究影响房价的因素，极大提升了房价预测模型的预测精度，提升了房价预测数据的准确性。

以下对本发明技术方案进行详细阐述：

参照图2所示，图2是本发明实施例涉及的基于Stacking技术房价时空预测技术框架示意图。

本发明方案中，主要通过数据预处理、房屋特征提取、房价预测构建基于Stacking技术的房屋价格时空预测。具体体现在以下3个方面：

设计并采用了多模型融合的特征重要度计算方法，能更加全面地筛选出有意义、对房价指示作用强的房屋属性特征；

引入了包括POIs和犯罪风险等多类空间地理要素和可达性指标，以综合表征房屋的建成环境，更深入地揭示了房价高低的成因，并将其作为特征之一提升了房价的预测性能；

筛选出了若干相关性低且预测效果好的模型，再利用Stacking模型集成它们各自的优势，进一步提高了房价预测准确率。

以下对本发明技术方案进行详细阐述：

一、房屋特征抽取

特征清洗：

一套房屋的价格受到诸多因素的影响，如房屋面积、房间数量、绿地面积、区位、建筑年份、面积、与地铁站/公交站的距离、周围兴趣点(POIs兴趣点)的比例分布、路网密度、不同类型的犯罪率等诸多因素的影响。本方案中统称这些因素为特征。同时，特征间的算术组合又会形成新的特征。本方案中应用的房屋特征数量为25个(详见附录)。

在对模型进行训练之前还需先对特征进行清洗，包括：对于非数值数据进行数值化处理，舍弃缺失量较多的特征(如图3所示)，剔除特征中的重复值、异常值和极端值等，处理后的特征属性数据如图4所示。

当特征数量庞大时，容易造成"维度灾难"，即特征与预测目标不太相关或相互间存在冗余，从而造成模型训练速度和预测能力也会下降，所以需从原始特征筛选出合适的特征子集。

通过皮尔森(Pearson皮尔森)相关系数过滤掉那些相关性强的特征。图5给出了部分特征间的相关性矩阵。

各特征之间的相关性越低，模型的分类预测结果准确率越高，因此在选取特征时比较侧重于相关性较低的特征。例如，“土地税”与”总税额”的相关性高达0.96，这两者保留其一即可。

特征重要性分析：

分类模型可用以探测出哪些特征对预测目标的指示作用更大。但不同的分类模型具有不同数理性质和适用范围，它们分类原理和分类角度不一，因此它们得到的特征重要性不尽相同。这里，将通过综合多个分类模型计算出的特征重要度，来综合判断和删除掉那些与房价关系不大的特征。

下面将通过随机森林、Extra Trees(极度随机树)、AdaBoost(自适应增强算法)和XGBoost模型来分别计算各特征的重要程度。

如图6所示，图6给出了通过随机森林模型计算出的部分特征重要度。如房屋总面积、经纬度以及税收的特征重要性在0.06-0.012之间，其中房屋总面积的重要性是最高的，其次是经纬度的特征重要性0.07。

如图7所示，在Extra Trees模型计算出的部分特征重要度。这时，房屋总面积的重要性0.15为特征重要性最高，税收、经纬度、房间数量、建筑年份这些特征的重要性在0.04-0.1之间，地下室面积、露台面积、交易年份等8个特征重要性所占权重在0.02以下。相较于随机森林，极度随机树对于特征的分类预测比较均匀。

如图8所示，在AdaBoost模型中，建筑年份、房产税以及交易月份和交易日的特征重要性在0.1以上。

如图9所示，在XGBoost模型中，房屋总面积的特征重要性几乎达到0.25，在所有的特征重要性中是最高的，其次是土地税和房产税达到0.15，经纬度的重要性在0.05以上，重要性为0的特征达到8个。

计算以上各模型中各特征重要度均值。如图10所示，总体上房屋总面积在所有基础模型中的所占权重达到0.15，其在所有特征重要性中为最高，其次是房产税，再是财产税，重要性在0.04以上的特征有11个，地下室面积的特征重要性最低，在所有特征中对于模型的预测所占权重最小。

按照特征重要性筛选出特征重要性比较高的特征，将重要性较低的特征舍弃。

空间环境特征：

考虑到房屋的属性特征还不足以全面表达房屋售价的起伏。房屋区位、地理环境和人文氛围，往往对房屋售价产生重要影响。例如，位于犯罪率低且交通便利的环境下的房屋，总是要比犯罪率高和交通困难环境内的房屋的售价要高。而这些房屋空间环境特征可以通过犯罪、路网、POIs等地理时空数据来表达。下面将给出具体方法。

首先进行区域划分，将研究地区划分为400*400的网格，G＝{g₁,g₂,...,g_ix}。G中的每个网格都被视为一个区域，每个区域为0.4275kmx 0.4275km，包含在洛杉矶、文图拉、橙市三个城市内的区域共68504个，如图11所示。图11为1洛杉矶、文图拉、橙市的格网地图。

每个网格可看作是房屋的空间环境范围，将地理数据投影到每个网格中，即可表达房屋的空间环境(表1)。下面将阐述各空间环境特征的抽取过程。

表格1空间数据及其对应的空间环境特征

POIs

房屋所在的社区提供方便的设施对于房价的影响至关重要，如生活需求(如餐馆、超市和医院)、教育需求(如学校和图书馆)、安全需求(如警察和消防部门)和娱乐需求(如剧院和公园)。人们更喜欢住在公共基础设施齐全(例如学校、商场、办公室、餐馆，图12所示)以及教育文化(政府机关、图书馆，图13所示)和交通的附近。各种设施的短缺会降低房屋的价值。兴趣点(POIs兴趣点)可表示区域的各种服务设施。基于核密度分析，可得到各类型POIs的空间影响力分布，例如：图11-15所示。

路网

通过创建渔网与房屋建筑、路网建立空间连接获取建筑密度与路网密度的分布情况，如图17、18所示，洛杉矶的建筑密度与路网比较高，证明文化商业中心集聚于此，建筑密度高。

交通对于一个城市区域的发展重要性是显而易见的，因此也会对房价有重要的影响作用。图19与图20展示了各区域的交通站点可达性与地铁线可达性。

犯罪数据

一个社区的设施多样性有助于提高其地产的吸引力，但预测房屋价值时还要考虑治安管理因素。因此，犯罪特征的提取对于房价的预测是非常必要的。

如图21、22所示，通过将2015年、2016年洛杉矶犯罪数据分别分为15类犯罪类型，每一类犯罪类型每年发生5000起以上,将15类犯罪数据进行核密度分析获得各区域的犯罪风险度。

Stacking预测模型

Random Forest Regressor(随机森林回归)，AdaBoostRegressor(自适应增强算法回归)，Extra Trees Regressor(极度随机树回归)，Gradient Boosting Regressor(梯度提升回归)和SVM在应用于房价预测领域时都有各自的优劣势。基于此，本方案创新性地采用stacking技术融合了以上五种模型。在Stacking集成模型中，单个分类器的输出成为一个“更高级别”模型的输入，该模型计算出如何最好地组合它们，对特异误差取平均，从而获得更好的整体预测效果。

表格2模型优劣势分析

在Stacking模型中，基础模型的相关性越低，均能越充分结合多个模型的独特视角和分类优势，得到更好的预测性能。本方案基于训练数据得到4个基础分类器模型间的相关性矩阵图(如图23)。从图中可以看出随机森林与极度随机树、梯度提升决策树的相关性为0.7左右，其余模型的相关性在0.5以下，四个基础模型的相关性不是很大。

由此，本方案构建的Stacking集成模型如图24所示：把Random ForestRegressor，AdaBoostRegressor，Extra Trees Regressor，Gradient Boosting Regressor四种学习器作为初级学习器,进一步用SVM作为次级学习器。

具体而言,每个房屋样本的特征X,包括房屋各属性、房屋所在网格涉及的各类型POIs强度、路网可达性、犯罪风险度等，作为Stacking模型输入变量,房屋价格作为输出变量。

每次将训练数据随机拆分成4组分别在四个基础分类器中进行训练；该次训练完成后，将4个基础分类器分别做用于4个随机拆分的测试数据，并将它们的结果作为第二层SVR模型的训练数据(每个样本包括4个特征)。经过多次这样的轮回，即可完成所有模型的训练。

二、实验

评价指标

实验使用RMSE(root mean square error，均方根误差)，其又被称为RMSD(rootmean square deviation)作为模型评价指标，其定义如下：

其中，y_i是第i个样本的真实值，

是第i个样本的预测值,n是样本的个数。

Baselines

这里只给出Random Forest、ExtraTrees、AdaBoost、GradientBoostingRegressor、Support Vector Regression的简介。

(1)随机森林模型(RandomForestRegressor)

随机森林(RF)是一种多功能的机器学习算法，简单、容易实现、计算开销小，擅长处理高维数据和大量样本，能够执行回归和分类的任务，同时，它也是一种数据降维手段，用于处理缺失值、异常值以及其他数据探索中的重要步骤，并取得了不错的效果。

(2)极度随机树模型(Extremely Randomized Trees Regressor)

极度随机树模型(ET)是一种决策树的组合方法与随机森林类似，随机选取部分特征来构造一棵树，但相较于随机森林，极度随机树对于划分点的选择更为随机。极端随机森林在构建每一棵树的分裂节点时，不会任意的选取特征，而是先随机收集一部分特征，然后利用信息熵/基尼指数挑选最佳的节点特征。

(3)自适应增强算法模型(AdaBoostRegressor)

自适应增强算法(Ada)是通过反复修改特征的权重,从而使一系列弱学习器成为强学习器.自适应增强算法通过权重调整提高误分类样本的权重，减少正确分类特征的权重，通过优化决策参数去实现预测目标。

(4)梯度提升决策树模型(Gradient Boosting Decision Tree Regressor)

梯度提升决策树(GDBT)，顾名思义是一个与梯度有关、对决策树进行了提升的机器学习模型，是一种迭代的决策树算法。GBDT有着训练时间复杂度较低，预测的过程比较快速的良好特性。

(5)支持向量机回归模型(Support Vector Machine Regression)

支持向量机(SVR)是一种基于统计学习理论的新型模式识别方法，在解决小样本、非线性、以及高纬度模式识别与回归估计问题中具有拟合精度高、推广能力强、全局最优等优势。

每个模型进行10次交叉训练，每次采用80％的数据为测试数据，20％的数据集为训练数据。

性能评价

通过均方误差的方法来评估每个模型的预测效果，结果如表3所示。Stacking模型比其他四个模型的均方误差降低了7.2％左右，预测效果最优。

表格3每个模型的均方根误差

预测结果可视化分析

本文所采用的Stacking房屋价格预测模型将房屋的各属性与时空地理数据结合起来，在原始特征单一的情况下结合社会环境空间特征给出城市2017年10月内空间单元的房价时空分布。

如图25所示，从2017年10月房价预测空间分布图可以看出，预测值主要集中于交通发达、建筑密度高、商业集聚区中心地带区域。对于城市郊区，房价预测值主要比较大，达到-0.5或0.5以上，说明预测对于建筑密度低或者非城市中心地带和非商业区域以及交通不发达地区比较难预测。不同地区的房价会受房屋年龄、附近地理条件等地区特定因素和人文等社会普遍因素的影响而具有异质性和非独立性，因此需要构建更多的空间特征以及影响因素来获取相关因子，以便预测更加准确。

综上，本发明方案通过Stacking的集成学习方法，集成了RF,ET,Ada，GBDT，SVM五种基本算法，通过使用洛杉矶、文图拉、橙市的房屋特征属性数据并筛选出最合适的特征，结合研究地区的POIS空间影响力、建筑密度、道路密度、与交通站点以及铁路线的距离和洛杉矶犯罪数据，提取多个有效特征，对目标数据降维并分别进行训练，利用不同的房屋相关数据来获取地理上时空特征关系，构建基于Stacking技术的房价预测模型。该模型的优点在于可以在一定程度上提高房价的预测效果，并能够有效避免当数据噪声较大或特征较多时过拟合的情况发生。

附录

此外，本发明还提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如上述实施例所述的房价预测方法的步骤。具体实现原理请参照上述各实施例，在此不再赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种房价预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的房价预测方法，其特征在于，所述对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息的步骤之前还包括：

对所述房屋相关数据进行预处理。

3.根据权利要求2所述的房价预测方法，其特征在于，所述对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息的步骤之后还包括：

对所述有效的房屋建成环境特征信息进行清洗、过滤。

4.根据权利要求3所述的房价预测方法，其特征在于，所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤包括：

5.根据权利要求4所述的房价预测方法，其特征在于，所述对所述有效的房屋建成环境特征信息进行清洗、过滤的步骤中还包括：

6.根据权利要求5所述的房价预测方法，其特征在于，所述综合多种分类模型对所述有效的房屋建成环境特征信息进行特征重要性分析，基于分析结果得到的特征重要度，从所述有效的房屋建成环境特征信息中剔除掉与房价关系达不到预设关联条件的特征的步骤包括：

7.根据权利要求1-6中任一项所述的房价预测方法，其特征在于，所述对所述房屋相关数据进行特征提取，得到有效的房屋建成环境特征信息的步骤包括：

从所述房屋相关数据中提取空间环境特征的步骤包括：

对预设的地区进行网格划分，得到若干个网格区域；

8.根据权利要求7所述的房价预测方法，其特征在于，所述基于所述特征信息，采用Stacking技术融合多种分类模型，构建Stacking房价预测模型的步骤包括：

9.根据权利要求8所述的房价预测方法，其特征在于，所述房价预测方法还包括：

通过实验对所述Stacking房价预测模型进行评价；

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器调用时执行如权利要求1-9中任一项所述的房价预测方法的步骤。