CN109117982A - 一种基于深度学习与特征组合的房价预测方法 - Google Patents

一种基于深度学习与特征组合的房价预测方法 Download PDF

Info

Publication number
CN109117982A
CN109117982A CN201810729048.4A CN201810729048A CN109117982A CN 109117982 A CN109117982 A CN 109117982A CN 201810729048 A CN201810729048 A CN 201810729048A CN 109117982 A CN109117982 A CN 109117982A
Authority
CN
China
Prior art keywords
feature
room rate
data
deep learning
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810729048.4A
Other languages
English (en)
Inventor
项前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201810729048.4A priority Critical patent/CN109117982A/zh
Publication of CN109117982A publication Critical patent/CN109117982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度学习与特征组合的房价预测方法,包括如下步骤:认识数据,分析数据,特征工程,深度学习,预测结果。本发明方法提出了一种特征组合的新思路,并基于深度学习模型结构进行逐层式训练网络结构,相比于传统手工提取特征和常见机器学习方法,能有效提取数据内在的非线性特征,更好的解决房价预测问题。本发明方法在DataCastle平台上的美国King County房价预测比赛中取得第四名的成绩,误差精度为0.14,充分证明本方法的有效性。

Description

一种基于深度学习与特征组合的房价预测方法
技术领域
本发明涉及美国KingCounty房价数据的特征提取与数据回归预测技术领域,尤其涉及一种基于深度学习与特征组合的房价预测方法。
背景技术
在我国房价持续高速增长的大环境下,其伴随的相关产业也迅速发展起来。例如一些公司或科研单位利用数学模型预测房价走势,从而产生巨大的经济效益。
目前,在房价预测与分析相关的问题的研究方法主要有以下方法:(1)、基于传统逻辑回归方法预测,选择相关系数较高的特征,简单进行缺失值和热独码处理,利用最小二乘法,对数据进行拟合;(2)、基于集成学习的方法,使用多个模型得到多个预测结果,在其中选取可能性最大的一种。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于深度学习与特征组合的房价预测方法,对相关性较低的特征进行特征组合,利用多层神经网络提取房价数据的特征,然后使用深度学习对特征进行回归计算,得到房价的预测值,使得更好的对房价问题进行预测和分析。
为了解决上述技术问题,本发明提供如下技术方案:基于深度学习与特征组合的房价预测方法,包括如下步骤:
S1、针对所需解决的问题,根据日常生活经验推测出影响房价的因素,并考虑各因素之间的关联关系;读取美国KingCounty房价预测数据,获取数据集特征;
S2、利用散点图、直方图和箱形图分析数据特征;
S3、对缺失数据补全;利用已有特征组合成新特征;
S4、建立深度学习模型;输入训练数据训练模型;
S5、将测试数据输入模型,调节参数使得模型最优化;
进一步地,所述步骤S1中根据日常生活经验推测出影响房价的主要因素包括房子面积、房子所在的区域、房龄、房型(小高层、多层、别墅等)、特殊场景(地铁房、学区房等)、交易时间等。
进一步地,所述数据集特征包括销售日期、销售价格、卧室数、浴室数、房屋面积、公园面积、楼层数、评分、建筑面积、地下室面积、建筑年份、修理年份、经度、维度。
进一步地,所述步骤S2具体为:
S21、输出部分数据,观察数据特征,区分类别型特征与数值型特征;
S22、分析因变量(房价),得出斜度和峭度,根据直方图了解因变量分布情况;
S23、多因素分析,通过散点图和直方图,了解各特征之间的关系;
S24、对类别型特征绘制箱形图,进一步确定其特征类型;
S25、通过热力图,得到各特征间的相关系数,方便特征工程;
进一步地,所述步骤S3具体为:
S31、使用各数值型特征的平均值填充其缺失值;
S32、合并训练数据和测试数据,方便特征工程;
S33、计算销售日期和建筑日期之间间隔的天数,创建新特征;
S34、求得修理日期与建筑日期的最大值,并计算其与销售日期之间间隔的天数,创建新特征;
S35、计算房屋面积与楼层数的比值,创建新特征;
S36、计算卧室面积与卧室数的比值,创建新特征;
S37、计算卧室数与浴室数的比值,创建新特征;
S38、根据经纬度计算房屋与房价最高房屋的距离,创建新特征;
S39、根据经纬度计算房屋与房价最低房屋的距离,创建新特征;
S310、计算地下室面积与地上面积的比值,创建新特征;
S311、计算停车面积与卧室面积的比值,创建新特征;
S312、求得各特征间的相关系数,将相关系数绝对值低于0.1的特征删除;
S313、使用以上步骤完成特征工程后,输入房价数据到深度学习模型。
进一步地,所述步骤S4具体为:
S41、给定的训练集
其中,x i代表第i个特征,d代表特征个数, y代表训练数据的预测结果;
S42、定义第一层拥有d个输入神经元,50个输出神经元;定义第二层拥有50个输入神经元,50个输出神经元;定义第三层拥有50个输入神经元,1个输出神经元;
S43、对训练例(xk,yk),假定神经网络的输出为
,即
其中,f代表激励函数,k代表神经网络层数,βj是第j个神经元收到的输入,是阈值。
S44、计算网络在(xk,yk)上的均方误差:
S45、计算对任意参数v的更新:
S46、使用梯度下降策略,以目标的负梯度方向对参数进行调整,对误差Ek,给定学习率η,计算以下参数:
其中,w是权值,Θ是阈值,b是偏差。
所述步骤S5具体为:将测试数据输入到步骤S4得到的模型,通过不断的调参,使得模型达到最优化。
本发明对数据集中相关性较低的特征进行组合处理,使用深度学习建立房价的预测分析模型,利用反向传播算法,对数据进行拟合,使得网络输出与目标输出误差尽可能小,对房价进行进一步分析预测,提高模型预测的准确度,是一种可行的分析方法。
附图说明
图1是房价预测流程图;
图2是特征组合前散点图;
图3是特征组合前的热力图;
图4是特征组合后热力图。
具体实施方式
下面结合附图和具体实施例对本申请作进一步详细说明。
如图1所示,为本实例基于深度学习与特征组合的房价预测方法的步骤流程图,具体过程如下:
步骤S1、分析所需解决的问题,确定解决问题的思路,考虑对房价产生较大影响的因素,并观察原始数据集,以便于进一步分析问题。
首先明确问题要求:由训练数据所建立的模型以及所给的测试数据,得出测试数据相应的房屋价格预测值;
根据问题要求,确定本问题属于回归预测问题;
读取数据集后,填充数据集列名如下:
sale_date,sale_price,bedroom,bath,area,park_area,floor,rank,in_area,sub_area,build_date,fix_date,lat,lng;
步骤S2、观察数据,根据特征数值确定特征类型,分析因变量以及各变量之间的关系如图2所示,求出各因素间的相关系数如图3所示,以便进行下一步特征工程。
图2中共计13个子散点图,分别表示房价与13个特征之间的数据分布。子图纵坐标为房价,数值区间从0到300万美元。子图横坐标为特征的数值。若子图中数据呈线性分布,则说明该自变量特征能较好的表达出与因变量房价之间的关系。如若子图中数据分布不集中,则考虑特征组合。
图3是所有特征间关系的热力图,横坐标和纵坐标分别包含全部的14个特征,热力图组成14x14的网格,每个网格中的数值表示两个特征之间的相关性,相关性数值区间从-1到1。通过热力图,可知任意两种特征间的相关性,有利于特征组合。
变量按其数值表现是否连续,分为类别变量和数值变量;类别变量指变量值可以按一定顺序一一列举,通常以整数位或字符型取值的变量;在一定区间内可以任意取值的变量叫数值变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值;
直方图(Histogram)又称质量分布图;是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况;一般用横轴表示数据类型,纵轴表示分布情况;直方图是数值数据分布的精确图形表示;这是一个连续变量(定量变量)的概率分布的估计;
散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合;
箱形图又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图;
热力图可以用颜色变化来反映二维矩阵或表格中的数据信息,它可以直观地将数据值的大小以定义的颜色深浅表示出来;
求出因变量(房价)的斜度为3.89,峭度为29.35,该数据表明因变量数据偏离正态分布;
从图3可以明显看出,数据并不理想,与房价相关性超过0.3的只有三个特征;
由上述分析可得,若想得到更理想的效果,必须对特征组合,使得产生相关性更高的特征;
步骤S3、本方法中选择特征组合方法基于生活经验和比赛经验,经过相关性检测,筛选出相关性最高的几种组合方法,图4是特征组合后的热力图,横坐标和纵坐标分别包含全部的23个特征,热力图组成23x23的网格,每个网格中的数值表示两个特征之间的相关性,相关性数值区间从-1到1。热力图有利于特征筛选。
步骤S4、定义神经网络模型,确定参数和优化器。
经过S3,筛选出17个特征,对应神经网络的输入神经元个数为17;接着定义两层隐藏层的神经元个数均为50个;最后输出层输出1个神经元;
优化器采用Adam,如果一个随机变量 X 服从某个分布,X 的一阶矩是 E(X),也就是样本平均值,X 的二阶矩就是 E(X2),也就是样本平方的平均值。Adam 算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。Adam也是基于梯度下降的方法,但是每次迭代参数的学习步长都有一个确定的范围,不会因为很大的梯度导致很大的学习步长,参数的值比较稳定。
激励函数采用relu;
步骤S5、经过不断训练和测试,最终在损失函数达到25500000000附近时,预测结果误差精度达到0.14,此精度取得了比赛第四名的好成绩。
以上为本发明较佳的实现方式,需要说明的是,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (7)

1.一种基于深度学习与特征组合的房价预测方法,其特征在于,包括如下步骤:
S1、针对所需解决的问题,根据日常生活经验推测出影响房价的因素,并考虑各因素之间的关联关系;读取美国KingCounty房价预测数据,获取数据集特征;
S2、利用散点图、直方图和箱形图分析数据特征;
S3、对缺失数据补全;利用已有特征组合成新特征;
S4、建立深度学习模型;输入训练数据训练模型;
S5、将测试数据输入模型,调节参数使得模型最优化。
2.根据权利要求1所述的一种基于深度学习与特征组合的房价预测方法,其特征在于:所述步骤S1中根据日常生活经验推测出影响房价的主要因素包括房子面积、房子所在的区域、房龄、房型、特殊场景、交易时间。
3.根据权利要求1所述的一种基于深度学习与特征组合的房价预测方法,其特征在于:所述数据集特征包括销售日期、销售价格、卧室数、浴室数、房屋面积、公园面积、楼层数、评分、建筑面积、地下室面积、建筑年份、修理年份、经度、维度。
4.根据权利要求1所述的一种基于深度学习与特征组合的房价预测方法,其特征在于:所述步骤S2具体为:
S21、输出部分数据,观察数据特征,区分类别型特征与数值型特征;
S22、分析因变量房价,得出斜度和峭度,根据直方图了解因变量分布情况;
S23、多因素分析,通过散点图和直方图,了解各特征之间的关系;
S24、对类别型特征绘制箱形图,进一步确定其特征类型;
S25、通过热力图,得到各特征间的相关系数。
5.根据权利要求1所述的一种基于深度学习与特征组合的房价预测方法,其特征在于:所述步骤S3具体为:
S31、使用各数值型特征的平均值填充其缺失值;
S32、合并训练数据和测试数据,方便特征工程;
S33、计算销售日期和建筑日期之间间隔的天数,创建新特征;
S34、求得修理日期与建筑日期的最大值,并计算其与销售日期之间间隔的天数,创建新特征;
S35、计算房屋面积与楼层数的比值,创建新特征;
S36、计算卧室面积与卧室数的比值,创建新特征;
S37、计算卧室数与浴室数的比值,创建新特征;
S38、根据经纬度计算房屋与房价最高房屋的距离,创建新特征;
S39、根据经纬度计算房屋与房价最低房屋的距离,创建新特征;
S310、计算地下室面积与地上面积的比值,创建新特征;
S311、计算停车面积与卧室面积的比值,创建新特征;
S312、求得各特征间的相关系数,将相关系数绝对值低于0.1的特征删除;
S313、使用以上步骤完成特征工程后,输入房价数据到深度学习模型。
6.根据权利要求1所述的一种基于深度学习与特征组合的房价预测方法,其特征在于:所述步骤S4具体为:
S41、给定的训练集D={(x1,y),(x2,y),…,(xm,y)},x i ∈Rd
其中,xi代表第i个特征,d代表特征个数, y代表训练数据的预测结果;
S42、定义第一层拥有d个输入神经元,50个输出神经元;定义第二层拥有50个输入神经元,50个输出神经元;定义第三层拥有50个输入神经元,1个输出神经元;
S43、对训练例(xk,yk),假定神经网络的输出为
,即
其中,f代表激励函数,k代表神经网络层数,βj是第j个神经元收到的输入,是阈值。
S44、计算网络在(xk,yk)上的均方误差:
S45、计算对任意参数v的更新:
S46、使用梯度下降策略,以目标的负梯度方向对参数进行调整,对误差Ek,给定学习率η,计算以下参数:
其中,w是权值,Θ是阈值,b是偏差。
7.根据权利要求1所述的一种基于深度学习与特征组合的房价预测方法,其特征在于:所述步骤S5具体为:
将测试数据输入到步骤S4得到的模型,通过不断的调参,使得模型达到最优化。
CN201810729048.4A 2018-07-05 2018-07-05 一种基于深度学习与特征组合的房价预测方法 Pending CN109117982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810729048.4A CN109117982A (zh) 2018-07-05 2018-07-05 一种基于深度学习与特征组合的房价预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810729048.4A CN109117982A (zh) 2018-07-05 2018-07-05 一种基于深度学习与特征组合的房价预测方法

Publications (1)

Publication Number Publication Date
CN109117982A true CN109117982A (zh) 2019-01-01

Family

ID=64821945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810729048.4A Pending CN109117982A (zh) 2018-07-05 2018-07-05 一种基于深度学习与特征组合的房价预测方法

Country Status (1)

Country Link
CN (1) CN109117982A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN110826640A (zh) * 2019-11-12 2020-02-21 郑州轻工业学院 一种无监督式的传感器阵列干扰特征去除方法
CN112488352A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于梯度提升回归的房价区间预测方法及系统
CN113379153A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 用于预测电力负荷的方法、预测模型训练方法及装置
CN117172818A (zh) * 2023-08-16 2023-12-05 华能信息技术有限公司 一种基于工业互联网的电厂成本预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717182A (zh) * 2019-10-14 2020-01-21 杭州安恒信息技术股份有限公司 一种网页木马检测方法、装置、设备及可读存储介质
CN110826640A (zh) * 2019-11-12 2020-02-21 郑州轻工业学院 一种无监督式的传感器阵列干扰特征去除方法
CN110826640B (zh) * 2019-11-12 2022-07-05 郑州轻工业学院 一种无监督式的传感器阵列干扰特征去除方法
CN112488352A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于梯度提升回归的房价区间预测方法及系统
CN113379153A (zh) * 2021-06-28 2021-09-10 北京百度网讯科技有限公司 用于预测电力负荷的方法、预测模型训练方法及装置
CN117172818A (zh) * 2023-08-16 2023-12-05 华能信息技术有限公司 一种基于工业互联网的电厂成本预测方法

Similar Documents

Publication Publication Date Title
CN109117982A (zh) 一种基于深度学习与特征组合的房价预测方法
Zhong et al. Super efficiency SBM-DEA and neural network for performance evaluation
Faber et al. Tourism and economic development: Evidence from Mexico’s coastline
Bayer et al. Tiebout sorting, social multipliers and the demand for school quality
Krafta Modelling intraurban configurational development
Gareta et al. Forecasting of electricity prices with neural networks
Stanujkic et al. An objective multi-criteria approach to optimization using MOORA method and interval grey numbers
Wong et al. Modelling building energy use at urban scale: A review on their account for the urban environment
Wei et al. Forecasting the daily natural gas consumption with an accurate white-box model
Behboudian et al. A long-term prediction of domestic water demand using preprocessing in artificial neural network
Önder et al. Forecasting macroeconomic variables using artificial neural network and traditional smoothing techniques
Azadeh et al. An integrated artificial neural network fuzzy C-means-normalization algorithm for performance assessment of decision-making units: The cases of auto industry and power plant
Liu et al. Development Assessment of Higher Education System Based on TOPSIS‐Entropy, Hopfield Neural Network, and Cobweb Model
CN109657846A (zh) 电网交叉补贴规模影响因子筛选方法
Shakouri G et al. Selection of the best ARMAX model for forecasting energy demand: case study of the residential and commercial sectors in Iran
Pan The use of genetic programming for the construction of a financial management model in an enterprise
CN109919647A (zh) 金融商品的相关性预测系统及其方法
Guang et al. The development of ecological environment in China based on the system dynamics method from the society, economy and environment perspective
Brzezicka et al. The applicability of the speculative frame method for detecting disturbances on the real estate market: evidence from Poland
Taherinia et al. Prediction the Return Fluctuations with Artificial Neural Networks' Approach
Laib et al. Forecasting yearly natural gas consumption using artificial neural network for the Algerian market
CN108665090A (zh) 基于主成分分析与Verhulst模型的城市电网饱和负荷预测方法
Maliar et al. Income and wealth distributions along the business cycle: Implications from the neoclassical growth model
Xing et al. Exploring the use of systems dynamics in sustainable urban retrofit planning
Chetthamrongchai et al. Hotel Capacity Planning Using Queuing Systems and Meta-Heuristic Algorithms.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190101