CN110033312A - 房价预测模型的生成方法、装置、设备及存储介质 - Google Patents
房价预测模型的生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110033312A CN110033312A CN201910190985.1A CN201910190985A CN110033312A CN 110033312 A CN110033312 A CN 110033312A CN 201910190985 A CN201910190985 A CN 201910190985A CN 110033312 A CN110033312 A CN 110033312A
- Authority
- CN
- China
- Prior art keywords
- room rate
- prediction model
- rate prediction
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 30
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000010845 search algorithm Methods 0.000 claims description 9
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 241000208340 Araliaceae Species 0.000 description 6
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 6
- 235000003140 Panax quinquefolius Nutrition 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 235000008434 ginseng Nutrition 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000009738 saturating Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
Abstract
本发明公开了一种基于大数据处理的房价预测模型的生成方法、装置、设备及存储介质,所述方法包括:获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;根据所述参数信息建立多个原始房价预测模型;通过预设机器学习算法对所述房价预测模型进行训练,得到各个模型对应的预测结果;将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型,将宏观经济指标信息、中观经济指标信息以及风俗文化信息作为模型的建立指标,摆脱传统的根据区域建立的房产预测模型,并打通数据壁垒,更多方位的实现房价预测,从而提高房价预测的准确性。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种房价预测模型的生成方法、装置、设备及存储介质。
背景技术
目前,业内对房地产的模型研究以当前价格为重点,没有预测成交均价的前瞻预测模型,无法解决需求端对未来成交均价的风险管理,资产配置等需求,但是由于房地产受到宏观调控影响较大,许多定性的指标在市面上的模型中常常被忽略,无法全面的在模型中体现出来,导致模型计算出的预测结果会有偏颇。
发明内容
本发明的主要目的在于提出一种房价预测模型的生成方法、装置、设备及存储介质,旨在提高房价预测模型的准确性。
为实现上述目的,本发明提供一种房价预测模型的生成方法,所述房价预测模型的生成方法包括以下步骤:
获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;
根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;
通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;
将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型。
优选地,所述获取待建立房价预测模型的参数信息,包括:
获取外部数据接口信息,通过所述外部数据接口信息连接预设数据库,从预设数据库查询当前的宏观经济指标信息、中观经济指标信息以及风俗文化信息;
将所述当前的宏观经济指标信息、中观经济指标信息以及风俗文化信息作为所述待建立房价预测模型的参数信息。
优选地,所述根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型之前,所述方法还包括:
获取所述参数信息中的各个历史指标信息,在预设时间段内统计所述历史指标信息的指标趋势;
提取所述指标趋势中的预设指标信息,将所述预设指标信息补入所述历史指标信息中,生成更新后的指标信息,将更新后的指标信息作为所述参数信息。
优选地,所述预设机器学习算法包括线性回归算法、Lasso回归算法、Ridge回归算法、随机森林算法、支持向量机以及迭代决策树中至少一项。
优选地,所述将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型,包括:
获得所述原始房价预测模型的预测值和实际值,将预测值和实际值通过均方根误差进行对比,得到各个模型对应的均方根误差值;
将所述均方根误差值进行排序,选取预设均方根误差值对应的模型为所述目标房价预测模型。
优选地,所述将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型之后,所述方法还包括:
获取调整指令,提取所述调整指令中的候选参数,通过网格搜索算法将所述候选参数进行重新组合,将组合后的参数输入所述目标房价预测模型进行训练,得到参考房价预测模型;
将所述参数组合输入所述参考房价预测模型进行预测,得到参考预测结果;
通过预设评分机制对所述参考预测结果进行评分,选取预设评分对应的参考房价预测模型为调整后的房价预测模型。
优选地,所述预设评分机制为决策树;
所述通过预设评分机制对所述参考预测结果进行评分,选取预设评分对应的参考房价预测模型为调整后的房价预测模型,包括:
将样本数据中预设份数作为验证集,其他份数作为训练集,将所述验证集得到的真实值与所述训练集得到的预测值的偏差进行评分,得到第一评分结果;
对所述预设份数进行调整,再进行评分,得到第二评分结果,选取所述第一评分结果和第二评分结果中预设评分结果,将所述预设评分结果对应的参考房价预测模型作为调整后的房价预测模型。
此外,为实现上述目的,本发明还提出一种房价预测模型的生成装置,其特征在于,所述房价预测模型的生成装置包括:
获取模块,用于获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;
建立模块,用于根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;
训练模块,用于通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;
对比模块,用于将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型。
此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的房价预测模型的生成程序,所述房价预测模型的生成程序配置为实现如上所述的房价预测模型的生成方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有房价预测模型的生成程序,所述房价预测模型的生成程序被处理器执行时实现如上文所述的房价预测模型的生成方法的步骤。
本发明提出的房价预测模型的生成方法,通过获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型,将宏观经济指标信息、中观经济指标信息以及风俗文化信息作为模型的建立指标,摆脱传统的根据区域建立的房产预测模型,并打通数据壁垒,更多方位的实现房价预测,尽量量化人为因素导致的模型偏差,从而提高房价预测的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明房价预测模型的生成方法第一实施例的流程示意图;
图3为本发明房价预测模型的生成方法第二实施例的流程示意图;
图4为本发明房价预测模型的生成方法第三实施例的流程示意图;
图5为本发明房价预测模型的生成装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及房价预测模型的生成程序。
在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的房价预测模型的生成程序,并执行本发明实施例提供的房价预测模型的生成的实施方法。
基于上述硬件结构,提出本发明房价预测模型的生成方法实施例。
参照图2,图2为本发明房价预测模型的生成方法第一实施例的流程示意图。
在第一实施例中,所述房价预测模型的生成方法包括以下步骤:
步骤S10,获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息。
需要说明的是,所述宏观经济指标是体现经济情况的一种方式,主要指标包括国内生产总值、通货膨胀与紧缩、投资指标、消费、金融、财政指标等,宏观经济指标对于宏观经济调控起着重要的分析和参考作用,在一般情况下,对于房价预测通常受限于房地产数据与其他数据不连通,例如金融和财政等,形成数据孤岛,主要基于房产的核心数据,而缺乏外部参考数据,在本实施例中可实时查询政府数据库中的当前政策信息,或者在政府部分更新政策信息时进行实时分享,便于及时进行房价预测模型的调整,提高房价预测模型的准确性。
可以理解的是,所述中观经济指标信息一般指各部门、各地区的指标信息,例如北上广深地区的房产均价以及二三线城市房产均价等,中观经济效益介于宏观经济效益与微观经济效益之间,由于在不同地区的房价信息均有所不同。
在本实施例中,所述风俗文化信息可为风水相关的指标,例如方位等,一般南北通透的房子相比较于不是南北通透的房子的价位较高,或者位置朝东方向的房子一般比其他朝向的房子的价位较高,从而将风俗文化信息引入房价预测信息中,实现全方位的房价预测,尽量量化人为因素导致的模型偏差。
步骤S20,根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型。
需要说明的是,所述原始房价预测模型可为基于神经网络模型建立的,还可为基于其他模型建立的,本实施例对此不作限制,在本实施例中,可建立多个模型,然后根据多种不同的训练算法对所述模型进行训练,对训练出模型作为所述房价预测模型,通过提取所述宏观经济指标信息、中观经济指标信息以及风俗文化信息中的预设参数变量,将所述参数变量进行综合生成多维度的房价预测特征信息,根据所述特征信息建立多个不同的房价预测模型。
在具体实现中,将所述参数信息生成预设维度的房价预测放入卷积神经网络进行训练,根据训练结果生成多个对比的房价预测模型,从而实现多个房价预测模型的生成,还可建立根据时间变化的回归模型,通过设一个允许参数随时间变化的回归模型TVP为:yt=Zt-1θt+εt,θt=θt+ηt,其中,yt是因变量,即房价;zt-1是预测的自变量的特征信息组成的一个1×m矩阵,所述自变量为房价的解释变量;θt是回归系数的一个m×1矩阵,残差项满足εt~N(0,Ht),随机扰动项满足ηt~N(0,Qt);其中,Ht表示正态分布下参数εt满足的方差,Qt表示正态分布下参数ηt满足的方差;在TVP的基础上,将上式进一步改写为:yt=Zt-1 (k)θt (k)+εt (k),θt (k)=θt (k)+ηt (k),其中,k=1,2...,K,K表示对应的模型集合数,从而实现多个模型的建立。
步骤S30,通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果。
在本实施例中,所述预设机器学习算法包括线性回归算法、Lasso回归算法、Ridge回归算法、随机森林算法、支持向量机以及迭代决策树中至少一项,通过上述机器学习方法对建立的模型进行训练,合理评价模型结果,尽可能全面评估重要的指标,使得模型表现最优。
步骤S40,将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型。
在具体实现中,可通过预设规则对各个模型的预测结果进行对比,将预测效果最佳的预测结果对应的模型作为所述目标房价预测模型,其中,所述预设规则可为通过打分的方式进行评估,还可为其他形式,本实施例对此不作限制。
本实施例通过上述方案,通过获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型,将宏观经济指标信息、中观经济指标信息以及风俗文化信息作为模型的建立指标,摆脱传统的根据区域建立的房产预测模型,并打通数据壁垒,更多方位的实现房价预测,从而提高房价预测的准确性。
进一步地,如图3所示,基于第一实施例提出本发明房价预测模型的生成方法第二实施例,在本实施例中,所述步骤S10,包括:
步骤S101,获取外部数据接口信息,通过所述外部数据接口信息连接预设数据库,从预设数据库查询当前的宏观经济指标信息、中观经济指标信息以及风俗文化信息。
在本实施例中,设有接入外部数据接口,通过查询指令,可从所述外部数据接口中查询当前的国内生产总值、消费、金融、财政指标等信息,从而打通数据壁垒,更多方位的实现房价预测。
在具体实现中,首先需要实现与政府部门的信息互连,共用数据库,从而可实时查询政府数据库中的当前政策信息,或者在政府部分更新政策信息时进行实时分享,便于及时进行房价预测模型的调整,提高房价预测模型的准确性。
步骤S102,将所述当前的宏观经济指标信息、中观经济指标信息以及风俗文化信息作为所述待建立房价预测模型的参数信息。
需要说明的是,在本实施例中,通过宏观经济指标信息、中观经济指标信息以及风俗文化信息作为建立房价预测模型的参数信息,从而将政策信息加入房产预测中,提高房产预测的准确性。
进一步地,所述步骤S20之前,所述方法还包括:
步骤S201,获取所述参数信息中的各个历史指标信息,在预设时间段内统计所述历史指标信息的指标趋势。
需要说明的是,将所述宏观经济指标信息、中观经济指标信息以及风俗文化信息作为候选参数之前,由于存在周期性缺省的指标信息,例如统计局统计周期相关的每年1月份、2月份周期性缺失的数据,在这种情况下,通过获取预设时间段内的指标信息,建立相应的线性关系,通过所述线性关系获取缺省的月份的指标信息,并还可通过获取年度指标的线性关系,获取缺省的月份的指标信息,从而实现对指标信息进行合理和科学的填补。
步骤S202,提取所述指标趋势中的预设指标信息,将所述预设指标信息补入所述历史指标信息中,生成更新后的指标信息,将更新后的指标信息作为所述参数信息。
在具体实现中,所述预设指标信息为缺省的月份的指标信息,通过历史指标信息建立的线性关系预测出缺省的月份的指标信息,将缺省的月份的指标信息补入所述历史指标信息中,从而得到完整的指标信息作为参数信息,提高模型建立的准确性。
本实施例提供的方案,针对周期性缺失的指标,可消除缺省指标信息,例如春节日期不固定因素带来的影响,增强数据的可比性,本实施例可对这类指标进行合理、科学的填补,从而得到完整的指标信息作为参数信息,提高模型建立的准确性。
进一步地,如图4所示,基于第一实施例或第二实施例提出本发明房价预测模型的生成方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S40,包括:
步骤S401,获得所述原始房价预测模型的预测值和实际值,将预测值和实际值通过均方根误差进行对比,得到各个模型对应的均方根误差值。
在本实施例中,选用均方根误差(Root Mean Square Error,RMSE)最小的算法作为最优算法,将预测值和实际值通过均方根误差进行对比,得到各个模型对应的均方根误差值。
在具体实现中,RMSE采用公式:
其中,n表示预测值数量,y'表示模型预测值,yt表示实际值,RMSE的值越小,模型的预测效果越好。
步骤S402,将所述均方根误差值进行排序,选取预设均方根误差值对应的模型为所述目标房价预测模型。
为了选择出最优的模型,在本实施例中,通过均方根误差值进行判断,根据各个模型得到的预测值与实际值进行对比,得的各模型对应的均方根误差值,其中,所述预设均方根误差值为各个模型对应的均方根误差值中最小的值,将均方根误差值中最小的值对应的模型作为所述目标房价预测模型。
进一步地,所述步骤S40之后,所述方法还包括:
步骤S403,获取调整指令,提取所述调整指令中的候选参数,通过网格搜索算法将所述候选参数进行重新组合,将组合后的参数输入所述目标房价预测模型进行训练,得到参考房价预测模型。
在本实施例中,由于宏观经济指标包括国内生产总值、通货膨胀与紧缩、投资指标、消费、金融、财政指标等,中观宏观经济指标包括个地区的平均房价指标,所述风俗文化信息包括方位以及朝向等,将所述通货膨胀、地区平均房价以及方位等参数进行重新组合,将重新组合后的参数作为所述候选参数。
需要说明的是,通过网格搜索算法对候选参数进行重新组合,还可为其他搜索算法,本实施例对此不作限制,在本实施例中,以网格搜索算法为例进行说明,从所述候选参数中选出更符合当前地域的目标参数,由于通过网格搜索算法对候选参数进行调参,获得超参数,从而建立标准化的调参过程,方便在其他场景下的迁移应用,并通过搜索算法查找出最优参数,从而保证建立后的房产预测模型的质量。
可以理解的是,所述网格搜索算法为找最优超参数的算法,首先为将调参的参数设定一组候选值,然后通过网格搜索算法穷举各种参数组合,并根据设定的评分机制找到最优的那一组设置。
在具体实现中,首先通过获取候选参数,将所述候选参数导入网格搜索参数中进行处理,可将当前候选参数通过两两对应的方式分为训练集和测试集,以决策树为例,当我们确定了要使用决策树算法的时候,为了能够更好地拟合和预测,我们需要调整它的参数。在决策树算法中,我们通常选择的参数是决策树的最大深度,于是我们会给出一系列的最大深度的值,比如{'max_depth':[1,2,3,4,5]},尽可能包含最优最大深度。
步骤S404,将所述参数组合输入所述参考房价预测模型进行预测,得到参考预测结果。
步骤S405,通过预设评分机制对所述参考预测结果进行评分,选取预设评分对应的参考房价预测模型为调整后的房价预测模型。
进一步地,所述预设评分机制为决策树;
所述步骤S405,包括:
步骤S406,将样本数据中预设份数作为验证集,其他份数作为训练集,将所述验证集得到的真实值与所述训练集得到的预测值的偏差进行评分,得到第一评分结果。
在本实施例中,主要以交叉验证进行处理,首先,将宏观经济指标信息、中观经济指标信息以及风俗文化信息会按照一定的比例划分成训练集和测试集;
训练集用来训练我们的模型,测试集用来评估训练好的模型表现如何,用到的数据是训练集中的所有数据,将训练集的所有数据平均划分成K份(通常选择K=10),取第K份作为验证集,余下的K-1份作为交叉验证的训练集。
步骤S407,对所述预设份数进行调整,再进行评分,得到第二评分结果,选取所述第一评分结果和第二评分结果中预设评分结果,将所述预设评分结果对应的参考房价预测模型作为调整后的房价预测模型。
在具体实现中,对所述第一评分结果和第二评分结果按照分数的高低进行排序,将得分较高的评分结果作为所述预设评分结果。
可以理解的是,开始选择的决策树的5个最大深度,以max_depth=1为例,先用第2-10份数据作为训练集训练模型,用第1份数据作为验证集,根据预测值与真实值之间的偏差对这次训练的模型进行评分,得到第一个分数;然后重新构建一个max_depth=1的决策树,用第1和3-10份数据作为训练集训练模型,用第2份数据作为验证集对这次训练的模型进行评分,得到第二个分数,以此类推,最后构建一个max_depth=1的决策树用第1-9份数据作为训练集训练模型,用第10份数据作为验证集对这次训练的模型进行评分,得到第十个分数。于是对于max_depth=1的决策树模型,我们训练了10次,验证了10次,得到了10个验证分数,然后计算这10个验证分数的平均分数,就是max_depth=1的决策树模型的最终验证分数,对于max_depth=2,3,4,5时,分别进行和max_depth=1相同的交叉验证过程,得到它们的最终验证分数。
在本实施例中,通过对5个最大深度的决策树的最终验证分数进行比较,分数最高的那一个就是最优最大深度,对应的模型就是最优模型,从而实现对房价预测模型的优化。
本实施例提供的方案,通过在模型训练过程中,采网格搜索算法确定算法最佳参数组合,标准化模型调参过程,方便模型在其他场景下的迁移应用的同时保证模型质量。
本发明进一步提供一种房价预测模型的生成装置。
参照图5,图5为本发明房价预测模型的生成装置第一实施例的功能模块示意图。
本发明房价预测模型的生成装置第一实施例中,该房价预测模型的生成装置包括:
获取模块10,用于获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息。
需要说明的是,所述宏观经济指标是体现经济情况的一种方式,主要指标包括国内生产总值、通货膨胀与紧缩、投资指标、消费、金融、财政指标等,宏观经济指标对于宏观经济调控起着重要的分析和参考作用,在一般情况下,对于房价预测通常受限于房地产数据与其他数据不连通,例如金融和财政等,形成数据孤岛,主要基于房产的核心数据,而缺乏外部参考数据,在本实施例中可实时查询政府数据库中的当前政策信息,或者在政府部分更新政策信息时进行实时分享,便于及时进行房价预测模型的调整,提高房价预测模型的准确性。
可以理解的是,所述中观经济指标信息一般指各部门、各地区的指标信息,中观经济效益介于宏观经济效益与微观经济效益之间,比如,随着经济总体发展和人们保险意识的增强,整个保险行业,特别是人寿保险市场不断发展,导致人寿保险行业整体经济效益不断提高。
在本实施例中,所述风俗文化信息可为风水相关的指标,例如方位等,一般南北通透的房子相比较于不是南北通透的房子的价位较高,或者位置朝东方向的房子一般比其他朝向的房子的价位较高,从而将风俗文化信息引入房价预测信息中,实现全方位的房价预测,尽量量化人为因素导致的模型偏差。
建立模块20,用于根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型。
需要说明的是,所述房价预测模型可为基于神经网络模型建立的,还可为基于其他模型建立的,本实施例对此不作限制,在本实施例中,可建立多个模型,然后根据多种不同的训练算法对所述模型进行训练,对训练出模型作为所述房价预测模型。
在具体实现中,将所述参数信息生成预设维度的房价预测放入卷积神经网络进行训练,根据训练结果生成多个对比的房价预测模型,从而实现多个房价预测模型的生成。
训练模块30,用于通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果。
在本实施例中,所述预设机器学习算法包括线性回归算法、Lasso回归算法、Ridge回归算法、随机森林算法、支持向量机以及迭代决策树中至少一项,通过上述机器学习方法对建立的模型进行训练,合理评价模型结果,尽可能全面评估重要的指标,使得模型表现最优。
对比模块40,用于将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型。
在具体实现中,可通过预设规则对各个模型的预测结果进行对比,将预测效果最佳的预测结果对应的模型作为所述目标房价预测模型,其中,所述预设规则可为通过打分的方式进行评估,还可为其他形式,本实施例对此不作限制。
本实施例通过上述方案,通过获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型,将宏观经济指标信息、中观经济指标信息以及风俗文化信息作为模型的建立指标,摆脱传统的根据区域建立的房产预测模型,并打通数据壁垒,更多方位的实现房价预测,从而提高房价预测的准确性。
此外,为实现上述目的,本发明还提出一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的房价预测模型的生成程序,所述房价预测模型的生成程序配置为实现如上文所述的房价预测模型的生成方法的步骤。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有房价预测模型的生成程序,所述房价预测模型的生成程序被处理器执行如上文所述的房价预测模型的生成方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种房价预测模型的生成方法,其特征在于,所述房价预测模型的生成方法包括:
获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;
根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;
通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;
将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型。
2.如权利要求1所述的房价预测模型的生成方法,其特征在于,所述获取待建立房价预测模型的参数信息,包括:
获取外部数据接口信息,通过所述外部数据接口信息连接预设数据库,从预设数据库查询当前的宏观经济指标信息、中观经济指标信息以及风俗文化信息;
将所述当前的宏观经济指标信息、中观经济指标信息以及风俗文化信息作为所述待建立房价预测模型的参数信息。
3.如权利要求1所述的房价预测模型的生成方法,其特征在于,所述根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型之前,所述方法还包括:
获取所述参数信息中的各个历史指标信息,在预设时间段内统计所述历史指标信息的指标趋势;
提取所述指标趋势中的预设指标信息,将所述预设指标信息补入所述历史指标信息中,生成更新后的指标信息,将更新后的指标信息作为所述参数信息。
4.如权利要求1至3中任一项所述的房价预测模型的生成方法,其特征在于,所述预设机器学习算法包括线性回归算法、Lasso回归算法、Ridge回归算法、随机森林算法、支持向量机以及迭代决策树中至少一项。
5.如权利要求1至3中任一项所述的房价预测模型的生成方法,其特征在于,所述将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型,包括:
获得所述原始房价预测模型的预测值和实际值,将预测值和实际值通过均方根误差进行对比,得到各个模型对应的均方根误差值;
将所述均方根误差值进行排序,选取预设均方根误差值对应的模型为所述目标房价预测模型。
6.如权利要求1至3中任一项所述的房价预测模型的生成方法,其特征在于,所述将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型之后,所述方法还包括:
获取调整指令,提取所述调整指令中的候选参数,通过网格搜索算法将所述候选参数进行重新组合,将组合后的参数输入所述目标房价预测模型进行训练,得到参考房价预测模型;
将所述参数组合输入所述参考房价预测模型进行预测,得到参考预测结果;
通过预设评分机制对所述参考预测结果进行评分,选取预设评分对应的参考房价预测模型为调整后的房价预测模型。
7.如权利要求6所述的房价预测模型的生成方法,其特征在于,所述预设评分机制为决策树;
所述通过预设评分机制对所述参考预测结果进行评分,选取预设评分对应的参考房价预测模型为调整后的房价预测模型,包括:
将样本数据中预设份数作为验证集,其他份数作为训练集,将所述验证集得到的真实值与所述训练集得到的预测值的偏差进行评分,得到第一评分结果;
对所述预设份数进行调整,再进行评分,得到第二评分结果,选取所述第一评分结果和第二评分结果中预设评分结果,将所述预设评分结果对应的参考房价预测模型作为调整后的房价预测模型。
8.一种房价预测模型的生成装置,其特征在于,所述房价预测模型的生成装置包括:
获取模块,用于获取待建立房价预测模型的参数信息,其中,所述参数信息包括宏观经济指标信息、中观经济指标信息以及风俗文化信息;
建立模块,用于根据所述宏观经济指标信息、中观经济指标信息以及风俗文化信息建立多个原始房价预测模型;
训练模块,用于通过预设机器学习算法对所述多个原始房价预测模型进行训练,得到各个原始房价预测模型对应的预测结果;
对比模块,用于将所述预测结果进行对比,根据对比结果按照预设规则从所述原始房价预测模型中选择出目标房价预测模型。
9.一种设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的房价预测模型的生成程序,所述房价预测模型的生成程序配置为实现如权利要求1至7中任一项所述的房价预测模型的生成方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有房价预测模型的生成程序,所述房价预测模型的生成程序被处理器执行时实现如权利要求1至7中任一项所述的房价预测模型的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190985.1A CN110033312A (zh) | 2019-03-13 | 2019-03-13 | 房价预测模型的生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910190985.1A CN110033312A (zh) | 2019-03-13 | 2019-03-13 | 房价预测模型的生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110033312A true CN110033312A (zh) | 2019-07-19 |
Family
ID=67236003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910190985.1A Pending CN110033312A (zh) | 2019-03-13 | 2019-03-13 | 房价预测模型的生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033312A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443374A (zh) * | 2019-08-14 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种资源信息处理方法、装置及设备 |
CN111209931A (zh) * | 2019-12-23 | 2020-05-29 | 深圳智链物联科技有限公司 | 数据处理方法、平台、终端设备及存储介质 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN111738852A (zh) * | 2020-06-19 | 2020-10-02 | 中国工商银行股份有限公司 | 业务数据处理方法、装置和服务器 |
CN112070535A (zh) * | 2020-09-03 | 2020-12-11 | 常州微亿智造科技有限公司 | 电动汽车价格预测方法和装置 |
CN113177806A (zh) * | 2021-05-18 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 一种信息处理方法、装置及设备 |
CN113743688A (zh) * | 2020-05-27 | 2021-12-03 | 鸿富锦精密电子(天津)有限公司 | 质量管控方法、装置、计算机装置及存储介质 |
TWI773575B (zh) * | 2021-11-03 | 2022-08-01 | 中國信託商業銀行股份有限公司 | 房價評估設備 |
CN116954591A (zh) * | 2023-06-15 | 2023-10-27 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN117556118A (zh) * | 2024-01-11 | 2024-02-13 | 中国科学技术信息研究所 | 基于科研大数据预测的可视化推荐系统及方法 |
-
2019
- 2019-03-13 CN CN201910190985.1A patent/CN110033312A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110443374A (zh) * | 2019-08-14 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种资源信息处理方法、装置及设备 |
CN111209931A (zh) * | 2019-12-23 | 2020-05-29 | 深圳智链物联科技有限公司 | 数据处理方法、平台、终端设备及存储介质 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN113743688A (zh) * | 2020-05-27 | 2021-12-03 | 鸿富锦精密电子(天津)有限公司 | 质量管控方法、装置、计算机装置及存储介质 |
CN113743688B (zh) * | 2020-05-27 | 2023-10-20 | 富联精密电子(天津)有限公司 | 质量管控方法、装置、计算机装置及存储介质 |
CN111738852A (zh) * | 2020-06-19 | 2020-10-02 | 中国工商银行股份有限公司 | 业务数据处理方法、装置和服务器 |
CN111738852B (zh) * | 2020-06-19 | 2023-10-20 | 中国工商银行股份有限公司 | 业务数据处理方法、装置和服务器 |
CN112070535A (zh) * | 2020-09-03 | 2020-12-11 | 常州微亿智造科技有限公司 | 电动汽车价格预测方法和装置 |
CN113177806A (zh) * | 2021-05-18 | 2021-07-27 | 中移(上海)信息通信科技有限公司 | 一种信息处理方法、装置及设备 |
TWI773575B (zh) * | 2021-11-03 | 2022-08-01 | 中國信託商業銀行股份有限公司 | 房價評估設備 |
CN116954591A (zh) * | 2023-06-15 | 2023-10-27 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN116954591B (zh) * | 2023-06-15 | 2024-02-23 | 天云融创数据科技(北京)有限公司 | 银行领域的广义线性模型训练方法、装置、设备和介质 |
CN117556118A (zh) * | 2024-01-11 | 2024-02-13 | 中国科学技术信息研究所 | 基于科研大数据预测的可视化推荐系统及方法 |
CN117556118B (zh) * | 2024-01-11 | 2024-04-16 | 中国科学技术信息研究所 | 基于科研大数据预测的可视化推荐系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033312A (zh) | 房价预测模型的生成方法、装置、设备及存储介质 | |
Shi et al. | A review of simulation-based urban form generation and optimization for energy-driven urban design | |
Song et al. | An improved knowledge-informed NSGA-II for multi-objective land allocation (MOLA) | |
Yang et al. | Hotel location evaluation: A combination of machine learning tools and web GIS | |
Li et al. | Concepts, methodologies, and tools of an integrated geographical simulation and optimization system | |
Liu et al. | A multi-type ant colony optimization (MACO) method for optimal land use allocation in large areas | |
CN102567391B (zh) | 一种分类预测混合模型的建立方法及装置 | |
CN109711865A (zh) | 一种基于用户行为挖掘的移动通信网流量精细化预测的方法 | |
Song et al. | A comparison of three heuristic optimization algorithms for solving the multi-objective land allocation (MOLA) problem | |
US8510080B2 (en) | System and method for monitoring and managing utility devices | |
CN108074004A (zh) | 一种基于网格法的地理信息系统短期负荷预测方法 | |
Al-Widyan et al. | Selecting the most appropriate corrective actions for energy saving in existing buildings A/C in hot arid regions | |
CN107563122A (zh) | 基于交织时间序列局部连接循环神经网络的犯罪预测方法 | |
Barreira-González et al. | Configuring the neighbourhood effect in irregular cellular automata based models | |
CN109636010A (zh) | 基于相关因素矩阵的省级电网短期负荷预测方法及系统 | |
Chen et al. | Defining agents' behaviour based on urban economic theory to simulate complex urban residential dynamics | |
Paritosh et al. | A game theory based land layout optimization of cities using genetic algorithm | |
CN106526710A (zh) | 一种雾霾预测方法及装置 | |
CN105790866B (zh) | 基站分级方法及装置 | |
CN109858180A (zh) | 一种区域作物耗水空间格局优化设计方法 | |
Khalili-Damghani et al. | Solving land-use suitability analysis and planning problem by a hybrid meta-heuristic algorithm | |
Dai et al. | Agent-based model of land system: Theory, application and modelling framework | |
CN109615414A (zh) | 房产预估方法、装置及存储介质 | |
Dadashpour Moghaddam et al. | A GIS-based assessment of urban tourism potential with a branding approach utilizing hybrid modeling | |
Nevat et al. | Recommendation system for climate informed urban design under model uncertainty |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190719 |