CN109242578A - 房屋价值预测方法、装置、计算机设备和存储介质 - Google Patents
房屋价值预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109242578A CN109242578A CN201811289801.9A CN201811289801A CN109242578A CN 109242578 A CN109242578 A CN 109242578A CN 201811289801 A CN201811289801 A CN 201811289801A CN 109242578 A CN109242578 A CN 109242578A
- Authority
- CN
- China
- Prior art keywords
- index
- value
- house
- prediction
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000011002 quantification Methods 0.000 claims abstract description 28
- 238000013139 quantization Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 7
- 230000002159 abnormal effect Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 57
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000007473 univariate analysis Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009415 formwork Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000010415 tropism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及智慧城市技术领域,应用于房地产行业,特别涉及一种房屋价值预测方法、装置、计算机设备和存储介质,其中,方法包括:提取影响房屋价值的指标以及房屋价值指数,对提取的指标和房屋价值指数进行量化处理和标准化处理,确定指标的最佳滞后期,从所述提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集,构建房价前瞻预测模型进行房屋价值预测。整个过程中,根据历史已有的影响房屋价值指标和房屋价值指数,对历史数据进行量化和标准化处理,减小异常数据影响,并且考虑指标的最佳滞后期,准确构建房价前瞻预测模型实现对房屋价值准确预测。
Description
技术领域
本申请涉及前瞻预测技术领域,特别是涉及一种房屋价值预测方法、装置、计算机设备和存储介质。
背景技术
在实际生活中,房价已经成为人们日常生活的关注重点,房价的变动牵动着各行各业以及普通百姓的心,不论是从事房地产开发、房地产金融以及建筑等行业的专业人员还是普通百姓都希望能够对未来房价走势有一个比较准确的前瞻预测。
传统的房价预测多数是专业的估价师基于近段时间来某个地区基础房价、房源供需关系、政策以及自身经验给出房价预测。这种方式,一般会严重依赖于估价师的主观判断以及经验,针对同一区域的房价,不同的估价师最终得出房价预测可能不同。
可见传统的房价预测方法均在极大局限性,其房价预测结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确预测房价的房屋价值预测方法、装置、计算机设备和存储介质。
一种房屋价值预测方法,所述方法包括:
获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理和标准化处理;
根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
从所述提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
根据所述样本数据集,构建房价前瞻预测模型。
在其中一个实施例中,所述根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期包括:
对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期,所述单变量检定包括经济含义的检定、T检定及相关性检定。
在其中一个实施例中,所述对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期包括:
对提取的指标进行滞后期衍生,生成不同滞后期下的指标,并确定不同滞后期下的指标对应的房屋价值指数;
计算所述不同滞后期下的指标与其对应的房屋价值指数之间的相关性,根据经济含义及相关性,对所述不同滞后期下的指标进行经济含义检定;
对所述不同滞后期下的指标与其对应的房价指数进行T检定;
根据T检定结果,判断各指标相关性的显著性,根据所述显著性确定各指标的最佳滞后期。
在其中一个实施例中,所述经济含义的检定包括:当指标的经济含义为正时,则指标对应的指标值越大,该指标对房屋价值促进的影响越大,当指标的经济含义为负时,则指标对应的指标值越大,该指标对房屋价值抑制的影响越大。
在其中一个实施例中,对提取的指标进行标准化处理包括:
根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;
针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;
根据变频处理后的指标,确定指标对应的衍生指标;
对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
在其中一个实施例中,对提取的指标进行量化处理之前还包括:
识别提取的指标和房屋价值指数中主观因素;
针对所述主观因素分别建立独立的模型,在所述独立模型中将主观因素对应情况划分为多种类型;
针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;
所述对提取的指标和房屋价值指数进行量化处理包括:
根据所述赋值规则,对提取的指标和房屋价值指数进行量化处理。
在其中一个实施例中,所述根据所述样本数据集,构建房价前瞻预测模型包括:
选取所述样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;
所述选取所述样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型之后,还包括:
选取所述样本数据集中第二部分数据为测试数据,对各预设机器学习方法训练得到的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
一种房屋价值预测装置,所述装置包括:
数据获取模块,用于获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
数据处理模块,用于对提取的指标和房屋价值指数进行量化处理和标准化处理;
滞后期处理模块,用于根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
样本数据生成模块,用于从所述提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
模型构建模块,用于根据所述样本数据集,构建房价前瞻预测模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述房屋价值预测方法、装置、计算机设备和存储介质,提取影响房屋价值的指标以及房屋价值指数,对提取的指标和房屋价值指数进行量化处理和标准化处理,确定指标的最佳滞后期,从所述提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集,构建房价前瞻预测模型进行房屋价值预测。整个过程中,根据历史已有的影响房屋价值指标和房屋价值指数,对历史数据进行量化和标准化处理,减小异常数据影响,并且考虑指标的最佳滞后期,准确构建房价前瞻预测模型实现对房屋价值准确预测。
附图说明
图1为一个实施例中房屋价值预测方法的流程示意图;
图2为另一个实施例中房屋价值预测方法的流程示意图;
图3为一个实施例中房屋价值预测装置的结构框图;
图4为另一个实施例中房屋价值预测装置的结构框图;
图5为应用上述房屋价值预测方法的实验结果对比图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,一种房屋价值预测方法,方法包括:
S100:获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数。
待预测区域是指本次房屋价值预测的目标区域,该区域可以是某一个行政区域,例如北京、上海、广州等。该区域还可以是一个较小范围,例如某个小区等。待预测区域房屋价值历史数据可以是在日常记录中终端采集发送至服务器累积下来的数据,可以是服务器通过互联网等手段获取外部已有对应的数据。在房屋价值历史数据中提取影响房屋价值的指标和房屋价值指数,影响房屋价值的指标包括有:各类宏观经济指标,例如GDP、CPI、PMI、人均可支配收入等;中观经济指标,例如各城市(区)城市化率、地铁里程、人均住房面积以及商品房待售面积等;政策法规例如房地产限售限购政策、首套房利率政策、城市中长期发展规划等。房屋价值指数具体可以是房价,其可以包括挂盘和交易价格。非必要的,为了确保后续房屋价值预测的准确性,可以获取近段时间内的待预测区域房屋价值历史数据,例如获取最近1年、获取最近6个月等时间内的待预测区域房屋价值历史数据,针对获取的数据还可以基于时间合理排布对应的指标,例如以月为依据。如以“居住人口”这一指标为例,该指标的历史值为[h1、h2、…、hi、…],其中,hi表示在预设时间内的第i个月的居住人口数。
S200:对提取的指标和房屋价值指数进行量化处理和标准化处理。
进行量化处理的目的是将提取的指标和房屋价值指数中主观因素参数量化为方便处理的数据。进行标准化处理的目的是将去除提取的指标和房屋价值指数中异常值、趋势以及季节影响。对提取的指标和房屋价值指数进行量化处理和标准化进一步除去数据中主观因素、异常值、趋势以及季节性参数,为后续客观预测房屋价值提供可靠的数据基础。
S300:根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期。
滞后期是指某个影响房屋价值的数据会在滞后一定时间之后才反应出来,为了准确预测房屋价值,需要确定好指标的最佳滞后期。具体来说,可以对提取的指标以及房屋价值指数进行单变量检定,确定指标的最佳滞后期。单变量检定包括经济含义的检定、T检定及相关性检定。
S400:从提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集。
从提取的指标中筛选出一定数量的指标,并且根据这些筛选出的指标对应的最佳滞后期,生成样本数据集。非必要的,可以基于预设的短名单生成规则,从提取的指标中筛选出一定数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集。预设的短名单生成规则是基于房地产行业专家经验、房地产已有模型确定的模型训练的清单指标。
S500:根据样本数据集,构建房价前瞻预测模型。
具体来说,可以构建基于预设机器学习方法的房价前瞻预测模型。预设机器学习方法可以包括线性回归、Lasso、岭回归(Ridge Regression)、随机森林、K近邻算法(kNeighbour Regression)、决策树、支持向量机回归(SVR)、梯度增强回归(GradientBoostingRegressor)模型以及XGBoost算法,以步骤S400得到的样本数据集作为训练数据,通过上述任意一种机器学习方法,均可构建出对应的房价前瞻预测模型。
上述房屋价值预测方法,提取影响房屋价值的指标以及房屋价值指数,对提取的指标和房屋价值指数进行量化处理和标准化处理,确定指标的最佳滞后期,从提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集,构建房价前瞻预测模型进行房屋价值预测。整个过程中,根据历史已有的影响房屋价值指标和房屋价值指数,对历史数据进行量化和标准化处理,减小异常数据影响,并且考虑指标的最佳滞后期,准确构建房价前瞻预测模型实现对房屋价值准确预测。
在其中一个实施例中,根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期包括:
对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期,单变量检定包括经济含义的检定、T检定及相关性检定。
具体来说,经济含义的检定具体为:将结合指标的实际经济意义加以判断。其具体包括:若某指标的经济含义为正,即该指标值越大,其对二手房房价具有促进作用,反之,若经济含义为负,则该指标值越大,其对二手房房价具有抑制作用,例如,交易量和房价的正相关性,M2(同时反映现实和潜在购买力)和房价的正相关性,利率和房价负相关。通过比较该指标相关系数的方向与经济含义的同向性,来判断该指标是否通过经济含义的检定。T检定的判断标准为:若T检定的p值小于等于0.05,则该指标通过T检定,反之则判定T检定不通过。T检验是单变量分析的一种,把指标如GDP和房价涨幅进行T检验,看是否有相关性,是否通过检验,确定是否使用这个指标。该步骤的目的在于,根据T检验的p值和指标含义选定合适的指标。经一步来说,根据不同滞后期的检验结果,选择相关性最显著的滞后期,如果相关性都不显著,就不选这个指标。指标的滞后期显著不显著是根据统计量p值确定,p<=0.05为显著。通过计算任何指标3个月,6个月,9个月,12个月对房价的的预测能力,确定最优的预测滞后期。经过单变量检定及最佳滞后期的选定,即可确定每个指标是否存在最佳滞后期。若指标存在最佳滞后期,则取该指标对应的最佳滞后期数据训练模型,若指标涉及的所有滞后期均不显著,则指定该类指标的最佳滞后期为3月(前瞻3个月模型)或者12月(前瞻12个月模型)。
如图2所示,在其中一个实施例中,步骤S300包括:
S320:对提取的指标进行滞后期衍生,生成不同滞后期下的指标,并确定不同滞后期下的指标对应的房屋价值指数。
S340:计算不同滞后期下的指标与其对应的房屋价值指数之间的相关性,根据经济含义及相关性,对不同滞后期下的指标进行经济含义检定。
这里相关性可以采用房价指数收益时间序列和经滞后调整的指标时间序列的相关系数表征。具体经济含义检定为:当经济含义与相关性同向时,判断经济含义检定通过,当经济含义与相关性反向时,判断经济含义检定失败。
S360:对不同滞后期下的指标与其对应的房价指数进行T检定。
对不同滞后期下的指标与其对应的房价指数进行T检定,当p小于等于0.05时,判断T检定通过,当p大于0.05时,判断T检定失败。
S380:根据T检定结果,判断各指标相关性的显著性,根据显著性确定各指标的最佳滞后期。
根据p值的大小,判断各指标相关性的显著性,根据显著性确定各指标的最佳滞后期。基于建模宽表,对每个解释变量(上述所有指标)进行滞后期衍生,生成不同滞后期(n=3,6,12,15,18,24)下的指标,分别代入单变量分析进行单变量检定,以寻找最有解释力的指标,并确定其最佳滞后期(p值小于等于0.05)。
在其中一个实施例中,对提取的指标进行标准化处理包括:
步骤一:根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集。
某些指标存在数据缺失的情况,对于这种情况根据预先设定的缺失值填补规则以及已有数据进行缺失值调补,补齐数据集。具体来说,对于缺失率小于或等于预设阈值的指标,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;对于缺失率大于预设阈值的指标予以剔除。在实际应用中,对于缺失率小于或等于30%的预设指标而言,根据指标性质及指标缺失情况,对存在缺失值的指标进行缺失值填补;及对于缺失率大于30%的预设指标而言,(在考察其余可获得数据源均无法填补的情况下),对该指标予以剔除。当因子缺失为指标周期性缺失,例如每年1月份、2月份数据周期性缺失。由于该缺失情况与统计局统计工作周期相关,因此,为了消除春节日期不固定因素带来的影响,增强数据的可比性,需对1月份、2月份的确实指标进行填补。若该指标为累计值,则以当年度3月份数据的三分之一、三分之二分别作该年1月份、2月份数据缺失值填补;若该指标为当月发生值,则以该年3月份值作当年度1、2月份缺失值填补。当因子缺失的指标缺失数较少、无规律性,若该指标为累计值,则根据缺失当月前后一个月数据进行线性插值填补缺失;若该指标为当月实际发生值,则以距离缺失月最近6个月均值作填补。针对部分特殊指标,如施工面积,由于该指标性质的特殊性,采用该年度平均增长率倒推缺失值。
步骤二:针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理。
将季度、年度的指标通过线性插值的方法转化为月度数据,实现预设指标的变频处理,便于后续计算衍生指标。例如,“GDP”这一指标为季度数据,“常住人口”这一指标为年度数据,通常使用连续两个季度或者两个年度的历史数据进行线性插值,计算得出每个月的数据。
步骤三:根据变频处理后的指标,确定指标对应的衍生指标。
一般房屋价值相关的因子体系涉及的衍生指标共计24个,可直接从数据源获取的共计13个,剩余11各衍生指标主要是由现有某几个指标相除、相减等方法获得。例如:“常住人口/户籍人口比”这个指标由“常住人口”和“户籍人口”这两个指标衍生得到。
步骤四:对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
衍生指标生成完毕,即形成了指标转化前数据集的宽表。基于此,再对其作指标转化,指标转化方式包括:3个月环比、一年同比、标准化以及原始值。例如,对于房交易量指标,会使用3个月环比,累积值数据(例如,销售面积),会使用一年同比,指标本身为比率,会使用原始值。需要说明的是,在指标转化过程中,部分需同比转化的指标,由于原始数据起始时间的局限性,会出现转化后数据缺失的情况,该类指标缺失可以指标转化后数据的中位数作缺失值进行填补。
在其中一个实施例中,对提取的指标进行量化处理之前还包括:识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;对提取的指标和房屋价值指数进行量化处理包括:根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
以政策法规为例,构建独立的政策法规模型,根据政策背景和新政策本身,将政策背景分为宽松、收紧、由松转紧、由紧转松4类,新政策对应高度宽松、宽松、收紧、高度收紧四类,基于各类政策最终影响房屋价值走向的历史经验,分别给各类政策对应的指标值,得到赋值规则。当需要指标和房屋价值指数进行量化处理时,根据上述赋值规则,对提取的指标和房屋价值指数分别赋值,以实现量化处理。
如图2所示,在其中一个实施例中,步骤S500包括:选取样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;
步骤S500之后还包括:
S600:选取样本数据集中第二部分数据为测试数据,对各预设机器学习方法训练得到的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
机器学习方法包括线性回归、Lasso、岭回归(Ridge Regression)、随机森林、K近邻算法(k Neighbour Regression)、决策树、支持向量机回归(SVR)、梯度增强回归(GradientBoostingRegressor)模型以及XGBoost算法,基于这些算法可以构建不同的房价前瞻预测模型,以样本数据中第一部分数据作为测试数据,测试各个房价前瞻预测模型的平均误差,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图3所示,一种房屋价值预测装置,装置包括:
数据获取模块100,用于获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
数据处理模块200,用于对提取的指标和房屋价值指数进行量化处理和标准化处理;
滞后期处理模块300,用于根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
样本数据生成模块400,用于从提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
模型构建模块500,用于根据样本数据集,构建房价前瞻预测模型。
上述房屋价值预测装置,数据获取模块100提取影响房屋价值的指标以及房屋价值指数,数据处理模块200对提取的指标和房屋价值指数进行量化处理和标准化处理,滞后期处理模块300确定指标的最佳滞后期,样本数据生成模块400从提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集,模型构建模块500构建房价前瞻预测模型进行房屋价值预测。整个过程中,根据历史已有的影响房屋价值指标和房屋价值指数,对历史数据进行量化和标准化处理,减小异常数据影响,并且考虑指标的最佳滞后期,准确构建房价前瞻预测模型实现对房屋价值准确预测。
在其中一个实施例中,滞后期处理模块300还用于对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期,单变量检定包括经济含义的检定、T检定及相关性检定。
在其中一个实施例中,滞后期处理模块300还用于对提取的指标进行滞后期衍生,生成不同滞后期下的指标,并确定不同滞后期下的指标对应的房屋价值指数;计算不同滞后期下的指标与其对应的房屋价值指数之间的相关性,根据经济含义及相关性,对不同滞后期下的指标进行经济含义检定;对不同滞后期下的指标与其对应的房价指数进行T检定;根据T检定结果,判断各指标相关性的显著性,根据显著性确定各指标的最佳滞后期。
在其中一个实施例中,经济含义的检定包括:当指标的经济含义为正时,则指标对应的指标值越大,该指标对房屋价值促进的影响越大,当指标的经济含义为负时,则指标对应的指标值越大,该指标对房屋价值抑制的影响越大。
在其中一个实施例中,数据处理模块200还用于根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
如图4所示,在其中一个实施例中,上述房屋价值预测装置还包括赋值模块120,用于识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;数据处理模块200还用于根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
如图4所示,在其中一个实施例中,模型构建模块500还用于选取样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;
上述房屋价值预测装置还包括优化模块600,用于选取样本数据集中第二部分数据为测试数据,对各预设机器学习方法训练得到的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
关于房屋价值预测装置的具体限定可以参见上文中对于房屋价值预测方法的限定,在此不再赘述。上述房屋价值预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在实际应用,以本申请构建的房价前瞻预测模型对天津市某一区域房价进行预测,其得到的实验结果图5所示。基于图5可见本申请房价前瞻预测模型可以准确对天津市某一区域房价进行预测。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各区域的房屋价值历史数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种房屋价值预测方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理和标准化处理;
根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
从提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
根据样本数据集,构建房价前瞻预测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期,单变量检定包括经济含义的检定、T检定及相关性检定。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对提取的指标进行滞后期衍生,生成不同滞后期下的指标,并确定不同滞后期下的指标对应的房屋价值指数;计算不同滞后期下的指标与其对应的房屋价值指数之间的相关性,根据经济含义及相关性,对不同滞后期下的指标进行经济含义检定;对不同滞后期下的指标与其对应的房价指数进行T检定;根据T检定结果,判断各指标相关性的显著性,根据显著性确定各指标的最佳滞后期。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
选取样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;选取样本数据集中第二部分数据为测试数据,对各预设机器学习方法训练得到的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待预测区域房屋价值历史数据,从房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理和标准化处理;
根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
从提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
根据样本数据集,构建房价前瞻预测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期,单变量检定包括经济含义的检定、T检定及相关性检定。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对提取的指标进行滞后期衍生,生成不同滞后期下的指标,并确定不同滞后期下的指标对应的房屋价值指数;计算不同滞后期下的指标与其对应的房屋价值指数之间的相关性,根据经济含义及相关性,对不同滞后期下的指标进行经济含义检定;对不同滞后期下的指标与其对应的房价指数进行T检定;根据T检定结果,判断各指标相关性的显著性,根据显著性确定各指标的最佳滞后期。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据预设的缺失值填补规则,对指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;根据变频处理后的指标,确定指标对应的衍生指标;对衍生指标进行指标转化,将指标转化后的衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别提取的指标和房屋价值指数中主观因素;针对主观因素分别建立独立的模型,在独立模型中将主观因素对应情况划分为多种类型;针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;根据赋值规则,对提取的指标和房屋价值指数进行量化处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
选取样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;选取样本数据集中第二部分数据为测试数据,对各预设机器学习方法训练得到的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种房屋价值预测方法,所述方法包括:
获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
对提取的指标和房屋价值指数进行量化处理和标准化处理;
根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
从所述提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
根据所述样本数据集,构建房价前瞻预测模型。
2.根据权利要求1所述的方法,其特征在于,所述根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期包括:
对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期,所述单变量检定包括经济含义的检定、T检定及相关性检定。
3.根据权利要求2所述的方法,其特征在于,所述对提取的指标与房屋价值指数进行单变量检定,确定指标的最佳滞后期包括:
对提取的指标进行滞后期衍生,生成不同滞后期下的指标,并确定不同滞后期下的指标对应的房屋价值指数;
计算所述不同滞后期下的指标与其对应的房屋价值指数之间的相关性,根据经济含义及相关性,对所述不同滞后期下的指标进行经济含义检定;
对所述不同滞后期下的指标与其对应的房价指数进行T检定;
根据T检定结果,判断各指标相关性的显著性,根据所述显著性确定各指标的最佳滞后期。
4.根据权利要求2所述的方法,其特征在于,所述经济含义的检定包括:当指标的经济含义为正时,则指标对应的指标值越大,该指标对房屋价值促进的影响越大,当指标的经济含义为负时,则指标对应的指标值越大,该指标对房屋价值抑制的影响越大。
5.根据权利要求1所述的方法,其特征在于,对提取的指标进行标准化处理包括:
根据预设的缺失值填补规则,对所述指标中存在缺失的指标进行缺失值填补,得到缺失值填补完毕的数据集;
针对缺失值填补完毕的数据集,根据预设的指标变频规则,对指标进行变频处理;
根据变频处理后的指标,确定指标对应的衍生指标;
对所述衍生指标进行指标转化,将指标转化后的所述衍生指标及对应的变频处理后的指标进行合并,得到标准化处理后的指标。
6.根据权利要求1所述的方法,其特征在于,对提取的指标进行量化处理之前还包括:
识别提取的指标和房屋价值指数中主观因素;
针对所述主观因素分别建立独立的模型,在所述独立模型中将主观因素对应情况划分为多种类型;
针对每种类型情况设定明确的判定条件,并且针对每种类型不同判定结果分别赋值对应的指标值,得到赋值规则;
所述对提取的指标和房屋价值指数进行量化处理包括:
根据所述赋值规则,对提取的指标和房屋价值指数进行量化处理。
7.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据集,构建房价前瞻预测模型包括:
选取所述样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型;
所述选取所述样本数据集中第一部分数据为训练数据,分别通过多个预设机器学习方法训练,构建不同的房价前瞻预测模型之后,还包括:
选取所述样本数据集中第二部分数据为测试数据,对各预设机器学习方法训练得到的房价前瞻预测模型进行测试,选择平均误差最小的机器学习方法对应的房价前瞻预测模型为最优房价前瞻预测模型。
8.一种房屋价值预测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待预测区域房屋价值历史数据,从所述房屋价值历史数据中提取影响房屋价值的指标以及房屋价值指数;
数据处理模块,用于对提取的指标和房屋价值指数进行量化处理和标准化处理;
滞后期处理模块,用于根据量化和标准化处理后的指标和房屋价值指数,确定指标的最佳滞后期;
样本数据生成模块,用于从所述提取的指标中筛选出预设数量的指标,根据筛选出的指标对应的最佳滞后期,生成样本数据集;
模型构建模块,用于根据所述样本数据集,构建房价前瞻预测模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289801.9A CN109242578A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811289801.9A CN109242578A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109242578A true CN109242578A (zh) | 2019-01-18 |
Family
ID=65079988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811289801.9A Pending CN109242578A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109242578A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330182A (zh) * | 2020-11-18 | 2021-02-05 | 阳光资产管理股份有限公司 | 一种经济运行状况量化分析方法及装置 |
CN114333322A (zh) * | 2022-01-04 | 2022-04-12 | 北京大学深圳研究生院 | 城市的基础数据收集与分析方法 |
-
2018
- 2018-10-31 CN CN201811289801.9A patent/CN109242578A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330182A (zh) * | 2020-11-18 | 2021-02-05 | 阳光资产管理股份有限公司 | 一种经济运行状况量化分析方法及装置 |
CN114333322A (zh) * | 2022-01-04 | 2022-04-12 | 北京大学深圳研究生院 | 城市的基础数据收集与分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376936A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
Abdih et al. | Relating the knowledge production function to total factor productivity: an endogenous growth puzzle | |
CN109523068A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN104978479B (zh) | 用于预测需水量的装置 | |
CN105719033A (zh) | 用于识别客体风险的方法及装置 | |
JP7304698B2 (ja) | 水需要予測方法およびシステム | |
CN109345035A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109242578A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN115169818A (zh) | 一种基于数字化建模的技术工程测算方法及系统 | |
CN117236800B (zh) | 一种多场景自适应的用电负荷预测方法及系统 | |
CN110008049A (zh) | 一种基于互联网平台的数据修正方法、终端设备及介质 | |
KR101927898B1 (ko) | 기후변화의 불확실성을 고려하여 실물옵션분석을 기반으로 한 의사결정나무 구축 방법 | |
CN112016856B (zh) | 综合倍率异常识别方法、装置、计量系统和存储介质 | |
CN109325811A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
Grimstad et al. | A simple data-driven approach to production estimation and optimization | |
CN109544215A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
Wiranto et al. | Analysis of LQ45 Index Stock Movements using the ARIMA Method during Uncertainty in Global Economic Conditions in 2023 | |
CN109543904A (zh) | 医疗数据预测方法、装置、计算机设备和存储介质 | |
CN110580542A (zh) | 一种用电量预测方法和装置 | |
CN113298575A (zh) | 一种商标价值批量评估的方法、系统、设备及存储介质 | |
CN114900443B (zh) | 一种建立呼入线路业务量预测模型的方法及装置 | |
CN109492806A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
KR20170023547A (ko) | 기업금융 조기경보 방법 | |
CN109214603A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109583939A (zh) | 小区房源平均价值参数估计方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190118 |
|
WD01 | Invention patent application deemed withdrawn after publication |