CN109492806A - 房屋价值预测方法、装置、计算机设备和存储介质 - Google Patents
房屋价值预测方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109492806A CN109492806A CN201811290390.5A CN201811290390A CN109492806A CN 109492806 A CN109492806 A CN 109492806A CN 201811290390 A CN201811290390 A CN 201811290390A CN 109492806 A CN109492806 A CN 109492806A
- Authority
- CN
- China
- Prior art keywords
- value
- house
- data
- prediction
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 94
- 238000006243 chemical reaction Methods 0.000 claims abstract description 72
- 238000004590 computer program Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 11
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract 1
- 241001269238 Data Species 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 1
- 235000011613 Pinus brutia Nutrition 0.000 description 1
- 241000018646 Pinus brutia Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及人工智能预测之机器学习技术领域,应用于房地产行业,特别是涉及一种房屋价值预测方法、装置、计算机设备和存储介质。一个实施例中的方法包括:获取房屋价值初始指标数据以及房屋价值数据,对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据,再根据预设变频规则对缺失填补处理后的数据进行变频处理,得到变频处理后的数据,根据变频处理后的数据以及房屋价值数据,得到样本数据集,根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,获取待预测房屋价值时长,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
Description
技术领域
本申请涉及人工智能预测技术领域,特别是涉及一种房屋价值预测方法、装置、计算机设备和存储介质。
背景技术
房屋价值与人们的生活息息相关,房屋价值问题作为影响国计民生的重要问题之一,涉及很多方面,比如政府部门、房地产开放商、购房消费者等。政府部门在制定房地产市场相关政策时,可以参考不同地区的房屋价值走势预测,制定针对性强收效高的措施;房地产开发商可以参考房屋价值走势预测,制定出有利于市场稳定可持续性发展的计划。因此,房屋价值的走势预测具有实际重要意义。
传统的房屋价值走势评估依靠评估人员的知识和经验,房屋价值评估工作一方面历史数据杂乱无章,另一方面基于千篇一律的策略对房屋价值进行预测,灵活性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够将数据标准化以及提高灵活性的房屋价值预测方法、装置、计算机设备和存储介质。
一种房屋价值预测方法,所述方法包括:
获取房屋价值初始指标数据以及房屋价值数据;
对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;
根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;
根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;
根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;
获取待预测房屋价值时长,将所述待预测房屋价值时长与所述房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
在一个实施例中,所述根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据,包括:
获取所述缺失填补处理后的房屋价值初始指标数据中的季度指标数据以及年度指标数据;
通过线性插值的方法将所述季度指标数据以及所述年度指标数据分别转化为月度数据。
在一个实施例中,所述根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,包括:
根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差;
分别选取各预设房屋价值预测模型集合中误差最小的房屋价值预测模型作为不同预测时长对应的房屋价值预测模型。
在一个实施例中,所述根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差,包括:
对所述样本数据集的数据进行分组,分成训练数据集和测试数据集;
对所述训练数据集的分组数据通过预设房屋价值预测模型集合进行训练,得到已训练的房屋价值预测模型集合;
将测试数据集中的分组数据分别输入至已训练的房屋价值预测模型集合中的各房屋价值预测模型,得到所述各房屋价值预测模型的误差。
在一个实施例中,所述对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据之前还包括:
获取房屋价值初始指标数据中各指标子数据的缺失率;
所述对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据,包括:
当指标子数据的缺失率小于或等于预设值时,对所述指标子数据进行填补处理,得到缺失填补处理后的房屋价值初始指标数据。
在一个实施例中,所述当指标子数据的缺失率小于或等于预设值时,对所述指标子数据进行填补处理,包括:
当指标子数据的缺失率小于或等于30%且所述指标子数据为月度周期性缺失时,判断所述指标子数据是否为当月发生值;
当所述指标子数据为当月发生值时,以所述指标子数据中首月数据对所述指标子数据中数据缺失月份进行填补处理。
在一个实施例中,所述获取房屋价值初始指标数据中各指标子数据的缺失率之后还包括:
当指标子数据的缺失率大于预设值时,剔除所述指标子数据。
一种房屋价值预测装置,所述装置包括:
初始数据获取模块,用于获取房屋价值初始指标数据以及房屋价值数据;
填补处理模块,用于对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;
变频处理模块,用于根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;
样本数据获取模块,用于根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;
训练模块,用于根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;
预测模块,用于获取待预测房屋价值时长,将所述待预测房屋价值时长与所述房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取房屋价值初始指标数据以及房屋价值数据;
对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;
根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;
根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;
根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;
获取待预测房屋价值时长,将所述待预测房屋价值时长与所述房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取房屋价值初始指标数据以及房屋价值数据;
对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;
根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;
根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;
根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;
获取待预测房屋价值时长,将所述待预测房屋价值时长与所述房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
上述房屋价值预测方法、装置、计算机设备和存储介质,通过获取房屋价值初始指标数据以及房屋价值数据,对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据,再根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据,根据变频处理后的数据以及房屋价值数据,得到样本数据集,对房屋价值原始指标数据进行缺失填补处理和变频处理,保证了样本数据集数据的标准化;根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,基于待预测时长选取对应的房屋价值预测模型进行房屋价值针对性预测,可以有效提高房屋价值预测的灵活性。
附图说明
图1为一个实施例中房屋价值预测方法的流程示意图;
图2为一个实施例中不同预测时长的房屋价值预测模型获取步骤的流程示意图;
图3为一个实施例中房屋价值预测模型误差获取步骤的流程示意图;
图4为一个实施例中房屋价值预测装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种房屋价值预测方法,包括以下步骤:
步骤102,获取房屋价值初始指标数据以及房屋价值数据。
房屋价值初始指标是指影响房屋价值的指标,包括宏观经济指标、中观经济指标、政策法规、风水、挂盘和交易数据变化等。其中,宏观经济指标包括GDP(Gross DomesticProduct,国内生产总值)、CPI(Consumer Price Index,居民消费价格指数)、人均可支配收入等,中观经济指标包括各城市的城市化率、地铁里程、人均住房面积、商品房待售面积等,政策法规包括房地产限售限购政策、首套房利率政策、城市中长期发展规划等,风水包括空气质量指数、光照、地势、水域条件等。
房屋价值初始指标数据是指房屋价值初始指标的量化值,比如将各类影响房屋价值的经济指标进行量化,将政策等主观因素通过预设规则转换为客观的参数值。以政策法规为例,可以通过单独建立模型,根据政策背景和新政策,将政策背景分为宽松、收紧、由松转紧和由紧转松四类,新政策对应高度宽松、宽松、收紧和高度收紧四类,确定各类政策对应的指标值。
房屋价值数据是指建筑物连同其占用土地在特定时间段内房产的市场价值数据。房屋价值数据可以是房屋价值指数数据,房屋价值指数是反映一定时期房屋销售价格变动程度和趋势的相对数,通过百分数的形式来反映房屋价值在不同时期的涨跌幅度。
步骤104,对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据。
数据缺失是指由于各种原因应该得到而没有得到的数据,数据缺失可以分为完全随机缺失、随机缺失和不可忽略的缺失。其中,完全随机丢失是指数据的丢失与不完全变量以及完全变量无关,随机丢失是指数据的丢失依赖于完全变量,不可忽略的丢失是指不完全变量中数据的缺失依赖于不完全变量。缺失的数据可能隐含了数据对象的某些重要信息,因此,有必要对房屋价值初始指标数据进行填补处理。
步骤106,根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据。
预设变频规则是指将数据统一至同一维度的规则。比如有些指标数据是月度数据,有些指标数据是季度数据,有些指标数据是年度数据,通过预设变频规则,将所有指标数据变频处理,转换为统一的月度数据。
步骤108,根据变频处理后的数据以及房屋价值数据,得到样本数据集。
将变频处理后的数据以及房屋价值数据进行处理,得到样本训练集。比如以年度为第一划分标准,同一年度的变频处理后的数据以及房屋价值数据作为一条记录;再按照月份作为第二划分标准,同一月份的变频处理后的数据以及房屋价值数据作为一条子记录。
步骤110,根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型。
预设房屋价值预测模型集合包括多种房屋价值预测模型,具体可以包括线性回归模型、Lasso(Least absolute shrinkage and selection operator)模型、岭回归模型、随机森林模型、K最近邻分类模型、决策树模型、支持向量机回归模型、梯度增强回归模型以及XGBoost算法模型。
考虑时间序列的局限性,时间序列对短期、近期预测较为显著,因此,依据预测时长对房屋价值预测模型进行细分。比如,根据不同的预测时长,分为预测未来三个月房屋价值的房屋价值预测模型(model_3M)与预测未来一年房屋价值的房屋价值预测模型(model_1Y)。model_3M和model_1Y分别包括线性回归模型、Lasso(Least absolute shrinkage andselection operator)模型、岭回归模型、随机森林模型、K最近邻分类模型、决策树模型、支持向量机回归模型、梯度增强回归模型以及XGBoost算法模型中的一种或几种。根据样本数据集分别对model_3M和model_1Y中的模型进行训练,从中选择model_3M和model_1Y最终的房屋价值预测模型。
步骤112,获取待预测房屋价值时长,将待预测房屋价值时长与房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
将待预测房屋价值时长与房屋价值预测模型对应的预测时长进行匹配,比如待预测房屋价值时长是未来三个月,房屋价值预测模型model_3M和model_1Y对应的预测时长包括未来三个月和未来一年,此时,待预测房屋价值时长匹配的房屋价值预测模型为未来三个月的房屋价值预测模型model_3M。
上述房屋价值预测方法中,通过获取房屋价值初始指标数据以及房屋价值数据,对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据,再根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据,根据变频处理后的数据以及房屋价值数据,得到样本数据集,对房屋价值原始指标数据进行缺失填补处理和变频处理,保证了样本数据集数据的标准化;根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,基于待预测时长选取对应的房屋价值预测模型进行房屋价值针对性预测,可以有效提高房屋价值预测的灵活性。
在一个实施例中,根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据,包括:获取缺失填补处理后的房屋价值初始指标数据中的季度指标数据以及年度指标数据;通过线性插值的方法将季度指标数据以及年度指标数据分别转化为月度数据。将季度、年度的指标数据通过线性插值的方法转化为月度数据,实现指标数据的变频处理,便于后续计算。例如,“GDP”这一指标为季度数据,“常住人口”这一指标为年度数据,使用连续两个季度或者两个年度的数据进行线性插值,计算得出每个月的数据。
在一个实施例中,如图2所示,根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,包括:步骤202,根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差;步骤204,分别选取各预设房屋价值预测模型集合中误差最小的房屋价值预测模型作为不同预测时长对应的房屋价值预测模型。根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,比如通过样本数据集对预测未来三个月房屋价值的房屋价值预测模型集合与预测未来一年房屋价值的房屋价值预测模型集合进行训练,获取各房屋价值预测模型的误差。误差是测量测得的量值减去参考量值,测得的量值简称测得值,代表测量结果的量值。参考量值一般由量的真值或约定量值来表示。通过模型训练,选取误差最小的房屋价值预测模型作为房屋价值预测模型集合的最优预测模型。其中,误差可以是平均误差,平均误差是指在等精度测量中,所测得所有测量值的随机误差的算术平均值。平均误差是反映各标志值与算术平均数之间的平均差异,平均误差越大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性越小;平均误差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性越大。
训练过程中可以用Y变量表示被解释变量,比如房屋价值的涨跌幅,具体可以是二手房屋价值指数三个月环比值、二手房屋价值指数一年同比值等,X变量表示解释变量,比如各种房屋价值影响指标,将X变量代入预设各类房屋价值预测模型中计算。对于预测未来三个月房屋价值的房屋价值预测模型model_3M,样本数据集中的数据可以表示为:X=[x1,x2,x3,…,xn],Y=[y4,y5,y6,…,y(n+3)],对于预测未来一年房屋价值的房屋价值预测模型model_1Y,样本数据集中的数据可以表示为:X=[x1,x2,x3,…,xn],Y=[y13,y14,y15,…,y(n+12)],其中,X、Y的序列长度一致。
在一个实施例中,如图3所示,根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差,包括:步骤302,对样本数据集的数据进行分组,分成训练数据集和测试数据集;步骤304,对训练数据集的分组数据通过预设房屋价值预测模型集合进行训练,得到已训练的房屋价值预测模型集合;步骤306,将测试数据集中的分组数据分别输入至已训练的房屋价值预测模型集合中的各房屋价值预测模型,得到各房屋价值预测模型的误差。对样本数据集的数据进行分组配置,每个分组的入模指标数量控制在有且仅有一个,由于不同城市其数据质量不完全相同,若分组内所有指标均无数据,则该组指标数量为零。例如,在分组配置过程中,根据指标类型进行分组,如根据中观、宏观、衍生指标等进行分组。其中,训练模型组合的数量为所有分组中选取1个指标的遍历。比如,若A组有3个指标,B组有2个指标,则组合数为3*2=6,共6种,组合指标有2个。
在一个实施例中,对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据之前还包括:获取房屋价值初始指标数据中各指标子数据的缺失率;对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据,包括:当指标子数据的缺失率小于或等于预设值时,对指标子数据进行填补处理,得到缺失填补处理后的房屋价值初始指标数据。房屋价值初始指标数据包括多个指标子数据,指标子数据可以是GDP(Gross Domestic Product,国内生产总值)、CPI(ConsumerPrice Index,居民消费价格指数)、人均可支配收入、各城市的城市化率、地铁里程、人均住房面积、商品房待售面积等对应的数据。具体的,获取房屋价值初始指标数据中各指标子数据的缺失率之后还包括:当指标子数据的缺失率大于预设值时,剔除指标子数据,以避免该指标子数据对后续房屋价值预测模型的影响。
在一个实施例中,当指标子数据的缺失率小于或等于预设值时,对指标子数据进行填补处理,包括:当指标子数据的缺失率小于或等于30%且指标子数据为月度周期性缺失时,判断指标子数据是否为当月发生值;当指标子数据为当月发生值时,以指标子数据中首月数据对指标子数据中数据缺失月份进行填补处理。对于缺失率小于或等于30%的指标数据,对存在缺失值的指标进行缺失值填补;对于缺失率大于30%的指标数据,在其余可获得数据源均无法填补的情况下,对该指标予以剔除。当指标数据缺失为指标数据周期性缺失,例如每年1月份、2月份数据周期性缺失。由于该缺失情况与统计局统计工作周期有关,因此,为了消除春节日期不固定因素带来的影响,增强数据的可比性,需对1月份、2月份的指标数据进行填补。若该指标为累计值,则以当年度3月份数据的三分之一、三分之二分别作为该年1月份、2月份数据缺失值填补;若该指标为当月发生值,则以该年3月份值作当年度1、2月份缺失值填补。当月发生值就是指单个的当月数值,累计值是全年的数值。
当指标数据缺失数较少、无规律性,若该指标为累计值,则根据缺失当月前后一个月数据进行线性插值填补缺失;若该指标为当月实际发生值,则以距离缺失月最近6个月的均值进行填补。针对部分特殊指标,比如施工面积,由于该指标性质的特殊性,采用该年度平均增长率倒推缺失值。
应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种房屋价值预测装置,包括:初始数据获取模块402、填补处理模块404、变频处理模块406、样本数据获取模块408、训练模块410和预测模块412。初始数据获取模块,用于获取房屋价值初始指标数据以及房屋价值数据;填补处理模块,用于对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;变频处理模块,用于根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;样本数据获取模块,用于根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;训练模块,用于根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;预测模块,用于获取待预测房屋价值时长,将待预测房屋价值时长与房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
在一个实施例中,变频处理模块包括数据获取单元,用于获取缺失填补处理后的房屋价值初始指标数据中的季度指标数据以及年度指标数据;插值单元,用于通过线性插值的方法将季度指标数据以及年度指标数据分别转化为月度数据。
在一个实施例中,训练模块包括:误差计算单元,用于根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差;模型确定单元,用于分别选取各预设房屋价值预测模型集合中误差最小的房屋价值预测模型作为不同预测时长对应的房屋价值预测模型。
在一个实施例中,误差计算单元包括:分组单元,用于对样本数据集的数据进行分组,分成训练数据集和测试数据集;模型集合训练单元,用于对训练数据集的分组数据通过预设房屋价值预测模型集合进行训练,得到已训练的房屋价值预测模型集合;模型误差获取单元,用于将测试数据集中的分组数据分别输入至已训练的房屋价值预测模型集合中的各房屋价值预测模型,得到各房屋价值预测模型的误差。
在一个实施例中,填补处理模块之前还包括:缺失率获取模块,用于获取房屋价值初始指标数据中各指标子数据的缺失率;填补处理模块还用于当指标子数据的缺失率小于或等于预设值时,对指标子数据进行填补处理,得到缺失填补处理后的房屋价值初始指标数据。
在一个实施例中,缺失率获取模块之后还包括:剔除模块,用于当指标子数据的缺失率大于预设值时,剔除指标子数据。
在一个实施例中,填补处理模块包括:判断单元,用于当指标子数据的缺失率小于或等于30%且指标子数据为月度周期性缺失时,判断指标子数据是否为当月发生值;子数据填补单元,用于当指标子数据为当月发生值时,以指标子数据中首月数据对指标子数据中数据缺失月份进行填补处理。
关于房屋价值预测装置的具体限定可以参见上文中对于房屋价值预测方法的限定,在此不再赘述。上述房屋价值预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种房屋价值预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取房屋价值初始指标数据以及房屋价值数据;对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;根据变频处理后的数据以及房屋价值数据,得到样本数据集;根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;获取待预测房屋价值时长,将待预测房屋价值时长与房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取缺失填补处理后的房屋价值初始指标数据中的季度指标数据以及年度指标数据;通过线性插值的方法将季度指标数据以及年度指标数据分别转化为月度数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差;分别选取各预设房屋价值预测模型集合中误差最小的房屋价值预测模型作为不同预测时长对应的房屋价值预测模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对样本数据集的数据进行分组,分成训练数据集和测试数据集;对训练数据集的分组数据通过预设房屋价值预测模型集合进行训练,得到已训练的房屋价值预测模型集合;将测试数据集中的分组数据分别输入至已训练的房屋价值预测模型集合中的各房屋价值预测模型,得到各房屋价值预测模型的误差。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取房屋价值初始指标数据中各指标子数据的缺失率;当指标子数据的缺失率小于或等于预设值时,对指标子数据进行填补处理,得到缺失填补处理后的房屋价值初始指标数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当指标子数据的缺失率大于预设值时,剔除指标子数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当指标子数据的缺失率小于或等于30%且指标子数据为月度周期性缺失时,判断指标子数据是否为当月发生值;当指标子数据为当月发生值时,以指标子数据中首月数据对指标子数据中数据缺失月份进行填补处理。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取房屋价值初始指标数据以及房屋价值数据;对房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;根据预设变频规则对缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;根据变频处理后的数据以及房屋价值数据,得到样本数据集;根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;获取待预测房屋价值时长,将待预测房屋价值时长与房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取缺失填补处理后的房屋价值初始指标数据中的季度指标数据以及年度指标数据;通过线性插值的方法将季度指标数据以及年度指标数据分别转化为月度数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差;分别选取各预设房屋价值预测模型集合中误差最小的房屋价值预测模型作为不同预测时长对应的房屋价值预测模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对样本数据集的数据进行分组,分成训练数据集和测试数据集;对训练数据集的分组数据通过预设房屋价值预测模型集合进行训练,得到已训练的房屋价值预测模型集合;将测试数据集中的分组数据分别输入至已训练的房屋价值预测模型集合中的各房屋价值预测模型,得到各房屋价值预测模型的误差。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取房屋价值初始指标数据中各指标子数据的缺失率;当指标子数据的缺失率小于或等于预设值时,对指标子数据进行填补处理,得到缺失填补处理后的房屋价值初始指标数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当指标子数据的缺失率大于预设值时,剔除指标子数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当指标子数据的缺失率小于或等于30%且指标子数据为月度周期性缺失时,判断指标子数据是否为当月发生值;当指标子数据为当月发生值时,以指标子数据中首月数据对指标子数据中数据缺失月份进行填补处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种房屋价值预测方法,所述方法包括:
获取房屋价值初始指标数据以及房屋价值数据;
对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;
根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;
根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;
根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;
获取待预测房屋价值时长,将所述待预测房屋价值时长与所述房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
2.根据权利要求1所述的方法,其特征在于,所述根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据,包括:
获取所述缺失填补处理后的房屋价值初始指标数据中的季度指标数据以及年度指标数据;
通过线性插值的方法将所述季度指标数据以及所述年度指标数据分别转化为月度数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,包括:
根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差;
分别选取各预设房屋价值预测模型集合中误差最小的房屋价值预测模型作为不同预测时长对应的房屋价值预测模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,获取各预测时长对应的预设房屋价值预测模型集合中房屋价值预测模型的误差,包括:
对所述样本数据集的数据进行分组,分成训练数据集和测试数据集;
对所述训练数据集的分组数据通过预设房屋价值预测模型集合进行训练,得到已训练的房屋价值预测模型集合;
将测试数据集中的分组数据分别输入至已训练的房屋价值预测模型集合中的各房屋价值预测模型,得到所述各房屋价值预测模型的误差。
5.根据权利要求1所述的方法,其特征在于,所述对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据之前还包括:
获取房屋价值初始指标数据中各指标子数据的缺失率;
所述对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据,包括:
当指标子数据的缺失率小于或等于预设值时,对所述指标子数据进行填补处理,得到缺失填补处理后的房屋价值初始指标数据。
6.根据权利要求5所述的方法,其特征在于,所述当指标子数据的缺失率小于或等于预设值时,对所述指标子数据进行填补处理,包括:
当指标子数据的缺失率小于或等于30%且所述指标子数据为月度周期性缺失时,判断所述指标子数据是否为当月发生值;
当所述指标子数据为当月发生值时,以所述指标子数据中首月数据对所述指标子数据中数据缺失月份进行填补处理。
7.根据权利要求5所述的方法,其特征在于,所述获取房屋价值初始指标数据中各指标子数据的缺失率之后还包括:
当指标子数据的缺失率大于预设值时,剔除所述指标子数据。
8.一种房屋价值预测装置,其特征在于,所述装置包括:
初始数据获取模块,用于获取房屋价值初始指标数据以及房屋价值数据;
填补处理模块,用于对所述房屋价值初始指标数据进行缺失填补处理,得到缺失填补处理后的房屋价值初始指标数据;
变频处理模块,用于根据预设变频规则对所述缺失填补处理后的房屋价值初始指标数据进行变频处理,得到变频处理后的数据;
样本数据获取模块,用于根据所述变频处理后的数据以及所述房屋价值数据,得到样本数据集;
训练模块,用于根据所述样本数据集分别对不同预测时长对应的预设房屋价值预测模型集合进行训练,得到不同预测时长对应的房屋价值预测模型,其中,单个预测时长对应的预设房屋价值预测模型集合包括多个预设房屋价值预测模型;
预测模块,用于获取待预测房屋价值时长,将所述待预测房屋价值时长与所述房屋价值预测模型对应的预测时长进行匹配,通过匹配的预测时长对应的房屋价值预测模型进行房屋价值预测。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811290390.5A CN109492806A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811290390.5A CN109492806A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492806A true CN109492806A (zh) | 2019-03-19 |
Family
ID=65693592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811290390.5A Pending CN109492806A (zh) | 2018-10-31 | 2018-10-31 | 房屋价值预测方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492806A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861064A (zh) * | 2021-01-20 | 2021-05-28 | 重庆第二师范学院 | 一种社会信用评价源数据处理方法、系统、终端及介质 |
-
2018
- 2018-10-31 CN CN201811290390.5A patent/CN109492806A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861064A (zh) * | 2021-01-20 | 2021-05-28 | 重庆第二师范学院 | 一种社会信用评价源数据处理方法、系统、终端及介质 |
CN112861064B (zh) * | 2021-01-20 | 2023-02-03 | 重庆第二师范学院 | 一种社会信用评价源数据处理方法、系统、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Probabilistic electric load forecasting: A tutorial review | |
CN109376936A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109726865A (zh) | 基于emd-qrf的用户负荷概率密度预测方法、装置和存储介质 | |
EP2273431A1 (en) | Model determination system | |
CN102117469A (zh) | 一种对信用风险进行评估的系统和方法 | |
CN113962745A (zh) | 基于prophet模型及大数据的销量预测方法和系统 | |
CN109523068A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN115169818A (zh) | 一种基于数字化建模的技术工程测算方法及系统 | |
CN109635996A (zh) | 房价走势前瞻模型构建方法、装置及存储介质 | |
CN105139079A (zh) | 一种基于混合模型的税收收入预测方法及装置 | |
CN118095573B (zh) | 一种地下水储备量预测方法 | |
CN109345035A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
JP2024152838A (ja) | 電力需要予測システム及び電力需要予測方法 | |
CN109492806A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN109214603A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
JP3910948B2 (ja) | 電源計画についての情報処理方法及びコンピュータ・システム | |
CN109325811A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN110580542A (zh) | 一种用电量预测方法和装置 | |
Rupsys et al. | A univariate stochastic Gompertz model for tree diameter modeling | |
CN109242578A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN115017585A (zh) | 一种拱坝变形行为表征可视化分析系统 | |
CN111680340B (zh) | 建材价格信息推送方法、系统、装置及其存储介质 | |
CN109492805A (zh) | 房屋价值预测方法、装置、计算机设备和存储介质 | |
CN114897394A (zh) | 用电量监管系统及方法 | |
Fu et al. | A Data-driven Situational Awareness Approach to Monitoring Campus-wide Power Consumption |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190319 |
|
WD01 | Invention patent application deemed withdrawn after publication |