CN108537377A - 一种基于网络搜素指数的房价预测方法 - Google Patents
一种基于网络搜素指数的房价预测方法 Download PDFInfo
- Publication number
- CN108537377A CN108537377A CN201810288297.4A CN201810288297A CN108537377A CN 108537377 A CN108537377 A CN 108537377A CN 201810288297 A CN201810288297 A CN 201810288297A CN 108537377 A CN108537377 A CN 108537377A
- Authority
- CN
- China
- Prior art keywords
- prediction
- room rate
- model
- variable
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012935 Averaging Methods 0.000 claims abstract description 7
- 230000001568 sexual effect Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 238000005065 mining Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 229910017435 S2 In Inorganic materials 0.000 claims 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于网络搜素指数的房价预测方法,分析挖掘出影响房价的一些宏观经济变量;根据变量对房价的影响程度即相关性强弱,筛选出与房价相关性强的变量作为解释变量加入到房价指数预测数据集中;利用与房价相关的关键词获取网络搜索指数并加入到房价预测数据集中;运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测;采用MSE和MAE作为模型预测效果的评估指标;以多个城市的房价数据集为基础构建以梯度提升算法为主要的对比预测模型进行实验对比,最后对模型的预测精度进行评价。本发明具有预测精确度高、实时性强、具有较好的健壮性等优点。
Description
技术领域
本发明涉及房地产数据分析技术领域,特别是一种基于网络搜素指数的房价预测方法。
背景技术
在过去的近二十年里,房地产行业一直是我国经济增长的重要动力来源之一,而房价是房地产市场健康稳定发展的重要指标,同时也是整个社会所重点关注的热门话题。房价的有效预测,不仅可以帮助政府相关部门更好对房地产市场进行精确的调控,保持房地产市场的平稳有序,控制炒房等现象的发生;也可以帮助房地产开发商进行前期投资决策,对未来房地产市场走向进行研判,因此具时效性和前瞻性的我国城市房地产价预测指数预测是现阶段的研究热点所在。
发明内容
有鉴于此,本发明的目的是提出一种基于网络搜素指数的房价预测方法,可以有效预测房价的变化情况。
本发明采用以下方案实现:一种基于网络搜素指数的房价预测方法,具体包括以下步骤:
步骤S1:分析挖掘出影响房价的一个以上的宏观经济变量;根据所述宏观经济变量对房价的影响程度,即相关性强弱,筛选出与房价相关性强的变量作为解释变量加入到房价指数预测数据集中;
步骤S2:利用与房价相关的关键词获取网络搜索指数并将搜索指数数据加入到房价预测数据集中;运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测;采用MSE和MAE作为模型预测效果的评估指标;
步骤S3:以多个城市的房价数据集为基础构建以梯度提升算法为主要的对比预测模型,并进行实验对比,最后对步骤S2提出的预测模型的预测精度进行评价。
进一步地,步骤S1具体为:首先根据经济学知识初步得到与房价相关的宏观经济变量,再以相关性分析法获取到影响房价的最主要的一个以上的相关宏观经济变量,以这些相关宏观经济变量为基础从国家统计局数据库和WIND数据库采集训练数据和测试数据,并且将所述训练数据与测试数据进行预处理后加入到房价指数预测数据集中;所述预处理包括数据的频率处理、缺失值处理。
进一步地,步骤S2中,所述网络搜索指数的获取为:以某个与房价最为相关的关键词(如房价指数或者贷款利率)为基础,利用搜索引擎(如百度)指数平台获取该关键词在某一时间段的搜索量,并将其加入到房价的预测数据集中充当解释变量。
进一步地,步骤S2中,所述运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测具体包括以下步骤:
步骤S21:设一个允许参数随时间变化的回归模型TVP为:
其中,yt是因变量,即房价;zt-1是预测的自变量的观测值组成的一个1×m矩阵,所述自变量为房价的解释变量;θt是回归系数的一个m×1矩阵,残差项满足εt~N(0,Ht),随机扰动项满足ηt~N(0,Qt);其中,Ht表示正态分布下参数εt满足的方差,Qt表示正态分布下参数ηt满足的方差;
步骤S22:在TVP的基础上,将上式进一步改写为:
其中,k=1,2...,K,K表示对应的模型集合数, Ht (k)表示正态分布下参数满足的方差,Qt (k)表示正态分布下参数满足的方差;
步骤S23:采用下式计算每个时间节点上1,2,...K个模型的概率:
π(t|t-1,k)=P(Lt=k|Yt-1);
其中,Lt代表某一个具体的模型,Lt=k意味着第k个模型被选中,Yt-1={y1,y2,...yt-1}即Yt-1表示前t-1个时期因变量的集合;
步骤S24:对步骤S23得到的多个概率进行加权平均,得到最后的预测结果。
进一步地,步骤S2中,所述MSE和MAE的计算如下:
其中,n表示预测值数量,y'表示模型预测值;
其中,MSE和MAE的值越小,模型的预测效果越好。
进一步地,步骤S3具体包括以下步骤:
步骤S31:建立以决策树为基本分类器的梯度提升树作为主要的对比模型,将每个决策树作为预测的基分类器,利用损失函数的负梯度在当前模型的值作为提升树算法中残差的近似值,拟合一棵回归树模型;
步骤S32:利用梯度提升算法得到的回归树模型与步骤S2得到的预测模型进行多次对比实验,依照MSE和MAE评价不同的方法在不同城市房价预测中的效果。
其中,梯度提升树算法步骤如下:
①初始化:
②对于m=1,2,...,M(M为决策树的数量)
■对于i=1,2,...,N计算:
■对rmi拟合一棵回归树,得到第m棵树的叶节点区域Rmj,j=1,2,...,J。
■计算每个区域Rmj上的输出值:对j=1,2,...,J计算:
■更新
③得到回归树:
与现有技术相比,本发明有以下有益效果:本发明基于网络搜索指数的房价预测方法,将大数据背景下的网络搜索指数加入到房价的预测数据集中,建立动态模型平均方法和机器学习预测模型,应用到房地产价格预测和数据分析领域中,从而对不同城市的房价进行实时的预测。本发明具有预测精确度高、实时性强、具有较好的健壮性等优点。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的对比模型的梯度提升树工作流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1以及图2所示,本实施例提供了一种基于网络搜素指数的房价预测方法,具体包括以下步骤:
步骤S1:分析挖掘出影响房价的一个以上的宏观经济变量;根据所述宏观经济变量对房价的影响程度,即相关性强弱,筛选出与房价相关性强的变量作为解释变量加入到房价指数预测数据集中;
步骤S2:利用与房价相关的关键词获取网络搜索指数并将搜索指数数据加入到房价预测数据集中;运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测;采用MSE和MAE作为模型预测效果的评估指标;
步骤S3:以多个城市的房价数据集为基础构建以梯度提升算法为主要的对比预测模型,并进行实验对比,最后对步骤S2提出的预测模型的预测精度进行评价。
在本实施例中,步骤S1具体为:首先根据经济学知识初步得到与房价相关的宏观经济变量,再以相关性分析法获取到影响房价的最主要的一个以上的相关宏观经济变量,以这些相关宏观经济变量为基础从国家统计局数据库和WIND数据库采集训练数据和测试数据,并且将所述训练数据与测试数据进行预处理后加入到房价指数预测数据集中;所述预处理包括数据的频率处理、缺失值处理。
在本实施例中,步骤S2中,所述网络搜索指数的获取为:以某个与房价最为相关的关键词(如房价指数或者贷款利率)为基础,利用搜索引擎(如百度)指数平台获取该关键词在某一时间段的搜索量,并将其加入到房价的预测数据集中充当解释变量。
在本实施例中,步骤S2中,所述运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测具体包括以下步骤:
步骤S21:设一个允许参数随时间变化的回归模型TVP为:
其中,yt是因变量,即房价;zt-1是预测的自变量的观测值组成的一个1×m矩阵,所述自变量为房价的解释变量;θt是回归系数的一个m×1矩阵,残差项满足εt~N(0,Ht),随机扰动项满足ηt~N(0,Qt);其中,Ht表示正态分布下参数εt满足的方差,Qt表示正态分布下参数ηt满足的方差;
步骤S22:在TVP的基础上,将上式进一步改写为:
其中,k=1,2...,K,K表示对应的模型集合数, Ht (k)表示正态分布下参数满足的方差,Qt (k)表示正态分布下参数满足的方差;
步骤S23:采用下式计算每个时间节点上1,2,...K个模型的概率:
π(t|t-1,k)=P(Lt=k|Yt-1);
其中,Lt代表某一个具体的模型,Lt=k意味着第k个模型被选中,Yt-1={y1,y2,...yt-1}即Yt-1表示前t-1个时期因变量的集合;
步骤S24:对步骤S23得到的多个概率进行加权平均,得到最后的预测结果。
在本实施例中,步骤S2中,所述MSE和MAE的计算如下:
其中,n表示预测值数量,y'表示模型预测值;
其中,MSE和MAE的值越小,模型的预测效果越好。
在本实施例中,步骤S3具体包括以下步骤:
步骤S31:建立以决策树为基本分类器的梯度提升树作为主要的对比模型,将每个决策树作为预测的基分类器,利用损失函数的负梯度在当前模型的值作为提升树算法中残差的近似值,拟合一棵回归树模型;
步骤S32:利用梯度提升算法得到的回归树模型与步骤S2得到的预测模型进行多次对比实验,依照MSE和MAE评价不同的方法在不同城市房价预测中的效果。
其中,梯度提升树算法步骤如下:
①初始化:
②对于m=1,2,...,M(M为决策树的数量)
■对于i=1,2,...,N计算:
■对rmi拟合一棵回归树,得到第m棵树的叶节点区域Rmj,j=1,2,...,J。
■计算每个区域Rmj上的输出值:对j=1,2,...,J计算:
■更新
③得到回归树:
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于网络搜素指数的房价预测方法,其特征在于:包括以下步骤:
步骤S1:分析挖掘出影响房价的一个以上的宏观经济变量;根据所述宏观经济变量对房价的影响程度,即相关性强弱,筛选出与房价相关性强的变量作为解释变量加入到房价指数预测数据集中;
步骤S2:利用与房价相关的关键词获取网络搜索指数并将搜索指数数据加入到房价预测数据集中;运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测;采用MSE和MAE作为模型预测效果的评估指标;
步骤S3:以多个城市的房价数据集为基础构建以梯度提升算法为主要的对比预测模型,并进行实验对比,最后对步骤S2提出的预测模型的预测精度进行评价。
2.根据权利要求1所述的一种基于网络搜素指数的房价预测方法,其特征在于:步骤S1具体为:首先根据经济学知识初步得到与房价相关的宏观经济变量,再以相关性分析法获取到影响房价的最主要的一个以上的相关宏观经济变量,以这些相关宏观经济变量为基础从国家统计局数据库和WIND数据库采集训练数据和测试数据,并且将所述训练数据与测试数据进行预处理后加入到房价指数预测数据集中;所述预处理包括数据的频率处理、缺失值处理。
3.根据权利要求1所述的一种基于网络搜素指数的房价预测方法,其特征在于:步骤S2中,所述网络搜索指数的获取为:以某个与房价最为相关的关键词为基础,利用搜索引擎指数平台获取该关键词在某一时间段的搜索量,并将其加入到房价的预测数据集中充当解释变量。
4.根据权利要求1所述的一种基于网络搜素指数的房价预测方法,其特征在于:步骤S2中,所述运用动态模型平均方法在上述数据集上建立预测模型并进行房价的预测具体包括以下步骤:
步骤S21:设一个允许参数随时间变化的回归模型TVP为:
其中,yt是因变量,即房价;zt-1是预测的自变量的观测值组成的一个1×m矩阵,所述自变量为房价的解释变量;θt是回归系数的一个m×1矩阵,残差项满足εt~N(0,Ht),随机扰动项满足ηt~N(0,Qt);其中,Ht表示正态分布下参数εt满足的方差,Qt表示正态分布下参数ηt满足的方差;
步骤S22:在TVP的基础上,将上式进一步改写为:
其中,k=1,2...,K,K表示对应的模型集合数, Ht (k)表示正态分布下参数满足的方差,Qt (k)表示正态分布下参数满足的方差;
步骤S23:采用下式计算每个时间节点上1,2,...K个模型的概率:
π(t|t-1,k)=P(Lt=k|Yt-1);
其中,Lt代表某一个具体的模型,Lt=k意味着第k个模型被选中,Yt-1={y1,y2,...yt-1}即Yt-1表示前t-1个时期因变量的集合;
步骤S24:对步骤S23得到的多个概率进行加权平均,得到最后的预测结果。
5.根据权利要求4所述的一种基于网络搜素指数的房价预测方法,其特征在于:步骤S2中,所述MSE和MAE的计算如下:
其中,n表示预测值数量,y'表示模型预测值;
其中,MSE和MAE的值越小,模型的预测效果越好。
6.根据权利要求1所述的一种基于网络搜素指数的房价预测方法,其特征在于:步骤S3具体包括以下步骤:
步骤S31:建立以决策树为基本分类器的梯度提升树作为主要的对比模型,将每个决策树作为预测的基分类器,利用损失函数的负梯度在当前模型的值作为提升树算法中残差的近似值,拟合一棵回归树模型;
步骤S32:利用梯度提升算法得到的回归树模型与步骤S2得到的预测模型进行多次对比实验,依照MSE和MAE评价不同的方法在不同城市房价预测中的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810288297.4A CN108537377A (zh) | 2018-04-03 | 2018-04-03 | 一种基于网络搜素指数的房价预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810288297.4A CN108537377A (zh) | 2018-04-03 | 2018-04-03 | 一种基于网络搜素指数的房价预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108537377A true CN108537377A (zh) | 2018-09-14 |
Family
ID=63482280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810288297.4A Pending CN108537377A (zh) | 2018-04-03 | 2018-04-03 | 一种基于网络搜素指数的房价预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108537377A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272364A (zh) * | 2018-10-11 | 2019-01-25 | 北京国信达数据技术有限公司 | 自动估值模型建模方法 |
CN110705736A (zh) * | 2019-05-28 | 2020-01-17 | 软通智慧科技有限公司 | 宏观经济预测方法、装置、计算机设备及存储介质 |
CN110837921A (zh) * | 2019-10-29 | 2020-02-25 | 西安建筑科技大学 | 基于梯度提升决策树混合模型的房地产价格预测研究方法 |
CN111291198A (zh) * | 2020-03-12 | 2020-06-16 | 重庆仙桃易云数据有限公司 | 基于大数据的经济形势指数分析方法、系统及计算机可读介质 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
-
2018
- 2018-04-03 CN CN201810288297.4A patent/CN108537377A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109272364A (zh) * | 2018-10-11 | 2019-01-25 | 北京国信达数据技术有限公司 | 自动估值模型建模方法 |
CN110705736A (zh) * | 2019-05-28 | 2020-01-17 | 软通智慧科技有限公司 | 宏观经济预测方法、装置、计算机设备及存储介质 |
CN110837921A (zh) * | 2019-10-29 | 2020-02-25 | 西安建筑科技大学 | 基于梯度提升决策树混合模型的房地产价格预测研究方法 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN111291198A (zh) * | 2020-03-12 | 2020-06-16 | 重庆仙桃易云数据有限公司 | 基于大数据的经济形势指数分析方法、系统及计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537377A (zh) | 一种基于网络搜素指数的房价预测方法 | |
CN106599520B (zh) | 一种基于lstm-rnn模型的空气污染物浓度预报方法 | |
CN110782093B (zh) | 融合ssae深度特征学习和lstm的pm2.5小时浓度预测方法及系统 | |
CN110059100A (zh) | 基于演员-评论家网络的sql语句构造方法 | |
CN106649272B (zh) | 一种基于混合模型的命名实体识别方法 | |
CN112733442B (zh) | 基于深度学习的路面长期性能预测模型的构建方法 | |
CN112633604B (zh) | 一种基于i-lstm的短期用电量预测方法 | |
CN110895878B (zh) | 一种基于ge-gan的交通状态虚拟检测器的生成方法 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN111126658A (zh) | 一种基于深度学习的煤矿瓦斯预测方法 | |
CN107705556A (zh) | 一种基于支持向量机和bp神经网络结合的交通流预测方法 | |
CN107704970A (zh) | 一种基于Spark的需求侧负荷预测方法 | |
CN113723844B (zh) | 一种基于集成学习的低压台区理论线损计算方法 | |
CN110888859A (zh) | 一种基于组合深度神经网络的连接基数估计方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN110309609A (zh) | 一种基于粗糙集和小波神经网络的建筑室内空气品质评价方法 | |
CN115391553B (zh) | 一种自动搜索时序知识图谱补全模型的方法 | |
CN111915022B (zh) | 滑移式岩溶危岩稳定系数快速识别的高斯过程方法及装置 | |
CN107491508A (zh) | 一种基于循环神经网络的数据库查询时间预测方法 | |
CN111681021A (zh) | 一种基于gca-rfr模型的数字内容资源价值评估方法 | |
CN112614021A (zh) | 一种基于已建隧道信息智能识别的隧道围岩地质信息预测方法 | |
CN115096357A (zh) | 一种基于ceemdan-pca-lstm的室内环境质量预测方法 | |
CN113706328A (zh) | 基于fassa-bp算法的智能制造能力成熟度评价方法 | |
CN117370766A (zh) | 一种基于深度学习的卫星任务规划方案评估方法 | |
CN116307298B (zh) | 一种基于多源异构张量数据的组合碳排放预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |