CN111310979A - 一种基于机器学习及多源信息的房屋租价预测方法 - Google Patents

一种基于机器学习及多源信息的房屋租价预测方法 Download PDF

Info

Publication number
CN111310979A
CN111310979A CN202010066224.8A CN202010066224A CN111310979A CN 111310979 A CN111310979 A CN 111310979A CN 202010066224 A CN202010066224 A CN 202010066224A CN 111310979 A CN111310979 A CN 111310979A
Authority
CN
China
Prior art keywords
house
information
model
machine learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010066224.8A
Other languages
English (en)
Inventor
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Living In Good House Beijing Network Technology Co ltd
Original Assignee
Living In Good House Beijing Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Living In Good House Beijing Network Technology Co ltd filed Critical Living In Good House Beijing Network Technology Co ltd
Priority to CN202010066224.8A priority Critical patent/CN111310979A/zh
Publication of CN111310979A publication Critical patent/CN111310979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • G06Q30/0284Time or distance, e.g. usage of parking meters or taximeters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于机器学习及多源信息的房屋租价预测方法,包括以下步骤:步骤1,获取房屋基本属性;步骤2,获取房屋环境配套信息;步骤3,获取房屋搜索指数信息:该房源小区的关键词搜索热度;步骤4,获取宏观经济运行信息:通过数据公司站点获取城市的宏观经济运行数据;步骤5,基于步骤1至步骤4获取的数据,进行数据整合,构建机器学习模型的训练样本,训练样本。相比于传统的预测模型,通过使用单一数据源和多数据源的对比实验,使用多源数据组合预测的方式,更加有利于住房价格预测,本系统具有预测精确度高、实时性强、较好的扩展性等优点。

Description

一种基于机器学习及多源信息的房屋租价预测方法
技术领域
本发明属于数据预测技术领域,特别涉及一种基于机器学习及多源信息的房屋租价预测方法。
背景技术
目前房屋租价预测方法单一,预测精度较差。
其中,房屋租价预测所使用的预测样本特征简单,大多仅仅涉及房屋的基本属性特征,没有考虑到房屋周边特征、关注热度以及同期国民经济运行的宏观状况。同时,房屋租价的预测模型较简单,预测的精度较差。
发明内容
本发明的目的在于提供一种基于机器学习及多源信息的房屋租价预测方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种基于机器学习及多源信息的房屋租价预测方法,包括以下步骤:
步骤1,获取房屋基本属性:通过网络爬虫程序从租房网站获取房屋的基本属性信息;
步骤2,获取房屋环境配套信息:获取房屋周边特定距离内学校、公园、商业体、医院及银行的数量及其最近距离;
步骤3,获取房屋搜索指数信息:该房源小区的关键词搜索热度;
步骤4,获取宏观经济运行信息:通过数据公司站点获取城市的宏观经济运行数据;
步骤5,基于步骤1至步骤4获取的数据,进行数据整合,构建机器学习模型的训练样本,构建基于LightGBM的房屋租价预测机器学习模型。
进一步的,步骤1中,房屋的基本属性信息包括地理信息和房屋属性信息;地理信息包括:城市、区、街道和小区名称;房屋属性信息包括:房屋面积、房屋厅室卫信息、朝向、楼层、供水、供电、供气、暖气和电梯信息。
进一步的,步骤2中,通过房屋基本属性信息中的地理信息,获取该房屋所在的经纬度信息,调用百度地图API接口,获取房屋环境配套信息;房屋环境配套信息包括:房屋周边特定距离内学校、公园、美食、购物、医院及银行的数量及其最近距离。
进一步的,房屋环境配套信息还包括获取小区周边直线距离分别为500米、1000米、3000米区域中所拥有的地铁线路数量和最近的地铁站点距离。
进一步的,步骤3中,以房屋基本属性信息中的地理信息为参数,调用百度指数API,获取该房源小区的关键词搜索热度。
进一步的,步骤4中,宏观经济运行数据包括:消费价格指数CPI、人口数量、商品房销售面积、固定投资和房地产投资。
进一步的,步骤5中,构建机器学习模型:使用LightGBM模型,步骤1至步骤4中构建的样本属性,设置LightGBM模型的参数;
进行模型训练,模型性能的评价方法使用平均绝对百分比误差MAPE,在模型训练达到给定的性能指标后,停止训练;在后续的使用过程中,不断加入新的训练样本进行迭代训练,从而不断修正模型,提高模型的预测性能。
进一步的,LightGBM模型的任务目标设置为回归,objective=regression,采用的提升方法为传统梯度提升决策树boosting_type=gbdt,L1正则化参数reg_alpha=0.1,L2正则化参数reg_lambda=0.1;一棵树上的叶子数num_leaves=900;每次迭代中随机选择特征的取样比例Feature_fraction=0.8,样本的取样比例bagging_fraction=0.6;LightGBM模型选择MAE平均绝对误差作为模型训练的评价度量,使用MAPE平均绝对百分比误差作为模型的测试评价指标,学习率选用lerning_rate=0.01。
与现有技术相比,本发明有以下技术效果:
本发明针对目前房屋租价预测中预测数据单一、预测精度较差的缺陷和不足,提供一种使用多源数据(包括房屋基本数据、房屋周边配套信息数据、房屋搜索热度数据以及相关宏观经济运行数据等),并利用机器学习模型LightGBM进行建模和训练,最终形成一个基于多源数据的房屋租价预测模型的方法,进而提供高性能、高精度的房屋租价预测。相比于传统的预测模型,通过使用单一数据源和多数据源的对比实验,使用多源数据组合预测的方式,更加有利于住房价格预测,本系统具有预测精确度高、实时性强、具有较好的扩展性等优点。
附图说明
图1是本发明的流程框图。
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1,一种基于机器学习及多源信息的房屋租价预测方法,包括以下步骤:
步骤1,获取房屋基本属性:通过网络爬虫程序从租房网站获取房屋的基本属性信息;
步骤2,获取房屋环境配套信息:获取房屋周边特定距离内学校、公园、商业体、医院及银行的数量及其最近距离;
步骤3,获取房屋搜索指数信息:该房源小区的关键词搜索热度;
步骤4,获取宏观经济运行信息:通过数据公司站点获取城市的宏观经济运行数据;
步骤5,基于步骤1至步骤4获取的数据,进行数据整合,构建机器学习模型的训练样本,构建基于LightGBM的房屋租价预测机器学习模型。
步骤1中,房屋的基本属性信息包括地理信息和房屋属性信息;地理信息包括:城市、区、街道和小区名称;房屋属性信息包括:房屋面积、房屋厅室卫信息、朝向、楼层、供水、供电、供气、暖气和电梯信息。
步骤2中,通过房屋基本属性信息中的地理信息,获取该房屋所在的经纬度信息,调用百度地图API接口,获取房屋环境配套信息;房屋环境配套信息包括:房屋周边特定距离内学校、公园、美食、购物、医院及银行的数量及其最近距离。
房屋环境配套信息还包括获取小区周边直线距离分别为500米、1000米、3000米区域中所拥有的地铁线路数量和最近的地铁站点距离。
步骤3中,以房屋基本属性信息中的地理信息为参数,调用百度指数API,获取该房源小区的关键词搜索热度。
步骤4中,宏观经济运行数据包括:消费价格指数CPI、人口数量、商品房销售面积、固定投资和房地产投资。
步骤5中,构建机器学习模型:使用LightGBM模型,步骤1至步骤4中构建的样本属性,设置LightGBM模型的参数;
进行模型训练,模型性能的评价方法使用平均绝对百分比误差MAPE,在模型训练达到给定的性能指标后,停止训练;在后续的使用过程中,不断加入新的训练样本进行迭代训练,从而不断修正模型,提高模型的预测性能。
LightGBM模型的任务目标设置为回归,objective=regression,采用的提升方法为传统梯度提升决策树boosting_type=gbdt,L1正则化参数reg_alpha=0.1,L2正则化参数reg_lambda=0.1;一棵树上的叶子数num_leaves=900;每次迭代中随机选择特征的取样比例Feature_fraction=0.8,样本的取样比例bagging_fraction=0.6;LightGBM模型选择MAE平均绝对误差作为模型训练的评价度量,使用MAPE平均绝对百分比误差作为模型的测试评价指标,学习率选用lerning_rate=0.01。
实施例:
本方法使用机器学习LightGBM构建多源住房出租价格预测模型,使用链家数据、地图API信息作为客观数据,将前瞻网提供的数据作为宏观数据,将客观数据和宏观数据结合起来,构建LightGBM预测模型,同时比较其他预测模型与LightGBM预测模型的性能优劣,模型性能的评价方法使用MAPE(平均绝对百分比误差)。结果:共纳入5个城市的58162条房源信息构成数据集,采用MAPE评价结果显示,平均误差百分比为6.42%,在此数据集上较其他预测模型相比,例如NGBoost、XGBoost、神经网络,LightGBM预测性能更佳。相比于传统的预测模型,通过使用单一数据源和多数据源的对比实验,使用多源数据组合预测的方式,更加有利于住房价格预测,本系统具有预测精确度高、实时性强、具有较好的扩展性等优点。

Claims (8)

1.一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,包括以下步骤:
步骤1,获取房屋基本属性:通过网络爬虫程序从租房网站获取房屋的基本属性信息;
步骤2,获取房屋环境配套信息:获取房屋周边特定距离内学校、公园、商业体、医院及银行的数量及其最近距离;
步骤3,获取房屋搜索指数信息:该房源小区的关键词搜索热度;
步骤4,获取宏观经济运行信息:通过数据公司站点获取城市的宏观经济运行数据;
步骤5,基于步骤1至步骤4获取的数据,进行数据整合,构建机器学习模型的训练样本,构建基于LightGBM的房屋租价预测机器学习模型。
2.根据权利要求1所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,步骤1中,房屋的基本属性信息包括地理信息和房屋属性信息;地理信息包括:城市、区、街道和小区名称;房屋属性信息包括:房屋面积、房屋厅室卫信息、朝向、楼层、供水、供电、供气、暖气和电梯信息。
3.根据权利要求2所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,步骤2中,通过房屋基本属性信息中的地理信息,获取该房屋所在的经纬度信息,调用百度地图API接口,获取房屋环境配套信息;房屋环境配套信息包括:房屋周边特定距离内学校、公园、美食、购物、医院及银行的数量及其最近距离。
4.根据权利要求3所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,房屋环境配套信息还包括获取小区周边直线距离分别为500米、1000米、3000米区域中所拥有的地铁线路数量和最近的地铁站点距离。
5.根据权利要求1所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,步骤3中,以房屋基本属性信息中的地理信息为参数,调用百度指数API,获取该房源小区的关键词搜索热度。
6.根据权利要求1所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,步骤4中,宏观经济运行数据包括:消费价格指数CPI、人口数量、商品房销售面积、固定投资和房地产投资。
7.根据权利要求1所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,步骤5中,构建机器学习模型:使用LightGBM模型,步骤1至步骤4中构建的样本属性,设置LightGBM模型的参数;
进行模型训练,模型性能的评价方法使用平均绝对百分比误差MAPE,在模型训练达到给定的性能指标后,停止训练;在后续的使用过程中,不断加入新的训练样本进行迭代训练,从而不断修正模型,提高模型的预测性能。
8.根据权利要求7所述的一种基于机器学习及多源信息的房屋租价预测方法,其特征在于,LightGBM模型的任务目标设置为回归,objective=regression,采用的提升方法为传统梯度提升决策树boosting_type=gbdt,L1正则化参数reg_alpha=0.1,L2正则化参数reg_lambda=0.1;一棵树上的叶子数num_leaves=900;每次迭代中随机选择特征的取样比例Feature_fraction=0.8,样本的取样比例bagging_fraction=0.6;LightGBM模型选择MAE平均绝对误差作为模型训练的评价度量,使用MAPE平均绝对百分比误差作为模型的测试评价指标,学习率选用lerning_rate=0.01。
CN202010066224.8A 2020-01-20 2020-01-20 一种基于机器学习及多源信息的房屋租价预测方法 Pending CN111310979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010066224.8A CN111310979A (zh) 2020-01-20 2020-01-20 一种基于机器学习及多源信息的房屋租价预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066224.8A CN111310979A (zh) 2020-01-20 2020-01-20 一种基于机器学习及多源信息的房屋租价预测方法

Publications (1)

Publication Number Publication Date
CN111310979A true CN111310979A (zh) 2020-06-19

Family

ID=71146832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066224.8A Pending CN111310979A (zh) 2020-01-20 2020-01-20 一种基于机器学习及多源信息的房屋租价预测方法

Country Status (1)

Country Link
CN (1) CN111310979A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378508A (zh) * 2019-05-29 2019-10-25 广东工业大学 一种基于大数据的智能预测方法
CN112069727A (zh) * 2020-08-20 2020-12-11 国网河南省电力公司经济技术研究院 具备高可信度的电力系统暂态稳定智能化评估系统及方法
CN113009553A (zh) * 2021-03-02 2021-06-22 电子科技大学 基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537377A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于网络搜素指数的房价预测方法
CN109389247A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于大数据的区域房屋租金预测方法
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN110378508A (zh) * 2019-05-29 2019-10-25 广东工业大学 一种基于大数据的智能预测方法
US10460406B1 (en) * 2011-03-09 2019-10-29 Zillow, Inc. Automatically determining market rental rates for properties
CN110619543A (zh) * 2019-08-23 2019-12-27 深圳市新系区块链技术有限公司 房屋租赁价格预测方法及相关装置
CN110634014A (zh) * 2019-07-19 2019-12-31 北京无限光场科技有限公司 房源价格的确定方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460406B1 (en) * 2011-03-09 2019-10-29 Zillow, Inc. Automatically determining market rental rates for properties
CN108537377A (zh) * 2018-04-03 2018-09-14 福州大学 一种基于网络搜素指数的房价预测方法
CN109389247A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于大数据的区域房屋租金预测方法
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN110378508A (zh) * 2019-05-29 2019-10-25 广东工业大学 一种基于大数据的智能预测方法
CN110634014A (zh) * 2019-07-19 2019-12-31 北京无限光场科技有限公司 房源价格的确定方法、装置、设备及介质
CN110619543A (zh) * 2019-08-23 2019-12-27 深圳市新系区块链技术有限公司 房屋租赁价格预测方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378508A (zh) * 2019-05-29 2019-10-25 广东工业大学 一种基于大数据的智能预测方法
CN112069727A (zh) * 2020-08-20 2020-12-11 国网河南省电力公司经济技术研究院 具备高可信度的电力系统暂态稳定智能化评估系统及方法
CN113009553A (zh) * 2021-03-02 2021-06-22 电子科技大学 基于NGBoost和SHAP值的可解释地震动参数概率密度分布预测方法

Similar Documents

Publication Publication Date Title
CN108701274B (zh) 一种城市小尺度空气质量指数预测方法与系统
Zhen et al. Analyzing urban development patterns based on the flow analysis method
Wu et al. Cultivating historical heritage area vitality using urban morphology approach based on big data and machine learning
CN111310979A (zh) 一种基于机器学习及多源信息的房屋租价预测方法
CN106651036A (zh) 空气质量预报系统
CN106909692A (zh) 一种计算城市公共设施覆盖辐射指数的方法
Jafari et al. Driving forces for the US residential housing price: a predictive analysis
CN112668803B (zh) 一种基于LightGBM模型的汽车服务连锁企业开店选址方法
Liao et al. Spatial distribution evolution and accessibility of A-level scenic spots in Guangdong Province from the perspective of quantitative geography
Zhou et al. The modelling of digital twins technology in the construction process of prefabricated buildings
CN111310257A (zh) 一种bim环境下的区域建筑能耗预测方法
Peng et al. Research on the prediction of the water demand of construction engineering based on the BP neural network
WO2023105294A1 (en) Methods, systems, devices and neural networks for forecasting a time series
Li et al. Construction of Smart City Street Landscape Big Data‐Driven Intelligent System Based on Industry 4.0
CN114529154A (zh) 人口规模预测指标体系的构建方法、预测方法、装置及系统
Luo et al. Real-time characterization model of carbon emissions based on land-use status: A case study of Xi'an city, China
CN114626586A (zh) 基于prophet-LightGBM混合模型的大规模建筑能耗预测方法
Lei et al. Effects of local, network and systemic dependence on urban development
Long et al. On the effective organization of rural settlements spatial structure under the transformation and development of mountainous areas in Western China: evaluation measurement based on complex adaptability theory
Xie et al. [Retracted] Tourism Resource Evaluation and Countermeasures Based on Network Communication and TOPSIS Algorithm
Zhu et al. Smart city oriented optimization of residential blocks on intensive urban sensing data based on fuzzy evaluation algorithm
Chen et al. Research on the intelligent generation of the spatial form of the island city historic district Based on parameterization: Taking Macau Taipa Village as an example
Zhu et al. Rural road network planning based on 5g and traffic big data
Kang et al. Analysis of tourist flow forecasting model based on multiple additive regression tree
Xie et al. Evaluation and of university building design effect based on multisensor perception and data security

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination