CN111523086A - 一种基于对数线性回归和随机森林的房价走势分析方法 - Google Patents

一种基于对数线性回归和随机森林的房价走势分析方法 Download PDF

Info

Publication number
CN111523086A
CN111523086A CN202010277368.8A CN202010277368A CN111523086A CN 111523086 A CN111523086 A CN 111523086A CN 202010277368 A CN202010277368 A CN 202010277368A CN 111523086 A CN111523086 A CN 111523086A
Authority
CN
China
Prior art keywords
model
linear regression
factors
data
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010277368.8A
Other languages
English (en)
Inventor
石建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202010277368.8A priority Critical patent/CN111523086A/zh
Publication of CN111523086A publication Critical patent/CN111523086A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Algebra (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于对数线性回归和随机森林的房价走势分析方法,包括以下步骤:步骤1.对影响因素进行分析;步骤2.获取楼盘房价数据;步骤3.对楼盘数据进行预处理;步骤4.建立基于随机森林的模型:调用RandomForest Classifier函数建模并训练,对模型权重参数进行对数线性回归检验,若检验通过且模型符合正态分布,则认为模型符合条件,根据生成的决策树分类器对预测集进行预测,对每棵树的预测结果求均值即为最终预测结果;步骤5.对数线性回归测试;步骤6.模型训练与分析评估。本发明通过建立基于对数线性回归和随机森林的模型,在多个房价走势的影响因素下,达到曲线拟合精准。

Description

一种基于对数线性回归和随机森林的房价走势分析方法
技术领域
本发明涉及机器学习和数据挖掘领域,具体为一种基于对数线性回归和随机森林的房价走势分析方法。
背景技术
在我国的传统观念中房子就家,不管住别墅还是住瓦房,每一个家庭都必须有自己的住房,因此住房问题本生就是关系国计民生的大问题。同时,随着改革开放以来我国经济的高速发展,人民生活质量得到了极大提高,对住房质量、住房环境、小区配套服务等的要求也随之不断提高。
近十年来我国一些城镇的商品房价格上涨过快,过高的房价使城镇却中低收入者无力购买住房,为了社会持续稳定的发展,政府一直出台各种文件,从宏观层面对房地产市场进行调控。但由于各部门配合不协调,加上恶意炒房的炒家操作,房地产的价格在过去的几年时间里快速地上涨,房价成了各种社会矛盾的焦点。
因此,面对如此的背景条件,科学的分析房价走势成为了我们至关重要的武器。我们需要对物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率、各类保障性住房的投入使用等房地产价格的影响因素进行实证研究,找到影响房价的主要指标,建立模型,以此达到预测房价的效果。但总体而言,影响房价走势的因素太多,无法非常精准的拟合出房价的走势,难免会造成一些经济上的损失。
发明内容
本发明的目的是为了解决现有技术的不足,提供一种基于对数线性回归和随机森林的房价走势分析方法,通过建立基于对数线性回归和随机森林的模型,在多个房价走势的影响因素下,达到曲线拟合精准。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于对数线性回归和随机森林的房价走势分析方法,包括以下步骤:步骤1.对影响因素进行分析,具体以下:确定影响房价走势的因素,所述因素包括小区因素和客户因素;
步骤2.获取楼盘房价数据,具体包括以下步骤:步骤(2-1).通过端口对楼盘数据进行爬取;步骤(2-2).运用selenium库与chromedriver模拟网页登陆;步骤(2-3).引入time库,对点击时常进行限制;步骤(2-4).使用了lxml库和pysql库将爬取的数据导入excel中,得到data1;步骤(2-5).预设因素变量,具体如下:占地面积area、绿化率green、容积率volume和客户评论comment;
步骤3.对楼盘数据进行预处理,具体包括以下步骤:步骤(3-1).直接删去楼盘代码的冗余字段;步骤(3-2).结合pandas,xlrd和xlutils库将文本数据进行分割;步骤(3-3).设定阈值alpha,作为去冗余字段的标准值;步骤(3-4).用value_counts计算出每个字段中,各值的数量n;若n大于等于row的80%,则删除该冗余字段;步骤(3-5).并删除符合条件的null值和空值;步骤(3-6).利用双线性内插法来填补剩下的异常值,至此异常值处理完毕,得到数据data2;步骤(3-7).设置随机种子seed,利用train_test_split随机抽取80%的data2作为训练数据train,20%的data2作为测试数据test;步骤(3-8).train进入模型训练;
步骤4.建立基于随机森林的模型,具体包括以下步骤:步骤(4-1).确定生成一棵决策树时用到的特征变量数目m;步骤(4-2).应用bootstrap法有放回随机抽取k个新的自助样本集,并由此构建k棵决策树,每次未被抽到的样本组成k个袋外数据;步骤(4-3).每个自助样本集生长为单棵决策树,每个节点处按照节点不纯度最小原则选取特征进行充分生长,不进行剪枝操作;步骤(4-4).调用RandomForestClassifier函数建模并训练;步骤(4-5).对模型权重参数进行对数线性回归检验;步骤(4-6).若检验通过且模型符合正态分布,则认为模型符合条件;步骤(4-7).根据生成的决策树分类器对预测集进行预测,对每棵树的预测结果求均值即为最终预测结果;步骤(4-8).绘制房价走势图;步骤(4-9).设定区间,预测该区间内房价的走势;
步骤5.对数线性回归测试;
步骤6.模型训练与分析评估。
优选的,在步骤1中,所述因素还包括物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率和各类保障性住房的投入使用,所述小区因素包括占地面积、绿化率、容积率和所在商圈,所述客户因素包括小区在客户中的口碑状况。
优选的,在步骤5中,所述模型测试具体包括以下步骤:步骤(5-1).输入测试集中的数据进行测试;步骤(5-2).设定预测区间;步骤(5-3).预测某楼盘在设定区间内房价的走势;步骤(5-4).与真实走势图进行对比,求得得分值,若得分值若大于0.6,则认为拟合成功,符合该楼盘房价的走势。
优选的,在步骤6中,所述分析具体包括以下步骤:步骤(6-1).根据随机森林模型中不同变量的因素所对应的权重,找出高权重的因素;步骤(6-2).将高权重的因素总结统计,进行更深层次的分析;步骤(6-3).自动生成分析报告。
与现有技术相比,采用了上述技术方案的基于对数线性回归和随机森林的房价走势分析方法,具有如下有益效果:采用本发明的基于对数线性回归和随机森林的房价走势分析方法,建立基于随机森林的模型,调用RandomForestClassifier函数建模并训练,对模型权重参数进行对数线性回归检验,在多个房价走势的影响因素下,达到曲线拟合精准。
附图说明
图1为本发明基于对数线性回归和随机森林的房价走势分析方法实施例的流程示意图;
图2为本实施例基于对数线性回归和随机森林的房价走势分析方法中模型检测的流程示意图;
图3为本实施例中房价走势拟合的曲线示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1为基于对数线性回归和随机森林的房价走势分析方法的流程示意图,包括以下步骤:步骤1.对影响因素进行分析,具体以下:确定影响房价走势的因素,所述因素包括小区因素客户因素、物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率和各类保障性住房的投入使用,所述小区因素包括占地面积、绿化率、容积率和所在商圈,所述客户因素包括小区在客户中的口碑状况;
步骤2.获取楼盘房价数据,具体包括以下步骤:步骤(2-1).通过端口对楼盘数据进行爬取;步骤(2-2).运用selenium库与chromedriver模拟网页登陆;步骤(2-3).引入time库,对点击时常进行限制;步骤(2-4).使用了lxml库和pysql库将爬取的数据导入excel中,得到data1;步骤(2-5).预设因素变量,具体如下:占地面积area、绿化率green、容积率volume和客户评论comment;
步骤3.对楼盘数据进行预处理,具体包括以下步骤:步骤(3-1).直接删去楼盘代码的冗余字段;步骤(3-2).结合pandas,xlrd和xlutils库将文本数据进行分割;步骤(3-3).设定阈值alpha,作为去冗余字段的标准值;步骤(3-4).用value_counts计算出每个字段中,各值的数量n;若n大于等于row的80%,则删除该冗余字段;步骤(3-5).并删除符合条件的null值和空值;步骤(3-6).利用双线性内插法来填补剩下的异常值,至此异常值处理完毕,得到数据data2;步骤(3-7).设置随机种子seed,利用train_test_split随机抽取80%的data2作为训练数据train,20%的data2作为测试数据test;步骤(3-8).train进入模型训练;
步骤4.建立基于随机森林的模型,具体包括以下步骤:步骤(4-1).确定生成一棵决策树时用到的特征变量数目m;步骤(4-2).应用bootstrap法有放回随机抽取k个新的自助样本集,并由此构建k棵决策树,每次未被抽到的样本组成k个袋外数据;步骤(4-3).每个自助样本集生长为单棵决策树,每个节点处按照节点不纯度最小原则选取特征进行充分生长,不进行剪枝操作;步骤(4-4).调用RandomForestClassifier函数建模并训练;步骤(4-5).对模型权重参数进行对数线性回归检验;步骤(4-6).若检验通过且模型符合正态分布,则认为模型符合条件;步骤(4-7).根据生成的决策树分类器对预测集进行预测,对每棵树的预测结果求均值即为最终预测结果;步骤(4-8).绘制房价走势图;步骤(4-9).设定区间,预测该区间内房价的走势;
步骤5.对数线性回归测试,如图3为本实施例中房价走势拟合的曲线示意图,具体包括以下步骤:步骤(5-1).输入测试集中的数据进行测试;步骤(5-2).设定预测区间;步骤(5-3).预测某楼盘在设定区间内房价的走势;步骤(5-4).与真实走势图进行对比,求得得分值,若得分值若大于0.6,则认为拟合成功,符合该楼盘房价的走势;
步骤6.模型训练与分析评估,具体包括以下步骤:步骤(6-1).根据随机森林模型中不同变量的因素所对应的权重,找出高权重的因素;步骤(6-2).将高权重的因素总结统计,进行更深层次的分析;步骤(6-3).自动生成分析报告。
至此,基于对数线性回归和随机森林的房价走势分析方法说明完毕,由于本发明涉及多个变量,表1对各个步骤中的变量进行说明,如表1所示为变量说明表:
Figure BDA0002445289140000061
表1
以上是本发明的优选实施方式,对于本领域的普通技术人员来说不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为本发明的保护范围。

Claims (4)

1.一种基于对数线性回归和随机森林的房价走势分析方法,其特征在于:包括以下步骤:步骤1.对影响因素进行分析,具体以下:确定影响房价走势的因素,所述因素包括小区因素和客户因素;
步骤2.获取楼盘房价数据,具体包括以下步骤:步骤(2-1).通过端口对楼盘数据进行爬取;步骤(2-2).运用selenium库与chromedriver模拟网页登陆;步骤(2-3).引入time库,对点击时常进行限制;步骤(2-4).使用了lxml库和pysql库将爬取的数据导入excel中,得到data1;步骤(2-5).预设因素变量,具体如下:占地面积area、绿化率green、容积率volume和客户评论comment;
步骤3.对楼盘数据进行预处理,具体包括以下步骤:步骤(3-1).直接删去楼盘代码的冗余字段;步骤(3-2).结合pandas,xlrd和xlutils库将文本数据进行分割;步骤(3-3).设定阈值alpha,作为去冗余字段的标准值;步骤(3-4).用value_counts计算出每个字段中,各值的数量n;若n大于等于row的80%,则删除该冗余字段;步骤(3-5).并删除符合条件的null值和空值;步骤(3-6).利用双线性内插法来填补剩下的异常值,至此异常值处理完毕,得到数据data2;步骤(3-7).设置随机种子seed,利用train_test_split随机抽取80%的data2作为训练数据train,20%的data2作为测试数据test;步骤(3-8).train进入模型训练;
步骤4.建立基于随机森林的模型,具体包括以下步骤:步骤(4-1).确定生成一棵决策树时用到的特征变量数目m;步骤(4-2).应用bootstrap法有放回随机抽取k个新的自助样本集,并由此构建k棵决策树,每次未被抽到的样本组成k个袋外数据;步骤(4-3).每个自助样本集生长为单棵决策树,每个节点处按照节点不纯度最小原则选取特征进行充分生长,不进行剪枝操作;步骤(4-4).调用RandomForestClassifier函数建模并训练;步骤(4-5).对模型权重参数进行对数线性回归检验;步骤(4-6).若检验通过且模型符合正态分布,则认为模型符合条件;步骤(4-7).根据生成的决策树分类器对预测集进行预测,对每棵树的预测结果求均值即为最终预测结果;步骤(4-8).绘制房价走势图;步骤(4-9).设定区间,预测该区间内房价的走势;
步骤5.对数线性回归测试;
步骤6.模型训练与分析评估。
2.根据权利要求1所述的基于对数线性回归和随机森林的房价走势分析方法,其特征在于:在步骤1中,所述因素还包括物价水平、国内生产总值、国民收入水平、金融政策、税收政策、土地、城市化率和各类保障性住房的投入使用,所述小区因素包括占地面积、绿化率、容积率和所在商圈,所述客户因素包括小区在客户中的口碑状况。
3.根据权利要求1所述的基于对数线性回归和随机森林的房价走势分析方法,其特征在于:在步骤5中,所述模型测试具体包括以下步骤:步骤(5-1).输入测试集中的数据进行测试;步骤(5-2).设定预测区间;步骤(5-3).预测某楼盘在设定区间内房价的走势;步骤(5-4).与真实走势图进行对比,求得得分值,若得分值若大于0.6,则认为拟合成功,符合该楼盘房价的走势。
4.根据权利要求1所述的基于对数线性回归和随机森林的房价走势分析方法,其特征在于:在步骤6中,所述分析具体包括以下步骤:步骤(6-1).根据随机森林模型中不同变量的因素所对应的权重,找出高权重的因素;步骤(6-2).将高权重的因素总结统计,进行更深层次的分析;步骤(6-3).自动生成分析报告。
CN202010277368.8A 2020-04-10 2020-04-10 一种基于对数线性回归和随机森林的房价走势分析方法 Withdrawn CN111523086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277368.8A CN111523086A (zh) 2020-04-10 2020-04-10 一种基于对数线性回归和随机森林的房价走势分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277368.8A CN111523086A (zh) 2020-04-10 2020-04-10 一种基于对数线性回归和随机森林的房价走势分析方法

Publications (1)

Publication Number Publication Date
CN111523086A true CN111523086A (zh) 2020-08-11

Family

ID=71902650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277368.8A Withdrawn CN111523086A (zh) 2020-04-10 2020-04-10 一种基于对数线性回归和随机森林的房价走势分析方法

Country Status (1)

Country Link
CN (1) CN111523086A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793057A (zh) * 2021-09-24 2021-12-14 成都行行行科技有限公司 一种基于回归分析模型的建筑招投标数据生成方法
CN114119062A (zh) * 2021-10-11 2022-03-01 深圳市房帮帮互联网科技有限公司 一种基于多变量的房地产自动估价方法
CN115408499A (zh) * 2022-11-02 2022-11-29 思创数码科技股份有限公司 政务数据分析报告图表自动化分析解读方法及系统
KR102510463B1 (ko) * 2021-11-09 2023-03-16 주식회사 하이퍼리서치 상권 분석 정보 제공 방법 및 이를 기록한 기록매체

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113793057A (zh) * 2021-09-24 2021-12-14 成都行行行科技有限公司 一种基于回归分析模型的建筑招投标数据生成方法
CN114119062A (zh) * 2021-10-11 2022-03-01 深圳市房帮帮互联网科技有限公司 一种基于多变量的房地产自动估价方法
KR102510463B1 (ko) * 2021-11-09 2023-03-16 주식회사 하이퍼리서치 상권 분석 정보 제공 방법 및 이를 기록한 기록매체
CN115408499A (zh) * 2022-11-02 2022-11-29 思创数码科技股份有限公司 政务数据分析报告图表自动化分析解读方法及系统

Similar Documents

Publication Publication Date Title
CN111523086A (zh) 一种基于对数线性回归和随机森林的房价走势分析方法
Avolio et al. A comprehensive approach to analyzing community dynamics using rank abundance curves
US20150019405A1 (en) System and method for building and validating a credit scoring function
CN110852856A (zh) 一种基于动态网络表征的发票虚开识别方法
CN106952159A (zh) 一种不动产抵押品风险控制方法、系统及存储介质
Georgopoulos et al. Firm heterogeneity and performance in a turbulent economic environment: evidence from Greece
WO2024036709A1 (zh) 一种异常数据检测方法及装置
Xu et al. Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode
CN112884590A (zh) 基于机器学习算法的电网企业融资决策方法
CN114943458A (zh) 一种基于权重分配模型的企业esg评级方法
Wang et al. Establishment of a financial crisis early warning system for domestic listed companies based on three decision tree models
Yu GDP Economic forecasting model based on improved RBF neural network
CN114862531A (zh) 一种基于深度学习的企业财务风险预警方法及系统
Zhang et al. Research on personal credit scoring model based on multi-source data
Yu et al. Study on prediction model of grain post-harvest loss
CN116911994A (zh) 对外贸易风险预警系统
Kirshners et al. A comparative analysis of short time series processing methods
CN113935846A (zh) 一种基于数理统计的金融风险预测评估系统及方法
Peiyi et al. Analysis and research on enterprise resumption of work and production based on K-means clustering
Issoufou‐Ahmed et al. On the transmission channels driving climate change‐income inequality nexus in sub‐Saharan A frican countries
Zhang et al. Research on Credit Risk Prediction Based on Cart Classification Tree
CN111143436A (zh) 用于大数据的数据挖掘方法
Wang Research on commercial bank risk early warning model based on dynamic parameter optimization neural network
Deng et al. Research on Comprehensive Competitive Evaluation of P2P Network Lending Platforms Based on BP Neural Network Model.
Liu et al. Empirical Study on Indicators Selection Model Based on Nonparametric K‐Nearest Neighbor Identification and R Clustering Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200811

WW01 Invention patent application withdrawn after publication