CN107194736A - 一种基于随机森林的房地产估价方法、系统及存储介质 - Google Patents

一种基于随机森林的房地产估价方法、系统及存储介质 Download PDF

Info

Publication number
CN107194736A
CN107194736A CN201710381054.0A CN201710381054A CN107194736A CN 107194736 A CN107194736 A CN 107194736A CN 201710381054 A CN201710381054 A CN 201710381054A CN 107194736 A CN107194736 A CN 107194736A
Authority
CN
China
Prior art keywords
building
mrow
real estate
estimated
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710381054.0A
Other languages
English (en)
Inventor
张恒
刘小娟
方绍云
杨定金
何睿
胡小梅
汤勇
彭名峰
黄秋红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Source Technology Co Ltd
Original Assignee
Chongqing Source Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Source Technology Co Ltd filed Critical Chongqing Source Technology Co Ltd
Priority to CN201710381054.0A priority Critical patent/CN107194736A/zh
Publication of CN107194736A publication Critical patent/CN107194736A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于随机森林的房地产估价方法,包括,步骤1建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;步骤2建立随机森林模型的步骤,步骤3对随机森林模型进行检验的步骤,步骤4房地产估价步骤,本发明随机森林算法不需要预先设定函数形式,可以精确拟合复杂的非线性关系的样本。

Description

一种基于随机森林的房地产估价方法、系统及存储介质
技术领域
本发明所涉及房地产估价领域,具体涉及一种基于随机森林的房地产估价方法、系统及存储介质。
背景技术
在房地产实际评估工作中经常用到的三大传统评估法市场比较法、成本法和收益法。
成本法:成本法利用了经济学中的生产费用价值理论。买卖双方重置成本上有了共同的认知,由于双方都出于达成交易的愿望,他们可以在重置成本的基础上协商价格,达成一致以完成交易。
市场比较法:市场比较法利用了经济学中的替代原理,该原理认为商品带给消费者的效用是可以被替代的,当某一商品价格上升时,消费者会倾向于寻找可以替代该商品效用的其他商品,以更便宜的价格获得效用上的满足。该原理表现为不同房产彼此之间效用的可替代性,通过与效用相似的交易房产进行比较,可以估算出该房产的价格,市场比较法主要用于市场交易活跃、有大量相似的房产交易的情况。
收益法:收益法则利用了房地产价格形成的预期原理,因为房地产可以被长久、连续地使用,房地产的价格可以由其未来可以给房主带来的所有现金流的现值决定,通过预测房地产以后每年的纯收益,估计选取适合适的资本化率,将未来现金流折现求和,以求取该房产的合理价格。收益法主要用来估算用于投资或经营的房地产,如投资性住宅、饭店、商铺等。
这三种方法在很大程度上依赖于评估人员的经验,每套房的评估需要花费专业评估人员大量的时间和精力。由于对房价的理解的原理不同、分析的角度不同,三种方法在实际中操作中的评估角度、适用范围、计算方法、评估步骤和难点、评估结果各有不同。在传统方法下,房地产评估只能依靠评估人员自身的知识和经验,因此特别强调房地产评估是经验、科学和艺术三者的结合体。以上三大房价评估方法在现实中运用都有其天生的缺陷。成本法在现实中实用性很强,但该方法需要大量的统计工作,而且房产的折旧往往与实际有出入,也会对房产估价造成偏差。市场比较法的使用需要具备一些苟刻的条件,如足够数量的相似房地产的交易信息是采用该方法的必要前提。然而在房地产市场发展滞后的区域,房产交易的总量有限,相似房产交易的数量更少。另外,即使得到了足够的交易信息,在对估价进行修正方面,仍存在很多难以量化的因素,比如交易时期的不同、参与者个人偏好等。收益法在对房地产未来收益的估计上存在很多不确定性,实际操作起来带有很大的随意性,尤其是还原利率的选择上没有固定的原则或公式为依据,因此估价的结果并不理想。因此,传统评估方法人力耗费较大,且评估程序复杂,准确性也很难度量。
在利用特征价格理论时,关于如何建立价格评估模型,尽管有众多用于房地产评估的技术和方法,但目前房产估价模型大部分是应用传统的多元线性回归,应用这种线性参数回归的方法,是在假设样本来自的总体分布是已知正态分布的基础上,估计并检验总体的相关情况。显然,这种建立在确定函数关系假设上的回归容易造成较大的误差。在房地产评估行业中,不会存在某种具体而又通用的函数形式来表达特征与市场价格之间的数值规律,这使得现有基于特征价格理论的估值方法和系统都很难获得准确的估价。
使用传统的多元线性回归方法或其他的参数回归方法时,需要预先设定函数形式,且难以精确拟合复杂的非线性关系的样本。
发明内容
为了解决上述问题,本发明提出一种基于随机森林的房地产估价方法,包括,
步骤1:建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
步骤2:建立随机森林模型的步骤:包括,
步骤21:在基础数据库中取75%的案列作为训练集,25%的案列作为测试集;
步骤22:采用自助法进行抽样,从测试集抽取k个训练样本集;
步骤23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
步骤24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
步骤3:对随机森林模型进行检验的步骤:包括,
步骤31:总体回归效果平均平方根误检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
步骤32:总体回归效果平均相对误差检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
步骤33:单个样本偏差匹配度检验的步骤,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对.;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
步骤34:单个样本偏差相对误差检验的步骤,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
步骤4:房地产估价步骤:包括,
步骤41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价步骤;
步骤42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
步骤43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价步骤;若未超过,则按步骤41继续寻找相似楼盘;
步骤44:在不含相似楼盘a的基础数据库中按照步骤2寻找相似楼盘,得到相似楼盘b;
步骤45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则转步骤44。
进一步的,所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理。
进一步的,还包括特征变量重要性评价步骤,
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值;
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值。
进一步的,在步骤2中依据特征变量重要性程度值对决策树生成过程进行优化。
本发明还提供一种基于随机森林的房地产估价系统,包括:
建立基础数据库模块:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
建立随机森林模型模块:包括
子模块21:在基础数据库中取75%案列作为训练集,25%数据作为测试集;
子模块22:采用自助法进行抽样,从测试集抽取k个训练样本集;
子模块23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
子模块24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
对随机森林模型进行检验模块:包括
子模块31:总体回归效果平均平方根误检验,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
子模块32:总体回归效果平均相对误差检验,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
子模块33:单个样本偏差匹配度检验,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对.;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
子模块34:单个样本偏差相对误差检验,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
房地产估价模块:包括
子模块41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价模块;
子模块42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
子模块43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价模块;若未超过,则按子模块41继续寻找相似楼盘;
子模块44:在不含相似楼盘a的基础数据库中调用子模块42寻找相似楼盘,得到相似楼盘b;
子模块45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则调用子模块44;
进一步的,所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级的量化处理。
进一步的,还包括特征变量重要性评价模块:
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值;
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值。
进一步的,在建立随机森林模型模块中依据所述特征变量重要性程度值对决策树生成过程进行优化。
本发明还提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下操作:
步骤1:建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
步骤2:建立随机森林模型的步骤:包括:
步骤21:在基础数据库中取75%的案列作为训练集,25%的案列作为测试集;
步骤22:采用自助法进行抽样,从测试集抽取k个训练样本集;
步骤23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
步骤24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
步骤3:对随机森林模型进行检验的步骤:包括:
步骤31:总体回归效果平均平方根误检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
步骤32:总体回归效果平均相对误差检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
步骤33:单个样本偏差匹配度检验的步骤,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对.;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
步骤34:单个样本偏差相对误差检验的步骤,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
步骤4:房地产估价步骤:包括:
步骤41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价步骤;
步骤42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
步骤43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价步骤;若未超过,则按步骤41继续寻找相似楼盘;
步骤44:在不含相似楼盘a的基础数据库中按照步骤2寻找相似楼盘,得到相似楼盘b;
步骤45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则转步骤44;
进一步的,所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理;
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行特征变量重要性评价步骤:
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值,
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值;
依据特征变量重要性程度值对决策树生成过程进行优化。
本发明的有益效果是:
1、本发明随机森林算法是市场比较法的延伸,它将市场中的案例进行充分学习,能够发现隐藏在房地产价格与各特征因素间的复杂关系,实际上是基于其样本内高精度拟合学习规律,样本外高置信度水平下推广知识的能力。使用随机森林进行估价能够充分体现其数据挖掘的优势,即不用对函数形式预先进行假定,避免了传统评估方法中人为设定权重时产生的偏差,这大大改善了传统评估中的主观性和随意性。随机森林模型可以快速处理大量的数据,提高了信息获取的时间和质量。在评估普通住宅房地产价值时,单笔评估平均耗时小于2秒,提高了房地产评估的效率。
2、本发明随机森林算法不需要预先设定函数形式,可以精确拟合复杂的非线性关系的样本。
3、本发明随机森林算法相比众多的机器学习方法,在同支持向量机,和神经网络的对比研究中,随机森林得出的结果通常比较好。能够成功地处理具有多个种类的分类变量。例如,在参数回归或是神经网络中,许多定性变量会导致估计参数的数量大量增加,这通常会导致回归结果的过度拟合。在随机森林中,一个类的名义变量可以用一个叉树来记录,并且只用其中的一部分来建树。这能避免由大量分类变量造成的问题,因此,在处理具有大量分类变量的问题时,随机森林有较大优势。由于随机森林采用方法建树,因此异常值对结果的影响将会减弱。这种方法通过比较每个解释变量的残差平方和的平均边际减少,可以衡量每个变量的重要性。
4、本发明随机森林算法在数据集上表现较好,并且在训练完后,它能够给出哪些特征比较重要,训练速度快,在训练过程中,能够检测到特征间的互相影响,容易做成并行化方法,实现比较简单等优点。能处理海量数据,对高维数据无需进行变量删减或筛选。
附图说明
图1为本发明基于随机森林的房地产估价方法流程图。
图2为本发明随即森林模型决策树形成流程图。
图3为本发明房地产估值过程流程图。
具体实施方式
本发明提出一种基于随机森林的房地产估价方法,包括,
步骤1:建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
特征变量为:商业中心距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修等13个。
具体的量化标准如下表所示:
步骤2:建立随机森林模型的步骤:包括,
步骤21:在基础数据库中取75%案列作为训练集,25%数据作为测试集;
步骤22:采用自助法进行抽样,从测试集抽取k个训练样本集;
采用自助法(boot-strap)抽样,从原始训练样本集S抽取k个训练样本集,且每个训练样本的样本容量都与原始数据集S相同;
步骤23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
步骤24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
步骤3:对随机森林模型进行检验的步骤:包括,
步骤31:总体回归效果平均平方根误检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
步骤32:总体回归效果平均相对误差检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
步骤33单个样本偏差匹配度检验的步骤,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对.;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
步骤34单个样本偏差相对误差检验的步骤,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
通过对随即森林模型进行验证,并使用验证通过的随即森林模型进行估价,确保了估价结果的准确度。
步骤4:房地产估价步骤:包括,
步骤41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价步骤;
步骤42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
步骤43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价步骤。若否则按步骤4继续寻找相似楼盘;
步骤44:在不含相似楼盘a的基础数据库中按照步骤2寻找相似楼盘,得到相似楼盘b;
步骤45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则转步骤44。
相似楼盘之间价格与特征的关联度很大,通过寻找相似楼盘,并依据相似楼盘进行估价,可以提高估价的准确度。
所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理。
还包括特征变量重要性评价步骤,
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值;
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值。
在步骤2中依据特征变量重要性程度值对决策树生成过程进行优化。
通过找出变量特征的重要性程度值,并依据所述重要性程度值来对决策树生成过程进行优化,提高了随即森林模型的估值准确性。
本发明还提供一种基于随机森林的房地产估价系统,包括:
建立基础数据库模块:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
特征变量为:商业中心距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修等13个。
具体的量化标准如下表所示:
建立随机森林模型模块:包括:
子模块21:在基础数据库中取75%案列作为训练集,25%数据作为测试集;
子模块22:采用自助法进行抽样,从测试集抽取k个训练样本集;
采用自助法(boot-strap)抽样,从原始训练样本集S抽取k个训练样本集,且每个训练样本的样本容量都与原始数据集S相同;
子模块23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
子模块24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
对随机森林模型进行检验模块:包括:
子模块31:总体回归效果平均平方根误检验,计算下式;
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
子模块32:总体回归效果平均相对误差检验,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
子模块33:单个样本偏差匹配度检验,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对.;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
子模块34:单个样本偏差相对误差检验,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
通过对随即森林模型进行验证,并使用验证通过的随即森林模型进行估价,确保了估价结果的准确度。
房地产估价模块:包括
子模块41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价模块;
子模块42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
子模块43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价模块。若否则按子模块4继续寻找相似楼盘;
子模块44:在不含相似楼盘a的基础数据库中调用子模块42寻找相似楼盘,得到相似楼盘b;
子模块45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则调用子模块44;
相似楼盘之间价格与特征的关联度很大,通过寻找相似楼盘,并依据相似楼盘进行估价,可以提高估价的准确度。
所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理。
还包括特征变量重要性评价模块:
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值;
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值。
在建立随机森林模型模块中依据所述特征变量重要性程度值对决策树生成过程进行优化。
通过找出变量特征的重要性程度值,并依据所述重要性程度值来对决策树生成过程进行优化,提高了随即森林模型的估值准确性。
本发明还提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下操作:
步骤1建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行
特征变量量化处理;
具体的量化标准如下表所示:
步骤2:建立随机森林模型的步骤:包括:
步骤21:在基础数据库中取75%案列作为训练集,25%数据作为测试集;
步骤22:采用自助法进行抽样,从测试集抽取k个训练样本集;
采用自助法(boot-strap)抽样,从原始训练样本集S抽取k个训练样本集,且每个训练样本的样本容量都与原始数据集S相同;
步骤23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
步骤24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
步骤3:对随机森林模型进行检验的步骤:包括,
步骤31:总体回归效果平均平方根误检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
步骤32:总体回归效果平均相对误差检验的步骤,计算下式:
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
步骤33单个样本偏差匹配度检验的步骤,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验。
步骤34单个样本偏差相对误差检验的步骤,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
通过对随即森林模型进行验证,并使用验证通过的随即森林模型进行估价,确保了估价结果的准确度。
步骤4:房地产估价步骤:包括
步骤41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价步骤;
步骤42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
步骤43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价步骤。若否则按步骤4继续寻找相似楼盘;
步骤44:在不含相似楼盘a的基础数据库中按照步骤2寻找相似楼盘,得到相似楼盘b;
步骤45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则转步骤44;
相似楼盘之间价格与特征的关联度很大,通过寻找相似楼盘,并依据相似楼盘进行估价,可以提高估价的准确度。
所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理;
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行特征变量重要性评价步骤:
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值,
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值;
依据特征变量重要性程度值对决策树生成过程进行优化。
通过找出变量特征的重要性程度值,并依据所述重要性程度值来对决策树生成过程进行优化,提高了随即森林模型的估值准确性。
本发明的有益效果是:
1、本发明随机森林算法是市场比较法的延伸,它将市场中的案例进行充分学习,能够发现隐藏在房地产价格与各特征因素间的复杂关系,实际上是基于其样本内高精度拟合学习规律,样本外高置信度水平下推广知识的能力。使用随机森林进行估价能够充分体现其数据挖掘的优势,即不用对函数形式预先进行假定,避免了传统评估方法中人为设定权重时产生的偏差,这大大改善了传统评估中的主观性和随意性。随机森林模型可以快速处理大量的数据,提高了信息获取的时间和质量。在评估普通住宅房地产价值时,单笔评估平均耗时小于2秒,提高了房地产评估的效率。
2、本发明随机森林算法不需要预先设定函数形式,可以精确拟合复杂的非线性关系的样本。
3、本发明随机森林算法相比众多的机器学习方法,在同支持向量机,和神经网络的对比研究中,随机森林得出的结果通常比较好。能够成功地处理具有多个种类的分类变量。例如,在参数回归或是神经网络中,许多定性变量会导致估计参数的数量大量增加,这通常会导致回归结果的过度拟合。在随机森林中,一个类的名义变量可以用一个叉树来记录,并且只用其中的一部分来建树。这能避免由大量分类变量造成的问题,因此,在处理具有大量分类变量的问题时,随机森林有较大优势。由于随机森林采用方法建树,因此异常值对结果的影响将会减弱。这种方法通过比较每个解释变量的残差平方和的平均边际减少,可以衡量每个变量的重要性。
4、本发明随机森林算法在数据集上表现较好,并且在训练完后,它能够给出哪些特征比较重要,训练速度快,在训练过程中,能够检测到特征间的互相影响,容易做成并行化方法,实现比较简单等优点。能处理海量数据,对高维数据无需进行变量删减或筛选。

Claims (10)

1.一种基于随机森林的房地产估价方法,其特征在于,包括,
步骤1:建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
步骤2:建立随机森林模型的步骤:包括,
步骤21:在基础数据库中取75%的案列作为训练集,25%的案列作为测试集;
步骤22:采用自助法进行抽样,从测试集中抽取k个训练样本集;
步骤23:对k个训练样本集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
步骤24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
步骤3:对随机森林模型进行检验的步骤:包括,
步骤31:总体回归效果平均平方根误检验的步骤,计算下式:
<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
步骤32:总体回归效果平均相对误差检验的步骤,计算下式:
<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> </mfrac> </mrow>
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
步骤33:单个样本偏差匹配度检验的步骤,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
步骤34:单个样本偏差相对误差检验的步骤,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
步骤4:房地产估价步骤:包括,
步骤41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价步骤;
步骤42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
步骤43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价步骤;若否则按步骤41继续寻找相似楼盘;
步骤44:在不含相似楼盘a的基础数据库中按照步骤2寻找相似楼盘,得到相似楼盘b;
步骤45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测;否则,转步骤44。
2.如权利要求1所述基于随机森林的房地产估价方法,其特征在于,所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理。
3.如权利要求1所述基于随机森林的房地产估价方法,其特征在于,还包括特征变量重要性评价步骤,
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值;
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值。
4.如权利要求1所述基于随机森林的房地产估价方法,其特征在于,在步骤2中依据特征变量重要性程度值对决策树生成过程进行优化。
5.一种基于随机森林的房地产估价系统,其特征在于,包括:建立基础数据库模块:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
建立随机森林模型模块:包括,
子模块21:在基础数据库中取75%的案列作为训练集,25%的数据作为测试集;
子模块22:采用自助法进行抽样,从测试集抽取k个训练样本集;
子模块23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
子模块24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
对随机森林模型进行检验模块:包括,
子模块31:总体回归效果平均平方根误检验,计算下式:
<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
子模块32:总体回归效果平均相对误差检验,计算下式:
<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> </mfrac> </mrow>
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
子模块33:单个样本偏差匹配度检验,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
子模块34:单个样本偏差相对误差检验,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
房地产估价模块:包括
子模块41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价模块;
子模块42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
子模块43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价模块;若否则按子模块41继续寻找相似楼盘;
子模块44:在不含相似楼盘a的基础数据库中调用子模块42寻找相似楼盘,得到相似楼盘b;
子模块45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则调用子模块44。
6.如权利要求5所述基于随机森林的房地产估价系统,其特征在于,所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级的量化处理。
7.如权利要求5所述基于随机森林的房地产估价系统,其特征在于,还包括特征变量重要性评价模块:
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值;
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值。
8.如权利要求5所述基于随机森林的房地产估价系统,其特征在于,在建立随机森林模型模块中依据所述特征变量重要性程度值对决策树生成过程进行优化。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如下操作:
步骤1:建立基础数据库步骤:采集房地产数据组成基础数据库,采用聚类算法或/和去重算法或/和筛选算法对基础数据库进行数据处理,对房地产数据进行特征变量量化处理;
步骤2:建立随机森林模型的步骤:包括,
步骤21:在基础数据库中取75%的案列作为训练集,25%的数据作为测试集;
步骤22:采用自助法进行抽样,从测试集抽取k个训练样本集;
步骤23:对k个训练集进行学习,以此生成k个决策树模型,在决策树生成过程中,从变量中随机抽取F个变量,各个内部节点利用所述F个特征变量上最优的分裂方式来分裂,且F值在随机森林模型的形成过程中为恒定常数;
步骤24:对这k个决策树的结果取简单平均值来得到最终的预测结果;
步骤3:对随机森林模型进行检验的步骤:包括,
步骤31:总体回归效果平均平方根误检验的步骤,计算下式:
<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow>
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若平方根小于预设值则随即森林模型通过检验;
步骤32:总体回归效果平均相对误差检验的步骤,计算下式:
<mrow> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <mo>|</mo> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>Y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> </mrow> <msub> <mi>X</mi> <mi>i</mi> </msub> </mfrac> </mrow>
其中:Xi预测值,Yi挂牌价,n为测试样本数目;若相对误差小于预设值则随即森林模型通过检验;
步骤33:单个样本偏差匹配度检验的步骤,计算下式:
P=Xi/Yi
其中:Xi预测值,Yi挂牌价,P为偏差匹配对.;若偏差匹配度与1的绝对差小于预设值,则随即森林模型通过检验;
步骤34单个样本偏差相对误差检验的步骤,计算下式:
δi=Δi/Yi
其中:δi实际相对误差,Δi绝对误差,Yi挂牌价;若同一楼盘90%的数据其相对偏差在5%以内,则随即森林模型通过检验;
步骤4:房地产估价步骤:包括:
步骤41:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,采用待估楼盘为中心1公里范围内同一行政区的楼盘案列数据对待随机森林预测并结束房地产估价步骤;
步骤42:在基础数据库中,查找待估楼盘为中心1公里范围内同一行政区的楼盘案列数据,若案例数量大于或等于3个,寻找周边相似楼盘a;
步骤43:将待估楼盘与相似楼盘a混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘,案例数量是否超过3个,若超过,采用待估楼盘与相似楼盘a为中心1公里范围内同一行政区的楼盘案列数据对待估楼进行随机森林预测并结束房地产估价步骤;若否则按步骤41继续寻找相似楼盘;
步骤44:在不含相似楼盘a的基础数据库中按照步骤2寻找相似楼盘,得到相似楼盘b;
步骤45:将带估楼盘与相似楼盘a和相似楼盘b混合,判断以待估楼盘为中心1公里范围内同一行政区的楼盘案例数量是否超过3个,若超过,以待估楼盘为中心1公里范围内同一行政区的楼盘对待估房地产进行随机森林预测,否则转步骤44。
10.如权利要求9所述存储介质,其特征在于,所述对房地产案列进行特征变量量化处理具体为:对房地产商业中心按距离、交通、物管费、容积率、绿化率、建成年代、行政区、楼盘品牌、建筑面积、楼层、朝向、景观、装饰装修进行5个等级量化处理;
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行特征变量重要性评价步骤:
随机地给各特征变量加入噪声干扰,依据准确率降低的程度来确定特征变量的重要性程度值,
在变量处加入噪声干扰,依据模型准确率所增加的均方差数值确定特征变量重要性程度值;
依据特征变量重要性程度值对决策树生成过程进行优化。
CN201710381054.0A 2017-05-25 2017-05-25 一种基于随机森林的房地产估价方法、系统及存储介质 Pending CN107194736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710381054.0A CN107194736A (zh) 2017-05-25 2017-05-25 一种基于随机森林的房地产估价方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710381054.0A CN107194736A (zh) 2017-05-25 2017-05-25 一种基于随机森林的房地产估价方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN107194736A true CN107194736A (zh) 2017-09-22

Family

ID=59875017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710381054.0A Pending CN107194736A (zh) 2017-05-25 2017-05-25 一种基于随机森林的房地产估价方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN107194736A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846695A (zh) * 2018-06-07 2018-11-20 中国联合网络通信集团有限公司 终端更换周期的预测方法及装置
CN109272364A (zh) * 2018-10-11 2019-01-25 北京国信达数据技术有限公司 自动估值模型建模方法
CN109767249A (zh) * 2017-11-09 2019-05-17 北京京东尚科信息技术有限公司 预测性价比的方法和装置
CN110363403A (zh) * 2019-06-27 2019-10-22 中国铁道科学研究院集团有限公司 铁路钢轨损伤预测方法及装置
CN111415276A (zh) * 2019-06-17 2020-07-14 深圳市海豚居科技有限公司 一种基于随机森林的房屋合租推荐方法
CN111738831A (zh) * 2020-06-19 2020-10-02 中国建设银行股份有限公司 一种业务处理方法、装置及系统
CN111815366A (zh) * 2020-07-22 2020-10-23 江阴逐日信息科技有限公司 一种基于要素匹配的服装成本快速核算方法
CN111950166A (zh) * 2020-08-26 2020-11-17 广州博依特智能信息科技有限公司 一种基于数据挖掘的生活用纸造纸机成本优化方法
CN111951033A (zh) * 2019-05-16 2020-11-17 重庆住派科技有限公司 房屋装修数据匹配方法及装修管理平台

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767249A (zh) * 2017-11-09 2019-05-17 北京京东尚科信息技术有限公司 预测性价比的方法和装置
CN108846695A (zh) * 2018-06-07 2018-11-20 中国联合网络通信集团有限公司 终端更换周期的预测方法及装置
CN109272364A (zh) * 2018-10-11 2019-01-25 北京国信达数据技术有限公司 自动估值模型建模方法
CN111951033A (zh) * 2019-05-16 2020-11-17 重庆住派科技有限公司 房屋装修数据匹配方法及装修管理平台
CN111415276A (zh) * 2019-06-17 2020-07-14 深圳市海豚居科技有限公司 一种基于随机森林的房屋合租推荐方法
CN111415276B (zh) * 2019-06-17 2024-01-09 深圳市海豚居科技有限公司 一种基于随机森林的房屋合租推荐方法
CN110363403A (zh) * 2019-06-27 2019-10-22 中国铁道科学研究院集团有限公司 铁路钢轨损伤预测方法及装置
CN111738831A (zh) * 2020-06-19 2020-10-02 中国建设银行股份有限公司 一种业务处理方法、装置及系统
CN111815366A (zh) * 2020-07-22 2020-10-23 江阴逐日信息科技有限公司 一种基于要素匹配的服装成本快速核算方法
CN111950166A (zh) * 2020-08-26 2020-11-17 广州博依特智能信息科技有限公司 一种基于数据挖掘的生活用纸造纸机成本优化方法
CN111950166B (zh) * 2020-08-26 2021-04-02 广州博依特智能信息科技有限公司 一种基于数据挖掘的生活用纸造纸机成本优化方法

Similar Documents

Publication Publication Date Title
CN107194736A (zh) 一种基于随机森林的房地产估价方法、系统及存储介质
Ellison et al. Geographic concentration in US manufacturing industries: a dartboard approach
CN104700152A (zh) 一种融合季节销售信息与搜索行为信息的烟草销量预测方法
US20130041721A1 (en) Art evaluation engine and method for automatic development of an art index
CN105184078A (zh) 基于专利相对量分析的技术成熟度评价方法
Nasridinovna Methodological Foundations for Assessing Competitiveness
de Almeida et al. Does demand forecasting matter to retailing?
Miller et al. The motivation for foreign direct investment
Filimonova et al. Structural and Dynamic Modelling of the Regions’ Foreign Trade Profile Based on Graph Cluster Analysis
Bhadury et al. Constructing a Coincident Economic Indicator for India: How Well Does It Track Gross Domestic Product?
Tanamal et al. House price prediction model using random forest in surabaya city
Mustapa et al. Forecasting prices of fish and vegetable using web scraped price micro data
Nassibi et al. Demand Forecasting Models for Food Industry by Utilizing Machine Learning Approaches
Carter et al. Intra-Industry Trade and Foreign Direct Investment in Processed Food as Alternatives to Trade Theory
CN110517060B (zh) 一种基于品类购买次数的数据分析处理方法及系统
Novian The Analysis of the Application of Customer Purchase Mining Data on Paint Sales Using Apriori Algorithm (Case Study: PT Indowarna Cemerlang Indonesia)
Idowu et al. Customer Segmentation Based on RFM Model Using K-Means, Hierarchical and Fuzzy C-Means Clustering Algorithms
Ayu et al. Mining association rules in seasonal transaction data
Katzler Methods for comparing diversification strategies on the Swedish real estate market
Haqqoni et al. Implementation of marketplace data in the production of Consumer Price Index in Indonesia
Rho et al. Predicting agricultural and livestock products purchases using the Internet search index and data mining techniques
Chen et al. Using data mining technology to design an intelligent CIM system for IC manufacturing
Pu et al. A systematic literature review on business cycle approaches: Measurement, nature, duration
Ortenzi et al. Artificial Intelligence approaches for fast and portable traceability assessment of EVOO
Rahman et al. Classification of Tempeh Maturity Using Decision Tree and Three Texture Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170922