CN111080356A - 一种利用机器学习回归模型计算住宅价格影响因素的方法 - Google Patents

一种利用机器学习回归模型计算住宅价格影响因素的方法 Download PDF

Info

Publication number
CN111080356A
CN111080356A CN201911272642.6A CN201911272642A CN111080356A CN 111080356 A CN111080356 A CN 111080356A CN 201911272642 A CN201911272642 A CN 201911272642A CN 111080356 A CN111080356 A CN 111080356A
Authority
CN
China
Prior art keywords
price
characteristic
house
machine learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911272642.6A
Other languages
English (en)
Inventor
殷明均
李草冬
陈炜
陈远明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jugen Technology Co Ltd
Southwest University of Science and Technology
Original Assignee
Sichuan Jugen Technology Co Ltd
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Jugen Technology Co Ltd, Southwest University of Science and Technology filed Critical Sichuan Jugen Technology Co Ltd
Priority to CN201911272642.6A priority Critical patent/CN111080356A/zh
Publication of CN111080356A publication Critical patent/CN111080356A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;步骤3:构建基于行政区划的机器学习特征数据集;步骤4:建立机器学习模型,并输入训练数据训练该模型;步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。本发明通过利用机器学习对特征进行回归计算,得到住宅价格影响因素的特征权重模型,能够更好地对住宅价格进行预测和分析。

Description

一种利用机器学习回归模型计算住宅价格影响因素的方法
技术领域
本发明涉及住宅价格影响因素研究技术领域,具体是一种利用机器学习回归模型计算住宅价格影响因素的方法。
背景技术
房地产作为国民经济的重要产业其发展日趋稳健。2018年全国房地产开发投资12.0264万亿元,其中住宅投资8.5192万亿元,占房地产开发投资的比重为70.8%。房地产业占我国GDP比重达到3.8%,影响上下游行业达50多个,其对于拉动经济增长、提高财政及居民财产性收入、扩大就业等方面都发挥着重要作用。价格作为市场经济的关键变量起着调节资源有效配置的职能,住宅价格指数作为房产价格的指示变量,备受政府、投资者、消费者的关注,如何准确衡量房地产价格,对于价格的影响因素相关性分析,这个问题由来已久。
住房的耐久性、异质性、固定性是房屋作为特殊商品的重要属性,故而与其他商品相比需要更多的信息搜寻成本,而且也大大增加了住房定价的难度。城市住宅具耐久性特点导致住宅市场涉及到新开发住宅和存量住宅市场,即新建商品住房与二手房存量住房。随着我国房地产业的快速发展,二手房逐渐成为市场交易的主力,部分地区二手房的交易量已远超新建商品房,二手房价格的变化已经成为我国社会经济发展的重要参考。
国外研究表明Hedonic方法是分析房屋这种异质性商品的理想工具。自1967年此方法首次用于房屋价格以来,经历了半个世纪的发展,至今在发达国家依然没有形成统一的技术基准,很多问题仍有待研究。国内关于Hedonic方法的研究时间更短,仅有10余年历史。由于该方法基于效用分析的逻辑,使得东、西方住房制度的不同、文化偏好的差异都会对建模结果产生较大影响。随着大数据的发展,海量数据让我们有更多的信息源以确定Hedonic影响因子,并大大提高建模结果的稳健性水平。
目前,在房价预测与价格特征相关性分析问题的研究方法主要有以下方法:1、基于传统逻辑回归方法预测,选择相关系数较高的特征,简单编码后,利用最小二乘法对数据进行拟合;2、基于现有软件的集成模型,使用多个模型得到多个预测结果,在其中选取可能性最大的一种。
传统的房价预测多数是专业的估价师基于近段时间来某个地区基础房价、房源供给关系、政策以及自身经验给出房价预测。此类方法一般都严重依赖于估价师的主观判断以及经验,针对同一区域的房价,不同的估价师最终得出的房价预测可能不同。可见传统的房价预测方法均存在极大局限性,其房价预测结果不够准确。
发明内容
为克服现有技术的不足,本发明提供了一种利用机器学习回归模型计算住宅价格影响因素的方法,基于房地产住宅交易大数据,通过从房屋特征中筛选若干能够影响房屋价格的特征变量,利用多层神经网络提取数据特征,然后利用机器学习对特征进行回归计算,得到住宅价格影响因素的特征权重模型,从而更好地对住宅价格进行预测和分析。
本发明解决上述问题所采用的技术方案是:
一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:
步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;
步骤3:构建基于行政区划的机器学习特征数据集;
步骤4:建立机器学习模型,并输入训练数据训练该模型;
步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。
进一步地,作为优选技术方案,所述步骤1的具体过程为:
步骤1-1:获取待计算的行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征;
步骤1-2:对获取到的二手房交易信息及其房屋特征进行分类和编码标记;
步骤1-3:建立住宅成交信息与房屋特征数据的关联,形成区域-时间切面的特征数据集。
进一步地,作为优选技术方案,所述步骤2的具体过程为:
步骤2-1:利用散点图、直方图和箱形图分析数据关联特征;
步骤2-2:从步骤1-1中获取的房屋特征中筛选出若干影响房屋价格的特征变量;
步骤2-3:根据步骤1-3中得到的特征数据集,将步骤2-2中筛选出的特征变量的特征值进行量化。
进一步地,作为优选技术方案,所述步骤2-2中,影响房屋价格的特征变量包括12项区域性特征组和11项个别性特征组。
进一步地,作为优选技术方案,所述步骤2-3中,当筛选出的特征变量为连续变量时,则直接量化;当筛选出的特征变量为分类变量时,则评分量化。
进一步地,作为优选技术方案,所述步骤3中,采用贝叶斯统计法将已有特征分组形成新特征,其表达式为:
Figure BDA0002313802020000031
其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值。
进一步地,作为优选技术方案,所述步骤4的具体过程为:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
Figure BDA0002313802020000032
存在均方误差
Figure BDA0002313802020000033
其中n是使用样本的数量,这里y和x都是训练数据集已知的样本数据;
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
Figure BDA0002313802020000034
Figure BDA0002313802020000035
通过在L(2)添加权重衰减项
Figure BDA0002313802020000041
得到如下表达式:
Figure BDA0002313802020000042
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
Figure BDA0002313802020000043
进一步地,作为优选技术方案,所述步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
进一步地,作为优选技术方案,还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。
进一步地,作为优选技术方案,所述步骤1中,通过住宅交易数据库和高德开放平台LBS服务获取数据。
本发明相比于现有技术,具有以下有益效果是:
本发明以房地产住宅交易大数据为基础,利用修正后的特征价格构建机器学习回归模型,预测对住宅价格产生影响的各项特征项目及其影响权重值。本发明提出了一种基于区域性因素和案例个别性特征组合的新思路,并基于机器学习模型结构进行逐层训练网络结构,相较于传统手工标记提取特征和常见机器学习方法,能有效发现数据内在的非线性特征,更好的解决房屋价格预测问题。
附图说明
图1为本发明的流程图;
图2为房屋面积变化与最终成交价格相关度的分布图;
图3为房屋样本的楼层与价格的二元相关性分布图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,本发明较佳实施例所示的一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:
步骤1:获取待计算行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征,并对已获取到的数据进行分类和编码标记,建立住宅成交信息与房屋特征数据的关联,形成区域-时间切面的特征数据集,这里的区域-时间切面特征数据集指的是在机器学习领域,一个相对时间段内,指定行政区划的训练数据集。
具体地,待计算小区和周边小区共同构成了城市区域地块,将其定义为区位性特征,表1所示为区位特征观测指标体系,其包括3个一级指标、12个二级指标以及每个二级指标对应的特征观察组详细说明,我们可以根据表1进行区域性特征量化;住宅交易大数据体现为单个房屋样本交易数据,将其定义为个别性特征,表2所示为个别特征观测指标体系,其包括2个一级指标、11个二级指标以及每个二级指标对应的特征观察组详细说明,我们可以根据表2进行个别性特征量化;区位性特征与样本个别性特征存在的对应关系,此时需要进一步进行数据清理,将相同城市区域地块的交易样本进行对应,同时标定房屋交易样本所在地块的经纬度坐标。通过GPS定位信息,使用高德地理数据开放平台服务,根据表1进一步的量化区域地块数据特征,形成区域-时间切面的特征数据集。
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;具体地,输出部分数据,观察数据特征,区别类别性特征与数值型特征;逐一分析房价与特征变量的关系,计算房屋价格因变量的斜度和峭度,根据直方图了解因变量分布情况;多因素分析,通过散点、直方、气泡图等图表了解各特征之间的关系;对类型特征绘制箱型图,进一步确定其特征类型;通过热力图,得到各特征间的相关系数,方便特征工程;使用个数值型特征的平均值,填充住宅交易数据库中的样本缺失值;计算样本销售日期和建筑日期之间的间隔,形成新特征;计算样本房屋面积与楼层数比值,形成新特征;计算室、厅、卫比值,形成新特征;根据经纬度计算房屋与周边地块房价最高/最低房屋的距离,形成新特征;计算停车位数量与小区户数的比值,形成新特征;
表1区位性特征对应的观测指标体系
Figure BDA0002313802020000061
表2个别性特征对应的观测指标体系
Figure BDA0002313802020000071
步骤3:构建基于行政区划的机器学习特征数据集;具体地,利用贝叶斯统计法,依次将区域-时间切面的组内特征数据计算区间分量,其表达式为:
Figure BDA0002313802020000072
其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值;
步骤4:建立机器学习模型,并输入训练数据训练该模型,这里的训练数据指的是已有房屋交易数据经数据量化后得到的训练数据集;具体过程如下:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
Figure BDA0002313802020000081
存在均方误差
Figure BDA0002313802020000082
其中n是使用样本的数量,这里y和x都是训练数据集已知的样本数据,该函数的计算需要多个训练样本;
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
Figure BDA0002313802020000083
Figure BDA0002313802020000084
通过在L(2)添加权重衰减项
Figure BDA0002313802020000085
得到如下表达式:
Figure BDA0002313802020000086
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
Figure BDA0002313802020000087
经不断地训练,形成某个特定时段的城市地块特征影响权重模型,再利用特征数据剥离后的测试数据集进行准确度预测,逐步将误差精度缩减至0.11,表示该模型可以准确预测89%特征权重。
上述步骤4-3中,通过增加权重衰减,能够有效抑制过拟合,从而避免房价的变化对于特征因子的选择和权重过于重现训练数据集的已有数值,提高预测的准确性。
在本实施例的步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
不同的城市(行政区划)在一个相同的评估指标体系中,可能相同的因素(例如层高)对于价格的敏感程度不一样,即特定城市的房屋价格,受不同影响因素和其对应的因子会不同,本发明通过不断的训练、调参,能够让不同城市的地块群的数据模型达到最优化,从而能够提高价格预测的准确度。
下面,结合实例对本发明的实现过程进行说明。
一、形成训练数据集
对某评估目标进行估价时,首先需要了解该标的物所在地块的整体数据概况,首先根据评估目标所在位置,确定评估目标所在的城市行政区划和所属地块。将该地块内收录的所有商业小区基础信息从数据库从提取出来,得到该地块内小区基础数据如表3所示:
表3行政区小区基础数据
Figure BDA0002313802020000091
Figure BDA0002313802020000101
根据地块内的小区分布基础数据集,对照表1所示的区位性特征对应的观测指标体系,形成对应小区的区域性数据特征值。
以“学校”特征值计算为例,需要读取该小区的GPS坐标,以该GPS坐标为原点,分别以100米、400米、800米、1600米为半径搜索周边的幼儿园、中小学和其它K12培训机构,此处搜索半径的步长应当根据地块所在行政区的总体教学资源富集程度分别测算。
通过综合对比相应教育资源的临近程度,将该小区的“学校”这一特征属性进行等级分类,分别标注为1-5个等级,代表该小区住户受教育的便利程度,形成可量化指标。
表4行政区小区对应区域特征数据集
Figure BDA0002313802020000102
此时,评估标的物所属的行政区划内小区特征数据集已初步形成。此项小区特征值量化评估,需要每半年通过程序调度自动化和人工评估相结合的方法进行数据刷新并持久化到数据库。
接下来,从数据库中读取上述地块内的所有房屋交易样本,通过《个别性特征对应的观测指标体系》根据房屋交易样本生成个别性因素数据特征。
以“装修”特征为例,通过字典分类的方法,将房屋样本的装修状况划分为“豪华装修、精装修、简单装修、清水房”四级,分别用1-4数字代替进行阶段性量化指标,形成的房屋标本特征数据集如表5所示。
表5房屋样本特征数据集
Figure BDA0002313802020000111
根据小区与房屋样本之间的1→N对应关系,通过小区数据集与房屋样本数据集进行等值连接,形成具备时点价格和影响因素特征的训练数据集,房屋价格特征数据集如表6所示。
表6房屋价格特征数据集
Figure BDA0002313802020000112
二、逐个归一化影响因子并评估特征值在最终价格中的影响权重
如图2所示,以房屋面积对价格影响为例,图中实线和虚线分别标注了同一城市的两个地块内所有房屋样本,将房屋面积变化与最终成交价格相关度的分布情况,图示中横坐标为房屋面积,此处将房屋面积按照7平米步长进行分段汇总,纵坐标为该面积区间的房屋价格指数。
从示例中可以明显看出在两个不同的城市地块之间,相同面积的房屋样本,其成交价格影响指数存在显著的区域性差异。随着房屋建筑面积的数量阶段性增加,其对于归一化后的房屋价格指数的影响程度不同。
在图示中实线标注的地块样本数据集,房屋的价格指数对于面积变化的相关度不高。在单个面积区间内,其价格分布差异(线段长度),随着房屋面积的增长,价格分布的变化幅度相对稳定。虚线标注的行政区数据集中,价格指数对于房屋面积的变化反应相对敏感,随着面积的增长,价格指数的分布差异逐渐变大,表示虚线标注的地块的价格与房屋面积特征呈现较大的相关性。
通过模型的多批次训练,依次评估价格与其影响因素的相关性特征值,可以很好的反应出价格指数在不同城市与地块之间的关联性差异。
本实施例还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。中位数、平均数补全用于填充数据缺失项,由于数据训练集很难做到所有的数据都完整,通过该项操作,可根据指标体系进行人为选择。拉依达准则用于删除训练数据中的某一行数据,比如,房屋价格明显偏离于群体值,因为价格值是连续值;其它影响因素的值是编码值,没有连续性,例如,房屋朝向只有1-8,这个值本身不具备连续性特征。
通过大量的数据样本建立的训练数据模型,可以有效的反应上述各房屋价格影响因子的权重分布,以房屋样本的楼层-价格二元相关性为例,在图3中,可以明显地反映出样本楼层在价格指数模型的趋中性。在所示的样本集训集所反应的态势分布中,可以通过数据集的均值、方差剔除参与计算的离群值,并逐步回归计算至合理的影响指数因子。
利用机器学习方法处理大数据样本,其实质是利用数理分析方法对于房屋价格指数及其影响因子进行科学计算。相当于传统房屋估价行业所采取的经验估价法,可以更好的客观反应价格变化,分析其价格变化的相关性因素。
通过上述方法,能够有效地发现数据内在的非线性特征,更精准地预测出住宅价格产生影响的各项特征项目及其影响权重值,从而更好地解决房屋价格预测问题,便于更好地分析房屋价格。
如上所述,可较好地实现本发明。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (10)

1.一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,包括以下步骤:
步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;
步骤3:构建基于行政区划的机器学习特征数据集;
步骤4:建立机器学习模型,并输入训练数据训练该模型;
步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。
2.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤1的具体过程为:
步骤1-1:获取待计算的行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征;
步骤1-2:对获取到的住宅交易信息及其房屋特征进行分类和编码标记;
步骤1-3:建立住宅成交价格与房屋特征数据的关联,形成区域-时间切面的特征数据集。
3.根据权利要求2所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2的具体过程为:
步骤2-1:利用散点图、直方图和箱形图分析数据关联特征;
步骤2-2:从步骤1-1中获取的房屋特征中筛选出若干影响房屋价格的特征变量;
步骤2-3:根据步骤1-3中得到的特征数据集,将步骤2-2中筛选出的特征变量的特征值进行量化。
4.根据权利要求3所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2-2中,影响房屋价格的特征变量包括12项区域性特征组和11项个别性特征组。
5.根据权利要求3所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2-3中,当筛选出的特征变量为连续变量时,则直接量化;当筛选出的特征变量为分类变量时,则评分量化。
6.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤3中,采用贝叶斯统计法将已有特征分组形成新特征,其表达式为:
Figure FDA0002313802010000021
其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值。
7.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤4的具体过程为:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
Figure FDA0002313802010000022
存在均方误差
Figure FDA0002313802010000023
其中n是使用样本的数量,y和x都是训练数据集已知的样本数据;
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
Figure FDA0002313802010000024
Figure FDA0002313802010000025
通过在L(2)添加权重衰减项
Figure FDA0002313802010000026
得到如下表达式:
Figure FDA0002313802010000027
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
Figure FDA0002313802010000031
8.根据权利要求7所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
9.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。
10.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤1中,通过住宅交易数据库和高德开放平台LBS服务获取数据。
CN201911272642.6A 2019-12-11 2019-12-11 一种利用机器学习回归模型计算住宅价格影响因素的方法 Pending CN111080356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911272642.6A CN111080356A (zh) 2019-12-11 2019-12-11 一种利用机器学习回归模型计算住宅价格影响因素的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911272642.6A CN111080356A (zh) 2019-12-11 2019-12-11 一种利用机器学习回归模型计算住宅价格影响因素的方法

Publications (1)

Publication Number Publication Date
CN111080356A true CN111080356A (zh) 2020-04-28

Family

ID=70314010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911272642.6A Pending CN111080356A (zh) 2019-12-11 2019-12-11 一种利用机器学习回归模型计算住宅价格影响因素的方法

Country Status (1)

Country Link
CN (1) CN111080356A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626789A (zh) * 2020-06-01 2020-09-04 武汉轻工大学 房屋价格预测方法、装置、设备及存储介质
CN111724203A (zh) * 2020-06-15 2020-09-29 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及系统
CN111815366A (zh) * 2020-07-22 2020-10-23 江阴逐日信息科技有限公司 一种基于要素匹配的服装成本快速核算方法
CN112862575A (zh) * 2021-01-20 2021-05-28 苏州市中地行信息技术有限公司 一种基于大数据分析的住宅土地拍卖价格智能评估方法及云平台
CN113298448A (zh) * 2021-07-26 2021-08-24 广东新禾道信息科技有限公司 基于互联网的租赁指数分析方法、系统及云平台
CN113627977A (zh) * 2021-07-30 2021-11-09 北京航空航天大学 一种基于异构图的房屋价值预测方法
CN113793236A (zh) * 2021-09-16 2021-12-14 深圳壹账通智能科技有限公司 基于多层感知器的房价指数的显示方法、装置以及设备
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626789A (zh) * 2020-06-01 2020-09-04 武汉轻工大学 房屋价格预测方法、装置、设备及存储介质
CN111724203A (zh) * 2020-06-15 2020-09-29 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及系统
CN111724203B (zh) * 2020-06-15 2024-02-27 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及系统
CN111815366A (zh) * 2020-07-22 2020-10-23 江阴逐日信息科技有限公司 一种基于要素匹配的服装成本快速核算方法
CN112862575A (zh) * 2021-01-20 2021-05-28 苏州市中地行信息技术有限公司 一种基于大数据分析的住宅土地拍卖价格智能评估方法及云平台
CN113298448A (zh) * 2021-07-26 2021-08-24 广东新禾道信息科技有限公司 基于互联网的租赁指数分析方法、系统及云平台
CN113298448B (zh) * 2021-07-26 2021-12-03 广东新禾道信息科技有限公司 基于互联网的租赁指数分析方法、系统及云平台
CN113627977A (zh) * 2021-07-30 2021-11-09 北京航空航天大学 一种基于异构图的房屋价值预测方法
CN113793236A (zh) * 2021-09-16 2021-12-14 深圳壹账通智能科技有限公司 基于多层感知器的房价指数的显示方法、装置以及设备
CN116166960A (zh) * 2023-02-07 2023-05-26 河南大学 用于神经网络训练的大数据特征清洗方法及系统
CN116166960B (zh) * 2023-02-07 2023-09-29 山东经鼎智能科技有限公司 用于神经网络训练的大数据特征清洗方法及系统

Similar Documents

Publication Publication Date Title
CN111080356A (zh) 一种利用机器学习回归模型计算住宅价格影响因素的方法
Ali et al. A data-driven approach for multi-scale building archetypes development
CN111104981B (zh) 一种基于机器学习的水文预报精度评价方法及系统
González-García et al. Embedding environmental, economic and social indicators in the evaluation of the sustainability of the municipalities of Galicia (northwest of Spain)
CN101853290A (zh) 基于地理信息系统的气象服务效益评估方法
CN111797188B (zh) 一种基于开源地理空间矢量数据的城市功能区定量识别方法
CN114997534A (zh) 基于视觉特征的相似降雨预报方法和设备
Borst et al. Using geographically weighted regression to detect housing submarkets: Modeling large-scale spatial variations in value
CN114529154A (zh) 人口规模预测指标体系的构建方法、预测方法、装置及系统
CN112184495B (zh) 存量低效土地监测系统及应用其的分析平台
Zhalezka et al. Multy-criteria fuzzy analysis of regional development
CN109190783B (zh) 城市水网渗漏空间聚集性检测及关键影响因素识别方法
Farida et al. Identifying Significant Factors Affecting the Human Development Index in East Java Using Ordinal Logistic Regression Model
CN114511250A (zh) 一种基于机器学习的企业外迁风险预警方法及系统
CN115393148A (zh) 自然资源用数据监测系统、监测方法、设备、介质及终端
CN115099699A (zh) 一种基于mabac综合算法的海岸侵蚀强度评价方法
Hermans Implementation of geographically weighted regression in automated valuation models in The Netherlands
Carpentieri et al. Urban Energy Consumption in the City of Naples (Italy): A Geographically Weighted Regression Approach
Yadegari et al. Providing a Comprehensive Model to Measure the Performance Dimensions of Industrial Clusters Using the Hybrid Approach Of Q-Factor Analysis And Cluster Analysis
İşeri et al. Building archetype characterization using K-means clustering in urban building energy models
CN110598973A (zh) 一种基于iap的绿色家具产品认证过程风险评价方法
CN117952658B (zh) 基于大数据的城市资源配置和产业特色分析方法及系统
Suryani et al. Prediction Of Election Participant With Malang City Demographic Data Using The K-Nn Algorithm
Surgelas et al. Analysis of different approaches to real estate appraisal
Heilala Waste generation profiling by applying data-mining methods to Finnish community waste weight data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200428