CN111080356A - 一种利用机器学习回归模型计算住宅价格影响因素的方法 - Google Patents
一种利用机器学习回归模型计算住宅价格影响因素的方法 Download PDFInfo
- Publication number
- CN111080356A CN111080356A CN201911272642.6A CN201911272642A CN111080356A CN 111080356 A CN111080356 A CN 111080356A CN 201911272642 A CN201911272642 A CN 201911272642A CN 111080356 A CN111080356 A CN 111080356A
- Authority
- CN
- China
- Prior art keywords
- price
- characteristic
- house
- machine learning
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000010801 machine learning Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000005406 washing Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 238000005034 decoration Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;步骤3:构建基于行政区划的机器学习特征数据集;步骤4:建立机器学习模型,并输入训练数据训练该模型;步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。本发明通过利用机器学习对特征进行回归计算,得到住宅价格影响因素的特征权重模型,能够更好地对住宅价格进行预测和分析。
Description
技术领域
本发明涉及住宅价格影响因素研究技术领域,具体是一种利用机器学习回归模型计算住宅价格影响因素的方法。
背景技术
房地产作为国民经济的重要产业其发展日趋稳健。2018年全国房地产开发投资12.0264万亿元,其中住宅投资8.5192万亿元,占房地产开发投资的比重为70.8%。房地产业占我国GDP比重达到3.8%,影响上下游行业达50多个,其对于拉动经济增长、提高财政及居民财产性收入、扩大就业等方面都发挥着重要作用。价格作为市场经济的关键变量起着调节资源有效配置的职能,住宅价格指数作为房产价格的指示变量,备受政府、投资者、消费者的关注,如何准确衡量房地产价格,对于价格的影响因素相关性分析,这个问题由来已久。
住房的耐久性、异质性、固定性是房屋作为特殊商品的重要属性,故而与其他商品相比需要更多的信息搜寻成本,而且也大大增加了住房定价的难度。城市住宅具耐久性特点导致住宅市场涉及到新开发住宅和存量住宅市场,即新建商品住房与二手房存量住房。随着我国房地产业的快速发展,二手房逐渐成为市场交易的主力,部分地区二手房的交易量已远超新建商品房,二手房价格的变化已经成为我国社会经济发展的重要参考。
国外研究表明Hedonic方法是分析房屋这种异质性商品的理想工具。自1967年此方法首次用于房屋价格以来,经历了半个世纪的发展,至今在发达国家依然没有形成统一的技术基准,很多问题仍有待研究。国内关于Hedonic方法的研究时间更短,仅有10余年历史。由于该方法基于效用分析的逻辑,使得东、西方住房制度的不同、文化偏好的差异都会对建模结果产生较大影响。随着大数据的发展,海量数据让我们有更多的信息源以确定Hedonic影响因子,并大大提高建模结果的稳健性水平。
目前,在房价预测与价格特征相关性分析问题的研究方法主要有以下方法:1、基于传统逻辑回归方法预测,选择相关系数较高的特征,简单编码后,利用最小二乘法对数据进行拟合;2、基于现有软件的集成模型,使用多个模型得到多个预测结果,在其中选取可能性最大的一种。
传统的房价预测多数是专业的估价师基于近段时间来某个地区基础房价、房源供给关系、政策以及自身经验给出房价预测。此类方法一般都严重依赖于估价师的主观判断以及经验,针对同一区域的房价,不同的估价师最终得出的房价预测可能不同。可见传统的房价预测方法均存在极大局限性,其房价预测结果不够准确。
发明内容
为克服现有技术的不足,本发明提供了一种利用机器学习回归模型计算住宅价格影响因素的方法,基于房地产住宅交易大数据,通过从房屋特征中筛选若干能够影响房屋价格的特征变量,利用多层神经网络提取数据特征,然后利用机器学习对特征进行回归计算,得到住宅价格影响因素的特征权重模型,从而更好地对住宅价格进行预测和分析。
本发明解决上述问题所采用的技术方案是:
一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:
步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;
步骤3:构建基于行政区划的机器学习特征数据集;
步骤4:建立机器学习模型,并输入训练数据训练该模型;
步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。
进一步地,作为优选技术方案,所述步骤1的具体过程为:
步骤1-1:获取待计算的行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征;
步骤1-2:对获取到的二手房交易信息及其房屋特征进行分类和编码标记;
步骤1-3:建立住宅成交信息与房屋特征数据的关联,形成区域-时间切面的特征数据集。
进一步地,作为优选技术方案,所述步骤2的具体过程为:
步骤2-1:利用散点图、直方图和箱形图分析数据关联特征;
步骤2-2:从步骤1-1中获取的房屋特征中筛选出若干影响房屋价格的特征变量;
步骤2-3:根据步骤1-3中得到的特征数据集,将步骤2-2中筛选出的特征变量的特征值进行量化。
进一步地,作为优选技术方案,所述步骤2-2中,影响房屋价格的特征变量包括12项区域性特征组和11项个别性特征组。
进一步地,作为优选技术方案,所述步骤2-3中,当筛选出的特征变量为连续变量时,则直接量化;当筛选出的特征变量为分类变量时,则评分量化。
进一步地,作为优选技术方案,所述步骤3中,采用贝叶斯统计法将已有特征分组形成新特征,其表达式为:
其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值。
进一步地,作为优选技术方案,所述步骤4的具体过程为:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
进一步地,作为优选技术方案,所述步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
进一步地,作为优选技术方案,还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。
进一步地,作为优选技术方案,所述步骤1中,通过住宅交易数据库和高德开放平台LBS服务获取数据。
本发明相比于现有技术,具有以下有益效果是:
本发明以房地产住宅交易大数据为基础,利用修正后的特征价格构建机器学习回归模型,预测对住宅价格产生影响的各项特征项目及其影响权重值。本发明提出了一种基于区域性因素和案例个别性特征组合的新思路,并基于机器学习模型结构进行逐层训练网络结构,相较于传统手工标记提取特征和常见机器学习方法,能有效发现数据内在的非线性特征,更好的解决房屋价格预测问题。
附图说明
图1为本发明的流程图;
图2为房屋面积变化与最终成交价格相关度的分布图;
图3为房屋样本的楼层与价格的二元相关性分布图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,本发明较佳实施例所示的一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:
步骤1:获取待计算行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征,并对已获取到的数据进行分类和编码标记,建立住宅成交信息与房屋特征数据的关联,形成区域-时间切面的特征数据集,这里的区域-时间切面特征数据集指的是在机器学习领域,一个相对时间段内,指定行政区划的训练数据集。
具体地,待计算小区和周边小区共同构成了城市区域地块,将其定义为区位性特征,表1所示为区位特征观测指标体系,其包括3个一级指标、12个二级指标以及每个二级指标对应的特征观察组详细说明,我们可以根据表1进行区域性特征量化;住宅交易大数据体现为单个房屋样本交易数据,将其定义为个别性特征,表2所示为个别特征观测指标体系,其包括2个一级指标、11个二级指标以及每个二级指标对应的特征观察组详细说明,我们可以根据表2进行个别性特征量化;区位性特征与样本个别性特征存在的对应关系,此时需要进一步进行数据清理,将相同城市区域地块的交易样本进行对应,同时标定房屋交易样本所在地块的经纬度坐标。通过GPS定位信息,使用高德地理数据开放平台服务,根据表1进一步的量化区域地块数据特征,形成区域-时间切面的特征数据集。
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;具体地,输出部分数据,观察数据特征,区别类别性特征与数值型特征;逐一分析房价与特征变量的关系,计算房屋价格因变量的斜度和峭度,根据直方图了解因变量分布情况;多因素分析,通过散点、直方、气泡图等图表了解各特征之间的关系;对类型特征绘制箱型图,进一步确定其特征类型;通过热力图,得到各特征间的相关系数,方便特征工程;使用个数值型特征的平均值,填充住宅交易数据库中的样本缺失值;计算样本销售日期和建筑日期之间的间隔,形成新特征;计算样本房屋面积与楼层数比值,形成新特征;计算室、厅、卫比值,形成新特征;根据经纬度计算房屋与周边地块房价最高/最低房屋的距离,形成新特征;计算停车位数量与小区户数的比值,形成新特征;
表1区位性特征对应的观测指标体系
表2个别性特征对应的观测指标体系
步骤3:构建基于行政区划的机器学习特征数据集;具体地,利用贝叶斯统计法,依次将区域-时间切面的组内特征数据计算区间分量,其表达式为:
其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值;
步骤4:建立机器学习模型,并输入训练数据训练该模型,这里的训练数据指的是已有房屋交易数据经数据量化后得到的训练数据集;具体过程如下:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
经不断地训练,形成某个特定时段的城市地块特征影响权重模型,再利用特征数据剥离后的测试数据集进行准确度预测,逐步将误差精度缩减至0.11,表示该模型可以准确预测89%特征权重。
上述步骤4-3中,通过增加权重衰减,能够有效抑制过拟合,从而避免房价的变化对于特征因子的选择和权重过于重现训练数据集的已有数值,提高预测的准确性。
在本实施例的步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
不同的城市(行政区划)在一个相同的评估指标体系中,可能相同的因素(例如层高)对于价格的敏感程度不一样,即特定城市的房屋价格,受不同影响因素和其对应的因子会不同,本发明通过不断的训练、调参,能够让不同城市的地块群的数据模型达到最优化,从而能够提高价格预测的准确度。
下面,结合实例对本发明的实现过程进行说明。
一、形成训练数据集
对某评估目标进行估价时,首先需要了解该标的物所在地块的整体数据概况,首先根据评估目标所在位置,确定评估目标所在的城市行政区划和所属地块。将该地块内收录的所有商业小区基础信息从数据库从提取出来,得到该地块内小区基础数据如表3所示:
表3行政区小区基础数据
根据地块内的小区分布基础数据集,对照表1所示的区位性特征对应的观测指标体系,形成对应小区的区域性数据特征值。
以“学校”特征值计算为例,需要读取该小区的GPS坐标,以该GPS坐标为原点,分别以100米、400米、800米、1600米为半径搜索周边的幼儿园、中小学和其它K12培训机构,此处搜索半径的步长应当根据地块所在行政区的总体教学资源富集程度分别测算。
通过综合对比相应教育资源的临近程度,将该小区的“学校”这一特征属性进行等级分类,分别标注为1-5个等级,代表该小区住户受教育的便利程度,形成可量化指标。
表4行政区小区对应区域特征数据集
此时,评估标的物所属的行政区划内小区特征数据集已初步形成。此项小区特征值量化评估,需要每半年通过程序调度自动化和人工评估相结合的方法进行数据刷新并持久化到数据库。
接下来,从数据库中读取上述地块内的所有房屋交易样本,通过《个别性特征对应的观测指标体系》根据房屋交易样本生成个别性因素数据特征。
以“装修”特征为例,通过字典分类的方法,将房屋样本的装修状况划分为“豪华装修、精装修、简单装修、清水房”四级,分别用1-4数字代替进行阶段性量化指标,形成的房屋标本特征数据集如表5所示。
表5房屋样本特征数据集
根据小区与房屋样本之间的1→N对应关系,通过小区数据集与房屋样本数据集进行等值连接,形成具备时点价格和影响因素特征的训练数据集,房屋价格特征数据集如表6所示。
表6房屋价格特征数据集
二、逐个归一化影响因子并评估特征值在最终价格中的影响权重
如图2所示,以房屋面积对价格影响为例,图中实线和虚线分别标注了同一城市的两个地块内所有房屋样本,将房屋面积变化与最终成交价格相关度的分布情况,图示中横坐标为房屋面积,此处将房屋面积按照7平米步长进行分段汇总,纵坐标为该面积区间的房屋价格指数。
从示例中可以明显看出在两个不同的城市地块之间,相同面积的房屋样本,其成交价格影响指数存在显著的区域性差异。随着房屋建筑面积的数量阶段性增加,其对于归一化后的房屋价格指数的影响程度不同。
在图示中实线标注的地块样本数据集,房屋的价格指数对于面积变化的相关度不高。在单个面积区间内,其价格分布差异(线段长度),随着房屋面积的增长,价格分布的变化幅度相对稳定。虚线标注的行政区数据集中,价格指数对于房屋面积的变化反应相对敏感,随着面积的增长,价格指数的分布差异逐渐变大,表示虚线标注的地块的价格与房屋面积特征呈现较大的相关性。
通过模型的多批次训练,依次评估价格与其影响因素的相关性特征值,可以很好的反应出价格指数在不同城市与地块之间的关联性差异。
本实施例还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。中位数、平均数补全用于填充数据缺失项,由于数据训练集很难做到所有的数据都完整,通过该项操作,可根据指标体系进行人为选择。拉依达准则用于删除训练数据中的某一行数据,比如,房屋价格明显偏离于群体值,因为价格值是连续值;其它影响因素的值是编码值,没有连续性,例如,房屋朝向只有1-8,这个值本身不具备连续性特征。
通过大量的数据样本建立的训练数据模型,可以有效的反应上述各房屋价格影响因子的权重分布,以房屋样本的楼层-价格二元相关性为例,在图3中,可以明显地反映出样本楼层在价格指数模型的趋中性。在所示的样本集训集所反应的态势分布中,可以通过数据集的均值、方差剔除参与计算的离群值,并逐步回归计算至合理的影响指数因子。
利用机器学习方法处理大数据样本,其实质是利用数理分析方法对于房屋价格指数及其影响因子进行科学计算。相当于传统房屋估价行业所采取的经验估价法,可以更好的客观反应价格变化,分析其价格变化的相关性因素。
通过上述方法,能够有效地发现数据内在的非线性特征,更精准地预测出住宅价格产生影响的各项特征项目及其影响权重值,从而更好地解决房屋价格预测问题,便于更好地分析房屋价格。
如上所述,可较好地实现本发明。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (10)
1.一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,包括以下步骤:
步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;
步骤3:构建基于行政区划的机器学习特征数据集;
步骤4:建立机器学习模型,并输入训练数据训练该模型;
步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。
2.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤1的具体过程为:
步骤1-1:获取待计算的行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征;
步骤1-2:对获取到的住宅交易信息及其房屋特征进行分类和编码标记;
步骤1-3:建立住宅成交价格与房屋特征数据的关联,形成区域-时间切面的特征数据集。
3.根据权利要求2所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2的具体过程为:
步骤2-1:利用散点图、直方图和箱形图分析数据关联特征;
步骤2-2:从步骤1-1中获取的房屋特征中筛选出若干影响房屋价格的特征变量;
步骤2-3:根据步骤1-3中得到的特征数据集,将步骤2-2中筛选出的特征变量的特征值进行量化。
4.根据权利要求3所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2-2中,影响房屋价格的特征变量包括12项区域性特征组和11项个别性特征组。
5.根据权利要求3所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2-3中,当筛选出的特征变量为连续变量时,则直接量化;当筛选出的特征变量为分类变量时,则评分量化。
7.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤4的具体过程为:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
8.根据权利要求7所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
9.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。
10.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤1中,通过住宅交易数据库和高德开放平台LBS服务获取数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272642.6A CN111080356A (zh) | 2019-12-11 | 2019-12-11 | 一种利用机器学习回归模型计算住宅价格影响因素的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911272642.6A CN111080356A (zh) | 2019-12-11 | 2019-12-11 | 一种利用机器学习回归模型计算住宅价格影响因素的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111080356A true CN111080356A (zh) | 2020-04-28 |
Family
ID=70314010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911272642.6A Pending CN111080356A (zh) | 2019-12-11 | 2019-12-11 | 一种利用机器学习回归模型计算住宅价格影响因素的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111080356A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626789A (zh) * | 2020-06-01 | 2020-09-04 | 武汉轻工大学 | 房屋价格预测方法、装置、设备及存储介质 |
CN111724203A (zh) * | 2020-06-15 | 2020-09-29 | 中山世达模型制造有限公司 | 基于多重回归模型的产品加工价格预估方法及系统 |
CN111815366A (zh) * | 2020-07-22 | 2020-10-23 | 江阴逐日信息科技有限公司 | 一种基于要素匹配的服装成本快速核算方法 |
CN112862575A (zh) * | 2021-01-20 | 2021-05-28 | 苏州市中地行信息技术有限公司 | 一种基于大数据分析的住宅土地拍卖价格智能评估方法及云平台 |
CN113298448A (zh) * | 2021-07-26 | 2021-08-24 | 广东新禾道信息科技有限公司 | 基于互联网的租赁指数分析方法、系统及云平台 |
CN113627977A (zh) * | 2021-07-30 | 2021-11-09 | 北京航空航天大学 | 一种基于异构图的房屋价值预测方法 |
CN113793236A (zh) * | 2021-09-16 | 2021-12-14 | 深圳壹账通智能科技有限公司 | 基于多层感知器的房价指数的显示方法、装置以及设备 |
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
-
2019
- 2019-12-11 CN CN201911272642.6A patent/CN111080356A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626789A (zh) * | 2020-06-01 | 2020-09-04 | 武汉轻工大学 | 房屋价格预测方法、装置、设备及存储介质 |
CN111724203A (zh) * | 2020-06-15 | 2020-09-29 | 中山世达模型制造有限公司 | 基于多重回归模型的产品加工价格预估方法及系统 |
CN111724203B (zh) * | 2020-06-15 | 2024-02-27 | 中山世达模型制造有限公司 | 基于多重回归模型的产品加工价格预估方法及系统 |
CN111815366A (zh) * | 2020-07-22 | 2020-10-23 | 江阴逐日信息科技有限公司 | 一种基于要素匹配的服装成本快速核算方法 |
CN112862575A (zh) * | 2021-01-20 | 2021-05-28 | 苏州市中地行信息技术有限公司 | 一种基于大数据分析的住宅土地拍卖价格智能评估方法及云平台 |
CN113298448A (zh) * | 2021-07-26 | 2021-08-24 | 广东新禾道信息科技有限公司 | 基于互联网的租赁指数分析方法、系统及云平台 |
CN113298448B (zh) * | 2021-07-26 | 2021-12-03 | 广东新禾道信息科技有限公司 | 基于互联网的租赁指数分析方法、系统及云平台 |
CN113627977A (zh) * | 2021-07-30 | 2021-11-09 | 北京航空航天大学 | 一种基于异构图的房屋价值预测方法 |
CN113793236A (zh) * | 2021-09-16 | 2021-12-14 | 深圳壹账通智能科技有限公司 | 基于多层感知器的房价指数的显示方法、装置以及设备 |
CN116166960A (zh) * | 2023-02-07 | 2023-05-26 | 河南大学 | 用于神经网络训练的大数据特征清洗方法及系统 |
CN116166960B (zh) * | 2023-02-07 | 2023-09-29 | 山东经鼎智能科技有限公司 | 用于神经网络训练的大数据特征清洗方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111080356A (zh) | 一种利用机器学习回归模型计算住宅价格影响因素的方法 | |
Ali et al. | A data-driven approach for multi-scale building archetypes development | |
CN111104981B (zh) | 一种基于机器学习的水文预报精度评价方法及系统 | |
González-García et al. | Embedding environmental, economic and social indicators in the evaluation of the sustainability of the municipalities of Galicia (northwest of Spain) | |
CN101853290A (zh) | 基于地理信息系统的气象服务效益评估方法 | |
CN111797188B (zh) | 一种基于开源地理空间矢量数据的城市功能区定量识别方法 | |
CN114997534A (zh) | 基于视觉特征的相似降雨预报方法和设备 | |
Borst et al. | Using geographically weighted regression to detect housing submarkets: Modeling large-scale spatial variations in value | |
CN114529154A (zh) | 人口规模预测指标体系的构建方法、预测方法、装置及系统 | |
CN112184495B (zh) | 存量低效土地监测系统及应用其的分析平台 | |
Zhalezka et al. | Multy-criteria fuzzy analysis of regional development | |
CN109190783B (zh) | 城市水网渗漏空间聚集性检测及关键影响因素识别方法 | |
Farida et al. | Identifying Significant Factors Affecting the Human Development Index in East Java Using Ordinal Logistic Regression Model | |
CN114511250A (zh) | 一种基于机器学习的企业外迁风险预警方法及系统 | |
CN115393148A (zh) | 自然资源用数据监测系统、监测方法、设备、介质及终端 | |
CN115099699A (zh) | 一种基于mabac综合算法的海岸侵蚀强度评价方法 | |
Hermans | Implementation of geographically weighted regression in automated valuation models in The Netherlands | |
Carpentieri et al. | Urban Energy Consumption in the City of Naples (Italy): A Geographically Weighted Regression Approach | |
Yadegari et al. | Providing a Comprehensive Model to Measure the Performance Dimensions of Industrial Clusters Using the Hybrid Approach Of Q-Factor Analysis And Cluster Analysis | |
İşeri et al. | Building archetype characterization using K-means clustering in urban building energy models | |
CN110598973A (zh) | 一种基于iap的绿色家具产品认证过程风险评价方法 | |
CN117952658B (zh) | 基于大数据的城市资源配置和产业特色分析方法及系统 | |
Suryani et al. | Prediction Of Election Participant With Malang City Demographic Data Using The K-Nn Algorithm | |
Surgelas et al. | Analysis of different approaches to real estate appraisal | |
Heilala | Waste generation profiling by applying data-mining methods to Finnish community waste weight data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |