CN109685547A - 一种基于大数据的房屋价格自动评估方法 - Google Patents
一种基于大数据的房屋价格自动评估方法 Download PDFInfo
- Publication number
- CN109685547A CN109685547A CN201811445064.7A CN201811445064A CN109685547A CN 109685547 A CN109685547 A CN 109685547A CN 201811445064 A CN201811445064 A CN 201811445064A CN 109685547 A CN109685547 A CN 109685547A
- Authority
- CN
- China
- Prior art keywords
- price
- house
- data
- cell
- evaluation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的房屋价格自动评估方法。该方法考虑了在典型场景下影响房屋价格的多项特征变量,通过自动收集相关数据、数据清洗、分类、量化后建立了房屋特征变量‑价格信息数据库;同时提出了一种基于改进的KNN近邻算法的房屋价格估算模型,该模型通过循环比较测试房屋对象和数据库中样本房屋对象的相似度最终得到测试房屋对象的估算价格,该方法为房屋价格的评估提供了科学的理论支撑。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于大数据的房屋价格自动评估方法。
背景技术
我国现阶段的房屋价格评估方法是利用市场比较法对单个房产项目进行人为的评估和定价。房屋价格的个案评估无法保证高效率、低成本的评估工作;同时,个案评估因评估师们对房地产价值的影响因素和修正幅度的判断不同,从而会造成评估结果不具有一致性和连贯性;此外,个案评估还容易引起违反职业道德的评估腐败等问题。
进入到二十一世纪后,我国的房地产行业的发展呈现出一派繁荣的景象,这也进一步推动了房地产估价行业的快速发展。而随着房产税各项安排的逐步落地,房产评估将得到更大范围以及更多领域的使用。在这样的背景下,传统的个案评估不再适合我国现阶段房地产市场发展的要求,高质量的、自动的批量评估方法与系统将成为我国房地产市场发展的重要保障。然而批量评估需要大量数据与科学的计算方法的保障,如果没有足够的数据量与数据质量作为支撑,会导致价格的测算在实际的实践中具有相当大的难度。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于大数据的房屋价格自动评估方法与系统,可有效解决上述问题。本发明具体采用的技术方案如下:
一种基于大数据的房屋价格自动评估方法包括以下步骤:
1)通过网页抓取和GIS技术自动收集各小区的房屋交易信息及其房屋特征数据,所述房屋交易信息为房屋的价格信息,所述房屋特征数据包括建筑特征、小区特征和位置坐标;
2)将所有收集到的数据进行清洗分类,并对房屋特征数据进行量化后得到房屋的特征变量数据,建立房屋特征变量-价格信息数据库;
3)基于改进的KNN近邻算法计算测试房屋对象的价格,具体计算过程包括:
3-1)循环计算测试房屋对象和数据库中每个样本房屋对象的特征变量相似度,所述相似度计算使用欧几里得距离d,计算公式如下:
其中n为房屋的特征变量数量,ai和bi分别表示测试房屋a和样本房屋b的第i个特征;
3-2)使用TopK算法改进最近邻查找,首先随机建立一个大小为k的堆,堆中元素的值初始化为0;之后将数据库中所有样本房屋对象与测试房屋对象的d值逐个与堆中元素的值进行比较,若大于则将该d值放入堆中,若不大于则继续遍历,直到遍历结束得到测试房屋对象的k个最邻近样本房屋对象;
3-3)对上一步得到的k个最邻近样本房屋对象进行加权计算得到测试房屋对象的价格估值P,计算分两种情况:当d存在零值时,P取k个最邻近样本房屋对象的算术平均值;当d不存在零值时,P为最邻近样本房屋对象的价格乘权的总和与对应权值总和的比值,具体计算公式如下:
其中wm为第m个最邻近样本房屋对象的权值,其价格为pm,其相似度为dm;
4)输出房源价格评估结果。
作为优选,步骤1)中所述的价格信息包括挂牌价格、签约价格;所述的建筑特征包括建筑面积、房龄、当前层、总层数、性质;所述的小区特征包括外部资源即教育配套、医疗资源、菜场、公交、地铁、公园、湖泊、商业综合体和内部环境即绿化率、内部设施;所述的位置坐标为经纬度。
作为优选,步骤1)中所述的自动收集的数据来源包括中介网站、百度地图和自有渠道。所述的一种基于大数据的房屋价格自动评估方法,其特征在于所述的中介网站包括链家网、我爱我家、中原、华邦、中联、搜房、58同城和安居客。
作为优选,步骤2)所述的对房屋特征数据进行量化步骤如下:
2-1)小区性质分类:将小区性质分类分为住宅、商业及工业三大类和细分类别;
2-2)评分评价:对小区周边学区、医院和商业配套进行评分;
2-3)距离量化及标准化:对小区到周边环境的距离进行量化,并采取标准化手段进行统一,所述周边环境包括公园、河流、湖泊;
2-4)经纬度转化:将小区经纬度转化为区域划分的区域等级。
本发明考虑了在典型场景下考核影响房屋价格的多项特征变量,通过自动收集相关数据、数据清洗、分类、量化后建立了房屋特征变量-价格信息数据库;同时提出了一种基于改进的KNN近邻算法的房屋价格估算模型,该模型通过循环比较测试房屋对象和数据库中样本房屋对象的相似度最终得到测试房屋对象的估算价格,方法为房屋价格的评估提供了科学的理论支撑。相比于传统的房屋价格评估方法,本发明具有如下收益:
上述技术方案具有如下有益效果:1、具有自动数据采集、数据准确与样本量大的优点;2、本发明使用近邻价格算法,避免了主观认知对价格的影响,符合客观情况;3、实时自动评估与输出房屋价格,避免信息滞后性,提高评估效率。
附图说明
图1是本发明的整体流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,一种基于大数据的房屋价格自动评估方法包括以下步骤:
1)数据采集:利用网页抓取程序和GIS技术自动收集各小区的房屋交易信息及其房屋特征数据,所述房屋交易信息为房屋的价格信息,所述房屋特征数据包括建筑特征、小区特征和位置坐标。
该步骤中,所述的价格信息包括挂牌价格、签约价格;所述的建筑特征包括建筑面积、房龄、当前层、总层数、性质;所述的小区特征包括外部资源即教育配套、医疗资源、菜场、公交、地铁、公园、湖泊、商业综合体和内部环境即绿化率、内部设施;所述的位置坐标为经纬度。部分可直接从网页抓取的数据可以通过程序自动抓取,部分地理相关数据(如位置经纬度、距离等)可通过GIS技术获取。
2)数据存储:将所有收集到的数据进行清洗分类,并对房屋特征数据进行量化后得到房屋的特征变量数据,建立房屋特征变量-价格信息数据库并存储。
在该数据库中每套房屋均对应有其具体的价格信息和特征变量数据。
该步骤中,自动收集的数据来源包括中介网站、百度地图和自有渠道。所述的中介网站包括链家网、我爱我家、中原、华邦、中联、搜房、58同城和安居客。
对房屋特征数据进行量化步骤如下:
2-1)小区性质分类:将小区性质分类分为住宅、商业及工业三大类和细分类别;
2-2)评分评价:对小区周边学区、医院和商业配套进行评分;
2-3)距离量化及标准化:对小区到周边环境的距离进行量化,并采取标准化手段进行统一,所述周边环境包括公园、河流、湖泊;
2-4)经纬度转化:将小区经纬度转化为区域划分的区域等级。
3)价格算法构建:基于改进的KNN近邻算法计算测试房屋对象的价格,具体包括以下步骤:
3-1)循环计算测试房屋对象和数据库中每个样本房屋对象的特征变量相似度,所述相似度计算使用欧几里得距离d,计算公式如下:
其中n为房屋的特征变量数量,ai和bi分别表示测试房屋a和样本房屋b的第i个特征;
3-2)使用TopK算法改进最近邻查找,首先随机建立一个大小为k的堆,堆中元素的值初始化为0;之后将数据库中所有样本房屋对象与测试房屋对象的d值逐个与堆中元素的值进行比较,若大于则将该d值放入堆中,若不大于则继续遍历,直到遍历结束得到测试房屋对象的k个最邻近样本房屋对象;
3-3)对上一步得到的k个最邻近样本房屋对象进行加权计算得到测试房屋对象的价格估值P,计算分两种情况:当d存在零值时,P取k个最邻近样本房屋对象的算术平均值;当d不存在零值时,P为最邻近样本房屋对象的价格乘权的总和与对应权值总和的比值,具体计算公式如下:
其中wm为第m个最邻近样本房屋对象的权值,pm为第m个最邻近样本房屋对象的价格,dm为第m个最邻近样本房屋对象的相似度,即欧几里得距离。
4)结果输出:根据实际需求的格式或者要求,输出房源价格评估结果。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。下面就实施结果进行展示:
表1为通过步骤1)自动获取的各小区的房屋交易信息及其房屋特征数据,包括价格信息、建筑特征、小区特征和位置坐标。其中价格信息包括挂牌价格、签约价格;建筑特征包括房龄、建筑面积、所在层、总楼层、性质;小区特征包括公园距离、太湖距离、商业综合体距离、小区环境、生活配套、运动设施、教育配套、交通便利;所述位置坐标为经纬度。
表2为通过本发明方法估算后的部分房屋价格与实际成交价格的比较,从表中对比可以看出本发明的估算方法能够达到较高的准确度。
表1数据与评分量化表
表2样本特征与评估值
综上所述,结合本实施例的测试结果,本发明提出的一种基于大数据的房屋价格自动评估算法通过考虑在典型场景下考核影响房屋价格的多项特征变量,能够客观、准确、高效地实现房屋价格的自动估算,估算价格与实际成交价格十分接近能够为房屋价格的评估提供了科学的理论支撑。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (5)
1.一种基于大数据的房屋价格自动评估方法,其特征在于包括以下步骤:
1)通过网页抓取和GIS技术自动收集各小区的房屋交易信息及其房屋特征数据,所述房屋交易信息为房屋的价格信息,所述房屋特征数据包括建筑特征、小区特征和位置坐标;
2)将所有收集到的数据进行清洗分类,并对房屋特征数据进行量化后得到房屋的特征变量数据,建立房屋特征变量-价格信息数据库;
3)基于改进的KNN近邻算法计算测试房屋对象的价格,具体计算过程包括:3-1)循环计算测试房屋对象和数据库中每个样本房屋对象的特征变量相似度,所述相似度计算使用欧几里得距离d,计算公式如下:
其中n为房屋的特征变量数量,ai和bi分别表示测试房屋a和样本房屋b的第i个特征;
3-2)使用TopK算法改进最近邻查找,首先随机建立一个大小为k的堆,堆中元素的值初始化为0;之后将数据库中所有样本房屋对象与测试房屋对象的d值逐个与堆中元素的值进行比较,若大于则将该d值放入堆中,若不大于则继续遍历,直到遍历结束得到测试房屋对象的k个最邻近样本房屋对象;
3-3)对上一步得到的k个最邻近样本房屋对象进行加权计算得到测试房屋对象的价格估值P,计算分两种情况:当d存在零值时,P取k个最邻近样本房屋对象的算术平均值;当d不存在零值时,P为最邻近样本房屋对象的价格乘权的总和与对应权值总和的比值;具体计算公式如下:
其中wm为第m个最邻近样本房屋对象的权值,其价格为pm,其相似度为dm;4)输出房源价格评估结果。
2.根据权利要求1所述的一种基于大数据的房屋价格自动评估方法,其特征在于步骤1)中所述的价格信息包括挂牌价格、签约价格;所述的建筑特征包括建筑面积、房龄、当前层、总层数、性质;所述的小区特征包括外部资源即教育配套、医疗资源、菜场、公交、地铁、公园、湖泊、商业综合体和内部环境即绿化率、内部设施;所述的位置坐标为经纬度。
3.根据权利要求1所述的一种基于大数据的房屋价格自动评估方法,其特征在于步骤1)中所述的自动收集的数据来源包括中介网站、百度地图和自有渠道。
4.根据权利要求3所述的一种基于大数据的房屋价格自动评估方法,其特征在于所述的中介网站包括链家网、我爱我家、中原、华邦、中联、搜房、58同城和安居客。
5.权利要求1所述的一种基于大数据的房屋价格自动评估方法,其特征在于步骤2)所述的对房屋特征数据进行量化步骤如下:
2-1)小区性质分类:将小区性质分类分为住宅、商业及工业三大类和细分类别;
2-2)评分评价:对小区周边学区、医院和商业配套进行评分;
2-3)距离量化及标准化:对小区到周边环境的距离进行量化,并采取标准化手段进行统一,所述周边环境包括公园、河流、湖泊;
2-4)经纬度转化:将小区经纬度转化为区域划分的区域等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811445064.7A CN109685547A (zh) | 2018-11-29 | 2018-11-29 | 一种基于大数据的房屋价格自动评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811445064.7A CN109685547A (zh) | 2018-11-29 | 2018-11-29 | 一种基于大数据的房屋价格自动评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109685547A true CN109685547A (zh) | 2019-04-26 |
Family
ID=66185004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811445064.7A Pending CN109685547A (zh) | 2018-11-29 | 2018-11-29 | 一种基于大数据的房屋价格自动评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685547A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115271137A (zh) * | 2022-07-21 | 2022-11-01 | 广州市美瀛信息科技有限公司 | 一种在线预订变动处理方法 |
-
2018
- 2018-11-29 CN CN201811445064.7A patent/CN109685547A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115271137A (zh) * | 2022-07-21 | 2022-11-01 | 广州市美瀛信息科技有限公司 | 一种在线预订变动处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Borde et al. | Real estate investment advising using machine learning | |
Choksi et al. | Feature based clustering technique for investigation of domestic load profiles and probabilistic variation assessment: Smart meter dataset | |
CN107247938A (zh) | 一种高分辨率遥感影像城市建筑物功能分类的方法 | |
Chen et al. | An all-sky 1 km daily surface air temperature product over mainland China for 2003–2019 from MODIS and ancillary data | |
Biljecki et al. | Raise the roof: Towards generating LOD2 models without aerial surveys using machine learning | |
Shang et al. | Moso bamboo forest extraction and aboveground carbon storage estimation based on multi-source remotely sensed images | |
Ozelkan et al. | Spatial estimation of wind speed: a new integrative model using inverse distance weighting and power law | |
Mottaleb et al. | Energy consumption transition through the use of electricity for lighting and cooking: evidence from Bhutan | |
Wu et al. | Research themes of geographical information science during 1991–2020: a retrospective bibliometric analysis | |
Zhuang et al. | A hybrid factorial stepwise-cluster analysis method for streamflow simulation–a case study in northwestern China | |
Bera et al. | Estimation of spatial association between housing price and local environmental amenities in Kolkata, India Using Hedonic Local Regression | |
CN113204719A (zh) | 一种基于位置信息叠加与深度神经网络的城市房屋租金估价方法 | |
Bilbao et al. | Air temperature model evaluation in the north Mediterranean belt area | |
CN113222327A (zh) | 一种基于服务能力的地块可达性分析方法 | |
Handoko et al. | Forecasting Solar Irradiation on Solar Tubes Using the LSTM Method and Exponential Smoothing | |
CN116722544A (zh) | 分布式光伏短期预测方法、装置、电子设备及存储介质 | |
CN111310979A (zh) | 一种基于机器学习及多源信息的房屋租价预测方法 | |
Kim | The North Korean economy seen by satellite: Estimates of national performance, regional gaps based on nighttime light | |
CN109685547A (zh) | 一种基于大数据的房屋价格自动评估方法 | |
Hong et al. | Combination of machine learning-based automatic valuation models for residential properties in South Korea | |
Jurakuziev et al. | A framework to estimate generating capacities of PV systems using satellite imagery segmentation | |
Shahid et al. | Autoencoders for Anomaly Detection in Electricity and District Heating Consumption: A Case Study in School Buildings in Sweden | |
Liu et al. | A multitask cascading convolutional neural network for high-accuracy pointer meter automatic recognition in outdoor environments | |
Lei et al. | Predicting building characteristics at urban scale using graph neural networks and street-level context | |
Ranaboldo et al. | Micro-scale wind resource assessment for off-grid electrification projects in rural communities. A case study in Peru |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190426 |