CN111709775A - 一种房产价格评估方法、装置、电子设备及存储介质 - Google Patents
一种房产价格评估方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111709775A CN111709775A CN202010468819.6A CN202010468819A CN111709775A CN 111709775 A CN111709775 A CN 111709775A CN 202010468819 A CN202010468819 A CN 202010468819A CN 111709775 A CN111709775 A CN 111709775A
- Authority
- CN
- China
- Prior art keywords
- property
- data
- attribute
- value
- price
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 15
- 238000013210 evaluation model Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012795 verification Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 29
- 238000004140 cleaning Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 18
- 238000002790 cross-validation Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000010276 construction Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 238000005034 decoration Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0278—Product appraisal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种房产价格评估方法、装置、电子设备及存储介质。房产价格评估方法包括:获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;基于所述样本数据,训练房价评估模型并保存;将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。本申请实施例以实时的房产数据作为样本数据的来源,抽取与待预测数据地域(如省份、城市)相同的数据作为样本数据,保证样本数据和待测数据具有相同的属性值,利用样本数据训练房价评估模型,通过房价评估模型进行房产价格预测,使得预测得到的价格更加准确。
Description
技术领域
本申请涉及互联网技术领域,具体涉及一种房产价格评估方法、装置、电子设备及存储介质。
背景技术
随着房地产业和互联网行业高速发展、日趋成熟,房地产业已经成为国民经济的新增长点,房价问题已成为人们日益关注的话题。而且房地产业的发展也关系到整个国民经济的发展,因此房产价格评估显得尤为重要。国家层面对房价评估的是房产交易中心,房产交易中心往往只依据房产的年份、大小笼统的对房产价格进行评估,评估价格与实际价格出入较大。互联网上或者相关的房产APP(Application应用程序)也可以搜索房产价格信息,用户可以通过一些维度信息进行房产价格检索,但网上的价格多为吸引用户的与实际房产价值不符的价格。
房地产价格的制定原则中提到房产价格必须符合价值,对于不同质的房产,必须实行不同的价格标准,优质优价、低质低价,同类房产的价格标准必须反映房产内在质的差别。由于影响房产价格的因素较多,传统的房产价格房价评估模型,对数据量要求大,预测准确性差,因此亟需一种准确评估房产价格的技术方案。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的房产价格评估方法、装置、电子设备及存储介质。
依据本申请的一个方面,提供了一种房产价格评估方法,包括:
获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;
基于所述样本数据,训练房价评估模型并保存;
将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
依据本申请的另一方面,提供了一种房产价格评估装置,包括:
样本获取单元,用于获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;
模型训练单元,用于基于所述样本数据,训练房价评估模型并保存;
价格评估单元,用于将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,以从网络中爬取的房产数据作为样本数据的来源,从样本数据中抽取与待测房产地域(如省份、城市)相同的数据作为样本数据,保证样本数据和待测数据具有相同的属性值(如地域),接着利用样本数据建立房价评估模型并保存,通过房价评估模型进行房产价格的预测,使得预测得到的房产价格更加准确。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的房产价格评估方法的流程示意图;
图2示出了根据本申请一个实施例的房价评估模型构建流程示意图;
图3示出了根据本申请一个实施例的房价评估模型训练流程示意图;
图4示出了根据本申请一个实施例的10折交叉验证示意图;
图5示出了根据本申请一个实施例的待测房产价格评估流程示意图;
图6示出了根据本申请一个实施例的房产价格评估装置的框图;
图7示出了根据本申请一个实施例的电子设备的结构示意图;
图8示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请的技术构思是:针对现有模型预测房产价格存在的准确性差的技术问题,本申请实施例在获取待测房产数据之后,根据待测房产数据中的地域数据获取同一地域的房产数据作为样本数据,通过使用少量样本数据训练房价评估模型即可快速有效的预测出房产价格。
已知影响房产价格的因素很多,其中比较重要的因素是地域和房龄,以地域为例,同样面积、户型的房子,北京的价格与黑龙江的价格差别很大,即使同在北京,不同的行政区域房子的价格也不同。为了消除时间跨度、房产所在区域对房产价格的影响,本申请实施例采用爬虫技术爬取网络数据,经过数据提取,提取出与待预测数据时间相近且省市区县相同的数据作为样本数据。
为了让预测的房产价格更准确,本申请实施例对样本数据进行空值、无效值等过滤,减少无效样本数据对预测结果的影响。有些样本数据的属性值是字符串变量,在进行算法实现时,不能直接对其进行处理,因此本申请实施例通过数值化处理将离散型属性值转换成数值。通过梯度提升树算法建立房价评估模型,多次调整参数取值查看验证结果,选取最优参数值。将样本数据按照k折交叉验证法的分割方式分成训练集和验证集,进行房价评估模型验证,验证效果好,则将房价评估模型持久化。最后,为了保证预测价格的准确,对待测数据也进行数据清洗、数值化处理过程。
图1示出了根据本申请一个实施例的房产价格评估方法的流程示意图,参见图1,本申请实施例的房产价格评估方法包括下列步骤:
步骤S110,获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;
步骤S120,基于所述样本数据,训练房价评估模型并保存;
步骤S130,将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
由图1所示可知,本申请实施例的房产价格评估方法,获取待测房产的属性数据,根据待测房产的地域属性值,从网络中爬取所在地域与地域属性值一致的指定房产数据,由指定房产数据得到样本数据,基于样本数据训练房价评估模型,将待测房产的属性数据输入到房价评估模型中,得到预测的房产价格。从而以实时获取的房产数据作为样本数据的基础来源,抽取与待测房产地域(如省份、城市)相同的数据作为样本数据,保证样本数据和待测数据具有相同的属性值,提高了房价评估模型预测的精度,使得预测的房产价格更加准确。
大体上,本申请实施例的房产价格评估方法包括两个部分,第一部分,建立房价评估模型,第二部分,评估房产价格。下面结合附图2至图5进行说明。
第一部分,建立房价评估模型。
图2示出了根据本申请一个实施例的房价评估模型构建流程示意图,参见图2,模型构建流程包括下列步骤:爬虫收集数据、数据抽取、数据清洗,数值化处理,利用梯度提升树建立房价评估模型,房价评估模型验证以及房价评估模型持久化。
需要说明的是,与传统的样本数据获取不同,本申请实施例的样本数据是在获取待测数据并提取待测数据的地域属性值之后获取的,从而保证样本数据与待测房产数据具有相同的属性,进而提高了预测的房价的准确性。
参见图2,爬虫收集收据:利用爬虫技术爬取相关房产的数据信息。这里的相关房产是指所在地域与待测房产的地域属性值一致的房产。比如,待测房产的地域属性值为“北京市-海淀区”,那么爬虫从网络中爬取“北京市-海淀区”的房产,得到相关房产的数据信息。
数据抽取:根据待测数据的建成年份,抽取网络数据中建成年份相同或接近的相关房产数据作为样本数据。
也就是说,获取的待测房产的属性数据中还包括建成年份属性值;根据指定房产的数据得到样本数据,具体包括:从所述指定房产的数据中提取建成年份与所述建成年份属性值相同的房产数据或建成年份与所述建成年份属性值的差值不大于预设阈值的房产数据,作为样本数据。
由于房产价格的变化幅度大,所以样本数据与待测数据的时间跨度不应过大。比如,待测房产的建成年份为2016年,数据抽取过程就是从收集的众多相关房产中找到建成年份同为2016年的房产,或者找到建成年份与建成年份属性值的差值不大于预设阈值的房产,比如,建成年份2017年和2018年的房产与前述建成年份属性值(2016年)的差值(1、2)不大于预设阈值(比如2)。
抽取出来的数据即作为样本数据,基于所述样本数据,训练房价评估模型,具体包括:对所述样本数据进行数据清洗;对清洗后样本数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值;利用梯度提升树算法以及数值化处理后的样本数据训练房价评估模型。
参见图2,数据清洗:去除数据中包含的空值数据,格式错误数据,无效属性值数据等。
数值化处理:对清洗后样本数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值。比如,对样本数据中属性值是字符串类型的变量,进行变量数值化处理,将属性值转换成数值。由于构建房产价格模型的决策树算法在一定程度上依赖样本数据,房产样本数据属性分析对预测结果起着决定性作用。通过数值化处理,获取到包含更多属性值的样本数据,从而有利于提高房价评估模型预测的准确性。
需要说明的是,考虑到房产评估领域中房产涉及的属性值一般为离散型变量,离散型变量往往都是非数值型的,因此,本申请实施例提供了将离散型变量转换成数值的三种方式,也就是说,对清洗后样本数据中的非数值型属性值进行数值化处理包括:对于清洗后样本数据中属性值之间具有一定顺序的第一离散属性,将第一离散属性的第一属性值转换为预设数列中的相应数值。
对于清洗后样本数据中属性值之间无序的第二离散属性,根据第二属性值指示的地理位置与各分组中目标地理位置之间的距离确定第二属性值对应的分组,将分组对应的数值作为第二属性值的数值。
对于清洗后样本数据中的第三离散属性,第三离散属性一般是指无法用前面两种方式处理的属性,则将第三离散属性的第三属性值依次与预设个数个离散属性值进行匹配,如果匹配成功则第三属性值在当前离散属性值上的取值为第一数值,如果匹配不成功则第三属性值在当前离散属性值上的取值为第二数值,根据第三属性值在各离散属性值上的取值,得到第三属性值对应的数值。
举例而言,第一种方式:对于自带顺序的离散属性,将属性值转换成一列数值。比如,房子的装修情况这一列属性对应有五个离散值,分别是毛坯,简装修,中装修,精装修和豪华装修,那么在数值化处理时可将这五个离散值对应转换成预设数列比如1-5中的相应数值。比如,一个样本数据中的装修情况为中装修,该样本数据的装修情况这一属性对应的数值即为3。
第二种方式:对于无序离散列,例如小区名或街道名称,可以将从网络中获取的所有房产根据所在区域划分为多个分组,每个分组确定一个目标地理位置,比如对于北京市的房产根据所在区域划分为二环以内、二环到三环、三环到四环、四环到五环、五环到六环、六环之外共六个分组,每个分组中有一个地标并且各分组对应有相应的数值,比如二环以内对应的数值为9,二环到三环对应的数值为8,以此类推。
对于清洗后样本数据中属性值之间无序的第二离散属性,将第二离散属性的第二属性值指示的地理位置,与各分组中目标地理位置之间的距离确定第二属性值对应的分组,将分组对应的数值作为第二属性值的数值。比如,第二离散属性是小区名这一属性,一条样本数据中的小区名是“新新家园”(仅作示例),经过比较可知,小区名指示的地理位置与二环以内分组中的目标地理位置(如前门)的距离较近,那么当前样本数据中小区名“新新家园”对应的数值就是9。
第三种方式:对于清洗后样本数据中的第三离散属性,这里的第三离散属性一般是指无法用前述第一种方式和第二种方式处理的属性,比如一些离散列,可以把一列拆分成多列,每个离散值作为一列,这些列的取值为1或0,分别表示是否等于这个离散值。房产数据中的地区、住宅类型和朝向等均可使用这种处理方式进行数值化转换。
比如,当前样本数据中第三离散属性是朝向,第三离散属性的第三属性值为东,那么将东向与预设的四个离散属性值(分别是东向、西向、南向、南北通透)进行匹配,如果匹配成功则取值为1,如果匹配不成功则取值为0,按照这样的规则,当前样本数据在各离散属性值上的取值为数列1,0,0,0。根据数列1,0,0,0可得到当前样本数据中朝向这一属性转换后的数值。
考虑到实际应用中有些属性的离散值非常多,而离散值多的情况下按照前述第三种方式转换就会生成大量的列,这样稀疏的数据对算法无益而且数据流大,因此,本申请实施例中选取覆盖用户比较多的离散值作为目标进行比较,将很少用到的离散值全部弃用,这样既减少了列数,又保留了绝大部分的有价值信息。
比如,在将第三属性值依次与预设个数个离散属性值进行匹配之前,对指定房产的第三离散属性的属性值进行统计,按照出现频率从高到低对属性值排序,选取前预设个数个属性值作为离散属性值。
接上例,对于朝向这一属性的属性值进行统计,得到南向、西向、南北通透、东向、北向的出现频率,按照出现频率由高到低的顺序对前述朝向排序,并取前预设个数(如4)个朝向作为离散属性值,用于后续的数值化处理,从而,避免了离散值较多,无用数据量大影响算法的效率也保证了有价值的数据的得到保留,提高了算法的精度。
利用梯度提升树建立房价评估模型:建立梯度提升树算法房价评估模型,实际实现时,可以将算法与参数单独放在一个方法里,根据验证的结果调整参数的取值,得到最优参数值。图3示出了根据本申请一个实施例的模型训练流程示意图,参见图3,本申请实施例的模型训练流程包括获取样本数据,划分训练集,调整模型参数,判断10轮误差是否相差大,是则返回调整模型参数,否则结束流程。
需要说明的是,在房价评估模型的建立一般使用决策树算法,比如ID3算法。ID3算法是在相同条件下,取值多的特征比取值少的特征信息增益大,但出现次数最多的属性并不一定最优,所以ID3算法的准确性不高。又比如C4.5算法,该算法在构造树时,需对数据进行多次顺序扫描排序,算法效率低,实际应用中很难获取大的数据量进行运算,从而面对稀疏数据时分析效果差。
而梯度提升树(Gradient Boosting Decision Tree,简称GBDT)算法的拟合残差方式比其他算法先进,并且对数据量要求不大,因此本申请实施例选择梯度提升树算法构建房价评估模型。由于房产价格与所在地域,比如所在城市的关联性非常大,所以样本房产的省市区县与待测数据应尽量吻合。在按照图3所示步骤建立梯度提升树房价评估模型后,本申请实施例进行房价评估模型验证以提高房价评估模型的精度。
继续参见图2,模型验证:采用k折交叉验证法对房价评估模型进行验证,比如,对样本数据按照交叉验证法的分割方式将其一部分分为训练集,一部分分为测试集。训练集用于训练,测试集用于验证准确率。在测试集上测试的结果叫做验证误差。这里通过交叉验证来提升房价评估模型的泛化性。
图4示出了根据本申请一个实施例的10折交叉验证示意图,本申请实施例利用梯度提升树算法以及数值化处理后的样本数据训练房价评估模型,包括:将数值化处理后的样本数据划分为k份进行k折交叉验证;步骤A,选取k份中的一份作为测试集,其余作为训练集训练房价评估模型;步骤B,计算房价评估模型在测试集上的准确率,得到本轮验证误差;重复步骤A和步骤B,得到k个验证误差;判断k个验证误差是否符合预设条件;如果k个验证误差符合预设条件,则结束房价评估模型训练并保存房价评估模型;所述预设条件包括:各个验证误差小于预设第一阈值且各个验证误差之间的差值小于预设第二阈值。
参见图4,将数值化处理后的样本数据D按照k折交叉验证划分为10份(即k=10),参见图4示意的数据集D1至D10。每折交叉验证选其中一份作为测试集,其余的作为训练集。通过将原始样本数据划分为训练集和测试集,避免了为追求高准确率而在训练集上产生过拟合,从而使得房价评估模型在样本外的数据上预测准确率更高。
如图4所示,第一折交叉验证时,选D10作为测试集,并将D1至D9作为训练集,计算基于训练集训练的房价评估模型的准确率,得到本轮的测试结果1。继续第二折交叉验证,选D9作为测试集,将D1至D8、D10作为训练集,计算基于训练集训练的房价评估模型的准确率,得到本轮的测试结果2,以此类推,进行10轮验证,分别算出各自的验证误差,返回10次测试结果的平均值作为房价评估模型的准确率结果。这样就有一组(10个)验证误差,根据这一组验证误差,即可准确衡量房价评估模型的好坏。
继续参见图2,房价评估模型持久化:如果经过验证,每一轮的验证误差都不大,表明房价评估模型的准确率较高,如果各轮验证的验证误差间相差不大,表明房价评估模型的稳定性较好。
比如,各个验证误差小于预设第一阈值(比如0.5)且各个验证误差之间的差值小于预设第二阈值(比如0.01)从而可以将此时的房价评估模型参数作为最优参数,将房价评估模型持久化,比如将房价评估模型保存在本地或者保存在云端。
需要说明的是,实际应用中,对应本申请实施例的房产价格评估方法的程序可以运行在本地设备上也可以运行在云端服务器上,从而满足不同数据量的房产价格评估需求。比如,对于个人用户,由于其数据量小,本地设备的资源即可快速处理,所以可调用运行在本地计算机上对应本申请实施例的房产价格评估方法的程序。公司用户的并发数据量大,可调用运行在云端服务器集群上的对应本申请实施例的房产价格评估方法的程序,以满足用户快速预测评估需求。
至此,本申请实施例的房价评估模型训练结束。
第二部分,评估房产价格。
图5示出了根据本申请一个实施例的待测房产价格评估流程示意图,参见图5,对待预测数据,本申请实施例的评估流程如下:数据清洗,数值化处理,输入房价评估模型,得到预测的房产价格。
也就是说,将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格,具体包括:对待测房产的属性数据进行数据清洗;对清洗后待测房产的属性数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值;将数值化处理的属性数据输入到所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
参见图5,数据清洗:对待测数据进行缺失值与异常值处理,去掉无用的数据单位信息,只保留数值、去除无效属性值数据等。需要说明的是,由于待测数据的数据清洗过程与前述样本数据的数据清洗过程相同,因此,这里不再赘述。
数值化处理:对待测数据中非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值。由于待测数据的数值化处理过程与前述样本数据的数值化处理过程相同,因此,这里不再赘述。
输入房价评估模型:使用保存的房价评估模型对待测数据进行房产价格预测,读取输入的待测数据,预测后输出房产价格。
至此,得到预测的房产价格。
由上述可知,本申请实施例的房产价格评估方法,通过使用来自网络的样本数据构建房价评估模型,为快速准确的预测出房产的价格奠定了基础。对样本数据和待测数据都进行数据清洗,减少了数据量,提高了运行效率。对房产属性数据进行离散化数值处理,包含的数据属性更多,从而使得本申请实施例构建的房价评估模型预测的房产价格准确性更高。
本申请实施例还提供了房产价格评估装置,图6示出了根据本申请一个实施例的房产价格评估装置的框图,参见图6,房产价格评估装置600包括:
样本获取单元610,用于获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;
模型训练单元620,用于基于所述样本数据,训练房价评估模型并保存;
价格评估单元630,用于将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
在本申请的一个实施例中,所述属性数据中还包括待测房产的建成年份属性值;样本获取单元610,具体用于从所述指定房产的数据中提取建成年份与所述待测房产的建成年份属性值相同的房产数据或建成年份与所述待测房产的建成年份属性值的差值不大于预设阈值的房产数据,作为样本数据。
在本申请的一个实施例中,模型训练单元620,具体用于对所述样本数据进行数据清洗;对清洗后样本数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值;利用梯度提升树算法以及数值化处理后的样本数据训练房价评估模型。
在本申请的一个实施例中,模型训练单元620,具体用于将数值化处理后的样本数据划分为k份进行k折交叉验证;步骤A,选取k份中的一份作为测试集,其余作为训练集训练房价评估模型;步骤B,计算房价评估模型在测试集上的准确率,得到本轮验证误差;重复步骤A和步骤B,得到k个验证误差;判断k个验证误差是否符合预设条件;如果k个验证误差符合预设条件,则结束房价评估模型训练并保存房价评估模型;所述预设条件包括:各个验证误差小于预设第一阈值且各个验证误差之间的差值小于预设第二阈值。
在本申请的一个实施例中,模型训练单元620,具体用于对于清洗后样本数据中属性值之间具有一定顺序的第一离散属性,将第一离散属性的第一属性值转换为预设数列中的相应数值;对于清洗后样本数据中属性值之间无序的第二离散属性,根据第二属性值指示的地理位置与各分组中目标地理位置之间的距离确定第二属性值对应的分组,将分组对应的数值作为第二属性值的数值;对于清洗后样本数据中的第三离散属性,将第三离散属性的第三属性值依次与预设个数个离散属性值进行匹配,如果匹配成功则第三属性值在当前离散属性值上的取值为第一数值,如果匹配不成功则第三属性值在当前离散属性值上的取值为第二数值,根据第三属性值在各离散属性值上的取值,得到第三属性值对应的数值。
在本申请的一个实施例中,模型训练单元620,具体用于对指定房产的第三离散属性的属性值进行统计,按照出现频率从高到低对第三离散属性的属性值排序,选取前预设个数个属性值作为所述离散属性值。
在本申请的一个实施例中,价格评估单元630,具体用于对待测房产的属性数据进行数据清洗;对清洗后待测房产的属性数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值;将待测房产数值化处理后的属性数据输入到所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
需要说明的是,上述房产价格评估装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请实施例的技术方案,以实时的房产数据作为样本数据,抽取与待测数据地域相同的数据作为样本数据,保持样本数据和待测数据具有相同的属性值,通过离散变量数值化获取更多的属性值,建立梯度提升树算法房价评估模型并保存,利用房价评估模型进行房产价格预测,使得预测得到的价格更加准确。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的房产价格评估装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图7示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备700包括处理器710和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器720。存储器720可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器720具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码731的存储空间730。例如,用于存储计算机可读程序代码的存储空间730可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码731。计算机可读程序代码731可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图8所述的计算机可读存储介质。图8示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质800存储有用于执行根据本申请的方法步骤的计算机可读程序代码731,可以被电子设备700的处理器710读取,当计算机可读程序代码731由电子设备700运行时,导致该电子设备700执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码731可以执行上述任一实施例中示出的方法。计算机可读程序代码731可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种房产价格评估方法,其特征在于,包括:
获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;
基于所述样本数据,训练房价评估模型并保存;
将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
2.如权利要求1所述的方法,其特征在于,所述属性数据中还包括待测房产的建成年份属性值;
所述根据指定房产的数据得到样本数据包括:
从所述指定房产的数据中提取建成年份与所述待测房产的建成年份属性值相同的房产数据或建成年份与所述待测房产的建成年份属性值的差值不大于预设阈值的房产数据,作为样本数据。
3.如权利要求1所述的方法,其特征在于,所述基于所述样本数据,训练房价评估模型包括:
对所述样本数据进行数据清洗;
对清洗后样本数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值;
利用梯度提升树算法以及数值化处理后的样本数据训练房价评估模型。
4.如权利要求3所述的方法,其特征在于,所述利用梯度提升树算法以及数值化处理后的样本数据训练房价评估模型包括:
将数值化处理后的样本数据划分为k份进行k折交叉验证:
步骤A,选取k份中的一份作为测试集,其余作为训练集训练房价评估模型;
步骤B,计算房价评估模型在测试集上的准确率,得到本轮验证误差;
重复步骤A和步骤B,得到k个验证误差;
判断k个验证误差是否符合预设条件;
如果k个验证误差符合预设条件,则结束房价评估模型训练并保存房价评估模型;所述预设条件包括:各个验证误差小于预设第一阈值且各个验证误差之间的差值小于预设第二阈值。
5.如权利要求3所述的方法,其特征在于,所述对清洗后样本数据中的非数值型属性值进行数值化处理包括:
对于清洗后样本数据中属性值之间具有顺序的第一离散属性,将第一离散属性的第一属性值转换为预设数列中的相应数值;
对于清洗后样本数据中属性值之间无序的第二离散属性,根据第二属性值指示的地理位置与各分组中目标地理位置之间的距离确定第二属性值对应的分组,将分组对应的数值作为第二属性值的数值;
对于清洗后样本数据中的第三离散属性,将第三离散属性的第三属性值依次与预设个数个离散属性值进行匹配,如果匹配成功则第三属性值在当前离散属性值上的取值为第一数值,如果匹配不成功则第三属性值在当前离散属性值上的取值为第二数值,根据第三属性值在各离散属性值上的取值,得到第三属性值对应的数值。
6.如权利要求5所述的方法,其特征在于,在将第三离散属性的第三属性值依次与预设个数个离散属性值进行匹配之前,该方法还包括:
对指定房产的第三离散属性的属性值进行统计,按照出现频率从高到低对第三离散属性的属性值排序,选取前预设个数个属性值作为所述离散属性值。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格包括:
对待测房产的属性数据进行数据清洗;
对清洗后待测房产的属性数据中的非数值型属性值进行数值化处理,将非数值型属性值转换为相应的数值;
将待测房产数值化处理后的属性数据输入到所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
8.一种房产价格评估装置,其特征在于,包括:
样本获取单元,用于获取待测房产的至少包括地域属性值的属性数据,从网络中获取所在地域与所述地域属性值一致的指定房产的数据,根据指定房产的数据得到样本数据;
模型训练单元,用于基于所述样本数据,训练房价评估模型并保存;
价格评估单元,用于将待测房产的属性数据输入到保存的所述房价评估模型中,得到所述房价评估模型输出的待测房产价格。
9.一种电子设备,其特征在于,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468819.6A CN111709775A (zh) | 2020-05-28 | 2020-05-28 | 一种房产价格评估方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468819.6A CN111709775A (zh) | 2020-05-28 | 2020-05-28 | 一种房产价格评估方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111709775A true CN111709775A (zh) | 2020-09-25 |
Family
ID=72537955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010468819.6A Pending CN111709775A (zh) | 2020-05-28 | 2020-05-28 | 一种房产价格评估方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709775A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785342A (zh) * | 2021-01-28 | 2021-05-11 | 中国工商银行股份有限公司 | 房地产动态估值方法及装置 |
CN113344645A (zh) * | 2021-07-07 | 2021-09-03 | 中国工商银行股份有限公司 | 房价预测的方法、装置和电子设备 |
CN113343700A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113988930A (zh) * | 2021-10-29 | 2022-01-28 | 重庆汇集源科技有限公司 | 商业房地产人工智能估价系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493147A (zh) * | 2018-12-05 | 2019-03-19 | 北京邮电大学 | 基于多层级模型融合的房产自动评估方法及系统 |
-
2020
- 2020-05-28 CN CN202010468819.6A patent/CN111709775A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493147A (zh) * | 2018-12-05 | 2019-03-19 | 北京邮电大学 | 基于多层级模型融合的房产自动评估方法及系统 |
Non-Patent Citations (1)
Title |
---|
杨博文等: "基于集成学习的房价预测模型", 《电脑知识与技术》, vol. 13, no. 29, 31 October 2017 (2017-10-31), pages 191 - 194 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785342A (zh) * | 2021-01-28 | 2021-05-11 | 中国工商银行股份有限公司 | 房地产动态估值方法及装置 |
CN113343700A (zh) * | 2021-06-22 | 2021-09-03 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113343700B (zh) * | 2021-06-22 | 2023-03-28 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113344645A (zh) * | 2021-07-07 | 2021-09-03 | 中国工商银行股份有限公司 | 房价预测的方法、装置和电子设备 |
CN113988930A (zh) * | 2021-10-29 | 2022-01-28 | 重庆汇集源科技有限公司 | 商业房地产人工智能估价系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709775A (zh) | 一种房产价格评估方法、装置、电子设备及存储介质 | |
CN108846835B (zh) | 基于深度可分离卷积网络的图像变化检测方法 | |
CN111914090B (zh) | 一种企业行业分类识别及其特征污染物识别的方法及装置 | |
CN110796284A (zh) | 细颗粒物污染等级的预测方法、装置及计算机设备 | |
CN106126719B (zh) | 信息处理方法及装置 | |
CN109410238B (zh) | 一种基于PointNet++网络的枸杞识别计数方法 | |
CN111008337B (zh) | 一种基于三元特征的深度注意力谣言鉴别方法及装置 | |
CN102141978A (zh) | 一种文本分类的方法及系统 | |
CN110703057A (zh) | 基于数据增强和神经网络的电力设备局部放电诊断方法 | |
CN114092832A (zh) | 一种基于并联混合卷积网络的高分辨率遥感影像分类方法 | |
Ahmadi et al. | MaxEnt brings comparable results when the input data are being completed; Model parameterization of four species distribution models | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN107341508B (zh) | 一种快速美食图片识别方法及系统 | |
CN110968069A (zh) | 风力发电机组的故障预测方法、相应的装置及电子设备 | |
CN116340723A (zh) | 基于大数据的乡村水污染快速溯源方法及系统 | |
CN110826623B (zh) | 基于气象数据的分类方法、装置、计算机设备及存储介质 | |
CN112203324B (zh) | 一种基于位置指纹库的mr定位方法及装置 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
Bergs | The detection of natural cities in the Netherlands—Nocturnal satellite imagery and Zipf’s law | |
CN103605670B (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
CN107203496B (zh) | 粮食分配抽样方法及装置 | |
CN111027601B (zh) | 一种基于激光传感器的平面检测方法、装置 | |
JP5637073B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN111027771A (zh) | 景区客流量预估方法、系统、装置及可存储介质 | |
CN114218383A (zh) | 重复事件的判定方法、装置及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |