CN116308441A - 一种具有变量选择能力的房屋价格预测方法 - Google Patents
一种具有变量选择能力的房屋价格预测方法 Download PDFInfo
- Publication number
- CN116308441A CN116308441A CN202310211892.9A CN202310211892A CN116308441A CN 116308441 A CN116308441 A CN 116308441A CN 202310211892 A CN202310211892 A CN 202310211892A CN 116308441 A CN116308441 A CN 116308441A
- Authority
- CN
- China
- Prior art keywords
- house
- data set
- regression
- model
- price
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002159 abnormal effect Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000013480 data collection Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0278—Product appraisal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种具有变量选择能力的房屋价格预测方法,属于基于计算机模型的房价预测技术领域;解决了现有房价预测方法缺乏变量选择的能力的问题;包括如下步骤:房屋数据收集:获取给定范围内各个小区的住宅交易信息及房屋特征,形成数据集;房屋数据整理及标准化处理:对收集到的房屋数据进行整理;将数据集分为特征数据集X和房屋价格数据集Y,并进行标准化处理;构建基于分位数的回归模型:构建适用于含有异常点的鲁棒回归模型,并加入正则化项,从而对回归系数进行约束;训练模型:利用整理好的房屋数据对所构建的模型进行训练,估计回归系数,确定房屋特征变量系数;通过特征数据集和模型给出房价的预测结果;本发明应用于房价预测。
Description
技术领域
本发明提供了一种具有变量选择能力的房屋价格预测方法,属于基于计算机模型的房价预测技术领域。
背景技术
传统的房价预测方法大多是基于专业的估价师或房产交易工作者根据近期某地区的基础房价、政策以及自身经验给出预测价格。此类方法通常具有一定的主观性,针对同一区域的房价,不同的估价者得出的最终房价预测值可能不同。由此可见传统的房价预测方法存在极大的局限性,其预测结构不够准确。
近年来,一些学者采用机器学习方法来进行房价预测,主要有基于逻辑回归方法和基于神经网络的预测。上述方法首先需要进行特征(变量)提取,然后利用机器学习方法对所选的特征进行回归估计。该类方法不仅计算量大,而且缺乏一定的鲁棒性,即当房屋价格数据中含有异常点或受到小的波动时,其预测结果会受到严重的影响,产生很大的波动。针对这一问题,基于分位数回归的房屋价格预测方法进一步被提出,该方法具有一定的鲁棒性,因而受异常点影响较少。然而,该方法仍存在较大不足:(1)缺乏变量选择的能力;(2)不能很好的处理变量相关性问题。
发明内容
本发明为了解决现有房价预测方法缺乏变量选择能力的问题,提出了一种具有变量选择能力的房屋价格预测方法。
为了解决上述技术问题,本发明采用的技术方案为:一种具有变量选择能力的房屋价格预测方法,包括如下步骤:
S1:房屋数据收集:获取给定范围内各个小区的住宅交易信息及房屋特征,形成数据集;
S2:房屋数据整理及标准化处理:对步骤S1中收集到的房屋数据进行整理;
将数据集分为特征数据集X和房屋价格数据集Y,分别对特征数据集X和房屋价格数据集Y进行标准化处理;
S3:构建基于分位数的回归模型:构建适用于含有异常点的鲁棒回归模型,并加入正则化项,从而对回归系数进行约束;
S4:训练模型:利用整理好的房屋数据对所构建的模型进行训练,估计回归系数,确定房屋特征变量系数;
S5:通过特征数据集和模型给出房价的预测结果。
所述步骤S2中对房屋数据进行整理的依据为:对于连续型变量,仍采用原始数据值;对于定性变量,进行离散赋值;对于缺失值,暂时不做处理;
对数据集进行标准化处理后将缺失值赋值为0。
所述步骤S3中构建的分位数回归模型的表达式如下:
y=f(x,β);
上式中:y表示房屋价格,x表示房屋特征变量,f表示线性函数,β是与房屋特征相对应的回归系数,属于未知数;
对上式中的β采用基于分位数回归的估计方法进行估计,估计的表达式如下:
所述基于分位数回归的估计方法的表达式中的第一项为分位数函数,第二项||β||为L1正则化项,满足:
||β||≤t;
上式中t为给定阈值,其中t>0;
所述房屋特征变量包括地理位置、面积、卧式个数、楼层、朝向、交易价格、单位价格、卫生间个数。
所述基于分位数回归的估计方法的表达式的求解能够直接调用R语言程序包quantreg,或采用基于ADMM算法进行求解。
本发明相对于现有技术具备的有益效果为:
1.本发明所提方法将正则化技术和具有鲁棒性的分位数回归相结合,避免了异常点对预测精度的影响和模型过拟合问题。
2.该方法使用了L1正则项,与已有的基于分位数的房屋价格预测方法相比,所提方可以进行变量选择,即当房屋特征变量中含有对房屋价格影响非常小时,该方法可通过将该变量的回归参数估计为0,自动去除对价格影响小的变量。
3.在所收集到的房屋数据中,房屋卧室的个数和房屋的面积显然是密切相关的,已有的鲁棒性方法并不能很好的处理该问题,而所提方法中使用了L2正则项,使得模型具有了强凸性,从而使得所提方法具有了处理变量相关性的能力。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明方法的流程图;
图2为本发明采用基于分位数回归的估计方法进行房价预测的流程图。
具体实施方式
如图1至图2所示,本发明针对上述现有技术中存在的不足,提供一种具有变量选择能力的房屋价格预测方法,该方法基于具有鲁棒性的分位数回归,采用正则化技术,从而达到了变量选择和处理变量相关性问题的能力,使得房屋价格预测模型具有更强的可解释性和更准确的预测能力。具体包括如下步骤:
1)获取数据:获取给定范围内各个小区的住宅交易信息及其房屋特征。
2)数据整理:对所收集到的数据进行整理,对于连续型变量,仍采用原始数据值;对于定性变量,进行离散赋值;对于缺失值,暂时不做处理。将数据集分为特征数据集X和房屋价格数据集Y。进一步,分别对特征数据集X和房屋价格数据集Y进行标准化处理。在此基础上,将对缺失值赋值为0。
3)建立模型:构建适用于含有异常点的鲁棒回归模型,并加入正则化项,从而对回归系数进行约束,起到特征选择的效果。
4)训练模型:利用整理好的数据对所构建模型进行训练,估计回归系数,进而确定模型。
5)对房屋价格进行预测:通过特征数据集中的房屋特征变量和模型给出房价的预测结果。
其中房屋特征变量包括地理位置、面积、卧式个数、楼层、朝向等较多变量中,可选出对房屋价格影响最为重要的变量,并且会充分考虑到变量之间的相关性问题。
其中建立的模型采用分位数回归进行构建,基于采集到的数据,回归模型假设房屋特征(如面积、地理位置、楼层等)与价格之间具有线性关系:
y=f(x,β);
上式中:y表示房屋价格,x表示房屋特征变量,f表示线性函数,β是与房屋特征相对应的回归系数,属于未知数;因此,如何估计回归系数β是本发明的重要目标。
为准确估计回归系数,本发明采取基于分位数回归的如下估计方法:
通过(1)式对回归系数β进行估计,进而确定f的具体形式,从而可以对房屋价格进行预测。式(1)中的第一项为分位数函数,具有较好的鲁棒性,因而当数据中含义异常点时,可保证所预测的房屋价格所受影响较小,分位数函数的求解可直接调用R语言程序包quantreg,或可采用基于ADMM算法求解。不同于传统的最小二乘估计,分位数回归可估计出不同的分位数值,因而具有鲁棒性,从而使得式(1)所得估计具有鲁棒性,即当房屋数据中含有异常点时,所得估计所受影响较小,由此说明,当房屋数据中含有异常点时,仍可以产生较为准确的房屋价格预测结果。更为重要的,式(1)中采用了具有变量选择能力的L1正则项和具有强凸性的L2正则项,因而使得估计模型(1)既具有变量选择的能力,又可以有效的处理变量相关性问题。
本发明中采用了正则化思想,在模型拟合过程中,正则化是避免模型过拟合的一种重要手段。具体来说,通过对模型参数施以一定的约束,从而使得模型削弱不重要的特征变量,自动从众多特征变量中提取出重要特征。
式(1)中第二项即为本发明所选取的L1正则化项,可使得模型具有变量选择的能力,从而在众多对房屋价格有影响的变量中选出最重要的变量,即约束:
||β||≤t (2);
上式中t为给定阈值,其中t>0。
通过约束所有回归系数β之和小于给定阈值t,可使得房屋特征中不重要特征的系数成为0,即对房屋价格不产生影响。反之,通过式(2)的约束,会使得式(1)自动增大重要特征的回归系数,从而在对房价的预测中产生重要影响,如房屋面积等。本发明在对系数进行估计时,通过采用1范数对房屋特征系数之和进行约束,起到了自动进行特征选择的效果,从而较少了计算量,降低了计算成本。
式(1)中的第三项为L2正则项,具有强凸性,能够保证所提模型具有组变量选择的能力。
目前所收集到的房屋价格数据中不可避免地含有异常点,因此具有鲁棒性的方法是当前房屋价格预测的基本要求之一。此外,房屋价格数据的另外两个显著特点是变量具有冗余性,且变量间相关性强。因而本发明提出了更加适用于当前数据特点的鲁棒房屋价格预测方法,旨在提高房屋预测的精度,并从中选出对房屋价格具有重要影响的因素,从而进行更好的市场管理与规划,与此同时,可对购买者进行有效的指导与帮助。
关于本发明具体结构需要说明的是,本发明采用的各部件模块相互之间的连接关系是确定的、可实现的,除实施例中特殊说明的以外,其特定的连接关系可以带来相应的技术效果,并基于不依赖相应软件程序执行的前提下,解决本发明提出的技术问题,本发明中出现的部件、模块、具体元器件的型号、相互间连接方式以及,由上述技术特征带来的常规使用方法、可预期技术效果,除具体说明的以外,均属于本领域技术人员在申请日前可以获取到的专利、期刊论文、技术手册、技术词典、教科书中已公开内容,或属于本领域常规技术、公知常识等现有技术,无需赘述,使得本案提供的技术方案是清楚、完整、可实现的,并能根据该技术手段重现或获得相应的实体产品。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种具有变量选择能力的房屋价格预测方法,其特征在于:包括如下步骤:
S1:房屋数据收集:获取给定范围内各个小区的住宅交易信息及房屋特征,形成数据集;
S2:房屋数据整理及标准化处理:对步骤S1中收集到的房屋数据进行整理;
将数据集分为特征数据集X和房屋价格数据集Y,分别对特征数据集X和房屋价格数据集Y进行标准化处理;
S3:构建基于分位数的回归模型:构建适用于含有异常点的鲁棒回归模型,并加入正则化项,从而对回归系数进行约束;
S4:训练模型:利用整理好的房屋数据对所构建的模型进行训练,估计回归系数,确定房屋特征变量系数;
S5:通过特征数据集和模型给出房价的预测结果。
2.根据权利要求1所述的一种具有变量选择能力的房屋价格预测方法,其特征在于:所述步骤S2中对房屋数据进行整理的依据为:对于连续型变量,仍采用原始数据值;对于定性变量,进行离散赋值;对于缺失值,暂时不做处理;
对数据集进行标准化处理后将缺失值赋值为0。
5.根据权利要求4所述的一种具有变量选择能力的房屋价格预测方法,其特征在于:所述房屋特征变量包括地理位置、面积、卧式个数、楼层、朝向、交易价格、单位价格、卫生间个数。
6.根据权利要求5所述的一种具有变量选择能力的房屋价格预测方法,其特征在于:所述基于分位数回归的估计方法的表达式的求解能够直接调用R语言程序包quantreg,或采用基于ADMM算法进行求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310211892.9A CN116308441A (zh) | 2023-03-07 | 2023-03-07 | 一种具有变量选择能力的房屋价格预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310211892.9A CN116308441A (zh) | 2023-03-07 | 2023-03-07 | 一种具有变量选择能力的房屋价格预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116308441A true CN116308441A (zh) | 2023-06-23 |
Family
ID=86837364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310211892.9A Pending CN116308441A (zh) | 2023-03-07 | 2023-03-07 | 一种具有变量选择能力的房屋价格预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116308441A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376936A (zh) * | 2018-10-31 | 2019-02-22 | 平安直通咨询有限公司 | 房屋价值预测方法、装置、计算机设备和存储介质 |
CN113096815A (zh) * | 2021-05-28 | 2021-07-09 | 齐齐哈尔大学 | 一种基于logistic回归的慢性肾病预测方法 |
CN113159835A (zh) * | 2021-04-07 | 2021-07-23 | 远光软件股份有限公司 | 基于人工智能的发电侧电价报价方法、装置、存储介质及电子设备 |
CN113868938A (zh) * | 2021-08-24 | 2021-12-31 | 国电南瑞科技股份有限公司 | 基于分位数回归的短期负荷概率密度预测方法、装置及系统 |
-
2023
- 2023-03-07 CN CN202310211892.9A patent/CN116308441A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376936A (zh) * | 2018-10-31 | 2019-02-22 | 平安直通咨询有限公司 | 房屋价值预测方法、装置、计算机设备和存储介质 |
CN113159835A (zh) * | 2021-04-07 | 2021-07-23 | 远光软件股份有限公司 | 基于人工智能的发电侧电价报价方法、装置、存储介质及电子设备 |
CN113096815A (zh) * | 2021-05-28 | 2021-07-09 | 齐齐哈尔大学 | 一种基于logistic回归的慢性肾病预测方法 |
CN113868938A (zh) * | 2021-08-24 | 2021-12-31 | 国电南瑞科技股份有限公司 | 基于分位数回归的短期负荷概率密度预测方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7140410B2 (ja) | 予測システム、予測方法および予測プログラム | |
CN111444914A (zh) | 一种基于PU-Learning的图像语义分割方法 | |
CN110751326A (zh) | 一种光伏日前功率预测方法、装置以及存储介质 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN111582394B (zh) | 一种群体评估方法、装置、设备及介质 | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及系统 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN110880044B (zh) | 一种基于马尔科夫链的负荷预测方法 | |
CN112330153A (zh) | 基于非线性正交回归的行业规模预测模型建模方法及装置 | |
CN115576267A (zh) | 一种基于数字孪生的轮毂机加工尺寸误差修正方法 | |
CN111652422A (zh) | 基于建筑物分类的供热系统负荷预测方法、装置及系统 | |
CN114581141A (zh) | 基于特征选择与lssvr的短期负荷预测方法 | |
CN116774986A (zh) | 软件开发工作量自动评估方法、装置、存储介质及处理器 | |
CN116308441A (zh) | 一种具有变量选择能力的房屋价格预测方法 | |
CN111081325A (zh) | 医疗数据处理方法与装置 | |
CN114372835B (zh) | 综合能源服务潜力客户识别方法、系统及计算机设备 | |
CN114492657A (zh) | 植物疾病分类方法、装置、电子设备及存储介质 | |
CN115688984A (zh) | 分区用电量分析预测方法、装置及电子设备 | |
CN114004513A (zh) | 一种需求预测方法、系统及存储介质 | |
CN114154768A (zh) | 天然气需求预测方法、装置、电子设备及介质 | |
CN116843368B (zh) | 基于arma模型的营销数据处理方法 | |
CN112084953B (zh) | 一种人脸属性识别的方法、系统、设备及可读存储介质 | |
CN117892112B (zh) | 基于区块链的数据分析方法 | |
CN117763687A (zh) | 一种基于bim模型的建筑损伤预测系统及方法 | |
CN117114733A (zh) | 一种应用于视频直播的运营模型管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |