CN109389247A - 一种基于大数据的区域房屋租金预测方法 - Google Patents
一种基于大数据的区域房屋租金预测方法 Download PDFInfo
- Publication number
- CN109389247A CN109389247A CN201811134323.4A CN201811134323A CN109389247A CN 109389247 A CN109389247 A CN 109389247A CN 201811134323 A CN201811134323 A CN 201811134323A CN 109389247 A CN109389247 A CN 109389247A
- Authority
- CN
- China
- Prior art keywords
- house
- feature
- data
- model
- rent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000006243 chemical reaction Methods 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000007717 exclusion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims 1
- 239000010931 gold Substances 0.000 claims 1
- 229910052737 gold Inorganic materials 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 3
- 230000002159 abnormal effect Effects 0.000 abstract 2
- 238000004378 air conditioning Methods 0.000 description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 238000005406 washing Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 101150032437 top-3 gene Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的区域房屋租金预测方法,采用FFM算法对大量房屋出租信息进行数据清洗、特征提取、数据转换、特征建模,使用构建的模型对房租租金进行预测并找出异常租金数据。本发明不仅可以通过对数据进行清洗、特征提取、建模来实现对房屋租金的预测,还能够很好的检测到异常的房屋租金信息。本发明所提出的基于FFM算法的房租预测方法能很好的应对房屋数据稀疏的情况,能够自动学习特征之间的隐藏联系,是对房租预测的一种十分有效的方法。
Description
技术领域
本发明涉及机器学习、大数据、数据分析领域,尤其涉及房屋租赁中的一种基于大数据的区域房屋租金预测方法。
背景技术
房屋租金的确定,需要结合房屋的装修情况,位置地段,交通便利程度,周边生活配套等多方面的因素来对房屋租金进行预测,传统的房屋出租领域,由于中介对房屋信息掌握,房主和租户对区域房屋租金的预判存在着严重的信息不对称的情况,租金定价问题未能被很好的解决,造成租房资源的极大浪费。
发明内容
本发明提供了一种基于大数据的区域房屋租金预测方法,能有效的对房屋租金进行预测。
本发明采用以下技术方案:
一种基于大数据的区域房屋租金预测方法,包括以下几个步骤:一种基于大数据的区域房屋租金预测方法,其特征在于:包括以下几个步骤:
Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;
Q2、将房屋数据划分训练集、测试集,采用留出法将数据集划分为两个互斥的子集,采用五折交叉验证对模型进行验证,即一个集合作为训练集S,包含50%的样本,另一个作为测试集T,包含50%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例;
Q3、对清洗后的房屋数据进行特征工程操作,对房屋特征数据完成基础特征、距离特征、统计特征、GBDT离散特征的特征工程构建;
所述基础特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;对于房屋的客厅个数、卧室个数、洗手间个数、房屋面积大小、整个楼栋的层数、房屋描述图片个数直接使用数值;房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式采用one-hot处理后使用数值;房屋家具个数进行n-hot处理后使用数值;
所述距离特征,根据房屋所在小区的经纬度距离最近的大学、商圈、地铁的经纬度,计算房屋距离最近大学、商圈、地铁的距离,由距离特征直接作为特征值使用;
统计特征:统计房屋类型所在层出现的次数,出租方式出现的次数,用以反映出房屋租金价格和出租方式、所在层数的关系;
gbdt离散特征,将基础特征、距离特征离散特征值;
Q4、对特征工程构建完成的样本集进行特征选择:
Q4-1、利用模型进行特征选择,训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择;
Q4-2、利用wrapper特征选择,从特征构建完成后的数据中选择初始特征子集,利用评价函数对其进行评价,反馈,然后继续评价,最终寻找出最优特征子集;
Q4-3、两种特征选择做完以后,选取两部分特征交集作为最终的模型的特征
Q4-4、采用三角矩阵的稀疏存储保证特征信息丢失较少的情况下,加快模型的训练过程;
Q5、建立多个机器学习模型,并进行模型融合:
Q5-1、XGBOOST模型,通过参数随机扰动产生多个xgboost模型,首利用xgb_1确定了一组R2评分达到0.64的参数,其中subsample参数取值为0.7,迭代次数500,min_child_weight为3,colsample_bytree为0.7,XGBoost模型参数在默认参数乘以随机系数,系数范围为0.8~1.2,生成多个不同的XGBoost模型,根据十折交叉验证得到每个模型的R2得分,选取Top K个XGBoost作为多模型的输出,这里的K值取20;
Q5-2、多模型STACKING融合,训练三个基础模型RandomForest,XGBOOST,GBDT,将这三个模型作为Stacking的第一层,将每个模型的预测结果作为特征,放入到stacking第二层,第二层使用的模型为LinearRegression;
Q5-3、最终结果以Q5-1和Q5-2均值融合;
Q6、对房屋租金进行预测。
上述技术方案中,所述Q2中,将房屋所在小区进行经纬度转换,若无法查询到该小区的经纬度则利用该小区所在城市的经纬度进行替代。
上述技术方案中,所述Q4中,在特征选择前对特征进行降维的处理,从而达到对特征进行重组以删除冗余特征的目的:
利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征,具体为:
对于m×n的矩阵M,进行奇异值分解
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
本发明的技术效果:本发明结合数据挖掘、机器学习,利用影响房屋出租价格的多个因素,建立多个机器学习模型,来对房屋出租价格进行预测,有效的提高了模型的预测精度,且降低了模型的预测时间,可以极大程度改善租房体验,降低房屋的闲置率。
附图说明
图1是本发明总体流程图。
图2是本发明XGBOOST模型融合示例图。
图3是多模型STACKING融合示例图。
具体实施方式
下面将结合本发明的附图和实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1所示,一种基于大数据的区域房屋租金预测方法,包括以下几个步骤:
Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;如表1为原始数据,表2为经过数据清洗之后的数据。
表1、原始数据
room | hall | toilet | rent_money | province | city | toward | area | level | floor |
3 | 1 | 1 | 850 | 山东 | 莱芜 | 南北 | 95 | 高层 | 6 |
1 | 1 | 1 | 450 | 四川 | 资阳 | 南 | 40 | 高层 | 8 |
1 | 0 | 1 | 8000 | 云南 | 昆明 | 东 | 35 | 中层 | 32 |
3 | 1 | 1 | 900 | 江苏 | 沛县 | 南 | 94 | 高层 | 6 |
3 | 2 | 1 | 550 | 四川 | 资阳 | 南 | 100 | 高层 | 6 |
3 | 1 | 1 | 900 | 四川 | 资阳 | 西南 | 100 | 中层 | 7 |
3 | 2 | 1 | 800 | 四川 | 资阳 | 东西 | 103 | 中层 | 6 |
2 | 1 | 1 | 面议 | 四川 | 资阳 | 南 | 90 | 高层 | 7 |
1 | 1 | 1 | 1000 | 湖南 | 湘潭 | 南北 | 50 | 中层 | 19 |
2 | 2 | 1 | 1600 | 广西 | 贵港 | 南 | 83 | 低层 | 30 |
1 | 1 | 1 | 1000 | 山东 | 淄博 | 西 | 43 | 中层 | 6 |
3 | 2 | 1 | 100 | 四川 | 资阳 | 南北 | 97 | 高层 | 6 |
3 | 2 | 2 | 2600 | 广东 | 中山 | 南 | 114 | 高层 | 32 |
1 | 1 | 1 | 1300 | 四川 | 重庆 | 北 | 48 | 中层 | 25 |
2 | 2 | 1 | 1690 | 广西 | 北海 | 南 | 90 | 中层 | 28 |
2 | 2 | 1 | 面议 | 四川 | 资阳 | 南 | 80 | 高层 | 22 |
5 | 5 | 1 | 1000 | 安徽 | 马鞍山 | 南 | 400 | 地下 | 18 |
表2、经过数据清洗之后的数据
room | hall | toilet | rent_mone | province | city | toward | area | level | floor |
3 | 1 | 1 | 850 | 山东省 | 莱芜市 | 南北 | 95 | 高层 | 6 |
1 | 1 | 1 | 450 | 四川省 | 资阳市 | 南 | 40 | 高层 | 8 |
3 | 1 | 1 | 900 | 江苏省 | 沛县 | 南 | 94 | 高层 | 6 |
3 | 2 | 1 | 550 | 四川省 | 资阳市 | 南 | 100 | 高层 | 6 |
3 | 1 | 1 | 900 | 四川省 | 资阳市 | 西南 | 100 | 中层 | 7 |
3 | 2 | 1 | 800 | 四川省 | 资阳市 | 东西 | 103 | 中层 | 6 |
1 | 1 | 1 | 1000 | 湖南省 | 湘潭市 | 南北 | 50 | 中层 | 19 |
2 | 2 | 1 | 1600广 | 西壮族自治 | 区贵港市 | 南 | 83 | 低层 | 30 |
1 | 1 | 1 | 1000 | 山东省 | 淄博市 | 西 | 43 | 中层 | 6 |
3 | 2 | 2 | 2600 | 广东省 | 中山市 | 南 | 114 | 高层 | 32 |
1 | 1 | 1 | 1300 | 重庆市 | 重庆市 | 北 | 48 | 中层 | 25 |
2 | 2 | 1 | 1690 | 广西省 | 北海市 | 南 | 90 | 中层 | 28 |
5 | 5 | 1 | 1000 | 安徽省 | 马鞍山市 | 南 | 400 | 地下 | 18 |
Q2、将房屋数据划分训练集、测试集,采用留出法将数据集划分为两个互斥的子集,采用五折交叉验证对模型进行验证,即一个集合作为训练集S,包含50%的样本,另一个作为测试集T,包含50%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例;在用留出法对数据进行划分时,采用的是分层抽样的方法,这样可保证训练集和测试集正负样本分布的一致性,可以加快模型收敛速度;分层抽样描述如下,假设原始数据集为D,对D分层抽样分为训练集S和测试集T,如果使得S和T数据集中正负样本比例和D中保持一致,则该抽样为分层抽样;
Q3、对清洗后的房屋数据进行特征工程操作,对房屋特征数据完成基础特征、距离特征、统计特征、GBDT离散特征的特征工程构建,所述基础特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;对于房屋的客厅个数、卧室个数、洗手间个数、房屋面积大小、整个楼栋的层数、房屋描述图片个数直接使用数值;房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式采用one-hot处理后使用数值;房屋家具个数进行n-hot处理后使用数值;
所述提取包括:对房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式进行one-hot编码如表3所示:
表3、one-hot编码
toward | 南北 | 南 | 西南 | 东西 | 南北 | 北 | 西 |
南北 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
南 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
南 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
南 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
西南 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
东西 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
南北 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
南 | 0 | 1 | 0 | 0 | 1 | 0 | 0 |
西 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
南 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
北 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
南 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
南 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
对房屋所提供的家具进行n-hot编码见表4;
表4、n-hot编码
facility | 床 | 衣柜 | 冰箱 | 洗衣机 | 空调 | 热水器 | 电视 | 阳台 | 沙发 |
无 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
床.衣柜.冰箱.洗衣机.空调.热水器 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
床.衣柜.电视.空调.热水器.阳台 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 0 |
床.衣柜.沙发.热水器.阳台 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 |
床.衣柜.沙发.冰箱.空调.热水器.阳台 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 |
床.衣柜.沙发.电视.冰箱.洗衣机.空调 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 0 | 1 |
床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.宽带.暖气.阳台 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
床.衣柜.沙发.电视.冰箱.洗衣机.空调 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 0 | 1 |
空调.热水器.宽带.暖气.阳台 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 1 | 0 |
床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.阳台 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
床.洗衣机.空调.阳台.冰箱.卫生间.可做饭.电视 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 0 |
床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.阳台 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 |
无 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
选择房屋所在省市、房屋所在小区、房屋所在地区、房屋朝向、房屋所在楼层高度的特征作为排序特征,依据特征值排序;
所述距离特征,根据房屋所在小区的经纬度距离最近的大学、商圈、地铁的经纬度,计算房屋距离最近大学、商圈、地铁的距离,由距离特征直接作为特征值使用;
统计特征:统计房屋类型所在层出现的次数,出租方式出现的次数,用以反映出房屋租金价格和出租方式、所在层数的关系;
gbdt离散特征,将基础特征、距离特征离散特征值,考虑到离群点的异常特征可能是多维度的组合,通过分析样本属性的缺失值个数,剔除了极少量的离群点。按行统计每个样本的属性缺失值个数,将缺失值个数从大到小排序,缺失值个数排序top3%的这部分样本被认定为离群点,对离群点剔除,其他处理,如果房屋所在城市为直辖市,那么就存在房屋所在城市所属省份为别的省份,需要对其进行处理;房屋面积的大小,比如‘几室几厅几卫’,在数据中并没有直接给出,需要进行处理,将其转换为‘几室几厅几卫’;同样的,房屋的朝向也并没有直接给出,也需要对其进行处理;
Q4、对特征工程构建完成的样本集进行特征选择,由于对房屋数据进行了离散处理,导致其维度达到上千维,同时,为了使模型泛化能力更强,减少过拟合,增强对特征和特征值之间的理解,需要对特征进行特征选择,在特征选择前对特征进行降维的处理,从而达到对特征进行重组以删除冗余特征的目的:
利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征,具体为:
对于m×n的矩阵M,进行奇异值分解
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
Q4-1、利用模型进行特征选择,训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择;
Q4-2、利用wrapper特征选择,从特征构建完成后的数据中选择初始特征子集,利用评价函数对其进行评价,反馈,然后继续评价,最终寻找出最优特征子集;
Q4-3、两种特征选择做完以后,选取两部分特征交集作为最终的模型的特征
Q4-4、采用三角矩阵的稀疏存储保证特征信息丢失较少的情况下,加快模型的训练过程;
Q5、建立多个机器学习模型,并进行模型融合:
Q5-1、XGBOOST模型,通过参数随机扰动产生多个xgboost模型,首利用xgb_1确定了一组R2评分达到0.64的参数,其中subsample参数取值为0.7,迭代次数500,min_child_weight为3,colsample_bytree为0.7,XGBoost模型参数在默认参数乘以随机系数,系数范围为0.8~1.2,生成多个不同的XGBoost模型,根据十折交叉验证得到每个模型的R2得分,选取Top K个XGBoost作为多模型的输出,这里的K值取20;
Q5-2、多模型STACKING融合,训练三个基础模型RandomForest,XGBOOST,GBDT,将这三个模型作为Stacking的第一层,将每个模型的预测结果作为特征,放入到stacking第二层,第二层使用的模型为LinearRegression;
Q5-3、最终结果以Q5-1和Q5-2均值融合;
Q6、对房屋租金进行预测。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (3)
1.一种基于大数据的区域房屋租金预测方法,其特征在于:包括以下几个步骤:
Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;
Q2、将房屋数据划分训练集、测试集,采用留出法将数据集划分为两个互斥的子集,采用五折交叉验证对模型进行验证,即一个集合作为训练集S,包含50%的样本,另一个作为测试集T,包含50%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例;
Q3、对清洗后的房屋数据进行特征工程操作,对房屋特征数据完成基础特征、距离特征、统计特征、GBDT离散特征的特征工程构建;
所述基础特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;对于房屋的客厅个数、卧室个数、洗手间个数、房屋面积大小、整个楼栋的层数、房屋描述图片个数直接使用数值;房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式采用one-hot处理后使用数值;房屋家具个数进行n-hot处理后使用数值;
所述距离特征,根据房屋所在小区的经纬度距离最近的大学、商圈、地铁的经纬度,计算房屋距离最近大学、商圈、地铁的距离,由距离特征直接作为特征值使用;
统计特征:统计房屋类型所在层出现的次数,出租方式出现的次数,用以反映出房屋租金价格和出租方式、所在层数的关系;
gbdt离散特征,将基础特征、距离特征离散特征值;
Q4、对特征工程构建完成的样本集进行特征选择:
Q4-1、利用模型进行特征选择,训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择;
Q4-2、利用wrapper特征选择,从特征构建完成后的数据中选择初始特征子集,利用评价函数对其进行评价,反馈,然后继续评价,最终寻找出最优特征子集;
Q4-3、两种特征选择做完以后,选取两部分特征交集作为最终的模型的特征
Q4-4、采用三角矩阵的稀疏存储保证特征信息丢失较少的情况下,加快模型的训练过程;
Q5、建立多个机器学习模型,并进行模型融合:
Q5-1、XGBOOST模型,通过参数随机扰动产生多个xgboost模型,首利用xgb_1确定了一组R2评分达到0.64的参数,其中subsample参数取值为0.7,迭代次数500,min_child_weight为3,colsample_bytree为0.7,XGBoost模型参数在默认参数乘以随机系数,系数范围为0.8~1.2,生成多个不同的XGBoost模型,根据十折交叉验证得到每个模型的R2得分,选取Top K个XGBoost作为多模型的输出,这里的K值取20;
Q5-2、多模型STACKING融合,训练三个基础模型RandomForest,XGBOOST,GBDT,将这三个模型作为Stacking的第一层,将每个模型的预测结果作为特征,放入到stacking第二层,第二层使用的模型为LinearRegression;
Q5-3、最终结果以Q5-1和Q5-2均值融合;
Q6、对房屋租金进行预测。
2.根据权利要求1所述的一种基于大数据的区域房屋租金预测方法,其特征在于:所述Q2中,将房屋所在小区进行经纬度转换,若无法查询到该小区的经纬度则利用该小区所在城市的经纬度进行替代。
3.根据权利要求1所述的一种基于大数据的区域房屋租金预测方法,其特征在于:Q4中,在特征选择前对特征进行降维的处理,从而达到对特征进行重组以删除冗余特征的目的:
利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征,具体为:
对于m×n的矩阵M,进行奇异值分解
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征,可以表示为
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811134323.4A CN109389247A (zh) | 2018-09-27 | 2018-09-27 | 一种基于大数据的区域房屋租金预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811134323.4A CN109389247A (zh) | 2018-09-27 | 2018-09-27 | 一种基于大数据的区域房屋租金预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109389247A true CN109389247A (zh) | 2019-02-26 |
Family
ID=65419147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811134323.4A Withdrawn CN109389247A (zh) | 2018-09-27 | 2018-09-27 | 一种基于大数据的区域房屋租金预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389247A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378508A (zh) * | 2019-05-29 | 2019-10-25 | 广东工业大学 | 一种基于大数据的智能预测方法 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN111008803A (zh) * | 2019-12-04 | 2020-04-14 | 圆通速递有限公司 | 一种门店选址的方法和系统 |
CN111126714A (zh) * | 2019-12-31 | 2020-05-08 | 青梧桐有限责任公司 | 基于长租公寓租房场景下的退租预测系统及方法 |
CN111144935A (zh) * | 2019-12-17 | 2020-05-12 | 武汉海云健康科技股份有限公司 | 基于大数据的睡眠会员唤醒方法及系统、服务器及介质 |
CN111143656A (zh) * | 2019-12-30 | 2020-05-12 | 深圳集智数字科技有限公司 | 一种调整事件属性的方法及相关装置 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN111582659A (zh) * | 2020-04-16 | 2020-08-25 | 北京航空航天大学青岛研究院 | 一种山地作业难度指数计算方法 |
CN112163881A (zh) * | 2020-09-24 | 2021-01-01 | 福建省星云大数据应用服务有限公司 | 一种房屋租赁定价方法及系统 |
CN115345684A (zh) * | 2022-10-18 | 2022-11-15 | 深圳市明源云科技有限公司 | 房屋租金的预估方法、装置、终端设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355453A (zh) * | 2016-09-30 | 2017-01-25 | 上海天华迈卓管理咨询有限公司 | 写字楼租金预测方法 |
US20180082388A1 (en) * | 2015-06-30 | 2018-03-22 | Sony Corporation | System, method, and program |
CN107909433A (zh) * | 2017-11-14 | 2018-04-13 | 重庆邮电大学 | 一种基于大数据移动电子商务的商品推荐方法 |
CN108038720A (zh) * | 2017-12-06 | 2018-05-15 | 电子科技大学 | 一种基于因子分解机的广告点击率预测方法 |
CN108038713A (zh) * | 2017-11-22 | 2018-05-15 | 链家网(北京)科技有限公司 | 房价预估方法及装置 |
-
2018
- 2018-09-27 CN CN201811134323.4A patent/CN109389247A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082388A1 (en) * | 2015-06-30 | 2018-03-22 | Sony Corporation | System, method, and program |
CN106355453A (zh) * | 2016-09-30 | 2017-01-25 | 上海天华迈卓管理咨询有限公司 | 写字楼租金预测方法 |
CN107909433A (zh) * | 2017-11-14 | 2018-04-13 | 重庆邮电大学 | 一种基于大数据移动电子商务的商品推荐方法 |
CN108038713A (zh) * | 2017-11-22 | 2018-05-15 | 链家网(北京)科技有限公司 | 房价预估方法及装置 |
CN108038720A (zh) * | 2017-12-06 | 2018-05-15 | 电子科技大学 | 一种基于因子分解机的广告点击率预测方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378508A (zh) * | 2019-05-29 | 2019-10-25 | 广东工业大学 | 一种基于大数据的智能预测方法 |
CN110414716A (zh) * | 2019-07-03 | 2019-11-05 | 北京科技大学 | 一种基于LightGBM的企业失信概率预测方法及系统 |
CN111008803A (zh) * | 2019-12-04 | 2020-04-14 | 圆通速递有限公司 | 一种门店选址的方法和系统 |
CN111144935A (zh) * | 2019-12-17 | 2020-05-12 | 武汉海云健康科技股份有限公司 | 基于大数据的睡眠会员唤醒方法及系统、服务器及介质 |
CN111143656A (zh) * | 2019-12-30 | 2020-05-12 | 深圳集智数字科技有限公司 | 一种调整事件属性的方法及相关装置 |
CN111126714A (zh) * | 2019-12-31 | 2020-05-08 | 青梧桐有限责任公司 | 基于长租公寓租房场景下的退租预测系统及方法 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN111582659A (zh) * | 2020-04-16 | 2020-08-25 | 北京航空航天大学青岛研究院 | 一种山地作业难度指数计算方法 |
CN111582659B (zh) * | 2020-04-16 | 2023-09-19 | 北京航空航天大学青岛研究院 | 一种山地作业难度指数计算方法 |
CN112163881A (zh) * | 2020-09-24 | 2021-01-01 | 福建省星云大数据应用服务有限公司 | 一种房屋租赁定价方法及系统 |
CN115345684A (zh) * | 2022-10-18 | 2022-11-15 | 深圳市明源云科技有限公司 | 房屋租金的预估方法、装置、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389247A (zh) | 一种基于大数据的区域房屋租金预测方法 | |
CN106485353B (zh) | 空气污染物浓度预报方法及系统 | |
Qian et al. | Beta diversity of angiosperms in temperate floras of eastern Asia and eastern North America | |
CN108734337B (zh) | 基于聚类中心修正的定制公交合乘站点生成方法 | |
Liu et al. | Characterizing three dimensional (3-D) morphology of residential buildings by landscape metrics | |
CN111950658B (zh) | 一种基于深度学习的LiDAR点云与光学影像先验级耦合分类方法 | |
CN106294739A (zh) | 一种基于k2树和多值决策图的大规模图数据处理方法 | |
CN105869100A (zh) | 一种基于大数据思维的滑坡多场监测数据的融合及预测方法 | |
CN111310257A (zh) | 一种bim环境下的区域建筑能耗预测方法 | |
Agugiaro | Enabling “energy-awareness” in the semantic 3D city model of Vienna | |
CN112967327A (zh) | 基于联合自注意力机制的单目深度方法 | |
CN111400973A (zh) | 一种基于水文监测数据构建流量-水面宽的关系曲线的方法 | |
CN115577294B (zh) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 | |
CN114580696A (zh) | 一种pm2.5浓度预测方法 | |
CN111193254B (zh) | 一种住宅日用电负荷预测方法和设备 | |
Xu et al. | Blockplanner: City block generation with vectorized graph representation | |
Gan et al. | Relocating or redefined: A new perspective on urbanization in China | |
CN107067096A (zh) | 基于分形与混沌理论相结合的金融时间序列短期预测 | |
CN112488117B (zh) | 一种基于方向诱导卷积的点云分析方法 | |
CN113191553A (zh) | 基于建筑物尺度的人口空间分布估算方法及系统 | |
Sa’at et al. | Enhancing the accuracy of malaysian house price forecasting: a comparative analysis on the forecasting performance between the hedonic price model and artificial neural network model | |
CN110349050B (zh) | 一种基于电网参数关键特征抽取的智能窃电判据方法及装置 | |
Yue et al. | Application analysis of green building materials in urban three-dimensional landscape design | |
CN115601643A (zh) | 基于复杂网络和异源遥感图像的城市组团识别方法 | |
CN109389530A (zh) | 一种基于ffm算法的房屋租金预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190226 |