CN109389247A - 一种基于大数据的区域房屋租金预测方法 - Google Patents

一种基于大数据的区域房屋租金预测方法 Download PDF

Info

Publication number
CN109389247A
CN109389247A CN201811134323.4A CN201811134323A CN109389247A CN 109389247 A CN109389247 A CN 109389247A CN 201811134323 A CN201811134323 A CN 201811134323A CN 109389247 A CN109389247 A CN 109389247A
Authority
CN
China
Prior art keywords
house
feature
data
model
rent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811134323.4A
Other languages
English (en)
Inventor
舒海东
王进
雷大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhiting (beijing) Intelligent Technology Co Ltd
Original Assignee
Zhiting (beijing) Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiting (beijing) Intelligent Technology Co Ltd filed Critical Zhiting (beijing) Intelligent Technology Co Ltd
Priority to CN201811134323.4A priority Critical patent/CN109389247A/zh
Publication of CN109389247A publication Critical patent/CN109389247A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的区域房屋租金预测方法,采用FFM算法对大量房屋出租信息进行数据清洗、特征提取、数据转换、特征建模,使用构建的模型对房租租金进行预测并找出异常租金数据。本发明不仅可以通过对数据进行清洗、特征提取、建模来实现对房屋租金的预测,还能够很好的检测到异常的房屋租金信息。本发明所提出的基于FFM算法的房租预测方法能很好的应对房屋数据稀疏的情况,能够自动学习特征之间的隐藏联系,是对房租预测的一种十分有效的方法。

Description

一种基于大数据的区域房屋租金预测方法
技术领域
本发明涉及机器学习、大数据、数据分析领域,尤其涉及房屋租赁中的一种基于大数据的区域房屋租金预测方法。
背景技术
房屋租金的确定,需要结合房屋的装修情况,位置地段,交通便利程度,周边生活配套等多方面的因素来对房屋租金进行预测,传统的房屋出租领域,由于中介对房屋信息掌握,房主和租户对区域房屋租金的预判存在着严重的信息不对称的情况,租金定价问题未能被很好的解决,造成租房资源的极大浪费。
发明内容
本发明提供了一种基于大数据的区域房屋租金预测方法,能有效的对房屋租金进行预测。
本发明采用以下技术方案:
一种基于大数据的区域房屋租金预测方法,包括以下几个步骤:一种基于大数据的区域房屋租金预测方法,其特征在于:包括以下几个步骤:
Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;
Q2、将房屋数据划分训练集、测试集,采用留出法将数据集划分为两个互斥的子集,采用五折交叉验证对模型进行验证,即一个集合作为训练集S,包含50%的样本,另一个作为测试集T,包含50%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例;
Q3、对清洗后的房屋数据进行特征工程操作,对房屋特征数据完成基础特征、距离特征、统计特征、GBDT离散特征的特征工程构建;
所述基础特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;对于房屋的客厅个数、卧室个数、洗手间个数、房屋面积大小、整个楼栋的层数、房屋描述图片个数直接使用数值;房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式采用one-hot处理后使用数值;房屋家具个数进行n-hot处理后使用数值;
所述距离特征,根据房屋所在小区的经纬度距离最近的大学、商圈、地铁的经纬度,计算房屋距离最近大学、商圈、地铁的距离,由距离特征直接作为特征值使用;
统计特征:统计房屋类型所在层出现的次数,出租方式出现的次数,用以反映出房屋租金价格和出租方式、所在层数的关系;
gbdt离散特征,将基础特征、距离特征离散特征值;
Q4、对特征工程构建完成的样本集进行特征选择:
Q4-1、利用模型进行特征选择,训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择;
Q4-2、利用wrapper特征选择,从特征构建完成后的数据中选择初始特征子集,利用评价函数对其进行评价,反馈,然后继续评价,最终寻找出最优特征子集;
Q4-3、两种特征选择做完以后,选取两部分特征交集作为最终的模型的特征
Q4-4、采用三角矩阵的稀疏存储保证特征信息丢失较少的情况下,加快模型的训练过程;
Q5、建立多个机器学习模型,并进行模型融合:
Q5-1、XGBOOST模型,通过参数随机扰动产生多个xgboost模型,首利用xgb_1确定了一组R2评分达到0.64的参数,其中subsample参数取值为0.7,迭代次数500,min_child_weight为3,colsample_bytree为0.7,XGBoost模型参数在默认参数乘以随机系数,系数范围为0.8~1.2,生成多个不同的XGBoost模型,根据十折交叉验证得到每个模型的R2得分,选取Top K个XGBoost作为多模型的输出,这里的K值取20;
Q5-2、多模型STACKING融合,训练三个基础模型RandomForest,XGBOOST,GBDT,将这三个模型作为Stacking的第一层,将每个模型的预测结果作为特征,放入到stacking第二层,第二层使用的模型为LinearRegression;
Q5-3、最终结果以Q5-1和Q5-2均值融合;
Q6、对房屋租金进行预测。
上述技术方案中,所述Q2中,将房屋所在小区进行经纬度转换,若无法查询到该小区的经纬度则利用该小区所在城市的经纬度进行替代。
上述技术方案中,所述Q4中,在特征选择前对特征进行降维的处理,从而达到对特征进行重组以删除冗余特征的目的:
利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征,具体为:
对于m×n的矩阵M,进行奇异值分解
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
本发明的技术效果:本发明结合数据挖掘、机器学习,利用影响房屋出租价格的多个因素,建立多个机器学习模型,来对房屋出租价格进行预测,有效的提高了模型的预测精度,且降低了模型的预测时间,可以极大程度改善租房体验,降低房屋的闲置率。
附图说明
图1是本发明总体流程图。
图2是本发明XGBOOST模型融合示例图。
图3是多模型STACKING融合示例图。
具体实施方式
下面将结合本发明的附图和实施例,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1所示,一种基于大数据的区域房屋租金预测方法,包括以下几个步骤:
Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;如表1为原始数据,表2为经过数据清洗之后的数据。
表1、原始数据
room hall toilet rent_money province city toward area level floor
3 1 1 850 山东 莱芜 南北 95 高层 6
1 1 1 450 四川 资阳 40 高层 8
1 0 1 8000 云南 昆明 35 中层 32
3 1 1 900 江苏 沛县 94 高层 6
3 2 1 550 四川 资阳 100 高层 6
3 1 1 900 四川 资阳 西南 100 中层 7
3 2 1 800 四川 资阳 东西 103 中层 6
2 1 1 面议 四川 资阳 90 高层 7
1 1 1 1000 湖南 湘潭 南北 50 中层 19
2 2 1 1600 广西 贵港 83 低层 30
1 1 1 1000 山东 淄博 西 43 中层 6
3 2 1 100 四川 资阳 南北 97 高层 6
3 2 2 2600 广东 中山 114 高层 32
1 1 1 1300 四川 重庆 48 中层 25
2 2 1 1690 广西 北海 90 中层 28
2 2 1 面议 四川 资阳 80 高层 22
5 5 1 1000 安徽 马鞍山 400 地下 18
表2、经过数据清洗之后的数据
room hall toilet rent_mone province city toward area level floor
3 1 1 850 山东省 莱芜市 南北 95 高层 6
1 1 1 450 四川省 资阳市 40 高层 8
3 1 1 900 江苏省 沛县 94 高层 6
3 2 1 550 四川省 资阳市 100 高层 6
3 1 1 900 四川省 资阳市 西南 100 中层 7
3 2 1 800 四川省 资阳市 东西 103 中层 6
1 1 1 1000 湖南省 湘潭市 南北 50 中层 19
2 2 1 1600广 西壮族自治 区贵港市 83 低层 30
1 1 1 1000 山东省 淄博市 西 43 中层 6
3 2 2 2600 广东省 中山市 114 高层 32
1 1 1 1300 重庆市 重庆市 48 中层 25
2 2 1 1690 广西省 北海市 90 中层 28
5 5 1 1000 安徽省 马鞍山市 400 地下 18
Q2、将房屋数据划分训练集、测试集,采用留出法将数据集划分为两个互斥的子集,采用五折交叉验证对模型进行验证,即一个集合作为训练集S,包含50%的样本,另一个作为测试集T,包含50%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例;在用留出法对数据进行划分时,采用的是分层抽样的方法,这样可保证训练集和测试集正负样本分布的一致性,可以加快模型收敛速度;分层抽样描述如下,假设原始数据集为D,对D分层抽样分为训练集S和测试集T,如果使得S和T数据集中正负样本比例和D中保持一致,则该抽样为分层抽样;
Q3、对清洗后的房屋数据进行特征工程操作,对房屋特征数据完成基础特征、距离特征、统计特征、GBDT离散特征的特征工程构建,所述基础特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;对于房屋的客厅个数、卧室个数、洗手间个数、房屋面积大小、整个楼栋的层数、房屋描述图片个数直接使用数值;房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式采用one-hot处理后使用数值;房屋家具个数进行n-hot处理后使用数值;
所述提取包括:对房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式进行one-hot编码如表3所示:
表3、one-hot编码
toward 南北 西南 东西 南北 西
南北 1 0 0 0 0 0 0
0 1 0 0 0 0 0
0 1 0 0 0 0 0
0 1 0 0 0 0 0
西南 0 0 1 0 0 0 0
东西 0 0 0 0 0 0 0
南北 0 0 0 1 0 0 0
0 1 0 0 1 0 0
西 0 0 0 0 0 0 1
0 1 0 0 0 0 0
0 0 0 0 0 1 0
0 1 0 0 0 0 0
0 1 0 0 0 0 0
对房屋所提供的家具进行n-hot编码见表4;
表4、n-hot编码
facility 衣柜 冰箱 洗衣机 空调 热水器 电视 阳台 沙发
0 0 0 0 0 0 0 0 0
床.衣柜.冰箱.洗衣机.空调.热水器 1 1 1 1 1 1 0 0 0
床.衣柜.电视.空调.热水器.阳台 1 1 0 0 0 1 0 1 0
床.衣柜.沙发.热水器.阳台 1 1 0 0 0 1 0 1 1
床.衣柜.沙发.冰箱.空调.热水器.阳台 1 1 1 0 1 1 0 1 1
床.衣柜.沙发.电视.冰箱.洗衣机.空调 1 1 1 1 1 0 1 0 1
床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.宽带.暖气.阳台 1 1 1 1 1 1 1 1 1
床.衣柜.沙发.电视.冰箱.洗衣机.空调 1 1 1 1 1 0 1 0 1
空调.热水器.宽带.暖气.阳台 0 0 0 0 1 1 0 1 0
床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.阳台 1 1 1 1 1 1 1 1 1
床.洗衣机.空调.阳台.冰箱.卫生间.可做饭.电视 1 0 1 1 1 0 1 1 0
床.衣柜.沙发.电视.冰箱.洗衣机.空调.热水器.阳台 1 1 1 0 1 1 1 1 0
0 0 0 0 0 0 0 0 0
选择房屋所在省市、房屋所在小区、房屋所在地区、房屋朝向、房屋所在楼层高度的特征作为排序特征,依据特征值排序;
所述距离特征,根据房屋所在小区的经纬度距离最近的大学、商圈、地铁的经纬度,计算房屋距离最近大学、商圈、地铁的距离,由距离特征直接作为特征值使用;
统计特征:统计房屋类型所在层出现的次数,出租方式出现的次数,用以反映出房屋租金价格和出租方式、所在层数的关系;
gbdt离散特征,将基础特征、距离特征离散特征值,考虑到离群点的异常特征可能是多维度的组合,通过分析样本属性的缺失值个数,剔除了极少量的离群点。按行统计每个样本的属性缺失值个数,将缺失值个数从大到小排序,缺失值个数排序top3%的这部分样本被认定为离群点,对离群点剔除,其他处理,如果房屋所在城市为直辖市,那么就存在房屋所在城市所属省份为别的省份,需要对其进行处理;房屋面积的大小,比如‘几室几厅几卫’,在数据中并没有直接给出,需要进行处理,将其转换为‘几室几厅几卫’;同样的,房屋的朝向也并没有直接给出,也需要对其进行处理;
Q4、对特征工程构建完成的样本集进行特征选择,由于对房屋数据进行了离散处理,导致其维度达到上千维,同时,为了使模型泛化能力更强,减少过拟合,增强对特征和特征值之间的理解,需要对特征进行特征选择,在特征选择前对特征进行降维的处理,从而达到对特征进行重组以删除冗余特征的目的:
利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征,具体为:
对于m×n的矩阵M,进行奇异值分解
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
Q4-1、利用模型进行特征选择,训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择;
Q4-2、利用wrapper特征选择,从特征构建完成后的数据中选择初始特征子集,利用评价函数对其进行评价,反馈,然后继续评价,最终寻找出最优特征子集;
Q4-3、两种特征选择做完以后,选取两部分特征交集作为最终的模型的特征
Q4-4、采用三角矩阵的稀疏存储保证特征信息丢失较少的情况下,加快模型的训练过程;
Q5、建立多个机器学习模型,并进行模型融合:
Q5-1、XGBOOST模型,通过参数随机扰动产生多个xgboost模型,首利用xgb_1确定了一组R2评分达到0.64的参数,其中subsample参数取值为0.7,迭代次数500,min_child_weight为3,colsample_bytree为0.7,XGBoost模型参数在默认参数乘以随机系数,系数范围为0.8~1.2,生成多个不同的XGBoost模型,根据十折交叉验证得到每个模型的R2得分,选取Top K个XGBoost作为多模型的输出,这里的K值取20;
Q5-2、多模型STACKING融合,训练三个基础模型RandomForest,XGBOOST,GBDT,将这三个模型作为Stacking的第一层,将每个模型的预测结果作为特征,放入到stacking第二层,第二层使用的模型为LinearRegression;
Q5-3、最终结果以Q5-1和Q5-2均值融合;
Q6、对房屋租金进行预测。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (3)

1.一种基于大数据的区域房屋租金预测方法,其特征在于:包括以下几个步骤:
Q1、对房屋数据清洗,即在房屋数据中,对缺失值进行处理;对城市与省份无法对应的记录进行修正;将租金值低于200与租金值高于5000的数据去除;将租金值为“面议”的数据去除;将房屋面积高于200的数据去除;将楼层值不详的数据去除;
Q2、将房屋数据划分训练集、测试集,采用留出法将数据集划分为两个互斥的子集,采用五折交叉验证对模型进行验证,即一个集合作为训练集S,包含50%的样本,另一个作为测试集T,包含50%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例;
Q3、对清洗后的房屋数据进行特征工程操作,对房屋特征数据完成基础特征、距离特征、统计特征、GBDT离散特征的特征工程构建;
所述基础特征包括:房屋结构;房屋楼层高度;房屋总楼层;房屋朝向;房屋面积;房屋所在省市;房屋所在地区;房屋所在小区;房屋所提供的家具;房屋出租类型;房屋租金支付方式;所提供的房屋图片数量;对于房屋的客厅个数、卧室个数、洗手间个数、房屋面积大小、整个楼栋的层数、房屋描述图片个数直接使用数值;房屋所在城市、所在省份、房屋所在区域、房屋所在层数、房屋缴费方式、出租方式采用one-hot处理后使用数值;房屋家具个数进行n-hot处理后使用数值;
所述距离特征,根据房屋所在小区的经纬度距离最近的大学、商圈、地铁的经纬度,计算房屋距离最近大学、商圈、地铁的距离,由距离特征直接作为特征值使用;
统计特征:统计房屋类型所在层出现的次数,出租方式出现的次数,用以反映出房屋租金价格和出租方式、所在层数的关系;
gbdt离散特征,将基础特征、距离特征离散特征值;
Q4、对特征工程构建完成的样本集进行特征选择:
Q4-1、利用模型进行特征选择,训练一个XGBoost模型,输出其特征重要性,然后将重要性为0的特征删除,即完成了特征选择;
Q4-2、利用wrapper特征选择,从特征构建完成后的数据中选择初始特征子集,利用评价函数对其进行评价,反馈,然后继续评价,最终寻找出最优特征子集;
Q4-3、两种特征选择做完以后,选取两部分特征交集作为最终的模型的特征
Q4-4、采用三角矩阵的稀疏存储保证特征信息丢失较少的情况下,加快模型的训练过程;
Q5、建立多个机器学习模型,并进行模型融合:
Q5-1、XGBOOST模型,通过参数随机扰动产生多个xgboost模型,首利用xgb_1确定了一组R2评分达到0.64的参数,其中subsample参数取值为0.7,迭代次数500,min_child_weight为3,colsample_bytree为0.7,XGBoost模型参数在默认参数乘以随机系数,系数范围为0.8~1.2,生成多个不同的XGBoost模型,根据十折交叉验证得到每个模型的R2得分,选取Top K个XGBoost作为多模型的输出,这里的K值取20;
Q5-2、多模型STACKING融合,训练三个基础模型RandomForest,XGBOOST,GBDT,将这三个模型作为Stacking的第一层,将每个模型的预测结果作为特征,放入到stacking第二层,第二层使用的模型为LinearRegression;
Q5-3、最终结果以Q5-1和Q5-2均值融合;
Q6、对房屋租金进行预测。
2.根据权利要求1所述的一种基于大数据的区域房屋租金预测方法,其特征在于:所述Q2中,将房屋所在小区进行经纬度转换,若无法查询到该小区的经纬度则利用该小区所在城市的经纬度进行替代。
3.根据权利要求1所述的一种基于大数据的区域房屋租金预测方法,其特征在于:Q4中,在特征选择前对特征进行降维的处理,从而达到对特征进行重组以删除冗余特征的目的:
利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征,具体为:
对于m×n的矩阵M,进行奇异值分解
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征,可以表示为
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
CN201811134323.4A 2018-09-27 2018-09-27 一种基于大数据的区域房屋租金预测方法 Withdrawn CN109389247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811134323.4A CN109389247A (zh) 2018-09-27 2018-09-27 一种基于大数据的区域房屋租金预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811134323.4A CN109389247A (zh) 2018-09-27 2018-09-27 一种基于大数据的区域房屋租金预测方法

Publications (1)

Publication Number Publication Date
CN109389247A true CN109389247A (zh) 2019-02-26

Family

ID=65419147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811134323.4A Withdrawn CN109389247A (zh) 2018-09-27 2018-09-27 一种基于大数据的区域房屋租金预测方法

Country Status (1)

Country Link
CN (1) CN109389247A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378508A (zh) * 2019-05-29 2019-10-25 广东工业大学 一种基于大数据的智能预测方法
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及系统
CN111008803A (zh) * 2019-12-04 2020-04-14 圆通速递有限公司 一种门店选址的方法和系统
CN111126714A (zh) * 2019-12-31 2020-05-08 青梧桐有限责任公司 基于长租公寓租房场景下的退租预测系统及方法
CN111144935A (zh) * 2019-12-17 2020-05-12 武汉海云健康科技股份有限公司 基于大数据的睡眠会员唤醒方法及系统、服务器及介质
CN111143656A (zh) * 2019-12-30 2020-05-12 深圳集智数字科技有限公司 一种调整事件属性的方法及相关装置
CN111310979A (zh) * 2020-01-20 2020-06-19 一起住好房(北京)网络科技有限公司 一种基于机器学习及多源信息的房屋租价预测方法
CN111582659A (zh) * 2020-04-16 2020-08-25 北京航空航天大学青岛研究院 一种山地作业难度指数计算方法
CN112163881A (zh) * 2020-09-24 2021-01-01 福建省星云大数据应用服务有限公司 一种房屋租赁定价方法及系统
CN115345684A (zh) * 2022-10-18 2022-11-15 深圳市明源云科技有限公司 房屋租金的预估方法、装置、终端设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355453A (zh) * 2016-09-30 2017-01-25 上海天华迈卓管理咨询有限公司 写字楼租金预测方法
US20180082388A1 (en) * 2015-06-30 2018-03-22 Sony Corporation System, method, and program
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN108038720A (zh) * 2017-12-06 2018-05-15 电子科技大学 一种基于因子分解机的广告点击率预测方法
CN108038713A (zh) * 2017-11-22 2018-05-15 链家网(北京)科技有限公司 房价预估方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082388A1 (en) * 2015-06-30 2018-03-22 Sony Corporation System, method, and program
CN106355453A (zh) * 2016-09-30 2017-01-25 上海天华迈卓管理咨询有限公司 写字楼租金预测方法
CN107909433A (zh) * 2017-11-14 2018-04-13 重庆邮电大学 一种基于大数据移动电子商务的商品推荐方法
CN108038713A (zh) * 2017-11-22 2018-05-15 链家网(北京)科技有限公司 房价预估方法及装置
CN108038720A (zh) * 2017-12-06 2018-05-15 电子科技大学 一种基于因子分解机的广告点击率预测方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378508A (zh) * 2019-05-29 2019-10-25 广东工业大学 一种基于大数据的智能预测方法
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及系统
CN111008803A (zh) * 2019-12-04 2020-04-14 圆通速递有限公司 一种门店选址的方法和系统
CN111144935A (zh) * 2019-12-17 2020-05-12 武汉海云健康科技股份有限公司 基于大数据的睡眠会员唤醒方法及系统、服务器及介质
CN111143656A (zh) * 2019-12-30 2020-05-12 深圳集智数字科技有限公司 一种调整事件属性的方法及相关装置
CN111126714A (zh) * 2019-12-31 2020-05-08 青梧桐有限责任公司 基于长租公寓租房场景下的退租预测系统及方法
CN111310979A (zh) * 2020-01-20 2020-06-19 一起住好房(北京)网络科技有限公司 一种基于机器学习及多源信息的房屋租价预测方法
CN111582659A (zh) * 2020-04-16 2020-08-25 北京航空航天大学青岛研究院 一种山地作业难度指数计算方法
CN111582659B (zh) * 2020-04-16 2023-09-19 北京航空航天大学青岛研究院 一种山地作业难度指数计算方法
CN112163881A (zh) * 2020-09-24 2021-01-01 福建省星云大数据应用服务有限公司 一种房屋租赁定价方法及系统
CN115345684A (zh) * 2022-10-18 2022-11-15 深圳市明源云科技有限公司 房屋租金的预估方法、装置、终端设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109389247A (zh) 一种基于大数据的区域房屋租金预测方法
CN106485353B (zh) 空气污染物浓度预报方法及系统
Qian et al. Beta diversity of angiosperms in temperate floras of eastern Asia and eastern North America
CN108734337B (zh) 基于聚类中心修正的定制公交合乘站点生成方法
Liu et al. Characterizing three dimensional (3-D) morphology of residential buildings by landscape metrics
CN111950658B (zh) 一种基于深度学习的LiDAR点云与光学影像先验级耦合分类方法
CN106294739A (zh) 一种基于k2树和多值决策图的大规模图数据处理方法
CN105869100A (zh) 一种基于大数据思维的滑坡多场监测数据的融合及预测方法
CN111310257A (zh) 一种bim环境下的区域建筑能耗预测方法
Agugiaro Enabling “energy-awareness” in the semantic 3D city model of Vienna
CN112967327A (zh) 基于联合自注意力机制的单目深度方法
CN111400973A (zh) 一种基于水文监测数据构建流量-水面宽的关系曲线的方法
CN115577294B (zh) 一种基于兴趣点空间分布和语义信息的城市区域分类方法
CN114580696A (zh) 一种pm2.5浓度预测方法
CN111193254B (zh) 一种住宅日用电负荷预测方法和设备
Xu et al. Blockplanner: City block generation with vectorized graph representation
Gan et al. Relocating or redefined: A new perspective on urbanization in China
CN107067096A (zh) 基于分形与混沌理论相结合的金融时间序列短期预测
CN112488117B (zh) 一种基于方向诱导卷积的点云分析方法
CN113191553A (zh) 基于建筑物尺度的人口空间分布估算方法及系统
Sa’at et al. Enhancing the accuracy of malaysian house price forecasting: a comparative analysis on the forecasting performance between the hedonic price model and artificial neural network model
CN110349050B (zh) 一种基于电网参数关键特征抽取的智能窃电判据方法及装置
Yue et al. Application analysis of green building materials in urban three-dimensional landscape design
CN115601643A (zh) 基于复杂网络和异源遥感图像的城市组团识别方法
CN109389530A (zh) 一种基于ffm算法的房屋租金预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190226