CN110378508A - 一种基于大数据的智能预测方法 - Google Patents
一种基于大数据的智能预测方法 Download PDFInfo
- Publication number
- CN110378508A CN110378508A CN201910458583.5A CN201910458583A CN110378508A CN 110378508 A CN110378508 A CN 110378508A CN 201910458583 A CN201910458583 A CN 201910458583A CN 110378508 A CN110378508 A CN 110378508A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- rent
- market
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000010485 coping Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0645—Rental transactions; Leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Accounting & Taxation (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据的智能预测方法,包括下述步骤:步骤一,数据清洗;对原始数据进行预处理;步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,构造与其相关的统计特征;步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,加权组成最终模型,提高模型泛化能力;步骤五,智能预测;利用所得模型来实现房租的准确预测;本发明利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响。
Description
技术领域
本发明涉及大数据及机器学习技术领域,具体涉及一种基于大数据的智能预测方法。
背景技术
近几年,国内住房租赁市场进入全新的发展阶段,长期公寓市场作为租赁市场的重要部分,越来越受到广泛的关注。但同时中国长期公寓市场也面临着企业市场进入、业务(门店)扩张、资本市场博弈、企业重组并购等多重挑战,其中,如何准确的预测租金便成为该行业发展进程中的一大难题;房屋租金的确定,需要结合房产市场、租赁市场、市场需求、位置地段以及房屋配置等多方面因素来确定,而现有技术中并没有公开相关房屋租金的预测手段,租借方无法有效预测市场的变化,从而做出合理的决策。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于大数据的智能预测方法,该方法能够利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响。
本发明的目的通过下述技术方案实现:
一种基于大数据的智能预测方法,包括下述步骤:
步骤一,数据清洗;对原始数据进行预处理,包括异常数据的处理及缺失值的填补;
步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;
步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,得分越高权重越大,加权组成最终模型,提高模型泛化能力;
步骤五,智能预测;利用所得模型来实现房租的准确预测。
优选的,所述步骤一数据清洗的具体步骤为:
(1)异常值处理;通过画散点图和箱型图的方法同时结合数据本身的业务含义,对异常数据进行剔除或者当作缺失值处理;
(2)填充缺失值;离散型变量的空值用null填充,连续型变量用平均值填充。
本发明与现有技术相比具有以下的有益效果:
本发明利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响;本发明将XGboost、LightGBM、catboost三个模型融合在一起,预测结果的线下和线上分数均有显著提升,实现了预测精度和模型稳健性的统一,具有更强的泛化能力。
附图说明
图1为本发明的流程示意图;
图2为本发明剔除异常值后租金分布图;
图3为本发明area与tradeMoney散点图;
图4为本发明原始特征重要性排序;
图5为本发明基于Voting策略模型融合结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1~5所示,一种基于大数据的智能预测方法,包括下述步骤:
步骤一,数据清洗;对原始数据进行预处理,包括异常数据的处理及缺失值的填补;
数据清洗的具体步骤为:
(1)异常值处理;通过画散点图和箱型图的方法同时结合数据本身的业务含义,对异常数据进行剔除或者当作缺失值处理;
(2)填充缺失值;离散型变量的空值用null填充,连续型变量用平均值填充;
步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;
步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,得分越高权重越大,加权组成最终模型,提高模型泛化能力;
步骤五,智能预测;利用所得模型来实现房租的准确预测。
具体来说,本发明的实施,以python为开发语言,使用的数据来源于未来杯高校AI挑战赛,训练集共有41440条数据,数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实租金等;对结果的评价使用r作为预测效果的评价指标。
预测方法具体步骤如下:
(1)数据清洗:通过画散点图和箱型图的形式以及结合具体的业务场景对异常数据进行剔除;对原始数据中缺失值利用均值进行填补,对离散类别数据进行count等;
(2)特征工程:对清洗过的数据进行分析找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
(3)模型构建:尝试用不同模型进行训练,最终选择分数较高的XGboost、LightGBM、catboost作为基模型;
(4)调整样本权重:数据集中存在大量的脏数据,用lgb模型对数据集训练集进行初步训练,对loss较小的优质样本给与其较高的权重,而对loss较大的脏数据降低其权重;
(5)模型融合:根据XGboost、LightGBM、catboost的线下分数分别给予其2、2、1的权重融合成最终模型。
根据以上内容,本发明使用基于Voting策略的模型融合,预测结果的线下和线上分数均有显著提升,实现了预测精度和模型稳健性的统一,具有更强的泛化能力。
具体仿真结果见下表:
模型 | 线下 | 线上 |
XGBoost | 0.9286 | 0.9105 |
LightGBM | 0.9249 | 0.9085 |
catBoost | 0.9236 | 0.9076 |
Voting | 0.9304 | 0.9146 |
本发明利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响;本发明将XGboost、LightGBM、catboost三个模型融合在一起,预测结果的线下和线上分数均有显著提升,实现了预测精度和模型稳健性的统一,具有更强的泛化能力。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (2)
1.一种基于大数据的智能预测方法,其特征在于,包括下述步骤:
步骤一,数据清洗;对原始数据进行预处理,包括异常数据的处理及缺失值的填补;
步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;
步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,得分越高权重越大,加权组成最终模型,提高模型泛化能力;
步骤五,智能预测;利用所得模型来实现房租的准确预测。
2.根据权利要求1所述的基于大数据的智能预测方法,其特征在于,所述步骤一数据清洗的具体步骤为:
(1)异常值处理;通过画散点图和箱型图的方法同时结合数据本身的业务含义,对异常数据进行剔除或者当作缺失值处理;
(2)填充缺失值;离散型变量的空值用null填充,连续型变量用平均值填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458583.5A CN110378508A (zh) | 2019-05-29 | 2019-05-29 | 一种基于大数据的智能预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458583.5A CN110378508A (zh) | 2019-05-29 | 2019-05-29 | 一种基于大数据的智能预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110378508A true CN110378508A (zh) | 2019-10-25 |
Family
ID=68248755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458583.5A Pending CN110378508A (zh) | 2019-05-29 | 2019-05-29 | 一种基于大数据的智能预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378508A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008803A (zh) * | 2019-12-04 | 2020-04-14 | 圆通速递有限公司 | 一种门店选址的方法和系统 |
CN111260210A (zh) * | 2020-01-14 | 2020-06-09 | 广东南方视觉文化传媒有限公司 | 一种基于大数据分析的视觉资产管理系统及方法 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN111582551A (zh) * | 2020-04-15 | 2020-08-25 | 中南大学 | 风电场短期风速预测方法、系统及电子设备 |
WO2021122336A1 (en) * | 2019-12-20 | 2021-06-24 | Sony Corporation | Apparatus and method for generating higher-level features |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389247A (zh) * | 2018-09-27 | 2019-02-26 | 智庭(北京)智能科技有限公司 | 一种基于大数据的区域房屋租金预测方法 |
CN109389530A (zh) * | 2018-09-27 | 2019-02-26 | 智庭(北京)智能科技有限公司 | 一种基于ffm算法的房屋租金预测方法 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
-
2019
- 2019-05-29 CN CN201910458583.5A patent/CN110378508A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389247A (zh) * | 2018-09-27 | 2019-02-26 | 智庭(北京)智能科技有限公司 | 一种基于大数据的区域房屋租金预测方法 |
CN109389530A (zh) * | 2018-09-27 | 2019-02-26 | 智庭(北京)智能科技有限公司 | 一种基于ffm算法的房屋租金预测方法 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008803A (zh) * | 2019-12-04 | 2020-04-14 | 圆通速递有限公司 | 一种门店选址的方法和系统 |
WO2021122336A1 (en) * | 2019-12-20 | 2021-06-24 | Sony Corporation | Apparatus and method for generating higher-level features |
CN111260210A (zh) * | 2020-01-14 | 2020-06-09 | 广东南方视觉文化传媒有限公司 | 一种基于大数据分析的视觉资产管理系统及方法 |
CN111310979A (zh) * | 2020-01-20 | 2020-06-19 | 一起住好房(北京)网络科技有限公司 | 一种基于机器学习及多源信息的房屋租价预测方法 |
CN111582551A (zh) * | 2020-04-15 | 2020-08-25 | 中南大学 | 风电场短期风速预测方法、系统及电子设备 |
CN111582551B (zh) * | 2020-04-15 | 2023-12-08 | 中南大学 | 风电场短期风速预测方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378508A (zh) | 一种基于大数据的智能预测方法 | |
Hardaker et al. | Coping with risk in agriculture | |
McPherson | The hazards of small firms in Southern Africa | |
CN109299380B (zh) | 在线教育平台中基于多维特征的习题个性化推荐方法 | |
CN105931116A (zh) | 基于深度学习机制的自动化信用评分系统及方法 | |
CN110110939A (zh) | 基于深度学习学生序列化行为的学业成绩预测预警方法 | |
CN106952159A (zh) | 一种不动产抵押品风险控制方法、系统及存储介质 | |
CN114529819A (zh) | 一种基于知识蒸馏学习的生活垃圾图像识别方法 | |
CN105868906A (zh) | 一种优化的区域发展成熟度分析方法 | |
Borjy et al. | A hybrid of Delphi, AHP and TOPSIS Methods for project portfolio management | |
Bosma et al. | Using fuzzy logic modelling to simulate farmers’ decision-making on diversification and integration in the Mekong Delta, Vietnam | |
Boehlje | Vertical coordination and structural change in the pork industry: discussion | |
Junejo et al. | Customer satisfaction and standard adoption practices on the sustainable performance of supply chain management: a manufacturing firm case study | |
CN113159634A (zh) | 一种金融产品管理方法、装置及电子设备 | |
Pei | Construction and application of talent evaluation model based on nonlinear hierarchical optimization neural network | |
Cordell et al. | Advancements in methodology for projecting future recreation participation | |
Artal‐Tur et al. | Spatial effects in industrial location choices: Industry characteristics and urban accessibility | |
Oyedeji Joseph | Property rental value classification model: a case of osogbo, osun state, Nigeria | |
Shrestha | A supply chain approach to study efficiency and sustainability in the Nepalese tea industry | |
CN110442958B (zh) | 一种地理分析模型影响因子评价方法 | |
Venkatraja et al. | Impact Analysis of Rural Interventions by SKDRDP: A Case of Kisan Melas | |
Mohammadi et al. | Assessing the impact of competitiveness on urban network transformation using social network analysis (case: Isfahan city-region) | |
CN106600117A (zh) | 一种面向装备制造业的知识创新评价体系动态识别方法 | |
Subiyakto | Evaluation of the Development of the Pamulutan Transmigration Area, Ogan Ilir Regency, South Sumatra, Indonesia | |
Smale et al. | Genetic resource policies: what is diversity worth to farmers? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191025 |
|
RJ01 | Rejection of invention patent application after publication |