CN110378508A - 一种基于大数据的智能预测方法 - Google Patents

一种基于大数据的智能预测方法 Download PDF

Info

Publication number
CN110378508A
CN110378508A CN201910458583.5A CN201910458583A CN110378508A CN 110378508 A CN110378508 A CN 110378508A CN 201910458583 A CN201910458583 A CN 201910458583A CN 110378508 A CN110378508 A CN 110378508A
Authority
CN
China
Prior art keywords
model
data
rent
market
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910458583.5A
Other languages
English (en)
Inventor
刘治
孙泽勇
章云
赖有仿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910458583.5A priority Critical patent/CN110378508A/zh
Publication of CN110378508A publication Critical patent/CN110378508A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的智能预测方法,包括下述步骤:步骤一,数据清洗;对原始数据进行预处理;步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,构造与其相关的统计特征;步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,加权组成最终模型,提高模型泛化能力;步骤五,智能预测;利用所得模型来实现房租的准确预测;本发明利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响。

Description

一种基于大数据的智能预测方法
技术领域
本发明涉及大数据及机器学习技术领域,具体涉及一种基于大数据的智能预测方法。
背景技术
近几年,国内住房租赁市场进入全新的发展阶段,长期公寓市场作为租赁市场的重要部分,越来越受到广泛的关注。但同时中国长期公寓市场也面临着企业市场进入、业务(门店)扩张、资本市场博弈、企业重组并购等多重挑战,其中,如何准确的预测租金便成为该行业发展进程中的一大难题;房屋租金的确定,需要结合房产市场、租赁市场、市场需求、位置地段以及房屋配置等多方面因素来确定,而现有技术中并没有公开相关房屋租金的预测手段,租借方无法有效预测市场的变化,从而做出合理的决策。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于大数据的智能预测方法,该方法能够利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响。
本发明的目的通过下述技术方案实现:
一种基于大数据的智能预测方法,包括下述步骤:
步骤一,数据清洗;对原始数据进行预处理,包括异常数据的处理及缺失值的填补;
步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;
步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,得分越高权重越大,加权组成最终模型,提高模型泛化能力;
步骤五,智能预测;利用所得模型来实现房租的准确预测。
优选的,所述步骤一数据清洗的具体步骤为:
(1)异常值处理;通过画散点图和箱型图的方法同时结合数据本身的业务含义,对异常数据进行剔除或者当作缺失值处理;
(2)填充缺失值;离散型变量的空值用null填充,连续型变量用平均值填充。
本发明与现有技术相比具有以下的有益效果:
本发明利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响;本发明将XGboost、LightGBM、catboost三个模型融合在一起,预测结果的线下和线上分数均有显著提升,实现了预测精度和模型稳健性的统一,具有更强的泛化能力。
附图说明
图1为本发明的流程示意图;
图2为本发明剔除异常值后租金分布图;
图3为本发明area与tradeMoney散点图;
图4为本发明原始特征重要性排序;
图5为本发明基于Voting策略模型融合结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1~5所示,一种基于大数据的智能预测方法,包括下述步骤:
步骤一,数据清洗;对原始数据进行预处理,包括异常数据的处理及缺失值的填补;
数据清洗的具体步骤为:
(1)异常值处理;通过画散点图和箱型图的方法同时结合数据本身的业务含义,对异常数据进行剔除或者当作缺失值处理;
(2)填充缺失值;离散型变量的空值用null填充,连续型变量用平均值填充;
步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;
步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,得分越高权重越大,加权组成最终模型,提高模型泛化能力;
步骤五,智能预测;利用所得模型来实现房租的准确预测。
具体来说,本发明的实施,以python为开发语言,使用的数据来源于未来杯高校AI挑战赛,训练集共有41440条数据,数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实租金等;对结果的评价使用r作为预测效果的评价指标。
预测方法具体步骤如下:
(1)数据清洗:通过画散点图和箱型图的形式以及结合具体的业务场景对异常数据进行剔除;对原始数据中缺失值利用均值进行填补,对离散类别数据进行count等;
(2)特征工程:对清洗过的数据进行分析找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
(3)模型构建:尝试用不同模型进行训练,最终选择分数较高的XGboost、LightGBM、catboost作为基模型;
(4)调整样本权重:数据集中存在大量的脏数据,用lgb模型对数据集训练集进行初步训练,对loss较小的优质样本给与其较高的权重,而对loss较大的脏数据降低其权重;
(5)模型融合:根据XGboost、LightGBM、catboost的线下分数分别给予其2、2、1的权重融合成最终模型。
根据以上内容,本发明使用基于Voting策略的模型融合,预测结果的线下和线上分数均有显著提升,实现了预测精度和模型稳健性的统一,具有更强的泛化能力。
具体仿真结果见下表:
模型 线下 线上
XGBoost 0.9286 0.9105
LightGBM 0.9249 0.9085
catBoost 0.9236 0.9076
Voting 0.9304 0.9146
本发明利用房产市场、租赁市场、市场需求以及房屋配置等数据,运用机器学习、人工智能等模型算法,结合模型的创新能力,做出合理的房租预测,以应对市场变化对运营商和房产机构带来的影响;本发明将XGboost、LightGBM、catboost三个模型融合在一起,预测结果的线下和线上分数均有显著提升,实现了预测精度和模型稳健性的统一,具有更强的泛化能力。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种基于大数据的智能预测方法,其特征在于,包括下述步骤:
步骤一,数据清洗;对原始数据进行预处理,包括异常数据的处理及缺失值的填补;
步骤二,特征工程;对清洗过的数据进行分析并找出重要特征,尝试构造出与房租相关性强的组合特征,并对类别特征进行统计,构造与其相关的统计特征;
步骤三,模型构建;使用分类精度较高的XGboost、LightGBM和catboost模型对房租进行预测;
步骤四,模型融合;根据模型预测结果的得分,给与其不同的权重,得分越高权重越大,加权组成最终模型,提高模型泛化能力;
步骤五,智能预测;利用所得模型来实现房租的准确预测。
2.根据权利要求1所述的基于大数据的智能预测方法,其特征在于,所述步骤一数据清洗的具体步骤为:
(1)异常值处理;通过画散点图和箱型图的方法同时结合数据本身的业务含义,对异常数据进行剔除或者当作缺失值处理;
(2)填充缺失值;离散型变量的空值用null填充,连续型变量用平均值填充。
CN201910458583.5A 2019-05-29 2019-05-29 一种基于大数据的智能预测方法 Pending CN110378508A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910458583.5A CN110378508A (zh) 2019-05-29 2019-05-29 一种基于大数据的智能预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910458583.5A CN110378508A (zh) 2019-05-29 2019-05-29 一种基于大数据的智能预测方法

Publications (1)

Publication Number Publication Date
CN110378508A true CN110378508A (zh) 2019-10-25

Family

ID=68248755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910458583.5A Pending CN110378508A (zh) 2019-05-29 2019-05-29 一种基于大数据的智能预测方法

Country Status (1)

Country Link
CN (1) CN110378508A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008803A (zh) * 2019-12-04 2020-04-14 圆通速递有限公司 一种门店选址的方法和系统
CN111260210A (zh) * 2020-01-14 2020-06-09 广东南方视觉文化传媒有限公司 一种基于大数据分析的视觉资产管理系统及方法
CN111310979A (zh) * 2020-01-20 2020-06-19 一起住好房(北京)网络科技有限公司 一种基于机器学习及多源信息的房屋租价预测方法
CN111582551A (zh) * 2020-04-15 2020-08-25 中南大学 风电场短期风速预测方法、系统及电子设备
WO2021122336A1 (en) * 2019-12-20 2021-06-24 Sony Corporation Apparatus and method for generating higher-level features

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389247A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于大数据的区域房屋租金预测方法
CN109389530A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于ffm算法的房屋租金预测方法
CN111310979A (zh) * 2020-01-20 2020-06-19 一起住好房(北京)网络科技有限公司 一种基于机器学习及多源信息的房屋租价预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389247A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于大数据的区域房屋租金预测方法
CN109389530A (zh) * 2018-09-27 2019-02-26 智庭(北京)智能科技有限公司 一种基于ffm算法的房屋租金预测方法
CN111310979A (zh) * 2020-01-20 2020-06-19 一起住好房(北京)网络科技有限公司 一种基于机器学习及多源信息的房屋租价预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008803A (zh) * 2019-12-04 2020-04-14 圆通速递有限公司 一种门店选址的方法和系统
WO2021122336A1 (en) * 2019-12-20 2021-06-24 Sony Corporation Apparatus and method for generating higher-level features
CN111260210A (zh) * 2020-01-14 2020-06-09 广东南方视觉文化传媒有限公司 一种基于大数据分析的视觉资产管理系统及方法
CN111310979A (zh) * 2020-01-20 2020-06-19 一起住好房(北京)网络科技有限公司 一种基于机器学习及多源信息的房屋租价预测方法
CN111582551A (zh) * 2020-04-15 2020-08-25 中南大学 风电场短期风速预测方法、系统及电子设备
CN111582551B (zh) * 2020-04-15 2023-12-08 中南大学 风电场短期风速预测方法、系统及电子设备

Similar Documents

Publication Publication Date Title
CN110378508A (zh) 一种基于大数据的智能预测方法
Hardaker et al. Coping with risk in agriculture
McPherson The hazards of small firms in Southern Africa
CN109299380B (zh) 在线教育平台中基于多维特征的习题个性化推荐方法
CN105931116A (zh) 基于深度学习机制的自动化信用评分系统及方法
CN110110939A (zh) 基于深度学习学生序列化行为的学业成绩预测预警方法
CN106952159A (zh) 一种不动产抵押品风险控制方法、系统及存储介质
CN114529819A (zh) 一种基于知识蒸馏学习的生活垃圾图像识别方法
CN105868906A (zh) 一种优化的区域发展成熟度分析方法
Borjy et al. A hybrid of Delphi, AHP and TOPSIS Methods for project portfolio management
Bosma et al. Using fuzzy logic modelling to simulate farmers’ decision-making on diversification and integration in the Mekong Delta, Vietnam
Boehlje Vertical coordination and structural change in the pork industry: discussion
Junejo et al. Customer satisfaction and standard adoption practices on the sustainable performance of supply chain management: a manufacturing firm case study
CN113159634A (zh) 一种金融产品管理方法、装置及电子设备
Pei Construction and application of talent evaluation model based on nonlinear hierarchical optimization neural network
Cordell et al. Advancements in methodology for projecting future recreation participation
Artal‐Tur et al. Spatial effects in industrial location choices: Industry characteristics and urban accessibility
Oyedeji Joseph Property rental value classification model: a case of osogbo, osun state, Nigeria
Shrestha A supply chain approach to study efficiency and sustainability in the Nepalese tea industry
CN110442958B (zh) 一种地理分析模型影响因子评价方法
Venkatraja et al. Impact Analysis of Rural Interventions by SKDRDP: A Case of Kisan Melas
Mohammadi et al. Assessing the impact of competitiveness on urban network transformation using social network analysis (case: Isfahan city-region)
CN106600117A (zh) 一种面向装备制造业的知识创新评价体系动态识别方法
Subiyakto Evaluation of the Development of the Pamulutan Transmigration Area, Ogan Ilir Regency, South Sumatra, Indonesia
Smale et al. Genetic resource policies: what is diversity worth to farmers?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025

RJ01 Rejection of invention patent application after publication