CN112926809B - 一种基于聚类和改进的xgboost的航班流量预测方法及系统 - Google Patents
一种基于聚类和改进的xgboost的航班流量预测方法及系统 Download PDFInfo
- Publication number
- CN112926809B CN112926809B CN202110503952.5A CN202110503952A CN112926809B CN 112926809 B CN112926809 B CN 112926809B CN 202110503952 A CN202110503952 A CN 202110503952A CN 112926809 B CN112926809 B CN 112926809B
- Authority
- CN
- China
- Prior art keywords
- flight
- clustering
- xgboost
- city
- last year
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000010006 flight Effects 0.000 claims description 56
- 230000000694 effects Effects 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于聚类和改进的xgboost的航班流量的预测方法及系统,获取近一年各个航班的属性信息;对各个航班的属性进行聚类,得到不同的聚类特征;由各个航班近一年内的销售数据,生成历史时序特征;以不同的聚类特征和聚类特征组合作为空间特征与历史时序特征为输入构建并训练若干xgboost子模型,选择最优化的xgboost子模型作为最终的xgboost模型;由各个航班的当前销售记录,生成各个航班当前时序特征;最终的xgboost模型基于当前时序特征,预测各个航班在不同折扣下的流量。本发明基于动态规划的思想和xgboost模型,结合航班的分类属性和时序特征预测航班流量,以给航线员提供合理的定价策略参考,实现收益的最大化。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于无监督聚类和改进的xgboost的航班流量的预测方法及系统。
背景技术
对于国内航空公司,收益管理是一项重要的课题,而流量的预测又是收益管理中的关键环节。近几年,有很多研究人员采用了各种各样的方法来预测航班流量,比如:用同期的历史销售记录,用起落地的GDP,以及航班起飞时间的属性。
但是,现有的航班流量预测方法基于单一因素,无法同时考虑到众多因素的综合影响,使得航班流量预测精度不高。
发明内容
针对现有技术中存在的问题,本发明提供一种基于无监督聚类和改进的xgboost的航班流量的预测方法及系统,根据航班的属性进行不同维度的聚类,结合航班的聚类属性和时序特征预测航班的流量,同时兼顾了时间和空间上的影响,提高了预测的准确性。
为达到上述目的,本发明一方面提供了一种基于聚类和改进的xgboost的航班流量的预测方法,包括:
获取近一年各个航班的属性信息;
对各个航班的属性进行聚类,得到不同的聚类特征;
由各个航班近一年内的销售数据,生成历史时序特征;
以不同的聚类特征和聚类特征组合作为空间特征与历史时序特征为输入构建并训练若干xgboost子模型,选择最优化的xgboost子模型作为最终的xgboost模型;由各个航班的当前销售记录,生成各个航班当前时序特征;
最终的xgboost模型基于当前时序特征,预测各个航班在不同折扣下的流量。
进一步地,各个航班的属性信息,具体包括:
航班所属航司的规模,航班起落城市属性,航班所属航线的运力,航班时间属性。
进一步地,对各个航班的属性进行聚类,具体包括:
由航班所属航司的规模聚类:按照近一年航司旅客数量,近一年的航司的所有航班的客座率均值,近一年航司的所有航班个数,近一年航司的飞机数量四个特征进行聚类,得到低、中、高三个规模的航司分类;聚类过程包括:四个特征分别进行归一化,分别选择一个特征进行增强,其他特征不变,再由DBSCAN进行分类,获得四个特征分别增强的分类结果,选择分类效果最好的分类结果;
由航班起落城市属性聚类:按照出发城市的经纬度、出发城市的城市规模、出发城市的去年的GDP、出发城市近一年的航班数、出发城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类出发城市属性,采用投票的方式确定样本归属类别;按照目的地城市的经纬度、目的地城市的城市规模、目的地城市的去年的GDP、目的地城市近一年的航班数、目的地城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类目的地城市属性,采用投票的方式确定样本归属类别;
由航班所属航线的运力聚类:按照近一年常态下直达同航线运力及航班数,转机同航线运力及航班数,四个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用BRICH方法聚类;
由航班时间属性分类:按照航班起飞时段,按照早早、早、中、晚和晚晚进行分类,其中早早是指7:30及以前,早是指7:31-8:30,中是指:8:31-19:59晚是指:20:00-21:59,晚晚是指:22:00及以后;按照航班起飞日期,根据起飞日期是否是法定节假日、法定节假日前3天,法定节假日后3天,周末和工作日进行分类。
进一步地,由各个航班历史销售数据,生成历史时序特征,具体包括:
根据各个航班的销售记录,生成从起飞前第N天到起飞当天的不同折扣下的销售量,即时序特征。
进一步地,以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,包括:
用聚类的方法对各个航班的属性进行聚类获得的所有n个聚类特征中的单个聚类
特征及所有可能的组合,分别构建对应的xgboost子模型,并分别训练;xgboost子模型的数
量为:;其中i表示组合中特征的个数;
选择均方根误差最小的xgboost子模型作为最终的xgboost模型。
另一方面提供一种基于聚类和改进的xgboost的航班流量的预测系统,包括预测航班流量模块和获取航班的时序特征模块;
预测航班流量模块,内置xgboost模型;所述xgboost模型获取包括:建立近一年各个航班的属性信息库;对各个航班的属性进行聚类,得到不同的聚类特征;由各个航班近一年内的销售数据,生成历史时序特征;以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,选择最优化的xgboost子模型作为最终的xgboost模型;
获取航班的时序特征模块,根据当前各个航班的销售记录,生成各个航班当前时序特征;
预测航班流量模块,基于当前时序特征,预测各个航班在不同折扣下的流量。
进一步地,对各个航班的属性进行聚类,得到不同的聚类特征,采用航班属性聚类模块执行;航班属性聚类模块包括航班所属航司规模聚类单元、航班起落城市属性聚类单元、航线的运力聚类单元以及起飞时段聚类单元;
所述航班所属航司规模聚类单元,按照近一年航司旅客数量,近一年的航司的所有航班的客座率均值,近一年航司的所有航班个数,近一年航司的飞机数量四个特征进行聚类,得到低、中、高三个规模的航司分类;聚类过程包括:四个特征分别进行归一化,然后分别选择一个特征进行增强,其他特征不变,再用DBSCAN进行分类,获得四个特征分别增强的分类结果,选择分类效果最好的分类结果;
所述航班起落城市属性聚类单元,按照出发城市的经纬度、出发城市的城市规模、出发城市的去年的GDP、出发城市近一年的航班数、出发城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类出发城市,采用投票的方式确定样本归属类别;按照目的地城市的经纬度、目的地城市的城市规模、目的地城市的去年的GDP、目的地城市近一年的航班数、目的地城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类目的地城市属性,采用投票的方式确定样本归属类别;
所述航线的运力聚类单元,按照近一年常态下直达同航线运力及航班数,转机同航线运力及航班数,四个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用BRICH方法聚类;
所述起飞时段聚类单元,按照航班起飞时段,按照早早、早、中、晚和晚晚进行分类,其中早早是指7:30及以前,早是指7:31-8:30,中是指8:31-19:59,晚是指:20:00-21:59,晚晚是指:22:00及以后;按照航班起飞日期,根据起飞日期是否是法定节假日、法定节假日前3天,法定节假日后3天,周末和工作日进行分类。
进一步地,由各个航班近一年的销售数据,生成历史时序特征,具体包括:
根据各个航班的销售记录,生成从起飞前第N天到起飞当天的不同折扣下的销售量,即时序特征。
进一步地,获取航班的时序特征模块,根据各个航班的当前销售记录,生成从起飞前第N天到起飞当天的不同折扣下的销售量,即时序特征。
进一步地,以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,包括:
用聚类的方法对各个航班的属性进行聚类获得的所有n个聚类特征中的单个聚类
特征及所有可能的组合,分别构建对应的xgboost子模型,并分别训练;xgboost子模型的数
量为:;其中i表示组合中特征的个数;
选择均方根误差最小的xgboost子模型作为最终的xgboost模型。
本发明的上述技术方案具有如下有益的技术效果:
(1)本发明基于动态规划的思想改进了xgboost模型,根据航班的不同信息进行不同维度的聚类得到不同的分类属性,并根据航班距离起飞时间的不同得到航班的时序特征,结合航班的分类属性和时序特征预测航班流量,以给航线员提供合理的定价策略,实现收益的最大化。
(2)本发明的预测方法基于不同的属性,对相似度较高的航班进行聚类,充分考虑了相关航班的影响,大大提高了预测准确性。
(3)本发明通过构建多个xgboost子模型,针对各种聚类特征及聚类特征的组合进行训练,选择其中评估效果最佳的xgboost子模型作为最终的xgboost模型用于预测航班流量,进一步选择出了用于评估的更为准确的聚类特征,提高了预测精度。
(4)本发明的改进的xgboost模型 可以为缺失值指定分支的默认方向,提高了算法的效率和实时性。
附图说明
图1为本发明实施例中一种基于聚类和改进xgboost的航班流量的预测方法的流程图;
图2为一示例性实施例示出的改进的xgboost模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明提供了一种基于聚类和改进的xgboost的航班流量的预测方法及系统,解决了现有的航班流量预测方法基于单一因素,无法同时考虑到众多因素的综合影响的问题。
如图1所示,本发明实施例提供的基于聚类和改进的xgboost的航班流量的预测方法,包括下述步骤:
步骤S1:获取各个航班的近一年属性信息,建立各个航班的属性信息库。
属性信息包含航班所属航司的规模,航班起落城市属性,航班所属航线的运力,航班时间属性。
步骤S2:根据所述航班的近一年属性信息以不同的维度进行聚类,得到所有航班的聚类信息。
在一个实施例中,从下述维度进行聚类:
航班所属航司的规模:按照近一年航司旅客数量,近一年的航司的所有航班的客座率均值,近一年航司的所有航班个数,近一年航司的飞机数量进行聚类,得到低、中、高三个规模的航司分类。
具体地,把上述四个输入特征分别进行归一化,然后分别对特征1、2、3、4中其中之一进行增强,其他特征不变,再用DBSCAN进行分类,获得四个分类结果。这里增强的方法是把归一化的数据扩大10倍。目的是考虑到有些特征在分类的结果中起决定性作用。最终从四个分类结果中选择各类类中心间距均值较远,且各类内部距离均值较近的分类。也就是让类与类尽量远离,类内的点尽量紧凑。
例如大型航司可包括:中国国际航空公司、南方航空公司、东方航空公司等大型航空公司。
航班起落城市属性:按照航班的起落城市的经纬度、城市规模,城市在去年的GDP,出发城市和目的城市近一年的航班数,出发城市和目的城市的机场个数,对起落城市分别进行聚类,分为5个类别。也就是说,出发城市聚类特征包括:出发城市的经纬度、出发城市的城市规模、出发城市的去年的GDP、出发城市近一年的航班数、出发城市的机场个数;目的地城市聚类特征包括:目的地城市的经纬度、目的地城市的城市规模、目的地城市的去年的GDP、目的地城市近一年的航班数、目的地城市的机场个数。对于所有航班,出发城市聚一次类,目的地城市再聚一次类,采用相同的聚类方法。
首先对于上面的5个维度进行两两相关性的计算,如果相关系数>=0.7,那么去掉其中的一个维度,剩余的维度的特征归一化后用不同的算法进行分类。这里的算法包含K-MEANS、DBSCAN、和BRICH。最后遍历每个样本点,采用投票的方式,如果三种算法都认为某个样本归属于某个类别,那么该样本点的类别确定,否则执行少数服从多数的规则。
航班所属航线的运力:按照近一年常态下直达同航线运力及航班数,转机同航线运力及航班数进行聚类。
首先对上面四个维度两两求相关系数,去除相关系数>=0.7的维度,剩余维度的特征归一化后用BRICH直接进行分类。
航班时间属性:按照航班起飞时段,按照早早、早、中、晚和晚晚进行分类,其中早早是指7:30(含)之前,早是指7:31-8:30,中是指8:31-19:59,晚是指:20:00-21:59,晚晚是指:22:00(含)之后;按照航班起飞日期,根据起飞日期是否是法定节假日、法定节假日前3天,法定节假日后3天,周末和工作日等进行分类。步骤S3:由各个航班近一年内的销售数据,生成历史时序特征。
按照预设的起飞前的天数,获取不同折扣的销售记录,得到所有航班的时序特征。
在一个实施例中,根据所有航班的销售记录,按照预设的起飞前的天数,获取不同折扣的销售记录,得到航班的时序特征,具体包括:
根据航班的历史销售记录,按照航班起飞前的预设天数N,获取从起飞前第N天、N-1天……到起飞当天的的所销售机票的折扣记录,统计得到航班的时序特征。
例如N=7,那么就可以得到距离起飞还有7,6,5,4…,0这几天的销售记录,并把这些销售记录的数据分解成不同折扣下的样本。例如:在距离起飞第7天的时,以5折的价格,卖出10张票作为一条样本数据。
步骤S4:以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,选择均方根误差最小的xgboost子模型作为最终的xgboost模型。
将上面的聚类后的特征和时序特征组合起来,按照8:2的比例分为训练集和测试集,并且训练集的时间段与测试集的时间段不能有交叉。分别训练N个xgboost子模型,每个xgboost子模型针对的聚类特征组合不同。聚类特征组合应覆盖所有单个聚类特征以及不同聚类特征的所有可能组合。
例如共3个聚类特征,那么特征组合包括:特征1;特征2;特征3;特征1与特征2;特
征2与特征3;特征1与特征3;特征1、特征2与特征3,共7中组合。对于n个聚类特征,那么共种组合。其中i为聚类特征个数。每种组合都要训练对应的
xgboost子模型。
各个xgboost子模型的训练方式相同,由训练集中选择样本训练,训练满足精度要求后,由测试集选择样本进行测试。
改进的xgboost采用动态规划的思路,先计算子问题的最优解,再获取所有子问题结合起来的最优解。分别计算每个xgboost子模型的均方误差rmse1…rmseN。最终只保留聚类特征的不同组合中的使均方误差达到最小的最优解,即rmse1…rmseN中的最小值。最小值对应的xgboost子模型作为最终选择的xgboost模型封装使用。基于最优解的算法,获得了最优化的xgboost模型。
如图2,其中第N个子问题的最优解求解步骤如下:将时序特征和所有不同的N个聚类组合特征分别输入xgboost子模型,计算最优的rmseN,这里的N可以为1,2,3…聚类特征的总个数。这里xgboost采用了树模型, 树的深度设为2,目标函数选用了逻辑回归,采用了10折交叉验证,使用均方差误差来评估效果。
得到最优解后,只要输入一个航班的聚类组合特征和时序特征,就可以预测得到该航班在距离起飞第几天时,在几折下可以销售几张票,即航班的流量。
步骤S5:由各个航班的当前销售记录,生成当前时序特征。
例如:已经某一个航班距离起飞时间还有3天,那么我们就拿到了距离起飞前7,6,5,4天的不同折扣售卖了多少张票,用这些数据生成了当前的时序特征。步骤S6:最终的xgboost模型基于当前时序特征,预测各个航班在不同折扣下的流量。
最终的xgboost模型对应的聚类特征与其训练时的输入的聚类特征相同,因此可以在封装成固定聚类特征,使用时直接输入当前时序特征。也可以将最终的xgboost模型对应的聚类特征与当前时序特征共同输入最终的xgboost模型。
将最终的xgboost模型对应的聚类特征和各个航班的时序销售记录,输入改进的xgboost模型,预测不同时间的各个折扣下的航班流量。
本发明使用改进的xgboost模型,首次用于对航班流量进行预测,解决现有航班流量预测方法只能基于单一因素,无法同时考虑到众多因素的问题。
本发明实施例提供了一种基于聚类和改进的xgboost的航班流量的预测系统,包括预测航班流量模块和获取航班的时序特征模块。
预测航班流量模块,内置改进的xgboost模型,用于预测航班流量。
所述改进的xgboost模型获取包括:建立近一年各个航班的属性信息库;对各个航班的属性进行聚类,得到不同的聚类特征;由各个航班近一年内的销售数据,生成历史时序特征;以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,选择均方根误差最小的xgboost子模型作为最终的xgboost模型。
进一步地,最终的xgboost模型封装时将空间特征固化,使用该模型进行预测时,仅需输入时序特征。
进一步地,以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,包括:
用聚类的方法对各个航班的属性进行聚类获得的所有n个聚类特征中的单个聚类
特征及所有可能的组合,分别构建对应的xgboost子模型,并分别训练;xgboost子模型的数
量为:;其中i表示组合中特征的个数。
属性信息包含聚类的各个属性,航班所属航司的规模,航班起落城市属性,航班所属航线的运力,航班时间属性。
获取航班的时序特征模块,根据当前各个航班的销售记录,生成各个航班当前时序特征。
在一个实施例中,已经某一个航班距离起飞时间还有3天,那么我们就拿到了距离起飞前7,6,5,4天的不同折扣售卖了多少张票,用这些数据生成了当前的时序特征。
预测航班流量模块,基于当前时序特征,预测各个航班在不同折扣下的流量。
进一步地,对各个航班的属性进行聚类,得到不同的聚类特征,采用航班属性聚类模块执行。
航班属性聚类模块包括航班所属航司规模聚类单元、航班起落城市属性聚类单元、航线的运力聚类单元以及起飞时间聚类单元。
所述航班所属航司规模聚类单元,按照近一年航司旅客数量,近一年的航司的所有航班的客座率均值,近一年航司的所有航班个数,近一年航司的飞机数量四个特征进行聚类,得到低、中、高三个规模的航司分类;聚类过程包括:四个特征分别进行归一化,然后分别分别选择一个特征进行增强,其他特征不变,再用DBSCAN进行分类;
所述航班起落城市属性聚类单元,按照出发城市的经纬度、出发城市的城市规模、出发城市的去年的GDP、出发城市近一年的航班数、出发城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类出发城市,采用投票的方式确定样本归属类别。目的地城市也是依此聚类;按照目的地城市的经纬度、目的地城市的城市规模、目的地城市的去年的GDP、目的地城市近一年的航班数、目的地城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类目的地城市属性,采用投票的方式确定样本归属类别。
所述航线的运力聚类单元,按照近一年常态下直达同航线运力及航班数,转机同航线运力及航班数,四个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用BRICH方法聚类。
所述起飞时段聚类单元,按照航班起飞时段,按照早早、早、中、晚和晚晚进行分类,其中早早是指7:30及以前,早是指7:31-8:30,中是指8:31-19:59,晚是指:20:00-21:59,晚晚是指:22:00及以后;按照航班起飞日期,根据起飞日期是法定节假日、法定节假日前3天,法定节假日后3天,周末和工作日进行分类。
综上所述,本发明提供一种基于聚类和改进的xgboost的航班流量的预测方法及系统,获取各个航班近一年的销售记录,生成时序特征;以不同的聚类特征和聚类特征组合作为空间特征与历史时序特征为输入构建并训练若干xgboost子模型,选择最优化的xgboost子模型作为最终的xgboost模型;由各个航班的当前销售记录,生成各个航班当前时序特征;最终的xgboost模型基于当前时序特征,预测各个航班在不同折扣下的流量。以给航线员提供合理的定价策略参考,实现收益的最大化。应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (7)
1.一种基于聚类和改进的xgboost的航班流量的预测方法,其特征在于,包括:
获取近一年各个航班的属性信息;
对各个航班的属性进行聚类,得到不同的聚类特征;
由各个航班近一年内的销售数据,生成历史时序特征;
以不同的聚类特征和聚类特征组合作为空间特征与历史时序特征为输入构建并训练若干xgboost子模型,选择最优化的xgboost子模型作为最终的xgboost模型;由各个航班的当前销售记录,生成各个航班当前时序特征;
最终的xgboost模型基于当前时序特征,预测各个航班在不同折扣下的流量;
各个航班的属性信息,具体包括:
航班所属航司的规模,航班起落城市属性,航班所属航线的运力,航班时间属性;
对各个航班的属性进行聚类,具体包括:
由航班所属航司的规模聚类:按照近一年航司旅客数量,近一年的航司的所有航班的客座率均值,近一年航司的所有航班个数,近一年航司的飞机数量四个特征进行聚类,得到低、中、高三个规模的航司分类;聚类过程包括:四个特征分别进行归一化,分别选择一个特征进行增强,其他特征不变,再由DBSCAN进行分类,获得四个特征分别增强的分类结果,选择分类效果最好的分类结果;
由航班起落城市属性聚类:按照出发城市的经纬度、出发城市的城市规模、出发城市的去年的GDP、出发城市近一年的航班数、出发城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类出发城市属性,采用投票的方式确定样本归属类别;按照目的地城市的经纬度、目的地城市的城市规模、目的地城市的去年的GDP、目的地城市近一年的航班数、目的地城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类目的地城市属性,采用投票的方式确定样本归属类别;
由航班所属航线的运力聚类:按照近一年常态下直达同航线运力及航班数,转机同航线运力及航班数,四个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用BRICH方法聚类;
由航班时间属性分类:按照航班起飞时段,按照早早、早、中、晚和晚晚进行分类,其中早早是指7:30及以前,早是指7:31-8:30,中是指:8:31-19:59晚是指:20:00-21:59,晚晚是指:22:00及以后;按照航班起飞日期,根据起飞日期是否是法定节假日、法定节假日前3天,法定节假日后3天,周末和工作日进行分类。
2.根据权利要求1所述的基于聚类和改进的xgboost的航班流量的预测方法,其特征在于,由各个航班历史销售数据,生成历史时序特征,具体包括:
根据各个航班的销售记录,生成从起飞前第N天到起飞当天的不同折扣下的销售量,即时序特征。
4.基于聚类和改进的xgboost的航班流量的预测系统,其特征在于,包括预测航班流量模块和获取航班的时序特征模块;
预测航班流量模块,内置xgboost模型;所述xgboost模型获取包括:建立近一年各个航班的属性信息库;对各个航班的属性进行聚类,得到不同的聚类特征;由各个航班近一年内的销售数据,生成历史时序特征;以不同的聚类特征和聚类特征组合作为空间特征,与历史时序特征为输入构建并训练若干xgboost子模型,选择最优化的xgboost子模型作为最终的xgboost模型;
获取航班的时序特征模块,根据当前各个航班的销售记录,生成各个航班当前时序特征;
预测航班流量模块,基于当前时序特征,预测各个航班在不同折扣下的流量;
对各个航班的属性进行聚类,得到不同的聚类特征,采用航班属性聚类模块执行;航班属性聚类模块包括航班所属航司规模聚类单元、航班起落城市属性聚类单元、航线的运力聚类单元以及起飞时段聚类单元;
所述航班所属航司规模聚类单元,按照近一年航司旅客数量,近一年的航司的所有航班的客座率均值,近一年航司的所有航班个数,近一年航司的飞机数量四个特征进行聚类,得到低、中、高三个规模的航司分类;聚类过程包括:四个特征分别进行归一化,然后分别选择一个特征进行增强,其他特征不变,再用DBSCAN进行分类,获得四个特征分别增强的分类结果,选择分类效果最好的分类结果;
所述航班起落城市属性聚类单元,按照出发城市的经纬度、出发城市的城市规模、出发城市的去年的GDP、出发城市近一年的航班数、出发城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类出发城市,采用投票的方式确定样本归属类别;按照目的地城市的经纬度、目的地城市的城市规模、目的地城市的去年的GDP、目的地城市近一年的航班数、目的地城市的机场个数,五个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用K-MEANS、DBSCAN、和BRICH分别聚类目的地城市属性,采用投票的方式确定样本归属类别;
所述航线的运力聚类单元,按照近一年常态下直达同航线运力及航班数,转机同航线运力及航班数,四个特征进行两两相关性的计算,如果两个特征的相关系数大于设定阈值则删除两个特征之一,以剩余特征采用BRICH方法聚类;
所述起飞时段聚类单元,按照航班起飞时段,按照早早、早、中、晚和晚晚进行分类,其中早早是指7:30及以前,早是指7:31-8:30,中是指8:31-19:59,晚是指:20:00-21:59,晚晚是指:22:00及以后;按照航班起飞日期,根据起飞日期是否是法定节假日、法定节假日前3天,法定节假日后3天,周末和工作日进行分类。
5.根据权利要求4所述的基于聚类和改进的xgboost的航班流量的预测系统,其特征在于,由各个航班近一年的销售数据,生成历史时序特征,具体包括:
根据各个航班的销售记录,生成从起飞前第N天到起飞当天的不同折扣下的销售量,即时序特征。
6.根据权利要求5所述的基于聚类和改进的xgboost的航班流量的预测系统,其特征在于,获取航班的时序特征模块,根据各个航班的当前销售记录,生成从起飞前第N天到当天的不同折扣下的销售量,即时序特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110503952.5A CN112926809B (zh) | 2021-05-10 | 2021-05-10 | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110503952.5A CN112926809B (zh) | 2021-05-10 | 2021-05-10 | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926809A CN112926809A (zh) | 2021-06-08 |
CN112926809B true CN112926809B (zh) | 2021-07-23 |
Family
ID=76174827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110503952.5A Active CN112926809B (zh) | 2021-05-10 | 2021-05-10 | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926809B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626599A (zh) * | 2021-08-16 | 2021-11-09 | 未鲲(上海)科技服务有限公司 | 目标信息的获取方法、装置、设备以及存储介质 |
CN117649272A (zh) * | 2023-12-11 | 2024-03-05 | 南京航旅睿连科技有限公司 | 一种国内机票产品的动态定价方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895283A (zh) * | 2017-11-07 | 2018-04-10 | 重庆邮电大学 | 一种基于时间序列分解的商家客流量大数据预测方法 |
CN109191922A (zh) * | 2018-09-03 | 2019-01-11 | 北京航空航天大学 | 一种大规模四维航迹动态预测方法及装置 |
CN110390349A (zh) * | 2019-06-20 | 2019-10-29 | 浙江大学 | 基于XGBoost模型的公交车客流量预测建模方法 |
CN110751340A (zh) * | 2019-10-29 | 2020-02-04 | 广东机场白云信息科技有限公司 | 一种机场安检区域人流预测分析方法及系统 |
CN111582918A (zh) * | 2020-04-24 | 2020-08-25 | 海南太美航空股份有限公司 | 一种航班收益预测方法和系统 |
CN112308618A (zh) * | 2020-11-02 | 2021-02-02 | 沈阳民航东北凯亚有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334839B (zh) * | 2019-04-15 | 2021-05-14 | 北京航空航天大学 | 航班延误预测方法、装置、设备及存储介质 |
CN111325380A (zh) * | 2019-12-29 | 2020-06-23 | 航天信息股份有限公司 | 基于多粒度时间注意力机制确定航班客座率的方法和系统 |
-
2021
- 2021-05-10 CN CN202110503952.5A patent/CN112926809B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895283A (zh) * | 2017-11-07 | 2018-04-10 | 重庆邮电大学 | 一种基于时间序列分解的商家客流量大数据预测方法 |
CN109191922A (zh) * | 2018-09-03 | 2019-01-11 | 北京航空航天大学 | 一种大规模四维航迹动态预测方法及装置 |
CN110390349A (zh) * | 2019-06-20 | 2019-10-29 | 浙江大学 | 基于XGBoost模型的公交车客流量预测建模方法 |
CN110751340A (zh) * | 2019-10-29 | 2020-02-04 | 广东机场白云信息科技有限公司 | 一种机场安检区域人流预测分析方法及系统 |
CN111582918A (zh) * | 2020-04-24 | 2020-08-25 | 海南太美航空股份有限公司 | 一种航班收益预测方法和系统 |
CN112308618A (zh) * | 2020-11-02 | 2021-02-02 | 沈阳民航东北凯亚有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于XGBoost算法的机场旅客流量预测;贾锐军等;《民航学报》;20181130;第2卷(第6期);第34-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926809A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11315170B2 (en) | Methods and systems for order processing | |
EP3258430A1 (en) | Transport capacity scheduling method and system | |
CN113159364A (zh) | 一种大型交通场站的客流预测方法及系统 | |
CN111784049B (zh) | 一种旅客流失时间预测方法及装置 | |
CN112926809B (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
CN106875670A (zh) | Spark平台下基于GPS数据的出租车调配方法 | |
US11250031B2 (en) | Method of predicting a traffic behaviour in a road system | |
CN113449915B (zh) | 一种基于知识图谱的航班延误预测方法 | |
CN110836675A (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
CN113284369B (zh) | 一种基于ads-b实测航路数据的预测方法 | |
Zhang et al. | Detecting taxi travel patterns using GPS trajectory data: A case study of Beijing | |
CN113449780A (zh) | 基于随机森林和lstm神经网络的路内泊位占有率预测方法 | |
Li et al. | A multi-categorical probabilistic approach for short-term bike sharing usage prediction | |
US20190378406A1 (en) | Method of predicting a traffic behaviour in a road system | |
CN108053646B (zh) | 基于时间敏感特征的交通特征获取方法、预测方法及系统 | |
CN117669837A (zh) | 一种机场陆侧换乘交通方式选择预测方法及系统 | |
WO2022252850A1 (zh) | 航班的季节性归类方法、装置及机器可读介质 | |
Rasaizadi et al. | The ensemble learning process for short-term prediction of traffic state on rural roads | |
Li et al. | Driving cycle prediction based on Markov chain combined with driving information mining | |
CN116862035A (zh) | 航延预测方法、装置、设备和计算机可读存储介质 | |
CN114139984A (zh) | 基于流量与事故协同感知的城市交通事故风险预测方法 | |
Huang et al. | Analysing taxi customer-search behaviour using Copula-based joint model | |
Liu et al. | An entropy-based model for recommendation of taxis’ cruising route | |
CN112308285A (zh) | 信息处理方法、装置、电子设备和计算机可读存储介质 | |
CN113570172B (zh) | 一种出租车空载巡航路线推荐的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |