CN111798275B - 一种国内航班价格预测方法 - Google Patents

一种国内航班价格预测方法 Download PDF

Info

Publication number
CN111798275B
CN111798275B CN202010639843.1A CN202010639843A CN111798275B CN 111798275 B CN111798275 B CN 111798275B CN 202010639843 A CN202010639843 A CN 202010639843A CN 111798275 B CN111798275 B CN 111798275B
Authority
CN
China
Prior art keywords
price
flight
output
lstm
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010639843.1A
Other languages
English (en)
Other versions
CN111798275A (zh
Inventor
邹延迪
李尚锦
常福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huoli Tianhui Technology Co ltd
Original Assignee
Shenzhen Huoli Tianhui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huoli Tianhui Technology Co ltd filed Critical Shenzhen Huoli Tianhui Technology Co ltd
Priority to CN202010639843.1A priority Critical patent/CN111798275B/zh
Publication of CN111798275A publication Critical patent/CN111798275A/zh
Application granted granted Critical
Publication of CN111798275B publication Critical patent/CN111798275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种国内航班价格预测方法。所述方法包括:对航班特征进行编码,制作Mapping表,使每一个特征值都有一个唯一的编号;对Mapping表中的特征值进行Embedding转换,减小数据维度,得到特征值的向量表示;将特征值的向量表示输入到DeepFM模型,分别得到低阶特征输出和高阶特征输出;将航班的历史价格数据输入到LSTM模型,并将LSTM模型的输出进行Embedding转换,得到历史价格数据的向量表示;将DeepFM和LSTM的输出数据进行融合,经输出层输出航班的预测价格。由于利用DeepFM和LSTM模型分别提取不同属性的特征,本发明相对现有技术明显提高了价格预测精度。

Description

一种国内航班价格预测方法
技术领域
本发明属于机票查询技术领域,具体涉及一种国内航班价格预测方法。
背景技术
目前,国内航空市场,每天的航线数量近2万个,涉及200多个城市,每条航线的价格变化与自所属区域、季节等多种属性密切相关。如果能够及时、准确地预测未来起飞航线的价格变化情况,一定能产生一定的经济效益。通过对最近两年的机票价格数据进行统计、图形展示、分析发现,机票价格存在以下几个特点:一是机票价格变化规律性不强。通过将价格数据进行图表展示,无论从距离起飞时间间隔天数的维度,还是从同天的历史价格维度,都没有发现明显的规律;二是价格突变的现象较多。同一航班,经常出现相邻两天的价格发生突涨或突降现象,变化幅度有时高达80%,而且由于节假日、天气等因素,会造成机票价格突然大幅度上涨;三是历史数据存在缺失情况。由于某些航班突然取消或者数据抓取工作存在疏漏,造成了一定程度的数据缺失,对计算价格同比、环比和是否降价等指标,带来了一定的误差。
现有机票价格预测一般属于时序预测,主要有两种方法:传统时序建模和机器学习。实验表明,这两种方法的效果都不太理想,无法得到大量航班的相关变化情况。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种国内航班价格预测方法。
为实现上述目的,本发明采用如下技术方案:
一种国内航班价格预测方法,包括以下步骤:
步骤1,对航班特征进行编码,制作Mapping表,使每一个特征值都有一个唯一的编号;航班特征至少包括:航班号,航空公司,出发地,目的地,起飞时间;
步骤2,对Mapping表中的特征值进行Embedding转换,减小数据维度,得到特征值的向量表示;
步骤3,将特征值的向量表示输入到DeepFM模型,分别得到低阶特征输出和高阶特征输出;
步骤4,将航班的历史价格数据输入到LSTM模型,并将LSTM模型的输出进行Embedding转换,得到历史价格数据的向量表示;
步骤5,利用Stacking方法,将DeepFM和LSTM的输出数据进行融合,经输出层输出航班的预测价格。
与现有技术相比,本发明具有以下有益效果:
本发明利用具有特征抓取能力强、计算速度快、对特征有较好的泛化能力等特点的DeepFM模型提取起飞时间、航线距离、航班信息等特征,利用能够学习时间序列数据且有长序列记忆能力的LSTM模型提取航班已知的历史价格数据特征,将两部分的特征进行合并得到最终的特征数据,然后加入输出层得到输出结果数据。由于利用DeepFM和LSTM模型分别提取不同属性的特征,本发明相对现有技术明显提高了价格预测精度。
附图说明
图1为本发明实施例一种国内航班价格预测方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种国内航班价格预测方法,流程图如图1所示,包括以下步骤:
S101、对航班特征进行编码,制作Mapping表,使每一个特征值都有一个唯一的编号;航班特征至少包括:航班号,航空公司,出发地,目的地,起飞时间;
S102、对Mapping表中的特征值进行Embedding转换,减小数据维度,得到特征值的向量表示;
S103、将特征值的向量表示输入到DeepFM模型,分别得到低阶特征输出和高阶特征输出;
S104、将航班的历史价格数据输入到LSTM模型,并将LSTM模型的输出进行Embedding转换,得到历史价格数据的向量表示;
S105、利用Stacking方法,将DeepFM和LSTM(Long Short-Term Memory,长短期记忆网络)的输出数据进行融合,经输出层输出航班的预测价格。
在本实施例中,步骤S101主要用于通过对航班特征进行编码,制作Mapping表。航班特征有很多,最常用的有航班号、航空公司、出发地、目的地和起飞时间,还有航班尾号奇偶性、航线距离、航线原价、是否寒暑假、是否工作日、是否是星期五、是否是假期的前一天、是否是假期的后一天、假期第几天、是否法定假日、法定假日天数、法定假日类别、是否传统节日(非法定假期)、传统节日类型等。Mapping表的制作方法是:将原始表(如表1,表中航线距离单位为km)映射为两张表,分别为ID(编号)表和Value(特征值)表。对原始表中的每列特征取distinct,然后依次给distinct的结果顺序标号得到ID表,如表2所示,起飞城市中的“深圳”和到达城市中的“深圳”的ID不同。对原始表中的每列特征取值得到Value表,如表3所示,如果是类别特征,如上海,value值都是1;如果是连续值特征,例如航线距离,value值为实际值,但是连续值特征的ID只有一个。
表1原始表示例
航空公司 起飞城市 到达城市 航线距离
国航 深圳 北京 2000
深航 上海 深圳 1200
春秋 深圳 北京 2100
表2 ID表示例
航空公司 起飞城市 到达城市 航线距离
1 4 6 8
2 5 7 8
3 4 6 8
表3 Value表示例
航空公司 起飞城市 到达城市 航线距离
1 1 1 2000
1 1 1 1200
1 1 1 2100
在本实施例中,步骤S102主要用于得到特征值的向量表示。对Mapping表中的航班特征和特征值进行Embedding转换,减小数据维度,同时将各个特征值使用向量的方式表示。Embedding是将高维的稀疏向量映射成为低维的稠密向量,不但减少了离散变量的空间维数,还使得迭代后的特征向量具有一定的现实意义。例如,历史数据中起始地城市的数量为270个,如果使用传统的One-hot编码,起始地城市这个特征270维度的输入向量,如果使用Embedding方法,则可以通过任意的向量长度(比如说80)来表示起始地城市特征。Embedding具有一定的泛化学习能力,比如说A特征和B特征相关,B特征和C特征相关,那么A和C就有可能也是相关的。如果使用传统的线性模型,无法学习到A特征和C特征的关系,但是通过引入Embedding方法,就可以学习到A特征和C特征的关系。
在本实施例中,步骤S103主要用于将特征值的向量表示输入到DeepFM模型,分别输出低阶特征和高阶特征。低阶特征是指航空公司、起飞城市、是否寒暑假、是否法定假日等原始特征;原始特征两两组合即可得到高阶特征,例如,国航在深圳起飞,起飞日期是寒暑假而且是法定假日。本实施例利用DeepFM模型抓取起飞时间、航线距离、航班信息等特征。为了同时学习高阶和低阶的组合特征,Deep FM集成了因子分解机(FM)和深度神经网络(DNN)的体系结构。FM算法负责对一阶特征以及二阶特征(由一阶特征交叉组合得到的)进行特征的提取;DNN算法负责对高阶特征进行特征的提取。DeepFM是推荐系统领域的热门算法模型,具有特征抓取能力强、计算速度快、对特征有较好的泛化能力等特点。
在本实施例中,步骤S104主要用于提取历史价格数据。LSTM是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。LSTM利用输入门、遗忘门和输出门来控制增加、删除信息及输出信息。输入门用于控制数据增加到存储单元的程度;遗忘门用于控制上一时刻的存储单元的输出和当前时刻的输入,一起传到当前时刻存储单元中的数据删除程度;输出门用于控制当前时刻存储单元中的数据传到当前隐藏状态中数据输出程度。LSTM模型是NLP(Natural Language Processing,自然语言处理)领域的经典算法,它能够更好地学习时间序列数据,有效提取历史价格数据。在本实施例中,将航班的历史价格数据输入到LSTM模型后,还要将LSTM模型的输出进行Embedding转换,得到历史价格数据的向量表示。例如,起飞前1天的价格为100元,使用Embedding将起飞前一天的特征用向量v表示,那么起飞前一天的值就使用100*v表示,若v=[0.2,0.4,0.1],那么输入模型的数据就是[20,40,10]。100*v是对连续值特征的处理方法。
在本实施例中,步骤S105主要用于输出航班的预测价格。利用Stacking方法将DeepFM和LSTM的输出数据进行融合,经输出层输出航班的预测价格。Stacking就是对几个简单的模型进行k-fold(k折交叠)交叉验证输出预测结果,然后将每个模型输出的预测结果合并为新的特征,并使用新的模型加以训练。Stacking方法可以避免过拟合,学习出特征之间组合的信息,还能提高预测的准确率。
作为一种可选实施例,所述S104还包括:针对历史价格的缺失数据,使用Masking的方式进行屏蔽,如果某样本的部分输入值为空,所述输入值不参与权重更新和模型学习。
本实施例给出了一种处理历史价格缺失数据的技术方案。历史数据中经常存在一定数量的缺失值,通常的做法是基于历史数据规律进行缺失值填充,但是效果并不理想。本实施例利用NLP领域处理输入序列长度不等的解决方法,使用Masking方式对缺失数值进行屏蔽,将缺失值置为0,在模型训练的时候,该位置的神经元不参与训练。这样处理的好处有两个,一是使输入层起到了Dropout正则化的效果;二是模型部署上线时,会经常遇到缺失值的情况,这样更符合线上服务的实际场景。
作为一种可选实施例,DeepFM和LSTM的输出数据按下式进行融合:
其中,y为输出层的输出,wD-i为DeepFM权重,xD-i为DeepFM提取的特征,I为DeepFM提取的特征的数量;wL-j为LSTM权重,xL-j为LSTM提取的特征,J为LSTM提取的特征的数量;b为偏置项。
本实施例给出了对DeepFM和LSTM的输出数据进行融合的技术方案。输出y等于三项的和代入门控函数σ(x)的值,其中第一项为DeepFM提取的特征加权求和,第二项为LSTM提取的特征加权求和,第三项为偏置项。
作为一种可选实施例,所述S105的输出层有多个输出,包括未来一段时间每天的航班价格,起飞前航班的最低价格及最低价格发生的时间、起飞前是否会降价。
本实施例给出了输出层为多个输出的一种技术方案。按照业务的需求,不仅需要航班起飞前的预测价格数据,还需要起飞前的最低价格、最低价格发生的时间、起飞前是否会降价等多种结果。本实施例通过在模型中增加输出层,然后配置合适的损失函数,让多个输出在同一个网络结构上进行训练,达到一个模型多个结果输出的效果。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。

Claims (3)

1.一种国内航班价格预测方法,其特征在于,包括以下步骤:
步骤1,对航班特征进行编码,制作Mapping表,使每一个特征值都有一个唯一的编号;航班特征至少包括:航班号,航空公司,出发地,目的地,起飞时间;
步骤2,对Mapping表中的特征值进行Embedding转换,减小数据维度,得到特征值的向量表示;
步骤3,将特征值的向量表示输入到DeepFM模型,分别得到低阶特征输出和高阶特征输出;
步骤4,将航班的历史价格数据输入到LSTM模型,并将LSTM模型的输出进行Embedding转换,得到历史价格数据的向量表示;
步骤5,利用Stacking方法,将DeepFM和LSTM的输出数据进行融合,经输出层输出航班的预测价格;
DeepFM和LSTM的输出数据按下式进行融合: 其中,y为输出层的输出,wD-i为DeepFM权重,xD-i为DeepFM提取的特征,I为DeepFM提取的特征的数量;wL-j为LSTM权重,xL-j为LSTM提取的特征,J为LSTM提取的特征的数量;b为偏置项。
2.根据权利要求1所述的国内航班价格预测方法,其特征在于,所述步骤4还包括:针对历史价格的缺失数据,使用Masking的方式进行屏蔽,如果某样本的部分输入值为空,所述输入值不参与权重更新和模型学习。
3.根据权利要求1所述的国内航班价格预测方法,其特征在于,所述步骤5的输出层有多个输出,包括未来一段时间每天的航班价格,起飞前航班的最低价格及最低价格发生的时间、起飞前是否会降价。
CN202010639843.1A 2020-07-06 2020-07-06 一种国内航班价格预测方法 Active CN111798275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639843.1A CN111798275B (zh) 2020-07-06 2020-07-06 一种国内航班价格预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639843.1A CN111798275B (zh) 2020-07-06 2020-07-06 一种国内航班价格预测方法

Publications (2)

Publication Number Publication Date
CN111798275A CN111798275A (zh) 2020-10-20
CN111798275B true CN111798275B (zh) 2023-09-22

Family

ID=72811264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639843.1A Active CN111798275B (zh) 2020-07-06 2020-07-06 一种国内航班价格预测方法

Country Status (1)

Country Link
CN (1) CN111798275B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381617B (zh) * 2020-11-30 2023-09-05 中国银行股份有限公司 网络购物方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089314A (zh) * 2018-09-30 2018-12-25 哈尔滨工业大学(深圳) 一种基于推荐算法的wifi序列辅助GPS的室内定位方法
CN110263479A (zh) * 2019-06-28 2019-09-20 浙江航天恒嘉数据科技有限公司 一种大气污染因子浓度时空分布预测方法及系统
WO2020092446A2 (en) * 2018-10-29 2020-05-07 Strong Force TX Portfolio 2018, LLC Methods and systems for improving machines and systems that automate execution of distributed ledger and other transactions in spot and forward markets for energy, compute, storage and other resources
CN111178978A (zh) * 2019-12-31 2020-05-19 中山大学 一种结合航班信息和价格序列的机票价格预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109089314A (zh) * 2018-09-30 2018-12-25 哈尔滨工业大学(深圳) 一种基于推荐算法的wifi序列辅助GPS的室内定位方法
WO2020092446A2 (en) * 2018-10-29 2020-05-07 Strong Force TX Portfolio 2018, LLC Methods and systems for improving machines and systems that automate execution of distributed ledger and other transactions in spot and forward markets for energy, compute, storage and other resources
CN110263479A (zh) * 2019-06-28 2019-09-20 浙江航天恒嘉数据科技有限公司 一种大气污染因子浓度时空分布预测方法及系统
CN111178978A (zh) * 2019-12-31 2020-05-19 中山大学 一种结合航班信息和价格序列的机票价格预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Second Order Factorized Model Adaptation for Short Duration Language Identification;Sarith Fernando等;2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)ation for Sustainability (ICIAfS);1440-1447 *
基于深度神经网络的临床医疗预测模型研究;吴庆洲;中国优秀硕士学位论文全文数据库医药卫生科技辑(第1期);E054-47 *
搜索广告点击率预测算法研究与实现;常明;中国优秀硕士学位论文全文数据库信息科技辑(第1期);I138-5131 *

Also Published As

Publication number Publication date
CN111798275A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
CN108898838B (zh) 一种基于lstm模型的机场交通拥堵预测方法及装置
CN113487066B (zh) 基于多属性增强图卷积-Informer模型的长时序货运量预测方法
CN109214592A (zh) 一种多模型融合的深度学习的空气质量预测方法
CN110210993B (zh) 基于循环神经网络模型的城市短期燃气负荷预测方法
Sun et al. Short‐term building load forecast based on a data‐mining feature selection and LSTM‐RNN method
CN109426889A (zh) 基于kpca与改进神经网络结合的短期负荷预测方法
CN110503104B (zh) 一种基于卷积神经网络的短时剩余车位数量预测方法
CN106448151A (zh) 一种短时交通流预测方法
Zhou et al. A multiscale and high-precision LSTM-GASVR short-term traffic flow prediction model
CN110490365B (zh) 一种基于多源数据融合预测网约车订单量的方法
CN111798275B (zh) 一种国内航班价格预测方法
Pan et al. Multivariable sales prediction for filling stations via GA improved BiLSTM
CN113537569B (zh) 一种基于权重堆叠决策树的短时公交客流预测方法及系统
CN116797274A (zh) 一种基于Attention-LSTM-LightGBM的共享单车需求量预测方法
CN112101612A (zh) 一种城镇燃气用量的预测方法、存储介质及终端设备
CN116663742A (zh) 基于多因素和模型融合的区域运力预测方法
CN110659758A (zh) 一种基于ai技术的空气质量短期高精度预测模型
CN114066503A (zh) 一种基于构建虚拟服务片区进行出租车需求预测的方法
Jiang et al. A multi-index prediction method for flight delay based on long short-term memory network model
Chen et al. An Empirical Study on Intelligent Rural Tourism Service by Neural Network Algorithm Models
Kang et al. Analysis of tourist flow forecasting model based on multiple additive regression tree
Xiong et al. Urban road speed prediction based on multisource feature bidirectional long short-term memory.
Wu et al. Short-term Bus Passenger Flow Forecast Based on CNN-BiLSTM
Wang et al. Road Traffic Accident Prediction Model Based on J-LSTM+ Attention Mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant