CN114943356A

CN114943356A - 一种机场到港旅客乘坐出租车短时需求集成预测方法

Info

Publication number: CN114943356A
Application number: CN202210630008.0A
Authority: CN
Inventors: 羊钊; 宋溢露; 包杰; 曾维理; 丛玮; 谢华; 张洪海
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-26

Abstract

本发明公开了一种机场到港旅客乘坐出租车短时需求集成预测方法，包括：采集机场到港旅客乘坐出租车订单数据、机场到港航班数据、机场到港旅客乘坐地铁闸门数据、机场天气报文数据；将数据处理为综合时间序列数据集和复合流量数据集；采用K‑Means模型对复合流量数据集进行无监督聚类，基于复合流量相似性距离进行相似性度量，记最终聚类数为K；基于聚类结果对综合时间序列数据集分类，划分训练集和测试集；建立并训练K个LSTM‑Att模型、XGBoost模型和LightGBM模型，作为初级学习器，构建堆叠法集成预测模型，预测并评价机场到港旅客乘坐出租车短时需求。本发明基于相似性度量，有助于集成不同预测模型以提升到港旅客需求预测精度，提高机场陆侧集疏运系统管理的效率。

Description

一种机场到港旅客乘坐出租车短时需求集成预测方法

技术领域

本发明属于机场管理技术领域，具体涉及一种机场到港旅客乘坐出租车短时需求集成预测方法。

背景技术

随着飞机出行方式的普及化，机场陆侧出租车业务量持续增长，为缓解机场出租车资源供给与机场到港旅客运输需求不匹配造成的矛盾，需要提高机场出租车集疏运系统运行效率，准确把握乘坐出租车的机场旅客短时流量。在大型枢纽机场，随着进出港客流量的持续增长，其人员流动也呈现高动态、高密度可变、时间分布不均匀的特点，同时，机场由于净空条件等限制，大多都远离市区，一旦机场周边交通干道产生拥堵，将会有大量旅客滞留。若能实现精度更高的机场出租车旅客短时流量预测，将有利于机场合理分配陆侧资源，缓解机场陆侧交通压力，完善机场集疏运系统，实现旅客出行便捷高效的建设目标。

围绕机场出租车客流需求预测，现有研究大多建立离散选择模型，通过分析旅客选择行为，结合机场到港旅客流量，进行间接预测，这类预测模型要求提供详尽的自变量信息，包含旅客个人信息等，数据采集及建模具有一定难度。机器学习方法可以从群体角度出发，基于历史客流数据对机场出租车旅客流量进行直接预测。对于短时流量预测，机器学习中常采用ARIMA模型、长短期记忆神经网络LSTM等方法，不同的方法各有优缺点，但依赖单一的预测方法，往往难以准确把握客流需求的动态性、随机性特征和周期性、季节性规律。集成预测可以直接级联不同模型，取长补短，提高预测精度。同时，构建考虑其他乘坐方式的流量数据集，如地铁客流数据，辅助模型预测，结合数据周期性、季节性特征，对其进行相似性度量，可以划分相似数据集，进一步提高模型精度。在机场到港旅客乘坐出租车需求预测过程中，如何通过相似性度量和集成预测，提高短时出租车客流需求预测的精度，是精准匹配机场出租车资源供给与机场到港旅客运输需求需要解决的重要问题之一。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种机场到港旅客乘坐出租车短时需求集成预测方法，以解决现有的基于机器学习的机场短时出租车客流量预测技术难以准确把握客流需求的动态性、随机性特征和周期性、季节性规律，导致模型预测精度不高的问题；本发明的方法有助于集成不同预测模型以提升到港旅客需求预测精度，提高机场陆侧集疏运系统管理的效率。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种机场到港旅客乘坐出租车短时需求集成预测方法，步骤如下：

(1)采集机场到港旅客乘坐出租车订单数据、机场到港航班数据、机场到港旅客乘坐地铁闸门数据、机场天气报文数据；

(2)将上述步骤(1)中采集到的数据分别处理为机场到港旅客乘坐出租车流量时间序列数据、机场到港旅客下机流量时间序列数据集、机场到港旅客乘坐地铁流量时间序列数据和天气时间序列数据，结合时间特征生成综合时间序列数据集；将得到的机场到港旅客乘坐出租车流量时间序列数据、机场到港旅客下机流量时间序列数据集、机场到港旅客乘坐地铁流量时间序列数据构建为复合流量数据集；

(3)采用K-Means模型对步骤(2)中的复合流量数据集进行无监督聚类，基于复合流量相似性距离进行相似性度量，计算不同类别数下的轮廓系数，选取轮廓系数最大的类别数作为无监督聚类算法的K值，得到K个聚类结果；

(4)针对步骤(3)中的聚类结果对步骤(2)中的综合时间序列数据集进行分类，将每个分类结果划分为训练集和测试集；

(5)建立K个LSTM-Att模型，分别用聚类后第g类别的训练集数据训练第g个LSTM-Att模型，g∈[1,K]，得到K个训练后的LSTM-Att模型；

(6)建立K个XGBoost模型，分别用聚类后第g类别的训练集数据训练第g个XGBoost模型，g∈[1,K]，得到K个训练后的XGBoost模型；

(7)建立K个LightGBM模型，分别用聚类后第g类别的训练集数据训练第g个LightGBM模型，g∈[1,K]，得到K个训练后的LightGBM模型；

(8)建立K个堆叠法集成预测模型，用步骤(5)、步骤(6)、步骤(7)中的第g个模型作为初级学习器，g∈[1,K]，学习不同模型的权重，得到K个训练后的集成预测模型；

(9)基于集成预测模型对K个测试集进行预测。

进一步地，所述步骤(1)中机场到港航班数据包括：机场到港航班机型数据、机场各时间段到港航班架次数据、机场到港航班客座率数据。

进一步地，所述步骤(2)的具体过程如下：

(21)生成机场到港旅客乘坐出租车流量时间序列数据；

对步骤(1)中的机场到港旅客乘坐出租车订单数据进行噪点过滤和时间归属处理，得到机场到港旅客乘坐出租车流量时间序列数据；

(22)生成机场到港旅客下机流量时间序列数据集；

对步骤(1)中的机场到港航班机型数据、机场各时间段到港航班架次数据、机场到港航班客座率数据进行处理，求得机场到港旅客下机数量，求解公式为：

式中，f表示机场到港旅客下机数量，N_i表示第i种机型到港航班数量，S_i表示第i种机型的可用座位数，PLF表示客座率，I表示机型总数；对得到的机场到港旅客下机数量进行时间归属、数据平移处理，求得机场到港旅客下机流量时间序列数据和机场到港旅客前1小时下机流量时间序列数据，两者组合，得到机场到港旅客下机流量时间序列数据集；

(23)生成机场到港旅客乘坐地铁流量时间序列数据；

对步骤(1)中的机场到港旅客乘坐地铁闸门数据进行数据切分和时间归属处理，得到机场到港旅客乘坐地铁流量时间序列数据；

(24)生成天气时间序列数据；

对步骤(1)中的天气报文数据进行数据切分和时间归属处理，得到天气时间序列数据；

(25)生成综合时间序列数据集；

将步骤(21)、步骤(22)、步骤(23)、步骤(24)中生成的数据结合包含月份、日期、星期的时间特征，得到包括机场到港旅客乘坐出租车流量、机场到港旅客下机流量、机场到港旅客乘坐地铁流量、天气和时间特征的综合时间序列数据集；

(26)生成复合流量数据集；

将步骤(21)中得到的机场到港旅客乘坐出租车流量时间序列数据、步骤(22)中得到的机场到港旅客下机流量时间序列数据集、步骤(23)中得到的机场到港旅客乘坐地铁流量时间序列数据构建为复合流量数据集。

进一步地，所述步骤(3)的具体过程如下：

(31)训练K-Means模型；

对步骤(26)中的复合流量数据集进行归一化处理，再进行K-Means聚类，K的初始值为K＝2，定义复合流量相似性距离度量指标，进行不同类别复合流量数据之间的相似性度量，具体公式为：

式中，d_m表示第m个类别内所有对象到类别中心c_m之间的复合流量相似性距离，n表示第m个类别内对象数量，x_tj表示第j个对象的归一化后的机场到港旅客乘坐出租车流量，c_tm表示第m个类别中心的归一化后的机场到港旅客乘坐出租车流量，x_poj表示第j个对象的归一化后的机场到港旅客下机流量，c_pom表示第m个类别中心的归一化后的机场到港旅客下机流量，x_paj表示第j个对象的归一化后的机场到港旅客前1小时下机流量，c_pam表示第m个类别中心的归一化后的机场到港旅客前1小时下机流量，x_sj表示第j个对象的归一化后的机场到港旅客乘坐地铁流量，c_sm表示第m个类别中心的归一化后的机场到港旅客乘坐地铁流量；

(32)计算轮廓系数；

根据步骤(31)中得出的聚类结果计算轮廓系数，轮廓系数计算公式为：

式中，S(j)表示第j个对象的轮廓系数，a(j)表示第j个对象到所属簇中所有其他对象的平均距离，b(j)表示第j个对象到不包含该对象的任意簇的平均距离；

(33)更新K值；

以K＝K+1更新K值；

(34)重复步骤(31)-步骤(33)，直至K值达到设定的最大值；

(35)确认K值；

选取轮廓系数最大的K值作为最终K-Means聚类的K值；

(36)得到聚类结果；

根据步骤(35)确认得到的K值对复合流量数据集进行K-Means聚类，得到复合流量数据的聚类结果。

进一步地，所述步骤(4)具体为：

(41)分类综合时间序列数据集；

根据步骤(3)中的聚类结果，对步骤(25)得到的综合时间序列数据集进行分类，得到K个子综合时间序列数据集；

(42)划分时间序列数据训练集和测试集；

按照8:2的比例将步骤(41)中得到的K个子综合时间序列数据集划分为K组训练集和测试集。

进一步地，所述步骤(5)的具体过程如下：

(51)设定LSTM-Att模型参数；

(511)设定模型输入层参数；

确定单批次训练样本数量和每个样本的输入数据维度；初始化输入层权重和偏差；

(512)设定模型网络层参数；

确定隐含层层数、单层神经元数目和输入信息的时间步长；初始化网络层权重和偏差；激活函数初始选择tanh；

(513)设定模型输出层参数；

确定输出数据维度；初始化输出层权重和偏差；激活函数初始选择sigmoid；

(52)设置LSTM-Att损失函数；

采用均方误差作为模型的损失函数；

(53)设置LSTM-Att优化器；

选择Adam作为模型优化器；

(54)训练并保存LSTM-Att模型；

针对K个不同的时间序列数据训练集重复步骤(51)-步骤(53)，得到并保存K个训练后的LSTM-Att模型(模型E)。

进一步地，所述步骤(6)的具体过程如下：

(61)设定基于XGBoost模型参数；

确定模型学习率、叶节点进行分支所需的损失减少的最小值、L1正则化权重项、L2正则化权重项、树的最大深度、树的数量；弱学习器的类型选择gbtree；确定使用所有数据训练弱学习器；构建弱学习器时，对特征随机采样的比例选择1；学习目标选择线性回归；

(62)设置XGBoost模型损失函数；

采用均方误差作为模型的损失函数；

(63)训练并保存XGBoost模型；

针对K个不同的时间序列数据训练集重复步骤(61)-步骤(62)，得到并保存K个训练后的XGBoost模型(模型F)。

进一步地，所述步骤(7)的具体过程如下：

(71)设定基于LightGBM模型参数；

确定模型学习率、L1正则化权重项、L2正则化权重项、树的最大深度、树的数量、叶子的数量、叶节点样本的最少数量；弱学习器的类型选择gbdt；确定使用所有数据训练弱学习器；构建弱学习器时，对特征随机采样的比例选择1；学习目标选择使用L2正则项的回归模型；

(72)设置LightGBM模型损失函数；

采用均方误差作为模型的损失函数；

(73)训练并保存LightGBM模型；

针对K个不同的时间序列数据训练集重复步骤(71)-步骤(72)，得到并保存K个训练后的LightGBM模型(模型G)。

进一步地，所述步骤(8)的具体过程如下：

(81)确定初级学习器；

将步骤(5)中训练后的LSTM-Att模型(模型E)、步骤(6)中训练后的XGBoost模型(模型F)和步骤(7)中训练后的LightGBM模型(模型G)作为堆叠法集成模型的初级学习器；

(82)构建次级学习器的训练集；

对步骤(81)中的三个初级学习器分别采用k折交叉检验，得到次级学习器的训练集；

(83)确定次级学习器；

采用线性回归作为堆叠法集成模型的次级学习器；

(84)训练并保存堆叠法集成模型；

针对K个不同的时间序列数据训练集重复步骤(81)-步骤(83)，得到并保存K个训练后的堆叠法集成模型(模型H)。

进一步地，所述步骤(9)的具体过程如下：

(91)加载预训练模型；

针对聚类结果为第g类别的测试集数据，g∈[1,K]，加载步骤(5)中训练后的第g个LSTM-Att模型、步骤(6)中训练后的第g个XGBoost模型和步骤(7)中训练后的第g个LightGBM模型和步骤(8)中训练后的第g个堆叠法集成模型；

(92)构建次级学习器的输入集；

基于步骤(82)中的k折交叉检验，运用训练后的第g个LSTM-Att模型、训练后的第g个XGBoost模型和训练后的第g个LightGBM模型对步骤(4)中的测试集数据进行预测，针对每个模型的k组结果分别取平均值，构建为次级学习器的输入集；

(93)求解集成预测模型预测值；

针对K个不同的时间序列数据测试集重复步骤(91)-步骤(92)，对求得的K个次级学习器的输入集，堆叠法集成模型(模型H)进行预测，得到最终预测值。

本发明的有益效果：

本发明通过引入下机流量、其他交通方式流量和历史流量，构建复合流量数据集，定义复合流量相似性距离度量指标，实现基于相似性度量的分类，提高模型预测精度，同时，提出包含多个流量预测模型的集成预测方法，增加了预测模型的泛化能力。

本发明的方法提高了机场到港旅客乘坐出租车需求预测的精度，将有利于机场合理分配陆侧资源，缓解机场陆侧交通压力，完善机场集疏运系统，实现旅客出行便捷高效的建设目标。

附图说明

图1为本发明方法的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种机场到港旅客乘坐出租车短时需求集成预测方法，步骤如下：

其中，所述机场到港航班数据包括：机场到港航班机型数据、机场各时间段到港航班架次数据、机场到港航班客座率数据。

(21)生成机场到港旅客乘坐出租车流量时间序列数据；

(22)生成机场到港旅客下机流量时间序列数据集；

(23)生成机场到港旅客乘坐地铁流量时间序列数据；

(24)生成天气时间序列数据；

(25)生成综合时间序列数据集；

将步骤(21)、步骤(22)、步骤(23)、步骤(24)中生成的数据结合包含月份、日期、星期的时间特征，得到包括机场到港旅客乘坐出租车流量、机场到港旅客下机流量、机场到港旅客乘坐地铁流量、天气和时间特征的综合时间序列数据集；示例如表1；

表1

(26)生成复合流量数据集；

(31)训练K-Means模型；

(32)计算轮廓系数；

(33)更新K值；

以K＝K+1更新K值；

(34)重复步骤(31)-步骤(33)，直至K值达到设定的最大值12；不同K值对应的轮廓系数如表2；

表2

(35)确认K值；

选取轮廓系数最大的K值作为最终K-Means聚类的K值，本实施例中K＝2；

(36)得到聚类结果；

根据步骤(35)确认得到的K＝2对复合流量数据集进行K-Means聚类，即聚为2类，得到复合流量数据的聚类结果。

(41)分类综合时间序列数据集；

根据步骤(3)中的聚类结果，对步骤(25)得到的综合时间序列数据集进行分类，得到2个子综合时间序列数据集；

(42)划分时间序列数据训练集和测试集；

按照8:2的比例将步骤(41)中得到的2个子综合时间序列数据集划分为2组训练集和测试集。

(5)建立2个LSTM-Att模型，分别用聚类后第m类别的训练集数据训练第m个LSTM-Att模型，m∈[1，2]，得到2个训练后的LSTM-Att模型；

所述步骤(5)的具体过程如下：

(51)设定LSTM-Att模型参数；

(511)设定模型输入层参数；

确定第一个LSTM-Att模型单批次训练样本数量为6，每个样本的输入数据维度为[1,18]；

第二个LSTM-Att模型单批次训练样本数量为29，每个样本的输入数据维度为[1,18]；

(512)设定模型网络层参数；

模型包含一个输入层、一个LSTM层、一个Attention层、一个Flatten层以及一个输出层；单层神经元数目为64，输入信息的时间步长为1；激活函数初始选择tanh；

(513)设定模型输出层参数；

确定输出数据维度为1；初始化输出层权重和偏差；激活函数初始选择sigmoid；

(52)设置LSTM-Att损失函数；

采用均方误差作为模型的损失函数；

(53)设置LSTM-Att优化器；

选择Adam作为模型优化器；

(54)训练并保存LSTM-Att模型；

针对2个不同的时间序列数据训练集重复步骤(51)-步骤(53)，得到并保存2个训练后的LSTM-Att模型(模型E)。

(6)建立2个XGBoost模型，分别用聚类后第m类别的训练集数据训练第m个XGBoost模型，m∈[1,2]，得到2个训练后的XGBoost模型；

(61)设定基于XGBoost模型参数；

确定第一个XGBoost模型学习率为0.1、叶节点进行分支所需的损失减少的最小值为0、L1正则化权重项为0、L2正则化权重项为1、树的最大深度为4、树的数量为67；弱学习器的类型选择gbtree；确定使用所有数据训练弱学习器；构建弱学习器时，对特征随机采样的比例选择1；学习目标选择线性回归；

确定第二个XGBoost模型学习率为0.21、叶节点进行分支所需的损失减少的最小值为0、L1正则化权重项为0、L2正则化权重项为1、树的最大深度为3、树的数量为45；弱学习器的类型选择gbtree；确定使用所有数据训练弱学习器；构建弱学习器时，对特征随机采样的比例选择1；学习目标选择线性回归；

(62)设置XGBoost模型损失函数；

采用均方误差作为模型的损失函数；

(63)训练并保存XGBoost模型；

针对2个不同的时间序列数据训练集重复步骤(61)-步骤(62)，得到并保存2个训练后的XGBoost模型(模型F)。

(7)建立2个LightGBM模型，分别用聚类后第m类别的训练集数据训练第m个LightGBM模型，m∈[1,2]，得到2个训练后的LightGBM模型；

(71)设定基于LightGBM模型参数；

确定第一个LightGBM模型学习率为0.09、L1正则化权重项为0、L2正则化权重项为0、树的最大深度不受限制、树的数量为60、叶子的数量为14、叶节点样本的最少数量为20；弱学习器的类型选择gbdt；确定使用所有数据训练弱学习器；构建弱学习器时，对特征随机采样的比例选择1；学习目标选择使用L2正则项的回归模型；

确定第二个LightGBM模型学习率为0.07、L1正则化权重项为0、L2正则化权重项为0、树的最大深度不受限制、树的数量为209、叶子的数量为6、叶节点样本的最少数量为20；弱学习器的类型选择gbdt；确定使用所有数据训练弱学习器；构建弱学习器时，对特征随机采样的比例选择1；学习目标选择使用L2正则项的回归模型；

(72)设置LightGBM模型损失函数；

采用均方误差作为模型的损失函数；

(73)训练并保存LightGBM模型；

针对2个不同的时间序列数据训练集重复步骤(71)-步骤(72)，得到并保存2个训练后的LightGBM模型(模型G)。

(81)确定初级学习器；

(82)构建次级学习器的训练集；

对步骤(81)中的三个初级学习器分别采用5折交叉检验，得到次级学习器的训练集；

(83)确定次级学习器；

采用线性回归作为堆叠法集成模型的次级学习器；

(84)训练并保存堆叠法集成模型；

针对2个不同的时间序列数据训练集重复步骤(81)-步骤(83)，得到并保存2个训练后的堆叠法集成模型(模型H)。

(9)基于集成预测模型对2个测试集进行预测；

(91)加载预训练模型；

(92)构建次级学习器的输入集；

基于步骤(82)中的5折交叉检验，运用训练后的第g个LSTM-Att模型、训练后的第g个XGBoost模型和训练后的第g个LightGBM模型对步骤(4)中的测试集数据进行预测，针对每个模型的5组结果分别取平均值，构建为次级学习器的输入集；

(93)求解集成预测模型预测值；

针对2个不同的时间序列数据测试集重复步骤(91)-步骤(92)，对求得的2个次级学习器的输入集，堆叠法集成模型(模型H)进行预测，得到最终预测值。

(10)评价基于相似性度量的集成模型预测结果；

(101)计算机场到港旅客乘坐出租车短时需求预测精度；

根据步骤(9)得到的最终预测值，计算预测机场到港的出租车旅客流量与实际到港的机场出租车旅客流量的平均绝对误差MAE、均方误差MSE、均方根误差RMSE、R²、平均绝对百分比误差MAPE，将其作为评价指标评价流量预测精度；

(102)不同预测模型精度对比；

模型A：LSTM-Att模型，如下：

针对步骤(25)中的综合时间序列数据集，利用LSTM-Att模型求得预测结果；

模型B：XGBoost预测模型，如下：

针对步骤(25)中的综合时间序列数据集，利用XGBoost预测模型求得预测结果；

模型C：LightGBM预测模型，如下：

针对步骤(25)中的综合时间序列数据集，利用LightGBM预测模型求得预测结果；

模型D：堆叠法集成预测模型，如下：

针对步骤(25)中的时间序列数据集，将模型A、模型B和模型C作为初级学习器，构成堆叠法集成预测模型求得预测结果；

模型E：基于相似性度量的LSTM-Att预测模型；

模型F：基于相似性度量的XGBoost预测模型；

模型G：基于相似性度量的LightGBM预测模型；

模型H：基于相似性度量的堆叠法集成预测模型；

选择模型A、B、C、D、E、F、G作为模型H的对比项；将步骤(25)中的综合时间序列数据集，以8:2的比例分割作为训练集和测试集，以训练集训练模型A、B、C、D、E、F、G、H并利用测试集测试，为防止偶然性，引入随机种子对步骤(4)中的训练集测试集进行5次随机划分，以5次平均值作为最终结果；进行流量预测结果的精度对比，评价机场到港的出租车旅客需求预测结果。如表3不同模型的各项精度数据对比所示，本发明提出的方法相比不进行基于相似性度量的分类、不进行集成预测和不进行相似性度量的分类直接集成预测的模型，在面向到港旅客乘坐出租车需求预测方面具有优异的性能；

表3

	MAE	MSE	RMSE	R<sup>2</sup>	MAPE
						模型A	34.70	2357.74	48.51	0.7789	5.1728
模型B	27.64	1561.26	39.49	0.8534	2.0177
						模型C	27.10	1487.76	38.54	0.8603	2.5907
模型D	25.53	1380.30	37.10	0.8706	1.9048
						模型E	34.74	2400.74	48.97	0.7598	2.3346
模型F	25.00	1277.90	35.72	0.8722	1.1018
						模型G	24.53	1211.55	34.79	0.8787	1.1619
模型H	24.31	1195.04	34.55	0.8804	1.0107

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，步骤如下：

(8)建立K个堆叠法集成预测模型，用步骤(5)、步骤(6)、步骤(7)中的第g个模型作为初级学习器，g∈[1,K]，学习不同模型的权重，得到K个训练后的堆叠法集成预测模型；

(9)基于集成预测模型对K个测试集进行预测。

2.根据权利要求1所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(1)中机场到港航班数据包括：机场到港航班机型数据、机场各时间段到港航班架次数据、机场到港航班客座率数据。

3.根据权利要求2所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(2)的具体过程如下：

(21)生成机场到港旅客乘坐出租车流量时间序列数据；

(22)生成机场到港旅客下机流量时间序列数据集；

(23)生成机场到港旅客乘坐地铁流量时间序列数据；

(24)生成天气时间序列数据；

(25)生成综合时间序列数据集；

(26)生成复合流量数据集；

4.根据权利要求3所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(3)的具体过程如下：

(31)训练K-Means模型；

(32)计算轮廓系数；

(33)更新K值；

以K＝K+1更新K值；

(34)重复步骤(31)-步骤(33)，直至K值达到设定的最大值；

(35)确认K值；

选取轮廓系数最大的K值作为最终K-Means聚类的K值；

(36)得到聚类结果；

5.根据权利要求4所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(4)具体为：

(41)分类综合时间序列数据集；

(42)划分时间序列数据训练集和测试集；

6.根据权利要求5所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(5)的具体过程如下：

(51)设定LSTM-Att模型参数；

(511)设定模型输入层参数；

(512)设定模型网络层参数；

(513)设定模型输出层参数；

(52)设置LSTM-Att损失函数；

采用均方误差作为模型的损失函数；

(53)设置LSTM-Att优化器；

选择Adam作为模型优化器；

(54)训练并保存LSTM-Att模型；

针对K个不同的时间序列数据训练集重复步骤(51)-步骤(53)，得到并保存K个训练后的LSTM-Att模型。

7.根据权利要求6所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(6)的具体过程如下：

(61)设定基于XGBoost模型参数；

(62)设置XGBoost模型损失函数；

采用均方误差作为模型的损失函数；

(63)训练并保存XGBoost模型；

针对K个不同的时间序列数据训练集重复步骤(61)-步骤(62)，得到并保存K个训练后的XGBoost模型。

8.根据权利要求7所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(7)的具体过程如下：

(71)设定基于LightGBM模型参数；

(72)设置LightGBM模型损失函数；

采用均方误差作为模型的损失函数；

(73)训练并保存LightGBM模型；

针对K个不同的时间序列数据训练集重复步骤(71)-步骤(72)，得到并保存K个训练后的LightGBM模型。

9.根据权利要求8所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(8)的具体过程如下：

(81)确定初级学习器；

将步骤(5)中训练后的LSTM-Att模型、步骤(6)中训练后的XGBoost模型和步骤(7)中训练后的LightGBM模型作为堆叠法集成模型的初级学习器；

(82)构建次级学习器的训练集；

(83)确定次级学习器；

采用线性回归作为堆叠法集成模型的次级学习器；

(84)训练并保存堆叠法集成模型；

针对K个不同的时间序列数据训练集重复步骤(81)-步骤(83)，得到并保存K个训练后的堆叠法集成模型。

10.根据权利要求9所述的机场到港旅客乘坐出租车短时需求集成预测方法，其特征在于，所述步骤(9)的具体过程如下：

(91)加载预训练模型；

(92)构建次级学习器的输入集；

(93)求解集成预测模型预测值；

针对K个不同的时间序列数据测试集重复步骤(91)-步骤(92)，对求得的K个次级学习器的输入集，堆叠法集成模型进行预测，得到最终预测值。