CN115358491A

CN115358491A - 一种基于ceemdan-lstm的地铁客流预测方法及系统

Info

Publication number: CN115358491A
Application number: CN202211278952.0A
Authority: CN
Inventors: 徐宏伟; 梁奕; 费洋; 丁志燕; 刘鹏宇; 陆艮峰; 林晓
Original assignee: Nari Rail Transit Technology Co ltd
Current assignee: Nari Rail Transit Technology Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-11-18

Abstract

本发明公开了一种基于CEEMDAN‑LSTM的地铁客流预测方法及系统，根据采集到的历史数据，通过CEEMDAN算法将可分解数据集分解成K个IMF分量数据集，每个IMF分量数据集与关联数据融合成可训练数据集，通过可训练数据集训练构建的LSTM神经网络模型得到K个IMF分量的LSTM训练模型；通过Tensorflow serving将K个IMF分量的LSTM训练模型进行部署，通过将待预测的实时数据输入至LSTM完整模型得到预测结果。本发明采用CEEMDAN对关注数据进行分解提取更多数据特征，融合其它空间特征数据，从时空多维度、全方位对预测模型构建、优化、更新，提高了预测精度。

Description

一种基于CEEMDAN-LSTM的地铁客流预测方法及系统

技术领域

本发明涉及一种地铁客流预测方法，尤其涉及一种基于CEEMDAN-LSTM的地铁客流预测方法及系统。

背景技术

随着城市规模的发展以及人口增多，城市拥堵越来越突出，而城市轨道交通地铁具有载运量大、准时、方便快捷等特点，得到快速发展，目前众多城市轨道交通系统已经实现网络化运营，短时客流对居民出行、地铁运营、列车运行组织起到至关重要的影响。通过对未来一段时间的地铁客流精准预测，城市轨道交通可以为居民提供实时可靠的数据，居民根据系统提供的数据和自身情况，对出行计划和路线做出及时调整；还能为地铁运营人员组织优化运营以及提供客流疏导、合理安排人员、优化线网运力配置、制定车站客流组织与疏散方案、优化列车行车间隔等提供数据支撑，不断提高城市轨道交通运营水平。

地铁客流具有明显周期性、工作日的早晚高峰与平峰时差异大、客流受室外温度和室外天气影响较大、节假日特征明显等鲜明特点，它的非平稳性、随机性给单一预测手段带来极大挑战，单一算法很难覆盖地铁客流的所有特征，预测精度低则失去了客流指导其它工作的意义。

当前地铁短时客流预测主要集中于算法的选择与优化以及时域分析上，忽略了客流时间依赖性、空间关联性与外部随机噪声的影响，没能从客流信号和相关维度提取足够多的特征使得预测模型精度较低。然而客流预测模型输入属性的质量直接影响模型精度，输入属性过少或者不当，特征涵盖不完整，则预测精度偏低，输入属性太多，使得模型太复杂，出现梯度爆炸，训练时间太长，造成计算资源浪费或者出现无法求解等问题。

发明内容

发明目的：针对以上问题，本发明提出一种基于CEEMDAN-LSTM的地铁客流预测方法及系统，能够明显提高预测精度，并通过部署应用形成了一套完整客流预测系统。

技术方案：本发明所采用的技术方案是一种基于CEEMDAN-LSTM的地铁客流预测方法，CEEMDAN为完全自适应噪声辅助聚合经验模态分解（Complete Ensemble EmpiricalMode Decomposition with Adaptive Noise）；LSTM为长短记忆神经网络（Long ShortTerm Memory）；该方法包括：

（1）根据采集到的进站客流、出站客流、站厅温度、站厅湿度、站台温度、站台湿度、室外温度、室外湿度、站厅CO₂浓度以及站台CO₂浓度的历史数据，构建原始时间序列；对原始时间序列进行相关性分析，得到进站客流时间序列的相关特征序列；其中，所述的构建原始时间序列为：

其中df为构建的原始时间序列，I _p为进站客流，O _p为出站客流，T _h为站厅温度，H _h为站厅湿度，T _p为站台温度，H _p为站台湿度，C _h为站厅CO₂浓度，C _p为站台CO₂浓度，T _o为室外温度，H _o为室外湿度。

在对原始时间序列进行相关性分析之前，还包括数据预处理，所述数据预处理是对所述原始时间序列进行序列有效性检验、平稳性检测、异常值检测及填充。

进一步的，所述的序列有效性检验，包括数据类型检验、时间顺序检验、重复性检验和时间频率检验；通过检测了解数据特征，修正或删去无效数据；

所述的平稳性检验，是通过ADF检验算法，检测时间序列是否存在单位根；如果不存在单位根，则序列稳定；否则，序列不稳定，对于不稳定的序列需要通过取对数或差分运算以减少序列的不稳定性对模型的影响；通过检验删去不稳定的序列。进一步的，ADF检验算法包括：

a)无漂移项自回归过程：

b)带漂移项自回归过程：

c)带漂移项和趋势项自回归过程：

其中，

为

时刻的进站客流，

为常量系数，

为

时刻的进站客流，

为选择时间点之前的

个时间点，

为前后两个时刻进站客流偏差系数，

为

与

的差分，

为常数项，

为时间趋势项，

为随机扰动项。这三个过程是并列的，分别检测序列属于哪个过程。

所述的异常值检测及填充，包括：空值检测、箱线图异常点检测、孤立森林异常点检测、ARIMA自回归差分移动平均异常检测；所有检测出的异常点采用抽取的相同时间段正常数据随机填充；

所述相关性分析，是通过计算各数据与闸机进站客流的相关性，去除相关性小及负相关的分量。

（2）将所述进站客流时间序列作为可分解数据集，同时间的相关特征序列作为关联数据集，通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，每个IMF分量数据集与所述关联数据集融合成K个可训练数据集；其中，所述的每个IMF分量数据集与所述关联数据集融合成K个可训练数据集，是指将进站客流时间序列

经过CEEMDAN分解得到IMF序列中的每个IMF分量数据集分别与所述关联数据集合并。

所述的通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，包括：

（21）将高斯白噪声加入到待分解信号，并进行EMD分解，得到一阶本征模态分量：

式中，

代表EMD分解，

为随时间变化的进站客流，

为自然数，

为满足标准正态分布的高斯白噪声信号，

为加入白噪声的次数，

为白噪声的标准差；

为第一阶本征模态分量，

为原始序列加入白噪声后上下包络的平均值；

（22）对产生的

个模态分量进行总体平均得到CEEMDAN分解的第一个本征模态分量：

式中，

为CEEMDAN分解得到的第一个本征模态分量；

（23）计算去除第一个本征模态分量后的残差：

式中，

为第一个残差；

（24）在

中加入正负成对高斯白噪声，并进行EMD分解，得到一阶模态分量，由此得到CEEMDAN分解的第二个本征模态分量：

式中，

为经过两次EMD分解的模态分量；

（25）计算去除第二个本征模态分量后的残差：

（26）重复上述步骤（24）~（55），直到获得的残差信号为单调函数，不能继续分解，算法结束；得到的本征模态分量数量为

，则原始信号

被分解为：

原始信号

经过CEEMDAN分解得到IMF序列记为：

式中，

为IMF序列，

表示K个分量。

（3）通过所述可训练数据集训练LSTM神经网络模型，得到K个IMF分量对应的K个LSTM训练模型，包括以下步骤：

（31）将可训练数据集中每个序列进行归一化，采用的归一化算法如下：

式中

为需要归一化的序列；

、

为

的最小值与最大值；

为

的标准差；

为

的归一化后的序列；

、

为归一化范围；

（32）将归一化后的可训练数据集中序列按滑动窗口

切分成训练集、验证集、测试集；

（33）构建LSTM网络，LSTM网络由输入层、隐层、输出层组成；其中输入层的数据形状为

，

为样本个数，

为输入数据维数，

为输出数据维数；滑动窗口、神经元个数、激活函数、优化函数、隐层单元个数、LSTM层个数作为超参，自动优化模型，获取最优参数组合的模型；

（34）采用平均绝对误差进行模型评估以训练LSTM模型，所述平均绝对误差计算式为：

式中，MAE为平均绝对误差，

为实际值即进站客流，

为进站客流的预测值，

为预测进站客流的个数；

由可训练数据集训练后产生的模型记为：

式中，

表示进站客流经过CEEMDAN分解后K个IMF分量序列分别与相关序列形成的K个训练序列通过LSTM序列训练的K个模型。

（4）对采集得到的待预测数据进行处理，得到K个待预测的序列，分别输入至K个IMF分量对应的LSTM模型，然后将K个模型的预测结果合并得到最终预测结果；对采集得到的待预测数据进行处理包括：待预测进站客流数据通过CEEMDAN算法分解获得K个IMF分量，K个IMF分量分别与同一时间相关特征序列融合得到K个待预测的序列。

本发明还提出一种基于CEEMDAN-LSTM的地铁客流预测系统，该系统包括：数据存储模块，用于存储进站客流、出站客流、站厅温度、站厅湿度、站台温度、站台湿度、室外温度、室外湿度、站厅CO₂浓度以及站台CO₂浓度的历史数据；客流预测模块，用于根据历史数据的原始时间序列进行相关性分析，得到进站客流时间序列的相关特征序列；将所述进站客流时间序列作为可分解数据集，所述相关特征序列作为关联数据集，通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，每个IMF分量数据集与所述关联数据集融合成可训练数据集；通过所述可训练数据集训练LSTM神经网络模型，得到K个IMF分量对应的K个LSTM训练模型；对采集得到的待预测数据进行处理，得到K个待预测的序列，分别输入至K个IMF分量对应的LSTM模型，然后将K个模型的预测结果合并得到最终预测结果；所述对采集得到的待预测数据进行处理包括：待预测进站客流数据通过CEEMDAN算法分解获得K个IMF分量，K个IMF分量分别与同一时间相关特征序列融合得到K个待预测的序列。

所述客流预测模块通过Tensorflow Serving框架部署到服务器上，包括以下步骤：

（1）通过docker安装Tensorflow serving服务；

（2）配置部署模型及启动服务；

（3）通过http协议发送待预测数据，待预测数据经预测模型得到最终预测结果；

（4）根据实时数据和预测结果，通过评估函数定期自动更新预测模型。

有益效果：相比现有技术，本发明具有以下优点：采用CEEMDAN和LSTM结合的融合算法，CEEMDAN对进站客流进行模态分解有效提取数据信号特征，去除不同频率分量对原始信号的影响；同时采用多维度结合IMF分量分别建立LSTM训练模型，将每个IMF分量预测结果合成最终客流预测数据，使模型预测精度得到有效提升。同时，本发明还采用多种检测手段对原始数据进行预处理，提升了数据质量。本发明采用模型训练与模型部署分离方式，展现了系统的灵活性、扩展性与实时性。

附图说明

图1是本发明所述的基于CEEMDAN-LSTM的地铁客流预测方法的流程图；

图2是数据EMD流程图；

图3是本发明所述的基于CEEMDAN-LSTM的地铁客流预测方法中数据CEEMDAN流程图；

图4是本发明所述的基于CEEMDAN-LSTM的地铁客流预测方法中LSTM结构框图。

具体实施方式

下面结合附图对本发明作进一步描述。

实施例1

本发明所述的基于CEEMDAN-LSTM的地铁客流预测方法，主要针对轨道交通地铁短时客流进行建模、部署、预测，其流程如图1所示，包括以下步骤：

步骤1，根据采集到的闸机进出站客流、站厅温湿度、站台温湿度、室外温湿度、站厅CO₂浓度、站台CO₂浓度历史数据，分别分类成30分钟、60分钟、1小时的时间序列组；对时间序列进行数据预处理，下面以1小时时间序列为例叙述数据处理过程（即数据清洗）。

数据预处理是对所述原始时间序列进行序列有效性检验、平稳性检测、异常值检测及填充。

序列有效性检验，包括数据类型检验、时间顺序检验、重复性检验和时间频率检验；通过检测了解数据特征，修正或删去无效数据；

平稳性检验，是通过ADF检验算法，检测时间序列是否存在单位根；如果不存在单位根，则序列稳定；否则，序列不稳定，对于不稳定的序列需要通过取对数或差分运算以减少序列的不稳定性对模型的影响；通过检验删去不稳定的序列。ADF（Augmented Dickey-Fuller）检验算法包括以下几个内容：

a)无漂移项自回归过程：

b)带漂移项自回归过程：

c)带漂移项和趋势项自回归过程：

其中，

为

时刻的进站客流，

为常量系数，

为

时刻的进站客流，

为选择时间点之前的

个时间点，

为前后两个时刻进站客流偏差系数，

为

与

的差分，

为常数项，

为时间趋势项，

为随机扰动项。

异常值检测及填充，包括：空值检测、箱线图异常点检测、孤立森林异常点检测、ARIMA自回归差分移动平均异常检测；所有检测出的异常点采用抽取的相同时间段正常数据随机填充；

通过对时间序列组进行序列有效性检验、平稳性检测、异常值检测及填充、相关性分析等数据清洗，得到高质量的数据集。

对原始时间序列的每个类型进行清洗后得到的时间序列记为：

，对

进行相关性分析，去除相关性小或负相关的分量：经分析得到进站客流对站厅与站台温湿度，站厅CO₂影响很小，即去除

，

，

，

，

后赋值给

。

在预测过程中，除

以外的序列为同一时间相关特征序列，即

。

步骤2，将所述进站客流时间序列作为可分解数据集，所述相关特征序列作为关联数据集，通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，每个IMF分量数据集与所述关联数据集融合成K个可训练数据集。

将

分成

可分解和

不可分解序列，可分解序列作为可分解数据集，不可分解序列作为关联数据集，对

进行CEEMDAN分解。

式中，

为进站客流，待分解的目标序列，预测的目标即为闸机进站客流。

下面详细说明本发明所述的CEEMDAN算法。

设

为经过EMD分解后得到的第

个本征模态分量，CEEMDAN分解得到的第

个本征模态分量为

为满足标准正态分布的高斯白噪声信号，

为加入白噪声的次数，

为白噪声的标准差表，

为待分解信号。则CEEMDAN分解过程如图3所示，包括：

(1)将高斯白噪声加入到待分解信号

得到新信号

,其中

，对新信号进行EMD分解，得到第一阶本征模态分量

。

(2)对产生的N个模态分量进行总体平均得到CEEMDAN分解的第一个本征模态分量：

(3)计算去除第一个模态分量后的残差：

(4)在

中加入正负成对高斯白噪声得到新信号，以新信号为载体进行EMD分解，得到第一阶模态分量

，由此可以得到CEEMDAN分解的第二个本征模态分量：

(5)计算去除第二个模态分量后的残差：

(6)重复上述步骤，直到获得的残差信号为单调函数，不能继续分解，算法结束。此时得到的本征模态分量数量为

，则原始信号

被分解为：

其中，EMD算法分解的目的是将一个信号

分解为

个固有模态函数（Intrinsic Mode Function, IMF）和一个残差。其中，每个IMF需要满足以下两个条件：(a)在整个数据范围内，局部极值点和过零点的数目必须相等或相差数目最多为1；(b)在任意时刻，局部最大值的包络和局部最小值的包络的平均值必须为零。

EMD的计算原理包括三个部分：

(1)找到原始信号

的所有极大值点，通过三次样条函数拟合出极大值包络线

；同理，找到原始信号

的所有极小值点，通过三次样条函数拟合出信号的极小值包络线

；

(2)计算上、下包络的平均值

：

(3)将原始信号序列减去

就得到一个去掉低频的新信号

：

一般

不是一个平稳信号，不满足IMF定义的两个条件，重复上述过程，假定经过

次之后

满足IMF的定义，则原始信号

的一阶IMF分量为：

用原始信号

减去

，得到一个去掉高频成分的新信号

：

对

重复得到

的过程，得到第二个IMF分量

，如此重复这一过程直到第

阶IMF分量

或其余量

小于预设值；或当残余分量

是单调函数或常量时，EMD分解过程停止。

EMD分解流程如图2所示，包括以下步骤：

(1)初始化：

；

(2)得到第

个IMF：

(a)初始化：

；

(b)找出

的局部极值点；

(c)对

的极大和极小值点分别进行三次样条函数插值，形成上下包络线；

(d)计算上下包络线的平均值

；

(e)

；

(f)若

是IMF函数，则

；否则，

，转到（b）；

(3)

；

(4)如果

极值点数仍多于2个，则

，转到（2）；否则，分解结束，

是残余分量。算法最后可得：

；

根据CEEMDAN算法处理过程对原始闸机进站客流进行分解处理，原始信号

经过CEEMDAN分解得到IMF序列记为：

将

每个分量序列分别与

进行合并形成可训练的序列记为

：

步骤3，根据闸机进站客流经过分解后的每个分量信号序列分别与同时间的相关特征序列合并形成LSTM模型训练的输入序列，单独的每个分量序列分别作为LSTM模型训练的输出，从而进行LSTM模型构建及训练，具体过程包括：

(1)将

中每个序列进行归一化，以减少数据波动对训练模型的影响。采用的归一化算法如下：

式中，

为需要归一化的序列；

、

为

的最小值与最大值；

为

的标准差；

为

的归一化后的序列；

、

为归一化范围，这里取0和1。

归一化后记为：

。

(2)将

按滑动窗口

切分成训练集、验证集、测试集分别记为：

、

、

。滑动窗口

为以

长度依次在时间序列上移动获取训练样本的方法即每

个时间序列预测一个输出。

(3)构建LSTM网络，LSTM由输入层、隐层、输出层组成，它在隐含层中增加了记忆模块，从而可以使得LSTM可以记忆更多的历史信息。在记忆模块中包含由三个门：输入门、遗忘门、输出门。通过这些门，它可以决定哪些信息会被保存，哪些信息会被遗弃，保证了LSTM能更好记住历史信息中有用的部分，其结构如图4所示，包括：

遗忘门。遗忘门可以通过读取上一层隐含层的输出h _t-1以及当前时刻输入x _t来决定哪些信息会被保留，哪些信息会被遗忘。

)

输入门。输入门确定将哪些信息保存到细胞状态Cell中，它通过

函数确定输入量并通过

函数确定输入到新Cell状态c _t中的向量。

输出门。输出门通过

函数确定输出部分，并由

函数对细胞状态c _t处理后与其相乘确定输出。

其中f、i、g、c、o分别代表遗忘门、输入门、备选的用来更新的细胞状态、更新后的细胞状态和输出门的特征变量，W代表对用权重，b为偏执，σ和

分别代表

和

激活函数。

输入层的数据形状为

，

为样本个数，

为输入数据维数，

输出数据维数；

滑动窗口、神经元个数、激活函数、优化函数、隐层单元个数、LSTM层个数作为超参，自动优化模型，最终获取最优参数组合的模型进行保存部署。

模型学习率最小为

，根据模型训练过程自动调整学习率以便达到收敛速度和学习效果的平衡。

批次大小

，这个根据训练机器性能适当调整。

训练次数

，模型根据样本数据量自动计算实际

大小，最大不超过上限值。

(4)训练评估LSTM模型。

采用

平均绝对误差进行模型评估：

式中，MAE为平均绝对误差，

为实际值即进站客流，

为进站客流的预测值，

为预测进站客流的个数；

(5)保存训练模型。

根据

数据特征训练后产生的模型记为：

步骤4，对采集得到的待预测数据进行处理，得到K个待预测的序列，分别输入至K个IMF分量对应的LSTM模型，然后将K个模型的预测结果合并得到最终预测结果；对采集得到的待预测数据进行处理包括：待预测进站客流数据通过CEEMDAN算法分解获得K个IMF分量，K个IMF分量分别与同一时间相关特征序列融合得到K个待预测的序列。

本方法采用多种检测手段对原始数据进行预处理，提升了数据质量；采用CEEMDAN对进站客流进行模态分解有效提取数据信号特征，去除不同频率分量对原始信号的影响；同时采用多维度结合IMF分量分别建立LSTM训练模型，将每个IMF分量预测结果合成最终客流预测数据，模型预测精度得到有效提升。本发明采用模型训练与模型部署分离方式，展现了系统的灵活性、扩展性与实时性。模型可以根据历史数据的积累，定时自动训练模型，如果有更优模型则使用新模型进行预测，这就能做到自动学习，主动寻优，随着数据的积累预测会更精准高效。本预测系统能够根据历史数据的时间颗粒度提供15分钟、30分钟、60分钟预测模型，以满足不同运营场景需求；将模型训练与预测分开方便了系统部署，提高了系统的实时性、灵活性、实用性。

实施例2

本发明基于上述方法提出基于CEEMDAN-LSTM的地铁客流预测系统，包括数据存储模块和客流预测模块。具体的，数据存储模块包括城市轨道交通综合监控历史存储服务器，客流预测模块包括模型训练服务器和模型部署服务器，模型训练服务器通过数据库接口从存储服务器上获取数据进行清洗、建模训练，然后将训练好的模型部署到模型部署服务器上，通过模型部署服务器获取待预测的数据给出预测结果，同时将预测结果写入存储服务器。

将训练好的模型

通过Tensorflow Serving框架进行部署包含：

(1)通过docker安装tensorflow serving服务。

(2)配置部署模型及启动服务。

(3)通过http协议发送需在线预测的数据，待预测数据经过数据清洗、数据归一化、进站数据CEEMDAN分解、分解数据与相关特征序列融合成待预测序列、分别输入IMF分量预测模型、合并各个IMF分量模型的预测结果得到

、

通过反归一化运算到实时获取预测结果

。

其中，

为IMF模型个数，

为每个IMF模型预测输出，

为IMF模型预测输出融合结果；

其中，

为模型训练时最大进站客流，

为模型训练是最小进站客流，

为IMF模型预测输出融合结果，

为最终预测输出结果。

(4)根据实时数据和预测结果的积累，可根据评估函数或定期自动更新模型，不断优化以提高预测精度，为地铁组织运营提供强有力的支撑。

Claims

1.一种基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，包括以下步骤：

（1）根据进站客流、出站客流、站厅温度、站厅湿度、站台温度、站台湿度、室外温度、室外湿度、站厅CO₂浓度以及站台CO₂浓度的历史数据，构建原始时间序列；对原始时间序列进行相关性分析，得到进站客流时间序列的相关特征序列；

（2）将所述进站客流时间序列作为可分解数据集，同时间的相关特征序列作为关联数据集，通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，每个IMF分量数据集与所述关联数据集融合成K个可训练数据集；

（3）通过所述可训练数据集训练LSTM神经网络模型，得到K个IMF分量对应的K个LSTM训练模型；

（4）对采集得到的待预测数据进行处理，得到K个待预测的序列，分别输入至K个IMF分量对应的LSTM模型，然后将K个模型的预测结果合并得到最终预测结果；所述对采集得到的待预测数据进行处理包括：待预测进站客流数据通过CEEMDAN算法分解获得K个IMF分量，K个IMF分量分别与同一时间相关特征序列融合得到K个待预测的序列。

2.根据权利要求1所述的基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，所述的构建原始时间序列为：

其中

为构建的原始时间序列，I _p为进站客流，O _p为出站客流，T _h为站厅温度，H _h为站厅湿度，T _p为站台温度，H _p为站台湿度，C _h为站厅CO₂浓度，C _p为站台CO₂浓度，T _o为室外温度，H _o为室外湿度；

3.根据权利要求2所述的基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，所述的序列有效性检验，包括数据类型检验、时间顺序检验、重复性检验和时间频率检验，通过检测修正或删除无效数据；

所述的平稳性检验，是通过ADF检验算法，检测时间序列是否存在单位根；如果不存在单位根，则序列稳定；否则，序列不稳定，对于不稳定的序列通过对数据取对数或差分运算；通过检验删去无法修正的不稳定的序列；

所述相关性分析，是通过计算各数据类型与进站客流的相关性，去除相关性小及负相关的数据类型。

4.根据权利要求3所述的基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，所述ADF检验算法包括以下内容：

无漂移项自回归过程：

带漂移项自回归过程：

带漂移项和趋势项自回归过程：

其中，

为

时刻的进站客流，

为常量系数，

为

时刻的进站客流，

为选择时间点之前的

个时间点，

为前后两个时刻进站客流偏差系数，

为

与

的差分，

为常数项，

为时间趋势项，

为随机扰动项。

5.根据权利要求1所述的基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，所述的通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，包括：

式中，

代表EMD分解，

为随时间变化的进站客流，

为自然数，

为满足标准正态分布的高斯白噪声信号，

，

为模态分量个数，

为白噪声的标准差；

为一阶本征模态分量，

为原始序列加入白噪声后上下包络的平均值；

（22）对产生的

式中，

为CEEMDAN分解得到的第一个本征模态分量；

（23）计算去除第一个本征模态分量后的残差：

式中，

为第一个残差；

（24）在

中加入正负成对高斯白噪声，并进行EMD分解，得到CEEMDAN分解的第二个本征模态分量：

式中，

为经过两次EMD分解的模态分量；

（25）计算去除第二个本征模态分量后的残差：

（26）重复上述步骤（24）~（25），直到获得的残差信号为单调函数，不能继续分解，算法结束；则进站客流时间序列经过CEEMDAN分解得到IMF序列记为：

式中，

为

序列，

表示K个分量。

6.根据权利要求1所述的基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，所述的每个IMF分量数据集与所述关联数据集融合成K个可训练数据集，是指将进站客流时间序列经过CEEMDAN分解得到IMF序列中的每个IMF分量数据集分别与所述关联数据集合并。

7.根据权利要求1所述的基于CEEMDAN-LSTM的地铁客流预测方法，其特征在于，所述步骤（3）包括以下步骤：

（31）将每个可训练数据集中的序列进行归一化，采用的归一化算法如下：

式中

为归一化前的序列；

、

为

的最小值与最大值；

为

的标准差；

为归一化后的序列；

、

为归一化范围；

（32）将归一化后的序列按滑动窗口算法切分成训练集、验证集、测试集；

（33）构建LSTM网络，LSTM网络包括输入层、隐层、输出层；其中输入层的数据包括样本个数、输入数据维数和输出数据维数；滑动窗口、神经元个数、激活函数、优化函数、隐层单元个数、LSTM层个数作为超参，通过优化获取最优参数组合的模型；

（34）采用平均绝对误差进行LSTM模型评估，所述平均绝对误差计算式为：

式中，MAE为平均绝对误差，

为进站客流实际值，

为进站客流的预测值，

为预测进站客流的个数。

8.一种基于CEEMDAN-LSTM的地铁客流预测系统，其特征在于，该系统包括：

数据存储模块，用于存储进站客流、出站客流、站厅温度、站厅湿度、站台温度、站台湿度、室外温度、室外湿度、站厅CO₂浓度以及站台CO₂浓度的历史数据；

客流预测模块，用于根据历史数据的原始时间序列进行相关性分析，得到进站客流时间序列的相关特征序列；将所述进站客流时间序列作为可分解数据集，所述相关特征序列作为关联数据集，通过CEEMDAN算法将所述可分解数据集分解成K个IMF分量数据集，每个IMF分量数据集与所述关联数据集融合成可训练数据集；通过所述可训练数据集训练LSTM神经网络模型，得到K个IMF分量对应的K个LSTM训练模型；对采集得到的待预测数据进行处理，得到K个待预测的序列，分别输入至K个IMF分量对应的LSTM模型，然后将K个模型的预测结果合并得到最终预测结果；所述对采集得到的待预测数据进行处理包括：待预测进站客流数据通过CEEMDAN算法分解获得K个IMF分量，K个IMF分量分别与同一时间相关特征序列融合得到K个待预测的序列。

9.根据权利要求8所述的基于CEEMDAN-LSTM的地铁客流预测系统，其特征在于，所述客流预测模块通过Tensorflow Serving框架部署到服务器上，包括以下步骤：

（1）通过docker安装tensorflow serving服务；

（2）配置部署模型及启动服务；