CN116468324B

CN116468324B - 一种数据驱动的交通枢纽到达客流量分解-集成预测方法

Info

Publication number: CN116468324B
Application number: CN202310452587.9A
Authority: CN
Inventors: 李想; 金坤
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2024-01-05
Anticipated expiration: 2043-04-25
Also published as: CN116468324A

Abstract

本发明公开了一种数据驱动的交通枢纽到达客流量分解‑集成预测方法，包括以下步骤：S1、数据收集和预处理：收集大型交通枢纽的到达客流量数据，对时间序列分别执行特征工程和特性分析；S2、时间序列分解：分解步骤S1处理好的时间序列数据，得到确定数目的本征模态函数；S3、子序列分类：计算每个本征模态函数的复杂度并进行分类；S4、子序列集成：根据不同类别选择携带不同核函数的支持向量回归预测算法，最后累加各本征模态函数的预测结果；S5、重复执行步骤S2‑S4。本发明采用上述的一种数据驱动的交通枢纽到达客流量分解‑集成预测方法，可以精确地预测未来24小时大型交通枢纽到达客流量，提前一天为交通部门疏散乘客提供可靠的决策依据。

Description

一种数据驱动的交通枢纽到达客流量分解-集成预测方法

技术领域

本发明涉及交通需求预测技术领域，尤其是涉及一种数据驱动的交通枢纽到达客流量分解-集成预测方法。

背景技术

城市客运枢纽是旅客集散的中心，在客运交通运输过程中发挥着组织、协调、服务的重要作用。交通枢纽旅客的激增和滞留，不仅给人民群众的出行带来不便，同时存在重大安全隐患。有效的客流预测可以为交通部门疏散乘客提供可靠的决策依据，是制定疏散计划、保障旅客安全、便捷出行的重要手段。

目前，对于交通枢纽旅客乘车需求规律和需求预测的相关研究较少，行业主管部门及相关企业主要凭借经验部署城市客运枢纽的运力调度工作，存在保障不精准、调运不及时等问题。为了有效治理城市客运枢纽客流激增现象，提高车辆调度效率，迫切需要对到站客流进行精准预测。

发明内容

本发明的目的是提供一种数据驱动的交通枢纽到达客流量分解-集成预测方法，可以精确地预测未来24小时大型交通枢纽到达客流量，提前一天为交通部门疏散乘客提供可靠的决策依据。

为实现上述目的，本发明提供了一种数据驱动的交通枢纽到达客流量分解-集成预测方法，包括以下步骤：

S1、数据收集和预处理：按小时收集大型交通枢纽的到达客流量数据，共包括24个数据集，对这24条时间序列分别执行特征工程和特性分析；

S2、时间序列分解：基于变分模态分解方法分解步骤S1处理好的时间序列数据，得到确定数目的本征模态函数；通过分解，将非平稳的原始时间序列分解成多个平稳的子时间序列；

S3、子序列分类：用样本熵方法计算每个本征模态函数的复杂度，将确定数目的本征模态函数根据样本熵值大小，将频率和幅度不同的本征模态函数分为低频高幅、中频中幅、高频低幅三类；

S4、子序列集成：根据每类本征模态函数特性选择携带不同核函数的支持向量回归预测算法，其中低频高幅类本征模态函数选择线性核函数、中频中幅类本征模态函数选择高斯核函数、高频低幅类本征模态函数选择小波核函数，最后累加各本征模态函数的预测结果；

S5、重复执行步骤S2-S4。

优选的，在步骤S1中，特征工程包括最小最大值归一化处理、线性插值方法填补缺失值、Hampel识别器处理异常值；在特征工程的基础上，开展数据特性分析，包括自相关系数检验平稳性和奇异谱分析去除噪声，具体如下：

特征工程中最小最大值归一化处理的实现为：将原始数据x转换到[0，1]范围x^*，记x_min和x_max分别是x序列中的最小值和最大值，归一化公式如下：

特征工程中线性插值方法填补缺失值的实现为：针对连续缺失数据为两个及以下的情况，取值为前两周同一星期数值的均值；针对连续缺失数据为两个以上的情况，采用线性插值方法对数据缺失值进行填补；假设在连续时间段内检测到缺失值，x₀表示在时间段i＝0时记录的数据值，x_I+1表示在时间段i＝I+1时记录的数据值，线性插值方法填补缺失值的公式如下：

特征工程中Hampel识别器处理离群点的实现为：Hampel识别过程以滑动窗的形式进行，逐个求出窗内的中位值并计算中位值绝对偏差MAD，把所有超出3倍MAD×κ上下限的序列元素标记为离群值，其中κ为与误差函数相关的常数，此处取κ＝4.4478，Hampel识别器判断x_i是否为离群点的公式如下：

检测的上下限为：其中S(x_i)＝1表示第i个点是离群点，S(x_i)＝0表示第i个点不是离群点，/>表示根据中值算法求出该窗的中位值；

特性分析中自相关系数检验平稳性的实现为：对于时间序列x，x_t与x_t-k的相关系数称为x_t的间隔为k的自相关系数，自协方差计算的公式如下：

自相关系数计算的公式如下：

其中，N是序列的长度，为完整序列的均值；

特性分析中奇异谱分析去除噪声的实现为：奇异谱分析是一种处理非线性时间序列数据的方法，通过对时间序列的轨迹矩阵进行分解、重构等操作，提取出时间序列中的噪声序列，从而对时间序列执行去噪任务，主要包括三个步骤：嵌入—分解—分组重构；

使用奇异谱分析方法提取原序列的主要成分，根据奇异值的大小选择贡献大的成分重构原序列，选择特征值大的成分构成去除噪声的时间序列，舍弃特征值小的时间序列去除客流序列的噪声。

优选的，在步骤S2中，引入变分模态分解方法将步骤S1预处理后的时间序列分解成确定数目的本征模态函数，具体如下：

变分模态分解方法的实现为：变分模态分解的原理是构造变分问题，假设原始信号f被分解为K个分量，保证分解序列为具有中心频率的有限带宽的模态分量，同时各模态的估计带宽之和最小，约束条件为所有模态之和与原始信号相等；通过变分模态分解方法将复杂的时间序列分解为：趋势项、低频项和高频项；

对变分模态分解方法中分解个数的方法进行优化，具体实现为：

(1)先分解为2个本征模态函数；

(2)判断趋势项，即第一个本征模态函数是否只有极值点；

(3)如果是，停止分解，如果不是继续分解为3个本征模态函数，以此类推，直到趋势项满足要求为止。

优选的，在步骤S3中，使用样本熵方法测量各个本征模态函数的复杂度，根据复杂度将本征模态函数分为三类，具体如下：

样本熵的实现为：样本熵通过度量信号中产生新模式的概率大小来衡量时间序列复杂性，新模式产生的概率越大，序列的复杂性就越大；样本熵的值越低，序列自我相似性就越高；样本熵的值越大，样本序列就越复杂；

未归一化的情况下，样本熵值在[0，0.3]范围内归类为简单的低频高幅本征模态函数；样本熵值在(0.3，0.6]范围内归类为适中复杂的中频中幅本征模态函数；样本熵值在(0.6，1]范围内归类为高复杂的高频低幅本征模态函数；

归一化处理后，样本熵值会更小，根据实际的样本熵值的情况，设定对应的阈值，按照样本熵值从低到高将本征模态函数分为低频高幅、中频中幅和高频低幅三类。

因此，本发明采用上述一种数据驱动的交通枢纽到达客流量分解-集成预测方法，可以精确地预测未来24小时大型交通枢纽到达客流量，提前一天为交通部门疏散乘客提供可靠的决策依据。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明一种数据驱动的交通枢纽到达客流量分解-集成预测方法流程图；

图2是本发明16点到站客流分解的IMF图；

图3是本发明2023年3月29日至2023年4月6日16点的预测结果图；

图4是现有方法对16点到站客流在测试集上的预测结果；

图5是本发明分解-集成模型对3点-23点到站客流在测试集上的预测结果。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明说明书中引用的现有技术文献所公开的内容整体均通过引用并入本发明中，并且因此是本发明公开内容的一部分。

如图1所示，本发明的技术方案为：一种数据驱动的大型交通枢纽到达客流量分解-集成预测方法，通过以下步骤实现：

S1、数据收集和预处理。按小时收集大型交通枢纽的到达客流量数据，并对每小时客流量数据分别执行特征工程和特性分析，具体如下：

特征工程中线性插值方法填补缺失值的实现为：针对连续缺失数据为两个及以下的情况，取值为前两周同一星期数值的均值；针对连续缺失数据为两个以上的情况，采用线性插值方法对数据缺失值进行填补。假设在连续时间段内检测到缺失值，x₀表示在时间段i＝0时记录的数据值，x_I+1表示在时间段i＝I+1时记录的数据值，线性插值方法填补缺失值的公式如下：

特征工程中Hampel识别器处理离群点的实现为：Hampel识别过程以滑动窗的形式进行，逐个求出窗内的中位值并计算中位值绝对偏差MAD(MedianAbsolute Deviation)，把所有超出3倍MAD×κ上下限的序列元素标记为离群值，其中κ为与误差函数相关的常数，此处取κ＝4.4478，Hampel识别器判断x_i是否为离群点的公式如下：

检测的上下限为：其中S(x_i)＝1表示第i个点是离群点，S(x_i)＝0表示第i个点不是离群点，/>表示根据中值算法求出该窗的中位值。

特性分析中自相关系数(Autocorrelation Coefficient，AFC)检验平稳性的实现为：AFC用来描述数据在不同时期的相关程度，即度量历史数据的影响。对于时间序列x，x_t与x_t-k的相关系数称为x_t的间隔为k的自相关系数。自协方差计算的公式如下：

自相关系数计算的公式如下：

其中，N是序列的长度，为完整序列的均值。

特性分析中奇异谱分析去除噪声的实现为：奇异谱分析是一种处理非线性时间序列数据的方法，通过对时间序列的轨迹矩阵进行分解、重构等操作，提取出时间序列中的噪声序列，从而对时间序列执行去噪任务，主要包括三个步骤：嵌入—分解—分组重构。

(1)嵌入

SSA的分析对象是有限长一维时间序列，N为序列长度。选择合适的窗口长度L，将原始时间序列进行滞后排列得到轨迹矩阵：

通常情况下取L＜N/2。令K＝N-L+1，则轨迹矩阵X为L×K的矩阵：

(2)分解

对轨迹矩阵进行SVD分解，将X分解为以下形式：

X＝UΣV^T

其中U称为左矩阵；Σ仅在主对角线上有值，就是奇异值，其他元素均为零；V称为右矩阵。此外U、V均为单位正交阵，满足UU^T＝I，VV^T＝I。

由于直接对轨迹矩阵分解比较困难，因此首先计算轨迹矩阵的协方差矩阵：

S＝XX^T

接下来对S进行特征值分解得到特征值λ₁＞λ₂＞…＞λ_L≥0和对应的特征向量U₁,U₂,…,U_L。此时U＝[U₁,U₂,…,U_L]，为原序列的奇异谱。

(3)分组重构

首先计算迟滞序列X_i在U_m上的投影：

其中X_i表示轨迹矩阵X的第i列，是X_i所反映的时间演变型在原序列的x_i+1,x_i+2,...,x_i+L时段的权重，称为时间主成分。由/>构成的矩阵实际上就是没有归一化的右矩阵，即/>

通过时间经验正交函数和时间主成分来进行重建，具体重构过程如下：

这样，所有重构序列的和应当等于原序列，即：

使用奇异谱分析方法提取原序列的主要成分，根据奇异值的大小选择前k(k≤L)个贡献大的成分重构原序列，选择特征值大的成分构成去除噪声的时间序列，舍弃特征值小的时间序列去除客流序列的噪声。

S2、时间序列分解。变分模态分解方法将预处理后的时间序列分解成K个本征模态函数(IMF)，具体如下：

变分模态分解方法的实现为：首先，构造变分问题，假设原始信号f被分解为K个分量，保证分解序列为具有中心频率的有限带宽的模态分量，同时各模态的估计带宽之和最小，约束条件为所有模态之和与原始信号相等，则相应约束变分表达式如下：

式中，K为需要分解的模态个数(正整数)，{u_k}、{ω_k}分别对应分解后第k个模态分量和中心频率，δ(t)为狄拉克函数，*为卷积运算符。

求解上述优化问题，引入Lagrange乘法算子λ，将约束变分问题转变为非约束变分问题，得到增广Lagrange表达式为：

式中，α为二次惩罚因子，作用是降低高斯噪声的干扰。利用交替方向乘子迭代算法结合Parseval/Plancherel、傅里叶等距变换，优化得到各模态分量和中心频率，并搜寻增广Lagrange函数的鞍点，交替寻优迭代后的u_k，ω_k和λ的表达式如下：

其中γ为噪声容忍度，满足信号分解的保真度要求，和分别对应/>u_i(t)、f(t)和λ(t)的傅里叶变换。

VMD方法通常使用在分解复杂的时间序列中，经判定，客流序列是多种因素累加而成，它的特性复杂、波动性大、随机性强。大型交通枢纽到达客流量数据集受到多种因素的影响，呈现复杂的、非线性、随机的特性。在常见的方法中很少去挖掘这些特征，使大型交通枢纽到达客流量数据变得简单，在匹配预测方法的过程中更有解释性。在这里，引入VMD方法去应对这个问题，通过分解方法可以将复杂的时间序列分解为：趋势项(受长期因素的影响：时间、人口、土地)；低频项(受中期因素的影响：售票价格、服务水平)；高频项(受短期因素的影响：雨雪天气、节假日、重大活动)。

此外，对于VMD，分解个数是需要自定义，不同的分解个数会对分解之后的工作产生很多影响。为此，提出一个创新的优化VMD分解个数的方法，具体实现为：

(1)先分解为2个IMF；

(2)判断趋势项，即第一个IMF是否只有极值点；

(3)如果是，停止分解，如果不是继续分解为3个IMF，以此类推，直到趋势项满足要求为止。

S3、子序列分类。使用样本熵方法测量每个IMF的复杂度，根据复杂度将IMF分为三类，具体如下：

对于IMF而言低频高幅的复杂度最低，中频中幅的复杂度适中，而高频低幅的复杂度最高，为了克服平常根据经验，肉眼判断本征模态函数复杂度，引入一个科学的计量方法，借助样本熵计算每个IMF的样本熵值，根据样本熵值的大小，将IMF分类三类。

样本熵的实现为：样本熵通过度量信号中产生新模式的概率大小来衡量时间序列复杂性，新模式产生的概率越大，序列的复杂性就越大。样本熵的值越低，序列自我相似性就越高；样本熵的值越大，样本序列就越复杂。一般地，对于由N个数据组成的时间序列{x(n)}＝x(1),x(2),x(N)，样本熵的计算方法如下：

(1)按序号组成一组维数为m的向量序列，X_m(1),...,X_m(N-m+1)，其中X_m(i)＝{x(i),x(i+1),...,x(i+m-1)},1≤i≤N-m+1。这些向量代表从第i点开始的m个连续的x值。

(2)定义向量X_m(i)与X_m(j)之间的距离d[X_m(i),X_m(j)]为两者对应的元素中最大差值的绝对值。即：

(3)对于给定的X_m(i)，统计X_m(i)与X_m(j)之间距离小于等于r的j(1≤j≤N-m)的数目，并记作B_i。对于1≤i≤N-m，定义：

(4)定义B^m(r)为：

(5)增加维数到m+1，计算X_m+1(i)与X_m+1(j)(1≤j≤N-m,j≠i)距离小于等于r的个数，记为A_i，定义为：

(6)定义A^m(r)为：

B^m(r)是两个序列在相似容限r下匹配m个点的概率，而A^m(r)是两个序列匹配m+1个点的概率。样本熵定义为：

当N为有限值时，可以用下式估计：

样本熵值在[0，0.3](未归一化的情况下，归一化之后样本熵值会更小)范围内归类为简单的低频高幅IMF，样本熵值在(0.3，0.6]范围内归类为适中复杂的中频中幅IMF，样本熵值在(0.6，1]范围内归类为高复杂的高频低幅IMF。

S4、子序列集成。携带不同核函数的SVR方法预测不同类别的IMF，并线性相加每个IMF的预测结果，得到最终的预测结果，具体如下：

对于低频高幅IMF，并选择时间复杂度低，可解释性更强的携带线性核函数的SVR模型预测；对于中频中幅IMF，并选择时间复杂度适中的携带小波核函数的SVR模型预测；对于高复杂的高频低幅IMF，并选择复杂的携带高斯核函数的SVR模型预测，将各类IMF预测结果线性相加得到最终的预测结果。

SVR方法的实现为：SVR模型可以简单理解为，在线性函数的两侧创造了一个“间隔带”，而这个“间隔带”的间距为∈(这个值常是根据经验而给定的)，对所有落入到间隔带内的样本不计算损失，也就是只有支持向量才会对其函数模型产生影响，最后通过最小化总损失和最大化间隔来得出优化后的模型。对于非线性的模型，与SVM一样使用核函数映射到特征空间，然后再进行回归。

SVR的基本情况：

(1)f(x)＝wx+b是我们最终要求得的模型函数；

(2)f(x)+∈和f(x)-∈是隔离带的上下边缘；

(3)ξ*是隔离带下边缘之下样本点，到隔离带下边缘上的投影，与该样本点y值的差。

公式表述：

评价指标的制定实现为：引入RMSE，MAE，MAPE和R²来评估预测性能，具体如下：

其中为组合预测模型对样本i的预测值，y_i为真实值。

具体考虑北京丰台站，收集时间跨度从2023年1月1日至2023年4月6日，每天24小时的到站客流数据。我们将数据划分为90％训练集和10％测试集(包括2023年3月29日至2023年4月6日)。

针对此数据集，本发明验证我们提出的分解-集成预测模型。具体的操作步骤如下：

S1、数据收集和预处理。对收集到的训练集数据进行预处理，包括最小最大值归一化处理、线性插值方法填补缺失值、Hampel识别器处理离群点、自相关系数(AFC)检验平稳性和奇异谱分析去除噪声，预处理后的小时到达客流数据如表1所示。

表1预处理后的小时到达客流数据

为了便于展示整个预测流程，我们以16点内一小时到达客流量数据为例介绍预处理、子序列分解、子序列分类和子序列集成工作。其他整点的处理过程和16点处理一致。

特征工程中最小最大值归一化处理的实现为：按照最小最大值归一化公式归一化16点到达客流为[0，1]的范围。

特征工程中线性插值方法填补缺失值的实现为：查找出16点到达客流数据中连续缺失数据为两个及以下的缺失数据，取值为前一个最近的值；针对连续缺失数据为两个以上的缺失数据，采用线性插值方法对数据缺失值进行填补。

特征工程中Hampel识别器处理离群点的实现为：Hampel识别过程以滑动窗的形式进行，逐个求出16点到达客流在窗内的中位值并计算中位值绝对偏差MAD(MedianAbsolute Deviation)，把所有超出3倍MAD×κ上下限的序列元素标记为离群值，其中κ为与误差函数相关的常数。

特性分析中自相关系数(AFC)检验平稳性的实现为：特征工程之后，需要对时间序列特性分析，检验16点到达客流的平稳性通过AFC方法，AFC用来描述数据自身不同时期的相关程度，即度量历史数据对现在产生的影响。通过对AFC结果分析，时间序列是非平稳的，所以需要后面进行子序列分解、子序列分类和子序列集成的操作。

特性分析中奇异谱分析去除噪声的实现为：使用SAA方法，去除影响16点到达客流多余的白噪声，可以减少噪声的干扰。SAA是一种处理非线性时间序列数据的方法，通过对所要研究的时间序列的轨迹矩阵进行分解、重构等操作，去除时间序列中的噪声序列。

S2、子序列分解。变分模态分解方法的实现为：VMD分解预处理之后的时间序列为20个IMF，每个IMF展示如图2。其搜索和求解过程中可以自适应地匹配每种模态的最佳中心频率和有限带宽，并且可以实现IMF的有效分离、信号的频域划分、进而得到给定信号的有效分解成分，最终获得变分问题的最优解。

S3、子序列分类。样本熵的实现为：样本熵通过度量信号中产生新模式的概率大小来衡量时间序列复杂性，样本熵的值越大，样本序列就越复杂，反之亦然，我们度量每个IMF的SE值，并根据SE值的大小把IMF分为三类。

S4、子序列集成。SVR方法的实现为：SVR是一种流行的机器学习方法，携带不同类型的核函数，可以应对不同复杂度的序列。在这里，我们首先用携带线性核函数的SVR预测具有最小复杂度的IMF(低频高幅)；用携带小波核函数的SVR预测介于最小和最大复杂度之间的IMF(中频中幅)；用携带高斯核函数的SVR预测最大复杂度的IMF(高频低幅)，然后将各类IMF预测结果线性相加得到最终16点的预测结果如图3所示。我们比较我们提出的方法和其他目前流行的机器学习预测方法预测结果可视化展示如图4所示，各个方法预测结果的评价在表2中展示。很显然，我们提出的分解-集成预测模型优于目前存在的预测模型包括多层感知机(MLP)、随机森林(RF)、支持向量回归(SVR)、XGBoost、LightGBM、集成模型(Stacking)。

表2所有方法对16点到站客流量预测的误差评价

方法	MAE	MAPE	MSE	RMSE	R2
						VMD-SVR	40.56	0.02	2706.78	52.03	0.97
MLP	213.11	0.13	90984.22	301.64	-0.11
						RF	198.67	0.12	52861.11	229.92	0.36
SVR	201.89	0.12	76360.33	276.33	0.07
						XGBoost	200.33	0.13	519696.89	227.97	0.37
LightGBM	177.33	0.11	47401.78	217.72	0.42
						Stacking	211	0.13	70671.67	265.84	0.14

上述是对16点到站客流的整个预测评价流程，类似地，3点-23的预测过程和16点的一样(对于丰台站，因为0点、1点和2点的到站客流为0，所以没有考虑)，重复多次输出所有小时的预测结果如图5所示，并在表3中展示3点-23点的预测评价结果。

表3分解-集成模型对所有小时到站客流预测误差评价(3点-23点)

/>

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种数据驱动的交通枢纽到达客流量分解-集成预测方法，其特征在于：包括以下步骤：

在步骤S1中，特征工程包括最小最大值归一化处理、线性插值方法填补缺失值、Hampel识别器处理异常值；在特征工程的基础上，开展数据特性分析，包括自相关系数检验平稳性和奇异谱分析去除噪声，具体如下：

自相关系数计算的公式如下：

其中，N是序列的长度，为完整序列的均值；

特性分析中奇异谱分析去除噪声的实现为：奇异谱分析是一种处理非线性时间序列数据的方法，通过对时间序列的轨迹矩阵进行分解、重构操作，提取出时间序列中的噪声序列，从而对时间序列执行去噪任务，包括三个步骤：嵌入—分解—分组重构；

使用奇异谱分析方法提取原序列的主要成分，根据奇异值的大小选择贡献大的成分重构原序列，选择特征值大的成分构成去除噪声的时间序列，舍弃特征值小的时间序列去除客流序列的噪声；

S4、子序列集成：根据每类本征模态函数特性选择携带不同核函数的支持向量回归预测算法，其中低频高幅类本征模态函数选择线性核函数、中频中幅类本征模态函数选择小波核函数、高频低幅类本征模态函数选择高斯核函数，最后累加各本征模态函数的预测结果；

S5、重复执行步骤S2-S4。

2.根据权利要求1所述的一种数据驱动的交通枢纽到达客流量分解-集成预测方法，其特征在于：在步骤S2中，引入变分模态分解方法将步骤S1预处理后的时间序列分解成确定数目的本征模态函数，具体如下：

(1)先分解为2个本征模态函数；

(2)判断趋势项，即第一个本征模态函数是否只有1个或者2个极值点；

3.根据权利要求1所述的一种数据驱动的交通枢纽到达客流量分解-集成预测方法，其特征在于：在步骤S3中，使用样本熵方法测量各个本征模态函数的复杂度，根据复杂度将本征模态函数分为三类，具体如下：