CN116913098A

CN116913098A - 一种融合空气质量与车流量数据的短时交通流预测方法

Info

Publication number: CN116913098A
Application number: CN202311184559.XA
Authority: CN
Inventors: 李轩; 程瀚霖; 周天清; 姚誉
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-10-20
Anticipated expiration: 2043-09-14
Also published as: CN116913098B

Abstract

本发明涉及一种融合空气质量与车流量数据的短时交通流预测方法，根据获取的车流量和空气质量数据集构建特征矩阵，再根据街道节点绘制空气质量关联拓扑图，用于获取空间特征，并创建对应的空气质量关联矩阵；然后根据空气质量关联拓扑图和特征矩阵，构造映射函数，使用深度学习方法搭建神经网络模型，对映射函数进行建模；对神经网络模型进行训练，并计算预测值与实际值之间的损失函数，通过反向传播算法对神经网络模型的参数进行优化，使用ADAM不断自适应学习率，优化神经网络模型的参数以使模型更加准确；使用训练好的神经网络模型对实时数据进行预测，输出预测结果。本发明结合车流量和空气质量数据，提高了交通流预测的准确性和可靠性。

Description

一种融合空气质量与车流量数据的短时交通流预测方法

技术领域

本发明属于5G车联网技术领域，主要涉及了一种融合空气质量与车流量数据的短时交通流预测方法。

背景技术

交通流预测是交通控制和管理领域的一个重要问题，旨在减少拥堵、提高交通效率、优化城市交通管理，同时减少交通事故率、能源浪费和碳排放等社会问题。随着城市化进程的加深和交通需求的不断增长，交通流预测的研究和应用也越来越受到关注。随着传感器和数据采集技术的不断进步，交通数据的获取和处理变得更加容易。例如，车载传感器、路侧传感器和交通摄像头等技术可以实时采集交通流数据，这些数据可以用于交通流预测和交通控制。

传统的交通流预测方法包括统计模型、时间序列模型、回归模型等，这些模型在过去几十年中已经得到了广泛应用。然而，这些模型在处理非线性、复杂的交通流数据时存在局限性，因此需要更加先进的方法来提高预测准确性。

近年来，随这人工智能技术的飞速发展，如深度学习、强化学习等。这些技术可以对大规模、非线性、动态的交通数据进行处理和预测，同时可以通过学习自适应地提高预测准确性。但现有方法并未同时充分考虑内外部因素的影响。如何结合多源数据实现流量预测任务，是亟待解决的问题。

发明内容

本发明的目的在于提供一种融合空气质量与车流量数据的短时交通流预测方法，该方法利用城市道路交通流时空关联信息进行预测，可克服现有方法不能充分利用交通流数据的时空特征和周期性特征的缺点，同时进一步将交通流数据不同特征进行融合，从而提高短时交通流预测的准确性。

为实现上述目的，本发明采用的技术方案如下。

一种融合空气质量与车流量数据的短时交通流预测方法，包括以下步骤：

步骤S1数据采集：收集历史车流量数据和历史空气质量数据，获得历史车流量数据集和历史空气质量数据集；

步骤S2信息预处理：使用MinMax缩放器对历史车流量数据集和历史空气质量数据集进行归一化预处理，保证数据的准确性和完整性，并采用平均值法处理数据集中的缺失值；然后根据处理后的数据集构建特征矩阵X，将历史车流量数据和空气质量数据结合起来，，其中，x是历史车流量序列，Q是历史空气质量序列；并将处理后的历史车流量数据集和历史空气质量数据集分别划分为训练集和测试集；

步骤S3获取空间特征：根据街道节点绘制空气质量关联拓扑图G，用于获取空间特征，并创建对应的空气质量关联矩阵A；

步骤S4构造映射函数：根据空气质量关联拓扑图G和特征矩阵X，构造映射函数，然后计算下一个T时段的交通信息，计算公式为：

，

其中，m为历史时间序列的长度，T为需要预测的时间序列的长度，t为当前采样时刻；

步骤S5搭建模型：使用深度学习方法搭建神经网络模型，对映射函数进行建模；神经网络模型包含输入层、两层GCN模型、一层LSTM模型、一个注意力机制Attention和一层全连接层；其中，输入层用于输入包含实时获取的车流量数据与空气质量数据信息的特征矩阵X，GCN模型用于捕获街道节点之间车流量数据与空气质量数据的空间特征，LSTM模型用于捕获时间特征，注意力机制Attention用于对LSTM模型的输出进行加权求和，帮助LSTM模型更加聚焦于关键的输入信息，全连接层用于输出预测结果；

步骤S6模型训练：使用训练集数据对步骤S5搭建的神经网络模型进行训练，并使用测试集数据进行准确度测试，计算预测值与实际值之间的损失函数，通过反向传播算法对神经网络模型的参数进行优化，使用ADAM不断自适应学习率，优化神经网络模型的参数以使模型更加准确；

步骤S7数据预测：使用训练好的神经网络模型对实时获取的车流量数据与空气质量数据信息进行预测，输出预测结果。

进一步地，步骤S3中，根据街道节点绘制空气质量关联拓扑图G，用于获取空间特征，并创建对应的空气质量关联矩阵A的具体步骤为：

步骤S31，将街道标记为街道节点，若两街道间直接连通，视为两街道间的空气质量相互关联，则将空气质量相互关联的两街道间的连接关系标记为一条无向边；若两街道间不直接连通，视为两街道间的空气质量不相互关联，则将空气质量不相互关联的两街道间的连接关系标记为没有边相连；将各街道间的连接关系绘制成一张无向点线图；

步骤S32，创建一个空气质量关联矩阵，所述空气质量关联矩阵是一个n × n的邻接矩阵，其中n是街道节点的数量，将邻接矩阵的每个元素初始化为0，邻接矩阵中元素为0表示两个街道节点之间没有边相连；

步骤S33，遍历步骤S31中获取的无向点线图中的所有边，对于每条边连接的两个街道节点，如街道节点i和街道节点j，将邻接矩阵中对应的第i行第j列和第j行第i列的元素设置为1，表示街道节点i和街道节点j之间存在一条无向边；遍历完成后即可获得街道节点对应的空气质量关联矩阵A。

进一步地，步骤S5中，单层GCN模型表示为：

，

其中，是添加自连接的矩阵，A表示空气质量关联矩阵，/>是单位矩阵，/>是度矩阵，/>，/>表示层的输出，/>包含层的参数，/>表示sigmoid函数；

两层GCN模型表示为：

，

其中，表示对空气质量关联矩阵A的预处理步骤，/>表示从输入到隐藏层的权重矩阵，R表示实数集，P为特征矩阵X的长度，H为隐藏单元数，表示从隐藏层到输出层的权重矩阵；/>表示需要预测的时间序列的长度T的输出，N×T表示矩阵的维度，/>表示为N行T列的实数矩阵，矩阵行数N等于街道节点的个数，矩阵列数T即为预测的时间序列的长度；/>代表重构线性单元。

进一步地，步骤S5中，两层GCN模型中都包含多个GCN处理单元，两层GCN模型的GCN处理单元一一对应，其中，每一个采样时刻的特征矩阵对应两个GCN处理单元，GCN处理单元的输出表示为/>，即/>；将GCN模型第二层的输出/>作为输入，输入至LSTM模型中，LSTM模型捕获时间特征后输出新的节点表示/>，即LSTM模型的输出为/>，使用/>表示LSTM模型的整体输出，则GCN+LSTM的节点更新公式为：/>；同理，LSTM模型中包含多个LSTM处理单元，每两个GCN处理单元对应一个LSTM处理单元，将LSTM处理单元的输出表示为/>，则LSTM模型的整体输出表示为：/>。

进一步地，步骤S5中，LSTM模型的计算方式为：

，

其中，为输入门，/>为遗忘门，/>为细胞状态，/>为输出门，/>为当前采样时刻t对应的LSTM处理单元的输出，/>为当前采样时刻t对应的LSTM处理单元的输入；/>表示sigmoid函数，/>表示输入门的权重矩阵，/>表示遗忘门的权重矩阵，/>表示输出门的权重矩阵；/>表示输入门的偏置参数，/>表示遗忘门的偏置参数，/>表示输出门的偏置参数，/>表示候选细胞状态。

进一步地，步骤S5中，通过注意力机制Attention对LSTM模型的输出进行加权求和的计算方法为，若LSTM处理单元的输出为，则加权求和后的表示为/>，其中/>表示当前采样时刻t的权重；

使用Bahdanau Attention的方法来计算当前采样时刻t的权重，给定LSTM处理单元的输出/>和一个查询向量q，则当前采样时刻t的权重/>的计算公式为：

，

其中，，/>、/>、/>、/>都是需要学习的参数；/>、/>是为了计算注意力权重分母部分而存在的临时值，/>的计算公式与/>的一样，即/>，/>，/>为k时刻LSTM处理单元的输出；将加权求和后的表示C作为注意力机制Attention的输出，输入到接下来的全连接层中进行预测，输出预测结果。

进一步地，步骤S6中，计算预测值与实际值之间的损失函数时，采用均方误差作为损失函数，损失函数的计算公式表示为：

，

其中，s是样本数，是第/>个样本的实际值，/>是模型对第/>个样本的预测值。

相较于现有技术，本发明方法具有以下有益效果：

本发明提出了一种融合空气质量与车流量数据的短时交通流预测方法，利用城市道路交通流时空关联信息及周期性信息进行预测，并结合了空气质量数据，从而提高了交通流预测的准确性和可靠性。相对于现有方法，本发明充分利用了时空特征和空气质量数据，解决了现有方法不能充分利用时空特征和空气质量数据的问题。

附图说明

图1是本发明融合空气质量与车流量数据的短时交通流预测方法的流程图。

图2是本发明实施例中的街道示意图。

图3是本发明实施例中的空气质量关联拓扑图。

图4是本发明实施例中的模型整体结构示意图。

图5本发明实施例中LSTM模型的结构示意图。

图6是本发明实施例中采用融合空气质量与车流量数据的短时交通流预测方法进行预测的结果对比图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

如图1~图5所示的一种融合空气质量与车流量数据的短时交通流预测方法，具体步骤为：

步骤S1数据采集：本方法采集了两个数据源的数据，包括历史车流量数据集、历史空气质量数据集。数据是通过在城市部署多个传感器采集获得。这些传感器提供关于每5min通过的车辆数量的信息。而在历史空气质量数据集中，有由机动车辆排放的污染物参数，即包含一氧化碳、二氧化氮、二氧化硫、颗粒物和臭氧参数的数据。

步骤S2为了保证数据的准确性和完整性，需要对数据进行预处理。本实施例中使用sklearn库中的MinMaxScaler缩放器（最小最大值归一化）对历史车流量数据集、历史空气质量数据集进行归一化预处理，并采用平均值法处理数据集中的缺失值。缺失值的处理方法具体为：先确定数据集中存在缺失值的列的索引；然后计算这些列的平均值，并将对应列中的缺失值替换为该列的平均值。

构建特征矩阵X，将历史车流量数据和历史空气质量数据结合起来，，其中，x是历史车流量序列，Q是历史空气质量序列；并将处理后的历史车流量数据集和历史空气质量数据集分别划分为训练集和测试集。

步骤S3获取空间特征，包括以下步骤：

步骤S31绘制空气质量关联拓扑图G：如图2、图3所示，图2中含有8条街道，将图2中各街道标记为街道节点，即图2中对应含有街道节点1~街道节点8；若两街道间直接连通，视为两街道间的空气质量相互关联，则将空气质量相互关联的两街道间的连接关系标记为一条无向边；若两街道间不直接连通，视为两街道间的空气质量不相互关联，则将空气质量不相互关联的两街道间的连接关系标记为没有边相连；将各街道间的连接关系绘制成一张无向点线图，即可获得图3中(a)所示的点线图。

步骤S32创建一个空气质量关联矩阵，所述空气质量关联矩阵是一个n × n的邻接矩阵，其中n是街道节点的数量（即街道的数量）。将邻接矩阵的每个元素初始化为0，邻接矩阵中元素为0表示两个街道节点之间没有边相连。

步骤S33如图3中(b)所示，遍历图3中(a)中的所有边，对于每条边连接的两个街道节点（例如街道节点i和街道节点j），将邻接矩阵中对应的第i行第j列和第j行第i列的元素设置为1，表示街道节点i和街道节点j之间存在一条无向边。因为街道节点不应与自身邻接，所以邻接矩阵的主对角线上的元素均为0。遍历完成后获得街道节点对应的空气质量关联矩阵A。

步骤S4构建映射函数。本方法将交通流预测问题可以看作是在空气质量关联拓扑图G和特征矩阵X的前提下学习映射函数，然后计算下一个T时段的交通信息，计算公式为：

，

其中，m为历史时间序列的长度，T为需要预测的时间序列的长度，t为当前采样时刻，用来指示这是一个实时到达的交通流数据。

步骤S5搭建模型，包括以下步骤：

步骤S51搭建GCN模型：给定空气质量关联矩阵A和特征矩阵X，GCN模型在傅里叶域构造一个滤波器。该滤波器作用于图3中的街道节点，通过滤波器的一阶邻域捕获街道节点之间的空间特征，然后通过叠加多个卷积层来建立GCN模型，单层GCN模型表示为：

，

其中，是添加自连接的矩阵，A表示空气质量关联矩阵，/>是单位矩阵，/>是度矩阵，/>，即/>是将空气质量关联矩阵A按列求和，/>表示第/>层的输出，/>包含第/>层的参数，/>表示sigmoid函数。

本发明方法选择采用两层GCN模型来获得空间依赖性，双层GCN模型表示为：

，

其中，表示对空气质量关联矩阵A的预处理步骤，/>表示从输入到隐藏层的权重矩阵，R表示实数集，P为特征矩阵X的长度，H为隐藏单元数，表示从隐藏层到输出层的权重矩阵；/>表示需要预测的时间序列的长度T的输出，N×T表示矩阵的维度，/>表示为N行T列的实数矩阵，矩阵行数N等于街道节点的个数，矩阵列数T即为预测的时间序列的长度；/>代表重构线性单元，本实施例中，采用现代深度神经网络中常用的激活层作为重构线性单元。总之，本方法使用两层GCN模型从车流量数据与空气质量数据中学习空间特征。如图4所示，两层GCN模型中都包含多个GCN处理单元，两层GCN模型的GCN处理单元一一对应，其中，每一个采样时刻的特征矩阵/>对应两个GCN处理单元，GCN处理单元的输出表示为/>，即。

步骤S52搭建LSTM模型：将步骤S51中GCN模型第二层的输出作为输入，输入至LSTM模型中，LSTM模型捕获时间特征，然后输出新的节点表示/>，即LSTM模型的输出为/>，这里使用/>表示LSTM模型的整体输出。则GCN+LSTM的节点更新公式为：/>。同理，如图4所示，LSTM模型中包含多个LSTM处理单元，每两个GCN处理单元对应一个LSTM处理单元，将LSTM处理单元的输出表示为/>，则LSTM模型的整体输出表示为：

。

本实施例中，LSTM处理单元之间相互关联，每一个LSTM处理单元会受到前一个LSTM处理单元的影响。LSTM模型的结构如图5所示，LSTM模型的计算方式为：

，

其中，为输入门，/>为遗忘门，/>为细胞状态，/>为输出门，/>为当前采样时刻t对应的LSTM处理单元的输出，/>为当前采样时刻t对应的LSTM处理单元的输入；/>表示sigmoid函数，/>表示输入门的权重矩阵，/>表示遗忘门的权重矩阵，/>表示输出门的权重矩阵；/>表示输入门的偏置参数，/>表示遗忘门的偏置参数，/>表示输出门的偏置参数，/>表示候选细胞状态。在实际实现中，还需要为LSTM模型添加dropout和批标准化等技术来提高模型的鲁棒性和泛化能力。

步骤S53在LSTM模型中加入注意力机制Attention，用于帮助模型更加聚焦于关键的输入信息，提高模型的预测性能。下面是本实施例采用的方法：

对各个LSTM处理单元的输出进行加权求和，权重由注意力机制计算得出。若LSTM处理单元的输出为，则加权求和后的表示为/>，其中，/>表示当前采样时刻t的权重。

本实施例中使用Bahdanau Attention的方法来计算当前采样时刻t的权重。给定LSTM处理单元的输出和一个查询向量q，则当前采样时刻t的权重的计算公式为：

，

其中，，/>、/>、/>、/>都是需要学习的参数。/>、/>是为了计算注意力权重分母部分而存在的临时值，/>的计算公式与/>的一样，即/>，/>，/>为k时刻LSTM处理单元的输出。

然后将加权求和后的表示C作为注意力机制Attention的输出，输入到接下来的全连接层Predication中进行预测，输出预测结果。

步骤S6模型训练：使用训练集数据对步骤S5搭建的神经网络模型进行训练，并使用测试集数据进行准确度测试，计算预测值与实际值之间的损失函数，采用均方误差作为损失函数，通过反向传播算法对神经网络模型的参数进行优化，使用ADAM不断自适应学习率，优化模型参数以使其更加准确。其中均方误差（Mean Square Error, MSE）是常用的一种衡量模型预测结果与真实结果之间差异的评价指标。它是对预测值与实际值之间误差的平方求和的平均值，可以用以下公式表示：

，

其中，s是样本数，是第/>个样本的实际值，/>是模型对第/>个样本的预测值。均方误差的值越小，说明模型的预测结果与实际值越接近，模型的预测性能越好。在训练过程中，优化模型的目标通常是最小化均方误差，使得模型的预测结果尽可能地接近真实结果。

步骤S7数据预测：智能网联汽车和路测传感器作为收集空气质量与车流量数据的入口，通过路测基站将数据上传到数据处理后台，获取实时车流量数据与空气质量数据，使用训练好的神经网络模型对实时获取的车流量数据与空气质量数据信息进行预测，输出预测结果。

本实施例中的预测结果如图6所示，图6为每5分钟对街道车流量进行一次预测的结果对比图，图6中(a)为预测结果图，图6中(b)为真实结果图，可以看出，预测结果与真实结果之间的误差非常小，说明采用本发明短时交通流预测方法进行交通流预测的准确率高。

Claims

1.一种融合空气质量与车流量数据的短时交通流预测方法，其特征在于，包括以下步骤：

步骤S1，收集历史车流量数据和历史空气质量数据，获得历史车流量数据集和历史空气质量数据集；

步骤S2，使用MinMax缩放器对历史车流量数据集和历史空气质量数据集进行归一化预处理，保证数据的准确性和完整性，并采用平均值法处理数据集中的缺失值；然后根据处理后的数据集构建特征矩阵X，将历史车流量数据和空气质量数据结合起来，，其中，x是历史车流量序列，Q是历史空气质量序列；并将处理后的历史车流量数据集和历史空气质量数据集分别划分为训练集和测试集；

步骤S3，根据街道节点绘制空气质量关联拓扑图G，用于获取空间特征，并创建对应的空气质量关联矩阵A；

步骤S4，根据空气质量关联拓扑图G和特征矩阵X，构造映射函数，然后计算下一个T时段的交通信息，计算公式为：

，

步骤S5，使用深度学习方法搭建神经网络模型，对映射函数进行建模；神经网络模型包含输入层、两层GCN模型、一层LSTM模型、一个注意力机制Attention和一层全连接层；其中，输入层用于输入包含实时获取的车流量数据与空气质量数据信息的特征矩阵X，GCN模型用于捕获街道节点之间车流量数据与空气质量数据的空间特征，LSTM模型用于捕获时间特征，注意力机制Attention用于对LSTM模型的输出进行加权求和，帮助LSTM模型更加聚焦于关键的输入信息，全连接层用于输出预测结果；

步骤S6，使用训练集数据对步骤S5搭建的神经网络模型进行训练，并使用测试集数据进行准确度测试，计算预测值与实际值之间的损失函数，通过反向传播算法对神经网络模型的参数进行优化，使用ADAM不断自适应学习率，优化神经网络模型的参数以使模型更加准确；

步骤S7，使用训练好的神经网络模型对实时获取的车流量数据与空气质量数据信息进行预测，输出预测结果。

2.根据权利要求1所述的融合空气质量与车流量数据的短时交通流预测方法，其特征在于，步骤S3中，根据街道节点绘制空气质量关联拓扑图G，用于获取空间特征，并创建对应的空气质量关联矩阵A的具体步骤为：

3.根据权利要求1所述的融合空气质量与车流量数据的短时交通流预测方法，其特征在于，单层GCN模型表示为：

，

其中，是添加自连接的矩阵，A表示空气质量关联矩阵，/>是单位矩阵，是度矩阵，/>，/>表示层的输出，/>包含层的参数，/>表示sigmoid函数；

两层GCN模型表示为：

，

4.根据权利要求3所述的融合空气质量与车流量数据的短时交通流预测方法，其特征在于，两层GCN模型中都包含多个GCN处理单元，两层GCN模型的GCN处理单元一一对应，其中，每一个采样时刻的特征矩阵对应两个GCN处理单元，GCN处理单元的输出表示为/>，即/>；将GCN模型第二层的输出/>作为输入，输入至LSTM模型中，LSTM模型捕获时间特征后输出新的节点表示/>，即LSTM模型的输出为/>，使用表示LSTM模型的整体输出，则GCN+LSTM的节点更新公式为：；同理，LSTM模型中包含多个LSTM处理单元，每两个GCN处理单元对应一个LSTM处理单元，将LSTM处理单元的输出表示为/>，则LSTM模型的整体输出表示为：。

5.根据权利要求4所述的融合空气质量与车流量数据的短时交通流预测方法，其特征在于，LSTM模型的计算方式为：

，

其中，为输入门，/>为遗忘门，/>为细胞状态，/>为输出门，/>为当前采样时刻t对应的LSTM处理单元的输出，/>为当前采样时刻t对应的LSTM处理单元的输入；表示sigmoid函数，/>表示输入门的权重矩阵，/>表示遗忘门的权重矩阵，/>表示输出门的权重矩阵；/>表示输入门的偏置参数，/>表示遗忘门的偏置参数，/>表示输出门的偏置参数，/>表示候选细胞状态。

6.根据权利要求5所述的融合空气质量与车流量数据的短时交通流预测方法，其特征在于，步骤S5中，通过注意力机制Attention对LSTM模型的输出进行加权求和的计算方法为，若LSTM处理单元的输出为，则加权求和后的表示为/>，其中/>表示当前采样时刻t的权重；

，

7.根据权利要求1所述的融合空气质量与车流量数据的短时交通流预测方法，其特征在于，步骤S6中，计算预测值与实际值之间的损失函数时，采用均方误差作为损失函数，损失函数的计算公式表示为：

，