CN117494034A

CN117494034A - 基于交通拥堵指数和多源数据融合的空气质量预测方法

Info

Publication number: CN117494034A
Application number: CN202311011305.8A
Authority: CN
Inventors: 胡俊涛; 张士诚; 崔灿; 孙海东; 蒋炬波; 张翔; 方勇
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2024-02-02

Abstract

本发明公开了一种基于交通拥堵指数和多源数据融合的空气质量预测方法，对城市国控站点大气污染物、气象要素数据及交通拥堵指数等相关影响因子进行采集、预处理，建立多源异构数据集；构建GCN模型，通过灰色关联模型实现交通拥堵指数特征融合；建立交通拥堵指数与交通敏感污染物、气象要素的映射关系；采用历史空气质量状况、气象因素和交通拥堵指数对交通敏感污染物浓度进行预测，并对集成模型预测效果进行评估；本发明将交通拥堵指数与气象数据和污染物数据相结合，考虑交通拥堵情况对区域污染物浓度的时空分布的影响，评估污染突发事件影响解决空气质量数据波动变化大，预测效果不够精确等问题，提高空气质量预测模型的准确性和可靠性。

Description

基于交通拥堵指数和多源数据融合的空气质量预测方法

技术领域

本发明涉及面向深度学习的空气质量预测技术领域，尤其涉及一种基于交通拥堵指数和多源数据融合的空气质量预测方法。

背景技术

空气污染是影响公共卫生的重要因素，空气质量预测是空气污染预警的关键，因此预测空气质量的走势已经成为现今科学研究的热点问题。但空气污染是个复杂的现象，在特定时间和地点空气污染物浓度受到许多因素影响，主要受到气象条件、时间依赖性和空间相关性的影响，例如温度、湿度、风速等自然因素以及道路交通状况、污染源排放情况等人为因素是主要影响因素，城市的人口密度、地形地貌和气象等也是影响空气质量的重要因素，这些因素加大了空气质量精准预测的难度。

城市交通状况对空气质量有着重要的影响和贡献，交通活动产生的尾气排放是城市空气污染的主要源之一，交通状况对空气质量的影响是动态变化的，包括交通流量、道路状况和交通运输模式的改变等。交通拥堵限制了空气中污染物的扩散，尤其是在密集的城市区域和狭窄的街道上，拥堵导致空气中的污染物停滞不前，增加了污染物的排放量和浓度，形成局部污染区域，对城市空气质量产生显著的负面影响，因此，通过将交通拥堵指数与气象数据和污染物数据结合，可以提高空气质量预测的准确性，并为城市空气质量管理和改善提供科学依据。

生态环境大数据存在来源高维、高复杂性及不确定性的特点，大数据技术能有效处理多来源、多类型、多尺度数据。对多源异构数据的集成、整合及分析是当前环境监测大数据研究面临的难题，深度学习模型对于大数据分析的性能优异，对特征提取与预测的能力远超传统算法。因此，在大数据时代的背景下，利用深度学习模型，同时结合传统优化算法进行空气质量预测成为最具潜力的研究方向之一。

发明内容

本发明目的就是为了弥补已有技术的缺陷，提供一种基于交通拥堵指数和多源数据融合的空气质量预测方法。本发明针对城市空气质量状况从时空特征，交通拥堵状况和污染来源等多方面及多指标开展耦合研究，将交通拥堵指数与气象数据和大气污染物数据相融合，揭示污染物浓度的时空分布特点，可以提高空气质量预测模型的准确性和可靠性，及时预警和预测环境污染事件的发生。

本发明是通过以下技术方案实现的：

一种基于交通拥堵指数和多源数据融合的空气质量预测方法，包括以下步骤：

S1:采集城市国控站点大气污染物和气象要素数据，添加交通拥堵指数等相关影响因子，并进行预处理，汇总生成多因素表达和多类型特征的大气污染物信息序列；

S2:构建图卷积神经网络模型(简称GCN模型)，通过自定义邻接关系实现监测站点空间关联特征的提取，各站点间交通敏感污染物与气象要素的相关性分析，并将站点覆盖范围内的道路拥堵指数映射到污染物波动趋势中，实现交通拥堵指数特征融合；

S3:利用TensorFlow框架实现卷积神经网络与双向长短期记忆网络混合模型(简称CNN-BiLSTM模型)的搭建，通过捕获各特征间的时空关联性，解决长时序数据特征尺度不一致问题，全面刻画空气质量变化趋势；

S4:利用注意力机制集成GCN模型和CNN-BiLSTM模型，捕捉关键时间点污染物特征信息，精细化处理不同维度特征，并进行集成模型优化和训练；

S5:利用训练好的集成模型，采用气象因素，以及交通拥堵指数和空气质量状况对交通敏感污染物浓度进行综合预测，并选择误差指标定量分析集成模型预测效果；

所述步骤S1具体包括以下步骤：

S11:获取城市空气质量监测站常规污染物、气象要素以及交通拥堵指数历史数据，并收集大气污染传输和突发事件等信息，构成多源异构数据集；

S12:依据逻辑与因果关系对多源数据集进行拆分和筛选，降低数据特征数量，特征指标组合最优化；

多源异构数据集按特征属性被划分为原始特征和解释补充两种类型，原始特征数据集包含污染物和气象因素时间变化特征，解释补充数据集由各类污染事件构成，用来解释特征数据集出现异常峰值的原因，根据作用域大小进行分类编码，将文字型数据转换为数值型嵌入数据集中。

其中作用域表征对污染物峰值浓度波动的贡献大小，分类编码的目的是确立权重和优先级，将污染事件作为环境影响修正因子。

S13:对各类型大气污染物变化趋势进行对比分析，选择受交通拥堵状况影响明显波动的污染物种类，以此作为交通敏感污染物；

S14:对初步筛选的数据进行预处理，其中包括缺失值填充和离群值处理，再采用最大最小归一化处理，归一化指定区间为0到1,所述最大最小归一化公式为：

式中，X为归一化后的最终结果，x为原始值，x_min为原始数据的最小值，x_max为原始数据的最大值。

步骤S14所述对数据进行缺失值处理，具体包括缺失的数据用均值填充，采用箱型图的方式对数据进行统计和展示，剔除明显偏离大部分数据的离群值。

所述步骤S2具体包括以下步骤：

S21:根据已采集站点的地理位置和覆盖半径，利用图卷积网络建立空间关联规则，提取各站点监测数据间的时空关联信息，解释监测站点间污染扩散和趋同现象；

S22:使用皮尔逊相关系数对站点的交通敏感污染物进行空间维度与时间维度上的相关性分析，掌握污染物浓度和气象因子数据特征相关性，并设置相关系数阈值；

皮尔逊相关系数的计算公式为：

公式中，COV(X,Y)是特征X和Y之间的协方差，σ_X，σ_Y分别为特征X和Y的标准差。

步骤S21的图卷积网络，具体包括描述监测站间拓扑结构以及生成对应站点信息的特征矩阵。

根据各站点地理位置信息构建目标站点所在城市环境监测站点的拓扑图G并计算两两站点间的关联度存储在邻接矩阵A中。

其中拓扑图G:G＝(V,E)可用于描述多个城市监测站点间的拓扑结构，图中每个节点代表一个环境监测站点，V代表城市中所有站点的集合，V＝(V₁,V₂,…,V_N)，E表示为各监测站点间边的集合，N为监测站点总数量。

通过计算两站点间距离的倒数来表示关联程度并作为对应站点连边权重值存储在邻接矩阵A中，A∈R^N×N。

基于城市环境监测站点不同时刻的空气质量数据构建特征矩阵X^N×P，其中P表示节点属性的数量特征，特征矩阵中存储着拓扑图中各节点自身信息。

对邻接矩阵A进行拉普拉斯变换生成矩阵

其中为自连接邻接矩阵，I_N为单位矩阵，/>为度矩阵。

通过自定义的关联规则聚合和转化相关联节点的特征，以获得邻接节点的最优特征组合，即提取站点间的空间关系。

S23:根据监测站点经纬度坐标，在地图上标记所选监测站点位置，通过站点与周边道路的距离匹配，可将采集到交通拥堵指数数据分配到城市路网中，实现交通拥堵指数与气象数据和交通敏感污染物数据的融合；

利用灰色关联模型分析站点交通敏感污染物浓度与邻近道路交通拥堵状况的相近程度，建立时空关联和多特征融合的空气质量数据集以进行预测建模和训练。

将数据集中原始数据进行初值化转换，消除量纲，其次求出站点交通敏感污染物系列与交通拥堵指数系列在各时间点的绝对差、两级最小差与最大差。

Y_i ^*(k)＝Y_i(k)/Y_i(1)

Y_i ^*(k)为k时刻目标站点第i个污染物初值化转换后的数值，Y_i(k)表示k时刻目标站点第i个污染物原始数据的数值。

不同监测站点交通拥堵指数序列对污染物序列在k时刻的关联系数：

式中，ξ_i(k)表示k时刻的关联系数，k的取值为0,1,2,…,n，ρ为分辨系数，范围是(0,1)，经常取值0.5。代表目标站点邻近道路的交通拥堵指数初值化数值，表示求两列数据的两级最小差，/>表示求两列数据的两级最大差。

利用得到所有时刻的关联系数计算出各类交通敏感污染物与交通拥堵指数间的关联度r_M，数值越接近1，说明关联程度越高。

M取值为0,1,2,…,M，表示交通敏感污染物的种类，ξ_i(n)表示目标站点n时刻第i个污染物与交通拥堵指数关联系数。

所述步骤S3具体包括以下步骤：

S31:确定CNN神经网络各层的结构，压缩和提取输入数据重要特征；

CNN的本质特征是局部感知和参数共享，由卷积层、池化层、全连接层组成，从原始输入数据中提取空间特征，实现原始数据的高维特征表示，同时减少神经网络计算过程中的参数。

卷积层采取一维卷积，卷积核数目为r，尺寸设置为s，卷积核只按照单一的时域方向进行卷积，滑动步长为1，对每s个时间步的序列向量进行一次特征提取，得到一个特征图，当一个卷积核提取完一条样本的序列数据后，将会得到一个t-s+1形状的特征图。

其中CNN卷积层共有r个卷积核，因此最终会得到r个特征图。卷积后再进行最大池化操作，压平层将所有特征图展开成同样个数的一维向量，再经过全连接层的解码，得到转化后的特征值；

S32:提取特征后的序列向下传递到BiLSTM层，分别以正序和逆序输入至2个LSTM神经网络，充分提取特征前后之间的关联性；

双向长短期记忆网络通过使用两个独立的LSTM网络处理前向和后向的顺序数据，前向LSTM从头到尾处理序列，而后向LSTM从头到尾处理序列，然后连接两个网络的输出以产生最终预测值。

其中，x_t表示当前t时刻的输入，h_t表示当前t时刻细胞的状态值。

最后，输出前向网络层和后向网络层结果堆叠的综合输出。

其中LSTM单元主要由记忆细胞、输入门、输出门、遗忘门组成，激活函数用于调节数值大小，输出范围为－1到1之间，输入门用来控制当前时刻神经单元的输入信息，遗忘门用来控制上一时刻神经单元中存储的历史信息，输出门用来控制当前时刻神经单元的输出信息。

通过设置输入层超参数、隐藏层神经元数量和层数以及输出层超参数来完成CNN-BiLSTM网络模型的搭建，将某一时刻污染物浓度数据作为模型的输入，模型输出则为输入数据对应下一时刻的预测值；

所述S4具体步骤如下：

S41:将两个模型的输出按照线性拼接得到关联矩阵，并生成条件关联矩阵，最终形成多站点多特征融合的时空信息矩阵；

S42:将两个模型之间关联矩阵通过注意力机制为所有输入特征逐个加权，得到新的输出结果，最终得出两个子模型隐藏层对应的注意力权重系数；

S43:将得到的权重与各个模型的最终输出进行结合，得到联合后的表达式，得到集成模型的注意力向量矩阵；

所述步骤S42的模型注意力权重计算：

将两个模型关联矩阵的数据通过注意力机制计算不同时刻数据对预测值的注意力向量，判断不同时刻数据对预测值的重要程度，使用SoftMax函数进行归一化得出每一个隐藏层向量的权重系数矩阵。

其中，e_ti为t时刻第i个隐藏层向量，h_(t-1)i、h_ti分别为第i个隐藏层向量在t-1和t时刻状态值，tanh为激活函数，U，V，W是权值矩阵，b是偏置项；

α_ti为t时刻第i个隐藏层向量的权重系数矩阵，Tx代表最后一个时间步T隐藏层向量的状态值；

目标值对依赖序列每个时间步t的注意力向量：

Softmax()表示利用softmax函数进行归一化操作。

两个模型的输出值乘以各自的注意力向量将得到集成模型权重系数分布矩阵。

所述S5具体包括以下步骤：

S51:进行两个模型训练，所有站点经纬度坐标分布信息矩阵作为GCN模型的输入，交通敏感污染物数据和气象因子序列，以及对应区域交通拥堵指数作为CNN-BiLSTM模型的输入，得到两个模型对应的输出；

S52:将两个模型的输出通过注意力机制学习，依据多站点时空特征之间的权重分布特点，集成训练得到下一时刻的预测值。

S53：通过集成模型参数的不断调整，计算损失函数，最终确定效果最佳网络结构，采用MAE，RMSE，R²作为集成模型评估的指标。

所述步骤S53集成模型损失函数计算及评估：

集成模型训练过程中以最小化损失函数为目标，使模型更精确地拟合训练数据，用于计算集成模型预测结果与标签结果的偏差，之后用于反向传播过程来更新梯度，通过不断地训练和优化集成模型参数，综合两个子模型输出的误差进行学习迭代，目的是将损失函数最小化，最终学习得到最佳的集成模型结构。

在集成模型的反向传播中，训练采用的损失函数为MSE，总误差表示为：

其中，P_t代表集成模型第t时刻的预测值，代表第t时刻真实值。

MAE通过计算真实值与预测值的绝对误差的平均值来刻画模型精度，公式如下：

RSME通过计算真实值与预测值之间差的平方和的均值的平方根，来衡量预测值与实际值之间的偏差程度，计算公式如下：

相关系数是用来计算预测值与实际值的相关程度，公式如下：

其中，是集成模型预测第t时刻的均值，/>是第t时刻的均值。

本发明的优点是：

一、本发明引入交通拥堵指数作为空气质量预测模型的新特征，准确了解城市交通拥堵信息及车辆尾气排放的强度和分布，可以识别拥堵区域和高污染源区域，有助于预测城市中不同区域的污染物浓度，通过将交通拥堵信息与气象数据和污染源数据结合，有效提高空气污染物预测的准确性。

二、本发明构建多源异构的数据集提供了不同空间和时间尺度上的数据，空气质量影响因素如气象因素、交通拥堵状况、工业排放和污染突发事件等，揭示不同因素对空气质量数据波动的贡献程度，有助于验证和改进空气质量预测模型的准确性和可靠性，并对相关污染源进行识别和追踪，模拟和预测污染物在城市和区域中的传输和扩散过程，这有助于预测污染物的浓度分布、高污染区域的形成过程以及预警突发污染事件的发生。

三、本发明提出的集成模型利用GCN模型提取站点间的空间关联特征，考虑了城市邻近站点间污染传输和扩散影响，针对序列过长出现不稳定和梯度消失的问题，提出了CNN-BiLSTM混合网络模型来学习不断波动的交通敏感污染物，可以有效捕获特征间的时间依赖性，全面刻画了交通敏感污染物关键节点变化趋势，提出利用注意力机制集成GCN和CNN-BiLSTM，最终的集成模型将影响空气质量的多种因素进行特征融合和时空关联，提取显著细粒度特征，实现更全面、准确和综合的分析和预测。

附图说明

图1为本发明方法的主要步骤流程示意图；

图2为本发明所构建的图卷积神经网络结构示意图；

图3为本发明所构建的CNN-BiLSTM混合网络模型结构图；

图4为本发明所构建的预测集成模型的整体结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项技术细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

如图1所示，一种基于交通拥堵指数和多源数据融合的空气质量预测方法，包括以下步骤：

数据集来源于公开渠道，时间跨度包含2017年和2018年时期，具体包括：

大气污染物浓度数据来自中国环境监测总站的全国城市空气质量实时发布平台，同时期的气象背景信息来自中国气象局，交通拥堵指数来源于上海市交通出行网，大气污染物质量浓度包括PM_2.5，PM₁₀，O₃，NO₂，CO，SO₂的逐小时数据，气象观测资料包括温度，湿度，降水量，污染物浓度影响因子包括交通拥堵指数，城市气象预警信息，污染传输和突发事件等因素。

交通拥堵指数(又称道路交通指数)是用量化方法表达道路交通运行拥堵程度，是道路交通状态的数字化表达，类似用温度表达天气冷热程度。道路交通指数反应了一定范围内道路的车流量大小。道路交通指数值用介于0-100之间的数值表达，数值越大，表明道路交通越拥堵，数值越小，表明交通越畅通。

作用域表征对污染物峰值浓度波动的贡献大小，分类编码的目的是确立权重和优先级，将污染事件作为环境影响修正因子。

原始特征数据集包括PM_2.5，PM₁₀，O₃，NO₂，CO，SO₂和温度，湿度，降水量，交通拥堵指数，共十个指标；解释补充数据集包括城市气象预警信息，污染传输和环境污染突发事件等因素。

利用气象因子和大气污染事件描述气候背景，用来表征污染物扩散速度及分析站点数据间的关联性。大规模污染传输事件(例如沙尘暴，台风等)是风险事件，设置为全局性和高优先级。

利用Python中的时间戳功能及画图函数定位出数据集中的异常峰值，找出描述解释对应时间点峰值出现的事件类型，再采用峰值贡献法转化为修正因子，用来表示某种突发事件对峰值产生的作用效果。

峰值贡献法公式：

其中β是修正因子。

利用图表进行道路畅通和道路拥堵这两阶段大气污染物的变化趋势分析对比，评估交通拥堵状况对单个污染物浓度的影响，筛选出道路拥堵现象前后波动幅度明显的污染物种类，以此作为交通敏感污染物。

其中交通敏感特征污染物包括PM_2.5，PM₁₀，O₃，NO₂四种类型，可以反映交通拥堵状况对城市区域污染物时空分布特征的影响。

步骤S14所述对数据进行缺失值处理，具体包括缺失的数据用均值填充，各空气质量监测站点的监测数据有不同程度的缺失情况,对于各缺失的污染物监测数据,短期的缺失值选择近7小时的平均值来代替,长期的缺失值选择近20小时的平均值来代替。

采用线性插值法对缺失数据进行数值填充，其计算公式为：

式中，x_i为缺失部分的值，x_j为x_i前面已知的值，x_k为x_i后面已知的值。

所述离群值处理具体包括：采用箱型图的方式对数据进行统计，利用箱型图通过显示一组数据的最大值、最小值、中位数及上下四分位数来对数据进行可视化，快速剔除明显偏离大部分数据的异常值。

最后从预处理后的数据中选取80％作为训练集用于建立模型并估计模型参数，余下20％作为测试集用于比较最终预测结果，在训练集中再选取10％作为验证集用于选择模型参数并防止模型过拟合。

各类污染物历史浓度根据时间和所采集站点生成具有i个时刻m个监测站点的对应时序数据Y^T，气象因素和交通拥堵指数作为多源因素数据X^C，其中包括i个时刻m个站点覆盖区域内的气象因素和交通拥堵指数数据，还有描述污染产生的k个影响因素；

S2:构建GCN模型，通过自定义邻接关系实现监测站点空间关联特征的提取，各站点间交通敏感污染物与气象要素的相关性分析，并将站点覆盖范围内的交通拥堵指数映射到污染物波动趋势中，实现交通拥堵指数特征融合；

步骤S21的图卷积网络构建，如图2所示，具体包括描述监测站间拓扑结构以及生成对应站点信息的特征矩阵。

根据L来计算城市中每两个站点间的距离，距离值越大表示关联性越弱。

其中a、c为两站点各自纬度信息，b、d为两站点各自经度信息，UA为城市面积。

对邻接矩阵A进行拉普拉斯变换生成矩阵

其中为自连接邻接矩阵，I_N为单位矩阵，/>为度矩阵。

具体关联规则如下：

其中σ()为非线性激活函数，W⁽ⁱ⁾为第i层权值矩阵，H⁽ⁱ⁾为第i层的激活值，且H⁽⁰⁾＝X。

皮尔逊相关系数的计算公式为：

根据皮尔逊相关系数分析结果，按相关性数值大小进行排序，设定相关系数阈值为0.8，筛选得到高于阈值的强相关的站点交通敏感污染物组合。

根据站点经纬度坐标，在地图上标记选定站点位置，通过站点与道路空间上匹配,将采集到交通拥堵指数数据分配到城市路网中。用ArcGIS软件,将站点与上海市路网进行空间连接以及与其最邻近道路进行匹配,将站点的污染监测范围作为匹配道路的交通拥堵指数的依据。站点覆盖区域内主要道路的道路拥堵状况用道路拥堵指数表示，利用灰色关联模型分析站点交通敏感污染物浓度与邻近道路交通拥堵状况的相近程度，具体方法如下：

各监测站点的交通敏感污染物浓度和覆盖区域内道路的交通拥堵指数。可以得到5个序列：PM_2.5(Y₁)，PM₁₀(Y₂)，O₃(Y₃)，NO₂(Y₄)以及邻近道路拥堵指数Z_i(k)，分别以Y₁，Y₂，Y₃，Y₄作为母系列，将数据集中原始数据进行初值化转换，消除量纲，其次求出站点污染物系列与交通拥堵指数系列在各时间点的绝对差、两级最小差与最大差。

Y_i ^*(k)＝Y_i(k)/Y_i(1)

通过将拉普拉斯矩阵中目标站点所在列的信息与空气质量输入矩阵相乘来提取多站点单特征的时空特征，有PM_2.5，PM₁₀，O₃，NO₂，气象因子，道路拥堵指数等M种特征，把以上M种特征通过以上相同的操作然后把它们进行线性拼接融合得到时空序列最终形成多站点多特征融合的时空特征矩阵/>

如图3所示，S3:利用TensorFlow框架实现CNN-BiLSTM混合网络模型的搭建，通过捕获各特征间的时空关联性，解决长时序数据特征尺度不一致问题，全面刻画空气质量变化趋势；

根据不同监测站点所采集特征污染物数据和气象因子，按照时间排序生成对应站点的时间序列Y^T，以及对应区域的交通拥堵指数Z^T。

Y^T＝[y₁,y₂,…,y_n-1]Z^T＝[z₁,z₂,…,z_n-1]

其中y_n-1代表第n-1时刻所有站点的污染物和气象数据，z_n-1代表第n-1时刻所有站点邻近道路的交通拥堵指数。

其中代表第m个监测站点n-1时刻的污染物和气象数据，/>代表第m个监测站点n-1时刻的交通拥堵指数。

将污染物数据和气象数据转化为二维矩阵，矩阵的每一行为一个站点的交通敏感污染物信息,气象信息以及交通拥堵指数，每一列为某一种特定污染物信息或特定的气象信息，将被转化成二维矩阵输入到CNN中，通过卷积层提取每种特征的空间特征，得到的多个特征图作为池化层输入，池化层将输出同样个数的缩小后的特征图。

CNN卷积神经网络采用的是一维卷积以及一维池化层，卷积层滤波器大小设置为96，激活函数设置为ReLU，卷积操作过程为：

其中，η为当前训练的层数，m代表特征值，f()为卷积操作，k为各层卷积核，i，j均为特征值下标，b为偏置项。

池化层操作过程为；

其中，β和b分别作为输出值的乘性和加性偏置，down表示下采样函数；

由于经过池化层后的数据为二维数据，无法直接输出，因此使用压平层将数据进行压平操作，将所有特征图展开成同样个数的一维向量，再经过全连接层的解码，得到转化后的特征值。

LSTM三个门的具体表示如下：

式中，x_t为当前t时刻的输入值，h_t-1、h_t分别为LSTM层在t-1和t时刻的输出，f_t表示遗忘门，i_t表示输入门，ο_t表示输出门，C_t表示记忆单元，w是门的权值矩阵，b是门的偏置，可得到当前t时刻的状态值输出h_t与更新的细胞状态C_t。

最后，输出前向网络层和后向网络层结果堆叠的综合输出。

通过设置输入层超参数、隐藏层神经元数量和层数以及输出层超参数来完成CNN-BiLSTM网络模型的构建，将Y^T作为模型的输入，模型输出为输入数据对应下一时刻的预测值，记为Y^T+1，计算公式如下：

Y^T+1＝CNN-BiLSTM|(ο_t,H_t)Y^T|

其中，是n时刻某一特定站点空气质量的预测值，(ο_t,H_t)代表初始时刻的记忆状态和隐藏状态。

CNN-BiLSTM混合模型的设置参数包括：其中CNN神经网络的卷积层层数为1，卷积核个数为64，批数据量大小为128，epochs为100，激活函数为ReLU函数，BiLSTM的批数据量大小为128，epochs为100，Dropout为0.5，优化算法为Adam，隐藏层数量为100，其余参数均为默认值。

S4:利用注意力机制集成GCN模型和CNN-BiLSTM模型，捕捉关键时间点交通敏感污染物特征信息，精细化处理不同维度特征，并进行集成模型优化和训练；

条件关联矩阵其中/>代表矩阵的加法。

在条件性关联矩阵的基础上加上联合关联矩阵模块具体计算规则：

其中，表示矩阵的乘法，I_m×m表示行和列都为m的单位矩阵，此单位矩阵的形状由输入数据中的特征个数决定，I_n×n表示行和列都为n的单位矩阵，此单位矩阵的形状由输入数据的预测时刻的数目决定。

如图4所示，S42:将两个模型之间关联矩阵通过注意力机制为所有输入特征逐个加权，得到新的输出结果，最终得出两个子模型隐藏层对应的注意力权重系数；

权重训练过程如下：

e_ti＝Vtanh(Wh_(t-1)i+Uh_ti+b)

α_ti为t时刻第i个隐藏层向量的权重系数矩阵，Tx代表最后一个时间步T隐藏层向量的状态值。

目标值对依赖序列每个时间步t的注意力向量：

Softmax()表示利用softmax函数进行归一化操作。

两个模型的注意力权重系数计算公式为：

α_CB＝f(H_t,Y_t)

其中，α_CB，α_GN为CNN-BiLSTM混合模型和GCN模型的注意力权重系数。

将得到的注意力权重系数与各个模型的最终输出进行结合，得到联合后集成模型输出表达式：

其中，表示各个模型最终乘以注意力权重系数得到的最终联合表征。

S5:利用训练好的集成模型，采用气象因素，以及交通拥堵指数和空气质量状况对特征污染物浓度进行综合预测，并选择误差指标定量分析集成模型预测效果；

S51:进行两个模型训练，所有站点经纬度坐标分布信息矩阵作为GCN模型的输入，特征污染物数据和气象因子序列，以及对应区域交通拥堵指数作为CNN-BiLSTM模型的输入，得到两个模型对应的输出；

所有监测站点地理位置信息和交通敏感污染物历史数据融合特征矩阵通过图卷积神经网络训练输出为/>由交通敏感污染物历史数据、气象因子和对应的交通拥堵指数数据Y^T经CNN-BiLSTM混合神经网络模型输出为Y^T+1。/>

集成模型训练得到T+1时刻的预测值P^T+1。

其中，φ代表整个集成训练模型，·代表权重分配运算。

S53：通过集成模型参数的不断调整，计算损失函数，最终确定效果最佳网络结构，采用MAE，RMSE，R²作为集成模型评估的指标；

选取每个监测站点的特征污染物浓度作为预期输出，最后通过反向传播对两个模型实现参数更新，损失函数采用MSE，优化器采用Adam，设置最大训练次数为2000，采用MAE，RMSE，R²作为模型评估的指标。通过不断的参数调整，最终选取误差最低的参数作为预测模型的网络参数。

其中，是集成模型预测第t时刻的均值，/>是第t时刻的均值。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于：具体包括以下步骤：

S1:采集城市国控站点大气污染物和气象要素数据，添加交通拥堵指数相关影响因子，并进行预处理，汇总生成多因素表达和多类型特征的大气污染物信息序列；

S3:利用TensorFlow框架实现CNN-BiLSTM混合模型的搭建，通过捕获各特征间的时空关联性，解决长时序数据特征尺度不一致问题，全面刻画空气质量变化趋势；

S5:利用训练好的集成模型，采用气象要素数据、交通拥堵指数和空气质量状况对特征污染物浓度进行综合预测，并选择误差指标定量分析集成模型预测效果。

2.根据权利要求1所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：所述步骤S1包括以下步骤：

S11:获取城市空气质量监测站常规污染物、气象要素数据以及交通拥堵指数历史数据，并收集污染传输和突发事件信息，构成多源异构数据集；

S12:依据逻辑与因果规则对多源异构数据集进行拆分和筛选，多源异构数据集按特征属性及来源划分为原始特征和解释补充两种类型；

S14:对初步筛选的数据进行预处理，其中包括缺失值填充、离群值和归一化处理。

3.根据权利要求2所述的一种基于交通拥堵指数和多源数据融合预测疫情期间空气质量方法，其特征在于：步骤S14所述的对初步筛选的数据进行预处理，具体包括：

将所有缺失的数据用相应特征的平均值填充，采用箱型图的方式对数据进行统计，剔除明显偏离大部分数据的异常值，并采用最大最小归一化处理，归一化指定区间为0到1。

4.根据权利要求3所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：所述步骤S2包括以下步骤：

S21:构建GCN模型提取监测站点空间关联特征，挖掘多站点污染物浓度间隐含的时空关系，解释监测站点间污染扩散和趋同现象；

S22:使用皮尔逊相关系数对多个站点和单站点的交通敏感污染物与气象要素数据进行相关性分析，并确定相关性阈值；

S23:通过站点覆盖范围与周边道路的匹配,将交通拥堵指数融合到城市路网中，定量描述交通拥堵事件对污染物浓度变化的贡献。

5.根据权利要求4所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：步骤S21所述的构建GCN模型，包括描述监测站间拓扑结构以及生成对应站点信息的特征矩阵，具体如下：

根据各站点地理位置信息构建目标站点所在城市环境监测站点的拓扑图G，计算所有站点间的关联度，并存储在邻接矩阵A中；

其中拓扑图G:G＝(V,E)用于描述多个城市监测站点间的拓扑结构，图中每个节点代表一个环境监测站点，V代表城市中所有站点的集合，V＝(V₁,V₂,L,V_N)，E表示为各监测站点间边的集合，N为监测站点总数量；

以两站点间距离的倒数来表示节点连接边的权重值，并存储在邻接矩阵A中；

基于城市环境监测站点不同时刻的空气质量数据构建特征矩阵X^N×P，其中P表示节点属性的数量特征，特征矩阵中存储着拓扑图中各节点自身信息；

通过自定义的关联规则聚合和转化所有邻接节点的特征，以获得邻接节点的最优特征组合，即提取站点间的空间关系。

6.根据权利要求5所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：步骤S23所述的交通拥堵指数的匹配融合，包括利用灰色关联模型将交通拥堵指数融合到污染物数据中，具体如下：

将数据集中原始数据进行初值化转换，消除量纲，其次求出站点污染物系列与交通拥堵指数系列在各时间点的绝对差、两级最小差与最大差；

Y_i ^*(k)＝Y_i(k)/Y_i(1)

Y_i ^*(k)为k时刻目标站点第i个污染物初值化转换后的数值，Y_i(k)表示k时刻目标站点第i个污染物原始数据的数值；

式中，ξ_i(k)表示k时刻的关联系数，k的取值为0,1,2,L,n，ρ为分辨系数，范围是(0,1)，代表目标站点邻近道路的交通拥堵指数初值化数值，/>表示求两列数据的两级最小差，/>表示求两列数据的两级最大差；

利用得到所有时刻的关联系数计算出各类污染物与交通拥堵指数间的关联度r_M:

M取值为0,1,2,L,M，表示交通敏感污染物的种类，ξ_i(n)表示目标站点n时刻第i个污染物与交通拥堵指数关联系数。

7.根据权利要求5所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：所述步骤S3包括以下步骤：

CNN卷积层采取一维卷积进行特征提取，卷积后再进行最大池化操作，再经过全连接层的解码，输出转化后的特征值；

S32:提取特征后的序列向下传递到BiLSTM层，分别以正序和逆序输入至2个LSTM神经网络，充分提取特征前后之间的关联性。

8.根据权利要求7所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：所述步骤S4包括以下步骤：

S41:将两个模型的输出按照线性拼接得到关联矩阵，并按规则生成条件关联矩阵；

S42:关联矩阵通过注意力机制为所有输入特征逐个加权，得到新的输出结果，最终得出两个子模型隐藏层对应的注意力权重；

S43:将得到的权重与各个模型的最终输出进行结合，即集成模型的注意力向量矩阵。

9.根据权利要求8所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：所述步骤S42的模型注意力权重计算：

将两个模型关联矩阵的数据通过注意力机制计算不同时刻数据对预测值的注意力向量，判断不同时刻数据对预测值的重要程度，使用SoftMax函数进行归一化得出每一个隐藏层向量的权重系数矩阵：

e_ti＝V tanh(Wh_(t-1)i+Uh_ti+b)

其中，e_ti为t时刻第i个隐藏层向量，h_(t-1)i、h_ti分别为第i个隐藏层向量在t-1和t时刻状态值，tanh为激活函数，U、V、W是权值矩阵，b是偏置项；

目标值对依赖序列每个时间步t的注意力向量：

Softmax()表示利用softmax函数进行归一化操作。

10.根据权利要求9所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法，其特征在于：所述步骤S5包括以下步骤：

S51:进行两个模型训练，多站点地理位置分布信息矩阵作为GCN模型的输入，交通敏感污染物数据和气象因子序列，以及所在区域交通拥堵指数作为CNN-BiLSTM模型的输入，得到两个模型对应的输出；

S52:将两个模型的输出通过注意力机制学习，依据多站点时空特征之间的权重分布特点，集成训练得到下一时刻的预测值；

S53:通过集成模型参数的不断调整，计算损失函数，最终确定效果最佳网络结构，采用MAE、RMSE、R²作为集成模型评估的指标；

选取每个监测站点的特征污染物浓度作为预期输出，最后通过反向传播对两个模型实现参数更新，损失函数采用RMSE，优化器采用Adam，设置最大训练次数为2000，采用MAE，RMSE，R²作为模型评估的指标，通过不断的参数调整，最终选取误差最低的参数作为预测模型的网络参数。