CN117494034A - 基于交通拥堵指数和多源数据融合的空气质量预测方法 - Google Patents
基于交通拥堵指数和多源数据融合的空气质量预测方法 Download PDFInfo
- Publication number
- CN117494034A CN117494034A CN202311011305.8A CN202311011305A CN117494034A CN 117494034 A CN117494034 A CN 117494034A CN 202311011305 A CN202311011305 A CN 202311011305A CN 117494034 A CN117494034 A CN 117494034A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- traffic
- traffic congestion
- air quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000004927 fusion Effects 0.000 title claims abstract description 28
- 239000003344 environmental pollutant Substances 0.000 claims abstract description 107
- 231100000719 pollutant Toxicity 0.000 claims abstract description 107
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 68
- 238000012544 monitoring process Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 26
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000009792 diffusion process Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 17
- 239000013618 particulate matter Substances 0.000 description 11
- 230000010354 integration Effects 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 6
- 210000005036 nerve Anatomy 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000003915 air pollution Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000356 contaminant Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000809 air pollutant Substances 0.000 description 2
- 231100001243 air pollutant Toxicity 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N15/00—Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
- G01N15/06—Investigating concentration of particle suspensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Dispersion Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于交通拥堵指数和多源数据融合的空气质量预测方法,对城市国控站点大气污染物、气象要素数据及交通拥堵指数等相关影响因子进行采集、预处理,建立多源异构数据集;构建GCN模型,通过灰色关联模型实现交通拥堵指数特征融合;建立交通拥堵指数与交通敏感污染物、气象要素的映射关系;采用历史空气质量状况、气象因素和交通拥堵指数对交通敏感污染物浓度进行预测,并对集成模型预测效果进行评估;本发明将交通拥堵指数与气象数据和污染物数据相结合,考虑交通拥堵情况对区域污染物浓度的时空分布的影响,评估污染突发事件影响解决空气质量数据波动变化大,预测效果不够精确等问题,提高空气质量预测模型的准确性和可靠性。
Description
技术领域
本发明涉及面向深度学习的空气质量预测技术领域,尤其涉及一种基于交通拥堵指数和多源数据融合的空气质量预测方法。
背景技术
空气污染是影响公共卫生的重要因素,空气质量预测是空气污染预警的关键,因此预测空气质量的走势已经成为现今科学研究的热点问题。但空气污染是个复杂的现象,在特定时间和地点空气污染物浓度受到许多因素影响,主要受到气象条件、时间依赖性和空间相关性的影响,例如温度、湿度、风速等自然因素以及道路交通状况、污染源排放情况等人为因素是主要影响因素,城市的人口密度、地形地貌和气象等也是影响空气质量的重要因素,这些因素加大了空气质量精准预测的难度。
城市交通状况对空气质量有着重要的影响和贡献,交通活动产生的尾气排放是城市空气污染的主要源之一,交通状况对空气质量的影响是动态变化的,包括交通流量、道路状况和交通运输模式的改变等。交通拥堵限制了空气中污染物的扩散,尤其是在密集的城市区域和狭窄的街道上,拥堵导致空气中的污染物停滞不前,增加了污染物的排放量和浓度,形成局部污染区域,对城市空气质量产生显著的负面影响,因此,通过将交通拥堵指数与气象数据和污染物数据结合,可以提高空气质量预测的准确性,并为城市空气质量管理和改善提供科学依据。
生态环境大数据存在来源高维、高复杂性及不确定性的特点,大数据技术能有效处理多来源、多类型、多尺度数据。对多源异构数据的集成、整合及分析是当前环境监测大数据研究面临的难题,深度学习模型对于大数据分析的性能优异,对特征提取与预测的能力远超传统算法。因此,在大数据时代的背景下,利用深度学习模型,同时结合传统优化算法进行空气质量预测成为最具潜力的研究方向之一。
发明内容
本发明目的就是为了弥补已有技术的缺陷,提供一种基于交通拥堵指数和多源数据融合的空气质量预测方法。本发明针对城市空气质量状况从时空特征,交通拥堵状况和污染来源等多方面及多指标开展耦合研究,将交通拥堵指数与气象数据和大气污染物数据相融合,揭示污染物浓度的时空分布特点,可以提高空气质量预测模型的准确性和可靠性,及时预警和预测环境污染事件的发生。
本发明是通过以下技术方案实现的:
一种基于交通拥堵指数和多源数据融合的空气质量预测方法,包括以下步骤:
S1:采集城市国控站点大气污染物和气象要素数据,添加交通拥堵指数等相关影响因子,并进行预处理,汇总生成多因素表达和多类型特征的大气污染物信息序列;
S2:构建图卷积神经网络模型(简称GCN模型),通过自定义邻接关系实现监测站点空间关联特征的提取,各站点间交通敏感污染物与气象要素的相关性分析,并将站点覆盖范围内的道路拥堵指数映射到污染物波动趋势中,实现交通拥堵指数特征融合;
S3:利用TensorFlow框架实现卷积神经网络与双向长短期记忆网络混合模型(简称CNN-BiLSTM模型)的搭建,通过捕获各特征间的时空关联性,解决长时序数据特征尺度不一致问题,全面刻画空气质量变化趋势;
S4:利用注意力机制集成GCN模型和CNN-BiLSTM模型,捕捉关键时间点污染物特征信息,精细化处理不同维度特征,并进行集成模型优化和训练;
S5:利用训练好的集成模型,采用气象因素,以及交通拥堵指数和空气质量状况对交通敏感污染物浓度进行综合预测,并选择误差指标定量分析集成模型预测效果;
所述步骤S1具体包括以下步骤:
S11:获取城市空气质量监测站常规污染物、气象要素以及交通拥堵指数历史数据,并收集大气污染传输和突发事件等信息,构成多源异构数据集;
S12:依据逻辑与因果关系对多源数据集进行拆分和筛选,降低数据特征数量,特征指标组合最优化;
多源异构数据集按特征属性被划分为原始特征和解释补充两种类型,原始特征数据集包含污染物和气象因素时间变化特征,解释补充数据集由各类污染事件构成,用来解释特征数据集出现异常峰值的原因,根据作用域大小进行分类编码,将文字型数据转换为数值型嵌入数据集中。
其中作用域表征对污染物峰值浓度波动的贡献大小,分类编码的目的是确立权重和优先级,将污染事件作为环境影响修正因子。
S13:对各类型大气污染物变化趋势进行对比分析,选择受交通拥堵状况影响明显波动的污染物种类,以此作为交通敏感污染物;
S14:对初步筛选的数据进行预处理,其中包括缺失值填充和离群值处理,再采用最大最小归一化处理,归一化指定区间为0到1,所述最大最小归一化公式为:
式中,X为归一化后的最终结果,x为原始值,xmin为原始数据的最小值,xmax为原始数据的最大值。
步骤S14所述对数据进行缺失值处理,具体包括缺失的数据用均值填充,采用箱型图的方式对数据进行统计和展示,剔除明显偏离大部分数据的离群值。
所述步骤S2具体包括以下步骤:
S21:根据已采集站点的地理位置和覆盖半径,利用图卷积网络建立空间关联规则,提取各站点监测数据间的时空关联信息,解释监测站点间污染扩散和趋同现象;
S22:使用皮尔逊相关系数对站点的交通敏感污染物进行空间维度与时间维度上的相关性分析,掌握污染物浓度和气象因子数据特征相关性,并设置相关系数阈值;
皮尔逊相关系数的计算公式为:
公式中,COV(X,Y)是特征X和Y之间的协方差,σX,σY分别为特征X和Y的标准差。
步骤S21的图卷积网络,具体包括描述监测站间拓扑结构以及生成对应站点信息的特征矩阵。
根据各站点地理位置信息构建目标站点所在城市环境监测站点的拓扑图G并计算两两站点间的关联度存储在邻接矩阵A中。
其中拓扑图G:G=(V,E)可用于描述多个城市监测站点间的拓扑结构,图中每个节点代表一个环境监测站点,V代表城市中所有站点的集合,V=(V1,V2,…,VN),E表示为各监测站点间边的集合,N为监测站点总数量。
通过计算两站点间距离的倒数来表示关联程度并作为对应站点连边权重值存储在邻接矩阵A中,A∈RN×N。
基于城市环境监测站点不同时刻的空气质量数据构建特征矩阵XN×P,其中P表示节点属性的数量特征,特征矩阵中存储着拓扑图中各节点自身信息。
对邻接矩阵A进行拉普拉斯变换生成矩阵
其中为自连接邻接矩阵,IN为单位矩阵,/>为度矩阵。
通过自定义的关联规则聚合和转化相关联节点的特征,以获得邻接节点的最优特征组合,即提取站点间的空间关系。
S23:根据监测站点经纬度坐标,在地图上标记所选监测站点位置,通过站点与周边道路的距离匹配,可将采集到交通拥堵指数数据分配到城市路网中,实现交通拥堵指数与气象数据和交通敏感污染物数据的融合;
利用灰色关联模型分析站点交通敏感污染物浓度与邻近道路交通拥堵状况的相近程度,建立时空关联和多特征融合的空气质量数据集以进行预测建模和训练。
将数据集中原始数据进行初值化转换,消除量纲,其次求出站点交通敏感污染物系列与交通拥堵指数系列在各时间点的绝对差、两级最小差与最大差。
Yi *(k)=Yi(k)/Yi(1)
Yi *(k)为k时刻目标站点第i个污染物初值化转换后的数值,Yi(k)表示k时刻目标站点第i个污染物原始数据的数值。
不同监测站点交通拥堵指数序列对污染物序列在k时刻的关联系数:
式中,ξi(k)表示k时刻的关联系数,k的取值为0,1,2,…,n,ρ为分辨系数,范围是(0,1),经常取值0.5。代表目标站点邻近道路的交通拥堵指数初值化数值,表示求两列数据的两级最小差,/>表示求两列数据的两级最大差。
利用得到所有时刻的关联系数计算出各类交通敏感污染物与交通拥堵指数间的关联度rM,数值越接近1,说明关联程度越高。
M取值为0,1,2,…,M,表示交通敏感污染物的种类,ξi(n)表示目标站点n时刻第i个污染物与交通拥堵指数关联系数。
所述步骤S3具体包括以下步骤:
S31:确定CNN神经网络各层的结构,压缩和提取输入数据重要特征;
CNN的本质特征是局部感知和参数共享,由卷积层、池化层、全连接层组成,从原始输入数据中提取空间特征,实现原始数据的高维特征表示,同时减少神经网络计算过程中的参数。
卷积层采取一维卷积,卷积核数目为r,尺寸设置为s,卷积核只按照单一的时域方向进行卷积,滑动步长为1,对每s个时间步的序列向量进行一次特征提取,得到一个特征图,当一个卷积核提取完一条样本的序列数据后,将会得到一个t-s+1形状的特征图。
其中CNN卷积层共有r个卷积核,因此最终会得到r个特征图。卷积后再进行最大池化操作,压平层将所有特征图展开成同样个数的一维向量,再经过全连接层的解码,得到转化后的特征值;
S32:提取特征后的序列向下传递到BiLSTM层,分别以正序和逆序输入至2个LSTM神经网络,充分提取特征前后之间的关联性;
双向长短期记忆网络通过使用两个独立的LSTM网络处理前向和后向的顺序数据,前向LSTM从头到尾处理序列,而后向LSTM从头到尾处理序列,然后连接两个网络的输出以产生最终预测值。
其中,xt表示当前t时刻的输入,ht表示当前t时刻细胞的状态值。
最后,输出前向网络层和后向网络层结果堆叠的综合输出。
其中LSTM单元主要由记忆细胞、输入门、输出门、遗忘门组成,激活函数用于调节数值大小,输出范围为-1到1之间,输入门用来控制当前时刻神经单元的输入信息,遗忘门用来控制上一时刻神经单元中存储的历史信息,输出门用来控制当前时刻神经单元的输出信息。
通过设置输入层超参数、隐藏层神经元数量和层数以及输出层超参数来完成CNN-BiLSTM网络模型的搭建,将某一时刻污染物浓度数据作为模型的输入,模型输出则为输入数据对应下一时刻的预测值;
所述S4具体步骤如下:
S41:将两个模型的输出按照线性拼接得到关联矩阵,并生成条件关联矩阵,最终形成多站点多特征融合的时空信息矩阵;
S42:将两个模型之间关联矩阵通过注意力机制为所有输入特征逐个加权,得到新的输出结果,最终得出两个子模型隐藏层对应的注意力权重系数;
S43:将得到的权重与各个模型的最终输出进行结合,得到联合后的表达式,得到集成模型的注意力向量矩阵;
所述步骤S42的模型注意力权重计算:
将两个模型关联矩阵的数据通过注意力机制计算不同时刻数据对预测值的注意力向量,判断不同时刻数据对预测值的重要程度,使用SoftMax函数进行归一化得出每一个隐藏层向量的权重系数矩阵。
其中,eti为t时刻第i个隐藏层向量,h(t-1)i、hti分别为第i个隐藏层向量在t-1和t时刻状态值,tanh为激活函数,U,V,W是权值矩阵,b是偏置项;
αti为t时刻第i个隐藏层向量的权重系数矩阵,Tx代表最后一个时间步T隐藏层向量的状态值;
目标值对依赖序列每个时间步t的注意力向量:
Softmax()表示利用softmax函数进行归一化操作。
两个模型的输出值乘以各自的注意力向量将得到集成模型权重系数分布矩阵。
所述S5具体包括以下步骤:
S51:进行两个模型训练,所有站点经纬度坐标分布信息矩阵作为GCN模型的输入,交通敏感污染物数据和气象因子序列,以及对应区域交通拥堵指数作为CNN-BiLSTM模型的输入,得到两个模型对应的输出;
S52:将两个模型的输出通过注意力机制学习,依据多站点时空特征之间的权重分布特点,集成训练得到下一时刻的预测值。
S53:通过集成模型参数的不断调整,计算损失函数,最终确定效果最佳网络结构,采用MAE,RMSE,R2作为集成模型评估的指标。
所述步骤S53集成模型损失函数计算及评估:
集成模型训练过程中以最小化损失函数为目标,使模型更精确地拟合训练数据,用于计算集成模型预测结果与标签结果的偏差,之后用于反向传播过程来更新梯度,通过不断地训练和优化集成模型参数,综合两个子模型输出的误差进行学习迭代,目的是将损失函数最小化,最终学习得到最佳的集成模型结构。
在集成模型的反向传播中,训练采用的损失函数为MSE,总误差表示为:
其中,Pt代表集成模型第t时刻的预测值,代表第t时刻真实值。
MAE通过计算真实值与预测值的绝对误差的平均值来刻画模型精度,公式如下:
RSME通过计算真实值与预测值之间差的平方和的均值的平方根,来衡量预测值与实际值之间的偏差程度,计算公式如下:
相关系数是用来计算预测值与实际值的相关程度,公式如下:
其中,是集成模型预测第t时刻的均值,/>是第t时刻的均值。
本发明的优点是:
一、本发明引入交通拥堵指数作为空气质量预测模型的新特征,准确了解城市交通拥堵信息及车辆尾气排放的强度和分布,可以识别拥堵区域和高污染源区域,有助于预测城市中不同区域的污染物浓度,通过将交通拥堵信息与气象数据和污染源数据结合,有效提高空气污染物预测的准确性。
二、本发明构建多源异构的数据集提供了不同空间和时间尺度上的数据,空气质量影响因素如气象因素、交通拥堵状况、工业排放和污染突发事件等,揭示不同因素对空气质量数据波动的贡献程度,有助于验证和改进空气质量预测模型的准确性和可靠性,并对相关污染源进行识别和追踪,模拟和预测污染物在城市和区域中的传输和扩散过程,这有助于预测污染物的浓度分布、高污染区域的形成过程以及预警突发污染事件的发生。
三、本发明提出的集成模型利用GCN模型提取站点间的空间关联特征,考虑了城市邻近站点间污染传输和扩散影响,针对序列过长出现不稳定和梯度消失的问题,提出了CNN-BiLSTM混合网络模型来学习不断波动的交通敏感污染物,可以有效捕获特征间的时间依赖性,全面刻画了交通敏感污染物关键节点变化趋势,提出利用注意力机制集成GCN和CNN-BiLSTM,最终的集成模型将影响空气质量的多种因素进行特征融合和时空关联,提取显著细粒度特征,实现更全面、准确和综合的分析和预测。
附图说明
图1为本发明方法的主要步骤流程示意图;
图2为本发明所构建的图卷积神经网络结构示意图;
图3为本发明所构建的CNN-BiLSTM混合网络模型结构图;
图4为本发明所构建的预测集成模型的整体结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项技术细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
如图1所示,一种基于交通拥堵指数和多源数据融合的空气质量预测方法,包括以下步骤:
S1:采集城市国控站点大气污染物和气象要素数据,添加交通拥堵指数等相关影响因子,并进行预处理,汇总生成多因素表达和多类型特征的大气污染物信息序列;
S11:获取城市空气质量监测站常规污染物、气象要素以及交通拥堵指数历史数据,并收集大气污染传输和突发事件等信息,构成多源异构数据集;
数据集来源于公开渠道,时间跨度包含2017年和2018年时期,具体包括:
大气污染物浓度数据来自中国环境监测总站的全国城市空气质量实时发布平台,同时期的气象背景信息来自中国气象局,交通拥堵指数来源于上海市交通出行网,大气污染物质量浓度包括PM2.5,PM10,O3,NO2,CO,SO2的逐小时数据,气象观测资料包括温度,湿度,降水量,污染物浓度影响因子包括交通拥堵指数,城市气象预警信息,污染传输和突发事件等因素。
交通拥堵指数(又称道路交通指数)是用量化方法表达道路交通运行拥堵程度,是道路交通状态的数字化表达,类似用温度表达天气冷热程度。道路交通指数反应了一定范围内道路的车流量大小。道路交通指数值用介于0-100之间的数值表达,数值越大,表明道路交通越拥堵,数值越小,表明交通越畅通。
S12:依据逻辑与因果关系对多源数据集进行拆分和筛选,降低数据特征数量,特征指标组合最优化;
多源异构数据集按特征属性被划分为原始特征和解释补充两种类型,原始特征数据集包含污染物和气象因素时间变化特征,解释补充数据集由各类污染事件构成,用来解释特征数据集出现异常峰值的原因,根据作用域大小进行分类编码,将文字型数据转换为数值型嵌入数据集中。
作用域表征对污染物峰值浓度波动的贡献大小,分类编码的目的是确立权重和优先级,将污染事件作为环境影响修正因子。
原始特征数据集包括PM2.5,PM10,O3,NO2,CO,SO2和温度,湿度,降水量,交通拥堵指数,共十个指标;解释补充数据集包括城市气象预警信息,污染传输和环境污染突发事件等因素。
利用气象因子和大气污染事件描述气候背景,用来表征污染物扩散速度及分析站点数据间的关联性。大规模污染传输事件(例如沙尘暴,台风等)是风险事件,设置为全局性和高优先级。
利用Python中的时间戳功能及画图函数定位出数据集中的异常峰值,找出描述解释对应时间点峰值出现的事件类型,再采用峰值贡献法转化为修正因子,用来表示某种突发事件对峰值产生的作用效果。
峰值贡献法公式:
其中β是修正因子。
S13:对各类型大气污染物变化趋势进行对比分析,选择受交通拥堵状况影响明显波动的污染物种类,以此作为交通敏感污染物;
利用图表进行道路畅通和道路拥堵这两阶段大气污染物的变化趋势分析对比,评估交通拥堵状况对单个污染物浓度的影响,筛选出道路拥堵现象前后波动幅度明显的污染物种类,以此作为交通敏感污染物。
其中交通敏感特征污染物包括PM2.5,PM10,O3,NO2四种类型,可以反映交通拥堵状况对城市区域污染物时空分布特征的影响。
S14:对初步筛选的数据进行预处理,其中包括缺失值填充和离群值处理,再采用最大最小归一化处理,归一化指定区间为0到1,所述最大最小归一化公式为:
式中,X为归一化后的最终结果,x为原始值,xmin为原始数据的最小值,xmax为原始数据的最大值。
步骤S14所述对数据进行缺失值处理,具体包括缺失的数据用均值填充,各空气质量监测站点的监测数据有不同程度的缺失情况,对于各缺失的污染物监测数据,短期的缺失值选择近7小时的平均值来代替,长期的缺失值选择近20小时的平均值来代替。
采用线性插值法对缺失数据进行数值填充,其计算公式为:
式中,xi为缺失部分的值,xj为xi前面已知的值,xk为xi后面已知的值。
所述离群值处理具体包括:采用箱型图的方式对数据进行统计,利用箱型图通过显示一组数据的最大值、最小值、中位数及上下四分位数来对数据进行可视化,快速剔除明显偏离大部分数据的异常值。
最后从预处理后的数据中选取80%作为训练集用于建立模型并估计模型参数,余下20%作为测试集用于比较最终预测结果,在训练集中再选取10%作为验证集用于选择模型参数并防止模型过拟合。
各类污染物历史浓度根据时间和所采集站点生成具有i个时刻m个监测站点的对应时序数据YT,气象因素和交通拥堵指数作为多源因素数据XC,其中包括i个时刻m个站点覆盖区域内的气象因素和交通拥堵指数数据,还有描述污染产生的k个影响因素;
S2:构建GCN模型,通过自定义邻接关系实现监测站点空间关联特征的提取,各站点间交通敏感污染物与气象要素的相关性分析,并将站点覆盖范围内的交通拥堵指数映射到污染物波动趋势中,实现交通拥堵指数特征融合;
S21:根据已采集站点的地理位置和覆盖半径,利用图卷积网络建立空间关联规则,提取各站点监测数据间的时空关联信息,解释监测站点间污染扩散和趋同现象;
步骤S21的图卷积网络构建,如图2所示,具体包括描述监测站间拓扑结构以及生成对应站点信息的特征矩阵。
根据各站点地理位置信息构建目标站点所在城市环境监测站点的拓扑图G并计算两两站点间的关联度存储在邻接矩阵A中。
其中拓扑图G:G=(V,E)可用于描述多个城市监测站点间的拓扑结构,图中每个节点代表一个环境监测站点,V代表城市中所有站点的集合,V=(V1,V2,…,VN),E表示为各监测站点间边的集合,N为监测站点总数量。
通过计算两站点间距离的倒数来表示关联程度并作为对应站点连边权重值存储在邻接矩阵A中,A∈RN×N。
根据L来计算城市中每两个站点间的距离,距离值越大表示关联性越弱。
其中a、c为两站点各自纬度信息,b、d为两站点各自经度信息,UA为城市面积。
基于城市环境监测站点不同时刻的空气质量数据构建特征矩阵XN×P,其中P表示节点属性的数量特征,特征矩阵中存储着拓扑图中各节点自身信息。
对邻接矩阵A进行拉普拉斯变换生成矩阵
其中为自连接邻接矩阵,IN为单位矩阵,/>为度矩阵。
通过自定义的关联规则聚合和转化相关联节点的特征,以获得邻接节点的最优特征组合,即提取站点间的空间关系。
具体关联规则如下:
其中σ()为非线性激活函数,W(i)为第i层权值矩阵,H(i)为第i层的激活值,且H(0)=X。
S22:使用皮尔逊相关系数对站点的交通敏感污染物进行空间维度与时间维度上的相关性分析,掌握污染物浓度和气象因子数据特征相关性,并设置相关系数阈值;
皮尔逊相关系数的计算公式为:
公式中,COV(X,Y)是特征X和Y之间的协方差,σX,σY分别为特征X和Y的标准差。
根据皮尔逊相关系数分析结果,按相关性数值大小进行排序,设定相关系数阈值为0.8,筛选得到高于阈值的强相关的站点交通敏感污染物组合。
S23:根据监测站点经纬度坐标,在地图上标记所选监测站点位置,通过站点与周边道路的距离匹配,可将采集到交通拥堵指数数据分配到城市路网中,实现交通拥堵指数与气象数据和交通敏感污染物数据的融合;
根据站点经纬度坐标,在地图上标记选定站点位置,通过站点与道路空间上匹配,将采集到交通拥堵指数数据分配到城市路网中。用ArcGIS软件,将站点与上海市路网进行空间连接以及与其最邻近道路进行匹配,将站点的污染监测范围作为匹配道路的交通拥堵指数的依据。站点覆盖区域内主要道路的道路拥堵状况用道路拥堵指数表示,利用灰色关联模型分析站点交通敏感污染物浓度与邻近道路交通拥堵状况的相近程度,具体方法如下:
各监测站点的交通敏感污染物浓度和覆盖区域内道路的交通拥堵指数。可以得到5个序列:PM2.5(Y1),PM10(Y2),O3(Y3),NO2(Y4)以及邻近道路拥堵指数Zi(k),分别以Y1,Y2,Y3,Y4作为母系列,将数据集中原始数据进行初值化转换,消除量纲,其次求出站点污染物系列与交通拥堵指数系列在各时间点的绝对差、两级最小差与最大差。
Yi *(k)=Yi(k)/Yi(1)
Yi *(k)为k时刻目标站点第i个污染物初值化转换后的数值,Yi(k)表示k时刻目标站点第i个污染物原始数据的数值。
不同监测站点交通拥堵指数序列对污染物序列在k时刻的关联系数:
式中,ξi(k)表示k时刻的关联系数,k的取值为0,1,2,…,n,ρ为分辨系数,范围是(0,1),经常取值0.5。代表目标站点邻近道路的交通拥堵指数初值化数值,表示求两列数据的两级最小差,/>表示求两列数据的两级最大差。
利用得到所有时刻的关联系数计算出各类交通敏感污染物与交通拥堵指数间的关联度rM,数值越接近1,说明关联程度越高。
M取值为0,1,2,…,M,表示交通敏感污染物的种类,ξi(n)表示目标站点n时刻第i个污染物与交通拥堵指数关联系数。
通过将拉普拉斯矩阵中目标站点所在列的信息与空气质量输入矩阵相乘来提取多站点单特征的时空特征,有PM2.5,PM10,O3,NO2,气象因子,道路拥堵指数等M种特征,把以上M种特征通过以上相同的操作然后把它们进行线性拼接融合得到时空序列最终形成多站点多特征融合的时空特征矩阵/>
如图3所示,S3:利用TensorFlow框架实现CNN-BiLSTM混合网络模型的搭建,通过捕获各特征间的时空关联性,解决长时序数据特征尺度不一致问题,全面刻画空气质量变化趋势;
根据不同监测站点所采集特征污染物数据和气象因子,按照时间排序生成对应站点的时间序列YT,以及对应区域的交通拥堵指数ZT。
YT=[y1,y2,…,yn-1]ZT=[z1,z2,…,zn-1]
其中yn-1代表第n-1时刻所有站点的污染物和气象数据,zn-1代表第n-1时刻所有站点邻近道路的交通拥堵指数。
其中代表第m个监测站点n-1时刻的污染物和气象数据,/>代表第m个监测站点n-1时刻的交通拥堵指数。
S31:确定CNN神经网络各层的结构,压缩和提取输入数据重要特征;
CNN的本质特征是局部感知和参数共享,由卷积层、池化层、全连接层组成,从原始输入数据中提取空间特征,实现原始数据的高维特征表示,同时减少神经网络计算过程中的参数。
将污染物数据和气象数据转化为二维矩阵,矩阵的每一行为一个站点的交通敏感污染物信息,气象信息以及交通拥堵指数,每一列为某一种特定污染物信息或特定的气象信息,将被转化成二维矩阵输入到CNN中,通过卷积层提取每种特征的空间特征,得到的多个特征图作为池化层输入,池化层将输出同样个数的缩小后的特征图。
CNN卷积神经网络采用的是一维卷积以及一维池化层,卷积层滤波器大小设置为96,激活函数设置为ReLU,卷积操作过程为:
其中,η为当前训练的层数,m代表特征值,f()为卷积操作,k为各层卷积核,i,j均为特征值下标,b为偏置项。
卷积层采取一维卷积,卷积核数目为r,尺寸设置为s,卷积核只按照单一的时域方向进行卷积,滑动步长为1,对每s个时间步的序列向量进行一次特征提取,得到一个特征图,当一个卷积核提取完一条样本的序列数据后,将会得到一个t-s+1形状的特征图。
其中CNN卷积层共有r个卷积核,因此最终会得到r个特征图。卷积后再进行最大池化操作,压平层将所有特征图展开成同样个数的一维向量,再经过全连接层的解码,得到转化后的特征值;
池化层操作过程为;
其中,β和b分别作为输出值的乘性和加性偏置,down表示下采样函数;
由于经过池化层后的数据为二维数据,无法直接输出,因此使用压平层将数据进行压平操作,将所有特征图展开成同样个数的一维向量,再经过全连接层的解码,得到转化后的特征值。
S32:提取特征后的序列向下传递到BiLSTM层,分别以正序和逆序输入至2个LSTM神经网络,充分提取特征前后之间的关联性;
其中LSTM单元主要由记忆细胞、输入门、输出门、遗忘门组成,激活函数用于调节数值大小,输出范围为-1到1之间,输入门用来控制当前时刻神经单元的输入信息,遗忘门用来控制上一时刻神经单元中存储的历史信息,输出门用来控制当前时刻神经单元的输出信息。
LSTM三个门的具体表示如下:
式中,xt为当前t时刻的输入值,ht-1、ht分别为LSTM层在t-1和t时刻的输出,ft表示遗忘门,it表示输入门,οt表示输出门,Ct表示记忆单元,w是门的权值矩阵,b是门的偏置,可得到当前t时刻的状态值输出ht与更新的细胞状态Ct。
双向长短期记忆网络通过使用两个独立的LSTM网络处理前向和后向的顺序数据,前向LSTM从头到尾处理序列,而后向LSTM从头到尾处理序列,然后连接两个网络的输出以产生最终预测值。
其中,xt表示当前t时刻的输入,ht表示当前t时刻细胞的状态值。
最后,输出前向网络层和后向网络层结果堆叠的综合输出。
通过设置输入层超参数、隐藏层神经元数量和层数以及输出层超参数来完成CNN-BiLSTM网络模型的构建,将YT作为模型的输入,模型输出为输入数据对应下一时刻的预测值,记为YT+1,计算公式如下:
YT+1=CNN-BiLSTM|(οt,Ht)YT|
其中,是n时刻某一特定站点空气质量的预测值,(οt,Ht)代表初始时刻的记忆状态和隐藏状态。
CNN-BiLSTM混合模型的设置参数包括:其中CNN神经网络的卷积层层数为1,卷积核个数为64,批数据量大小为128,epochs为100,激活函数为ReLU函数,BiLSTM的批数据量大小为128,epochs为100,Dropout为0.5,优化算法为Adam,隐藏层数量为100,其余参数均为默认值。
S4:利用注意力机制集成GCN模型和CNN-BiLSTM模型,捕捉关键时间点交通敏感污染物特征信息,精细化处理不同维度特征,并进行集成模型优化和训练;
S41:将两个模型的输出按照线性拼接得到关联矩阵,并生成条件关联矩阵,最终形成多站点多特征融合的时空信息矩阵;
条件关联矩阵其中/>代表矩阵的加法。
在条件性关联矩阵的基础上加上联合关联矩阵模块具体计算规则:
其中,表示矩阵的乘法,Im×m表示行和列都为m的单位矩阵,此单位矩阵的形状由输入数据中的特征个数决定,In×n表示行和列都为n的单位矩阵,此单位矩阵的形状由输入数据的预测时刻的数目决定。
如图4所示,S42:将两个模型之间关联矩阵通过注意力机制为所有输入特征逐个加权,得到新的输出结果,最终得出两个子模型隐藏层对应的注意力权重系数;
将两个模型关联矩阵的数据通过注意力机制计算不同时刻数据对预测值的注意力向量,判断不同时刻数据对预测值的重要程度,使用SoftMax函数进行归一化得出每一个隐藏层向量的权重系数矩阵。
权重训练过程如下:
eti=Vtanh(Wh(t-1)i+Uhti+b)
其中,eti为t时刻第i个隐藏层向量,h(t-1)i、hti分别为第i个隐藏层向量在t-1和t时刻状态值,tanh为激活函数,U,V,W是权值矩阵,b是偏置项;
αti为t时刻第i个隐藏层向量的权重系数矩阵,Tx代表最后一个时间步T隐藏层向量的状态值。
目标值对依赖序列每个时间步t的注意力向量:
Softmax()表示利用softmax函数进行归一化操作。
两个模型的输出值乘以各自的注意力向量将得到集成模型权重系数分布矩阵。
两个模型的注意力权重系数计算公式为:
αCB=f(Ht,Yt)
其中,αCB,αGN为CNN-BiLSTM混合模型和GCN模型的注意力权重系数。
S43:将得到的权重与各个模型的最终输出进行结合,得到联合后的表达式,得到集成模型的注意力向量矩阵;
将得到的注意力权重系数与各个模型的最终输出进行结合,得到联合后集成模型输出表达式:
其中,表示各个模型最终乘以注意力权重系数得到的最终联合表征。
S5:利用训练好的集成模型,采用气象因素,以及交通拥堵指数和空气质量状况对特征污染物浓度进行综合预测,并选择误差指标定量分析集成模型预测效果;
S51:进行两个模型训练,所有站点经纬度坐标分布信息矩阵作为GCN模型的输入,特征污染物数据和气象因子序列,以及对应区域交通拥堵指数作为CNN-BiLSTM模型的输入,得到两个模型对应的输出;
所有监测站点地理位置信息和交通敏感污染物历史数据融合特征矩阵通过图卷积神经网络训练输出为/>由交通敏感污染物历史数据、气象因子和对应的交通拥堵指数数据YT经CNN-BiLSTM混合神经网络模型输出为YT+1。/>
S52:将两个模型的输出通过注意力机制学习,依据多站点时空特征之间的权重分布特点,集成训练得到下一时刻的预测值。
集成模型训练得到T+1时刻的预测值PT+1。
其中,φ代表整个集成训练模型,·代表权重分配运算。
S53:通过集成模型参数的不断调整,计算损失函数,最终确定效果最佳网络结构,采用MAE,RMSE,R2作为集成模型评估的指标;
集成模型训练过程中以最小化损失函数为目标,使模型更精确地拟合训练数据,用于计算集成模型预测结果与标签结果的偏差,之后用于反向传播过程来更新梯度,通过不断地训练和优化集成模型参数,综合两个子模型输出的误差进行学习迭代,目的是将损失函数最小化,最终学习得到最佳的集成模型结构。
选取每个监测站点的特征污染物浓度作为预期输出,最后通过反向传播对两个模型实现参数更新,损失函数采用MSE,优化器采用Adam,设置最大训练次数为2000,采用MAE,RMSE,R2作为模型评估的指标。通过不断的参数调整,最终选取误差最低的参数作为预测模型的网络参数。
在集成模型的反向传播中,训练采用的损失函数为MSE,总误差表示为:
其中,Pt代表集成模型第t时刻的预测值,代表第t时刻真实值。
MAE通过计算真实值与预测值的绝对误差的平均值来刻画模型精度,公式如下:
RSME通过计算真实值与预测值之间差的平方和的均值的平方根,来衡量预测值与实际值之间的偏差程度,计算公式如下:
相关系数是用来计算预测值与实际值的相关程度,公式如下:
其中,是集成模型预测第t时刻的均值,/>是第t时刻的均值。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:具体包括以下步骤:
S1:采集城市国控站点大气污染物和气象要素数据,添加交通拥堵指数相关影响因子,并进行预处理,汇总生成多因素表达和多类型特征的大气污染物信息序列;
S2:构建GCN模型,通过自定义邻接关系实现监测站点空间关联特征的提取,各站点间交通敏感污染物与气象要素的相关性分析,并将站点覆盖范围内的交通拥堵指数映射到污染物波动趋势中,实现交通拥堵指数特征融合;
S3:利用TensorFlow框架实现CNN-BiLSTM混合模型的搭建,通过捕获各特征间的时空关联性,解决长时序数据特征尺度不一致问题,全面刻画空气质量变化趋势;
S4:利用注意力机制集成GCN模型和CNN-BiLSTM模型,捕捉关键时间点污染物特征信息,精细化处理不同维度特征,并进行集成模型优化和训练;
S5:利用训练好的集成模型,采用气象要素数据、交通拥堵指数和空气质量状况对特征污染物浓度进行综合预测,并选择误差指标定量分析集成模型预测效果。
2.根据权利要求1所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:所述步骤S1包括以下步骤:
S11:获取城市空气质量监测站常规污染物、气象要素数据以及交通拥堵指数历史数据,并收集污染传输和突发事件信息,构成多源异构数据集;
S12:依据逻辑与因果规则对多源异构数据集进行拆分和筛选,多源异构数据集按特征属性及来源划分为原始特征和解释补充两种类型;
S13:对各类型大气污染物变化趋势进行对比分析,选择受交通拥堵状况影响明显波动的污染物种类,以此作为交通敏感污染物;
S14:对初步筛选的数据进行预处理,其中包括缺失值填充、离群值和归一化处理。
3.根据权利要求2所述的一种基于交通拥堵指数和多源数据融合预测疫情期间空气质量方法,其特征在于:步骤S14所述的对初步筛选的数据进行预处理,具体包括:
将所有缺失的数据用相应特征的平均值填充,采用箱型图的方式对数据进行统计,剔除明显偏离大部分数据的异常值,并采用最大最小归一化处理,归一化指定区间为0到1。
4.根据权利要求3所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:所述步骤S2包括以下步骤:
S21:构建GCN模型提取监测站点空间关联特征,挖掘多站点污染物浓度间隐含的时空关系,解释监测站点间污染扩散和趋同现象;
S22:使用皮尔逊相关系数对多个站点和单站点的交通敏感污染物与气象要素数据进行相关性分析,并确定相关性阈值;
S23:通过站点覆盖范围与周边道路的匹配,将交通拥堵指数融合到城市路网中,定量描述交通拥堵事件对污染物浓度变化的贡献。
5.根据权利要求4所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:步骤S21所述的构建GCN模型,包括描述监测站间拓扑结构以及生成对应站点信息的特征矩阵,具体如下:
根据各站点地理位置信息构建目标站点所在城市环境监测站点的拓扑图G,计算所有站点间的关联度,并存储在邻接矩阵A中;
其中拓扑图G:G=(V,E)用于描述多个城市监测站点间的拓扑结构,图中每个节点代表一个环境监测站点,V代表城市中所有站点的集合,V=(V1,V2,L,VN),E表示为各监测站点间边的集合,N为监测站点总数量;
以两站点间距离的倒数来表示节点连接边的权重值,并存储在邻接矩阵A中;
基于城市环境监测站点不同时刻的空气质量数据构建特征矩阵XN×P,其中P表示节点属性的数量特征,特征矩阵中存储着拓扑图中各节点自身信息;
通过自定义的关联规则聚合和转化所有邻接节点的特征,以获得邻接节点的最优特征组合,即提取站点间的空间关系。
6.根据权利要求5所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:步骤S23所述的交通拥堵指数的匹配融合,包括利用灰色关联模型将交通拥堵指数融合到污染物数据中,具体如下:
将数据集中原始数据进行初值化转换,消除量纲,其次求出站点污染物系列与交通拥堵指数系列在各时间点的绝对差、两级最小差与最大差;
Yi *(k)=Yi(k)/Yi(1)
Yi *(k)为k时刻目标站点第i个污染物初值化转换后的数值,Yi(k)表示k时刻目标站点第i个污染物原始数据的数值;
不同监测站点交通拥堵指数序列对污染物序列在k时刻的关联系数:
式中,ξi(k)表示k时刻的关联系数,k的取值为0,1,2,L,n,ρ为分辨系数,范围是(0,1),代表目标站点邻近道路的交通拥堵指数初值化数值,/>表示求两列数据的两级最小差,/>表示求两列数据的两级最大差;
利用得到所有时刻的关联系数计算出各类污染物与交通拥堵指数间的关联度rM:
M取值为0,1,2,L,M,表示交通敏感污染物的种类,ξi(n)表示目标站点n时刻第i个污染物与交通拥堵指数关联系数。
7.根据权利要求5所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:所述步骤S3包括以下步骤:
S31:确定CNN神经网络各层的结构,压缩和提取输入数据重要特征;
CNN卷积层采取一维卷积进行特征提取,卷积后再进行最大池化操作,再经过全连接层的解码,输出转化后的特征值;
S32:提取特征后的序列向下传递到BiLSTM层,分别以正序和逆序输入至2个LSTM神经网络,充分提取特征前后之间的关联性。
8.根据权利要求7所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:所述步骤S4包括以下步骤:
S41:将两个模型的输出按照线性拼接得到关联矩阵,并按规则生成条件关联矩阵;
S42:关联矩阵通过注意力机制为所有输入特征逐个加权,得到新的输出结果,最终得出两个子模型隐藏层对应的注意力权重;
S43:将得到的权重与各个模型的最终输出进行结合,即集成模型的注意力向量矩阵。
9.根据权利要求8所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:所述步骤S42的模型注意力权重计算:
将两个模型关联矩阵的数据通过注意力机制计算不同时刻数据对预测值的注意力向量,判断不同时刻数据对预测值的重要程度,使用SoftMax函数进行归一化得出每一个隐藏层向量的权重系数矩阵:
eti=V tanh(Wh(t-1)i+Uhti+b)
其中,eti为t时刻第i个隐藏层向量,h(t-1)i、hti分别为第i个隐藏层向量在t-1和t时刻状态值,tanh为激活函数,U、V、W是权值矩阵,b是偏置项;
αti为t时刻第i个隐藏层向量的权重系数矩阵,Tx代表最后一个时间步T隐藏层向量的状态值;
目标值对依赖序列每个时间步t的注意力向量:
Softmax()表示利用softmax函数进行归一化操作。
10.根据权利要求9所述的一种基于交通拥堵指数和多源数据融合的空气质量预测方法,其特征在于:所述步骤S5包括以下步骤:
S51:进行两个模型训练,多站点地理位置分布信息矩阵作为GCN模型的输入,交通敏感污染物数据和气象因子序列,以及所在区域交通拥堵指数作为CNN-BiLSTM模型的输入,得到两个模型对应的输出;
S52:将两个模型的输出通过注意力机制学习,依据多站点时空特征之间的权重分布特点,集成训练得到下一时刻的预测值;
S53:通过集成模型参数的不断调整,计算损失函数,最终确定效果最佳网络结构,采用MAE、RMSE、R2作为集成模型评估的指标;
选取每个监测站点的特征污染物浓度作为预期输出,最后通过反向传播对两个模型实现参数更新,损失函数采用RMSE,优化器采用Adam,设置最大训练次数为2000,采用MAE,RMSE,R2作为模型评估的指标,通过不断的参数调整,最终选取误差最低的参数作为预测模型的网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311011305.8A CN117494034A (zh) | 2023-08-11 | 2023-08-11 | 基于交通拥堵指数和多源数据融合的空气质量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311011305.8A CN117494034A (zh) | 2023-08-11 | 2023-08-11 | 基于交通拥堵指数和多源数据融合的空气质量预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117494034A true CN117494034A (zh) | 2024-02-02 |
Family
ID=89666639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311011305.8A Pending CN117494034A (zh) | 2023-08-11 | 2023-08-11 | 基于交通拥堵指数和多源数据融合的空气质量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494034A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117871790A (zh) * | 2024-03-11 | 2024-04-12 | 四川国蓝中天环境科技集团有限公司 | 基于多种数据融合的路边监测站数据分析和交通溯源方法 |
-
2023
- 2023-08-11 CN CN202311011305.8A patent/CN117494034A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117871790A (zh) * | 2024-03-11 | 2024-04-12 | 四川国蓝中天环境科技集团有限公司 | 基于多种数据融合的路边监测站数据分析和交通溯源方法 |
CN117871790B (zh) * | 2024-03-11 | 2024-05-17 | 四川国蓝中天环境科技集团有限公司 | 基于多种数据融合的路边监测站数据分析和交通溯源方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109658695B (zh) | 一种多因素的短时交通流预测方法 | |
US11270579B2 (en) | Transportation network speed foreeasting method using deep capsule networks with nested LSTM models | |
CN113487066B (zh) | 基于多属性增强图卷积-Informer模型的长时序货运量预测方法 | |
CN109063908B (zh) | 一种基于深度多任务学习的城市aqi预测与空间细粒度aqi等级估计方法 | |
CN111832814A (zh) | 一种基于图注意力机制的空气污染物浓度预测方法 | |
CN110348624B (zh) | 一种基于Stacking集成策略的沙尘暴等级预测方法 | |
CN110570651A (zh) | 一种基于深度学习的路网交通态势预测方法及系统 | |
CN110648014B (zh) | 一种基于时空分位数回归的区域风电预测方法及系统 | |
CN111612243A (zh) | 交通速度预测方法、系统及存储介质 | |
CN111242395B (zh) | 用于od数据的预测模型构建方法及装置 | |
CN113496314B (zh) | 一种神经网络模型预测道路交通流量的方法 | |
CN116721537A (zh) | 基于gcn-ipso-lstm组合模型的城市短时交通流预测方法 | |
CN115376317B (zh) | 一种基于动态图卷积和时序卷积网络的交通流预测方法 | |
CN117556197B (zh) | 一种基于人工智能的台风涡旋初始化方法 | |
CN112232543A (zh) | 一种基于图卷积网络的多站点预测方法 | |
CN117494034A (zh) | 基于交通拥堵指数和多源数据融合的空气质量预测方法 | |
CN113516304A (zh) | 基于时空图网络的区域污染物时空联合预测方法及装置 | |
CN115629160A (zh) | 一种基于时空图的空气污染物浓度预测方法及系统 | |
Hu et al. | Air quality prediction using spatio-temporal deep learning | |
CN116913088A (zh) | 一种用于高速公路的智能流量预测方法 | |
CN116862061A (zh) | 一种基于时空图卷积神经网络的多机场航班延误预测方法 | |
CN114882373A (zh) | 基于深度神经网络的多特征融合沙尘暴预测方法 | |
CN111815075B (zh) | 一种重大公共卫生事件下交通出行需求的预测方法 | |
CN116525135B (zh) | 基于气象因素的时空模型对疫情发展态势进行预测的方法 | |
CN117436653A (zh) | 一种网约车出行需求的预测模型构建方法和预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |