CN114676822B

CN114676822B - 一种基于深度学习的多属性融合空气质量预报方法

Info

Publication number: CN114676822B
Application number: CN202210299318.9A
Authority: CN
Inventors: 王硕凡; 高晨; 邱军富; 胡轶宁
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2024-04-23
Anticipated expiration: 2042-03-25
Also published as: CN114676822A

Abstract

本发明提供了一种基于深度学习的多属性融合空气质量预报方法，包括数据采集、数据预处理、构建空气质量一次预报模型、构建空气质量二次预报模型、空气质量二次预报模型修正及预报结果输出的步骤，将气象因子、区域气象影响因素纳入模型进行多维综合预测，充分利用了深度学习在数据处理方面的优势，借助长短期记忆网络对污染物浓度的历史实测数据的变化情况进行分析，解耦了污染物生成机理受限的问题。

Description

一种基于深度学习的多属性融合空气质量预报方法

技术领域

本发明属于环境质量预报技术领域，具体涉及一种基于深度学习的多属性融合空气质量预报方法。

背景技术

大气污染一直是人类重点关注的生态环境问题之一，运用气象学原理并结合数学方法，建立完善的空气质量预报模型，来预防和处理大气污染问题是至关重要的。

但是，现有的基于深度学习的空气质量预测方法依靠对历史数据进行分析进而预测，大多数模型预测的准确性不高，忽略了气象因素对空气质量的影响，无法对突发气象进行预测，且未能考虑到周围区域的空气质量之间的影响，在区域协同预报方面的处理是欠优的。

发明内容

本发明正是针对现有方法缺乏对气象因素的考量，无法对突发气象进行预测的问题，提供了一种基于深度学习的多属性融合空气质量预报方法，包括数据采集、数据预处理、构建空气质量一次预报模型、构建空气质量二次预报模型、空气质量二次预报模型修正及预报结果输出的步骤，将气象因子、区域气象影响因素纳入模型进行多维综合预测，充分利用了深度学习在数据处理方面的优势，借助长短期记忆网络对污染物浓度的历史实测数据的变化情况进行分析，解耦了污染物生成机理受限的问题。

本发明提供一种基于深度学习的多属性融合空气质量预报方法，包括如下步骤：

S1，数据采集：所述数据至少包括污染物浓度，连续采集固定时间段内目标区域的污染物浓度数据，对数据异常或数据缺失时，采用邻近插值的方式补齐；

S2，数据预处理：对经过步骤S1采集后的数据进行数据标准化和归一化处理，随后将预处理后的数据按照70％、20％、10％的比例划分训练集、测试集和验证集，所述归一化的方式为：

其中，x为输入数据，x_min，x_max、x_norm分别是输入数据中最小值、最大值和具体归一化后的值，且归一化后的值在0到1之间；

S3，构建空气质量一次预报模型：所述模型包括输入层、4个隐层、全连接输出层，具体为：

y₁＝Tiny_LSTM(x)

其中，x为输入序列，y₁为空气质量一次预报结果，Tiny_LSTM为构建的一次预报模型；

S4，构建空气质量二次预报模型：根据气象条件的分指数移动极差选取气象因子，采用多元线性拟合得到结合气象因子的二次初步预测模型，所述二次初步预测模型为：

y₂＝∑α_ix_i+βy₁

其中，y₁为一次预报模型结果，x_i为气象因子，α_i和β为权重系数；

S5，空气质量二次预报模型修正：对周边地区的空气污染情况进行莫兰指数分析，选取具有局部空间相关性的几个地区，并根据其地理位置构造其空间权重矩阵，计算上述气象因子变量，与二次初步污染物预测浓度求取对应地区的污染物浓度预测回归方程，根据污染物浓度预测回归方程获取所有地区的预测的污染物浓度构成浓度矩阵，与空间权重矩阵相乘，最终输出二次预测的污染物浓度，所述回归方程为：

CON′＝γ₁x₁+γ₂x₂+...+γ_nx_n+γCON

其中，γ_i(i＝1，2，..)为权重系数，x₁，x₂，...，x_n代表n个不同的气象因子，二次初步预测浓度为CON，二次阶段预测浓度为CON′；

S6，预报结果输出：步骤S5模型的预测输出，经过反归一化处理后得到最终预测的污染物浓度，其中，在模型训练的过程中，反归一化处理后的预测污染物浓度通过均方误差损失函数计算与真实污染物浓度的误差，利用梯度下降法在反向传播时更新和优化模型的相关参数，经过多次迭代后得到最终的空气质量预测模型。

作为本发明的一种改进，所述步骤S3空气质量一次预报模型中，输入层和全连接输出层之间的4层隐层由长短期记忆网络单元以及随机失活层组成，每个隐层均有400个神经单元，随机失活层的比例均是20％，单个长短期记忆网络单元的计算方式如下：

H_t＝σ_t*tanh(C_t)

其中，H_t表示当前单元的输出，σ_t为输出门限，Ct表示当前单元状态。

作为本发明的另一种改进，所述步骤S3空气质量一次预报模型中，利用tanh激活函数完成迭代训练，所述tanh激活函数为：

其中，x是输入数据，经过该变换后输入数据的范围是[-1，1]。

作为本发明的又一种改进，所述步骤S4中，气象因子的选择包括计算气象数据对应的气象因子分指数值，所述气象因子分指数计算公式为：

其中，a_in，b_in为观测年份内气象因子i在区间n的条件下污染天气和非污染天气样本数；a，b为观测年份中污染天气和非污染天气的总体样本数；

所述气象因子按照各因子分指数的移动极差从大到小排序，以评估数据的变动范围，且剔除其中相关系数通过显著性检验的自相关因子，再求取剩余气象因子与污染等级的皮尔逊相关系数，皮尔逊相关系数的计算公式如下：

选取正相关系数在[0.7，1]之间的气象因子作为影响程度较高的气象因子。

作为本发明的又一种改进，所述步骤S4中多元线性回归的计算如下：

y＝α₁x₁+α₂x₂+…+α_nx_n+βσ

其中α_i(i＝1，2，..)、β为权重参数，x_i(i＝1，2，..)是不同气象条件变量，σ是经过上述一次空气质量预测模型Tiny-LSTM求解的输出，y是结合其他污染物浓度的二次预报模型输出结果。

作为本发明的更进一步改进，所述步骤S5中，莫兰指数I的计算方法为：

其中，要素总数为n，z_i是要素i的属性与其平均值(x_i-X)的偏差，z_j是要素j的属性与其平均值x_j-X_j的偏差，w_i，j是要素i和j之间的空间权重，S₀是所有空间权重的聚合：

本发明采用以上技术方案与现有技术相比，将气象因子、区域气象影响因素纳入模型进行多维综合预测，充分利用了深度学习在数据处理方面的优势，借助长短期记忆网络对污染物浓度的历史实测数据的变化情况进行分析，解耦了污染物生成机理受限的问题；通过加入气象条件因子进行多元线性回归，提高了模型预测的准确性、应变能力；位置权重矩阵的融合也使得模型具备了区域协同预报的能力，得到了准确性更高的预测结果，具有一定的应用场景。

附图说明

图1是本发明方法的步骤流程图；

图2是本发明方法步骤的算法流程图。

具体实施方式

下面结合所提供的附图，进一步阐述本发明的具体实施方式，但不以任何方式限制本发明的范围。

本发明公开了一种基于长短期记忆网络的多属性融合空气质量预报方法，如图1所示，包括如下步骤：

步骤S1，数据采集：

收集一年中的目标区域的污染物浓度数据，具体的数据采集及处理方式如下：

每隔一小时对目标区域中的污染物浓度进行实时监测，预计1×24×365＝8760条数据记录。其中，如果存在数据缺失或者数据异常的情况，则采用邻近值差值的方式处理，即若污染物a在某一时刻t的监测浓度缺失，则a在t时刻的浓度为若连续两个时刻t、t+1的监测浓度均缺失，则a在这两个时刻的浓度均记为/>若连续3个及3个以上的时刻的监测浓度均缺失，则当日该污染物浓度的监测被视为无效数据。

步骤S2，数据预处理：

缺失值处理后的实测空气质量数据再在进行数据标准化和归一化，具体公式为

其中x为输入数据，x_min，x_max、x_norm分别是输入数据中最小值、最大值和具体归一化后的值，且归一化后的值在0到1之间。

随后按照70％、20％、10％的比例划分训练集、测试集和验证集，用于设计的空气质量一次预测模型网络(记为Tiny-LSTM)训练、验证、测试。

步骤S3，构建空气质量一次预报模型：

将归一化的数据按照一定序列长度生成带有时序特征的长短期记忆网络模型输入。Tiny-LSTM的网络模型结构设计：空气质量一次预报模型主要包括输入层、4个隐层、全连接输出层组成，模型中间的隐层由长短期记忆网络单元以及随机失活层组成。长短期记忆网络单元是一种循环的神经网络单元，能够有效处理序列数据的，单个长短期记忆网络单元的计算方式如下：

H_t＝σ_t*tanh(C_t)

其中，H_t表示当前单元的输出，σ_t为输出门限，Ct表示当前单元状态

一次预报模型的为：

y₁＝Tiny_LSTM(x)

其中，x为输入序列，y₁为空气质量一次预报结果，Tiny_LSTM为构建的一次预报模型。其中，序列长度设置为50，输入数据维度是[3709，50]，代表根据采集的信息总共生成了3709段数据，每一段的数据均包含连续50天的污染物浓度。中间的隐层主要用到了长短期记忆网络单元以及随机失活(Dropout)层，每个隐含层均有400个神经单元，Dropout的比例均是20％。最终输出的维度是[3709，1]，针对每一段数据会输出对应污染物浓度在未来1天的预测值。选用tanh激活函数，经过反复迭代训练，输出基于长短期记忆网络的未来污染物浓度预测值，得到一次预报模型结果。

tanh激活函数具有收敛速度快的优势，其计算公式如下：

经过上述空气质量一次预报模型，就可以得到污染物浓度一次预测输出值。

步骤S4，结合气象条件和邻近地区气象条件进行多元线性回归，构建二次预报模型，共分为两步：

步骤S41：结合气象因子进行多元线性回归。

由于污染物浓度会在一定程度上受到当地气象条件因素的影响(如：当地风速、温度等)，为了能够根据这些操作变量对预测的污染物浓度做进一步修正，本步骤在模型中结合了其他气象条件因素，构建二次初步预报模型。

具体步骤如下：

首先，选取气象因子。气象因子的选取方法分为两步。

第一步：计算气象数据对应的气象因子分指数值。气象因子分指数计算公式为：

a_in，b_in为观测年份内气象因子i在区间n的条件下污染天气和非污染天气样本数；a，b为观测年份中污染天气和非污染天气的总体样本数，本文中污染天气采取了AQI(AirQuality Index，空气质量指数)指标规定下轻度污染及以上的天气，统计样本数满足污染天气出现频率大于等于15％的要求。按照上述方法，能够构建出各气象条件的分指数查算表，以待后续计算使用。AQI的计算有1小时平均、8小时平均和24小时平均，本专利采用较为常用的24h平均空气质量指数计算AQI的值，以便于体现当天的整体空气状况，计算方法如下：

1.根据污染物项目浓度限值表查找出对应污染物的浓度上下限，获取以下参数：

IAQI_P——污染物P的空气质量分指数；

C_p——污染物P的浓度值；

C_high——与C_p相近的污染物浓度限值的高位值；

C_low——与C_p相近的污染物浓度限值的低位值；

I_high——与C_high对应的空气质量分指数；

I_low——与C_low对应的空气质量分指数。

2.将污染物浓度C_p代入以下公式计算，即可得出空气污染分指数IAQI_P

3.从各项污染物中选择最大值确定为AQI，若AQI＞50，为首要污染物；AQI＞100为超标污染物。

第二步：根据以下三条原则确定气象因子。

1.按照各因子分指数的移动极差从大到小排序，以评估数据的变动范围；

2.剔除其中相关系数通过显著性检验的自相关因子；

3.求取剩余气象因子与污染等级的相关系数，衡量对污染天气的影响程度，选取其中影响程度较高的气象因子，即为获得了预测待用的气象因子。

步骤S42：将模型结合气象因子使用多元线性回归的方式构建二次预测模型。多元线性回归的计算公式如下：

y＝α₁x₁+α₂x₂+...+α_nx_n+βσ (4)

经过以上过程，可以得到在长短期记忆网络的基础上经过当地气象条件多元线性拟合后的二次预测模型，所述二次预测模型为：

y₂＝∑α_ix_i+βyx

利用该模型，可以更精准地预测未来的污染物浓度值。

步骤S5，空气质量二次预报模型修正，：获得结合气象因子的二次污染物浓度初步预测后，结合位置信息进行优化。

主要步骤如下：

第一，获得二次初步污染物预测浓度CON₁，CON₂，...，CON_m。

第二，获取邻近地区的气象条件数据xData，求出空间权重矩阵D，计算其空气污染指数的莫兰指数I，选取其中空气污染情况具有空间自相关性的邻近地区n个。

莫兰指数有全局和局部两类，都可用来衡量空间相关性。其中，全局莫兰指数可用于分析整体空间有无自相关性，局部莫兰指数用于判断局部聚集出现的范围，本专利通过计算全局莫兰指数判断空气污染状况与其局部地区污染物浓度及气象状况的影响。得出的莫兰指数I一般在[-1，1]之间，由于本专利将关注点置于加剧空气污染的因素而非消解因素，因此仅选取具有正相关性的莫兰指数，即莫兰指数处于区间[0，1]。

全局莫兰指数的计算方法如下：

空间自相关的Moran′sI统计可表示为：

其中，每个研究对象被称为要素，设共有n个研究对象，即要素总数为n，zi是要素i的属性与其平均值(x_i-X)的偏差，w_i，j是要素i和j之间的空间权重，S₀是所有空间权重的聚合：

统计的zI得分按以下形式计算：

其中：

E[I]＝-1/(n-1) (8)

V[I]＝E[I²]-E[I]² (9)

为获得上式要素i和j之间的空间权重W_i，j，需要求取空间矩阵w。

空间权重矩阵是用来反映个体在空间中依赖关系的矩阵，通过在模型中引入空间权重矩阵，能够衡量观测对象被周围个体影响的程度。如图2所示的本方法的算法流程步骤图。

采用基于距离的空间权重矩阵构建方法，根据做出的假设，即两地区距离越近，污染物浓度相互影响的程度越大。构建公式如下，其中d_i，j(i，j＝1，2，..)是两个不同位置的距离，实际计算中取倒数处理。

通过在模型中引入空间权重矩阵，将地理因素和上述气象因子结合形成地区间的污染物互影响因子，利用污染物互影响因子对二次初步预报模型的输出结果进行修正。

第三，使用步骤S41中选取的气象因子x，结合邻近地区实时气象因子xData、二次初步预测的m项当地污染物浓度CON′，计算回归方程，得到：

CON′＝γ₁x₁+γ₂x₂+...+γ_nx_n+γCON (10)

其中，γ_i(i＝1，2，..)为权重系数，x₁，x₂，...，x_n代表n个不同的气象因子，二次初步预测浓度为CON，二次阶段预测浓度为CON′。

第四，对待测污染物浓度CON₁，CON₂，...，CON_m，使用回归方程进行预测，依次输出待预测的m项污染物浓度CON₁′，CON₂′，...，CON_m′，构成二次阶段预测浓度列向量CON_m×1′＝[CON₁′，CON₂′，...，CON_m′]^T，而后与空间权重矩阵D_m×m相乘，获得最终的经过空间影响因子修正的二次预测污染物浓度列向量CON_m×1″＝[CON₁″，CON₂″，...，CON_m″]^T，计算公式如下：

CON″_m×1＝CON′_m×1×D_m×m (11)

步骤S6，对模型输出结果进行后处理得到最终的预测结果。

空气质量预测模型的预测输出为归一化后的污染物浓度，因此需要经过反归一化处理得到最终预测的污染物浓度。反归一化的公式如下：

x＝x_norm(x_max-x_min)+x_min (12)

其中x为最终的预测结果，x_min，x_max、x_norm分别是输入数据中最小值、最大值和具体归一化后的值。

在训练时，反归一化处理后的预测污染物浓度通过均方误差(MSE)损失函数计算与真实污染物浓度的误差，接着利用梯度下降法在反向传播时更新和优化模型的相关参数，经过多次迭代后得到最终的空气质量预测模型。

图2是本发明方法步骤的算法流程图，具体包括：

1.首先连续采集污染物浓度并将数据进行预处理，得到第一次预测模型的输入值。

2.一次预测模型网络(这里我们取名为Tiny-LSTM)对污染物浓度数据进行处理，得到一次预测数据。

3.结合气象条件和邻近地区气象条件进行多元线性回归，构建二次预报模型，共分为两步：

3.1结合气象因子进行多元线性回归；

气象因子的选取在步骤S41中详述，概括为：1.计算气象数据对应的气象因子分指数值；2.三条原则选取气象因子；

3.2获得结合气象因子的二次污染物浓度初步预测后，结合位置信息进行优化；

详述在步骤S5，概括为：

A.获得二次初步污染物预测浓度CON₁，CON₂，...，CON_m；

B.获取邻近地区的气象条件数据xData，求出空间权重矩阵D，计算其空气污染指数的莫兰指数I，选取其中空气污染情况具有空间自相关性的邻近地区n个；

C.选取的气象因子x，结合邻近地区实时气象因子xData、二次初步预测的m项当地污染物浓度CON′，计算回归方程；

D.经过回归方程得到的结果与权重矩阵相乘得到预测的经过空间影响因子修正的二次预测污染物浓度列向量。

4.对模型输出结果进行后处理得到最终的预测结果。

综上所述，本发明构建的预测模型是将气象因子、区域气象影响因素纳入模型进行多维综合预测。该方法充分利用了深度学习在数据处理方面的优势，借助长短期记忆网络对污染物浓度的历史实测数据的变化情况进行分析，解耦了污染物生成机理受限的问题；通过加入气象条件因子进行多元线性回归，提高了模型预测的准确性、应变能力；位置权重矩阵的融合也使得模型具备了区域协同预报的能力，得到了准确性更高的预测结果，具有一定的应用场景。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于深度学习的多属性融合空气质量预报方法，其特征在于，包括如下步骤：

S3，构建空气质量一次预报模型：一次预报模型包括输入层、4个隐层、全连接输出层，具体为：

y₁＝Tiny_LSTM(x)

y₂＝∑α_ix_i+βy₁

CON′＝γ₁x₁+γ₂x₂+...+γ_nx_n+γCIN

其中，γ_i为权重系数，i＝1,2,..，x₁,x₂,…,x_n代表n个不同的气象因子，二次初步预测浓度为CON，二次阶段预测浓度为CON′；

S6，预报结果输出：步骤S5模型的预测输出，经过反归一化处理后得到最终预测的污染物浓度；其中，在模型训练的过程中，反归一化处理后的预测污染物浓度通过均方误差损失函数计算与真实污染物浓度的误差，利用梯度下降法在反向传播时更新和优化模型的相关参数，经过多次迭代后得到最终的空气质量预测模型。

2.根据权利要求1所述的一种基于深度学习的多属性融合空气质量预报方法，其特征在于，所述步骤S3空气质量一次预报模型中，输入层和全连接输出层之间的4层隐层由长短期记忆网络单元以及随机失活层组成，每个隐层均有400个神经单元，随机失活层的比例均是20％，单个长短期记忆网络单元的计算方式如下：

H_t＝σ_t*tanh(C_t)

其中，H_t表示当前单元的输出，σ为输出门限，Ct表示当前单元状态。

3.根据权利要求2所述的一种基于深度学习的多属性融合空气质量预报方法，其特征在于，所述步骤S3空气质量一次预报模型中，利用tanh激活函数完成迭代训练，所述tanh激活函数为：

其中，x是输入数据，经过该变换后输入数据的范围是[-1,1]。

4.根据权利要求3所述的一种基于深度学习的多属性融合空气质量预报方法，其特征在于，所述步骤S4中，气象因子的选择包括计算气象数据对应的气象因子分指数值，所述气象因子分指数计算公式为：

5.根据权利要求3或4所述的一种基于深度学习的多属性融合空气质量预报方法，其特征在于，所述步骤S4中多元线性回归的计算如下：

y＝α₁x₁+α₂x₂+...+α_nx_n+βσ

其中α_i、β为权重参数，x_i是不同气象条件变量，i＝1,2,..，σ是经过一次空气质量预测模型Tiny-LSTM求解的输出，y是结合其他污染物浓度的二次预报模型输出结果。

6.根据权利要求5所述的一种基于深度学习的多属性融合空气质量预报方法，其特征在于，所述步骤S5中，莫兰指数I的计算方法为：

其中，要素总数为n，z_i是要素i的属性与其平均值(x_i-X)的偏差,z_j是要素j的属性与其平均值x_j-X_j的偏差，w_i,j是要素i和j之间的空间权重,S₀是所有空间权重的聚合: