CN115510763A

CN115510763A - 一种基于数据驱动探索的空气污染物浓度预测方法及系统

Info

Publication number: CN115510763A
Application number: CN202211300871.6A
Authority: CN
Inventors: 张晓霞; 关俊生; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-12-23

Abstract

本发明属于空气质量监测技术领域，具体涉及一种基于数据驱动探索的空气污染物浓度预测方法及系统；该方法包括：采集空气质量数据并对其进行预处理；采用深度神经网络对预处理后的空气质量数据进行数据拟合，并对数据拟合结果进行自动微分，得到影响因素微分项；根据影响因素微分项构建候选函数库；根据候选函数库中的函数项构建控制方程模型；获取待预测时间段的气象因子数据并将其输入到控制方程模型中，得到空气污染物浓度预测结果；本发明预测精度高，其可解释性良好，实用性高。

Description

一种基于数据驱动探索的空气污染物浓度预测方法及系统

技术领域

本发明属于空气质量监测技术领域，具体涉及一种基于数据驱动探索的空气污染物浓度预测方法及系统。

背景技术

控制方程在许多学科中都发挥着重要作用，控制方程的确定有助于我们对各类工程学科中系统的建模、模拟和理解。然而，传统上，控制方程都是基于一些原理在数学或物理上推导出来的，例如从量子力学中的薛定谔方程到分子动力学模型，从玻尔兹曼方程到纳维-斯托克斯方程等，这需要具备全面的物理及数学知识。随着最近十年传感器的计算能力和数据存储的快速发展，现在可以轻松收集、存储和处理大量数据。庞大的数据量为数据驱动探索的控制方程发现提供了新的机会。

伴随着城市化和工业化的进程，越来越多的环境污染问题也引起了大众的关注。空气污染是影响居民健康的一个重要环境污染源。为了监测与防治大气污染物，许多城市都建立了自己的空气质量监测站点，监测站点将会实时的获取城市的空气污染物浓度。通过分析与研究城市的大气污染物浓度，科研机构可以有效的辅助政府制定符合公众利益的环保政策。

网格化监测需要获取监测区域完整的空间数据。由于空气质量监测站点只能覆盖一定的监测区域，稀疏的空气质量监测站点无法完全覆盖一个城市，因此往往我们获取到的空气质量数据都是稀疏的，并且在时间及空间上也不具有连续性。现实中往往采用各种空间插值算法来将稀疏的站点监测数据推广到整个城市平面，这个过程被称作空间分辨率提高。这些算法主要分为两类，一类是统计学算法，包括Kriging插值和反距离加权(Inverse Distance Weighted)等；另一类是机器学习算法，包括随机森林(RandomForest)、多层感知机(Multilayer Perceptron)和神经网络等。距离与空气污染物浓度具有相关性是统计学算法的一个基本的假设，这种简单的假设不能很好的反映空气污染物空间分布的机理，并且往往无法考虑空气污染物浓度的时变特征。机器学习算法可以结合空气污染物的历史浓度，以及融合多种空气污染物浓度来提高空气污染物浓度的空间分辨率。但由于机器学习算法注重于拟合数据以及其不直观的内部机理，使得机器学习模型中的计算复杂度较高，并且机器学习算法结合空气污染物的历史数据往往只是简单的作为模型的输入，空气污染物的时变规律无法被直接描述，这使得提高空气污染物浓度的空间分辨率和分析空气污染物浓度的时变特性成为相互独立的两个问题。

发明内容

针对现有技术存在的不足，本发明提出了一种基于数据驱动探索的空气污染物浓度预测方法及系统，该方法包括：

S1：采集空气质量数据并对其进行预处理，空气质量数据包括空气污染物浓度数据和气象因子数据；

S2：采用深度神经网络对预处理后的空气质量数据进行数据拟合，并对数据拟合结果进行自动微分，得到影响因素微分项；

S3：根据影响因素微分项构建候选函数库；

S4：根据候选函数库中的函数项构建控制方程模型；

S5：获取待预测时间段的气象因子数据并将其输入到控制方程模型中，得到空气污染物浓度预测结果。

优选的，对空气质量数据进行预处理的过程包括：

S11：对气象因子数据进行坐标变换，得到坐标变换后的气象因子数据；

S12：采用卡尔曼滤波对空气污染物浓度数据进行平滑去噪处理。

优选的，得到影响因素微分项的过程包括：将深度神经网络作为空气污染物浓度的逼近函数并对空气质量数据进行数据拟合，定义拟合损失函数，根据拟合损失函数进行神经网络反向传输并对数据拟合结果进行自动微分，得到影响因素微分项。

进一步的，拟合损失函数为：

其中，L_d(δ；D_u)表示拟合损失函数，x_i表示每种气象因子的第i个数据，t_i表示t_i时刻，δ表示神经网络第一优化参数，N表示数据点个数；

表示输入神经网络的数据点，u(x_i,t_i)表示输入神经网络的第i个数据点，NN(x_i,t_i；δ)表示神经网络训练后拟合的第i个数据点。

优选的，构建控制方程模型的过程包括：

S41：删除候选函数库中的一个函数项，计算删除前后空气污染物浓度关于时间的导数，并根据删除前后空气污染物浓度关于时间的导数计算第一均方误差；

S42：重复步骤41，直到所有函数项均被计算过，选择均方误差最大的一项作为控制方程第一项；

S43：增加函数库中剩下的函数项中的一项，计算增加前后空气污染物浓度关于时间的导数，并根据增加前后空气污染物浓度关于时间的导数计算第二均方误差；

S44：重复步骤43，直到所有函数项均被计算过；

S45：设置超参数ε根据第二均方误差值以其从小到大的顺序依次将对应的函数项加入到控制方程，直到加入函数项后的第二均方误差大于超参数ε，得到初始控制方程；

S46：构建总损失函数，计算使得总损失值最小的优化参数，将优化参数代入初始控制方程，得到中间控制方程模型；

S47：采用链式法则对空气质量数据进行处理，得到还原的控制方程参数；根据还原的控制方程参数对中间控制方程模型进行处理，得到完整的控制方程模型。

进一步的，总损失函数为：

L(δ,θ,Λ；D_u,D_c)＝L_d(δ；D_u)+αL_p(θ,Λ；D_c)+β||Λ||₀

其中，L(δ,θ,Λ；D_u,D_c)表示总损失，L_d(δ；D_u)表示拟合损失，L_p(θ,Λ；D_c)表示学习损失，α表示相对权重，β表示正则参数，Λ表示方程的系数矩阵；δ，θ分别表示神经网络第一优化参数和第二优化参数，

表示输入神经网络的数据点，

表示神经网络拟合后的数据点，||·||₀表示0范数。

进一步的，采用链式法则对空气质量数据进行处理的公式为：

其中，U表示神经网络拟合后的空气污染物浓度，τ表示坐标变换后的时间变量，t表示原时间变量，σ(t)表示原时间变量的标准差，ξ表示坐标变换后的气象因子数据，x表示原气象因子数据，σ(x)表示原气象因子数据的标准差，U_t表示污染物浓度对原时间变量的微分，U_τ表示污染物浓度对坐标变换后的时间变量的微分，U_x表示污染物浓度对原气象因子变量的微分，U_ξ表示污染物浓度对坐标变换后的气象因子变量的微分，U_xx表示污染物浓度对原气象因子变量的二阶微分，U_ξξ表示污染物浓度对坐标变换后的气象因子变量的二阶微分。

一种基于数据驱动探索的空气污染物浓度预测系统，包括：数据采集模块、数据预处理模块、数据拟合模块、函数库构建模块、控制方程构建模块以及预测模块；

所述数据采集模块用于采集空气质量数据；

所述数据预处理模块用于对空气质量数据进行坐标变换和平滑去噪处理，得到预处理后的空气质量数据；

所述数据拟合模块用于采用神经网络对空气质量数据进行数据拟合和自动微分处理，得到影响因素微分项；

所述函数库构建模块用于根据影响因素微分项构建候选函数库；

所述控制方程构建模块用于根据候选函数库构建控制方程模型；

所述预测模块用于采集待预测时间段的气象因子数据并将其输入到控制方程模型中，得到空气污染物浓度预测结果。

本发明的有益效果为：本发明通过运用机器学习对数据进行拟合，发现其中存在的潜在规律，明晰变量之间的关系，并采用控制方程直观的反映变量之间的关系，通过控制方程反映的关系能够精准预测测量数据范围之外的数据量。本发明挖掘空气污染物浓度与其影响因素之间的关系，以控制方程的形式给出。现有的空气污染物预测模型大多为时序预测，需要严格的时序数据，而真实数据中含有大量缺失值及异常值，这对于此类模型是十分不友好的，且模型为黑盒子模型，不具备可解释性；而本发明的输入数据可以是稀疏数据，通过历史数据学习出污染物浓度与气象因子之间的潜在规律，从而预测污染物浓度，预测精度高，且具有良好的可解释性，对于实际研究大气环境也能提供良好的参考意见。

附图说明

图1为本发明中基于数据驱动探索的空气污染物浓度预测方法流程图；

图2为本发明中基于数据驱动探索的空气污染物浓度预测方法结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于数据驱动探索的空气污染物浓度预测方法及系统，如图1、图2所示，所述方法包括：

S1：采集空气质量数据并对其进行预处理，空气质量数据包括空气污染物浓度数据和气象因子数据。

采集当前时刻以及过去一段时间内的空气质量数据，空气质量数据包括空气污染物浓度的时间序列数据和影响空气污染物浓度的影响因素数据即气象因子数据，例如，空气污染物可以是PM10、臭氧或PM2.5等污染物的时间序列数据。气象因子数据包括温度、湿度、降雨量、风速等气象因子的时间序列数据。

对采集的空气质量数据进行预处理，包括：

S11：对气象因子数据进行坐标变换，得到坐标变换后的气象因子数据。

由于获取的空气质量数据尺度不一并且含有大量噪声，因此需要对数据进行坐标变换及去噪处理，坐标变换主要是对原始数据进性线性变换：

其中，τ表示坐标变换后的时间变量，t表示原时间变量；ξ表示坐标变换后的气象因子数据，ξ＝[ξ₁,...,ξ_S]；x表示原气象因子数据，x＝[x₁,...,x_S]。

表示对应数据的均值，σ(·)表示标准差。

上述变换没有改变一个数据在该组数据中的位置，也没有改变该组数据分布的形状，而只是将每组数据变为均值为0、标准差为1的数据，便于后续模型处理。

原始的空气污染物浓度数据含有大量噪声，需要对其进行去噪处理；经过坐标变换的缩放处理和平滑去噪处理后，得到预处理好的空气质量数据。

S2：采用深度神经网络对预处理后的空气质量数据进行数据拟合，并对数据拟合结果进行自动微分，得到影响因素微分项。

将深度神经网络作为空气污染物浓度的逼近函数并对空气质量数据进行拟合，定义拟合损失函数，根据拟合损失函数进行神经网络反向传输并对数据拟合结果进行自动微分，得到影响因素微分项；

拟合损失函数为：

其中，L_d(δ；D_u)表示拟合损失函数；x＝[x₁,...,x_m]，m表示气象因子的种类数量，x_i表示每种气象因子的第i个数据；t_i表示t_i时刻，δ表示神经网络第一优化参数；N表示数据点个数；

使用Adam优化器来迭代优化上述损失函数。同时，利用神经网络的反向传播多数据进行自动微分得到污染物浓度与变量(时间和气象因子)之间的导数，用于下一步候选函数库的构建。相对于数值微分，利用神经网络进行自动微分可以降低数据噪声的干扰，并且其扩展性及稳定性更好。

S3：根据影响因素微分项构建候选函数库。

候选函数库用于选出可能会出现在控制方程中的函数项，以描述污染物浓度与各项影响因素之间可能会出现的潜在关系；可通过先验知识从影响因素微分项中筛选一部分，在没有先验知识时也可枚举，候选函数库的构建可表示为φ＝φ(U)∈R^1×s，包含关于空间变量的多项式，三角函数项等，φ＝{1,U²,U³,U_x,U_y,U_xx,...,sin(U),cos(U),...}，U表示神经网络拟合后的空气污染物浓度，s为函数库中候选函数的个数，其中每一项代表污染物浓度与各项影响因素可能存在的潜在关系。

S4：根据候选函数库中的函数项构建控制方程模型。

控制方程的形式一般为：

其中，U表示神经网络拟合后的空气污染物浓度；U_t为U关于时间的一阶导数；t∈[0,T]为时间变量；x∈Ω为空气污染浓度影响因素变量，即气象因子；

为梯度算子；F[·]为关于U及其影响因素变量导数的复杂非线性函数，λ为各函数项的系数向量，通过控制方程可以直观的表示出其中的潜在关系及趋势。

通过评估产生的回归误差和模型复杂性，递归地检查函数库中每一项的重要性，最重要的项被逐步识别并添加到控制方程模型中，直到添加更多项的效果减弱，确定控制方程的形式；控制方程的形式是逐步确定的。首先依次删除候选列表中的每一项，比较删除后的误差来确定最具有贡献的一项，然后在依次加入其他项直到差值大于ε时，停止加入即在依次加入其他项直到不再显著提高精度为止；具体过程如下：

S41：删除候选函数库中的一个函数项，计算删除前后空气污染物浓度关于时间的导数，并根据删除前后空气污染物浓度关于时间的导数计算第一均方误差。

根据控制方程的一般形式，采用最小二乘回归评估回归误差，计算第一均方误差的公式为：

其中，

为删除某一项之后污染物浓度关于时间的导数，U_t为全部函数加入时污染物浓度关于时间的导数。

删除候选函数库中的一个函数项后的第一均方误差值越大，则说明该项的贡献度越大。

S42：重复步骤41，直到所有函数项均被计算过，选择均方误差最大的一项作为控制方程第一项。

S43：增加函数库中剩下的函数项中的一项，计算增加前后空气污染物浓度关于时间的导数，并根据增加前后空气污染物浓度关于时间的导数计算第二均方误差；计算公式为：

其中，

表示加入某一项之后污染物浓度关于时间的导数，U_t′表示未加入该项时污染物浓度关于时间的导数。

若加入该项后差值越小，则说明该项贡献度相比其他项大，则将该项加入方程中。

S44：重复步骤43，直到所有函数项均被计算过。

S45：设置超参数ε；根据第二均方误差值以其从小到大的顺序依次将对应的函数项加入到控制方程，直到加入函数项后的第二均方误差大于超参数ε，得到初始控制方程。

S46：构建总损失函数，计算使得总损失值最小的优化参数，将优化参数代入初始控制方程，得到中间控制方程模型。

为了确认方程中函数项的系数即优化参数，构建总损失函数，该总损失函数包括三项，第一项为拟合损失，其在神经网络拟合数据用来近似潜在解的过程中产生的，表示为L_d(δ；D_u)；第二项为学习损失，其在构造控制方程中学习候选函数系数产生的，表示为:

其中，θ表示神经网络第二优化参数，

表示神经网络拟合后的数据点，U表示神经网络拟合后的空气污染物浓度，U_t表示U关于时间的一阶导数，φ表示候选函数库，Λ表示方程的系数矩阵，F[·]为关于U及其影响因素变量导数的复杂非线性函数。

第三项为正则化项；整体的总损失函数表示为：

L(δ,θ,Λ；D_u,D_c)＝L_d(δ；D_u)+αL_p(θ,Λ；D_c)+β||Λ||₀

表示输入神经网络的数据点，

表示神经网络拟合后的数据点，||·||₀表示0范数。{δ,θ,Λ}为需要优化的参数，即{δ^*,θ^*,Λ^*}:＝argmin_{δ,θ,Λ}[L(δ,θ,Λ；D_u,D_c)]，通过多次迭代找到一组系数参数{δ,θ,Λ}，使得上述函数值最小，得到优化参数(第一优化参数δ、第二优化参数θ和系数矩阵Λ)；将该优化参数代入控制方程，得到中间控制方程模型。

由于坐标变换会改变控制方程的最终形式，因此，在坐标变换下拟合神经网络，需要通过链式法则对控制方程进行还原，公式为：

其中，U表示神经网络拟合后的空气污染物浓度，τ表示坐标变换后的时间变量，t表示原时间变量，σ(t)表示原时间变量的标准差，ξ表示坐标变换后的气象因子数据，x表示原气象因子数据，σ(x)表示原气象因子数据的标准差，U_t表示污染物浓度对原时间变量的微分，U_τ表示污染物浓度对坐标变换后的时间变量的微分，U_x表示污染物浓度对原气象因子变量的微分，U_ξ表示污染物浓度对坐标变换后的气象因子变量的微分，U_xx表示污染物浓度对原气象因子变量的二阶微分，U_ξξ表示污染物浓度对坐标变换后的气象因子变量的二阶微分。涉及到其他微分项，处理方法同理。

根据还原的控制方程参数将中间控制方程模型还原，得到完整的控制方程模型。

获取待预测时间段的气象因子数据，将其输入到控制方程模型中，可得到空气污染物浓度预测结果；可将得到的预测结果与测试数据进行比较，通过均方根误差(RMSE)，平均绝对误差(MAE)和平均绝对百分比误差(MAPE)等评价指标来检验预测的效果。

均方根误差公式为：

平均绝对误差公式为：

平均绝对百分比误差公式为：

其中，

表示预测值，y_i表示真实值，n表示数据的个数。

通过对预测结果效果进行检测，可发现采用本发明预测的结果较为理想，体现了本发明的合理性，精度高，实用性好。

本发明还提供了一种基于数据驱动探索的空气污染物浓度预测系统，该系统用于执行上述一种基于数据驱动探索的空气污染物浓度预测方法，包括：数据采集模块、数据预处理模块、数据拟合模块、函数库构建模块、控制方程构建模块以及预测模块；

所述数据采集模块用于采集空气质量数据；包括从气象监测设备获得气象数据和从空气监测设备获取空气污染物浓度数据；

利用本发明，相关环保组织可根据空气污染物浓度预测结果制定及时的措施以减少污染物的产生，保护环境。

本发明通过运用机器学习对数据进行拟合，可以发现其中存在的潜在规律，明晰变量之间的关系，而控制方程可以直观反映这种关系。通过这种关系能够精准预测测量数据范围之外的数据量。本发明挖掘空气污染物浓度与其影响因素之间的关系，以控制方程的形式给出，不同于目前机器学习中许多黑盒子模型，本发明的预测模型带有良好的可解释性。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，包括：

S3：根据影响因素微分项构建候选函数库；

S4：根据候选函数库中的函数项构建控制方程模型；

2.根据权利要求1所述的一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，对空气质量数据进行预处理的过程包括：

3.根据权利要求1所述的一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，得到影响因素微分项的过程包括：将深度神经网络作为空气污染物浓度的逼近函数并对空气质量数据进行数据拟合，定义拟合损失函数，根据拟合损失函数进行神经网络反向传输并对数据拟合结果进行自动微分，得到影响因素微分项。

4.根据权利要求3所述的一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，拟合损失函数为：

5.根据权利要求1所述的一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，构建控制方程模型的过程包括：

S44：重复步骤43，直到所有函数项均被计算过；

S45：设置超参数ε；根据第二均方误差值以其从小到大的顺序依次将对应的函数项加入到控制方程，直到加入函数项后的第二均方误差大于超参数ε，得到初始控制方程；

6.根据权利要求5所述的一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，总损失函数为：

L(δ,θ,Λ；D_u,D_c)＝L_d(δ；D_u)+αL_p(θ,Λ；D_c)+β||Λ||₀

其中，L(δ,θ,Λ；D_u,D_c)表示总损失，L_d(δ；D_u)表示拟合损失，L_p(θ,Λ；D_c)表示学习损失，α表示相对权重，β表示正则参数，Λ表示方程的系数矩阵；δ，θ分别表示神经网络第一优化参数和第二优化参数，D_u表示输入神经网络的数据点，D_c表示神经网络拟合后的数据点，||·||₀表示0范数。

7.根据权利要求5所述的一种基于数据驱动探索的空气污染物浓度预测方法，其特征在于，采用链式法则对空气质量数据进行处理的公式为：

8.一种基于数据驱动探索的空气污染物浓度预测系统，其特征在于，包括：数据采集模块、数据预处理模块、数据拟合模块、函数库构建模块、控制方程构建模块以及预测模块；

所述数据采集模块用于采集空气质量数据；