CN113689035B

CN113689035B - 一种基于卷积神经网络的max-doas光谱预测对流层no2廓线的方法

Info

Publication number: CN113689035B
Application number: CN202110967743.6A
Authority: CN
Inventors: 田鑫; 潘屹峰; 谢品华; 李昂; 徐晋; 任博; 黄骁辉; 田伟
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-06-20
Anticipated expiration: 2041-08-23
Also published as: CN113689035A

Abstract

本发明提供了一种基于卷积神经网络的MAX‑DOAS光谱预测对流层NO₂廓线的方法，所述方法通过卷积神经网络，将对齐的多仰角MAX‑DOAS光谱数据和PriAM算法反演的对流层NO₂数据结合，建立可实现对流层NO₂廓线预测的卷积神经网络模型；卷积神经网络模型(CNN)通过卷积层来提取数据特征，池化层用来降维和防止模型的过拟合，最后利用全连接层来输出结果。本发明解决了对流层NO₂廓线在线实时预测问题，能够根据MAX‑DOAS光谱快速准确直观的得到对流层NO₂廓线，减少了QDOAS拟合和廓线反演算法反演立体分布的进程，避免了在该过程中出现的误差；一方面对对流层NO₂廓线进行预测有助于监测NO₂在对流层上的浓度变化趋势，对于NO₂污染的评估，分析造成污染的原因有着重大的意义。

Description

一种基于卷积神经网络的MAX-DOAS光谱预测对流层NO2廓线的方法

技术领域

本发明涉及环境预测技术领域，特别涉及一种基于卷积神经网络的 MAX-DOAS光谱预测对流层NO₂廓线的方法。

背景技术

我国的大气污染由传统的煤烟型污染逐步转变为极其复杂的区域性复合污染。其中，以细颗粒物(PM2.5)为代表的灰霾污染和以臭氧(O₃)为代表的光化学烟雾是我国目前所面临的两大主要大气污染问题。氮氧化物(NO_x)是重要的灰霾气态前体物，其排放及污染物之间的化学反应与重污染的形成密切相关。因此，准确监测大气中灰霾前体物NO_x的浓度及其时空分布情况对于及时掌握空气质量状况和有效控制大气污染很有必要。

NO₂主要来源于交通、工厂的排放及化石燃料的燃烧，且会造成各种各样的环境影响，比如大气能见度降低、光化学烟雾、地表水酸化以及水体富营养化等。NO₂的光解是引发对流层O₃生成的关键启动反应。若无其他物种，NO、 NO₂和O₃三者之间可以达到稳态：

当NO₂大量累积，增多的NO₂会破坏反应式平衡，从而使对流层O₃在大气中得以积聚，这些光化学反应在污染的城市地区会导致″光化学烟雾″的产生。

目前多项研究表明，边界层中NO₂的分布变化与人类活动密切相关，各种污染源排放的NO₂气体扩散、输送和沉降主要集中在大气边界层，其对人类和其它生物造成的危害也主要出现在该层。因此，准确的获得大气边界层NO₂的分布及变化信息，有助于解释和预测大气污染成分的输送、扩散过程，提高大气环境监测水平和预报能力，为大气环境、空气质量预报模型等研究工作提供重要数据。

多轴差分吸收光谱技术(MAX-DOAS)是一种广泛使用的可同时观测多种大气痕量气体的遥测技术，其快速发展为高分辨的监测对流层和平流层大气痕量气体提供了一种便捷、有效的途径。与卫星观测相比，地基观测的时空分辨率相对较高，受云层干扰小。MAX-DOAS技术已经广泛应用于对流层NO₂， SO₂和HCHO等廓线反演中且均取得了显著的效果。在对流层NO₂垂直分布的反演中，安徽光机所(AIOFM)与马普化学所(MPIC)联合研发了基于非线性最优估算的痕量气体和气溶胶垂直廓线两步反演算法-PriAM。首先利用 MAX-DOAS在同一波段反演氧二聚体(O₄)的差分斜柱浓度来反演气溶胶光学特性及廓线；其次将痕量气体差分斜柱浓度和气溶胶垂直廓线输入到PriAM 廓线反演算法，最终获对流层(0-4km)痕量气体垂直分布廓线以及垂直柱浓度。

通过在长期MAX-DOAS监测大气污染物立体分布中，积累大量的原始光谱数据和反演得到的廓线数据，为数据挖掘技术应用在MAX-DOAS痕量气体廓线预测中提供了数据支持。由于非线性计算元素和并行结构，而神经网络本质上适用于解决非线性问题。在这种方法中，不需要推导特定的规则或待处理数据的统计先验信息。卷积神经网络在学习阶段根据提供给它们的数据建立逆映射和输入输出关系。基于此，利用卷积神经网络算法建立MAX-DOAS光谱数据与对流层NO₂廓线的模型，实现光谱数据输入到模型中，就能得到一条较为精准的对流层廓线。

发明内容

为解决上述问题，本发明旨在提出一种基于卷积神经网络的MAX-DOAS 光谱预测对流层NO₂廓线的方法，利用卷积神经网络算法建立MAX-DOAS 光谱数据与对流层NO₂廓线的模型，实现光谱数据输入到模型中，就能得到一条较为精准的对流层廓线。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，所述方法通过卷积神经网络，将对齐的多仰角MAX-DOAS光谱数据和PriAM 算法反演的对流层NO₂数据结合，建立可实现对流层NO₂廓线预测的卷积神经网络模型；卷积神经网络模型(CNN)通过卷积层来提取数据特征，池化层用来降维和防止模型的过拟合，最后利用全连接层来输出结果。

进一步的，所述方法具体包括以下步骤：

S1、通过MAX-DOAS站点测得多仰角MAX-DOAS光谱数据，仪器方位角为310°(正北为0°)，测量仰角11个角度为一组：1°、2°、3°、4°、5°、6°、 8°、10°、15°、30°、90°；

S2、将每一组输入向量的MAX-DOAS光谱数据，结合QDOAS光谱拟合和痕量气体廓线反演算法PriAM反演获取对流层NO₂廓线，反演得到的NO₂廓线作为模型的输出向量，构建卷积神经网络模型；

S3、随机挑选70％的光谱数据作为训练集，30％的光谱数据作为测试集；并对数据进行归一化用于减少量纲的影响；归一化公式为

是归一化后的数据值，xi为真实数据，μ为原始数据的均值，σ为标准差；

S4、搭建卷积神经网络模型(CNN)，使用训练集训练卷积神经网络模型，调整模型参数，使得卷积层能够提取MAX-DOAS光谱的数据特征；

S5、利用测试集监测网络训练的决定系数(R²)和均方根误差(RMSE)，当模型的R²＞0.9且RMSE＜0.4时，判定模型能够用于对流层NO₂廓线的预测；采用决定系数(R²)和均方根误差(RMSE)的计算方法为

其中y_i和/>

分别表示真实数据和预测数据。

进一步的，还包括步骤S6、将已知的MAX-DOAS站点的MAX-DOAS 光谱数据，输入到训练好的网络模型中，用于实现对流层NO₂廓线的预测；并用MSE来验证模型的可行性和准确性；

其中y_i和/>

分别表示真实数据和预测数据。

进一步的，所述卷积神经网络模型的建立包括输入层、卷积层、池化层、全连接层：

输入层：输入层是测量仰角11个角度的MAX-DOAS光谱数据通过归一化的预处理后的数据；

卷积层：卷积层是对输入的光谱数据进行特征提取，通过卷积核矩阵对原始数据中隐含关联性进行抽象；

池化层：对特征进行采样，对感受域内的特征进行筛选，提取区域内最具代表性的特征，用于降低输出特征尺度，减小模型所需要的参数量；

全连接层：全连接层进行线性拟合并通过输出层输出预测数据。

进一步的，还包括激活层：用于对卷积层抽取的特征进行激活。

进一步的，所述卷积神经网络模型(CNN)的模型参数设置如下：使用 ReLU的激活函数，损失函数采用MSE(均方根误差)；优化器使用 SGD+momentum，学习率为10^-3，Batchsize(批量大小)根据训练集的样本数目设置为64，来保证内存利用率，加强相同数据量的处理速度。

进一步的，所述卷积神经网络模型采用Dropout算对多个不同的神经网络取平均用于减少不同网络的过拟合。

有益效果：本发明建立的卷积神经网络模型(CNN)使用训练集训练卷积神经网络模型，调整模型参数，使得卷积层能够提取MAX-DOAS光谱的数据特征，池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合；同时使用了全局最大池化，为了减少卷积层参数误差造成估计均值偏移的问题，更多的保留原始光谱数据的纹理信息。最后在全连接层使用线性回归输出对流层NO₂廓线结果。再使用测试集监测网络训练的决定系数(R²)和均方根误差 (RMSE)，并对参数进行调整，以达到最优的对流层NO₂廓线的输出结果；本发明解决了对流层NO₂廓线在线实时预测问题，能够根据MAX-DOAS光谱快速准确直观的得到对流层NO₂廓线，减少了QDOAS拟合和廓线反演算法反演立体分布的进程，避免了在该过程中出现的误差；一方面对对流层NO₂廓线进行预测有助于监测NO₂在对流层上的浓度变化趋势，对于NO₂污染的评估，分析造成污染的原因有着重大的意义；另一方面卷积神经网络模型利用卷积层和池化层逐层提取MAX-DOAS数据的抽象特征，同时避免过拟合，学习数据内部的结构特征及其隐藏的联系；通过非全连接和权值共享的网络结构降低了网络模型的复杂度，减少了自由参数，提升模型泛化能力；卷积神经网络在 MAX-DOAS光谱预测廓线领域展现了良好的效果。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法的原理框图；

图2为典型的卷积神经网络模型结构示意图；

图3为本发明实施例所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法中的卷积神经网络模型结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

实施例1

参见图1-3：一种基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，所述方法通过卷积神经网络，将对齐的多仰角MAX-DOAS光谱数据和PriAM算法反演的对流层NO₂数据结合，建立可实现对流层NO₂廓线预测的卷积神经网络模型；卷积神经网络模型(CNN)通过卷积层来提取数据特征，池化层用来降维和防止模型的过拟合，最后利用全连接层来输出结果。

需要说明的是，本实施例的卷积神经网络从输入的原始光谱数据中的特定长度片段中获得感兴趣特征，并且该特性在该数据片段中的位置不具有高度相关性时，一维CNN是高效的，试图提取数据在某一方向的平移不变特征；由于输入是多条对齐的观测仰角数据，所以能实现不同序列下不同波长数据的对应关系；一旦建立模型的过程完成，该模型能够实时给出新的估计，建立非常快速的数据处理链，从而利用MAX-DOAS光谱数据输入得到基于卷积神经网络算法的对流层NO₂廓线。

在一具体的实例中，所述方法具体包括以下步骤：

需要说明的是，该站点的光谱数据按该仰角顺序筛选，满足该顺序的一组光谱保留做本实施例的输入数据，如果有些角度缺失剔除对应组的数据；

本实施例的NO2廓线垂直分辨率为200m(最低一层为50m)，故NO₂廓线数据一共21个格点；本实施例的输入向量是由MAX-DOAS一个测量循环(11个观测仰角)的光谱数据组成；

其中y_i和/>

分别表示真实数据和预测数据。

其中y_i和/>

分别表示真实数据和预测数据。

可以理解的是，本实施例使用线性回归输出对流层NO₂廓线结果；再使用测试集监测网络训练的决定系数(R²)和均方根误差(RMSE)，并对参数进行调整，达到了最优的对流层NO₂廓线的输出结果。

在一具体的实例中，所述卷积神经网络模型的建立包括输入层、卷积层、池化层、全连接层：

本实施例的输入层的作用是将输入数据送入卷积神经网络进行特征提取，以获得想要的结果；

本实施例的堆叠使用1维的卷积层，卷积神经网络可以很好地识别出数据中的简单模式，然后使用这些简单模式在更高级的层中生成更复杂的模式。因为从输入的原始光谱数据固定长度的片段中获得感兴趣特征，并且该特性在该数据片段中的位置不具有高度相关性时，一维CNN是高效的，试图提取数据在某一方向的平移不变特征；由于输入是11条序列对齐的，所以能实现不同序列下不同波长数据的对应关系；

本实施例的神经网络模型需要池化层更多的保留光谱数据的纹理信息，降低卷积层参数误差造成估计均值的偏移的误差，故采用最大池化(Max Pooling)；同时该层能够提高拟合性，降低机器计算量。

全连接层：全连接层进行线性拟合并通过输出层输出预测数据；

本实施例的全连接层将上一层的输出张量的形状作为全连接层输入张量的现状，全连接层的输出张量形状为21，即代表21个高度下对流层NO₂的浓度；

在一具体的实例中，还包括激活层：用于对卷积层抽取的特征进行激活。

由于卷积操作是把输入图像和卷积核进行相应的线性变换，需要引入激活层(非线性函数)对其进行非线性映射；本实施例可以使用sigmoid函数，双曲正切函数和ReLU作为本神经网络模型的激活函数。sigmoid函数和双曲正切函数容易饱和，造成梯度消失，使得模型无法拟合；而ReLU函数在本模型中能让每个神经元都能最大化的发挥它筛选的作用，符合某一个特征的中间值，故加强其作用；不符合的直接剔除，同时活跃度的分散性使得神经网络整体计算成本下降。

在一具体的实例中，所述卷积神经网络模型(CNN)的模型参数设置如下：使用ReLU的激活函数，损失函数采用MSE(均方根误差)；优化器使用 SGD+momentum，学习率为10^-3，Batchsize(批量大小)根据训练集的样本数目设置为64，来保证内存利用率，加强相同数据量的处理速度。

需要说明的是，本实施例的卷积层的卷积核均设置为5＊5；将光谱数据输入后通过卷积层1，输入的通道数是11，卷积后输出了64个通道；有多少个输出通道，就需要多少个1维卷积；所以在卷积层2输入了64通道，通过卷积输出了128个通道；卷积层可以显著减少网络中连接的数量，但特征映射组中的神经元个数并没有显著减少，很容易过拟合；在数据经过两次卷积后进行池化降低特征维数，避免过拟合；池化层1的卷积核设置为5＊5，步长为2；之后卷积层3将输入的128个通道进行卷积，输出128个通道后再进入池化层2来有效的减少神经元的数量；卷积层4将输入的128个通道进行卷积，输出256个通道后进入池化层3，使得网络对一些小的局部形态改变保持不变性；卷积层5将输入的256个通道进行卷积，输出512个通道后进入池化层4，压缩数据和参数的数量，提高模型的容错性；卷积层6将输入的512个通道进行卷积，输出512个通道后，进行自适应最大池化对于任何输入大小的输入，可以将输出指定尺寸；最后通过全连接层整合卷积层或者池化层中具有类别区分性的局部信息进行输出。

在一具体的实例中，所述卷积神经网络模型采用Dropout算对多个不同的神经网络取平均用于减少不同网络的过拟合。

除了基本的模型构造之外，为了防止模型出现在训练集上有着极低的训练误差，可是在测试集上表现不佳，这样得到的模型完全不能使用。本实施例利用Dropout算法，该算法执行过程中相当于对多个不同的神经网络取平均，整体上减少了不同网络的过拟合。因为dropout算法导致两个神经元不一定每次都在一个dropout网络中出现。这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。迫使网络去学习更加鲁棒的特征，使得网络对丢失特定神经元连接的鲁棒性提高，防止了模型的过拟合。本实施例的dropout设置为0.1时模型的效果最佳。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，其特征在于，所述方法通过卷积神经网络，将对齐的多仰角MAX-DOAS光谱数据和PriAM算法反演的对流层NO₂数据结合，建立可实现对流层NO₂廓线预测的卷积神经网络模型；卷积神经网络模型(CNN)通过卷积层来提取数据特征，池化层用来降维和防止模型的过拟合，最后利用全连接层来输出结果；

所述方法具体包括以下步骤：

S1、通过MAX-DOAS站点测得多仰角MAX-DOAS光谱数据，仪器方位角为310°-正北为0°，测量仰角11个角度为一组：1°、2°、3°、4°、5°、6°、8°、10°、15°、30°、90°；

S4、搭建卷积神经网络模型CNN，使用训练集训练卷积神经网络模型，调整模型参数，使得卷积层能够提取MAX-DOAS光谱的数据特征；

S5、利用测试集监测网络训练的决定系数R²和均方根误差RMSE，当模型的R²>0.9且RMSE＜0.4时，判定模型能够用于对流层NO₂廓线的预测；采用决定系数R²和均方根误差RMSE的计算方法为

其中y_i和/>

分别表示真实数据和预测数据。

2.根据权利要求1所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，其特征在于，还包括步骤S6、将已知的MAX-DOAS站点的MAX-DOAS光谱数据，输入到训练好的网络模型中，用于实现对流层NO₂廓线的预测；并用MSE来验证模型的可行性和准确性；

其中y_i和/>

分别表示真实数据和预测数据。

3.根据权利要求1所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，其特征在于，所述卷积神经网络模型的建立包括输入层、卷积层、池化层、全连接层：

4.根据权利要求3所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，其特征在于，还包括激活层：用于对卷积层抽取的特征进行激活。

5.根据权利要求3所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，其特征在于，所述卷积神经网络模型CNN的模型参数设置如下：使用ReLU的激活函数，损失函数采用均方根误差MSE；优化器使用SGD+momentum，学习率为10^-3，批量大小Batchsize根据训练集的样本数目设置为64，来保证内存利用率，加强相同数据量的处理速度。

6.根据权利要求1所述的基于卷积神经网络的MAX-DOAS光谱预测对流层NO₂廓线的方法，其特征在于，所述卷积神经网络模型采用Dropout算法对多个不同的神经网络取平均用于减少不同网络的过拟合。