CN114266200B

CN114266200B - 二氧化氮浓度预测方法及系统

Info

Publication number: CN114266200B
Application number: CN202210169539.4A
Authority: CN
Inventors: 张庆竹; 汪先锋; 陶辰亮; 王桥; 王文兴
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-07-05
Anticipated expiration: 2042-02-24
Also published as: CN114266200A

Abstract

本发明提供二氧化氮浓度预测方法及系统，属于空气质量监测技术领域，获取大气污染监测数据、气象监测数据、遥感再分析气象场数据和地理协变量数据等监测数据；使用预先训练好的随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型分别对监测数据进行处理，得到三个二氧化氮浓度预测值，再结合加权平均算法，计算得到最终的二氧化氮浓度值。本发明融合多源时空数据，学习了二氧化氮的时间和空间变化模式；通过集成学习结合不同算法的优势，提升了预测结果的稳定性，降低了预测残差，实现了覆盖范围广、预测精度高、多时间序列的二氧化氮浓度预测；保证了机器学习预测方法的移植性，可直接应用在历史数据少的新建监测站内。

Description

二氧化氮浓度预测方法及系统

技术领域

本发明涉及空气质量监测技术领域，具体涉及一种基于机器学习算法的二氧化氮浓度预测方法及系统。

背景技术

煤炭、石油、天然气等化石燃料的过多使用，使空气污染问题日益严重，给人们的生活健康造成一系列影响，长期暴露在大气污染环境中会引起呼吸系统、心血管等疾病，甚至造成死亡。因此，应高度重视大气污染防治问题，持续推动大气环境精细化、科学化防治管控，对大气污染物浓度及时预测预警可以提醒人们提前做好预防工作，帮助决策者及时提出解决问题的方法，规避、遏制大气污染的影响。

目前用于大气污染预测的方法主要有三种：确定性方法、统计方法和机器学习方法。确定性方法是基于先验知识模拟大气化学的扩散和传输过程，可以提供排放源对大气污染的相对贡献和污染物扩散机制，但是确定性方法需要消耗的大量的计算资源。统计方法通过构建自变量和因变量之间的线性关系预测空气质量，更容易实现且计算资源消耗更少，但是难以应对真实世界复杂的非线性关系。机器学习可以处理多种变量之间的复杂关系，缓解了上面两种方法面临的困境，随机森林、支持向量机、极端梯度提升和循环神经网络被广泛应用于大气污染预测，通常可获得更高的预测性能。

伴随环境监测数据的不断累积，机器学习快速分析挖掘大量数据中隐藏信息的优势得以充分发挥，成为大气污染预测中不可替代的关键技术。尽管已经有很多使用机器学习算法进行空气质量预测的方法和应用，但是对大范围区域性的大气二氧化氮浓度进行预测的方法较少。基于小范围、单一数据源（污染数据和气象数据）构建的机器学习预测方法没有考虑不同区域的空间因素影响，可移植性差，仅适用于当前区域的空气质量预测。

发明内容

本发明的目的在于提供一种集成了随机森林、极端梯度提升、结合残差连接的门控循环单元三种机器学习算法的模型，利用各个监测站点的历史预测误差为这三种算法赋予权重，加权平均后得到最终的更加精确、稳定的二氧化氮浓度预测结果的二氧化氮浓度预测方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种二氧化氮浓度预测方法，包括：

获取监测数据；所述监测数据包括大气污染监测数据、气象数据、遥感再分析气象场数据和地理协变量数据；

使用预先训练好的随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型分别对所述监测数据进行处理，得到三个二氧化氮浓度预测值；

基于所述的三个二氧化氮浓度预测值，结合加权平均算法，计算得到最终的二氧化氮浓度值。

可选的，所述预先训练好的随机森林模型、所述极端梯度提升树模型和所述结合残差连接的门控循环单元神经网络模型均由训练集训练得到，所述训练集包括历史监测数据以及标注历史监测数据对应的不同时间分辨率下的二氧化氮浓度的标签，其中，所述历史监测数据包括历史大气污染监测数据、历史气象数据、历史遥感再分析气象场数据和历史地理协变量数据。

可选的，对历史监测数据进行预处理以及时间和空间融合，利用重采样技术生成不同时间分辨率数据集。

可选的，对历史监测数据进行预处理包括：使用随机森林算法对缺失值进行填补，删除突变异常值，保留由突发污染事件引起的污染数据。

可选的，在空间尺度基于空气质量监测站的位置，结合空气质量监测站和气象监测站之间的空间距离融合遥感再分析气象场数据和地理协变量数据，实现历史监测数据的时间和空间融合。

可选的，提取融合后的数据集的时间和空间信息，添加一定时间段前的二氧化氮浓度作为滞后值，得到训练集。

可选的，分别计算出随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型的决定系数，分别作为加权平均算法中的三个二氧化氮浓度预测值的权重。

可选的，基于随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型的各自的预测值以及对应的真实值，计算所述决定系数。

可选的，采用均方误差损失函数训练所述结合残差连接的门控循环单元神经网络模型，训练过程中使用衰减学习率和早停以得到最优的预测模型。

第二方面，本发明提供一种二氧化氮浓度预测系统，包括：

获取模块，用于获取监测数据；所述监测数据包括大气污染监测数据、气象数据、遥感再分析气象场数据和地理协变量数据；

预测模块，用于使用预先训练好的随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型分别对所述监测数据进行处理，得到三个二氧化氮浓度预测值；

计算模块，用于基于所述的三个二氧化氮浓度预测值，结合加权平均算法，计算得到最终的二氧化氮浓度值。

本发明有益效果：通过融合多源时空数据，从海量数据中学习了空气中二氧化氮的时间和空间变化模式；通过集成学习方法结合不同算法的优势，提升了预测结果的稳定性，降低了预测残差，实现了覆盖范围广、预测精度高、多时间序列的二氧化氮短期浓度预测；保证了机器学习预测方法的移植性，可直接应用在历史数据少的新建监测站内。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于机器学习的空气质量监测站短期二氧化氮浓度的预测方法的实现流程示意图。

图2为本发明实施例所述的结合残差连接的门控循环单元神经网络模型结构图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种二氧化氮浓度预测系统，该系统包括：

在本实施例1中，用上述的二氧化氮浓度预测系统，实现了二氧化氮浓度预测方法，包括：

利用获取模块获取监测数据；其中，获取的所述监测数据包括大气污染监测数据、气象监测数据、遥感再分析气象场数据和地理协变量数据。大气污染监测数据包括，如：PM_2.5、PM₁₀、NO₂、CO、O₃，气象数据包括：温度、湿度、大气压、风速、风向等，遥感再分析气象场数据包括：边界层高度、有效表面比湿度、表层高度等，地理协变量包括人口密度、路网密度等。

然后在预测模块中，使用预先训练好的随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型分别对所述监测数据进行处理，得到三个二氧化氮浓度预测值；

最后，利用计算模块基于所述的三个二氧化氮浓度预测值，结合加权平均算法，计算得到最终的二氧化氮浓度值。

在本实施例1中，所述预先训练好的随机森林模型、所述极端梯度提升树模型和所述结合残差连接的门控循环单元神经网络模型均由训练集训练得到，所述训练集包括历史监测数据以及标注历史监测数据对应的不同时间分辨率下的二氧化氮浓度的标签，其中，所述历史监测数据包括历史大气污染监测数据、历史气象监测数据、历史遥感再分析气象场数据和历史地理协变量数据。

本实施例1中，在训练所述随机森林模型、所述极端梯度提升树模型和所述结合残差连接的门控循环单元神经网络模型时，首先对历史监测数据进行预处理以及时间和空间融合，利用重采样技术生成不同时间分辨率数据集。

其中，对历史监测数据进行预处理包括：使用随机森林算法对缺失值进行填补，删除突变异常值，保留由突发污染事件引起的污染数据。具体的，在空间尺度基于空气质量监测站的位置，结合空气质量监测站和气象监测站之间的空间距离融合遥感再分析气象场数据和地理协变量数据，实现历史监测数据的时间和空间融合。

然后，提取融合后的数据集的时间和空间信息，添加一定时间段前的二氧化氮浓度作为滞后值得到训练集。

其中，采用均方误差损失函数训练所述结合残差连接的门控循环单元神经网络模型，训练过程中使用衰减学习率和早停以得到最优的预测模型。

本实施例1中，分别计算出随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型的决定系数，分别作为加权平均算法中的三个二氧化氮浓度预测值的权重。

本实施例1中，加权平均算法的计算公式如下：

；

式中，

表示最终预测的空气质量监测站

在

时刻的二氧化氮浓度值，

表示单个模型

的权重，

表示模型

在空气质量监测站

的历史预测结果的决定系数，

表示

时刻模型

在空气质量监测站

的二氧化氮浓度预测结果。

具体的，基于随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型的各自的预测值以及对应的真实值，计算所述决定系数

：

；

其中，

为二氧化氮浓度的观测值，也即真实值；

为相应模型下的二氧化氮浓度的预测值；

表示观测值的均值，

表示预测值的均值；

为观测值的标准差，

为预测值的标准差；

为样本量。

综上，本实施例1中提供的基于集成机器学习的空气质量监测站二氧化氮浓度预测方法，将随机森林、极端梯度提升、结合残差连接的门控循环单元三种机器学习算法进行集成，利用各个监测站点的历史预测误差为这三种算法赋予权重，加权平均后得到最终的预测结果，以此发挥不同机器学习算法的优势，精确、稳定的预测二氧化氮短期浓度。

实施例2

本实施例2中，提供了一种基于机器学习预测某一区域空气质量监测站短期NO₂浓度的方法，实现大范围、多时序的NO₂浓度快速精确预测，解决当前机器学习预测方法移植性低，不能应用在历史数据少的新建监测站的问题。

本实施例2中，基于机器学习预测空气质量监测站短期NO₂浓度的方法，其实现过程具体包括以下步骤：步骤1，获取覆盖该某一区域的大气污染监测数据和辅助特征数据集，得到多源数据集；步骤2，对长时序的多源数据集进行预处理、时间和空间融合，利用重采样技术生成不同时间分辨率数据集；步骤3，基于融合后的多源数据集，利用特征工程提取时空信息加入数据集并划分训练集和测试集；步骤4，训练基于机器学习的多时序NO₂与特征向量之间关系的模型，最终实现该区域多时序的NO₂浓度预测。其中，训练的模型包括随机森林模型、极端梯度提升树模型、结合残差连接的门控循环单元神经网络模型。

利用训练好的上述三个模型进行实际使用时，首先利用z-score标准化将使用特征工程提取并融合采集的数据后的融合数据映射到[-1,1]之间，然后采用训练好的上述三个模型分别计算出不同时间分辨率下的NO₂浓度，并基于各个站点的历史预测情况为三种模型的算法赋予权重（即决定系数），利用加权平均计算最终的NO₂预测值。

其中，所述步骤1中大气污染监测数据包括：PM_2.5、PM₁₀、NO₂、CO、O₃等，辅助特征数据集包括：温度、湿度、大气压、风速、风向等气象数据，边界层高度、有效表面比湿度、表层高度等遥感再分析气象场数据，人口密度、路网密度等地理协变量数据。

本实施例2中，所述不同时间分辨率可以设置为1、3或24小时。而在具体应用中，时间分辨率并不受上述数值的限制，本领域技术人员可根据实际情况具体设置时间分辨率，以预测未来不同时间的二氧化氮浓度。

其中，所述步骤3中特征工程提取的时空信息包括：空气质量监测站和气象监测站的经纬度、距离，年、月、日、季节、一天中的时间段、是否是周末、周几。

本实施例2中，z-score标准化将不同量级的数据转化为统一度量[-1,1]之间，提升了数据可比性、模型计算效率和精度，z-socre标准化的计算公式为：

；

式中，

为原始数据，

为原始数据的均值，

为原始数据的标准差。

本实施例2中，所述步骤4中训练机器学习模型使用的训练数据集时间范围是该区域2014年5月至2019年12的相关数据，输入特征总数为37个。

所述步骤4中结合残差连接的门控循环单元（GRU-Resnet）算法是一个多层神经网络，结构如下：第1-7层为循环层，用以学习时间序列信息，每层均分别设置有不同个数的门控循环单元GRU，每层输出经过的dropout层，防止过拟合；第8层为残差连接层，设置多个GRU单元，连接在第1层和第7层之间，用以提升网络深度，通过添加残差学习解决深层网络退化问题。第9层为全连接层，输出单元为1个；循环单元GRU的时间步长为4。使用tanh函数作为激活函数，损失层采用均方误差损失函数(MSE)进行训练。

本实施例2中，采用残差连接结构优化多层GRU神经网络，有效缓解了深层网络退化问题，在增加神经网络深度的基础上进一步提升了模型性能，相比随机森林和极端梯度提升树的方法，性能有明显提升。

所述步骤4中的加权平均得到最终预测结果，具体为：获得三种算法在各个站点的历史预测结果，与真实观测值对比得到三个算法在各个站点的决定系数

作为三个算法的权重，决定系数的计算公式为：

；

其中，

为二氧化氮浓度的观测值，也即真实值；

为相应模型下的二氧化氮浓度的预测值；

表示观测值的均值，

表示预测值的均值；

为观测值的标准差，

为预测值的标准差；

为样本量。

加权平均的计算公式为：

；

式中，

表示最终预测的空气质量监测站

在

时刻的二氧化氮浓度值，

表示单个模型

的权重，

表示模型

在空气质量监测站

的历史预测结果的决定系数，

表示

时刻模型

在空气质量监测站

的二氧化氮浓度预测结果。

本实施例2所述的基于集成机器学习的空气质量监测站二氧化氮短期浓度预测方法，基于多源时空数据，利用机器学习方法对大气中二氧化氮的时空变化模式进行深度挖掘学习，综合考虑了多种因素对大气污染的影响，构建了特征变量与预测值之间的复杂时空关系模型，能有效克服以往机器学习模型空间移植性差的问题，针对性解决了新建站点没有充足的数据训练机器学习模型，无法快速预测大气污染浓度的问题。

实施例3

本实施例3中，提供一种基于机器学习预测空气质量监测站短期NO₂浓度的方法，其实现方法具体包括以下步骤：步骤1，获取覆盖目标区域的大气污染监测数据和辅助特征数据集；步骤2，对长时序的多源数据集进行预处理、时间和空间融合，利用重采样技术生成不同时间分辨率数据集，步骤3，基于融合后的多源数据集，利用特征工程提取时空信息加入数据集并划分训练集和测试集；步骤4，训练基于机器学习的多时序NO₂与特征向量之间关系的模型，最终实现目标区域多时序的NO₂浓度预测。

具体计算是，利用z-score标准化将原始数据映射到[-1,1]之间，采用随机森林、极端梯度提升、结合残差连接的门控循环单元算法分别计算出不同时间分辨率下的NO₂浓度，并基于各个站点的历史预测情况为三种算法赋予权重，利用加权平均计算最终的NO₂预测值。

所述步骤1中大气污染监测数据包括：PM_2.5、PM₁₀、NO₂、CO、O₃，辅助特征数据集包括：温度、湿度、大气压、风速、风向等气象数据，边界层高度、有效表面比湿度、表层高度等遥感再分析气象场数据，人口密度、路网密度等地理协变量。

所述步骤3中特征工程提取的时空信息包括：空气质量监测站和气象监测站的经纬度、距离，年、月、日、季节、一天中的时间段、是否是周末、周几。所述z-score标准化将不同量级的数据转化为统一度量[-1,1]之间，以提升数据可比性、模型计算效率和精度。

所述结合残差连接的门控循环单元神经网络是一个多层神经网络，结构如下：第1-7层为循环层，用以学习时间序列信息，每层分别设置64、64、128、128、192、192、64个门控循环单元GRU，每层输出经过的dropout层，防止过拟合；第8层为残差连接层，设置192个GRU单元，连接在第1层和第7层之间，用以提升网络深度，通过添加残差学习解决深层网络退化问题。第9层为全连接层，输出单元为1个；循环单元GRU的时间步长为4。

其中，使用tanh函数作为激活函数：

；

损失层采用均方误差损失函数(MSE)进行训练：

。

所述步骤4中采用加权平均得到最终的二氧化氮浓度预测结果，具体为：获得三种算法在各个站点的历史预测结果，与真实观测值对比得到三个算法在各个站点的决定系数

作为三个算法的权重，决定系数的计算公式为：

；

其中，

为二氧化氮浓度的观测值，也即真实值；

为相应模型下的二氧化氮浓度的预测值；

表示观测值的均值，

表示预测值的均值；

为观测值的标准差，

为预测值的标准差；

为样本量。

加权平均的计算公式为：

；

式中，

表示最终预测的空气质量监测站

在

时刻的二氧化氮浓度值，

表示单个模型

的权重，

表示模型

在空气质量监测站

的历史预测结果的决定系数，

表示

时刻模型

在空气质量监测站

的二氧化氮浓度预测结果。

其中，单个模型的权重

通过经验确定，其用于确定不同模型的在计算最终二氧化氮浓度值时所占的权重比例，

用于确定不同监测站上算法的权重。

本实施例3中，通过集成随机森林、极端梯度提升、结合残差连接的门控循环单元三种机器学习子模型，结合不同模型的优点，优化了预测结果的精度，尤其对预测结果的空间不确定性提升显著。能够预测目标区域范围内空气质量监测站的二氧化氮浓度，并取得较好的预测精度和稳定性，可为相关部门决策制定和污染防治提供技术支撑。

实施例4

本实施例4中提供了一种利用机器学习预测目标区域空气质量监测站未来1小时NO₂浓度的方法，方法流程如图1所指示，包括以下步骤：

步骤1，获取覆盖目标区域的大气污染监测数据和辅助特征数据集，具体数据包括：大气污染监测数据包括PM_2.5、PM₁₀、NO₂、CO、O₃，时间分辨率为1h，共有1609个空气质量监测站的历史数据。气象数据包括温度、湿度、大气压、风速、风向，时间分辨率为3h，共有400个气象监测站的历史数据。遥感再分析气象场数据包括边界层高度、有效表面比湿度、表层高度等，时间分辨率（即时间间隔）为1h，空间分辨率为0.526°×0.626°（此为遥感数据中的常规表示方式）。地理协变量数据包括人口密度，时间分辨率（即时间间隔）为年，空间分辨率为1km，路网密度为2020年实际路网状况，空间分辨率为2km。

步骤2，对长时序的多源数据集进行预处理、时间和空间融合，利用重采样技术生成不同时间分辨率数据集，具体步骤如下：对获取到的数据进行预处理，对缺失值使用随机森林算法进行填补，对突变异常值直接删除，对由突发污染事件引起的高浓度污染数据保留（此处的高浓度污染数据可根据实际情况具体设置一个阈值，若超过了阈值则归属为高浓度污染数据），提升模型对高值的预测能力。对预处理后的多源数据基于空间和空间一致性融合，在空间尺度以空气质量监测站为主，根据空间距离融合辅助数据。预测时间分辨率为1小时，故无需进行重采样。

步骤3，基于融合后的多源数据集，利用特征工程提取时空信息加入数据集并划分训练集和测试集，具体步骤如下：通过特征工程，提取融合后的多源数据集的时间和空间信息，包括空气质量监测站和气象监测站的经纬度、距离，年、月、日、季节、一天中的时间段、是否是周末、周几；通过特征工程添加NO₂三个时刻的滞后值作为特征。采集的数据集为2014年5月-2020年12月该目标区域1609个空气质量监测站的历史数据，使用2020年之前的数据作为训练集，2020年的数据作为测试集。训练集用来训练预测模型，验证集用来验证模型性能。

步骤4，训练基于机器学习的多时序NO₂与特征向量之间关系的模型，最终实现中国多时序的NO₂浓度预测。其中，利用z-score标准化将原始数据映射到[-1,1]之间，采用随机森林、极端梯度提升、结合残差连接的门控循环单元算法分别计算出未来一小时的NO₂浓度，并基于各个站点的历史预测情况为三种算法赋予权重，利用加权平均计算最终的NO₂预测值。具体步骤如下：

步骤4.1，将步骤三处理好的训练集使用z-score标准化映射到[-1,1]之间，提升数据可比性、模型计算效率和精度。

步骤4.2，使用训练集训练随机森林模型，通过学习曲线确定决定模型性能的参数，其中在随机森林算法中构建特征数为14、最大分枝深度为28、基于Bagging算法（引导聚集算法）集成的190棵子回归树，这些子树的输出结果进行决策得到最终预测结果，以验证集数据在训练模型的决定系数和均方误差评估模型性能，不断优化得到最终最优的预测模型。

步骤4.3，使用训练集训练极端梯度提升树模型，通过学习曲线确定决定模型性能的参数，其中，在极端梯度提升树算法中构建基于Boosting集成的295棵子回归树，这些子树的输出结果进行决策得到最终预测结果，以验证集数据在训练模型的决定系数和均方误差评估模型性能，不断优化得到最终最优的预测模型。

步骤4.4，使用训练集训练结合残差连接的门控循环单元神经网络模型（GRU-Resnet），GRU-Resnet是一个多层神经网络，结构如图2所示：第1-7层为循环层，用以学习时间序列信息，每层分别设置64、64、128、128、192、192、64个门控循环单元GRU，每层输出经过dropout层，防止过拟合；第8层为残差连接层，设置192个GRU单元，连接在第1层和第7层之间，用以提升网络深度，通过添加残差学习解决深层网络退化问题。第9层为全连接层，输出单元为1个，输入预测的NO₂浓度；循环单元GRU的时间步长为4。将前四个小时的所有特征数据输入神经网络模型，采用均方误差损失函数（MSE）进行训练，为了避免模型过拟合与梯度消失，训练过程中使用衰减学习率和早停以得到最优的预测模型。

步骤4.5，基于训练得到的三种最优机器学习子模型，分别对训练集所有数据进行预测，得到全部历史数据的预测结果，将各个站点的预测值和真实值使用决定系数

评估，得到1609个空气质量监测站的历史预测性能，计算公式如下：

；

其中，

为二氧化氮浓度的观测值，也即真实值；

为相应模型下的二氧化氮浓度的预测值；

表示观测值的均值，

表示预测值的均值；

为观测值的标准差，

为预测值的标准差；

为样本量。

步骤4.6，基于各个站点的历史预测情况，为三种模型分别赋予空间预测权重

（也即决定系数），通过经验确定单个模型权重

，使用加权平均集成三个模型得到最优的加权平均集成模型。

本实施例4中，随机森林模型、极端梯度提升树模型和结合残差连接的门空循环单元神经网络的模型权重

依次为：0.1、0.1和0.8，加权平均计算公式如下所示：

；

式中，

表示最终预测的空气质量监测站

在

时刻的二氧化氮浓度值，

表示单个模型

的权重，

表示模型

在空气质量监测站

的历史预测结果的决定系数，

表示

时刻模型

在空气质量监测站

的二氧化氮浓度预测结果。

步骤4.7，使用加权平均集成的机器学习模型对测试集数据进行预测，预测结果使用决定系数

（此处的决定系数

是最终集成模型的性能评估的结果，其计算公式使用上文中单个模型的决定系数的计算公式）和均方根误差RMSE进行评估，得到对目标区域内所有空气质量监测站未来一小时NO₂浓度，其中，最终集成的模型预测结果的决定系数

为：0.902，均方根误差RMSE为：6.29，均方根误差的计算公式为：

。

实施例5

本实施例5中，提供了一种利用机器学习预测某一区域内空气质量监测站未来24小时NO₂浓度的方法，方法流程如图1所示，与实施例4不同的是本实施例对更长时间的NO₂浓度进行预测，包括以下步骤：

步骤1，获取覆盖目标区域的的大气污染监测数据和辅助特征数据集。

步骤2，对长时序的多源数据集进行预处理、时间和空间融合，对融合后的数据使用重采样方法生成24小时分辨率的数据集。

步骤3，基于融合后的多源数据集，利用特征工程提取时空信息加入数据集并划分训练集和测试集。

步骤4，训练基于机器学习的多时序NO₂与特征向量之间关系的模型，最终实现该目标区域内多时序的NO₂浓度预测。具体计算是，利用z-score标准化将原始数据映射到[-1,1]之间，采用随机森林模型、极端梯度提升模型、结合残差连接的门控循环单元神经网络模型算法分别计算出未来24小时的NO₂浓度，结合残差连接的门控循环单元神经网络模型中第1-7层分别设置32、32、64、64、96、96、32个GRU单元。最后，基于各个站点的历史预测情况为三种算法赋予权重，利用加权平均集成上述三种模型算法计算得到对该目标区域所有空气质量监测站未来24小时NO₂浓度预测值，其中，最终集成的模型预测结果的决定系数R²为：0.768，均方根误差RMSE为：7.55。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种二氧化氮浓度预测方法，其特征在于，包括：

基于所述的三个二氧化氮浓度预测值，结合加权平均算法，计算得到最终的二氧化氮浓度值；

所述预先训练好的随机森林模型、所述极端梯度提升树模型和所述结合残差连接的门控循环单元神经网络模型均由训练集训练得到，所述训练集包括历史监测数据以及标注历史监测数据对应的不同时间分辨率下的二氧化氮浓度的标签，其中，所述历史监测数据包括历史大气污染监测数据、历史气象监测数据、历史遥感再分析气象场数据和历史地理协变量数据。

2.根据权利要求1所述的二氧化氮浓度预测方法，其特征在于，对历史监测数据进行预处理以及时间和空间融合，利用重采样技术生成不同时间分辨率数据集。

3.根据权利要求2所述的二氧化氮浓度预测方法，其特征在于，对历史监测数据进行预处理包括：使用随机森林算法对缺失值进行填补，删除突变异常值，保留由突发污染事件引起的污染数据。

4.根据权利要求3所述的二氧化氮浓度预测方法，其特征在于，在空间尺度基于空气质量监测站的位置，结合空气质量监测站和气象监测站之间的空间距离融合遥感再分析气象场数据和地理协变量数据，实现历史监测数据的时间和空间融合。

5.根据权利要求4所述的二氧化氮浓度预测方法，其特征在于，提取融合后的数据集的时间和空间信息，添加三个时刻的二氧化氮浓度作为滞后值，得到训练集。

6.根据权利要求1所述的二氧化氮浓度预测方法，其特征在于，分别计算出随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型的决定系数，分别作为加权平均算法中的三个二氧化氮浓度预测值的权重。

7.根据权利要求6所述的二氧化氮浓度预测方法，其特征在于，基于随机森林模型、极端梯度提升树模型和结合残差连接的门控循环单元神经网络模型的各自的预测值以及对应的真实值，计算所述决定系数。

8.根据权利要求1-7任一项所述的二氧化氮浓度预测方法，其特征在于，采用均方误差损失函数训练所述结合残差连接的门控循环单元神经网络模型，训练过程中使用衰减学习率和早停以得到最优的预测模型。

9.一种二氧化氮浓度预测系统，其特征在于，包括：

计算模块，用于基于所述的三个二氧化氮浓度预测值，结合加权平均算法，计算得到最终的二氧化氮浓度值；