CN115081557A

CN115081557A - 基于地面监测数据的夜间气溶胶光学厚度估算方法和系统

Info

Publication number: CN115081557A
Application number: CN202211002918.0A
Authority: CN
Inventors: 张文豪; 唐健雄; 马宇; 顾行发; 刘其悦; 张丽丽; 徐娜; 余涛; 金永涛
Original assignee: North China Institute of Aerospace Engineering
Current assignee: North China Institute of Aerospace Engineering
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-09-20

Abstract

本申请涉及测试悬浮颗粒的浓度技术领域，提供了一种基于地面监测数据的夜间气溶胶光学厚度估算方法和系统。该方法包括：获取气溶胶光学厚度AOD数据和地面站点监测PM_2.5数据，从逐小时的气象数据中提取气象因子，然后对气溶胶光学厚度AOD数据、气象因子和地面站点监测PM_2.5数据进行时空匹配，得到随机森林模型的样本集；接着，使用样本集对随机森林模型进行训练，并基于训练好的随机森林模型进行训练对夜间AOD进行估算。如此，利用全天逐小时地面站点监测PM_2.5数据，结合气象因子，基于随机森林模型快速估算夜间AOD，有效地填补夜间AOD监测数据的缺失，提升了夜间AOD遥感估算的准确性和时空连续观测能力。

Description

基于地面监测数据的夜间气溶胶光学厚度估算方法和系统

技术领域

本申请涉及测试悬浮颗粒的浓度技术领域，特别涉及一种基于地面监测数据的夜间气溶胶光学厚度估算方法和系统。

背景技术

大气中的气溶胶通过直接辐射强迫和间接辐射强迫对气候、生态以及人类健康有着广泛的影响，气溶胶光学厚度（Aerosol Optical Depth，简称AOD）是研究气候变化的关键因子和空气质量评价中的重要参数，具有明显的时空和昼夜变化特征。

相关技术中，通常采用地基遥感或者卫星遥感对夜间AOD进行估算。然而，通过传统的技术方案获取的夜间AOD存在数据缺失、时空覆盖不全、精度偏低的问题。

因此，需要提供一种针对上述现有技术不足的改进技术方案。

发明内容

本申请的目的在于提供一种基于地面监测数据的夜间气溶胶光学厚度估算方法和系统，以解决或缓解上述现有技术中存在的问题。

为了实现上述目的，本申请提供如下技术方案：

本申请提供了一种基于地面监测数据的夜间气溶胶光学厚度估算方法，包括：

获取气溶胶光学厚度AOD数据、气象数据和地面站点监测PM_2.5数据；其中，所述AOD数据、所述气象数据和所述地面站点监测PM_2.5数据的时间分辨率均为1小时；

基于所述气象数据，提取气象因子；所述气象因子包括地表边界层高度、地表压强、地表绝对湿度、地表北风风速、地表东风风速、地表温度；

以所述地面站点监测PM_2.5数据为基准，分别对所述AOD数据、所述气象因子进行时空匹配，对应得到第二AOD数据、第二气象因子；其中，所述第二气象因子、所述第二AOD数据与所述地面站点监测PM_2.5数据为具有同一时空尺度的数据；

基于所述地面站点监测PM_2.5数据、所述第二气象因子、所述第二AOD数据构建样本集；

基于所述样本集对预先构建的随机森林模型进行训练，得到训练好的随机森林模型；

基于所述训练好的随机森林模型，对所述地面站点的夜间AOD进行估算，得到夜间AOD估算结果。

上述技术方案中，所述以所述地面站点监测PM_2.5数据为基准，分别对所述AOD数据、所述气象因子进行时空匹配，对应得到第二AOD数据、第二气象因子，具体为：

基于所述AOD数据，对所述气象因子进行空间重采样，得到与所述AOD数据的空间分辨率一致的第三气象因子；

以所述地面站点监测PM_2.5数据为基准，分别对所述AOD数据、所述第三气象因子进行时空匹配，得到所述第二AOD数据、所述第二气象因子。

上述技术方案中，所述基于所述样本集对预先构建的随机森林模型进行训练，得到训练好的随机森林模型，具体为：

对所述样本集进行随机扰动；

将随机扰动后的所述样本集中的所述第二AOD数据作为因变量、随机扰动后的所述样本集中的所述第二气象因子和所述地面站点监测PM_2.5数据为自变量输入到所述预先构建的随机森林模型，以对所述预先构建的随机森林模型进行训练，得到训练好的随机森林模型。

上述技术方案中，所述对所述预先构建的随机森林模型进行训练，得到训练好的随机森林模型，具体为：

对所述预先构建的随机森林模型进行训练；

基于10倍交叉检验法，以相关系数和均方根误差为评价指标，对所述预先构建的随机森林模型的训练过程进行评估，得到评估结果；

基于所述评估结果，确定所述训练好的随机森林模型。

上述技术方案中，所述训练好的随机森林模型为：

式中，AOD表示所述气溶胶光学厚度的预测值；PM _2.5表示地面站点监测PM _2.5数据；PBLH表示地表边界层高度；PS表示地表压强；QLML表示地表绝对湿度；TLML表示地表温度；ULML表示地表东风风速；VLML表示地表北风风速。

上述技术方案中，所述训练好的随机森林模型的决策树的个数为200。

上述技术方案中，所述训练好的随机森林模型的决策树的最大深度为20。

上述技术方案中，在所述基于所述训练好的随机森林模型，对夜间AOD进行估算，得到夜间AOD估算结果之后，所述方法还包括：

基于AERONET站点的实测数据，对所述夜间AOD估算结果进行验证。

上述技术方案中，所述基于AERONET站点的实测数据，对所述夜间AOD估算结果进行验证，具体为：

按经纬度逐个站点计算所述AERONET站点与所述地面站点之间的欧氏距离，以确定欧氏距离最短时对应的所述AERONET站点和所述地面站点；

将欧氏距离最短时对应的所述地面站点的所述夜间AOD估算结果与欧氏距离最短时对应的所述AERONET站点的实测数据进行对比分析，以对所述夜间AOD估算结果进行验证。

本申请实施例还提供一种基于地面监测数据的夜间气溶胶光学厚度估算系统，包括：

数据获取单元，配置为获取气溶胶光学厚度AOD数据、气象数据和地面站点监测PM_2.5数据；

提取单元，配置为基于所述气象数据，提取气象因子；其中，所述AOD数据、所述气象数据和所述地面站点监测PM_2.5数据的时间分辨率均为1小时；

时空匹配单元，配置为以所述地面站点监测PM_2.5数据为基准，分别对所述AOD数据、所述气象因子进行时空匹配，对应得到第二AOD数据、第二气象因子；其中，所述第二气象因子、所述第二AOD数据与所述地面站点监测PM_2.5数据为具有同一时空尺度的数据；

样本构建单元，配置为基于所述地面站点监测PM_2.5数据、所述第二气象因子、所述第二AOD数据构建样本集；

训练单元，配置为基于所述样本集对预先构建的随机森林模型进行训练，得到训练好的随机森林模型；

估算单元，配置为基于所述训练好的随机森林模型，对所述地面站点的夜间AOD进行估算，得到夜间AOD估算结果。

有益效果：

本申请中，先获取气溶胶光学厚度AOD数据和逐小时的地面站点监测PM_2.5数据，从逐小时的气象数据中提取气象因子，然后对气溶胶光学厚度AOD数据、气象因子和地面站点监测PM_2.5数据进行时空匹配，从而构建随机森林模型的样本集；接着，使用样本集随机森林模型进行训练，并基于训练好的随机森林模型对夜间AOD进行估算。如此，利用全天逐小时地面站点监测PM_2.5数据估算的夜间AOD结果，能够有效地填补夜间AOD监测数据的缺失，将地面站点监测PM_2.5数据结合气象因素，基于随机森林模型实现快速获取夜间AOD数据，充分考虑了气象因素对AOD的影响，大大提升了夜间AOD遥感估算的准确性和时空连续观测能力。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。其中：

图1为根据本申请的一些实施例提供的基于地面监测数据的夜间气溶胶光学厚度估算方法的流程示意图；

图2为根据本申请的一些实施例提供的基于地面监测数据的夜间气溶胶光学厚度估算系统的结构示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本申请。各个示例通过本申请的解释的方式提供而非限制本申请。实际上，本领域的技术人员将清楚，在不脱离本申请的范围或精神的情况下，可在本申请中进行修改和变型。例如，示为或描述为一个实施例的一部分的特征可用于另一个实施例，以产生又一个实施例。因此，所期望的是，本申请包含归入所附权利要求及其等同物的范围内的此类修改和变型。

在以下描述中，所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

随着经济的发展和城市化进程的加快，大气污染形势日益严峻，气溶胶已成为大气污染的主要因素，气溶胶光学厚度AOD是空气质量评价的重要参数。

AOD具有明显的时空和昼夜变化特征，获取夜间AOD数据对准确评估不同时空范围内的大气污染具有重要意义。

相关技术中，夜间AOD估算方法主要有两种：地基遥感和卫星遥感。

地基遥感通过在地面布设观测站点获取AOD数据。目前，可用于夜间AOD观测的观测站点主要为全球太阳辐射计观测网（AErosolROboticNETwork，简称AERONET）的观测站点。然而，一方面，AERONET的观测站点数量有限并且分布不均匀，时空覆盖不全，无法获取大范围、时空连续的AOD数据；另一方面，AERONET的观测站点在获取夜间辐射测量后，通过将白天校准系数进行相对变换到夜间AOD数据产品，目前基于月球估计的夜间AOD数据不确定性约为0.03，但是当前夜间AOD数据产品存在严重的云污染，从而引发额外的偏差。总之，基于地基遥感获得的夜间AOD数据中可用数据有限且存在较大偏差，难以满足精度要求。

利用卫星遥感监测夜间AOD依然局限于激光雷达或者少量的夜光卫星，虽然激光雷达精度高，但是达无法进行空间连续监测。卫星遥感又分为基于地面灯光反演AOD的方法和基于月光反演AOD的方法。其中，基于地面灯光反演AOD的方法主要是有背景差法、空间标准差法、“比较迭代”等，这些方法均是利用大气辐射传输理论来进行，基于大气辐射传输理论，通过夜光遥感数据对夜间AOD进行反演时，反演原理的方法尚未成熟，精度有待提升，反演结果通常需要与卫星过境时刻最接近的AERONET观测站点获取的白天AOD监测数据进行验证，而稀疏的AERONET观测站点无法满足精度验证的需求，依然缺少空间覆盖广、精度高的夜间AOD数据。基于月光反演AOD依赖于地表反射率、月球辐射和气溶胶模型的假设，对应用场景有一定要求。

申请人通过检索发现，目前尚未出现基于地面空气质量监测站点（简称地面站点）的PM_2.5数据来估算夜间AOD的方法，基于此，本申请提供一种基于地面监测数据的夜间气溶胶光学厚度估算方法和系统，以填补夜间AOD监测数据不足的问题，并充分考虑气象因素对AOD的影响，大大提升了夜间AOD遥感估算的准确性和时空连续观测能力。此外，本申请提供的方法生产的夜间AOD数据可以用于气候变化分析、人类健康研究，同时可以用于夜光遥感反演的夜间AOD产品的精度验证。

示例性方法

本申请实施例提供一种基于地面监测数据的夜间气溶胶光学厚度估算方法，参见图1，图1为根据本申请的一些实施例提供的基于地面监测数据的夜间气溶胶光学厚度估算方法的流程示意图，如图1所示，该方法包括：

步骤S101、获取气溶胶光学厚度AOD数据、气象数据和地面站点监测PM_2.5数据；其中，AOD数据、气象数据和地面站点监测PM_2.5数据的时间分辨率均为1小时。

需要说明的是，环境学中将分散在大气中的固体或液体微粒定义为气溶胶，大气圈可以看作是一个气溶胶体系，颗粒物以固态或液态均匀地分散于大气中。气溶胶光学厚度AOD是介质的消光系数在垂直方向上的积分，用于描述气溶胶对光的削减作用。AOD是表征大气浑浊程度的关键的物理量，是气溶胶最重要的参数之一，也是确定气溶胶气候效应的重要因素。

PM_2.5是指环境空气中空气动力学当量直径小于等于2.5微米的颗粒物。

AOD与PM_2.5之间存在较强的相关性，传统的技术方案中，利用利用AOD来反演PM_2.5浓度是常见的方法。

本申请实施例中，与传统的技术方案相反，通过地面站点监测PM_2.5数据结合气象数据，对夜间AOD进行估算，从而利用地面站点监测PM_2.5数据分布范围广、连续观测的特性，克服了传统方法中数据时间跨度较小的问题，并基于机器学习方法，快速获取时间上连续、空间上覆盖完整的夜间AOD数据，同时充分考虑气象因素对夜间AOD的影响，提高了夜间AOD的估算精度。

本申请实施例中，AOD数据是从向日葵8号卫星（Himawari-8）获取的AOD产品数据。

需要说明的是，Himawari-8气象卫星是日本宇宙航空研究开发机构设计制造的向日葵系列卫星之一，是世界上第一颗可以拍摄彩色图像的静止气象卫星，以往的极轨卫星受观测频率的限制，而Himawari-8气象卫星的观测频率提高到了至少每10分钟一次，覆盖地球的三分之一（西太平洋、东亚、东南亚和大洋洲），对云层等动向的持续观测性能也得到提升。

本申请实施例中，气象数据为MERRA-2气象数据。其中，MERRA-2气象数据是一套长时间序列的再分析数据集，包括多种气象变量，比如净辐射、温度、相对湿度、风速等。需要指出的是，MERRA-2数据覆盖全球，空间分辨率为0.5°×0.625°，时间分辨率为1小时，因此，与其他气象数据相比，无论是空间覆盖范围，还是时间分辨率，MERRA-2气象数据均能够满足估算高精度、时空连续的夜间AOD的需求。

本申请实施中，从地面空气质量监测站点获取PM_2.5数据。地面空气质量监测站点采用的是国控站点，是由中国环境监测总站布设的、全国范围分布的监测站点，其分布范围广、监测频率高，能够提供全国范围内逐小时的空气质量数据。

步骤S102、基于气象数据，提取气象因子；气象因子包括地表边界层高度PBLH、地表压强PS、地表绝对湿度QLML、地表北风风速VLML、地表东风风速ULML、地表温度TLML。

本申请实施例中，从MERRA-2数据中提取出地表边界层高度PBLH、地表压强PS、地表绝对湿度QLML、地表北风风速VLML、地表东风风速ULML、地表温度TLML，作为气象因子，每一个气象因子均对应一个数据集。

这里，气象因子用于表征大气环境容量的变化趋势。

需要说明的是，大气环境容量是指在给定的自然条件和污染源特征下为实现环境空气质量标准或特定控制目标在一定时间内区域大气环境可容纳的污染物最大排放量。这里，自然条件主要包括气象因素（即气象因子），也就是说，大气环境容量在短期内随垂直自净能力、水平自净能力、沉降、湿度等气象条件的变化而变化。

本申请实施例中，通过地表边界层高度PBLH、地表压强PS、地表绝对湿度QLML、地表北风风速VLML、地表东风风速ULML、地表温度TLML，能够表征大气环境容量的变化趋势。

其中，地表边界层高度PBLH用于表征大气的垂直自净能力。地表边界层高度主要受温度结构、地面粗糙度等因素影响，与环境容量呈正相关。在重污染期间，地表边界层高度显著降低，可由1000米以上降低到300-400米，约为平时的三分之一，大气环境容量被显著压缩，致使污染程度明显加剧。

地表北风风速VLML、地表东风风速ULML用于表征大气的水平自净能力，二者同样与环境容量呈正相关关系。在重污染期间，风速明显减小，常不足2m/s，污染物稀释速度减慢，大气环境容量显著降低。当空气中污染物的积累速度远超过稀释速度时，大气污染就会呈现快速加重的趋势。

地表绝对湿度QLML也是影响大气环境容量的主要因素之一，高湿环境有利于二氧化硫、氨氧化物、氨等气态污染物转化为颗粒物，加重气溶胶污染。

将地表边界层高度PBLH、地表压强PS、地表绝对湿度QLML、地表北风风速VLML、地表东风风速ULML、地表温度TLML输入到随机森林模型，对AOD数据进行预测，充分考虑到气象因子对AOD的影响，提高了AOD预测的精度。

步骤S103、以地面站点监测PM_2.5数据为基准，分别对AOD数据、气象因子进行时空匹配，对应得到第二AOD数据、第二气象因子；其中，第二气象因子、第二AOD数据与地面站点监测PM_2.5数据为具有同一时空尺度的数据。

具体实施时，为了获取同一时空尺度的数据，首先基于AOD数据，对气象因子进行空间重采样，得到与AOD数据的空间分辨率一致的第三气象因子，然后以地面站点监测PM_2.5数据为基准，分别对AOD数据、第三气象因子进行时空匹配，得到第二AOD数据、第二气象因子。

本申请实施例中，以AOD数据的空间分辨率为基准，对每一个气象因子对应的数据集进行重采样，调整其空间分辨率，使其与AOD数据的空间分辨率一致，得到重采样后的气象因子，也就是第三气象因子。

然后，以地面站点监测PM_2.5数据为基准，分别对AOD数据、第三气象因子进行时空匹配，得到第二AOD数据、第二气象因子。

实际应用中，向日葵8号卫星（Himawari-8）获取AOD数据以及MERRA-2气象数据中的时间均采用世界协调时间（Universal Time Coordinated，UTC），因此，需要先对AOD数据、第二气象因子进行时间转换，将其时间转换为北京时间（UTC/GMT+8）。然后，以地面站点监测PM_2.5数据的空间位置和采集时间为基准，将AOD数据、第三气象因子中的各个气象因子的空间位置和时间与地面站点监测PM_2.5数据的空间位置和采集时间进行匹配，从而将预处理后的多源数据（包括AOD数据和各气象因子）转换为同一时空尺度的数据集。

步骤S104、基于地面站点监测PM_2.5数据、第二气象因子、第二AOD数据构建样本集。

本申请实施中，以地面站点监测PM_2.5数据，结合第二气象因子作为特征变量，以第二AOD数据作为标签数据，构建随机森林模型的样本集。其中，样本集中的每个样本点均包括地面站点监测PM_2.5数据、气象因子的取值，还包括与地面站点监测PM_2.5数据、气象因子对应的AOD数据的值。

步骤S105、基于样本集对预先构建的随机森林模型进行训练，得到训练好的随机森林模型。

其中，随机森林算法（Random Forest，简称RF）是一种机器学习算法，是一种结合了Bagging集成学习理论和随机子空间方法。由该算法构建的机器学习模型称为随机森林模型，随机森林模型中包含多个决策树，每个决策树都是由Bagging集成学习训练得到，其最终的输出结果是由各个决策树针对输入样本得到的预测结果进行投票决定。

也就是说，随机森林模型，是由多个决策树集成的用于解决分类问题或回归问题的模型，决策树可以采用各种决策树算法，例如输入数据3（ID3，Input Data3）、C4.5、分类回归树（CART，Classification And Regression Tree）算法等。随机森林模型中的每个决策树被独立地训练和预测，对于回归问题，由多个决策树预测值均值决定回归结果。

随机森林算法对于异常值和噪声有较强的抗干扰能力，在处理高维数据时有良好的并行性和可扩展性。

具体来说，随机森林模型是运用N棵决策树

，通过集成学习构建的一个组合模型。在构建随机森林模型时，所求的回归结果作为因变量，其他数据作为自变量。

本申请实施例中，需要对夜间AOD进行预测，因此，在构建随机森林模型时，将时空匹配后并经过随机扰动的AOD数据（第二AOD数据）作为因变量，地面站点监测PM_2.5数据和各第二气象因子作为自变量，根据地面站点监测PM_2.5数据和气象因子，对AOD进行预测。

具体实施时，随机森林模型的决策树中的随机变量序列用

表示，其中，N为决策树的个数。基于Bagging和特征子空间的原理，对随机森林模型进行构建，构建步骤如下：

（1）在决策树构建过程中，随机变量序列用于训练对应的决策树，又称为训练集。基于Bagging的思想，从样本集X中有放回地随机抽取M个数据作为训练集T_n，n=1，2，…N，并且为每个训练集单独构建一棵决策树。

（2）运用特征子空间的思想构建决策树。在决策树分裂时，等概率地从所有特征中随机进行子抽样，选出一个特征子集，例如，从L个特征中选取

个特征，其中，L为特征的总数。然后，从该特征子集中选出一个最优特征来分裂节点，得到新的决策树节点，以形成决策树。

（3）最后将N个决策树组合得随机森林模型。

本申请实施中，采用并行处理模式对随机森林模型进行训练，以提高模型生成效率。

本申请实施例中，N个决策树权重相等，最终的AOD预测结果为N个决策树预测结果的均值。

本申请实施例中，在构建随机森林模型时，通过对随机森林模型中决策树的个数和决策树的最大深度进行调整，从而实现对随机森林模型的优化。

实际应用中，在构建随机森林模型时，将决策树的个数N设置为200，实现对决策树的个数进行优化。具体地，在构建随机森林模型时，循环递增决策树的个数，并以10倍交叉检验法对所构建的随机森林模型进行评估，从而确定决策树的个数的最佳取值。进一步地，设置决策树的个数从1开始，以步长为10递增，当递增到300时结束循环。实验表明，当决策树的个数为200时，对随机森林模型进行10倍交叉检验，得到最优结果。因此，将决策树的个数N设置为200。

然后，对随机森林模型的决策树的最大深度进行优化，将决策树的最大深度设置为20。

当对决策树的最大深度进行优化时，先将决策树的个数固定为200，然后，设置决策树的最大深度从1开始，以步长为1递增，当递增到30时结束。实验表明，当决策树的最大深度为20时，对随机森林模型进行10倍交叉检验，得到最优结果。因此，将决策树的最大深度设置为20。

为了得到训练好的随机森林模型，可以通过如下步骤对随机森林模型进行训练：首先对样本集进行随机扰动；然后，将随机扰动后的样本集中的第二AOD数据作为因变量、随机扰动后的样本集中的第二气象因子和地面站点监测PM_2.5数据为自变量输入到预先构建的随机森林模型，以对预先构建的随机森林模型进行训练，得到训练好的随机森林模型。

如前，随机森林是通过集成学习的思想将多棵决策树集成的一种算法，通过样本维度的自助法（Bootstrap）重抽样与特征维度的随机抽样制造出更多的随机性，以实现减少预测方差的目的。本申请实施例中，为了进一步保证数据的随机性，在使用样本集对随机森林模型进行训练之前，先对样本集进行随机扰动，也就是说，通过将时空匹配后的数据集进行随机打乱，然后导入到随机森林模型中，以对该随机森林模型进行训练，得到训练好的随机森林模型。

在一些实施例中，在对随机森林模型进行训练时，采用10倍交叉检验法对随机森林模型的训过程进行评估，具体步骤如下：对预先构建的随机森林模型进行训练；基于10倍交叉检验法（Cross Validation，简称CV），以相关系数和均方根误差为评价指标，对预先构建的随机森林模型的训练过程进行评估，得到评估结果；基于评估结果，确定训练好的随机森林模型。

实际应用中，将样本集中所有的建模数据按照9：1的比例划分为训练集和验证集，共划分为10个数据子集。进行10次计算，每次计算中9个数据子集作为训练集，1个数据子集作为验证集，计算出该次相应的正确率（或差错率），10次计算得到的预测结果的正确率（或差错率）的平均值作为对随机森林模型的预测精度评估的结果。

进一步地，以相关系数（Correlation coefficient，简称R）和均方根误差（RootMean Squard Error，简称RMSE）为评价指标，对预先构建的随机森林模型的训练过程进行评估，得到评估结果。

其中，相关系数R的计算公式如下：

式中，R表示相关系数，

表示数据子集中第i个样本的AOD的真实值，

表示数据子集中第i个样本的AOD的预测值，

表示数据子集中所有样本的AOD均值。

均方根误差RMSE的计算公式如下：

式中，RMSE表示均方根误差，

表示数据子集中第i个样本的AOD的真实值，

表示数据子集中第i个样本的AOD的预测值。

经过模型的构建、训练和评估过程，得到的随机森林模型可简写为：

式中，AOD表示气溶胶光学厚度的预测值；PM _2.5表示地面站点监测PM _2.5数据；PBLH表示地表边界层高度；PS表示地表压强；QLML表示地表绝对湿度；TLML表示地表温度；ULML表示地表东风风速；VLML表示地表北风风速。

步骤S106、基于训练好的随机森林模型，对地面站点的夜间AOD进行估算，得到夜间AOD估算结果。

具体实施时，利用训练好的随机森林模型，将地面站点监测PM _2.5数据以及获取的多个气象因子，包括地表边界层高度、地表压强、地表绝对湿度、地表温度、地表东风风速、地表北风风速作为随机森林模型的输入，通过Python程序计算，得到逐小时的夜间AOD估算结果。

为了对夜间AOD数据的估算结果的精度进行验证，本申请实施例中，在得到夜间AOD估算结果之后，方法还包括：基于AERONET站点的实测数据，对夜间AOD估算结果进行验证。

这里，基于AERONET站点的实测数据，对随机森林模型的预测结果进行验证，将夜间AOD估算结果与AERONET站点的实测数据进行比对，以验证夜间AOD估算结果的预测精度。

具体实施时，选取某市市内的四个AERONET站点的实测数据对夜间AOD估算结果进行验证。

实际应用中，AERONET站点与地面空气质量监测站点的PM_2.5站点并不在同一地理位置，为了实现AERONET站点的实测数据与夜间AOD估算结果的比对，需要先将AERONET站点与地面站点进行匹配，具体步骤如下：按经纬度逐个站点计算AERONET站点与地面站点之间的欧氏距离，以确定欧氏距离最短时对应的AERONET站点和地面站点；将欧氏距离最短时对应的地面站点的夜间AOD估算结果与欧氏距离最短时对应的AERONET站点的实测数据进行对比分析，以对夜间AOD估算结果进行验证。

这里，采用夜间AOD估算结果与AERONET站点的实测数据之间的决定系数R²和均方根误差RMSE作为评价指标，以评估夜间AOD估算结果相对于AERONET站点的实测数据的偏差。

需要特别说明的是，本申请实施例提供的方法，不仅能够对夜间AOD进行大范围、高精度、时空连续的预测，也能够对全天的AOD数据进行准确预测，也就是说，本申请实施例提供的方法不受能见度、光照条件、天气等观测条件的限制，具有适用性好、实现简单、精度高、估算范围大的优点，能够一定程度上缓解现有的地基遥感和卫星遥感存在的分布不均匀、时空覆盖不全、精度不足和适用性不佳的问题。

综上所述，利用获取的逐小时的气象数据和地面站点监测PM_2.5数据，并从气象数据中提取气象因子，然后对气溶胶光学厚度AOD数据、气象因子和地面站点监测PM_2.5数据进行时空匹配，从而构建随机森林模型的样本集；接着，使用样本集随机森林模型进行训练，并基于训练好的随机森林模型进行训练对夜间AOD进行估算。如此，利用全天逐小时地面站点监测PM_2.5数据估算的夜间AOD结果，能够有效地填补夜间AOD监测数据缺失的问题，将地面站点监测PM_2.5数据与气象数据相结合，基于随机森林模型实现快速获取夜间AOD数据，充分考虑了气象因素对AOD的影响，大大提升了夜间AOD遥感估算的准确性和时空连续观测能力。

本申请实施例中，通过地面空气质量监测站点的PM_2.5浓度数据，结合MERRA-2中的气象数据，构建一套完整的用于估算夜间AOD的数据集，填补夜间AOD估算在数据集方面的空白，并通过随机森林算法进行模型的训练，验证了机器学习在夜间AOD估算中的可行性。在此基础上，为夜间AOD的估算提供一种新的技术方法。

本申请提供的基于随机森林模型的夜间气溶胶光学厚度估算方法，既能够解决AERONET站点分布较少的不足，又能够解决卫星遥感监测方法中的气象因素考虑不足的问题。

示例性系统

本申请实施例还提供一种基于地面监测数据的夜间气溶胶光学厚度估算系统，图2为根据本申请的一些实施例提供的基于地面监测数据的夜间气溶胶光学厚度估算系统的结构示意图，如图2所示，该系统包括：数据获取单元201、提取单元202、时空匹配单元203、样本构建单元204、训练单元205、估算单元206。其中：

数据获取单元201，配置为获取气溶胶光学厚度AOD数据、气象数据和地面站点监测PM_2.5数据。

提取单元202，配置为基于所述气象数据，提取气象因子；其中，所述AOD数据、所述气象数据和所述地面站点监测PM_2.5数据的时间分辨率均为1小时。

时空匹配单元203，配置为以所述地面站点监测PM_2.5数据为基准，分别对所述AOD数据、所述气象因子进行时空匹配，对应得到第二AOD数据、第二气象因子；其中，所述第二气象因子、所述第二AOD数据与所述地面站点监测PM_2.5数据为具有同一时空尺度的数据。

样本构建单元204，配置为基于所述地面站点监测PM_2.5数据、所述第二气象因子、所述第二AOD数据构建样本集。

训练单元205，配置为基于所述样本集对预先构建的随机森林模型进行训练，得到训练好的随机森林模型。

估算单元206，配置为基于所述训练好的随机森林模型，对所述地面站点的夜间AOD进行估算，得到夜间AOD估算结果。

本申请实施例提供的基于地面监测数据的夜间气溶胶光学厚度估算系统能够实现上述任一所述基于地面监测数据的夜间气溶胶光学厚度估算方法的流程、步骤，并达到相同的技术效果，在此不再一一赘述。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，包括：

2.根据权利要求1所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，所述以所述地面站点监测PM_2.5数据为基准，分别对所述AOD数据、所述气象因子进行时空匹配，对应得到第二AOD数据、第二气象因子，具体为：

3.根据权利要求1所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，所述基于所述样本集对预先构建的随机森林模型进行训练，得到训练好的随机森林模型，具体为：

对所述样本集进行随机扰动；

4.根据权利要求3所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，所述对所述预先构建的随机森林模型进行训练，得到训练好的随机森林模型，具体为：

对所述预先构建的随机森林模型进行训练；

基于所述评估结果，确定所述训练好的随机森林模型。

5.根据权利要求3所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，所述训练好的随机森林模型为：

6.根据权利要求3所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，所述训练好的随机森林模型的决策树的个数为200。

7.根据权利要求3所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，其特征在于，所述训练好的随机森林模型的决策树的最大深度为20。

8.根据权利要求1所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，在基于所述训练好的随机森林模型，对所述地面站点的夜间AOD进行估算，得到夜间AOD估算结果之后，所述方法还包括：

9.根据权利要求8所述的基于地面监测数据的夜间气溶胶光学厚度估算方法，所述基于AERONET站点的实测数据，对所述夜间AOD估算结果进行验证，具体为：

10.一种基于地面监测数据的夜间气溶胶光学厚度估算系统，其特征在于，包括：