CN117219183A

CN117219183A - 多云雨地区的高覆盖度近地面no2浓度估算方法及系统

Info

Publication number: CN117219183A
Application number: CN202310812425.1A
Authority: CN
Inventors: 邓富亮; 陈一剑; 李兰晖; 刘玮; 曹陆伟
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2023-12-12

Abstract

本发明属于NO₂浓度估算技术领域，公开了一种连续平滑地区的高覆盖度的近地面NO₂浓度估算方法及系统，融合TROPOMI原始和重构卫星遥感数据、气象数据、其他辅助数据以及监测数据，构建多组训练估算数据集；利用随机森林重要性和皮尔逊相关性选择特征变量，并选用XGBoost模型进行连续平滑地区的高覆盖度的近地面NO₂浓度估算。本发明加入更加稠密的地面监测站点数据和利用卫星遥感重构数据近地面NO₂浓度估算结果在空间分布上不仅较好的解决了由于卫星数据缺失导致的估算结果空间分布缺值问题，还在一定程度上消除了仅使用国控站点数据集估算结果的点片状分布现象，图像细节更加连续和细腻。

Description

多云雨地区的高覆盖度近地面NO2浓度估算方法及系统

技术领域

本发明属于近地面NO₂浓度估算技术领域，尤其涉及一种亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法。

背景技术

目前，现有技术开展了近地面NO₂浓度卫星遥感估算研究，主要包括利用化学传输模式(GEOS-CHEM)、土地利用回归模型(Land Use Regression，LUR)和机器学习方法结合卫星遥感数据进行估算。

现有技术1提出了利用GEOS-CHEM的计算OMI传感器反演的对流层NO₂柱浓度数据和近地面NO₂比例因子，结果表明两者相关性显著，可以用这种方式来推算近地面NO₂浓度；现有技术2基于OMI对流层NO₂柱浓度数据和地面监测NO₂数据，利用LUR模型并结合人口密度、土地利用类型和各类道路距离数据估算了美国近地面NO₂浓度，可以得到较好的估算结果(R²＝0.78)；此外，LUR模型还被应用到加拿大、澳大利亚和英国等国家的近地面NO₂浓度估算，并取得了较好的估算结果；现有技术3在2017年利用LUR使用来自58个国家5520个空气监测站点对全球近地面NO₂浓度进行估算，模型性能R²最高达0.67；现有技术4使用广义加性模型建立了一个全国性的LUR模型用来估算中国近地面月度的NO₂、PM_2.5和PM₁₀，其中NO₂的的交叉验证结果R²为0.62。但是，利用LUR模型估算近地面NO₂浓度时受土地利用类型精度影响较大。然后现有技术5使用地理时空加权回归(GTWR)模型、普通最小二乘法(OLS)、地理加权回归法(GWR)和时间加权回归法(TWR)四种方法，基于OMI卫星NO₂数据协同气象数据等估算中国东部地区近地面NO₂浓度，其中GTWR的估算精度最佳R²为0.60。但是以上大气化学传输模式和统计模型估算近地面NO₂受多种因素的影响，利用这些方法已经逐渐不能满足精细化估算的要求。

随着人工智能的应用场景不断发展，机器学习方法在估算近地面NO₂表现出更好的预测效果，一些学者利用机器学习算法结合传统的经验模型进行估算。现有技术6利用土地利用随机森林模型(LURF)估算了日本的近地面NO₂浓度，模型精度(R²＝0.79)高于使用传统的LUR模型；现有技术7基于地面监测NO₂浓度，结合OMI卫星数据等数据，开发了一种“随机森林-克里金方法”(RF-STK)，用于估算中国区域近地面NO₂浓度，日度估算结果R²为0.62；现有技术8基于随机森林算法和多源地理数据对中国近地面NO₂浓度进行估算，月尺度模型R²达0.84优于使用LUR模型的估算；现有技术9利用XGBoost机器学习模型，利用时空分辨率最高的TROPOMI传感器对流层NO₂和地面国控监测站点数据等估算中国2018年至2021年每日近地面NO₂浓度，测试集上的R²为0.73。但是，以上研究在估算中国范围内的近地面NO₂浓度时，对省级区域每日尺度近地面NO₂估算的研究较少。

通过上述分析，现有技术存在的问题及缺陷为：现有的近地面NO₂估算结果不准确，且估算结果空间分布缺值。

发明内容

针对现有技术存在的问题，本发明提供了一种连续平滑地区的高覆盖度的近地面NO₂浓度估算方法。

本发明是这样实现的，一种亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法包括：

融合TROPOMI原始和重构卫星遥感数据、气象数据、其他辅助数据以及监测数据，构建多组训练估算数据集；利用随机森林重要性和皮尔逊相关性选择特征变量，并选用XGBoost模型进行连续平滑地区的高覆盖度的近地面NO₂浓度估算。

进一步，所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法包括以下步骤：

步骤一：收集建模需要的数据，(1)卫星数据：对流层柱浓度数据，常用的卫星no2数据有：OMI_no2标准网格3级产品0.25*0.25度；GOME-2_no2产品0.25*0.25度；TROPOMILevel-2轨道数据产品5.5km×3.5km。(2)气象数据，常用的是ECMWF气象数据：10m纬向风速(U10)，10m径向风速(V10)，2m温度(T)，边界层高度(BLH)，对流层降雨(CP)，对流层降雪(CSF)，晴空条件下的地面净太阳辐射(SSRC)，晴空条件下的地面净热辐射(STRC)，地面气压(SP)(这个数据的时间是UTC时间，注意换算对应的北京时间)(3)其他：数字地表高程数据、植被指数数据、人口网格数据、土地利用类型数据等。(4)地面站点观测数据：中国环境监测总站(PM_2.5、PM₁₀、SO₂、NO₂、O₃、CO的浓度)，以及地面政府建成的更加稠密的省控和市控监测站点数据。以地面监测站点数据和TROPOMI卫星传感器高分辨率遥感数据为主，其他数据为辅助分别作为因变量和自变量输入模型中；

其中卫星数据来源于TROPOMI传感器对流层NO₂数据，对下载得到的S5P_OFFL_L2__NO2_数据产品(单个文件表示一天中某一时段的数据)根据数据质量进行过滤(qa_value>0.75)，以0.05°×0.05°分辨率进行标准网格化；地面监测站点数据依据《环境空气指数(AQI)技术规定(实行)》(HJ633-2012)选取NO₂指标，因为地面监测站点受数据传输、硬件调试和相关故障等原因，造成数据异常或缺值。本文将依据上述发布依据标准的数据有效性规定，地面监测站点的监测数据要满足每年至少有324个日平均浓度值、每月至少有27个日平均浓度值(2月至少有25个日平均浓度值)。此外，选用每天24小时NO₂浓度平均值作为地面NO₂的日均值进行建模，所以还需剔除每日少于20个小时的平均浓度值或采样时间的监测站点数据，确定符合数据有效性的监测站点之后，最后对每个监测站点每日24小时NO₂浓度平均值进行筛选，去除负值、零值和空值等不符合本文研究要求的监测结果。

步骤二：数据预处理：对于卫星数据，根据相关行政范围设置最小的外接矩阵的经纬度参数；首先对每天的多轨数据进行融合(合并)，再给融合后的数据配置坐标和转换单位。原始二级数据为非标准格网数据，需要重采样到统一标准格网数据，利用python库harp工具重采样TROPOMI数据。对于地面监测站点数据，根据需要筛选出单日24小时NO₂浓度均值，原始监测数据格式是csv格式，根据处理范围进行栅格化，根据地面监测站点的坐标匹配到与卫星数据统一的栅格坐标下。对于气象数据，将获取的原始数据根据所需时间范围作为单日均值，并统一到统一的栅格坐标。对于其他数据如人口等年度数据，因为各类数据的空间分辨率不同按照要求利用ArcGIS软件重采样一致的分辨率率，再转换为NetCDF格式；

步骤三：空间可视化：按照日、逐月、逐季和年度的近地面NO₂估算结果绘制时间上的变化趋势与空间上的分布情况图。

进一步，所述辅助数据包括：2米处温度和风速或其他ERA5气象数据、人口网格。

进一步，所述辅助数据作为自变量，将地面监测站点NO₂数据作为因变量进行时间和空间的标准时空匹配，构建时空数据集包括：

在时间上：将地基监测站点数据的24小时均值作为每日的NO₂浓度值；选择协调世界时6:00的ERA气象数据与TROPOMI传感器赤道过境时间保持一致；将所述辅助数据的年均值作为单日均值；

在空间上：利用最邻近插值法将所述辅助数据、TROPOMI卫星NO₂数据以及地面监测数据重采样至0.05°的统一网格中：将经过质量控制后的地面监测站点原始数据根据区域范围和网格数转化为NetCDF格式，再利用最邻近插值法重采样到0.05°的格网中；若一个格网中存在多个站点的值时，取多个站点的均值作为格网的数值；将辅助数据重采样至0.05°的栅格后，转为NetCDF格式，处理完后的数据可用panoply打开查看，检查所有数据的栅格行数和列数一致，起止坐标一致；

向量化时空匹配成功的建模数据以列的形式存储在二维表格中用于地面监测NO₂浓度为标签值，其他数据为特征值完成样本数据集的建立，把地面监测站点NO₂数据、经度、纬度、时间、TROPOMI对流层NO₂数据、温度、风速等有效数据通过数据求交的方式存储到最终训练的数据表中。

进一步，所述利用XGBoost对构建的时空数据集进行训练调参包括：

1)初始化模型：将所有样本的权重初始化为相等值w_i：

其中，n表示样本数；

2)构建弱学习器：CART根据特征和特征值将数据分成两部分，并递归地对子节点执行相同的操作，直到满足停止标准；

3)使用平方损失作为损失函数计算模型的预测值和真实值之间的差距，加入正则项并支持特征抽样和并行化计算；所述损失函数如下：

其中，l(y_i,y_i′)表示样本的损失函数，K表示模型中树的个数，Ω(f_k)表示第k棵树的正则化项；

4)使用二阶导数的泰勒展开式来衡量模型的拟合程度：

其中，g_i和h_i分别表示样本i的一阶导数和二阶导数，y_i′^(t-1)表示第t-1轮迭代后的模型对样本i的预测值；

5)迭代训练模型，更新样本权重：计算残差使用梯度提升树来训练模型，每次迭代时，根据上一轮迭代的残差训练新的树；所述残差作为当前模型的预测值和真实值的差距，如下：

r_i＝y_i-y_i′^(t-1)

其中，r_i表示第i各样本的残差，y_i表示第i个样本的标签值；

6)集成多个弱学习器，计算预测值：通过结合所有的弱学习器，得到一个强学习器；利用加权求和的方式进行预测：

其中，K表示模型中树的个数，f_k(x_i)表示第k棵树对样本i的预测值。

进一步，所述模型评价指标包括可决系数R²、均方根误差和平均绝对误差；

述可决系数如下：

R²＝1-(SSR/SST)

其中，SSR表示回归平方和，SST表示总平方和；

所述均方根误差如下：

其中，n表示样本数量，y_pred表示模型预测值，y_true表示真实值；

所述平均绝对误差如下：

其中，n表示样本数量，y_pred表示模型预测值，y_true表示实际值；

对于以上训练数据集利用微软(Microsoft)开发的高效益自动化机器学习框架FLAML(A Fast and Lightweight AutoML Library)对XGBoost和RF模型进行自动化训练调参，对于XGBoost模型会自动训练出一套包括最优学习率(learning_rate)、决策树深度(max_depth)、最大决策树数量(n_estimators)、随机采样样本比例(subsample)和随机采样特征比例(colsample_bytree)等的超参数。自动调参方法训练最佳模型，保存最佳建模参数。再利用一个预测数据集其中不包含预测变量(近地面NO₂浓度)，利用以上最优参数进行预测，得出预测结果。

本发明的另一目的在于提供一种实施所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法的亚热带多云雨地区的高覆盖度近地面NO₂浓度估算系统，所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算系统包括：

时空数据集构建模块，用于获取重构后的TROPOMI卫星NO₂数据和原始TROPOMI对流层NO₂柱浓度数据以及辅助数据；将获取的辅助数据作为自变量，将地面监测站点NO₂数据作为因变量进行时间和空间的标准时空匹配，构建时空数据集。

模型构建训练模块，用于利用XGBoost对构建的时空数据集进行训练调参，根据模型评价指标结果确定模型，用确定的模型进行估算得到预测数据集。

估算模块，用于将估算结果进行多尺度的近地面NO₂浓度精细化作图。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、本发明融合TROPOMI原始和重构卫星遥感数据、气象数据、其他辅助数据以及地面国控、省控和市控站点监测数据，构建多组训练估算数据集。利用随机森林重要性和皮尔逊相关性选择特征变量，并对比随机森林(RF)和极限梯度提升(XGBoost)两种机器学习模型的估算精度和泛化能力。选用XGBoost模型进行后续估算研究，其在测试集上的十折交叉验证结果显示在四川省利用重构数据并加入省控站点数据的模型精度(R²＝0.860，RMSE＝4.828ug/m³)和成都市利用重构数据并加入市控站点数据的模型精度(R²＝0.872，RMSE＝5.368ug/m³)均优于仅使用国控站点且利用原始数据的估算结果(R²＝0.812，RMSE＝7.141ug/m³)。

第二，本发明按照日、月和季等多时间尺度分别对各组的估算结果绘制近地面NO₂浓度空间分布图并进行对比分析，结果显示加入更加稠密的地面监测站点数据和利用卫星遥感重构数据近地面NO₂浓度估算结果在空间分布上不仅较好的解决了由于卫星数据缺失导致的估算结果空间分布缺值问题，还在一定程度上消除了仅使用国控站点数据集估算结果的点片状分布现象，图像细节更加连续和细腻。

本发明基于机器学习模型利用重构的TROPOMI卫星数据，并首次结合更加稠密的省控和市控地面空气监测站点数据进行估算四川省(成都市)近地面NO₂浓度精细化估算对比实验，获得了一套在空间分布上更加连续平滑的四川地区的高覆盖度的每日近地面NO₂浓度估算数据集，对于地方政府精准治理和管控大气污染有重要意义，可以帮助地方政府更加精准的掌握NO₂的时空分布情况。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

1.高精度和高覆盖度：本发明采用了TROPOMI原始和重构卫星遥感数据、气象数据、其他辅助数据以及监测数据，构建了多组训练估算数据集，能够实现亚热带多云雨地区的高覆盖度近地面NO₂浓度估算。这种方法可以在空间上提供更高的精度和覆盖度，为环境污染治理提供更为精确的数据支持。

2.多源数据融合：通过融合多种不同类型的数据，本发明充分利用了各种数据的优势，提高了估算结果的可靠性，提高了模型的预测准确性。

3.特征变量选择与优化：利用随机森林重要性和皮尔逊相关性选择特征变量，有助于筛选出对NO₂浓度估算具有显著影响的变量，提高模型的稳定性和准确性。

4.采用XGBoost模型：XGBoost模型具有优良的泛化能力和高效的训练速度，使得本发明能够实现连续平滑地区的高覆盖度的近地面NO₂浓度估算，提高了估算效率。

5.空间可视化分析：本发明中的空间可视化分析，可以清晰地展示近地面NO2浓度的变化趋势和空间分布情况，为政府部门和相关研究人员提供有针对性的治理建议，有助于减少空气污染，改善空气质量。

6.模型泛用性：本发明的方法可以推广应用于其他地区和环境污染物的估算，具有较强的泛用性。

总之，本发明提供了一种亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，可以有效地估算亚热带多云雨地区近地面NO₂浓度，为环境污染治理提供有力的数据支持。

附图说明

图1是本发明实施例提供的近地面NO₂精细化估算原理图；

图2是本发明实施例提供的连续平滑地区的高覆盖度的近地面NO₂浓度估算方法流程图；

图3是本发明实施例提供的中国原始国控特征重要性排序图；

图4是本发明实施例提供的中国原始国控组各特征变量与地面监测站点的皮尔逊相关系数图；

图5是本发明实施例提供的中国原始国控利用XGBoost模型在测试集的结果示意图；

图6是本发明实施例提供的四川重构省控组利用XGBoost模型在测试集的结果示意图；

图7是本发明实施例提供的成都重构市控组利用XGBoost模型在测试集的结果示意图；

图8是本发明实施例提供的四川原始省控组利用XGBoost模型在测试集的结果示意图；

图9是本发明实施例提供的成都原始市控组利用XGBoost模型在测试集的结果示意图；

图10是本发明实施例提供的1月10日，1月11日，1月12日四川重构省控组近地面NO₂浓度估算结果空间分布图；

图11是本发明实施例提供的1月10日，1月11日，1月12日四川原始省控组近地面NO₂浓度估算结果空间分布图；

图12是本发明实施例提供的1月10日，1月11日，1月12日中国原始国控组近地面NO₂浓度估算结果空间分布图；

图13是本发明实施例提供的1月10日，1月11日，1月12日地面站点实测空间分布图；

图14是本发明实施例提供的四川省各组估算结果与地面站点实测在月度平均值变化趋势对比图；

图15是本发明实施例提供的四川省各组估算结果与地面站点实测在月度标准差变化趋势对比图；

图16是本发明实施例提供的四川省各组估算结果与地面站点实测在季度平均值变化趋势对比图；

图17是本发明实施例提供的四川省各组估算结果与地面站点实测在季度标准差变化趋势对比图；

图18是本发明实施例提供的3、4月、5月及春季四川重构省控组近地面NO₂浓度估算结果空间分布图；

图19是本发明实施例提供的3、4月、5月及春季四川原始省控组近地面NO₂浓度估算结果空间分布图；

图20是本发明实施例提供的3、4月、5月及春季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图21是本发明实施例提供的3、4月、5月及春季地面站点实测空间分布图；

图22是本发明实施例提供的6、7月、8月及夏季四川重构省控组近地面NO₂浓度估算结果空间分布图；

图23是本发明实施例提供的6、7月、8月及夏季四川原始省控组近地面NO₂浓度估算结果空间分布图；

图24是本发明实施例提供的6、7月、8月及夏季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图25是本发明实施例提供的6、7月、8月及夏季地面站点实测空间分布图；

图26是本发明实施例提供的9、10月、11月及秋季四川重构省控组近地面NO₂浓度估算结果空间分布图；

图27是本发明实施例提供的9、10月、11月及秋季四川原始省控组近地面NO₂浓度估算结果空间分布图；

图28是本发明实施例提供的9、10月、11月及秋季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图29是本发明实施例提供的9、10月、11月及秋季地面站点实测空间分布图；

图30是本发明实施例提供的12、1月、2月及冬季四川重构省控组近地面NO₂浓度估算结果空间分布图；

图31是本发明实施例提供的12、1月、2月及冬季四川原始省控组近地面NO₂浓度估算结果空间分布图；

图32是本发明实施例提供的12、1月、2月及冬季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图33是本发明实施例提供的12、1月、2月及冬季地面站点实测空间分布图；

图34是本发明实施例提供的2021年四川省各组估算结果和地面站点实测平均值和标准差变化趋势对比图；

图35是本发明实施例提供的四川重构省控组2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图36是本发明实施例提供的四川原始省控组2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图37是本发明实施例提供的中国原始国控组2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图38是本发明实施例提供的四川地面站点实测值2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图39是本发明实施例提供的3月21日，3月22日，3月23日成都重构市控组近地面NO₂浓度估算结果图；

图40是本发明实施例提供的3月21日，3月22日，3月23日成都原始市控组近地面NO₂浓度估算结果图；

图41是本发明实施例提供的3月21日，3月22日，3月23日中国原始国控组近地面NO₂浓度估算结果图；

图42是本发明实施例提供的3月21日，3月22日，3月23日地面站点实测空间分布图；

图43是本发明实施例提供的成都市各组估算结果在月度平均值变化趋势对比图；

图44是本发明实施例提供的成都市各组估算结果在月度标准差变化趋势对比图；

图45是本发明实施例提供的成都市各组估算结果在季度平均值变化趋势对比图；

图46是本发明实施例提供的成都市各组估算结果在季度标准差变化趋势对比图；

图47是本发明实施例提供的3、4月、5月及春季成都重构市控组近地面NO₂浓度估算结果空间分布图；

图48是本发明实施例提供的3、4月、5月及春季成都原始市控组近地面NO₂浓度估算结果空间分布图；

图49是本发明实施例提供的3、4月、5月及春季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图50是本发明实施例提供的3、4月、5月及春季地面站点实测空间分布图；

图51是本发明实施例提供的6、7月、8月及夏季成都重构市控组近地面NO₂浓度估算结果空间分布图；

图52是本发明实施例提供的6、7月、8月及夏季成都原始市控组近地面NO₂浓度估算结果空间分布图；

图53是本发明实施例提供的6、7月、8月及夏季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图54是本发明实施例提供的6、7月、8月及夏季地面站点实测空间分布图；

图55是本发明实施例提供的9、10月、11月及秋季成都重构市控组近地面NO₂浓度估算结果空间分布图；

图56是本发明实施例提供的9、10月、11月及秋季成都原始市控组近地面NO₂浓度估算结果空间分布图；

图57是本发明实施例提供的9、10月、11月及秋季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图58是本发明实施例提供的9、10月、11月及秋季地面站点实测空间分布图；

图59是本发明实施例提供的12、1月、2月及冬季成都重构市控组近地面NO₂浓度估算结果空间分布图；

图60是本发明实施例提供的12、1月、2月及冬季成都原始市控组近地面NO₂浓度估算结果空间分布图；

图61是本发明实施例提供的12、1月、2月及冬季中国原始国控组近地面NO₂浓度估算结果空间分布图；

图62是本发明实施例提供的12、1月、2月及冬季地面站点实测空间分布图；

图63是本发明实施例提供的2021年成都市各组估算结果和地面站点实测平均值和标准差变化趋势对比图；

图64是本发明实施例提供的成都重构市控组2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图65是本发明实施例提供的成都原始市控组2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图66是本发明实施例提供的中国原始国控组2021年近地面NO₂浓度精细化估算结果平均值分布对比图；

图67是本发明实施例提供的成都地面站点实测值2021年近地面NO₂浓度精细化估算结果平均值分布对比图。

一、具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明融合TROPOMI原始和重构卫星遥感数据、气象数据、其他辅助数据以及地面国控、省控和市控站点监测数据，构建多组训练估算数据集。利用随机森林重要性和皮尔逊相关性选择特征变量，并对比随机森林(RF)和极限梯度提升(XGBoost)两种机器学习模型的估算精度和泛化能力。选用XGBoost模型进行后续估算研究，其在测试集上的十折交叉验证结果显示在四川省利用重构数据并加入省控站点数据的模型精度(R²＝0.860，RMSE＝4.828ug/m³)和成都市利用重构数据并加入市控站点数据的模型精度(R²＝0.872，RMSE＝5.368ug/m³)均优于仅使用国控站点且利用原始数据的估算结果(R²＝0.812，RMSE＝7.141ug/m³)。

如图2所示，本发明实施例提供的连续平滑地区的高覆盖度的近地面NO₂浓度估算方法包括以下步骤：

S101，获取重构后的TROPOMI卫星NO₂数据和原始TROPOMI对流层NO₂柱浓度数据以及辅助数据；将获取的辅助数据作为自变量，将地面监测站点NO₂数据作为因变量进行时间和空间的标准时空匹配，构建时空数据集；

S102，利用XGBoost对构建的时空数据集进行训练调参，根据模型评价指标结果确定模型，用确定的模型进行估算得到预测数据集；并将估算结果进行多尺度的近地面NO₂浓度精细化作图。

1.不同模型的近地面NO₂浓度精细化估算建模对比

由于NO₂的存活寿命较短，容易在排放源区的近地面沉积形成高浓度区域。人类主活动又主要集中在近地面，近地面NO₂更加直接的危害人类健康。因此，迫切需要探讨近地面NO₂浓度的时空分布特征。且有研究表明对流层NO₂柱浓度数据与近地面NO₂的关系十分密切且复杂，传统的统计模型未能很好解决近地面NO₂和其他多种影响因素之间的多重共线性问题，而机器学习在处理这种多个影响因素的非线性关系时效果较好、效率更好^[99]。本章将选择随机森林和极限梯度提升两种模型开展近地面NO₂浓度估算建模并对比。

1.1随机森林

随机森林(Random Forest)是一种基于决策树的集成学习算法，核心思想是基于随机抽样(Bootstrap aggregating，Bagging)和采取随机方式选取特征数目。Bagging是指在随机抽取训练集之后，独立构建多棵决策树，并通过投票方式将它们集成起来来进行分类或回归预测。随机方式选取特征数目是指在构建的决策树的节点需要分裂时，从中随机选择一部分特征来划分特征空间，再根据相关策略包括信息增益、基尼指数和袋外误差等选取一个特征作为该节点的分裂属性。这个过程通过迭代多次后，产生多个不同的随机特征集，直到节点到达叶子节点无法分裂，最终构成了由多颗决策树组成的随机森林。具体流程如下：

首先随机选择样本，使用有放回的抽样方式从原始数据集中获取训练集，每个决策树都是由随机样本构成的，可以表示为：

D＝{(x1,y1),(x2,y2),...,(xn,yn)}(公式1-1)

公式1-1中，D是原始数据集，xn是样本n的特征向量，yi是样本n的标签。然后随机抽取特征对于上述的训练集，随机选择特征作为当前决策树的属性集合F：

F＝{f1,f2,...,fm}(公式1-2)

公式1-2中,fm是第m个随机选择的特征。接着使用随机样本和随机特征生成决策树，并从原始数据集中随机抽取样本，构成一个新的子集Ds：

Ds＝{(x1,y1),(x2,y2),…,(xk,yk)}(公式1-3)

公式1-3中，k是随机抽取的样本数。从所有特征中随机选择一部分特征，只从这些特征中选择最佳划分特征Fs：

Fs＝{fs1,fs2,...,fsp}(公式1-4)

公式1-4中，p是随机选择的特征数。重复步骤1和2，生成多棵决策树，对于本发明中的回归问题，RF算法会为每个决策树生成一个预测结果，最终的预测结果由所有决策树的平均值决定。

随机森林的优势有：

(1)随机森林可以应对高维数据和大规模数据集；

(2)随机森林具有较好的准确性、稳定性、鲁棒性和泛化能力；

(3)随机森林可以评估变量的重要性，通过理解特征的贡献程度和数据的结构，选择最优的特征集；

(4)随机森林可以较好的处理非线性关系和交互效应。

1.2极限梯度提升

极限梯度提升(eXtreme Gradient Boosting，XGBoost)算法是一种集成学习方法，它通过梯度提升回归树(Gradient Boosting Decision Trees，GBRT)来高效实现分类和回归任务。XGBoost算法采用了与传统GBDT类似的思路，在每次迭代时，加强当前模型的预测效果，从而提高整体模型的性能。不同的是，XGBoost算法通过添加正则化项来控制模型的复杂度，并使用二阶梯度信息(二阶导数的泰勒展开式)来优化损失函数，它能够更准确地衡量模型的拟合程度，从而进一步提高预测性能。

XGBoost算法的流程主要分为两大部分，第一部分是构建弱学习器(weaklearner)，第二部分是集成多个弱学习器形成强学习器(strong learner)。具体如下：

步骤一：初始化模型：将所有样本的权重初始化为相等值w_i：

w_i＝1/n(公式1-5)

公式1-5中，n为样本数。

步骤二：构建弱学习器：XGBoost采用的是分类回归树(Classification andRegression Tree，CART)分类与回归树来作为基础决策树。CART根据某个特征和特征值将数据分成两部分，然后递归地对子节点执行相同的操作，直到满足某个停止标准(例如树的深度、叶子节点数等)。

步骤三：最小化损失函数:使用平方损失作为损失函数计算模型的预测值和真实值之间的差距，此外加入正则项并支持特征抽样和并行化计算，不仅在一定程度上防止过拟合，还控制了模型的复杂度，提高了运算速度和精度。具体地，它的目标是将以下损失函数最小化：

公式1-6中，l(y_i,y_i ^′)是样本的损失函数，K是模型中树的个数，Ω(f_k)是第k棵树的正则化项。为了进一步最优化损失函数，XGBoost算法中使用了二阶导数的泰勒展开式来衡量模型的拟合程度，该公式可以表示为：

公式1-7中，g_i和h_i分别是样本i的一阶导数和二阶导数，y_i′^(t-1)是第t-1轮迭代后的模型对样本i的预测值。

步骤四：迭代训练模型，更新样本权重：首先计算残差使用使用梯度提升树来训练模型，每次迭代时，根据上一轮迭代的残差来训练新的树。残差作为当前模型的预测值和真实值的差距可以表示为：

r_i＝y_i-y_i′^(t-1)(公式1-8)

公式1-8中r_i表示第i各样本的残差，y_i表示第i个样本的标签值。每次迭代中，XGBoost算法会根据上一轮迭代的残差来训练新的树。

步骤5：集成多个弱学习器，计算预测值：

最后，通过结合所有的弱学习器，本发明可以得到一个强学习器。在XGBoost中，通常使用加权求和的方式来进行预测，每个弱学习器的输出值会乘以一个系数，然后将它们加起来得到最终的预测结果，预测结果表现为：

公式1-9中，K是模型中树的个数，f_k(x_i)是第k棵树对样本i的预测值。

XGBoost的优点如下：

(1)XGBoost算法具有很高的准确性和鲁棒性，可以有效避免过拟合；

(2)XGBoost算法可以处理高维数据和大规模数据集；

(3)XGBoost算法能够输出各个特征的重要性分数，有助于特征选择和数据可视化；

(4)XGBoost算法的训练速度较快，能够处理实时应用场景。

1.3模型评价指标

本发明使用模型对数据进行预测时，需要对模型的预测性能进行评估。常用的评价指标包括可决系数(R²)、均方根误差(Root Mean-Square Error，RMSE)和平均绝对误差(Mean Absolute Error，MAE)，其中可决系数是衡量模型拟合程度的指标，它描述了因变量的变异在多大程度上可以由自变量来解释。可决系数的取值范围在0到1之间，值越接近1，表示模型的拟合程度越好，反之表示拟合程度较差。可决系数公式：

R²＝1-(SSR/SST)(公式1-10)

公式1-10中，SSR是回归平方和，SST是总平方和。回归平方和则表示真实值与预测值之间的差别，总平方和表示真实值与真实均值之间的差别。

均方根误差是衡量模型预测误差的指标，它表示预测值与真实值之间的平均偏差。均方根误差公式：

公式1-11中，n是样本数量，y_pred是模型预测值，y_true是真实值。

平均绝对误差是对预测误差的另一种度量方法，它计算每个预测值和真实值之间的绝对误差的平均值。MAE越小，表示模型的预测精度越高，平均绝对误差公式：

公式1-12中，n是样本数量，y_pred是模型预测值，y_true是实际值。MAE与RMSE的区别在于它不考虑误差的平方，而是取绝对值。

二、应用实施例

为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

本发明设计了为5组估算训练数据集，如表1所示，这5组估算训练数据集中的其他ERA5气象数据和辅助数据等特征变量来源和处理过程均相同。

表1本发明估算训练集分组情况

1、特征变量选择和变量统计

1.1特征重要性

本发明采用随机森林中的特征重要性函数(rf.feature_importances)来进行特征变量的选择本发明创建了一个包含200棵决策树的随机森林模型使用对输入的各个特征变量进行训练，最后利用feature_importances_属性获取每个特征的重要性，并将其排序输出。除上文数据章节中的特征变量以外，加入年积日(DAY)，经度(LON)和纬度(LAT)共15个特征变量进行特征重要性排序。

如图3结果所示，TROPOMI对流层NO₂数据参与模型训练重要性最高，这与关于TROPOMI对流层NO₂数据重要性的说明符合。另外边界层高度(BLH)、2米处露点温度(D2M)和风速(U10、V10)等气象因素对于精细化估算近地面NO₂也较为重要。从NO₂的物理产生和消亡过程来分析，因为NO，O₃等NO₂前体物在大气环境中通过相关光化学反应生成NO₂，再由风吹向其他地点或与水反应生成其他含氮氧物质。气象因素中的温度是光化学反应不可缺少的条件，它可以加快或减慢生成过程。另外，根据大气压强公式(P＝ρgh)，大气压强和边界层高度(BLH)也在一定程度上影响NO₂的浓度高低。而人口(POP)、地表数字高程(DEM)等辅助数据由于其为年尺度的数据，对于估算近地面每日NO₂浓度影响较小。总降水量(TP)在本发明估算近地面NO₂重要性最低，重要性系数低于0.02，这是因为TP的气象意义，使其存在多行零值，对于NO₂浓度影响较小，根据先验知识选择与NO₂浓度相关的多个变量并进行特征重要性排序后，剔除了TP，最终选择了14个变量分别是TROPOMI_NO₂、BLH、D2M、U10、V10、T2M、SP、DAY、POP、NDVI、DEM、LON和LAT作为模型的主要输入特征变量。

1.2皮尔逊相关性

皮尔逊相关系数是一种用于衡量两个变量之间线性相关程度的统计量的统计方法，其取值范围为-1到1当皮尔逊相关系数在0和0.3之间时，表示两个变量低度正相关；当皮尔逊相关系数在0.3和0.8之间时，表示两个变量中度正相关；当皮尔逊相关系数在0.8和1之间时，表示两个变量高度正相关^[28]。当皮尔逊相关系数为负数时，表示两个变量呈负相关。本发明利用皮尔逊相关系数进一步探究以上14个输入特征变量与地面监测NO₂浓度的相关性。

如图4所示。TROPOMI对流层NO₂数据与地面监测NO₂浓度的相关性系数为0.68，呈中度正相关，进一步验证了TROPOMI对流层NO₂数据对于建模的贡献较大；其次SP与地基监测NO₂浓度的相关性次之，相关系数为0.18，说明了在中国的某些地理地势，不同的大气压强对NO₂的流动和消散水平影响较为明显，这与SP的特征重要性较高保持一致性；另外POP和地面监测NO₂浓度有较高的正相关性，相关系数0.12。这表明工业生产、化石燃料燃烧和交通运输等集中人类活动时刻影响着地面NO₂浓度值高低。另外，V10与地面NO₂浓度呈负相关，主要因为风速会影响NO₂的消散和流动，风速越快，NO₂的浓度则越低。其他的包括DAY、NDVI和DEM与地面监测NO₂浓度相关性较低或呈较高的负相关性。

1.3变量统计

本发明共有五组样本数据集参与训练建模，为节省篇幅和减少冗余，在变量选择环节均以中国原始国控为代表，其余组在文中省略，中国国控组的数据样本见表2。

表2中国原始国控组地面监测NO₂浓度和特征变量统计描述表

2、训练数据集构建和估算流程

如图1所示，基于机器学习的近地面NO₂浓度精细化估算主要分为三个部分：

第一个部分是数据处理部分，将上一章节DINEOF数据重构后的TROPOMI卫星NO₂数据和原始TROPOMI对流层NO₂柱浓度数据、2米处温度和风速等ERA5气象数据、人口网格等辅助数据作为自变量与地面监测国控、省控和市控站点NO₂数据作为因变量进行时间和空间的标准时空匹配。因为参与建模的各类数据在时空上的尺度和分辨率有所不同，首先在时间上，将日尺度TROPOMI对流层NO₂浓度数据提取出研究区范围即可。因为地面监测站点包括国控站点、省控站点和市控站点，四川省范围内的国控站点和省控站点监测NO₂浓度数据为小时尺度的平均值，成都市范围内除国控站点和省控站点之外，市控监测站点的NO₂数据为单日24小时均值，所以将统一取国控站点和省控站点的地基监测站点数据的24小时均值作为该日的NO₂浓度值。ERA气象数据是逐小时的数据，选择协调世界时(Universal TimeCoordinated，UTC)6:00的数据(即当地时间14：00)与TROPOMI传感器赤道过境时间保持一致。另外，人口网格、地表高程和土地利用类型数据等辅助数据为年尺度的数据，这类数据日均的变化量较小，所以直接选择其年均值作为单日均值参与模型训练。在空间上，TROPOMI对流层NO₂数据和ERA5数据的原始格式为NetCDF4，但是本发明TROPOMI NO₂的分辨率为3.5km×5.5km，ERA5气象数据的分辨率为0.25°，利用最邻近插值法重采样至0.05°的统一网格中。地面监测站点原始数据为逗号分隔值(Comma-Separated Values，CSV)，首先经过质量控制后的站点数据根据四川省范围和网格数转化为NetCDF格式，再利用最邻近插值法重采样到0.05°的格网中，当一个格网中存在多个站点的值时，取其多个站点的均值作为该格网的数值。人口网格等辅助数据的原始数据格式为标签图像文件格式(Tag ImageFile Format，TIFF)，利用ArcGIS平台分别读取这类数据，利用ArcGIS平台的工具重采样至0.05°的栅格后，转为NetCDF格式。最后向量化以上时空匹配成功的建模数据以列的的形式存储在二维表格中以地面监测NO₂浓度为标签值，其他数据为特征值完成样本数据集的建立。

第二个部分是建模阶段，利用XGBoost和RF机器学习方法对上一步骤建立的时空数据集进行训练调参，根据十折交叉验证的R²、RMSE等模型评价指标结果确定模型，用确定的模型进行估算得到预测数据集。

最后一部分将估算结果进行多尺度的近地面NO₂浓度精细化作图，并与仅使用国控站点估算数据集和TROPMI对流层NO₂是否重构等做相关对比。

3、模型性能评估

为了得到精细化估算近地面NO₂浓度的最优模型和检验加入地面省控监测站点NO₂浓度数据和基于DINEOF方法重构的TROPOMI对流层NO₂对于估算近地面NO₂的建模贡献能力，本发明利用XGBoost和RF模型分别对中国范围内的中国原始国控组、四川省研究区的四川原始省控组和四川重构省控组、成都市研究区的成都原始市控和成都重构市控组共五组样本数据集利用采样机器学习方法进行训练建模。对于RF模型主要是自动训练出包括最优决策树数量和最大特征个数(max_features)的最优超参数。之后利用十折交叉验证，即分别将各实验组的训练样本数据集随机平均分为10份，其中9份作为训练集1份作为验证集，对于每一份数据区分开特征值和标签值，再利用FLAML训练出的模型进行模型训练，之后将训练集和测试集的拟合结果进行统计，将十份数据联合起来取平均值进行最后的拟合得出其再训练集和测试集上的R²、RMSE和MAE等评价指标。

根据表3成都市在测试集和训练集上的十折交叉验证结果，横向比较XGBoost和RF的模型能力，XGBoost模型在测试集上的R²优于RF模型，并且RMSE和MAE均低于RF模型的验证结果。在训练集上RF的R²、RMSE和MAE明显高于XGBoost模型，说明RF模型存在一定程度的过拟合情况。综上证明了XGBoost模型不仅在模型估算能力上优于RF模型，XGBoost模型拥有更佳的可拟合性。纵向比较XGBoost模型分别在四川省和成都市各实验组的验证结果，四川原始省控组在测试集上的R高于于中国原始国控组，但是中国原始国控由于拥有更多的训练数据在训练集上可拟合度更好。再对比四川重构省控组的验证指标，四川重构省控组在测试集上的R²和RMSE优于四川原始省控组。这种对比结果在成都市三组实验组更为明显，成都原始市控在测试集上的R²明显高于中国原始国控略低于成都重构市控，且成都原始市控在训练集上的可拟合情况优于成都重构市控，可能存在一定过拟合情况。综上说明XGBoost模型在同组数据集估算近地面NO₂浓度表现出更好的模型估算性能，所以后续后文利用XGBoost模型参与精细化近地面NO₂研究。

表3各组实验机器学习测试集和训练集性能对比

为更加直观的在统计学指标上分析对比四川省和成都市加入更加稠密的省控、市控地面站点实测NO₂数据和利用重构后的TROPOMI对流层NO₂数据的建模效果。图5至图9是中国原始国控组、四川原始和重构省控组和成都原始和重构市控组的测试集在XGBoost训练下的散点密度图，中国国控组拥有最多的训练数据，数据点四川原始省控组的R²＝0.856和成都原始市控组的R²＝0.870均高于中国原始国控组R²＝0.812，说明在统计学指标上，加入地面省控和市控监测站点数据可以提高XGBoost模型估算近地面NO₂的精度。虽然四川重构省控和四川原始省控、成都原始市控和成都重构市控在XGBoost在测试集的R²差距不大，但是四川重构省控组在测试集上拥有的数据点数量(81664)高于四川原始省控(26633)，成都重构市控组在测试集上拥有的数据点数量(14846)高于成都原始市控(3751)代表模型可以得到更加充分的训练，使更多的数据点落在y＝x函数附近，在95％置信度的设定下的置信区间内的数据点也更多，说明在利用重构后的TROPOMI对流层NO₂数据后，在一定程度上提高模型估算的鲁棒性。由图中的数据点密度分布可知，XGBoost模型在NO₂低值区域(小于20ug/m³)的预测结果最好，随着地面NO₂浓度的增加XGBoost模型的预测能力逐渐减弱。另外各个实验组的线性拟合方程的斜率小于1，说明XGBoost模型预测的NO₂浓度值对于地面站点实测NO₂浓度值有一定程度的低估。且本发明利用重构卫星数据和更加稠密的监测站点数据近地面NO₂估算时优于现有技术利用(RF-STK)估算中国区域近地面日度NO₂浓度的模型精度(R²为0.62，RMSE＝13.3ug/m³)和现有技术估算中国近地面NO₂浓度的模型精度(R²＝0.73，RMSE＝5.63ug/m³)。

本发明介绍分析了利用机器学习算法精细化估算四川省和成都市近地面NO₂，通过不同的实验分组对比分析了加入更加稠密的地面省控和市控站点NO₂数据和重构后TROPOMI对流层NO₂数据参与建模对于模型训练精度的影响。

(1)介绍了本发明中所使用的XGBoost模型和RF模型的原理、算法流程和优缺点，又介绍了本发明对模型进行评价的指标R²、RMSE和MAE的概述。

(2)介绍了数据预处理和近地面估算NO₂模型的建立，利用随机森林中的重要性函数和皮尔逊相关系数重点介绍了参与模型训练数据的特征变量的选择和特征变量与地面NO₂浓度的关系。

(3)为检验加入更加稠密的省控和市控站点数据和利用上一章节基于DINEOF方法重构的TROPOMI对流层NO₂对精细化估算近地面NO₂的影响，按照样本数据集的组成，分为中国原始国控组、四川原始省控、四川重构省控、成都原始市控和成都重构市控共5组对比实验。对比了5组实验在统计学指标上的模型估算能力，得出了加入更加稠密的省控和市控站点可以提高模型的准确性，利用重构TROPOMI对流层卫星NO₂数据可以提高模型的鲁棒性。

4、各组估算结果的近地面NO₂浓度时空分布对比

为了检验加入更加稠密的地面监测站点数据和利用重构后的TROPOMI卫星对流层NO₂柱浓度数据的近地面NO₂浓度精细化制图能力，对四川省(成都市)的逐日、逐月、逐季和年度的近地面NO₂估算结果绘制时间上的变化趋势与空间上的分布情况图，并进一步与仅使用国控站点数据和利用原始卫星数据的估算结果进行对比分析。

4.1四川省时空对比与分析

4.1.1日度空间分布

选用2021年1月10日、2021年1月11日和2021年1月12日连续三日的单日均值估算结果绘制空间分布图检验精细化制图能力。图10至图13中，“红色实线框”代表的地面监测站点实测NO₂浓度为高值，同时TROPOMI对流层NO₂数据由于云雾雨等原因造成数据缺失的区域，可以突出卫星重构数据对于地面站点数据为高值时的重建能力；“红色虚线框”是地面站点NO₂数据为高值，且卫星数据缺失率较低的区域，可以突出加入省控站点数据对于估算近地面NO₂浓度高值的潜力；“黄色实线框”对应的是地面站点实测NO₂浓度为低值区域，但是TROPOMI卫星数据缺失，可以用来突出重构卫星数据对于地面站点实测数据为低值时的重建能力；“黄色虚线框”是是地面站点NO₂数据为低值，且卫星数据缺失率较低的区域，可以突出加入省控站点数据对于估算近地面NO₂浓度低值的贡献。

如图10至图13所示，当云覆盖等原因导致在以成都市为代表的高值区域的四川盆地出现了大面积的数据缺值时，原始组近地面NO₂浓度估算结果分布图也出现明显的缺值区域，四川重构省控组不仅填补了这些缺值区域的数据，并且对比站点实测数据的浓度分布图，与其空间分布形态基本一致；当TROPOMI对流层NO₂柱浓度数据覆盖率相对较高且四川盆地地区NO₂浓度值较高时，虽然中国原始国控组的估算结果可以体现到高值区域分布情况，但是没有很好的表现出其空间差异性，未能展示高浓度NO₂的阶梯分布形态。四川重构省控组对比其他组数据更能体现地面NO₂高值的空间分布差异性，能够在高值中心区域附近的展现出近地面NO₂浓度羽流现象，且与地面监测站点实测数据拟合程度更佳；另外中国原始国控组在以甘孜藏族自治州为代表的川西高原地区对地面站点实测数据有明显的高估情况，四川原始省控组在一定程度上改善了这种高估情况，四川重构省控组对比四川原始省控组在低值区域不仅与地面实测数据空间更为一致，制图连续性和平滑性也更好；最后在以凉山彝族自治州为代表的低值区域且卫星出现缺值情况时，四川重构省控组估算结果不仅较好的完成了数据重构，并且联系其前后的估算结果和地面站点实测数据，表明空间分布连续性较好。

4.1.2月度和季度时间变化趋势

利用重构数据并加入更加稠密省控站点对于逐日尺度的估算结果制图潜力后，进一步分析其在月度和季度的时间分布变化趋势特征，并了解四川省NO₂浓度的变化趋势。

由图14至图17所示，图14和图16中地面监测站点实测数据整体月度和季度NO₂平均值均高于各组数据估算结果，这与前文中近地面NO₂浓度估算结果有所低估有关；图15和图17中各组估算结果的标准差均低于实测数据，说明利用多源数据估算近地面NO₂后，使近地面NO₂浓度分布更加连续；通过图14和图16中看出四川省1月份NO₂浓度处于最高水平，达28.719ug/m³，8月份最低，为12.678ug/m³，冬季NO₂浓度平均值最高达到24.903±15.470ug/m³，夏季最低为14.464±10.013ug/m³，春季(18.810±12.273ug/m³)和秋季(17.329±10.962ug/m³)较为浓度接近，四川省近地面NO₂总体上呈现先减少后增加的趋势。

4.1.3月度和季度空间分布

分析完近地面NO₂浓度估算结果在月度和季度的时间分布后，进一步对各组近地面NO₂浓度的估算结果绘制四季和对应月份空间分布图。图18至图33展示了地面站点实测NO₂浓度数据在春季(3月、4月和5月)、夏季(6月、7月和8月)、秋季(9月、10月和11月)和冬季(12月、1月和12月)共4季12个月和四川省各组的估算结果空间分布对比图。

如图18至图21所示，中国原始国控组在春季和对应月份在川西高原地区相对于地面站点实测数据有明显的高估情况且在制图细节上出现点片状，加入更加稠密的省控站点的四川原始省控组解决了该区域的高估情况，但是在四川盆地中心地区的高值地区没有保持好NO₂的羽流现象，四川重构省控组不仅可以更好的体现高值地区的NO₂流动形态，且在制图细节上消除了中国国控组估算结果的点片状现象。

如图22至图25所示，夏季以及6月、7月和8月总体NO₂浓度均值偏低，四川重构省控组和四川原始省控组在川西高原的低值区域估算结果空间分布差异不大，但是相对于仅使用国控站点数据估算结果改善了川西高原的高估情况。总的来说，当地面站点实测数据为低值时，各组估算结果空间分布差异较小。

如图26至图29所示，秋季的各个月份的近地面NO₂浓度逐渐增加，高值区域的面积再也不断扩大，中国原始国控组随着NO₂浓度的不断增加，在川西高原的高估问题也在不断扩大。在10月份，四川重构省控组估算填补了另外两组数据在四川中部地区的缺值区域，同时对于中国国控组估算结果出现的点片状和省控组出现的条带转现象有所改善。

如图30至图33所示，四川省冬季的近地面NO₂处于全年最高的一段时期，所以在12月和1月，未使用省控站点数据的中国国控组数据在川西高原地区高估情况极为明显，另外，在1月份的四川盆地高低地区，没有显示出高值中心附近的羽流形态，无法通过其空间分布分辨出具体高值区域，加入省控站点之后，高估情况有明显改善。利用重构卫星数据和省控站点的估算结果空间分布不仅进一步解决的川西高原的高估问题，在制图细节上消除了片带现状，在保证重构数据的质量的前提下，空间分布更加细腻。

综合观测图18至图33，首先横向对比各组结果在月度和季度近地面NO₂浓度空间分布图，四川原始省控组在川西高原的NO₂浓度低值区域的估算表现明显优于中国原始国控组，中国原始国控组在川西高原不仅有明显的高估现象，空间分布有明显的片块状且制图细节较为粗糙，四川原始省控组在这些低值区域的估算结果更加符合实际站点监测值，且空间分布更加连续。但是，四川原始省控也存在部分区域的条纹状分布，并且在5月和10月有不同程度的缺值区域，四川重构省控组填补了这部分缺值数据，并且在空间分布上更加连续平滑，在保证空间差异性较好的情况下又在一定程度上消除了中国原始国控组的片块状和四川原始省控组的条纹状现象。所以加入地面省控站点数据和利用重构后的TROPOMI对流层NO₂数据，对精细化估算近地面NO₂浓度能力有较大程度的提升。

本发明分析了利用机器学习算法精细化估算四川省和成都市近地面NO₂，通过不同的实验分组对比分析了加入更加稠密的地面省控和市控站点NO₂数据和重构后TROPOMI对流层NO₂数据参与建模近地面NO₂估算结果空间分布的贡献能力。

(1)为更加直观的对比各组实验对于精细化估算近地面NO₂浓度的贡献，首先绘制了四川省(成都市)各组实验连续三日的单日NO₂浓度估算结果分布图进行对比，在制图细节上说明了加入稠密地面监测站点可以解决等低值区域的高估情况，且增强空间分布的连续性。利用重构后的TROPOMI对流层NO₂数据不仅可以继续增强近地面NO₂空间分布的连续性和平滑性，又在保证数据质量的前提下，填补了卫星数据因云雾等原因导致的缺值区域。

(2)绘制了四川省(成都市)月尺度和四季尺度均值NO₂浓度估算时间和空间分布图，进一步证明了单日对比的结论，另外发现成都重构组较原始组估算结果有所低估，可能与TROPOMI传感器数据在中国高值区域低估有关。通过四季的近地面NO₂浓度变化和单幅NO₂浓度空间分布，得出了四川省(成都市)冬季NO₂污染最为严重，夏季最轻，工业排放、化石燃料燃烧和交通运输等人为因素增加了NO₂的排放。

(3)对各组估算模型的输入特征变量进行选择。利用随机森林中的特征重要性函数对先验知识中对于估算近地面NO₂有关的变量进行特征重要性排序，其中TROPOMI对流层NO₂柱浓度数据的重要性排序最高，另外BLH、U10和V10等气象因素由于在一定程度上影响地面NO₂的消散等，排序也较高。而TP由于其有较多的零值，特征重要性排序最低，所以将其剔除。利用皮尔逊相关系数计算以上筛选出的特征变量与地面监测NO₂浓度的相关性，TROPOMI数据与地面NO₂的相关性最高，进一步佐证了利用TROPOMI卫星遥感数据估算近地面NO₂的可行性。

(4)探求加入更加稠密地面监测站点数据和利用重构卫星数据对于近地面NO₂浓度估算的潜力。利用XGBoost模型和RF模型对各组数据进行训练调参，对比十折交叉验证的结果在各组数据集测试集和训练集上的R²、RMSE和MAE等模型评价指标，得出XGBoost模型估算近地面NO₂浓度的精度和可拟合性优于RF模型。利用XGBoost模型在各组数据的测试集上的密度散点图可知，四川重构省控组的模型验证结果R²＝0.860，RMSE＝4.828ug/m³和成都重构市控组模型验证结果R²＝0.872，RMSE＝5.364ug/m³均优于近使用地面国控站点数据和利用原始卫星数据的中国国控组的验证结果R²＝0.812，RMSE＝7.141ug/m³。

(5)绘制各组数据集近地面NO₂浓度估算结果空间分布图进一步检验利用更加稠密地面站点NO₂浓度数据和重构TROPOMI对流层NO₂数据参与建模对制图能力的贡献。根据多时间尺度空间分布图可知，在四川原始省控组和成都原始市控组可以在一定程度上解决中国原始国控组的估算结果在NO₂浓度低值区域的高估和空间分布图粗糙的问题，但是在一些卫星缺值区域这两组估算结果也出现空间分布缺值的问题。利用重构卫星数据的四川重构省控组和成都重构市控组不仅能较成功填补这些因云覆盖造成的数据缺失，还与地面站点实测数据的拟合程度较好，图像平滑性和连续性明显改善，更能体现近地面NO₂浓度的差异性。

(6)另外根据各组估算结果与地面站点实测数据绘制四川省和成都市近地面NO₂浓度时间分布图。通过对比四川省(成都市)的地面实测近地面NO₂浓度月度和季度的变化趋势，得出四川省和成都市的近地面NO₂浓度都是一年内都是先降低后增加的趋势。NO₂浓度四季差异比较明显，冬季的NO₂污染最为严重，在夏季最轻。这与冬季的高气压和低气温等自然因素和人们利用化石燃料取暖等人为因素有关，另外在经济发达的人口集中的区域NO₂污染更为严重。另外利用重构卫星数据的估算结果对比地面实测数据时，在高值地区有一定的低估，尤其实在成都市这种近地面NO₂浓度长期处于高值的地区，这种低估现象更为明显。

(7)本发明基于机器学习模型利用(1)中重构的TROPOMI卫星数据，并首次结合更加稠密的省控和市控地面空气监测站点数据进行估算四川省(成都市)近地面NO2浓度精细化估算对比实验，获得了一套在空间分布上更加连续平滑的四川地区的高覆盖度的每日近地面NO₂浓度估算数据集。

实施例1：珠江三角洲地区的高覆盖度近地面NO2浓度估算

在珠江三角洲地区，由于经济发展和人口增长，空气污染问题日益严重。因此，对该地区的高覆盖度近地面NO2浓度进行估算具有重要意义。

1)选择研究范围：珠江三角洲地区，包括广州、深圳、东莞、佛山等城市。

2)数据收集：收集TROPOMI卫星NO2数据、ECMWF气象数据、珠江三角洲地区地面监测站点数据以及数字地表高程数据、植被指数数据、人口网格数据和土地利用类型数据等。

3)数据预处理：对卫星数据、地面监测站点数据和气象数据进行预处理，将各类数据统一到相同的栅格坐标、时间范围和空间分辨率。

4)数据融合与特征选择：将卫星数据、气象数据、地面监测站点数据以及辅助数据进行融合，构建多组训练估算数据集。利用随机森林重要性和皮尔逊相关性选择特征变量。

5)建立估算模型：选用XGBoost模型进行珠江三角洲地区连续平滑地区的高覆盖度的近地面NO2浓度估算。

6)结果可视化：绘制珠江三角洲地区高覆盖度近地面NO2浓度的日、月、季和年度变化趋势图和空间分布图。

实施例2：长三角地区的高覆盖度近地面NO2浓度估算

在长三角地区，空气污染同样是一个严重问题。估算该地区的高覆盖度近地面NO2浓度有助于了解空气质量状况并制定相应的治理政策。

1)选择研究范围：长三角地区，包括上海、南京、杭州等城市。

2)数据收集：收集TROPOMI卫星NO2数据、ECMWF气象数据、长三角地区地面监测站点数据以及数字地表高程数据、植被指数数据、人口网格数据和土地利用类型数据等。

5)建立估算模型：选用XGBoost模型进行长三角地区连续平滑地区的高覆盖度的近地面NO2浓度估算。

6)结果可视化：绘制长三角地区高覆盖度近地面NO2浓度的日、月、季和年度变化趋势图和空间分布图。

这两个实施例分别针对珠江三角洲地区和长三角地区进行高覆盖度近地面NO2浓度估算，为了解这些地区的空气质量状况提供了重要依据。这些研究成果有助于政府部门制定针对性的空气质量改善政策，降低污染物排放，减少人口暴露在污染中的风险，从而改善民众的生活质量。

需要注意的是，这两个实施例仅作为示例，具体的研究方法和步骤可能会因实际情况而有所调整。例如，可能需要根据实际情况选择不同的数据来源、分析方法和模型，以获得更准确的估算结果。此外，未来的研究还可以尝试将更多类型的数据融合进来，提高估算的准确性和空间分辨率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，其特征在于，包括：

2.如权利要求1所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，其特征在于，所述连续平滑地区的高覆盖度的近地面NO₂浓度估算方法包括以下步骤：

步骤一：收集建模需要的数据，(1)卫星数据：对流层柱浓度数据，常用的卫星no2数据有：OMI_no2标准网格3级产品0.25*0.25度；GOME-2_no2产品0.25*0.25度；TROPOMI Level-2轨道数据产品5.5km×3.5km；(2)气象数据，常用的是ECMWF气象数据：10m纬向风速，10m径向风速，2m温度，边界层高度，对流层降雨，对流层降雪，晴空条件下的地面净太阳辐射，晴空条件下的地面净热辐射，地面气压；(3)其他：数字地表高程数据、植被指数数据、人口网格数据、土地利用类型数据；(4)地面站点观测数据：中国环境监测总站，以及地面政府建成的更加稠密的省控和市控监测站点数据；以地面监测站点数据和TROPOMI卫星传感器高分辨率遥感数据为主，其他数据为辅助分别作为因变量和自变量输入模型中。

其中卫星数据来源于TROPOMI传感器对流层NO₂数据，对下载得到的S5P_OFFL_L2__NO2_数据产品根据数据质量进行过滤，以0.05°×0.05°分辨率进行标准网格化；地面监测站点数据依据《环境空气指数(AQI)技术规定(实行)》(HJ633-2012)选取NO₂指标，因为地面监测站点受数据传输、硬件调试和相关故障原因，造成数据异常或缺值；本文将依据上述发布依据标准的数据有效性规定，地面监测站点的监测数据要满足每年至少有324个日平均浓度值、每月至少有27个日平均浓度值；此外，选用每天24小时NO₂浓度平均值作为地面NO₂的日均值进行建模，所以还需剔除每日少于20个小时的平均浓度值或采样时间的监测站点数据，确定符合数据有效性的监测站点之后，最后对每个监测站点每日24小时NO₂浓度平均值进行筛选，去除负值、零值和空值不符合本文研究要求的监测结果；

步骤二：数据预处理：对于卫星数据，根据相关行政范围设置最小的外接矩阵的经纬度参数；首先对每天的多轨数据进行融合，再给融合后的数据配置坐标和转换单位；原始二级数据为非标准格网数据，需要重采样到统一标准格网数据，利用python库harp工具重采样TROPOMI数据；对于地面监测站点数据，根据需要筛选出单日24小时NO₂浓度均值，原始监测数据格式是csv格式，根据处理范围进行栅格化，根据地面监测站点的坐标匹配到与卫星数据统一的栅格坐标下；对于气象数据，将获取的原始数据根据所需时间范围作为单日均值，并统一到统一的栅格坐标；对于其他数据，因为各类数据的空间分辨率不同按照要求利用ArcGIS软件重采样一致的分辨率率，再转换为NetCDF格式；

3.如权利要求2所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，其特征在于，所述辅助数据包括：2米处温度和风速或其他ERA5气象数据、人口网格。

4.如权利要求2所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，其特征在于，所述辅助数据作为自变量，将地面监测站点NO₂数据作为因变量进行时间和空间的标准时空匹配，构建时空数据集包括：

向量化时空匹配成功的建模数据以列的的形式存储在二维表格中用于地面监测NO₂浓度为标签值，其他数据为特征值完成样本数据集的建立，把地面监测站点NO₂数据、经度、纬度、时间、TROPOMI对流层NO₂数据、温度、风速等有效数据通过数据求交的方式存储到最终训练的数据表中。

5.如权利要求2所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，其特征在于，所述利用XGBoost对构建的时空数据集进行训练调参包括：

1)初始化模型：将所有样本的权重初始化为相等值w_i：

其中，n表示样本数；

3)使用平方损失作为损失函数计算模型的预测值和真实值之间的差距，加入正则项并支持特征抽样和并行化计算；

所述损失函数如下：

4)使用二阶导数的泰勒展开式来衡量模型的拟合程度：

5)迭代训练模型，更新样本权重：计算残差使用使用梯度提升树来训练模型，每次迭代时，根据上一轮迭代的残差训练新的树；

所述残差作为当前模型的预测值和真实值的差距，如下：

r_i＝y_i-y_i′^(t-1)

6.如权利要求2所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法，其特征在于，所述模型评价指标包括可决系数R²、均方根误差和平均绝对误差。所述可决系数如下：

R²＝1-(SSR/SST)

其中，SSR表示回归平方和，SST表示总平方和；

所述均方根误差如下：

所述平均绝对误差如下：

对于以上训练数据集利用微软开发的高效益自动化机器学习框架FLAML对XGBoost和RF模型进行自动化训练调参，对于XGBoost模型会自动训练出一套包括最优学习率、决策树深度、最大决策树数量、随机采样样本比例和随机采样特征比例的超参数。自动调参方法训练最佳模型，保存最佳建模参数。再利用一个预测数据集其中不包含预测变量，利用以上最优参数进行预测，得出预测结果。

7.一种实施如权利要求1-6任意一项所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法的亚热带多云雨地区的高覆盖度近地面NO₂浓度估算系统，其特征在于，所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算系统包括：

时空数据集构建模块，用于获取重构后的TROPOMI卫星NO₂数据和原始TROPOMI对流层NO₂柱浓度数据以及辅助数据；将获取的辅助数据作为自变量，将地面监测站点NO₂数据作为因变量进行时间和空间的标准时空匹配，构建时空数据集；

模型构建训练模块，用于利用XGBoost对构建的时空数据集进行训练调参，根据模型评价指标结果确定模型，用确定的模型进行估算得到预测数据集；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述亚热带多云雨地区的高覆盖度近地面NO2浓度估算方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1-6任意一项所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算方法的步骤。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述亚热带多云雨地区的高覆盖度近地面NO₂浓度估算系统。