发明内容
针对目前卫星遥感估算PM2.5浓度算法主要集中在晴空天气下的应用的现状,为提高PM2.5浓度遥感估算方法的适用性,拓展在环境监测上的运用,本发明提出一种污染天气下的PM2.5浓度卫星遥感估算方法。
本发明由下述技术方案实现:
一种污染天气下的PM2.5浓度卫星遥感估算方法,所述污染天气的PM2.5浓度大于75μg/m3,所述方法包括如下步骤:
获取气溶胶光学厚度数据并进行基于地面观测数据的精度验证;
建立污染天气下的PM2.5浓度与所述气溶胶光学厚度数据相对应的数据集,将数据集分为训练样本数据集与测试样本数据集;
基于梯度提升回归树学习方法完成样本学习与数据测试;
对数据测试得到的PM2.5浓度进行精度验证,得到精度验证结果;
根据所述精度验证结果调整梯度提升回归树参数,重复上述样本学习、数据测试以及精度验证的步骤,使数据测试得到的PM2.5浓度达到预定的精度要求;
根据调整后的梯度提升回归树进行污染天气下的PM2.5浓度的估算。
进一步的,所述获取气溶胶光学厚度数据的步骤包括:
获取指定时间间隔,指定产品类型气象卫星气溶胶光学厚度数据。
读取数据集并提取550nm处数据作为研究输入气溶胶光学厚度数据集。
进一步的,按照地基气溶胶光学厚度进行波段插值,并对所述卫星气溶胶光学厚度数据进行精度验证,步骤包括:
获取时间间隔为一小时的地面观测数据,为保持与卫星气溶胶光学厚度数据的一致性,本发明将对地基观测数据进行二次多项式插值进行波段插值,本方法可以插值出精度更高、更可靠的550nm通道处的气溶胶光学厚度;发明根据地面观测数据440nm、500nm、675nm处气溶胶光学厚度按照以下二次多项式插值方法得到550nm处的气溶胶光学厚度。
lnτα=a0+a1lnλ+a2(lnλ)2 (1)
式中,τα表示λ通道处的气溶胶光学厚度值;ai(i=0,1,2)是未知系数。
进一步将选择精度评定系数以地面测量值为真值对卫星观测值进行精度验证,保证输入数据的可靠性,所述精度评定系数包括相关性系数R、均方根误差RMSE和斜率B,预定值为R>0.5;RMSE<0.3;B>0.5。
其中,所述相关性系数R、均方根误差RMSE和斜率B分别由下式计算:
式中,X
i、Y
i分别为数据集中第i个地面观测气溶胶光学厚度以及卫星观测气溶胶光学厚度值;
分别为地面观测气溶胶光学厚度以及卫星观测气溶胶光学厚度值的均值;n为数据集数据个数;A为拟合线的截距。
进一步的,所述建立污染天气下的PM2.5浓度与所述气溶胶光学厚度数据相对应的数据集,将数据集分为训练样本数据集与测试样本数据集的步骤包括:
根据地面大气监测站点PM2.5浓度数据,选取站点测得的PM2.5浓度大于75μg/m3的浓度值y以及相应时间、位置的气溶胶光学厚度值x,作为数据集T={(x1,y1),(x2,y2),…,(xn,yn)},n为大于1的自然数。
进一步的,所述基于梯度提升回归树学习方法完成样本学习与数据测试的步骤包括:
将所述训练样本数据集依次输入梯度提升回归树的初始弱学习器;
多轮迭代对所述学习器进行更新;
得到训练结果强学习器;
将所述测试样本数据集输入所述训练结果学习器,得到经所述训练结果学习器估算的污染天气下的PM2.5浓度。
进一步的,所述对数据测试得到的PM2.5浓度进行精度验证,得到精度验证结果的步骤包括选用十倍交叉验证的方法进行精度验证。
进一步的,根据所述精度验证结果调整梯度提升回归树参数,所调整的参数包括方法学习决策树的数量n_estimators,学习率learning_rate,最大深度max_depth,这些参数相互配合,根据时间跟内存的预算合理调整,防止过度拟合,也降低模型复杂度。得到最终的强学习器。
综上所述,本发明提供了一种污染天气下的PM2.5浓度卫星遥感估算方法,采用符合精度要求的气溶胶光学厚度数据与对应的PM2.5浓度数据形成数据集,基于梯度提升回归树学习方法完成样本学习和数据测试,对测试结果进行精度验证,并调整梯度提升回归树的参数使其达到精度要求,通过最终得到的回归树计算模型,可以有效地用于污染天气下的PM2.5浓度估算,其结果精度更高、速度更快,能够补充传统方法在污染天气下PM2.5浓度估算的不足,为开展大气污染防治提供更为精确的数据支撑。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明提供了一种污染天气下的PM2.5浓度卫星遥感估算方法,选择PM2.5浓度大于75μg/m3的天气表示为污染天气。本发明选择使用梯度提升回归树算法进行污染天气下基于气溶胶光学厚度的PM2.5浓度估算,可以更加自然的处理混合数据,并且在输出空间通过强大的损失函数对于异常值有着更为强大的鲁棒性。
如图1所示,本发明的估算方法包括如下步骤:
步骤S100,获取卫星观测气溶胶光学厚度数据。
进一步的,该获取卫星观测气溶胶光学厚度数据的步骤包括:按预定时间间隔获取不同卫星测得的气溶胶光学厚度数据。具体的,该预定时间间隔为按小时间隔,获取气象卫星测得的小时时间分辨率、5KM空间分辨率的550nm处气溶胶光学厚度数据,为保证数据有效性,可以统计每天11点-16点的数据作为有效数据。
步骤S200,根据相应时间、地点计算地面站点相应波段气溶胶光学厚度,并对卫星观测气溶胶光学厚度数据进行精度验证。在一个具体的实施例中,基于AERONET数据进行卫星气溶胶光学厚度精度验证工作。AERONET是由NASA和LOA-PHOTONS(CNRS)联合建立的地基气溶胶遥感观测网,该地基气溶胶遥感观测网测得的气溶胶光学厚度的数据可作为气溶胶光学厚度真值对上述卫星测得的数据结果进行精度评定。具体的,选择经过滤云处理且经过验证的AERONET Level-2.0数据进行典型区域的气溶胶光学厚度精度验证。
进一步的,根据地面观测站点提供的不同波段处气溶胶光学厚度数据集,以二次多项式方法完成550nm处气溶胶光学厚度的插值。
lnτα=α0+α1lnλ+α2(lnλ)2 (1)
式中,λ为波段值,τα表示λ波段通道处的气溶胶光学厚度值;a0、a1、a2是未知系数,由地面观测数据在不同波段值的气溶胶光学厚度带入公式(1)后计算得到。
进一步的,所述不同波段值选择为440nm、500nm、675nm,地面观测数据测量440nm、500nm、675nm处的气溶胶光学厚度,并带入所述公式(1)以计算得到a0、a1、a2;所述预定波段为550nm,然后根据公式(1)计算出550nm处的气溶胶光学厚度。
进一步的,选择精度评定系数进行上述精度验证,该精度评定系数包括相关性系数R(用来度量两个变量间的线性关系)、均方根误差RMSE(用来衡量观测值同真值之间的偏差)和斜率B(用来体现变量均值相关性);选取精度评定系数达到预定值的气溶胶光学厚度数据作为符合精度要求的气溶胶光学厚度数据。该预定值可选择为R>0.5;RMSE<0.3;B>0.5。
具体的,上述相关性系数R、均方根误差RMSE和斜率B分别由下式计算:
式中,X
i、Y
i分别为数据集中第i个地面观测气溶胶光学厚度以及卫星观测气溶胶光学厚度值;
分别为地面观测气溶胶光学厚度的均值以及卫星观测气溶胶光学厚度值的均值;n为数据集数据个数;A为拟合线的截距。
根据以上步骤得到达到精度验证要求的Himawari-8气象卫星气溶胶光学厚度数据。
步骤S300,建立污染天气下的PM2.5浓度与气溶胶光学厚度数据相对应的数据集,将数据集分为训练样本数据集与测试样本数据集。
进一步的,根据地面大气监测站点PM2.5浓度数据及监测站点的经纬度位置,选取站点测得的PM2.5浓度大于75μg/m3的浓度值y以及相应时间、地点的气溶胶光学厚度值x,作为数据集D={(x1,y1),(x2,y2),…,(xn,yn)},n为大于1的自然数。按照预定比例将数据集分为训练样本数据集与测试样本数据集,具体的,可以按照9:1的比例完成本发明的训练样本数据集与测试样本数据集的建立。
步骤S400,基于梯度提升回归树学习方法完成样本学习与数据测试。基于Python完成梯度提升回归树的初步算法实现以及参数设置,这是一种组合算法,基分类器是决策树,可以自然而然的处理混合类型的数据,预测能力强,并且可以通过强大的损失函数在输出空间实现对异常值的强大鲁棒性。梯度提升回归树首先使用的就是最速下降的近似方法计算残差近似值,即:
其中,m为迭代的步骤数,i是第i个样本,f(x)是根据梯度提升回归树参数拟合得到的拟合值,L(yi,f(xi))为损失函数。
进一步的,具体算法如下,如图2所示:
步骤S410,将训练样本数据集依次输入梯度提升回归树的初始弱学习器,对弱学习器进行初始化;其中,训练数据集D={(x1,y1),(x2,y2),…,(xN,yN)};损失函数为L(y,f(x))。
初始化过程:
其中,c为初始拟合值。
步骤S420,多轮迭代,在迭代过程中对所述学习器进行更新。
对于每一个样本(xi,yi),计算残差rm,i:
利用(xi,rm,i)(i=1,2,…,N),训练处第m棵回归树Tm,其对应的叶节点划分的区域Rm,i,j=1,2,…,J。其中J为叶子节点个数。N为训练样本集的总个数。
针对每个叶子节点,都将计算最佳拟合值:
对学习器进行更新:
其中,I(x∈Rm,j)为指示函数,当回归树判定x属于Rm时,其值为1,否则为0。
步骤S430,经过上述迭代和更新的步骤,进行初步的参数设置,得到训练结果强学习器,表达式如下:
其中,M为迭代的总步数。
步骤S440,将步骤S200中的测试样本数据集输入到上述训练得到的训练结果学习器,得到经所述训练结果学习器估算的污染天气下的PM2.5浓度。
步骤S500,对数据测试得到的PM2.5浓度进行精度验证,评价估算精度,得到精度验证结果。该步骤包括选用十倍交叉验证的方法进行精度验证。
具体的,将气溶胶光学厚度数据和对应的PM2.5浓度数据形成的数据集按比例9:1分成10份子数据集;依次选取9份不同的子数据集输入上述得到的强学习器进行训练,然后将剩余的1份子数据集中的气溶胶光学厚度数据输入经过训练的强学习器,得到对应的PM2.5浓度数据,将其与测得的PM2.5浓度数据进行比较,得到精度验证结果。
步骤S600,根据所述精度验证结果调整梯度提升回归树参数,重复上述样本学习、数据测试以及精度验证的步骤,直至数据测试得到的PM2.5浓度达到预定的精度要求,得到梯度提升回归树方法最终的强学习器。其中,参数包括方法学习决策树的数量n_estimators,学习率learning_rate和/或最大深度max_depth,这些参数相互配合,根据时间跟内存的预算合理调整,防止过度拟合,也降低模型复杂度,保证参数的最佳化,以得到最好的参数组合,进而获得最优的精度评价结果。
步骤S700,根据调整后的梯度提升回归树进行污染天气下的PM2.5浓度的估算。
下面以一个具体的实施例,按照上述步骤对本发明进行进一步的说明。
以京津冀区域为例,具体流程如图3所示。通过2015年7月15日到2017年12月31日11-16点研究区81个大气监测站点的PM2.5浓度与对应位置的气溶胶光学厚度数据构建样本训练数据集与样本测试数据集进行发明应用,在对Himawari-8气溶胶光学厚度进行精度验证步骤中,选择北京站、香河站代表城市、乡村作为典型站点进行基于AERONET Level-2.0的精度验证,得到的验证结果如图4所示,其均获得了较高的相关系数R(0.878,0.860)以及较低的均方根误差RMSE(0.185,0.175),斜率为0.667,0.742,证明基于Himawari-8获得的气溶胶光学厚度数据具有很好地置信度,符合进行下一步的建模要求。
本发明进一步基于梯度提升回归树算法对于京津冀区域污染天气下PM2.5浓度进行了回归估算并验证,得到的十倍交叉验证结果如图5所示,其中,左图为当PM2.5浓度大于75μg/m3时的验证结果,相关性系数达到0.660,均方根误差为14.79μg/m3;右图为当PM2.5浓度大于150μg/m3时的验证结果,相关性系数达到0.873,均方根误差为30.79μg/m3,证明了本发明的可行性。
进一步地,发明选择2017年11月2日进行案例应用,得到了研究区PM2.5浓度估算的遥感监测分布图(如图6所示),并进一步进行精度验证(如图7所示),结果显示,验证相关性可达0.84,证明了本发明的实用性。
综上所述,本发明提供了一种污染天气下的PM2.5浓度卫星遥感估算方法,采用符合精度要求的气溶胶光学厚度数据与对应的PM2.5浓度数据形成数据集,基于梯度提升回归树学习方法完成样本学习和数据测试,对测试结果进行精度验证,并调整梯度提升回归树的参数使其达到精度要求,通过最终得到的回归树计算模型,可以有效地用于污染天气下的PM2.5浓度估算,其结果精度更高、速度更快,能够补充传统方法在污染天气下PM2.5浓度估算的不足,为开展大气污染防治提供更为精确的数据支撑。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。