CN111678866B

CN111678866B - 一种多模型集成学习的土壤含水量反演方法

Info

Publication number: CN111678866B
Application number: CN202010467475.7A
Authority: CN
Inventors: 李玉霞; 程渊; 李凡; 何磊; 李玉珍
Original assignee: University of Electronic Science and Technology of China; Chengdu University of Information Technology; Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: University of Electronic Science and Technology of China; Chengdu University of Information Technology; Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-08-17
Anticipated expiration: 2040-05-28
Also published as: CN111678866A

Abstract

本发明公开了一种多模型集成学习的土壤含水量反演方法，先通过融合多源遥感数据来提取土壤含水量反演模型的初始输入特征，然后再基于Stacking框架，通过初始输入特征对框架内的极端随机树和XGBoost模型进行训练，得到不同的土壤含水量预测值，同时提取出温度‑植被干旱指数反演结果，最后通过拟合工具搭建线性回归模型并将极端随机树、XGBoost模型预测的土壤含水量和TVDI反演结果输入至建线性回归模型，从而输出土壤含水量值。

Description

一种多模型集成学习的土壤含水量反演方法

技术领域

本发明属于环境遥感技术和机器学习技术领域，更为具体地讲，涉及一种多模型集成学习的土壤含水量反演方法。

背景技术

土壤含水量与地表生物的生存息息相关，不但在农业、水文、气象等多个领域起着重要的作用，甚至与滑坡、洪水、火灾等极端灾害事件有着紧密的联系。考虑到土壤含水量的空间和时间异质性，对其进行精准的预测仍然具有挑战性。使用TDR土壤水分测定仪或者取土称重法能精确地测量出土壤含水量，但是这样的实地采点测量方式效率低下、人力物力花销大，不适用于大面积区域的实时测量。遥感技术具有覆盖范围广、响应速度快的优点，已经广泛应用于土壤含水量的实时动态监测。而遥感图像作为一种常见且重要的数字影像，人们可以通过处理和分析遥感图像，获得其所携带的地面信息。

对土壤含水量的遥感监测方法按照所使用数据的波段不同可分为光学遥感、热红外遥感以及微波遥感。其中，光学遥感简单、方便应用，但是它受天气的影响较大，并且预测结果往往滞后于实际情况；热红外遥感物理意义明确，然而热红外数据获取难度高、数据干扰因素多；至于微波遥感，它具有穿透性强、全天候全天时、受天气的影响小的优点，但同时它的空间分辨率低，并且受植被及土壤粗糙度影响较大。

因此，近年来有越来越多的研究者致力于融合多源遥感数据以综合它们的优缺点。相比于经验及半经验模型，物理意义明确的理论模型运用相对更为广泛，但同时理论模型往往包含的参数过多，在实际应用中为了计算的简洁性常常忽略许多参数。机器学习方法具有较强的非线性表述能力、适合解决各类非线性问题，并且不用考虑简化模型而忽略参数，通过引入各类参数从而实现多源遥感数据的融合，但传统机器学习方法在处理高维数据时常常会发生过拟合、欠拟合现象。集成学习通过将多个“弱学习器”组合成“强学习器”，相比传统学习类方法具有更强的泛化性、灵活性和稳定性。通过将学习类方法与传统反演方法相结合，能进一步提升土壤含水量反演结果的准确性和可解释性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种多模型集成学习的土壤含水量反演方法，在多源遥感数据的融合下，通过机器学习的方式快速、精准反演出土壤含水量。

为实现上述发明目的，本发明一种多模型集成学习的土壤含水量反演方法，其特征在于，包括以下步骤：

(1)、以中分辨率成像光谱仪MODIS遥感传感器数据、野外站点实测数据为数据源，对MODIS遥感数据进行预处理操作，然后基于野外站点实测数据的经纬度以及数据的获取时间，实现预处理后的MODIS遥感数据和野外站点实测数据的同步；

(2)、在同步后的MODIS遥感数据中，提取出MODIS地表反射率数据，然后通过波段间运算提取出野外站点处土壤含水量相关的光谱特征参数；

(3)、在同步后的MODIS遥感数据中，提取出MODIS地表温度数据，然后基于随机森林(Random Forest，RF)算法对其进行重建，得到重建后地表温度；

(4)、基于Stacking框架实现土壤含水量反演；

(4.1)、初始化Stacking框架；

(4.2)、将光谱特征参数、重建后地表温度和已知的高程数据作为初始输入特征，站点实测土壤含水量为期望输出特征，构建样本量为M、特征个数为N的初始训练集Data，Data＝M×N；

(4.3)、利用初始训练集Data对极端随机树和XGBoost模型进行训练，得到极端随机树和XGBoost模型对于初始输入特征的特征重要性；

(4.4)、计算特征重要性平均值1/M，并作为特征筛选阈值，然后将特征重要性低于特征筛选阈值的初始输入特征记为次要输入特征，反之则记为主要输入特征；

(4.5)、将Data随机拆分成n等分，得到子集{Data_1,Data_2,…,Data_n}，其中，每个子集的样本量为大小为M/n、特征个数为N；

(4.6)、在{Data_1,Data_2,…,Data_n}中随机选取一个子集作为测试集，其余作为训练集；

(4.7)、在训练集中分别提取出极端随机树和XGBoost模型的主要输入特征，并输入完成模型训练，再利用测试集进行预测，得到一组土壤含水量预测值，其中，极端随机树模型的预测值记为ERT_Pred_1，XGBoost模型的预测值记为XGB_Pred_1；

(4.8)、除开已选的测试集外，在{Data_1,Data_2,…,Data_n}中再随机选取一个子集作为测试集，其余作为训练集，然后重复步骤(4.7)的操作，并以此类推，共计重复进行n次，得到极端随机树模型的预测值集合{ERT_Pred_1，ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1，XGB_Pred_2,...,XGB_Pred_n}；

(4.9)、在每个子集中，提取温度-植被干旱指数TVDI反演结果；

(4.9.1)、在平面坐标系下，以归一化差分植被指数为x轴，重建后地表温度为y轴，绘制研究区内每个像元点对应的植被指数和地表温度在二维平面所构成的散点分布图；

(4.9.2)、散点分布图的上边界为“干边”，下边界为“湿边”，基于最小二乘法拟合得到干、湿边方程；

(4.9.3)、得到干、湿边方程后，代入下式得到TVDI反演结果；

其中，T_s表示散点分布图中某像元对应地表温度；T_smax表示干边方程中对应的地表温度最大值和T_smin表示湿边方程中对应的地表温度最小值；

(4.9.4)、对TVDI反演结果按与Data的划分方式分成n等分，记为：{TVDI_1，TVDI_2,…,TVDI_n}；

(4.10)、将极端随机树模型的预测值集合{ERT_Pred_1，ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1，XGB_Pred_2,...,XGB_Pred_n}以及{TVDI_1，TVDI_2,…,TVDI_n}汇总构成数据量为M、特征数为3的次级数据集；

(4.11)、通过拟合工具搭建线性回归模型，其中，线性回归模型的输入为极端随机树预测值集合、XGBoost预测值集合和TVDI反演结果，输出为实测土壤含水量；

最后将次级数据集中的极端随机树预测结果、XGBoost预测结果和TVDI反演结果输入至建线性回归模型，从而输出土壤含水量值。

本发明的发明目的是这样实现的：

本发明一种多模型集成学习的土壤含水量反演方法，先通过融合多源遥感数据来提取土壤含水量反演模型的初始输入特征，然后再基于Stacking框架，通过初始输入特征对框架内的极端随机树和XGBoost模型进行训练，得到不同的土壤含水量预测值，同时提取出温度-植被干旱指数反演结果，最后通过拟合工具搭建线性回归模型并将极端随机树、XGBoost模型预测的土壤含水量和TVDI反演结果输入至建线性回归模型，从而输出土壤含水量值。

同时，本发明一种多模型集成学习的土壤含水量反演方法还具有以下有益效果：

(1)、本发明基于随机森林算法对MODIS地表温度产品进行了重建，减少了植被、地形及太阳辐射对地表温度结果的干扰，提高了其准确性和空间连续性；

(2)、本发明基于改进后的Stacking方法，以XGBoost和极端随机树作为基模型，将两个基模型的预测结果与TVDI指数反演结果相结合后，最终构建了多模型融合的土壤含水量反演算法，实现了土壤含水量反演传统方法与统计学方法的结合，提高了土壤含水量反演模型的准确性和可解释性；

(3)、本发明提供的多模型集成学习方法可以有效用于大尺度区域及长时间序列条件下的土壤含水量定量反演。

附图说明

图1是本发明一种多模型集成学习的土壤含水量反演方法流程图；

图2是MODIS地表温度重建前后对比图；

图3是基模型训练、预测示意图；

图4是极端随机树的特征重要性示意图；

图5是XGBoost特征重要性示意图；

图6是NVDI-LST特征空间的散点分布图及干湿边方程拟合图；

图7是预测土壤含水量和实测土壤含水量对比图；

图8是青藏高原地区2016年4月-7月土壤含水量月合成反演结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

为了方便描述，先对具体实施方式中出现的相关专业术语进行说明：

NDVI(Normalized Difference Vegetation Index)：归一化差分植被指数

SASI(Shortwave Angle Slope Index)：短波角度斜率指数

MSAVI(Modified Soil-Adjusted Vegetation Index)：修正型土壤调节植被指数

SIMI(Shortwave Infrared Soil Moisture Index)：短波红外土壤湿度指数

NMDI(Normalized Multi-band Drought Index)：归一化多波段干旱指数

DDI(Distance Drought Index)：距离干旱指数

GVMI(Global Vegetation Moisture Index)：全球植被湿度指数

EVI(Enhanced Vegetation Index)：增强型植被指数

MSI(Moisture Stress Index)：水分胁迫指数

NDII6(Normalized Difference Infrared Index 6)：第6波段归一化差分近红外指数

NDII7(Normalized Difference Infrared Index 7)：第7波段归一化差分近红外指数

NDTI(Normalized Difference Tillage Index)：归一化差分耕作指数

NDWI(Normalized Difference Water Index)：归一化水分指数

VSDI(Visible and Shortwave infrared Drought Index)：可见光-短波红外干旱指数

图1是本发明基于多模型集成学习实现土壤含水量反演的一种具体实施方式架构图。

在本实施例中，如图1所示，本发明一种多模型集成学习的土壤含水量反演方法，主要包括S1-S4四个步骤：

S1、以中分辨率成像光谱仪MODIS遥感传感器数据、野外站点实测数据为数据源，对MODIS遥感数据进行预处理操作，然后基于野外站点实测数据的经纬度以及数据的获取时间，实现预处理后的MODIS遥感数据和野外站点实测数据的同步；

在本实施例中，MODIS遥感数据为MOD09A1(地表反射率8天合成数据)和MOD11A1(地表温度/发射率每日数据)。二者均采用正弦曲线投影，覆盖范围约为1100KM*1100KM。其中，MOD09A1的实际分辨率为463.3m，包含了MODIS前7个波段的地表反射率；MOD11A1的实际分辨率926.6m，包括白天和夜间的地表温度、31和32波段发射率、昼夜过境时间等。

野外站点实测数据为青藏高原土壤温湿度观测网络(The Tibetan Plateauobservatory of plateau scale soil moisture and soil temperature,Tibet-Obs)所提供的地表土壤含水量和地表温度实测数据，所收集的土壤含水量数据测量深度为0.05m并采用体积含水量的表述方法。

其中，MODIS遥感数据预处理的过程为：在MRT(MODIS Reprojection Tool)工具中，首先将MODIS遥感数据格式由hdf格式转换为tif格式，再将格式转换后的MODIS遥感数据由正弦投影转换为WGS84投影，最后对上述处理完成的MODIS遥感数据进行重采样，使其空间分辨率重采样至1000m。

预处理完成后的MODIS遥感数据和地面站点实测数据的同步，是根据每次测量的时间和野外站点经纬度，提取每个测量点所对应遥感影像的DN值，进而完成实测数据和卫星数据的同步。

S2、在同步后的MODIS遥感数据中，提取出MODIS地表反射率数据，然后通过波段间运算提取出野外站点处土壤含水量相关的光谱特征参数；

其中，光谱特征参数包括MODIS遥感数据前7个波段的光谱反射率、14种植被指数、植被覆盖度以及叶面积指数，其中，14种植被指数NDVI、SASI、MSAVI、SIMI、NMDI、DDI、GVMI、EVI、MSI、NDII6、NDII7、NDTI、NDWI、VSDI。

14种植被指数植被指数的计算公式如表1所示，表中R_bi表示MODIS遥感数据的第i个波段的反射率。

表1而植被覆盖度FVC和叶面积指数LAI的计算公式分别为：

LAI＝ln(1-FVC)/(-0.5)

其中，NDVI_v和NDVI_s分别是纯植被与纯土壤的植被指数，NDVI为被求的地块或者像元点的植被指数，可使用ENVI5.3的统计(Statistics)功能计算得到。

S3、在同步后的MODIS遥感数据中，提取出MODIS地表温度数据，然后基于随机森林(Random Forest，RF)算法对其进行重建，得到重建后地表温度；

在本实施例中，如图2中的(a)所示为重建前MODIS白天地表温度，如图2中的(b)所示为MODIS夜晚地表温度，如图2中的(c)所示为重建后地表温度，通过对比三幅图可以看出，基于随机森林的地表温度重建算法能对MODIS地表温度数据缺失值进行补充，重建后的地表温度值介于MOD11A1白天与夜晚地表温度之间。与实测地表温度相比，重建后的地表温度的均方根误差为2.88，平均绝对偏差为2.00，相关系数为0.88。

S4、基于Stacking框架实现土壤含水量反演；

S4.1、初始化Stacking框架；Stacking框架其本身是一种经典的集成学习算法，也常常被用作一种基学习器的结合策略，用于对各基模型的结果进行融合。Stacking包含两层网络，第一层的各个模型被称作基模型(Base model)，第二层的模型被称作元模型(Metamodel)，在本实施例中，基模型包括极端随机树和XGBoost模型，而元模型采用线性回归模型；如图3所示，基模型在原始训练集上训练并输出预测结果，然后元模型根据各基模型的预测结果进行再预测，并得到最终结果。

S4.2、将光谱特征参数、重建后地表温度和已知的高程数据作为初始输入特征，站点实测土壤含水量为期望输出特征，构建样本量为M、特征个数为N的初始训练集Data，Data＝M×N；

在本实施例中，初始输入特征共计25种，其中包括MODIS前7个波段的光谱反射率、14种植被指数(NDVI、SASI、MSAVI、SIMI、NMDI、DDI、GVMI、EVI、MSI、NDII6、NDII7、NDTI、NDWI、VSDI)、植被覆盖度、叶面积指数、地表温度以及数字高程数据；其中，数字高程数据采用ASTER-GDEM地球电子地形数据，它的空间分辨率为90m，覆盖范围为北纬83°至南纬83°之间；

S4.3、利用初始训练集Data对极端随机树和XGBoost模型进行训练，得到极端随机树和XGBoost模型对于初始输入特征的特征重要性；

S4.4、计算特征重要性平均值1/M，并作为特征筛选阈值，然后将特征重要性低于特征筛选阈值的初始输入特征记为次要输入特征，反之则记为主要输入特征；

在本实施例中，特征重要性的阈值为平均值1/25＝0.4，那么经过筛选后，如图4所示，后续极端随机树模型的输入特征为LST、NDMI、NDII7、NDVI、DEM、NDTI、EVI、MSAVI、NDWI、Band7和GVMI；如图5所示，后续XGBoost模型的输入特征为NDTI、DEM、NMDI、LST、NDVI、EVI、SASI、GVMI、NDWI和MSAVI。

S4.5、将Data随机拆分成n等分，得到子集{Data_1,Data_2,…,Data_n}，其中，每个子集的样本量为大小为M/n、特征个数为N；

S4.6、在{Data_1,Data_2,…,Data_n}中随机选取一个子集作为测试集，其余作为训练集；

S4.7、在训练集中分别提取出极端随机树和XGBoost模型的主要输入特征，并输入完成模型训练，再利用测试集进行预测，得到一组土壤含水量预测值，其中，极端随机树模型的预测值记为ERT_Pred_1，XGBoost模型的预测值记为XGB_Pred_1；

S4.8、除开已选的测试集外，在{Data_1,Data_2,…,Data_n}中再随机选取一个子集作为测试集，其余作为训练集，然后重复步骤S4.7的操作，并以此类推，共计重复进行n次，得到极端随机树模型的预测值集合{ERT_Pred_1，ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1，XGB_Pred_2,...,XGB_Pred_n}；

S4.9、在每个子集中，提取温度-植被干旱指数TVDI反演结果；TVDI反演结果能够反映表层土壤湿度状况，常用作土壤干湿状况监测指标，TVDI值越大，则对应土壤含水量越低，反之亦然。

S4.9.1、在平面坐标系下，以归一化差分植被指数为x轴，重建后地表温度为y轴，绘制研究区内每个像元点对应的植被指数和地表温度在二维平面所构成的散点分布图，如图6中的(a)所示；

S4.9.2、如图6中的(b)所示，散点分布图的上边界为“干边”，下边界为“湿边”，基于最小二乘法拟合得到干、湿边方程；

S4.9.3、得到干、湿边方程后，代入下式得到TVDI反演结果；

S4.9.4、对TVDI反演结果按与Data的划分方式分成n等分，记为：{TVDI_1，TVDI_2,…,TVDI_n}；

S4.10、将极端随机树模型的预测值集合{ERT_Pred_1，ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1，XGB_Pred_2,...,XGB_Pred_n}以及{TVDI_1，TVDI_2,…,TVDI_n}汇总构成数据量为M、特征数为3的次级数据集；

S4.11、通过拟合工具搭建线性回归模型，其中，线性回归模型的输入为极端随机树预测值集合、XGBoost预测值集合和TVDI反演结果，输出为实测土壤含水量；

如图7所示，通过对极端随机树ERT和XGBoost模型，以及Stacking混合模型得到的土壤含水量和实测土壤含水量进行对比，具体如图7中的(a)、图7中的(b)图7中的(c)所示，其中，选择均方根误差(Root Mean Squared Error,RMSE)、平均绝对偏差(Mean AbsoluteError,MAE)以及相关系数R作为精度评价指标。各模型的预测精度对比情况如表2所示。可以发现各模型在验证集上均取得了较高的反演精度，其中Stacking混合模型的反演精度优于极端随机树和XGBoost。

表2

如图8所示为基于多模型集成学习算法反演得到的青藏高原地区2016年4月-7月土壤含水量月合成土壤湿度图，具体如图8中的(a)、图8中的(b)、图8中的(c)和图8中的(d)所示分别为青藏高原地区2016年4、5、6、7月土壤含水量月合成土壤湿度图。土壤湿度图的空间分布情况与实际情况较符合，土壤含水量自青藏高原东南部向西北部呈递减的趋势，其中东南部区域土壤含水量明显高于其他区域，而藏北地区土壤含水量相对较低。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种多模型集成学习的土壤含水量反演方法，其特征在于，包括以下步骤：

(4)、基于Stacking框架实现土壤含水量传统反演方法与机器学习方法的集成，完成土壤含水量反演；

(4.1)、初始化Stacking框架；

(4.9)、在每个子集中，提取温度-植被干旱指数TVDI反演结果；

(4.9.3)、得到干、湿边方程后，代入下式得到TVDI反演结果；

(4.9.4)、对TVDI反演结果按与Data相同的划分方式分成n等分，记为：{TVDI_1，TVDI_2,…,TVDI_n}；

2.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法，其特征在于，所述MODIS遥感数据预处理的过程为：在MRT(MODIS Reprojection Tool)工具中，首先将MODIS遥感数据格式由hdf格式转换为tif格式，再将格式转换后的MODIS遥感数据由正弦投影转换为WGS84投影，最后对上述处理完成的MODIS遥感数据进行重采样，使其空间分辨率重采样至1000m。

3.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法，其特征在于，所述MODIS遥感数据和地面站点实测数据的同步，是根据每次测量的时间和野外站点经纬度，提取每个测量点所对应遥感影像的DN值，进而完成实测数据和卫星数据的同步。

4.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法，其特征在于，所述光谱特征参数包括MODIS遥感数据前7个波段的光谱反射率、14种植被指数、植被覆盖度以及叶面积指数，其中，14种植被指数为NDVI、SASI、MSAVI、SIMI、NMDI、DDI、GVMI、EVI、MSI、NDII6、NDII7、NDTI、NDWI、VSDI。

5.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法，其特征在于，所述随机森林(Random Forest，RF)算法的输入特征参数为归一化差分植被指数、叶面积指数、植被覆盖度、短波近红外反射率、数字高程数据、MOD11A1白天以及夜晚地面温度，期望输出为站点实测地表温度。