CN111678866A - 一种多模型集成学习的土壤含水量反演方法 - Google Patents

一种多模型集成学习的土壤含水量反演方法 Download PDF

Info

Publication number
CN111678866A
CN111678866A CN202010467475.7A CN202010467475A CN111678866A CN 111678866 A CN111678866 A CN 111678866A CN 202010467475 A CN202010467475 A CN 202010467475A CN 111678866 A CN111678866 A CN 111678866A
Authority
CN
China
Prior art keywords
data
model
water content
pred
soil water
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010467475.7A
Other languages
English (en)
Other versions
CN111678866B (zh
Inventor
李玉霞
程渊
李凡
何磊
李玉珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Chengdu University of Information Technology
Guangdong Electronic Information Engineering Research Institute of UESTC
Original Assignee
University of Electronic Science and Technology of China
Chengdu University of Information Technology
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, Chengdu University of Information Technology, Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical University of Electronic Science and Technology of China
Priority to CN202010467475.7A priority Critical patent/CN111678866B/zh
Publication of CN111678866A publication Critical patent/CN111678866A/zh
Application granted granted Critical
Publication of CN111678866B publication Critical patent/CN111678866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/55Specular reflectivity
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/24Earth materials
    • G01N33/246Earth materials for water content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N2021/1793Remote sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Geology (AREA)
  • Remote Sensing (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种多模型集成学习的土壤含水量反演方法,先通过融合多源遥感数据来提取土壤含水量反演模型的初始输入特征,然后再基于Stacking框架,通过初始输入特征对框架内的极端随机树和XGBoost模型进行训练,得到不同的土壤含水量预测值,同时提取出温度‑植被干旱指数反演结果,最后通过拟合工具搭建线性回归模型并将极端随机树、XGBoost模型预测的土壤含水量和TVDI反演结果输入至建线性回归模型,从而输出土壤含水量值。

Description

一种多模型集成学习的土壤含水量反演方法
技术领域
本发明属于环境遥感技术和机器学习技术领域,更为具体地讲,涉及一种多模型集成学习的土壤含水量反演方法。
背景技术
土壤含水量与地表生物的生存息息相关,不但在农业、水文、气象等多个领域起着重要的作用,甚至与滑坡、洪水、火灾等极端灾害事件有着紧密的联系。考虑到土壤含水量的空间和时间异质性,对其进行精准的预测仍然具有挑战性。使用TDR土壤水分测定仪或者取土称重法能精确地测量出土壤含水量,但是这样的实地采点测量方式效率低下、人力物力花销大,不适用于大面积区域的实时测量。遥感技术具有覆盖范围广、响应速度快的优点,已经广泛应用于土壤含水量的实时动态监测。而遥感图像作为一种常见且重要的数字影像,人们可以通过处理和分析遥感图像,获得其所携带的地面信息。
对土壤含水量的遥感监测方法按照所使用数据的波段不同可分为光学遥感、热红外遥感以及微波遥感。其中,光学遥感简单、方便应用,但是它受天气的影响较大,并且预测结果往往滞后于实际情况;热红外遥感物理意义明确,然而热红外数据获取难度高、数据干扰因素多;至于微波遥感,它具有穿透性强、全天候全天时、受天气的影响小的优点,但同时它的空间分辨率低,并且受植被及土壤粗糙度影响较大。
因此,近年来有越来越多的研究者致力于融合多源遥感数据以综合它们的优缺点。相比于经验及半经验模型,物理意义明确的理论模型运用相对更为广泛,但同时理论模型往往包含的参数过多,在实际应用中为了计算的简洁性常常忽略许多参数。机器学习方法具有较强的非线性表述能力、适合解决各类非线性问题,并且不用考虑简化模型而忽略参数,通过引入各类参数从而实现多源遥感数据的融合,但传统机器学习方法在处理高维数据时常常会发生过拟合、欠拟合现象。集成学习通过将多个“弱学习器”组合成“强学习器”,相比传统学习类方法具有更强的泛化性、灵活性和稳定性。通过将学习类方法与传统反演方法相结合,能进一步提升土壤含水量反演结果的准确性和可解释性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种多模型集成学习的土壤含水量反演方法,在多源遥感数据的融合下,通过机器学习的方式快速、精准反演出土壤含水量。
为实现上述发明目的,本发明一种多模型集成学习的土壤含水量反演方法,其特征在于,包括以下步骤:
(1)、以中分辨率成像光谱仪MODIS遥感传感器数据、野外站点实测数据为数据源,对MODIS遥感数据进行预处理操作,然后基于野外站点实测数据的经纬度以及数据的获取时间,实现预处理后的MODIS遥感数据和野外站点实测数据的同步;
(2)、在同步后的MODIS遥感数据中,提取出MODIS地表反射率数据,然后通过波段间运算提取出野外站点处土壤含水量相关的光谱特征参数;
(3)、在同步后的MODIS遥感数据中,提取出MODIS地表温度数据,然后基于随机森林(Random Forest,RF)算法对其进行重建,得到重建后地表温度;
(4)、基于Stacking框架实现土壤含水量反演;
(4.1)、初始化Stacking框架;
(4.2)、将光谱特征参数、重建后地表温度和已知的高程数据作为初始输入特征,站点实测土壤含水量为期望输出特征,构建样本量为M、特征个数为N 的初始训练集Data,Data=M×N;
(4.3)、利用初始训练集Data对极端随机树和XGBoost模型进行训练,得到极端随机树和XGBoost模型对于初始输入特征的特征重要性;
(4.4)、计算特征重要性平均值1/M,并作为特征筛选阈值,然后将特征重要性低于特征筛选阈值的初始输入特征记为次要输入特征,反之则记为主要输入特征;
(4.5)、将Data随机拆分成n等分,得到子集{Data_1,Data_2,…,Data_n},其中,每个子集的样本量为大小为M/n、特征个数为N;
(4.6)、在{Data_1,Data_2,…,Data_n}中随机选取一个子集作为测试集,其余作为训练集;
(4.7)、在训练集中分别提取出极端随机树和XGBoost模型的主要输入特征,并输入完成模型训练,再利用测试集进行预测,得到一组土壤含水量预测值,其中,极端随机树模型的预测值记为ERT_Pred_1,XGBoost模型的预测值记为XGB_Pred_1;
(4.8)、除开已选的测试集外,在{Data_1,Data_2,…,Data_n}中再随机选取一个子集作为测试集,其余作为训练集,然后重复步骤(4.7)的操作,并以此类推,共计重复进行n次,得到极端随机树模型的预测值集合 {ERT_Pred_1,ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合 {XGB_Pred_1,XGB_Pred_2,...,XGB_Pred_n};
(4.9)、在每个子集中,提取温度-植被干旱指数TVDI反演结果;
(4.9.1)、在平面坐标系下,以归一化差分植被指数为x轴,重建后地表温度为y轴,绘制研究区内每个像元点对应的植被指数和地表温度在二维平面所构成的散点分布图;
(4.9.2)、散点分布图的上边界为“干边”,下边界为“湿边”,基于最小二乘法拟合得到干、湿边方程;
(4.9.3)、得到干、湿边方程后,代入下式得到TVDI反演结果;
Figure BDA0002513160320000031
其中,Ts表示散点分布图中某像元对应地表温度;Tsmax表示干边方程中对应的地表温度最大值和Tsmin表示湿边方程中对应的地表温度最小值;
(4.9.4)、对TVDI反演结果按与Data的划分方式分成n等分,记为: {TVDI_1,TVDI_2,…,TVDI_n};
(4.10)、将极端随机树模型的预测值集合 {ERT_Pred_1,ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合 {XGB_Pred_1,XGB_Pred_2,...,XGB_Pred_n}以及{TVDI_1,TVDI_2,…,TVDI_n}汇总构成数据量为M、特征数为3的次级数据集;
(4.11)、通过拟合工具搭建线性回归模型,其中,线性回归模型的输入为极端随机树预测值集合、XGBoost预测值集合和TVDI反演结果,输出为实测土壤含水量;
最后将次级数据集中的极端随机树预测结果、XGBoost预测结果和TVDI 反演结果输入至建线性回归模型,从而输出土壤含水量值。
本发明的发明目的是这样实现的:
本发明一种多模型集成学习的土壤含水量反演方法,先通过融合多源遥感数据来提取土壤含水量反演模型的初始输入特征,然后再基于Stacking框架,通过初始输入特征对框架内的极端随机树和XGBoost模型进行训练,得到不同的土壤含水量预测值,同时提取出温度-植被干旱指数反演结果,最后通过拟合工具搭建线性回归模型并将极端随机树、XGBoost模型预测的土壤含水量和 TVDI反演结果输入至建线性回归模型,从而输出土壤含水量值。
同时,本发明一种多模型集成学习的土壤含水量反演方法还具有以下有益效果:
(1)、本发明基于随机森林算法对MODIS地表温度产品进行了重建,减少了植被、地形及太阳辐射对地表温度结果的干扰,提高了其准确性和空间连续性;
(2)、本发明基于改进后的Stacking方法,以XGBoost和极端随机树作为基模型,将两个基模型的预测结果与TVDI指数反演结果相结合后,最终构建了多模型融合的土壤含水量反演算法,实现了土壤含水量反演传统方法与统计学方法的结合,提高了土壤含水量反演模型的准确性和可解释性;
(3)、本发明提供的多模型集成学习方法可以有效用于大尺度区域及长时间序列条件下的土壤含水量定量反演。
附图说明
图1是本发明一种多模型集成学习的土壤含水量反演方法流程图;
图2是MODIS地表温度重建前后对比图;
图3是基模型训练、预测示意图;
图4是极端随机树的特征重要性示意图;
图5是XGBoost特征重要性示意图;
图6是NVDI-LST特征空间的散点分布图及干湿边方程拟合图;
图7是预测土壤含水量和实测土壤含水量对比图;
图8是青藏高原地区2016年4月-7月土壤含水量月合成反演结果图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:
NDVI(Normalized Difference Vegetation Index):归一化差分植被指数
SASI(Shortwave Angle Slope Index):短波角度斜率指数
MSAVI(Modified Soil-Adjusted Vegetation Index):修正型土壤调节植被指数
SIMI(Shortwave Infrared Soil Moisture Index):短波红外土壤湿度指数
NMDI(Normalized Multi-band Drought Index):归一化多波段干旱指数
DDI(Distance Drought Index):距离干旱指数
GVMI(Global Vegetation Moisture Index):全球植被湿度指数
EVI(Enhanced Vegetation Index):增强型植被指数
MSI(Moisture Stress Index):水分胁迫指数
NDII6(Normalized Difference Infrared Index 6):第6波段归一化差分近红外指数
NDII7(Normalized Difference Infrared Index 7):第7波段归一化差分近红外指数
NDTI(Normalized Difference Tillage Index):归一化差分耕作指数
NDWI(Normalized Difference Water Index):归一化水分指数
VSDI(Visible and Shortwave infrared Drought Index):可见光-短波红外干旱指数
图1是本发明基于多模型集成学习实现土壤含水量反演的一种具体实施方式架构图。
在本实施例中,如图1所示,本发明一种多模型集成学习的土壤含水量反演方法,主要包括S1-S4四个步骤:
S1、以中分辨率成像光谱仪MODIS遥感传感器数据、野外站点实测数据为数据源,对MODIS遥感数据进行预处理操作,然后基于野外站点实测数据的经纬度以及数据的获取时间,实现预处理后的MODIS遥感数据和野外站点实测数据的同步;
在本实施例中,MODIS遥感数据为MOD09A1(地表反射率8天合成数据) 和MOD11A1(地表温度/发射率每日数据)。二者均采用正弦曲线投影,覆盖范围约为1100KM*1100KM。其中,MOD09A1的实际分辨率为463.3m,包含了 MODIS前7个波段的地表反射率;MOD11A1的实际分辨率926.6m,包括白天和夜间的地表温度、31和32波段发射率、昼夜过境时间等。
野外站点实测数据为青藏高原土壤温湿度观测网络(The Tibetan Plateauobservatory of plateau scale soil moisture and soil temperature,Tibet-Obs)所提供的地表土壤含水量和地表温度实测数据,所收集的土壤含水量数据测量深度为 0.05m并采用体积含水量的表述方法。
其中,MODIS遥感数据预处理的过程为:在MRT(MODIS Reprojection Tool) 工具中,首先将MODIS遥感数据格式由hdf格式转换为tif格式,再将格式转换后的MODIS遥感数据由正弦投影转换为WGS84投影,最后对上述处理完成的MODIS遥感数据进行重采样,使其空间分辨率重采样至1000m。
预处理完成后的MODIS遥感数据和地面站点实测数据的同步,是根据每次测量的时间和野外站点经纬度,提取每个测量点所对应遥感影像的DN值,进而完成实测数据和卫星数据的同步。
S2、在同步后的MODIS遥感数据中,提取出MODIS地表反射率数据,然后通过波段间运算提取出野外站点处土壤含水量相关的光谱特征参数;
其中,光谱特征参数包括MODIS遥感数据前7个波段的光谱反射率、14 种植被指数、植被覆盖度以及叶面积指数,其中,14种植被指数NDVI、SASI、 MSAVI、SIMI、NMDI、DDI、GVMI、EVI、MSI、NDII6、NDII7、NDTI、NDWI、 VSDI。
14种植被指数植被指数的计算公式如表1所示,表中Rbi表示MODIS遥感数据的第i个波段的反射率。
Figure RE-GDA0002622616830000071
表1
而植被覆盖度FVC和叶面积指数LAI的计算公式分别为:
Figure BDA0002513160320000072
LAI=ln(1-FVC)/(-0.5)
其中,NDVIv和NDVIs分别是纯植被与纯土壤的植被指数,NDVI为被求的地块或者像元点的植被指数,可使用ENVI5.3的统计(Statistics)功能计算得到。
S3、在同步后的MODIS遥感数据中,提取出MODIS地表温度数据,然后基于随机森林(Random Forest,RF)算法对其进行重建,得到重建后地表温度;
在本实施例中,如图2(a)所示为重建前MODIS白天地表温度,如图2(b) 所示为MODIS夜晚地表温度,如图2(c)所示为重建后地表温度,通过对比三幅图可以看出,基于随机森林的地表温度重建算法能对MODIS地表温度数据缺失值进行补充,重建后的地表温度值介于MOD11A1白天与夜晚地表温度之间。与实测地表温度相比,重建后的地表温度的均方根误差为2.88,平均绝对偏差为2.00,相关系数为0.88。
S4、基于Stacking框架实现土壤含水量反演;
S4.1、初始化Stacking框架;Stacking框架其本身是一种经典的集成学习算法,也常常被用作一种基学习器的结合策略,用于对各基模型的结果进行融合。 Stacking包含两层网络,第一层的各个模型被称作基模型(Base model),第二层的模型被称作元模型(Metamodel),在本实施例中,基模型包括极端随机树和XGBoost模型,而元模型采用线性回归模型;如图3所示,基模型在原始训练集上训练并输出预测结果,然后元模型根据各基模型的预测结果进行再预测,并得到最终结果。
S4.2、将光谱特征参数、重建后地表温度和已知的高程数据作为初始输入特征,站点实测土壤含水量为期望输出特征,构建样本量为M、特征个数为N的初始训练集Data,Data=M×N;
在本实施例中,初始输入特征共计25种,其中包括MODIS前7个波段的光谱反射率、14种植被指数(NDVI、SASI、MSAVI、SIMI、NMDI、DDI、GVMI、 EVI、MSI、NDII6、NDII7、NDTI、NDWI、VSDI)、植被覆盖度、叶面积指数、地表温度以及数字高程数据;其中,数字高程数据采用ASTER-GDEM地球电子地形数据,它的空间分辨率为90m,覆盖范围为北纬83°至南纬83°之间;
S4.3、利用初始训练集Data对极端随机树和XGBoost模型进行训练,得到极端随机树和XGBoost模型对于初始输入特征的特征重要性;
S4.4、计算特征重要性平均值1/M,并作为特征筛选阈值,然后将特征重要性低于特征筛选阈值的初始输入特征记为次要输入特征,反之则记为主要输入特征;
在本实施例中,特征重要性的阈值为平均值1/25=0.4,那么经过筛选后,如图4所示,后续极端随机树模型的输入特征为LST、NDMI、NDII7、NDVI、 DEM、NDTI、EVI、MSAVI、NDWI、Band7和GVMI;如图5所示,后续XGBoost 模型的输入特征为NDTI、DEM、NMDI、LST、NDVI、EVI、SASI、GVMI、 NDWI和MSAVI。
S4.5、将Data随机拆分成n等分,得到子集{Data_1,Data_2,…,Data_n},其中,每个子集的样本量为大小为M/n、特征个数为N;
S4.6、在{Data_1,Data_2,…,Data_n}中随机选取一个子集作为测试集,其余作为训练集;
S4.7、在训练集中分别提取出极端随机树和XGBoost模型的主要输入特征,并输入完成模型训练,再利用测试集进行预测,得到一组土壤含水量预测值,其中,极端随机树模型的预测值记为ERT_Pred_1,XGBoost模型的预测值记为 XGB_Pred_1;
S4.8、除开已选的测试集外,在{Data_1,Data_2,…,Data_n}中再随机选取一个子集作为测试集,其余作为训练集,然后重复步骤S4.7的操作,并以此类推,共计重复进行n次,得到极端随机树模型的预测值集合 {ERT_Pred_1,ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合 {XGB_Pred_1,XGB_Pred_2,...,XGB_Pred_n};
S4.9、在每个子集中,提取温度-植被干旱指数TVDI反演结果;TVDI反演结果能够反映表层土壤湿度状况,常用作土壤干湿状况监测指标,TVDI值越大,则对应土壤含水量越低,反之亦然。
S4.9.1、在平面坐标系下,以归一化差分植被指数为x轴,重建后地表温度为y轴,绘制研究区内每个像元点对应的植被指数和地表温度在二维平面所构成的散点分布图,如图6(a)所示;
S4.9.2、如图6(b)所示,散点分布图的上边界为“干边”,下边界为“湿边”,基于最小二乘法拟合得到干、湿边方程;
S4.9.3、得到干、湿边方程后,代入下式得到TVDI反演结果;
Figure BDA0002513160320000091
其中,Ts表示散点分布图中某像元对应地表温度;Tsmax表示干边方程中对应的地表温度最大值和Tsmin表示湿边方程中对应的地表温度最小值;
S4.9.4、对TVDI反演结果按与Data的划分方式分成n等分,记为: {TVDI_1,TVDI_2,…,TVDI_n};
S4.10、将极端随机树模型的预测值集合 {ERT_Pred_1,ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1,XGB_Pred_2,...,XGB_Pred_n}以及{TVDI_1,TVDI_2,…,TVDI_n}汇总构成数据量为M、特征数为3的次级数据集;
S4.11、通过拟合工具搭建线性回归模型,其中,线性回归模型的输入为极端随机树预测值集合、XGBoost预测值集合和TVDI反演结果,输出为实测土壤含水量;
最后将次级数据集中的极端随机树预测结果、XGBoost预测结果和TVDI 反演结果输入至建线性回归模型,从而输出土壤含水量值。
如图7所示,通过对极端随机树ERT和XGBoost模型,以及Stacking混合模型得到的土壤含水量和实测土壤含水量进行对比,具体如图7(a)、图7(b) 图7(c)所示,其中,选择均方根误差(Root Mean Squared Error,RMSE)、平均绝对偏差(Mean Absolute Error,MAE)以及相关系数R作为精度评价指标。各模型的预测精度对比情况如表2所示。可以发现各模型在验证集上均取得了较高的反演精度,其中Stacking混合模型的反演精度优于极端随机树和 XGBoost。
Figure BDA0002513160320000101
表2
如图8所示为基于多模型集成学习算法反演得到的青藏高原地区2016年4 月-7月土壤含水量月合成土壤湿度图,具体如图8(a)、图8(b)、图8(c)和图8(d)所示分别为青藏高原地区2016年4、5、6、7月土壤含水量月合成土壤湿度图。土壤湿度图的空间分布情况与实际情况较符合,土壤含水量自青藏高原东南部向西北部呈递减的趋势,其中东南部区域土壤含水量明显高于其他区域,而藏北地区土壤含水量相对较低。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种多模型集成学习的土壤含水量反演方法,其特征在于,包括以下步骤:
(1)、以中分辨率成像光谱仪MODIS遥感传感器数据、野外站点实测数据为数据源,对MODIS遥感数据进行预处理操作,然后基于野外站点实测数据的经纬度以及数据的获取时间,实现预处理后的MODIS遥感数据和野外站点实测数据的同步;
(2)、在同步后的MODIS遥感数据中,提取出MODIS地表反射率数据,然后通过波段间运算提取出野外站点处土壤含水量相关的光谱特征参数;
(3)、在同步后的MODIS遥感数据中,提取出MODIS地表温度数据,然后基于随机森林(Random Forest,RF)算法对其进行进行重建,得到重建后地表温度;
(4)、基于Stacking框架实现土壤含水量传统反演方法与机器学习方法的集成,完成土壤含水量反演;
(4.1)、初始化Stacking框架;
(4.2)、将光谱特征参数、重建后地表温度和已知的高程数据作为初始输入特征,站点实测土壤含水量为期望输出特征,构建样本量为M、特征个数为N的初始训练集Data,Data=M×N;
(4.3)、利用初始训练集Data对极端随机树和XGBoost模型进行训练,得到极端随机树和XGBoost模型对于初始输入特征的特征重要性;
(4.4)、计算特征重要性平均值1/M,并作为特征筛选阈值,然后将特征重要性低于特征筛选阈值的初始输入特征记为次要输入特征,反之则记为主要输入特征;
(4.5)、将Data随机拆分成n等分,得到子集{Data_1,Data_2,…,Data_n},其中,每个子集的样本量为大小为M/n、特征个数为N;
(4.6)、在{Data_1,Data_2,…,Data_n}中随机选取一个子集作为测试集,其余作为训练集;
(4.7)、在训练集中分别提取出极端随机树和XGBoost模型的主要输入特征,并输入完成模型训练,再利用测试集进行预测,得到一组土壤含水量预测值,其中,极端随机树模型的预测值记为ERT_Pred_1,XGBoost模型的预测值记为XGB_Pred_1;
(4.8)、除开已选的测试集外,在{Data_1,Data_2,…,Data_n}中再随机选取一个子集作为测试集,其余作为训练集,然后重复步骤(4.7)的操作,并以此类推,共计重复进行n次,得到极端随机树模型的预测值集合{ERT_Pred_1,ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1,XGB_Pred_2,...,XGB_Pred_n};
(4.9)、在每个子集中,提取温度-植被干旱指数TVDI反演结果;
(4.9.1)、在平面坐标系下,以归一化差分植被指数为x轴,重建后地表温度为y轴,绘制研究区内每个像元点对应的植被指数和地表温度在二维平面所构成的散点分布图;
(4.9.2)、散点分布图的上边界为“干边”,下边界为“湿边”,基于最小二乘法拟合得到干、湿边方程;
(4.9.3)、得到干、湿边方程后,代入下式得到TVDI反演结果;
Figure FDA0002513160310000021
其中,Ts表示散点分布图中某像元对应地表温度;Tsmax表示干边方程中对应的地表温度最大值和Tsmin表示湿边方程中对应的地表温度最小值;
(4.9.4)、对TVDI反演结果按与Data相同的划分方式分成n等分,记为:{TVDI_1,TVDI_2,…,TVDI_n};
(4.10)、将极端随机树模型的预测值集合{ERT_Pred_1,ERT_Pred_2,…,ERT_Pred_n}和XGBoost模型的预测值集合{XGB_Pred_1,XGB_Pred_2,...,XGB_Pred_n}以及{TVDI_1,TVDI_2,…,TVDI_n}汇总构成数据量为M、特征数为3的次级数据集;
(4.11)、通过拟合工具搭建线性回归模型,其中,线性回归模型的输入为极端随机树预测值集合、XGBoost预测值集合和TVDI反演结果,输出为实测土壤含水量;
最后将次级数据集中的极端随机树预测结果、XGBoost预测结果和TVDI反演结果输入至建线性回归模型,从而输出土壤含水量值。
2.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法,其特征在于,所述MODIS遥感数据预处理的过程为:在MRT(MODIS Reprojection Tool)工具中,首先将MODIS遥感数据格式由hdf格式转换为tif格式,再将格式转换后的MODIS遥感数据由正弦投影转换为WGS84投影,最后对上述处理完成的MODIS遥感数据进行重采样,使其空间分辨率重采样至1000m。
3.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法,其特征在于,所述MODIS遥感数据和地面站点实测数据的同步,是根据每次测量的时间和野外站点经纬度,提取每个测量点所对应遥感影像的DN值,进而完成实测数据和卫星数据的同步。
4.根据权利要求1所述的一种多模型集成学习的土壤含水量反演方法,其特征在于,所述光谱特征参数包括MODIS遥感数据前7个波段的光谱反射率、14种植被指数、植被覆盖度以及叶面积指数,其中,14种植被指数为NDVI、SASI、MSAVI、SIMI、NMDI、DDI、GVMI、EVI、MSI、NDII6、NDII7、NDTI、NDWI、VSDI。
5.根据权利要求1所述的一种多模型集成学习的土壤含水量反方法,其特征在于,所述随机森林(Random Forest,RF)算法的输入特征参数为归一化差分植被指数、叶面积指数、植被覆盖度、短波近红外反射率、数字高程数据、MOD11A1白天以及夜晚地面温度,期望输出为站点实测地表温度。
CN202010467475.7A 2020-05-28 2020-05-28 一种多模型集成学习的土壤含水量反演方法 Active CN111678866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010467475.7A CN111678866B (zh) 2020-05-28 2020-05-28 一种多模型集成学习的土壤含水量反演方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010467475.7A CN111678866B (zh) 2020-05-28 2020-05-28 一种多模型集成学习的土壤含水量反演方法

Publications (2)

Publication Number Publication Date
CN111678866A true CN111678866A (zh) 2020-09-18
CN111678866B CN111678866B (zh) 2021-08-17

Family

ID=72453090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010467475.7A Active CN111678866B (zh) 2020-05-28 2020-05-28 一种多模型集成学习的土壤含水量反演方法

Country Status (1)

Country Link
CN (1) CN111678866B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528555A (zh) * 2020-11-23 2021-03-19 中国科学院空天信息创新研究院 一种土壤水分图绘制方法及装置
CN112632847A (zh) * 2020-11-26 2021-04-09 淮阴师范学院 基于XGBoost回归算法的水稻叶片淀粉含量遥感反演模型和方法
CN112710614A (zh) * 2020-12-18 2021-04-27 江苏省苏力环境科技有限责任公司 用于生态环保的多源卫星数据处理方法、系统及存储介质
CN113252583A (zh) * 2021-06-25 2021-08-13 成都信息工程大学 一种基于枯草植被指数计算高寒枯草覆盖度的方法
CN113392377A (zh) * 2021-06-29 2021-09-14 生态环境部卫星环境应用中心 基于土壤湿度的沼泽湿地遥感提取方法和系统
CN113408776A (zh) * 2020-12-21 2021-09-17 电子科技大学 一种基于时间维特征增强的川西野火风险预警方法
CN114461971A (zh) * 2022-01-13 2022-05-10 桂林理工大学 一种融合土壤物理性质与遥感数据的地表土壤含水量反演方法
CN114548747A (zh) * 2022-02-19 2022-05-27 中国农业科学院农业信息研究所 一种土壤重金属的空间插值方法、装置、电子设备及介质
CN114723149A (zh) * 2022-04-14 2022-07-08 北京市农林科学院信息技术研究中心 土壤墒情预测方法、装置、电子设备及存储介质
CN114818908A (zh) * 2022-04-22 2022-07-29 福州大学 基于Stacking模型融合的油纸绝缘受潮状态定量评估方法
CN115308386A (zh) * 2022-07-18 2022-11-08 中国科学院地理科学与资源研究所 一种基于cygnss卫星数据的土壤盐分反演方法和系统
CN115495988A (zh) * 2022-09-28 2022-12-20 中国科学院南京土壤研究所 一种基于最优时间窗口选择的土壤遥感反演方法
CN116304524A (zh) * 2022-12-20 2023-06-23 宁夏回族自治区气象科学研究所 土壤含水量监测方法、设备、存储介质及装置
US20230214557A1 (en) * 2021-12-30 2023-07-06 Institute Of Mechanics, Chinese Academy Of Sciences Method for dynamically assessing slope safety

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046188A (zh) * 2015-04-13 2015-11-11 中南林业科技大学 Modis混合像元分解森林信息提取方法
CN107688777A (zh) * 2017-07-21 2018-02-13 同济大学 一种协同多源遥感影像的城市绿地提取方法
US20180060728A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc Deep Embedding Forest: Forest-based Serving with Deep Embedding Features
CN108229403A (zh) * 2018-01-08 2018-06-29 中国科学院遥感与数字地球研究所 一种用于估算植被叶面积指数的混合模型构建方法
US20190171421A1 (en) * 2016-08-12 2019-06-06 Bayerische Motoren Werke Aktiengesellschaft Method, Apparatus and Computer Program for Reducing Variability Model
CN110956187A (zh) * 2019-11-28 2020-04-03 中国农业科学院农业信息研究所 一种基于集成学习的无人机影像植物冠层信息提取方法
CN110991472A (zh) * 2019-08-01 2020-04-10 南京航空航天大学 一种高速列车牵引系统微小故障诊断方法
CN111175784A (zh) * 2019-12-31 2020-05-19 塔里木大学 一种棉花冠层水分含量的卫星遥感监测方法
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046188A (zh) * 2015-04-13 2015-11-11 中南林业科技大学 Modis混合像元分解森林信息提取方法
US20190171421A1 (en) * 2016-08-12 2019-06-06 Bayerische Motoren Werke Aktiengesellschaft Method, Apparatus and Computer Program for Reducing Variability Model
US20180060728A1 (en) * 2016-08-31 2018-03-01 Microsoft Technology Licensing, Llc Deep Embedding Forest: Forest-based Serving with Deep Embedding Features
CN107688777A (zh) * 2017-07-21 2018-02-13 同济大学 一种协同多源遥感影像的城市绿地提取方法
CN108229403A (zh) * 2018-01-08 2018-06-29 中国科学院遥感与数字地球研究所 一种用于估算植被叶面积指数的混合模型构建方法
CN110991472A (zh) * 2019-08-01 2020-04-10 南京航空航天大学 一种高速列车牵引系统微小故障诊断方法
CN110956187A (zh) * 2019-11-28 2020-04-03 中国农业科学院农业信息研究所 一种基于集成学习的无人机影像植物冠层信息提取方法
CN111199343A (zh) * 2019-12-24 2020-05-26 上海大学 一种多模型融合的烟草市场监管异常数据挖掘方法
CN111175784A (zh) * 2019-12-31 2020-05-19 塔里木大学 一种棉花冠层水分含量的卫星遥感监测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HENG ZHANG等: "High-Resolution Vegetation Mapping Using eXtreme Gradient Boosting Based on Extensive Features", 《REMOTE SENSING》 *
MINQI JIANG等: "An improved Stacking framework for stock index prediction by leveraging tree-based ensemble models and deep learning algorithms", 《PHYSICA A》 *
SEAN P. HEALEY等: "Mapping forest change using stacked generalization: An ensemble approach", 《REMOTE SENSING OF ENVIRONMENT》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528555A (zh) * 2020-11-23 2021-03-19 中国科学院空天信息创新研究院 一种土壤水分图绘制方法及装置
CN112632847A (zh) * 2020-11-26 2021-04-09 淮阴师范学院 基于XGBoost回归算法的水稻叶片淀粉含量遥感反演模型和方法
CN112710614A (zh) * 2020-12-18 2021-04-27 江苏省苏力环境科技有限责任公司 用于生态环保的多源卫星数据处理方法、系统及存储介质
CN113408776A (zh) * 2020-12-21 2021-09-17 电子科技大学 一种基于时间维特征增强的川西野火风险预警方法
CN113252583A (zh) * 2021-06-25 2021-08-13 成都信息工程大学 一种基于枯草植被指数计算高寒枯草覆盖度的方法
CN113392377A (zh) * 2021-06-29 2021-09-14 生态环境部卫星环境应用中心 基于土壤湿度的沼泽湿地遥感提取方法和系统
US20230214557A1 (en) * 2021-12-30 2023-07-06 Institute Of Mechanics, Chinese Academy Of Sciences Method for dynamically assessing slope safety
CN114461971A (zh) * 2022-01-13 2022-05-10 桂林理工大学 一种融合土壤物理性质与遥感数据的地表土壤含水量反演方法
CN114461971B (zh) * 2022-01-13 2024-04-16 桂林理工大学 一种融合土壤物理性质与遥感数据的地表土壤含水量反演方法
CN114548747A (zh) * 2022-02-19 2022-05-27 中国农业科学院农业信息研究所 一种土壤重金属的空间插值方法、装置、电子设备及介质
CN114723149A (zh) * 2022-04-14 2022-07-08 北京市农林科学院信息技术研究中心 土壤墒情预测方法、装置、电子设备及存储介质
CN114818908A (zh) * 2022-04-22 2022-07-29 福州大学 基于Stacking模型融合的油纸绝缘受潮状态定量评估方法
CN115308386B (zh) * 2022-07-18 2023-04-07 中国科学院地理科学与资源研究所 一种基于cygnss卫星数据的土壤盐分反演方法和系统
CN115308386A (zh) * 2022-07-18 2022-11-08 中国科学院地理科学与资源研究所 一种基于cygnss卫星数据的土壤盐分反演方法和系统
CN115495988A (zh) * 2022-09-28 2022-12-20 中国科学院南京土壤研究所 一种基于最优时间窗口选择的土壤遥感反演方法
CN116304524A (zh) * 2022-12-20 2023-06-23 宁夏回族自治区气象科学研究所 土壤含水量监测方法、设备、存储介质及装置
CN116304524B (zh) * 2022-12-20 2024-04-09 宁夏回族自治区气象科学研究所 土壤含水量监测方法、设备、存储介质及装置

Also Published As

Publication number Publication date
CN111678866B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN111678866B (zh) 一种多模型集成学习的土壤含水量反演方法
Bao et al. Surface soil moisture retrievals over partially vegetated areas from the synergy of Sentinel-1 and Landsat 8 data using a modified water-cloud model
Jin et al. A review of data assimilation of remote sensing and crop models
CN109581372B (zh) 一种生态环境遥感监测方法
Fernandes et al. Landsat-5 TM and Landsat-7 ETM+ based accuracy assessment of leaf area index products for Canada derived from SPOT-4 VEGETATION data
Brown et al. Neural networks as a tool for constructing continuous NDVI time series from AVHRR and MODIS
Yue et al. Mapping winter-wheat biomass and grain yield based on a crop model and UAV remote sensing
Levin et al. Remote sensing as a tool for monitoring plasticulture in agricultural landscapes
Guo et al. Exploring influence factors in mapping soil organic carbon on low-relief agricultural lands using time series of remote sensing data
He et al. Estimating the aboveground dry biomass of grass by assimilation of retrieved LAI into a crop growth model
CN106501186B (zh) 一种土壤含水量产品降尺度方法
Harfenmeister et al. Agricultural monitoring using polarimetric decomposition parameters of sentinel-1 data
Zhang et al. Estimating wheat yield by integrating the WheatGrow and PROSAIL models
CN106779067B (zh) 基于多源遥感数据的土壤湿度重建方法和系统
CN110836870B (zh) 基于gee的大区域湖泊透明度快速制图方法
CN115759524B (zh) 一种基于遥感影像植被指数的土壤生产力等级识别方法
Choudhary et al. Random Forest for rice yield mapping and prediction using Sentinel-2 data with Google Earth Engine
Liang et al. A synergic method of Sentinel-1 and Sentinel-2 images for retrieving soil moisture content in agricultural regions
Hu et al. Surface albedos and angle-corrected NDVI from AVHRR observations of South America
Ren et al. Anisotropy parameterization development and evaluation for glacier surface albedo retrieval from satellite observations
Amri et al. FAO-56 dual model combined with multi-sensor remote sensing for regional evapotranspiration estimations
Sun et al. Coupling ecological concepts with an ocean-colour model: Phytoplankton size structure
Zhou et al. Analysis and optimization of NDVI definitions and areal fraction models in remote sensing of vegetation
Zhang et al. Enhanced Feature Extraction From Assimilated VTCI and LAI With a Particle Filter for Wheat Yield Estimation Using Cross-Wavelet Transform
CN112052720B (zh) 一种基于直方图聚类的高时空归一化植被指数ndvi的融合模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant