CN113076692B

CN113076692B - 一种反演叶片氮素含量的方法

Info

Publication number: CN113076692B
Application number: CN202110333918.8A
Authority: CN
Inventors: 高懋芳; 王天丽; 张蕙杰; 曹春玲
Original assignee: Institute of Agricultural Resources and Regional Planning of CAAS; Agricultural Information Institute of CAAS
Current assignee: Institute of Agricultural Resources and Regional Planning of CAAS; Agricultural Information Institute of CAAS
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-09-28
Anticipated expiration: 2041-03-29
Also published as: CN113076692A

Abstract

本发明公开了一种反演叶片氮素含量的方法，包括以下步骤：步骤1：获取研究区内玉米叶片的光谱反射率数据与相应氮素含量并进行预处理；步骤2：选取部分玉米样品数据作为训练数据集；步骤3：基于弹性网算法对训练数据集进行降维处理；步骤4：利用得到的降维数据进行偏最小二乘回归，建立带有弹性网约束的偏最小二乘回归模型，得到EN‑PLSR模型；本发明建立带有弹性网约束的偏最小二乘回归模型(EN‑PLSR)，原理简单，操作方便，且通过调节参数可以控制变量选择压缩程度，具有较大的灵活性和实用性同时具有较强的普适性。

Description

一种反演叶片氮素含量的方法

技术领域

本发明属于农作物叶片内微量元素含量反演的技术领域，特别是涉及一种反演叶片氮素含量的方法。

背景技术

高光谱遥感对植被的变化更为敏感，反映更加精细，能够更精确地估算植被生理生化参数。基于高光谱的光谱差异分析在植被遥感研究领域中表现出强大优势，广泛应用于农业生产监测中。高光谱数据信息量丰富，波段多，波段间相关性较高，导致光谱信息冗余度增加，造成反演结果失真，准确性降低。如何将高光谱数据降维而又最大限度保留光谱信息，成为了使用高光谱数据进行植被生理生化参数反演的关键问题。

目前，叶片氮素含量反演的方法主要可分三大类，基于植被指数方法、基于主成分分析方法和基于机器学习的回归方法。其中，单一的植被指数舍弃了大量数据，不能很好地表征整个高光谱信息，同时在模型的通用性等方面还存在一定的不足，从而可能会影响反演精度。近年来有相关的学者使用连续小波变换及神经网络等方法进行作物微量元素监测，然而这些方法大多存在普遍适用性及可解释性不强等影响。对于高光谱数据使用弹性网算法降维后使用偏最小二乘回归拟合反演叶片氮素含量的研究较少。

发明内容

为了解决上述技术问题中的不足之处，本发明提供了一种反演叶片氮素含量的方法，可以在一定程度上降低光谱数据的冗余度，提高叶片氮素含量反演的精度。

为了解决上述技术问题，本发明采用的技术方案是：

一种反演叶片氮素含量的方法，包括以下步骤：

步骤1：获取研究区内玉米叶片的光谱反射率数据与相应氮素含量并进行预处理；数据预处理包括以下步骤：去除水汽吸收影响波段；删除异常曲线，将其他曲线取平均值作为该样本点的反射率曲线；求出相邻两点构成的直线与x轴形成的夹角作为光谱曲线的新特征；

步骤2：选取部分玉米样品数据作为训练数据集；

步骤3：利用弹性网算法对包含光谱反射率新特征的训练数据集进行降维处理；

弹性网算法如下：

其中

多元线性模型表示为y＝Xβ+ε，β为回归系数，ε为误差；λ为非负数，用来平衡模型的方差与偏差，λ的选定依据广义交叉验证最小化的方式来确定；α∈(0,1)；

步骤4：利用得到的降维数据进行偏最小二乘回归，建立带有弹性网约束的偏最小二乘回归模型，即EN-PLSR模型，利用EN-PLSR模型得到玉米叶片氮素含量的反演结果。

所述的方法，所述步骤2中，选取部分玉米样品数据作为训练数据集，其余作为验证数据集。

所述的方法，步骤5中：当α＝0.3时，模型的MSE值最小。

所述的方法，步骤5中：基于弹性网算法将光谱数据降维至372。

所述的方法，还包括步骤5：采用十折交叉验证方法对所述EN-PLSR模型进行参数选择。

所述的方法，所述步骤5中，采用十折交叉验证方法对所述EN-PLSR模型进行参数选择，将试验数据等分成10组，轮流将其中9组作为训练数据、1组作为验证数据，进行试验，每次试验都会得出相应的正确率或差错率，10次试验的正确率或差错率的平均值作为对算法精度的误差估计。

所述的方法，还包括步骤6：比较模型反演获得的氮素含量数据与原始氮素含量数据之间的相似性，验证所述EN-PLSR模型的反演能力。

所述的方法，所述步骤6中，以模型决定系数(coefficient Of determination，R²)、均方根误差(Root Mean Square Error，RMSE)作为评价估算模型的指标，公式如下：

其中，n为样本个数，y_i和y_j分别代表实测值和预测值，

和

分别代表实测值和预测值的平均值。R²为模型预测值和实测值的相关系数的平方，其越高，表明模型预测能力越强。RMSE是用来衡量实测值和预测值之间的偏差，其越小，说明模型实测值和预测值之间的偏差越小。

本发明公开了一种以相邻两点构成的直线与x轴形成的夹角为新特征的基于弹性网约束光谱降维的高光谱叶氮含量反演方法，该方法基于玉米叶片的光谱反射率曲线，求出相邻两点构成的直线与x轴形成的夹角作为新特征，将弹性网降维技术应用到叶片氮素含量反演中，原理简单、精度高、适用性强，可以大范围推广应用。

本发明具有以下有益效果：首先，现有技术选取特征一般为红边参数、蓝边参数等，虽然有一定效果，但是会舍弃部分光谱特征，本发明选择的特征并没有舍弃光谱数据，可以完整保留光谱特征。其次，从图1可见夹角的变化可以充分体现光谱反射率的变化，能够更好的描述光谱反射率数据。最后，对光谱数据求夹角可以有效消除部分外界噪声对光谱数据的影响，提高光谱反射率数据的有效性，最终达到提高反演精度的目的。为利用高光谱信息开展作物微量元素反演提供了新的思路和方法。

附图说明

图1为光谱曲线的新特征；

图2为弹性网算法α结果；

图3为弹性网算法λ结果(a)及变量个数选择结果(b)；

图4为弹性网算法降维后的变量分布；

图5为技术路线图；

图6为EN-PLSR模型反演结果评估；

图7为EN-PLSR模型与其他经典反演模型综合评估。

具体实施方式

以下结合具体实施例，对本发明进行详细说明。

一种以相邻两点构成的直线与x轴形成的夹角为新特征的基于弹性网约束光谱降维的高光谱叶氮含量反演方法，包括以下步骤：

步骤1：从昌平区实验站获取38个具有代表性玉米叶片的光谱测量ASD数据，验证样点在研究区内的分布如图2所示。然后利用ViewSpecPro软件对数据进行预处理，每个样本点会得到5条光谱反射率曲线，去除异常值后取其他反射率曲线平均值作为此样本点的光谱反射值。另外，实测光谱在1331-1480nm、1791-1960nm、2301-2500nm处受水汽吸收带影响较大，信躁比较差，因此删除该部分光谱数据，对剩余的玉米叶片光谱反射率数据共计1631个变量进行处理和分析。对光谱反射率数据进行计算，求出相邻两点构成的直线与x轴形成的夹角作为光谱曲线的新特征，如图1所示。

步骤2：数据集分为建模集(28个样本)与检验集(10个样本)，两个数据集之间的均值、标准差差异较小，具有很好的相似性，说明数据集样本划分合理。

步骤3：将求出的光谱反射率新特征数据集作为EN-PLSR模型反演叶氮含量的自变量，共1629个自变量，再利用弹性网算法对包含光谱反射率新特征的训练数据集进行降维处理，减少数据冗余度，避免过拟合。弹性网算法公式如下：

其中

多元线性模型表示为y＝Xβ+ε，β为回归系数，ε为误差；λ为非负数，用来平衡模型的方差与偏差，λ的选定依据广义交叉验证最小化的方式来确定；α∈(0,1)。

步骤4：对选取的降维数据作为自变量进行偏最小二乘回归，建立带有弹性网约束的偏最小二乘回归模型，即EN-PLSR模型，利用EN-PLSR模型得到玉米叶片氮素含量的反演结果。

步骤5：采用10折交叉验证对算法精度的误差进行估计，对所述的EN-PLSR模型进行参数选择，结果如图3所示。即当α＝0.3时，模型的MSE(均方误差)值最小，如图2所示，此时达到最好的效果；此后根据十折交叉验证结果所示，当MSE＝0.16时λ值最小，根据此时的λ值可以确定基于弹性网算法将光谱数据降维至372时EN-PLSR模型效果最优，如图3所示。

步骤6：比较EN-PLSR模型反演获得的氮素含量数据与原始氮素含量数据之间的相似性，如图6所示R²＝0.96,RMSE＝0.19，验证了所述EN-PLSR模型的反演效果极佳；比较EN-PLSR模型与其他经典模型的反演效果，如图7所示，EN-PLSR模型反演精度(R²)最高，均方根误差(RMSE)最小，验证了所述EN-PLSR模型确实可以达到提高叶氮含量反演精度的目的。以模型决定系数(coefficient Of determination，R2)、均方根误差(Root Mean SquareError，RMSE)作为评价估算模型的指标，公式如下：

其中，n为样本个数，y_i和y_j分别代表实测值和预测值，

和

分别代表实测值和预测值的平均值。R²为模型预测值和实测值的相关系数的平方，其越高，表明模型预测能力越强。RMSE是用来衡量实测值和预测值之间的偏差，其越小，说明模型实测值和预测值之间的偏差越小，模型反演效果越好。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种反演叶片氮素含量的方法，其特征在于，包括以下步骤：

步骤1：获取研究区内玉米叶片的光谱反射率数据与相应氮素含量并进行预处理；数据预处理包括以下步骤：去除水汽吸收影响波段；删除异常曲线，将其他曲线取平均值作为样本点的反射率曲线；求出相邻两点构成的直线与x轴形成的夹角作为光谱曲线的新特征；

步骤2：选取部分玉米样品数据作为训练数据集；

弹性网算法如下：

其中

2.如权利要求1所述的方法，其特征在于，所述步骤2中，选取部分玉米样品数据作为训练数据集，其余作为验证数据集。

3.如权利要求1所述的方法，其特征在于，步骤3中：当α＝0.3时，模型的MSE值最小。

4.如权利要求1所述的方法，其特征在于，步骤3中：基于弹性网算法将光谱数据降维至372。

5.如权利要求1所述的方法，其特征在于，还包括步骤5：采用十折交叉验证方法对所述EN-PLSR模型进行参数选择。

6.如权利要求5所述的方法，其特征在于，所述步骤5中，采用十折交叉验证方法对所述EN-PLSR模型进行参数选择，将试验数据等分成10组，轮流将其中9组作为训练数据、1组作为验证数据，进行试验，每次试验都会得出相应的正确率或差错率，10次试验的正确率或差错率的平均值作为对算法精度的误差估计。

7.如权利要求5所述的方法，其特征在于，还包括步骤6：比较模型反演获得的氮素含量数据与原始氮素含量数据之间的相似性，验证所述EN-PLSR模型的反演能力。

8.如权利要求7所述的方法，其特征在于，所述步骤6中，以模型决定系数(coefficientOf determination，R²)、均方根误差(Root Mean Square Error，RMSE)作为评价估算模型的指标，公式如下：

其中，n为样本个数，y_i和y_j分别代表实测值和预测值，

和

分别代表实测值和预测值的平均值；R²为模型预测值和实测值的相关系数的平方，其越高，表明模型预测能力越强；RMSE是用来衡量实测值和预测值之间的偏差，其越小，说明模型实测值和预测值之间的偏差越小。