CN116578851A

CN116578851A - 一种高光谱土壤有效硼含量预测方法

Info

Publication number: CN116578851A
Application number: CN202310532480.5A
Authority: CN
Inventors: 李绍稳; 朱娟娟
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-11

Abstract

本发明公开了一种高光谱土壤有效硼含量预测方法，利用土壤可见近红外高光谱(350‑1655nm)数据和有效硼理化值，通过光谱预处理再基于深度学习稀疏注意力机制Transformer网络建模预测土壤有效硼含量，首先将采集的可见近红外高光谱数据进行预处理变换，再结合稀疏注意力机制Transformer网络构建土壤有效硼含量预测模型，从而实现根据土壤有效硼含量预测模型利用土壤高光谱数据预测土壤有效硼含量。本发明能够实现利用可见近红外高光谱无损、实时、快速、准确、室内检测土壤有效硼含量。

Description

一种高光谱土壤有效硼含量预测方法

技术领域

本发明涉及高光谱数据分析检测技术领域，尤其涉及一种基于去趋势预处理结合稀疏注意力Transformer网络的高光谱土壤有效硼含量预测方法。

背景技术

硼作为一种必需的微量元素，在作物开花、受精、增产和品质方面起着举足轻重的作用，而作物吸收硼养分的主要来源是土壤中的有效硼。在质地粗糙的砂质钙质土壤中，硼可以作为关键的限制微量营养元素之一，是农作物健康生长过程中不可或缺的营养组分，它直接影响农作物的生长和发育，并决定农作物的最终产量。如果土壤缺乏硼元素，则可能对作物根尖分生组织的细胞分化和伸长产生显著的抑制影响，导致植株生长不良，并可能出现蕾果而不开花、花开而不实、果而肉质不良、有壳无仁、落花落果、畸形裂果及心腐病、不穗症等问题。而同样，过多的硼元素供给也可能导致作物硼中毒，严重影响农作物的产量和品质。缺硼可能是作物生产的一个主要制约因素，硼缺乏在全球范围内发生，并且由于土壤中硼含量通常较少，因此快速准确地检测土壤中有效硼含量具有重要意义。然而，目前土壤有效硼检测方法(如姜黄素法、甲亚胺-H酸法)主要依靠化学分析，存在检测效率低、成本高和潜在环境污染等缺点。

可见近红外(VIS-NIR)高光谱可以提供一种无损、实时、快速、原位检测作物和土壤理化性质的方法。因此，VIS-NIR在农业中被广泛用于监测有机化合物和矿质养分。Tahmasbianet等人利用基于实验室的高光谱图像(400-1000nm)分析来预测土壤碳、氮及其同位素组成；偏最小二乘回归(PLSR)模型给出了所有测试组合物的决定系数(R²)>0.8。Tamburini小组通过近红外光谱研究了水分和粒径大小对土壤中总有机碳定量预测的影响，发现标准正态变量(SNV)和二阶导数结合PLSR回归算法给出了最佳的预测结果。金秀等人利用VIS-NIR光谱预测土壤有效钾含量并发现boosting算法(GBRT和Adaboost)表现出最好的R²。尽管近红外光谱在过去几十年中引起了广泛关注并在土壤科学中得到了很大发展，但VIS-NIR模型在预测土壤有效矿物质方面的准确性和通用性仍不令人满意，尤其是微量元素含量。

因此，如何根据可见近红外高光谱实现土壤中有效硼含量的准确预测是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种高光谱土壤有效硼含量预测方法，通过室内非成像可见近红外(VIS-NIR)高光谱采集分析土壤光谱数据，利用理化分析确定有效硼含量。首先将采集的光谱数据采用去趋势校正(DT)进行预处理变换，再结合稀疏注意力机制Transformer网络算法建立土壤有效硼含量预测模型，从而实现根据土壤有效硼含量预测模型利用土壤高光谱数据预测土壤有效硼含量。并且本发明采用原始光谱数据和通过去趋势校正(DT)、Savitzky-Golay卷积平滑等7种预处理方法进行转换后的光谱，并通过稀疏注意力机制Transformer网络算法进一步建模，生成8种模型预测方法，通过模型的决定系数R²、均方根误差又称标准误差RMSE、相对分析误差RPD、四分位间距偏差比RPIQ等参数对土壤有效硼预测建立的模型的准确性、可靠性和稳定性进行评价，证明本发明DT+稀疏注意力机制Transformer结合方法为最优方法，明确本发明方法的有益效果。本发明可为土壤肥料微量元素信息遥感监测提供参考。

为了实现上述目的，本发明采用如下技术方案：

一种高光谱土壤有效硼含量预测方法，包括以下具体步骤：

步骤1：采集土壤可见近红外高光谱数据；

步骤2：测定土壤有效硼实际理化值含量；

步骤3：对土壤可见近红外高光谱数据进行预处理变换获得模型数据；

步骤4：所述模型数据采用深度学习稀疏注意力机制Transformer网络构建VIS-NIR光谱模型，确定网络结构；

步骤5：对Transformer模型输入数据进行Encoder编码；

步骤6：对Transformer模型输出数据进行Decoder解码；

步骤7：将频域特征与时域特征融合；

步骤8：将待预测土壤高光谱数据输入所述土壤有效硼含量预测模型，预测获得土壤有效硼含量。

优选的，所述步骤3中预处理过程为：首先对所述土壤高光谱数据(200-1700nm)去噪处理，删除噪声无效波段，取350-1655nm(1306个波段)区域的光谱数据，然后采用去趋势校正方法将去噪高光谱数据进行去趋势校正处理。

优选的，所述步骤3中回归算法采用深度学习稀疏注意力机制Transformer网络算法，将所述模型高光谱数据序列嵌入到固定长度的向量空间中，作为Transformer编码器的输入，解码器的输出作为生成的特征高光谱数据序列以预测有效硼含量，构建VIS-NIR光谱模型。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种高光谱土壤有效硼含量预测方法，利用可见近红外高光谱提供一种无损、实时、快速、准确、室内检测土壤有效硼含量，采用预处理方法对光谱数据进行转换，并进一步利用深度学习稀疏注意力机制Transformer网络算法进行建模，利用建立的模型对采集的高光谱数据进行分析计算，获得光谱数据对应土壤的有效硼含量预测。解决了利用波段在200-1700nm之间的非成像高光谱仪快速无损检测土壤有效硼含量的问题，以及目前利用中红外光谱(2500-25000纳米)、HIS成像高光谱(400-1000纳米)、机载成像高光谱预测硼精度不足问题，大大提升了预测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的高光谱土壤有效硼含量预测方法流程图；

图2附图为本发明提供的土壤采样区示意图；

图3附图为本发明提供的土壤有效硼含量概率密度分布示意图；

图4附图为本发明提供的不同有效硼含量土壤高光谱特征示意图；

图5附图为本发明提供的原始光谱和各种预处理变换后平均光谱示意图；

图6附图为本发明提供的注意力计算过程示意图；

图7附图为本发明提供的Transformer全注意力模式示意图；

图8附图为本发明提供的Transformer稀疏注意力模式示意图；

图9附图为本发明提供的基于稀疏注意力机制的Transformer网络结构示意图；

图10附图为本发明提供的Transformer六层编码器和解码器架构示意图；

图11附图为本发明提供的Transformer编码器的输入层和第1个编码层的架构示意图；

图12附图为本发明提供的Transformer解码器的第6个解码层和输出层的架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种高光谱土壤有效硼含量预测方法，通过预处理建模根据可见近红外高光谱预测土壤有效硼含量，首先将采集的高光谱数据进行预处理转换，对所述土壤高光谱数据去噪处理删除噪声无效波段，并采用去趋势校正方法将去噪高光谱数据进行去趋势预处理；再结合深度神经网络算法建立土壤有效硼含量预测模型，从而实现根据土壤有效硼含量预测模型利用土壤光谱数据预测土壤有效硼含量，深度神经网络算法采用稀疏注意力机制Transformer网络，将所述模型高光谱数据序列嵌入到固定长度的向量空间中，作为Transformer编码器的输入，解码器的输出作为生成的特征高光谱数据序列以预测有效硼含量，构建VIS-NIR光谱模型。能够实现利用可见近红外高光谱无损、实时、快速、准确、室内检测土壤有效硼含量。

实施例

采集土壤样本进行多种预处理和稀疏注意力机制Transformer网络算法建模预测效果对比。

(1)采集土壤样品

某省南部典型山区共采集黄红壤土样品188份，如图2所示，采集地理坐标为东经117°29′7″～118°11′1″，北纬30°8′23″～30°22′25″。采用对角线取样法取样，取样深度在0-20cm之间。在去除植物根系、碎石和杂物后，采集纯土样品1.5kg进行编号、风干、研磨、过直径2mm筛。通过VIS-NIR和甲亚胺-H酸比色法对每个样品进行高光谱分析和有效硼理化检测。

VIS-NIR测量使用便携式非成像光谱仪(Ocean Optics OFS-1700)进行，光谱范围为200-1700nm，光谱分辨率在200-950纳米为2nm，950-1700纳米为5nm，重采样间隔为1nm。该仪器反射探头内自带光源，为保证数据稳定测定前需对仪器进行15分钟预热，实验工作环境温度为常温。200-349nm之间的测量值作为噪声被过滤，去噪处理将原始的1501个波段变成为1306个波段。

将处理后的2mm土壤颗粒置于样品容器中，样品容器用一块黑布覆盖，防止杂散光干扰。每个土壤样品随机选取3组进行光谱测量，取平均光谱值作为土壤光谱数据。

(2)预处理变换

总共使用了7种方法进行预处理变换，包括单独应用或组合应用去趋势校正(DT)、对数变换(LG)、均值中心化(MC)、多元散射校正(MSC)、标准正态变量变换(SNV)和Savitzky-Golay卷积平滑(SG)，如表1所示。其中，SG处理一般用于去除光谱曲线的边缘带，显着消除高频噪声的影响，提高信噪比，最大限度保留原始光谱信号的峰值特征。尽管FD和SD可以有效消除线性基线效应，但处理后噪声会被放大。SNV用于校准土壤粒径和表面散射的影响，而MC和DT减少光谱偏移。因此，各种预处理方法的组合，可以整合其优势，消除其劣势。

1)Savitzky-Golay卷积平滑

Savitzky-Golay卷积平滑是光谱分析中最长用的去噪方法之一，光谱在波长i处经Savitzky-Golay平滑后的值为：

式中，m为波长一侧平滑窗口数，2m+1为总平滑窗口数，N为归一化指数，c_j为平滑系数，可用多项式拟合求得。

2)标准正态变换

标准正态变换(Standard normal variate,SNV)可以用来校正由于土壤粒径大小不均匀、光程变化和表面散射等原因所带来的影响，并且由此所引起的光谱噪声。该算法的主要过程是先对所有的样本进行平均值处理，再用原始光谱减去平均值，最后除以样本的标准方差，算法的过程可用公式表示：

式中，x_ij，SNV是经过SNV算法处理后的光谱，x_ij是原始光谱，是所有样本平均值光谱，p为样本个数。

3)多元散射校正

多元散射校正(Multiplicative scatter correction,MSC)预处理算法类似于标准正态变换算法，能够消除或者减弱土壤粒径分布不均匀和粒径大小不均匀产生的误差，但是MSC算法相对于SNV算法较复杂。

多元散射校正具体的计算过程为：

把全部样本的原始光谱A(λ)变换成理想的基准粒度的光谱A₀(λ),根据最小二乘法指定α和β值，设定两个因子的推定值分别为α′和β′，由公式A(λ)＝α₀A_o(λ)+β+e(λ)可得到一下变换式

A₀(λ)＝[A(λ)-β′]/α′

获取α′和β′的光谱数据可以使用所有土壤样本的平均光谱，如下公式所示：

线性回归方程为：

式中，A_i表示第i个土壤样本的光谱数据，A为建模集光谱矩阵，通过最小二乘回归可求得α和β值。

4)对数变换

为了使光谱强度和目标浓度呈线性关系，通常将土壤原始光谱反射率通过对数函数Log(R₀/R)转化为吸收率，函数中的R为原始光谱反射率，R₀为具散射性且吸收性介质的反射率，为1。国内外专家研究证明通过对数变换将光谱反射率转换为吸收率是一种常见的光谱预处理方法，通常会增加土壤属性的预测精度。

5)均值中心化

均值中心化(mean centering,MC)是光谱中心化中最常用的预处理方法之一。MC能让远离均值的光谱数据和接近均值的光谱数据具有相同的比重，能够消除因数据自身变异或数据之间相差较大所引起的误差，在对光谱矩阵进行均值中心化处理的同时也要对待测理化值进行均值中心化处理。光谱在波长i处经MC处理后如下式所示：

式中，x_i表示在波长i处的光谱反射率，表示所有样本反射率的平均值。

6)去趋势校正

去趋势校正(Dislodge tendency,DT)在光谱分析中常被用来消除或减弱漫反射光谱的基线漂移等问题，其算法的基本思想是首先按多项式将光谱x_i的吸光度和波长拟合成一条趋势线d_i，然后把d_i从x_i减掉(x_i-d_i)即可，其中，i指的是光谱在波长i处。

表1用于土壤样品高光谱的预处理方法

预处理方法	缩写
		未经预处理的原始光谱	RS
标准正态变量变换	SNV
		多元散射校正	MSC
对数变换	LG
		去趋势校正	DT
Savitzky-Golay平滑滤波	SG
		Savitzky-Golay平滑滤波+对数变换	SG+LG
Savitzky-Golay平滑滤波+均值中心化	SG+MC
		Savitzky-Golay平滑滤波+标准正态变量变换+去趋势校正	SG+SNV+DT

(3)深度神经网络算法

使用了稀疏注意力机制Transformer网络算法进行计算训练。注意力机制是一种计算机视觉、自然语言处理以及机器学习等领域中广泛使用的技术。其主要作用是在输入序列中寻找相关的信息并将其集中处理，以达到更好的模型效果。在深度学习模型中，注意力机制通常应用于序列模型中，用于确定模型在处理序列时需要关注哪些部分。例如，在自然语言处理中，注意力机制可以帮助模型关注一句话中最重要的单词或短语。这种方法可以有效提高模型的精度，并降低过拟合的风险。常见的注意力机制包括点积注意力、多头注意力和自注意力等。点积注意力通过计算两个序列之间的相似度来确定注意力权重，多头注意力通过将输入序列分为多个头来并行计算注意力，自注意力则将输入序列中的每个元素作为查询来计算注意力分布。注意力机制已经成为了深度学习中不可或缺的技术之一，被广泛应用于各种序列建模、机器翻译、图像分类、语音识别等领域。注意力机制的思想是将一个Query值和一组Key-Value对映射到一个输出当中。Key向量、Query向量和Value向量是嵌入向量在不同子空间中的抽象，因此可以通过将嵌入向量乘以一个权矩阵来得到向量，嵌入向量是一个相对低维的空间，可以将其转换为高维向量。Key向量、Query向量和Value向量是编码器-解码器层的输入，Key向量和Query向量的长度用变量d来表示，先计算出所有Key向量和Query向量的点积，再将每个结果除以d的平方根。最后，应用softmax函数得出其值的权重。注意力矩阵公式：

其中，Q是查询矩阵，每一列是一个查询向量；K是键矩阵，每一列是一个键向量；V是值矩阵，每一列是一个值向量。Softmax是在矩阵列上的软最大化函数，dk是查询和键向量的维度(Q、K矩阵的列数)，即向量维度。注意力可以实现对光谱数据序列的表示计算，注意力计算过程如图6所示。

Transformer是一种全新的基于注意力机制的深度学习架构，它是一种自注意力神经网络模型。Transformer模型不含循环结构，仅依赖于全局注意力机制，使用了大量的自注意力和全连接层，能够很好地处理序列数据。它的核心思想是通过注意力机制来捕捉和组合序列中任意两个位置之间的关系，从而实现序列到序列的映射。注意力机制是一种用于计算权值的机制，其中每个位置的权值反映了该位置与其他位置的相关性。在Transformer模型中，注意力机制通过计算每个位置与其他位置的关系来决定如何组合来自不同位置的信息，从而实现对序列的理解。Transformer模型的注意力机制包括两个部分：自注意力和多头注意力。自注意力是一种在单个位置上捕捉信息的机制，它通过计算每个位置与其他位置的相关性来决定如何组合其他位置的信息。多头注意力则是一种在多个位置上捕捉信息的机制，它通过对整个序列进行不同的注意力计算来捕捉不同的相关性关系。

本发明提出一种基于稀疏注意力机制的Transformer网络构建土壤AB含量的高光谱预测模型，引入了一个稀疏的注意力机制，以解决土壤光谱数据建模特征量大、计算代价高、预测精度低的问题，其注意力模式区别对比如图7和图8所示。原始反射率数据是用一个188*1306的矩阵表示数据集，每一行代表一个样本，每一列代表样本的一个属性，该矩阵是稠密的。原先的注意机制，是需要每一个位置的特征去与其他所有的位置做计算。但是现在，只需要每一个位置，只跟它前后权重高的512个位置做计算。比如，第一个位置的特征就只跟后面的512个位置做计算，由于它是第一个位置，则前面512个位置为空。而第512个位置，它则与前512个位置，以及后512的位置做计算。稀疏注意力在不同的模型参数类型中拥有不同的稀疏系数和扰动系数，本研究模型最优参数：稀疏系数是0.2，扰动系数为0.01。

为了在采用稀疏注意力机制的Transformer网络算法构建VNIR光谱模型时突出其独特性，我们已经在以下几个方面进行了创新和优化：1)自适应稀疏注意力：针对VNIR光谱数据的特点，设计了一种自适应稀疏注意力机制，使得模型能够自动识别并关注光谱数据中的关键部分，从而提高了分辨率和准确性。2)分层Transformer结构：采用了分层Transformer结构，将光谱数据按波长范围划分为不同层次，分别进行特征提取和信息融合。这种分层处理可以更有效地捕捉不同波长下的光谱特征，提高模型的泛化能力。3)频域特征融合：我们在模型中引入了频域特征融合模块，通过对光谱数据进行快速傅里叶变换，提取频域特征并与时域特征进行融合。这样可以更好地捕捉光谱数据中的细微变化，提高模型的预测性能。4)光谱增强预处理：在模型构建过程中，对光谱数据进行了一系列增强预处理，包括去噪、归一化和数据增广等，以减小数据中的噪声影响并提高模型的稳定性。5)优化的损失函数设计：针对VNIR光谱建模任务设计了一种优化的损失函数，综合考虑了光谱数据的特点和模型的预测性能。通过调整损失函数的权重，我们在保证模型精度的同时，提高了模型的鲁棒性。

在土壤的AB高光谱检测中，首先，将土壤样品的AB高光谱数据进行预处理，并将训练集样本1306个波长反射率和AB理化值作为训练数据输入到Transformer模型中。在模型训练过程中，Transformer会学习输入数据的特征，并对其进行分类。此外，Transformer还引入了残差连接和层归一化等技术，以缓解梯度消失的问题，并加速模型训练。在训练过程结束后，Transformer模型可以对未知的土壤样品进行AB含量高光谱检测。具体来说，将未知样品的AB高光谱数据作为输入，通过Transformer模型稀疏注意力提取重要特征进行预测，并输出其所属类别。本发明稀疏注意力机制Transformer网络结构见图9。

在高光谱数据处理中，Transformer编码器可以通过多层自注意力和前馈神经网络来提取高光谱数据的特征表示。本研究编码器和解码器采用六层架构，每一层结构相同，如图10所示。编码器的输入层和第1个编码层结构如图11所示。首先，将高光谱数据序列嵌入到固定长度的向量空间中，作为Transformer编码器的输入。对于高光谱数据中的每个光谱通道，都可以看作是一个时间序列中的一个时间步，因此可以将光谱数据看作是一个时间序列，并将其输入到Transformer编码器中进行处理。此外，可以将光谱数据的空间信息通过多通道的输入方式引入，提升模型的表达能力。然后，Transformer编码器中的多层自注意力机制可以学习高光谱数据中不同光谱通道之间的依赖关系，以及通道之间的相对位置关系。同时，通过使用位置编码来维护光谱通道之间的位置信息，Transformer编码器能够更好地处理光谱数据序列的顺序性。每个自注意力层之后，通过前馈神经网络来提取光谱数据中更高层次的特征表示。在多个自注意力层之后，编码器的输出是高光谱数据的特征表示，这些特征表示可以用于后续任务，例如分类、聚类等。此外，可以通过加入Transformer的解码器模块，实现高光谱数据的自动编码器，对于异常检测、去噪等任务有着广泛的应用。因此，Transformer编码器可以是处理高光谱数据的一种强有力的工具。

在高光谱数据的预测任务中，可以使用Transformer中的解码器来生成高光谱数据序列的预测结果。解码器的输入是目标序列的嵌入表示和编码器的输出。目标序列的嵌入表示可以通过将目标序列中的每个元素映射到一个固定长度的向量空间中来获得，这里的目标序列是指待预测的高光谱数据序列。而编码器的输出则可以提供上下数据信息，帮助解码器更好地预测高光谱数据序列。解码器的第6个解码层和输出层架构如图12所示。解码器中也使用了多层自注意力机制和前馈神经网络，用于提取目标序列和编码器输出中的关键特征表示。与编码器不同的是，解码器还引入了另一种注意力机制，即编码-解码注意力机制。这种注意力机制能够让解码器更好地关注编码器输出中与当前预测步骤相关的信息，从而提升模型的预测性能。在每个预测步骤中，解码器都会基于目标序列的嵌入表示和之前的预测结果来生成当前步骤的预测结果。具体地，解码器会根据当前的目标序列嵌入表示和之前的预测结果，计算出当前预测步骤的自注意力表示，并使用编码-解码注意力机制将其与编码器的输出进行结合，生成当前预测步骤的向量。最后，通过前馈神经网络将上下数据向量转化为预测结果。在高光谱数据的预测任务中，可以将解码器的输出作为生成的特征高光谱数据序列以预测AB含量。这种方法能够提高光谱数据的预测准确性，并对于数据的填补、修复等任务具有广泛的应用。

(4)评价指标

本发明采用决定系数(R²)、平均绝对误差(MAE)、均方根误差(RMSE)和性能偏差比(RPD)作为预测评估指标。

其中，n为预测集中样本的个数，y_i为第i个样本的实际化学测量值，为第i个样本的模型预测值，/>为y_i的平均值；

SD是标准差，根据不同的RPD值，将模型分为不同的级别，如表2所示。

表2基于RPD值的不同模型的类别

RPD	Level
		RPD≤1.4	C
1.4＜RPD≤2.0	B
		RPD＞2.0	A

由于土壤物理性质和化学含量通常表现出有偏差的正态分布，与RPD相比，性能与IQ(RPIQ)的比率是更好的指标。RPIQ是IQ与RMSE的比率，其中IQ是第三个四分位数Q3(样本的75％)和第一个四分位数Q1(样本的25％)之间的差值。RPIQ值越大，表明模型性能越好。

IQ＝Q3-Q1(5)

综上所述，比较了R²、RMSE、RPD和RPIQ，以进行回归模型比较。

(5)对比结果

1)土壤样本统计

将188个土壤样本根据Kennard-Stone方法按照7:3的比例分成训练集和测试集，得到131个样本的训练集和57个样本的测试集。统计指标表明，两组土壤AB含量的分布模式不同，具有明显梯度差异，有利于模型训练和普适性，如下表3所示。土壤有效硼含量概率密度分布如图3所示。

表3土壤有效硼样品统计

为了明确土壤AB含量对土壤反射光谱变化的影响，即土壤反射光谱曲线的差异是否由AB含量不同导致的，因此，需要分析不同AB含量土壤的高光谱特征及其相关性。按照土壤AB含量，将选定的研究样本进行聚类分析。研究以188个样本AB含量的中间值2.0mg/kg为参考(表3和图3)，按样本值大小分布将样本分为高、低两个不同AB含量等级：高(3.92>AB含量≥2.0)和低(2.0>AB含量≥0.24)。再以每个等级土壤光谱反射平均值代表该等级的AB含量反射光谱，形成不同AB含量土壤反射光谱，见图4。从图中可以看出，不同梯度AB含量的土壤反射光谱曲线变化趋势与原始光谱特征分析一致，光谱特征更为明显。通过对比，可知在可见光和近红外范围内，不同AB含量土壤光谱反射率曲线变化呈现明显的规律，特别容易区分。AB含量不同，土壤光谱反射率大小表现不同。在可见光紫光(350-420nm)波段范围内，土壤中AB含量越高，光谱反射率越高，究其原因，一是土壤中AB原有的光谱吸收与反射性质；二可能是仪器首尾波段区域的噪声干扰导致。在可见近红外(420-1655nm)波段范围内，两者呈相反的规律，土壤光谱反射率随着AB含量的增加而降低，可知AB对光具有吸收作用。由此可见，不同AB含量确实会对土壤高光谱曲线变化产生影响，二者具有相关性。整体而言，在可见光和近红外范围内(350-1655nm)，除350-420nm波段外，土壤中AB含量与其高光谱反射率呈负相关。该研究发现，将是后期建模映射函数的基础。

预处理是准确VIS-NIR光谱分析的必要步骤。采用了各种预处理方法来过滤噪声并降低复杂性。图5显示了具有不同预处理的反射光谱。由于SG方法通常用于降低光谱噪声和平滑曲线，因此它总是与其他预处理方法相结合。由图示可以看出，除MSC外，其他方法均显著修改了光谱曲线的图案，其中LG、SG+LG和SG+MC几乎彻底重塑了曲线。

2)不同预测模型的性能评估

预处理变换和稀疏注意力机制Transformer网络算法相结合，共生成了8个VIS-NIR光谱模型。下表4展示了每个模型的评估水平和参数，以确定预处理的影响。A级表示模型的稳定性最高，B级表示中等稳定性。经过SG+LG和SG+SNV+DT预处理后，模型呈现为B级，而经过DT、LG、MSC和SG预处理后，模型将其级别提高到A。在没有任何预处理的情况下，RS数据集也可以生成A级模型，但不及DT、LG和SG预处理后的效果(表4)。这表明适当的预处理可以提高光谱与土壤有效硼的相关性，其中预处理DT比其他预处理变换更可取。

基于稀疏注意力机制的Transformer网络模型结果整体较佳，R²值最高达到0.868，RPD等级多在A级以上。其中光谱经过DT预处理后，结合稀疏注意力机制Transformer网络模型的预测精度最高，即DT/Transformer模型，其R²、RMSE、RPD和RPIQ值分别为0.868、0.054、2.719和3.600(表4)。

表4Transformer结合8种光谱测试集预测结果

注：加粗，代表此校正模型预测精度较好。N，代表建模波长变量个数。

实施例2

(1)采集实验样本。

实验样本是2018年7月16日到7月19日在某省两地油菜田采集的，因油菜是喜硼作物，需硼量高且吸硼能力强，对硼素营养非常敏感。共计采集了188份有效土壤样本，采集时间恰好是油菜成熟收割以后，这一时期的数据受其他外界因素影响少，并且能很好的表明土壤有效硼信息。数据采集主要是包括野外土壤样品采集以及室内光谱测量。采集土壤时，为减少土壤样本营养元素成分含量分布不均造成的误差，且具有代表性，采用对角线式采样法。

采样过程为：首先将土壤表面的植被和石块等杂质去除，然后用取土器采集耕作层20cm深度的土壤，再将采集的土壤进行充分的混合，利用“四分法”去掉多余的土壤，收集1.5kg左右的纯土壤样本作为1份实验样本。最后使用无菌密封袋装袋，并且使用黑色记号笔在袋子上做好标记方便识别。

对于实验室内的土壤光谱测量，将经过风干、研磨并且通过2mm孔筛的土壤粉末放在直径4.5cm，深2.5cm，内部铺上黑布的实验铝盒中(黑布是为了防止杂散光的干扰)，用直尺轻轻的将土样的表面刮平，再用反射探头压紧土壤样本，防止杂光干扰和漏光，利用电脑打开仪器控制软件进行高光谱采集，对于每个土壤样本，随机选取3处进行光谱测量，每个土壤样本测量3条光谱，取其平均值作为土壤样本的原始光谱。

光谱采集的仪器选用蔚海光学仪器有限公司生产的便捷式地物非成像光谱仪(型号：OFS-1700)，在实验室内搭建地物非成像高光谱采集系统用于采集土壤样本的非成像高光谱数据，该系统主要由OFS-1700光谱仪、标准地物反射探头、联想ThinkPadE450电脑和光纤等部件组成。OFS-1700光谱仪的光谱范围为200nm-1700nm，由于光谱的首尾部分存在数据信噪比较低且波动不稳定，通常截去首尾噪声较大的光谱区域，本发明仅选取350-1655nm作为光谱研究区域。在利用OFS-1700光谱仪采集土壤高光谱数据的时候，标准地物反射探头通过光纤和光谱仪连接，反射探头里面的光源发出的光经土壤反射进入到光谱仪，光谱仪中的传感器对反射进来的光做出响应，仪器内部把土壤反射的光转换成为亮度值(DN值)，再通过Uspectral-RIT软件把光谱仪采集到的DN值(注意：即亮度值，这里光谱仪测得的直接数据是土壤的亮度值)以txt文件的形式保存下来，txt文件里面包括两项内容，第一列是各个波长点的波长数值，第二列则是每个波长点所对应的DN值。在每个土壤样本测量之前首先对光谱仪进行一次标准白板校正，并且分别保存白板在信号明和信号暗时的DN值文件，然后利用上述同样的方法对土壤样本进行光谱测量，保存下土壤样本在信号明和信号暗时的DN值文件，再通过公式计算得到土壤光谱反射率数据。

反射率计算公式：

式中：R表示被测样本反射率值，S_样本明表示把探头放在被测物体上，开灯状况下的DN值数据，S_样本暗表示把探头放在被测物体上，关灯状况下的DN值数据，S_标准明表示把探头放在标准白板上，开灯状况下的DN值数据，S_标准暗表示把探头放在标准白板上，关灯状况下的DN值数据。

(2)对采集的土壤样本进行土壤相关理化参数的测量。

采集的土壤样本数据送到了安徽农业大学资源与环境学院，并由专业人员测量土壤相关的理化参数。

(3)采用本发明的VIS-NIR光谱模型对土壤样本光谱进行预测分析，获得土壤有效硼含量预测数值，与通过土壤参数测量获得的有效硼含量进行对比，验证本发明的预测可靠性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种高光谱土壤有效硼含量预测方法，其特征在于，包括以下具体步骤：

步骤1：采集土壤可见近红外高光谱数据；

步骤2：测定土壤有效硼实际理化值含量；

步骤5：对Transformer模型输入数据进行Encoder编码；

步骤6：对Transformer模型输出数据进行Decoder解码；

步骤7：将频域特征与时域特征融合；

2.根据权利要求1所述的一种高光谱土壤有效硼含量预测方法，其特征在于，所述步骤3中预处理过程为：首先对所述土壤可见近红外高光谱数据去噪处理，删除噪声和无效波段；然后采用去趋势校正方法将去噪高光谱数据进行去趋势校正处理。

3.根据权利要求1所述的一种高光谱土壤有效硼含量预测方法，其特征在于，所述步骤4中确定Transformer网络结构，采用了分层Transformer结构，将光谱数据按波长范围划分为不同层次，分别进行特征提取和信息融合。这种分层处理可以更有效地捕捉不同波长下的光谱特征，提高模型的泛化能力。

4.根据权利要求1所述的一种高光谱土壤有效硼含量预测方法，其特征在于，所述步骤5中对Transformer模型输入数据进行Encoder编码，在高光谱数据处理中，Transformer编码器可以通过多层自注意力和前馈神经网络来提取高光谱数据的特征表示。

将所述模型高光谱数据序列嵌入到固定长度的向量空间中，作为Transformer编码器的输入，构建VIS-NIR光谱模型。对于高光谱数据中的每个光谱通道，都可以看作是一个时间序列中的一个时间步，因此可以将光谱数据看作是一个时间序列，并将其输入到Transformer编码器中进行处理。此外，可以将光谱数据的空间信息通过多通道的输入方式引入，提升模型的表达能力。

然后，Transformer编码器中的多层自注意力机制可以学习高光谱数据中不同光谱通道之间的依赖关系，以及通道之间的相对位置关系。同时，通过使用位置编码来维护光谱通道之间的位置信息，Transformer编码器能够更好地处理光谱数据序列的顺序性。每个自注意力层之后，通过前馈神经网络来提取光谱数据中更高层次的特征表示。在多个自注意力层之后，编码器的输出是高光谱数据的特征表示，这些特征表示可以用于后续任务，例如分类、聚类等。此外，可以通过加入Transformer的解码器模块，实现高光谱数据的自动编码器，对于异常检测、去噪等任务有着广泛的应用。因此，Transformer编码器可以是处理高光谱数据的一种强有力的工具。

5.根据权利要求1所述的一种高光谱土壤有效硼含量预测方法，其特征在于，所述步骤6中对Transformer模型输出数据进行Decoder解码，在高光谱数据的预测任务中，可以使用Transformer中的解码器来生成高光谱数据序列的预测结果。

解码器的输入是目标序列的嵌入表示和编码器的输出，目标序列的嵌入表示可以通过将目标序列中的每个元素映射到一个固定长度的向量空间中来获得，这里的目标序列是指待预测的高光谱数据序列。而编码器的输出则可以提供上下数据信息，帮助解码器更好地预测高光谱数据序列。解码器中也使用了多层自注意力机制和前馈神经网络，用于提取目标序列和编码器输出中的关键特征表示。

与编码器不同的是，解码器还引入了另一种注意力机制，即编码-解码注意力机制。这种注意力机制能够让解码器更好地关注编码器输出中与当前预测步骤相关的信息，从而提升模型的预测性能。在每个预测步骤中，解码器都会基于目标序列的嵌入表示和之前的预测结果来生成当前步骤的预测结果。

具体地，解码器会根据当前的目标序列嵌入表示和之前的预测结果，计算出当前预测步骤的自注意力表示，并使用编码-解码注意力机制将其与编码器的输出进行结合，生成当前预测步骤的向量。

6.根据权利要求1所述的一种高光谱土壤有效硼含量预测方法，其特征在于，所述步骤7中对频域特征与时域特征融合，在模型中引入了频域特征融合模块，通过对光谱数据进行快速傅里叶变换，提取频域特征并与时域特征进行融合。这样可以更好地捕捉光谱数据中的细微变化，提高模型的预测性能。

7.根据权利要求1所述的一种高光谱土壤有效硼含量预测方法，其特征在于，所述步骤8中对待预测土壤高光谱数据输入所述土壤有效硼含量预测模型获得土壤有效硼含量，通过前馈神经网络将上下数据向量转化为预测结果，在高光谱数据的预测任务中，可以将解码器的输出作为生成的特征高光谱数据序列以预测有效硼含量。