CN114913406A

CN114913406A - 一种基于光学特性参数反演的叶绿素含量估测方法

Info

Publication number: CN114913406A
Application number: CN202110128301.2A
Authority: CN
Inventors: 王浩云; 徐焕良; 曹雪莲; 王江波
Original assignee: Nanjing Agricultural University
Current assignee: Nanjing Agricultural University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-08-16
Anticipated expiration: 2041-01-29
Also published as: CN114913406B

Abstract

本发明公开了一种基于光学特性参数反演的叶绿素含量估测方法，它包括以下步骤：(1)、构建基于面光源的叶片模型进行光子传输模拟，获得仿真光谱图像；(2)、将仿真光谱图像输入卷积神经网络进行训练，得到预训练模型；(3)、基于预训练模型，在实测光谱数据上进行最大均值差异MMD迁移，获得训练全部层的光学参数反演模型；(4)、利用MMD迁移得到的光学参数反演模型进行叶片叶绿素含量估测。基于MMD迁移的绿萝叶片光学参数反演方法，与普通模型迁移方法相比，具有更好的性能。

Description

一种基于光学特性参数反演的叶绿素含量估测方法

技术领域

本发明涉及优质栽培领域，尤其涉及一种基于光学特性参数反演的叶绿素含量估测方法。

背景技术

绿萝是优良的室内观叶植物，除了其自身的观赏价值，对净化室内化学污染也有重要作用，而叶绿素含量作为影响植物光合作用的重要因素，是评价绿色植物生长状况的关键指标。因此实现绿萝叶绿素含量快速检测，对于改善室内空气污染问题具有重要意义。叶绿素含量检测方法可分为有损的化学检测和无损检测两类，无损检测方法主要是使用叶绿素测量仪和高光谱成像技术。传统的化学手段存在耗时、费力、时效性差、破坏植物体结构等缺陷，适用性差。叶绿素测量仪操作便捷，但因只能对局部点光谱进行分析，无法完整获取叶片或冠层整体的叶绿素信息，在实际应用中仍存在较大局限性。

基于光谱的分析技术结合了光谱和图像信息，可以实现快速、非破坏的测量，近年来使用最为广泛。其中光谱仪因其便携、快速、无损的优势，被广泛应用，但由于便携式光谱仪采用点光源测量方式，从样本中获取的光谱信息有限。而由高光谱相机拍摄的高光谱图像同时包含大量图像信息和光谱信息，弥补了传统光谱仪和数字摄像头在获取图像信息上的不足，在农业工程领域已得到广泛的应用研究。

如今应用的高光谱检测叶绿素含量的方法，大多通过构建简单模型将光谱图像与叶绿素含量直接关联，忽略了植物组织内部对光的吸收和散射，无法表达整个植物组织内部叶绿素含量的完整信息。因此，在使用光谱技术进行分析时有必要研究光在植物组织中的传输机理，将光谱信息和光学特性参数结合可以弥补单一光谱信息的不足。强散射生物组织光学特性参数的重构[J].湖北大学学报(自然科学版),2006,28(1):45-47使用遗传退火算法重构光学特性参数，得到μ_a和μ_s的反演误差分别为8％和0.1％，但该方法采用的是传统算法，考虑使用深度学习方法能够挖掘到更多特征信息。生物组织光学模型的蒙特卡罗模拟研究[D].武汉理工大学,2013利用BP神经网络反演多层模型的光学特性参数，双层平板模型的误差为1.84％，三层平板模型的误差为1.73％，得到比线性拟合和微扰蒙特卡洛方法更高的预测精度。深度学习方法在光学特性参数反演中表现突出，但该方法依赖大量样本进行模型训练，需要投入较多人力物力以获取数据。基于迁移学习和Mask R-CNN的稻飞虱图像分类方法[J].农业机械学报,2019,50(07):201-207.DOI:10.6041/j.issn.1000-1298.2019.07.021、基于迁移学习的卷积神经网络植物叶片图像识别方法[J].农业机械学报,2018,49(S1):354-359.DOI:10.6041/j.issn.1000-1298.2018.S0.047和基于卷积神经网络与迁移学习的油茶病害图像识别[J].农业工程学报,2018,34(18):194-201.DOI:10.11975/j.issn.1002-6819.2018.18.024将迁移学习应用到图像识别领域中，获得比直接训练更好的效果。但以上方法存在一定缺陷，当实测数据较少时会导致结果不够准确，因此提出仿真方法生成与实测数据分布存在较大相似性的样本用于预训练模型的训练。基于迁移学习的卷积神经网络玉米病害图像识别[J].农业机械学报,2020,51(02):230-236+253.DOI:10.6041/j.issn.1000-1298.2020.02.025采用不同训练方式将VGG-16模型迁移到玉米病害图像中，迁移学习减少了数据数量要求，但源数据集与玉米病害样本差距较大，简单的参数微调很难达到较优的效果，增加分布差异度量方法可以提升模型性能。

发明内容

本发明针对现有技术中存在的问题，提出了一种基于光学特性参数反演的叶绿素含量估测方法。

技术方案：

基于光学特性参数反演的叶绿素含量估测方法，包括以下步骤：

(1)构建基于面光源的叶片模型进行光子传输模拟，获得仿真光谱图像。仿真方法使得获取的源域样本与实测样本分布更为相似，且面光源较之点光源手段可以获取更多光谱和图像信息；

(2)将仿真光谱图像输入卷积神经网络进行训练，得到预训练模型。深度学习方法与传统方法相比可以提取到更多的特征信息；

(3)基于预训练模型，在实测光谱数据上进行MMD迁移。MMD迁移方法与模型迁移相比能更好的提升模型性能，且线性方法在不影响模型性能的前提下，减轻了计算负担；

(4)利用MMD迁移得到的深度特征进行叶片叶绿素含量估测，较之传统的光谱手段，检测效果有较大提升。

步骤(1)中，构建基于面光源的叶片模型进行光子传输模拟，具体步骤如下：

(1.1)光子发射：光子从平面中随机坐标位置垂直发射到组织表面，光子移动随机步长，转入(1.2)；

(1.2)基于吸收系数ua和散射系数us计算步长和方向，同时进行越界判断(1.3)；

(1.3)判断光子是否越界，越界则转入步骤(1.4b)，否则转入步骤(1.4a)；

(1.4a)根据光子的当前位置、步长和方向确定光子的下一个位置，转入(1.5)；

(1.4b)边界上的反射和透射：当光子到达组织的上下表面，如果被边界反射回组织，转入(1.5)；否则光子逃逸出组织则停止对该光子的追踪；

(1.5)判断光子权重是否过小，是则转入(1.6)，否则转入(1.2)；

(1.6)进行俄罗斯轮盘赌：生成一个随机数，大于阈值则判定光子死亡，否则更新光子权重并转入(1.2)；

(1.7)取大量光子和不同叶片厚度d、不同光学特性参数组合(d，ua，us)；重复步骤(1.1)-(1.6)，获得多幅仿真叶片光谱图像。(1.5)判断光子权重是否过小，是则转入(1.6)，否则转入(1.2)；

步骤(2)中，得到预训练模型，具体步骤如下：

从仿真叶片光谱图像中抽取10000幅图像作为训练集，2000幅图像作为测试集，将训练集输入卷积神经网络中进行训练，根据测试集效果调整网络参数并得到一个稳定的预训练模型。预训练网络结构包括：

第1层为卷积层，卷积核尺寸为2×2，通道数为10，步长为1；

第2层为卷积层，卷积核尺寸为3×3，通道数为20，步长为1；

第3层为平均池化层，池化窗口尺寸2×2，步长为1；

第4层为卷积层，卷积核尺寸为2×2，通道数为20，步长为1；

全连接层FC1将第4层网络的输出降维到1×50；

最后是网络输出层。

步骤(3)中，进行MMD迁移，具体步骤为：

实际测量获得3000幅叶片光谱图像，以4:1的比例划分训练集和测试集，将实测数据训练集输入步骤(2)得到的预训练模型中，在网络的全连接层之后增加分布匹配度量，由交叉熵损失和MMD度量损失共同构成网络的损失函数，使用反向传播算法对神经网络进行参数调整，完成预训练模型在实测数据上的迁移。迁移学习方法缩短了模型的收敛时间，解决了必须获取大量实测数据才能提升模型性能的问题，引入MMD思想使得迁移得到的网络具有更好的效果。

步骤(4)中，进行叶片叶绿素含量估测，具体步骤为：

将实测叶片光谱图像输入步骤(3)迁移完成的卷积神经网络中，得到其全连接层特征，即结合了光谱和光参的深度特征，采用偏最小二乘回归方法，将该特征作为输入构建叶绿素含量回归模型，实现叶片的叶绿素含量估测。

本发明的有益效果

(1)与用实测数据直接训练相比，迁移学习方法缩短了模型收敛时间，解决了实测数据不足导致的网络模型效果不佳的问题，提升了网络识别的准确率。基于MMD迁移的绿萝叶片光学参数反演方法，与普通模型迁移方法相比，具有更好的性能。

(2)基于面光源的蒙特卡洛模拟方法获取的数据与实测数据具有相似的特征分布，使得实际所需样本数量减少，降低了获取大量实测样本造成的人力物力成本消耗。而且面光源与点光源相比能够获得更多图像和光谱信息，进一步提升模型的鲁棒性。

(3)利用迁移学习方法得到的深度光学参数特征建立绿萝叶绿素含量回归模型，结果优于高光谱图像和光学参数直接关联叶绿素含量，证明了光学参数反演方法的有效性和必要性。

(4)最大均值差异MMD迁移计算中，本申请考虑到仿真数据与实测数据的分布差异，采用线性嵌入法，在保证领域间样本充分适配的同时，减轻计算负担。

附图说明

图1为实施例中采用HSI-VNIR-0001高光谱成像系统获取绿萝叶片高光谱图像示意图

图2为实施例中仿真光子分布图

图3为实施例中预训练网络模型网络结构图

图4为实施例中卷积神经网络的训练损失曲线图

图5(a)为实施例中在400～900nm范围内的高光谱原始图像

图5(b)为实施例中经过S-G平滑预处理后的高光谱图像

图6(a)为实施例中利用光学参数构建预测模型的预测结果

图6(b)为实施例中利用SPA筛选的高光谱数据构建预测模型的预测结果

图6(c)为实施例中利用迁移得到的深度特征构建预测模型的预测结果

具体实施方式

下面结合实施例对本发明作进一步说明并验证方案的有益效果，但本发明的保护范围不限于此：

1实验数据获取

1.1实测数据获取

1.1.1试验样本

实验对象为长藤绿萝，选取20盆长势相当的绿萝为样本，分别从每盆绿萝植株四周均匀采集叶片共10片，总计200个绿萝叶片。为避免时间过长导致叶片水分流失或叶绿素高温见光分解，叶片采摘后立即进行实验数据采集。

1.1.2绿萝叶片高光谱数据采集

采用HSI-VNIR-0001高光谱成像系统获取绿萝叶片高光谱图像，结构如图1所示，该成像系统主要包含CCD相机1、光谱仪2、成像镜头3、光源4、移动载物台5、样本6和计算机及配套的光谱成像和分析软件，光谱采集波长范围为375.54～1033.87nm。消除前后噪声波段后，高光谱有效波长范围设置为400～900nm，共468个波段。

1.1.3绿萝叶片积分球数据采集

采用上海五铃光电科技有限公司的双积分球系统采集绿萝叶片的反射率与透射率，双积分球系统主要由透射球、反射球、光纤、光源、光谱仪、计算机和相应配套软件组成。由双积分球系统获得叶片的反射率和透射率后，利用IAD算法通过迭代计算来确定绿萝叶片的光学特性参数，最终得到绿萝叶片的吸收系数μ_a(0.01～6mm^-1)和散射系数μ_s(0.9～150mm^-1)。

1.1.4绿萝叶片叶绿素值采集

采用便携式SPAD-502型叶绿素仪采集绿萝样本的叶绿素含量数据。为避免仪器本身存在测量误差，在每次测量前对设备进行校准处理。设备校准后，使用设备选取生长发育正常的绿萝植株叶片，对2×2(像素数)的矩形区域进行测量，在同一区域测量三次取平均值作为该区域的叶绿素值。

1.2基于面光源的单层平板模型蒙特卡洛仿真

Monte Carlo方法是一种模拟抽样或统计试验方法，其基本思想是首先通过一系列随机数来模拟与实际情况类似的随机过程或者概率模型，再进行抽样实验计算相关参数，最后得到近似解。实践表明，MC方法能够最有效的描述光子在组织中的传输过程，与实际测量的参数基本一致，因此已经成为光在生物组织传输的一种非实验标准。

利用蒙特卡洛方法模拟光子传输的过程参照。光束可以被看成一个一个的光子，首先当发射一个光子时，该光子会随机移动一个步长，接着与组织中的微小颗粒发生吸收和散射作用。散射会改变光子的运动方向，吸收会使光子的权重减小，然后光子继续移动并发生吸收散射作用。当光子从组织表面逸出时，从上表面逸出的光子形成漫反射光，从下表面逸出的光子形成透射光，当光子的权重足够小时，就会被组织吸收。最后重复这条光束中的所有光子，从而完成整个光束的蒙特卡洛模拟。

基于模型迁移的苹果光学特征参数反演[J].农业机械学报,2020构造点光源下的苹果双层平板模型，简化了复杂模型计算量。但点光源应用存在较大局限性，本文采用面光源构造蒙特卡洛平板模型模拟最真实的平行光光源下的光子传输过程。因叶片结构与单层平板结构极为接近，最终采用基于面光源的单层平板结构构建绿萝叶片的光子传输模型。根据积分球实验测得的光学特性参数设置仿真实验参数，将叶片厚度d设置为涵盖实测样本全部厚度的25个值，μ_a和μ_s分别取实测吸收系数和散射系数中均匀分布的7个和8个值，本文使用1*10⁶个光子模拟整个过程，得到光子在叶片组织表面的统计分布如图2所示。图2中从左往右分别为点光源和面光源下的模拟光子分布图，可以看出，与点光源图像相比，面光源光子分布图更亮且光子覆盖面更广，一定程度上说明了使用面光源数据可以获取更多图像和光谱信息。

2实验方法

本文提出基于迁移学习的绿萝叶片光学特性参数反演方法，并根据光参反演结果构建绿萝叶绿素含量预测模型。首先，根据实测绿萝叶片数据构建面光源下的蒙特卡洛单层平板模型，模拟光子在叶片中的运动轨迹以获得大量无噪声的理想光谱数据，再利用卷积神经网络对模拟光谱数据训练，得到预训练模型。基于训练好的模型，在神经网络的损失函数中加入仿真数据与实测数据的最大均值差异，用实测数据对网络进行微调，获得较直接训练神经网络和模型迁移都更好的反演精度。最后，利用高光谱和迁移后的模型反演光学特性参数，建立绿萝叶绿素含量预测模型，与光学参数、高光谱数据直接与叶绿素含量建立模型对比，验证了光学特性参数反演的必要性。

2.1卷积神经网络模型

卷积神经网络因其多层卷积、权值共享、旋转不变性等特点，拥有比传统方法更强的特征提取和表达能力，在图像识别分类任务中表现突出，一般由输入层、卷积层、池化层、全连接层和输出层构成。卷积神经网络可以将原始图像直接输入网络进行特征提取，卷积层和池化层是提取图像特征的重要环节，输出层将多维向量组合成一维向量输出，实现图像分类识别。

本文选择卷积神经网络进行预训练，网络结构如图3所示。网络模型包含3个卷积层、1个池化层和1个全连接层，网络输入是30×30大小的仿真叶片光亮度分布图片，第1层为卷积层，卷积核大小2×2，通道数为10，步长为1，第2层为卷积层，卷积核大小3×3，通道数为20，步长为1，第3层为池化层，池化窗口大小2×2，步长为1，第4层为卷积层，卷积核大小2×2，通道数为20，步长为1，全连接层FC1将第4层网络的输出降维到1×50，最后通过Softmax层实现光学参数分类。

2.2迁移学习

迁移学习是指利用数据、任务或模型之间的相似性，将在源领域学习到的模型应用于目标领域的一种学习过程。预训练模型中的卷积层已经可以对源域样本进行特征提取，再添加全连接层就能实现较好的分类效果。一般的模型迁移方法只需要基于预训练模型，改变最后的全连接层应用到目标数据集上，对网络进行微调就可以实现迁移学习。但该方法要求源域与目标域图像具有相同分布，忽略了两种数据的差异性，如果将二者分布差异加入模型训练中，可以提高网络的迁移能力。

本申请采用最大均值差异(Maximum mean discrepancy，MMD)进行迁移学习中的度量。两个随机变量的MMD平方距离L_mmd(F_s,F_t)：

式中，F_s和F_t分别表示源域和目标域提取的特征；M，N分别表示源域和目标域样本数量；φ表示将原始数据映射到再生希尔伯特空间的核函数；

表示源域第i个样本的特征，

表示目标域第j个样本的特征。

本文基于预训练模型引入最大均值差异的分布匹配方法，在网络的全连接层之后增加分布匹配度量，减小实测绿萝叶片光谱图像和模拟光亮度图特征分布的差异，提高网络的迁移能力。网络的交叉熵损失函数L_c为：

L_c＝λ₁L₁+λ₂L₂

式中，L₁，L₂分别表示两个任务μ_a、μ_s的交叉熵损失；λ₁，λ₂分别表示两个任务μ_a、μ_s的权重；

L为L₁，L₂的通式；m表示样本总数量，n表示任务分类类别数量，x_i表示学习到的特征向量；

和b_j分别表示第j个类别全连接层输出的权重向量和偏置项；

和

分别表示第y_i个样本的权重和偏置项。

综合上述的交叉熵损失和分布匹配度量损失，本文基于MMD的域适应方法的损失函数为：

式中，L_c表示网络的交叉熵损失函数；F_s和F_t分别表示源域和目标域提取的特征，L_mmd(F_s,F_t)表示两个随机变量的MMD平方距离，λ表示mmd损失所占的权重。

2.3绿萝叶绿素含量检测

偏最小二乘回归(Partial least squares regression，PLSR)是基于成分提取思想，可解决变量之间多重相关的问题。在本文提出的基于迁移学习的光学特性参数反演方法基础上，使用光学参数深度特征构建偏最小二乘预测模型，得到叶绿素含量回归结果，并与常规的高光谱分析方法进行对比。采用实测值与预测值之间的决定系数(R²)和均方根误差(Root mean square error，RMSE)评估预测模型的性能。R²的计算方式为：

式中，n表示样本个数；y_i，f_i表示第i个样本的实测值和预测值；y_m表示实际值的平均值。

决定系数越接近1，则模型的预测能力越好。

RMSE越小，说明模型预测能力越好，其计算方法为：

式中，n表示样本个数；y_i，f_i表示第i个样本的实测值和预测值。

3实验结果分析

3.1实验环境

实验在Python3.7.4、Tensorflow-GPU 1.13.1软件环境下完成。硬件环境中CPU采用AMD Ryzen 5 1600 Six-core Processor，主频3.2GHz；GPU采用NVIDIA GeForce RTX2080 Ti显卡。

3.2实验设计

通过蒙特卡洛仿真模型得到12000张模拟叶片光亮度分布图，对样本数据进行简单划分，其中训练集10000张、测试集2000张。通过对测试结果的分析评估对模型参数进行调整，设置批次大小为100，学习率为0.0001，训练2000次得到预训练模型。将实验采集到的3000张高光谱图像以4:1的比例划分为训练集和测试集，基于预训练网络，引入最大均值差异度量方法进行迁移学习，生成新的光学参数反演模型。在预测叶绿素含量阶段，将实测样本的光谱数据输入到训练好的模型中，得到全连接层的输出结果作为偏最小二乘的输入，得到叶绿素含量回归结果。同时为了验证本文方法的有效性，将光学参数和高光谱直接关联叶绿素含量建模与本文方法进行对比。

3.3结果与分析

3.3.1基于仿真数据的光学特性参数反演

蒙特卡洛方法模拟得到的仿真图像大小都为100dpi*100dpi，其中中心点位置为(50,50)，为了在减小计算量提高效率的同时不影响训练效果，分别取仿真图像的(21:80,21:80)，(21:50,51:80)，(21:50,21:50)，(51:80,51:80)，(51:80,21:50)作为网络的输入，反演结果如表1。

表1不同选取范围的反演结果对比

从表1可以看出，(21:80,21:80)和(51:80,51:80)获得了更好的反演结果，二者的反演效果差距不大，但更大的图像选取范围会导致模型参数以及训练和测试成本的成倍增加，考虑到模型的实用性，最终选取(51:80,51:80)区域图像对模型进行训练。

在训练网络模型之前，对数据进行归一化处理，有利于卷积神经网络进行特征提取。使用线性方法进行数据归一化，选取仿真图像的(51:80,51:80)进行模型训练，分别采用点除10，点除100，点除1000，点除10000方式，仿真数据的光学参数反演结果如表2所示，可以看出，采用点除10000的方式进行归一化效果更好。

表2归一化对预训练网络分类结果影响

采用点除10000的方式进行数据归一化，归一化结果作为卷积神经网络的输入得到预训练模型，训练损失曲线如图4所示，可以看出模型在迭代1100次以后逐渐趋于平稳。由于仿真数据是理想条件下生成的模拟数据，数值分布较为一致，训练时模型收敛快，随着迭代轮数增加损失值没有较大波动。最终仿真数据光学参数反演结果中，吸收系数和散射系数的反演准确率均达到87％以上。

3.3.2基于实测数据的光学特性参数反演

迁移学习使模型具有更好的泛化能力，且可以有效解决过拟合问题，模型迁移是最常用的迁移方法之一。分别进行非迁移学习和模型迁移，并采用不同的参数学习方式进行训练，结果如表3所示。

表3不同训练方式的光学参数反演准确率

从表3可以看出，测试准确率最低的为模型迁移只训练全连接层，原因是虽然预训练网络的卷积层已经具备提取图像特征能力，但是模拟数据和实测数据分布不完全相同，仅训练改变全连接层无法达到理想效果，训练改变全部参数则可以提升模型性能。因此，最终采用训练全部层的方式进行光学参数反演。

在模型迁移方法的基础上引入MMD度量方法，基于MMD迁移方法的反演结果为：吸收系数μa 87.55％，散射系数μs 86.67％。较之非迁移学习和简单的模型迁移，测试准确率有明显提升。

由上述结果可知，非迁移学习方法测试准确率最低，这是由于实测训练数据较少，随着训练次数增加损失值出现波动，导致最终的训练结果不理想。两种迁移学习较之非迁移学习均有更高的准确率，且大大缩短了模型收敛时间。因模拟数据与实测光谱数据仍存在一定差异，仅通过模型迁移不能达到理想效果，而基于MMD的迁移方法可以明显提高测试的准确率。

3.3.3叶绿素含量估测

S-G平滑预处理对400～900nm波段范围的绿萝叶片高光谱数据处理效果最好，可以有效消除原始高光谱图像中的噪声信息，因此采用S-G平滑方法对高光谱数据进行预处理。图5(a)为在400～900nm范围内的高光谱原始图像，数据噪声较大；图5(b)为经过S-G平滑预处理后的高光谱图像，可以看出，该方法有效的去除了数据噪声，并保证了数据的完整性，为特征波段的提取提供了良好的基础。之后使用连续投影算法SPA对特征波段进行选择，最终通过SPA算法筛选的特征波长变量个数为8个，分别为59、77、97、128、167、305、348、420。

为了验证光学参数反演方法的必要性，利用光学参数、SPA筛选的高光谱数据以及迁移得到的深度特征分别构建叶绿素含量预测模型，结果如图6所示。使用光学参数对叶绿素含量进行回归的结果为：回归相关系数R²为0.8842，均方根误差为1.7686；使用高光谱图像对叶绿素含量进行回归的结果为：回归相关系数R²为0.869，均方根误差为1.1549。而利用本文提出的迁移方法得到的深度光参特征对叶绿素含量建模的结果为：R²为0.931，均方根误差为0.8374。可以看出，结合了光谱信息和光学参数信息的深度特征效果最好。因此，由高光谱反演光学参数可以为绿萝的叶绿素含量检测提供更好的检测结果。

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。