CN116403048B

CN116403048B - 一种基于多模态数据融合的农作物生长估计模型构建方法

Info

Publication number: CN116403048B
Application number: CN202310407119.XA
Authority: CN
Inventors: 王玲; 李俊生; 任荣荣; 吴国龙; 刘劼
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2024-03-26
Anticipated expiration: 2043-04-17
Also published as: CN116403048A

Abstract

一种基于多模态数据融合的农作物生长估计模型构建方法，属于农作物识别技术领域。为解决农作物生长过程中针对多种农作物普遍适用且估计准确的问题。本发明构建农作物图像训练集、农作物图像测试集、传感器数据训练集，传感器数据测试集；利用线性投影方法，将农作物图像训练集中的农作物图像输入卷积神经网络进行图像特征提取，利用传感器感知机方法，将传感器数据训练集中的传感器数据输入多层感知机神经网络进行传感器数据特征提取，利用Transformer编码器融合后进行拼接处理，然后经过池化、线性变换后输出为农作物生长评价指标，进行多模态数据融合的农作物生长估计。本发明适用于多种作物，大大减少了重新训练网络的时间。

Description

一种基于多模态数据融合的农作物生长估计模型构建方法

技术领域

本发明属于农作物识别技术领域，具体涉及一种基于多模态数据融合的农作物生长估计模型构建方法。

背景技术

农作物生长建模是实时精准农业的重要一环。生长阶段信息可以帮助人们分析农作物生长过程与农业气象条件之间的关系，从而为作物增产提供高效的农业服务。

农作物生长包括作物生长状况与变化趋势，可用个体与群体特征描述。个体特征是作物自身组成与结构特性参数，描述作物个体特征。群体特征主要是指作物生长态势在一定空间范围内的整体分布情况，描述作物群体特征参数。不同品种作物在不同地区和生长期有不同的个体特征和群体特征。快速获取作物个体及群体特征，了解并掌握作物的生长状况，可以为农业生产精准管理与产量估计提供支撑。现有技术如下：

传统方法：常规地面观测。以定点定期观测为主，定期观测农作物发育期、生长状况、生长量等，并实时上传观测数据，以实时苗情、发育期进度与常年对比等形式开展全国范围内的农作物生长监测评估。卫星遥感监测。主要利用卫星遥感反演的农作物参数，如归一化植被指数或叶面积指数，实现作物生长状况、产量及动态变化大范围宏观、快速监测。现有遥感图像数据与农作物的叶面积指数数据同化，用来改进农作物生长建模，以提高其在区域尺度上农作物生长建模的可靠性。传统农作物生长建模方法对数据维度要求高，模型对数据敏感，如果采集直接反映农作物生长的数据，则难度高，成本高。

通过农作物图像检测：用于从高空间分辨率(通常是近端图像)中提取关键谷类作物生长指标的图像处理技术。通过将相机放置在树冠上方，可以获得高分辨率图像。无人驾驶飞行器(UAV或无人机)技术的最新进展已经实现了经济实惠的低空、高分辨率图像采集。无人机可以在几分钟内获得整个场地的高分辨率图像测量，数据采集更加容易。与遥感卫星手段类似，无人机的监测同样存在精度和数据标注的难题。应用CNN模型通过使用从无人驾驶飞行器(UAV)获得的NDVI和RGB图像来完成农作物生长建模。但是仅图像收集的数据容易受环境因素影响，没有考虑到气象、土壤等外在因素。

通过传感器数据完成农作物生长建模：很多研究都集中在无人机或卫星遥感采集的多尺度作物图像上，用于农作物生长和产量估计。这些图像数据反映了作物的表型特征。作物表型的动态变化，如叶面积指数，被用来估计大区域的作物生长。但是存在以下问题：

数据不确定性问题：传统的机理模型需要大量的实测数据来进行模拟和估计，但实测数据本身也存在不确定性。例如，由于传感器故障或数据采集不完整等原因，实测数据可能会存在误差或缺失，这会影响机理模型的精度和可靠性。

数据质量问题：机理模型需要高质量的实测数据来对模型参数进行估计和优化，但实测数据质量不高可能会导致模型参数的误差和偏差，进而影响模型的应用效果。此外，如果实测数据的质量不同，那么模型的适用范围和精度也会受到影响。

数据缺失问题：由于各种原因，如传感器故障、天气原因等，实测数据可能存在缺失。在这种情况下，需要通过一定的方法来对缺失数据进行填补，以保证模型的可靠性和精度。但是，填补后的数据可能会存在偏差或误差，这会影响机理模型的精度和可靠性。

数据量问题：机理模型需要的数据量通常很大，涉及的因素也比较多，包括土壤性质、气象数据、植物生理数据等。如果数据量不足，可能会影响模型的应用效果和精度。

数据共享问题：机理模型需要的数据可能来自不同的来源，这些数据的共享和整合也是一个难点。在数据共享和整合的过程中，需要考虑数据的一致性和可比性，以保证模型的可靠性和精度。但是，由于各种原因，数据共享和整合可能会存在困难，这会影响机理模型的应用效果和精度。

发明内容

本发明要旨在解决农作物生长过程中针对多种农作物普遍适用且估计准确的问题，提出一种基于多模态数据融合的农作物生长估计模型构建方法。

为实现上述目的，本发明通过以下技术方案实现：

一种基于多模态数据融合的农作物生长估计模型构建方法，包括如下步骤：

S1、采集农作物图像及对应的传感器数据，将采集的农作物图像及对应的传感器数据进行预处理和清洗，得到农作物图像训练集、农作物图像测试集、传感器数据训练集，传感器数据测试集；

S2、利用线性投影方法，将步骤S1得到的农作物图像训练集中的农作物图像输入卷积神经网络进行图像特征提取，输出为农作物图像特征图；

S3、利用传感器感知机方法，将步骤S1得到的传感器数据训练集中的传感器数据输入多层感知机神经网络进行传感器数据特征提取，输出为传感器特征图；

S4、利用Transformer编码器融合方法，将步骤S2得到的农作物图像特征图、步骤S3得到的传感器特征图输入Transformer编码器进行循环处理，输出Transformer编码器融合的农作物图像特征图、Transformer编码器融合的传感器特征图；

S5、将步骤S4得到的Transformer编码器融合的农作物图像特征图、Transformer编码器融合的传感器特征图进行拼接处理，然后经过池化、线性变换后输出为农作物生长评价指标为，进行多模态数据融合的农作物生长估计。

进一步的，步骤S1采集农作物图像的方法为采取固定相机拍摄，设置拍摄图像格式为jpg、分辨率为3840*2160，每一种作物固定3-6个点位，以俯视的角度拍摄农作物，拍摄高度设置为3-3.5米，每次拍摄的时间间隔为1-2小时。

进一步的，步骤S1采集传感器数据的时间和采集农作物图像的时间对应一致，采集传感器数据包括二氧化碳浓度、距地表10cm的土壤温度、距地表20cm的土壤温度、距地表30cm的土壤温度、距地表40cm的土壤温度、距地表50cm的土壤温度、距地表10cm的土壤湿度、距地表20cm的土壤湿度、距地表30cm的土壤湿度、距地表40cm的土壤湿度、距地表50cm的土壤湿度、空气湿度、PM10、PM2.5、空气压强、光照强度、空气温度、风向、风速。

进一步的，步骤S2所述卷积神经网络为由卷积层、池化层、全连接层和非线性激活函数组成的多层神经网络，每个卷积层都由768个卷积核组成，每个卷积核用于提取输入农作物图像中的一种特征，卷积核在输入的农作物图像上进行滑动并计算卷积操作，得到一张特征图，通过768个卷积核的组合，提取农作物图像中的不同的生长特征，输出农作物图像特征图，计算公式为：

I'＝Conv(I)

其中I'为输出的农作物图像特征图，I为输入的农作物图像，Conv为卷积运算。

进一步的，步骤S3的具体实现方法包括如下步骤：

S3.1、所述多层感知机神经网络由输入层、3个隐藏层和输出层组成，将步骤S1得到的传感器数据在输入层首先与权重矩阵相乘，然后加上偏置项，得到线性组合的结果，接着，线性组合的结果通过激活函数进行非线性变换，得到该层的输出，该层的输出又作为下一层的输入，重复上述过程，直到输出层输出传感器特征图；

激活函数的表达式为：

f(x)＝max(0,x)

多层感知机神经网络通过前向传播计算输出层的输出，前向传播的计算表达式为：

h^(l)＝f(W(l)h(l-1)+b^(l))

其中，h^(l)表示第l层的输出，W^(l)和b^(l)分别表示第l层的权重矩阵和偏置项，f表示激活函数；

S3.2、然后所述多层感知机神经网络通过反向传播算法计算损失函数对权重和偏置的偏导数，并利用梯度下降法对权重和偏置进行更新，从而最小化损失函数，设置L表示损失函数，h^(l)表示第l层的输出，则损失函数对第l层参数的梯度的计算表达式为：

其中，表示损失函数对第l层输出的梯度，通过计算损失函数对第l+1层输出的梯度得到，/>表示第l层输出对第l层权重矩阵的梯度。

进一步的，步骤S4的Transformer编码器融合方法包括多头交叉注意力机制、多层感知机神经网络、归一化运算，具体实现方法包括如下步骤：

S4.1、首先将步骤S2得到的农作物图像特征图、步骤S3得到的传感器特征图输入多头交叉注意力机制中进行归一化运算、特征融合，输出农作物图像注意力机制特征图、传感器注意力机制特征图；

S4.2、将步骤S4.1得到的农作物图像注意力机制特征图、传感器注意力机制特征图输入多层感知机神经网络归一化运算、特征融合，最终输出相同维度的Transformer编码器融合的农作物图像特征图、Transformer编码器融合的传感器特征图；

Transformer编码器融合方法循环迭代12次，具体计算过程表达式为：

I_attn,S_attn＝MHCA(I_in,S_in)

I_out＝MLP(LN(I_in·I_attn))+I_in·I_attn

S_out＝MLP(LN(S_in·S_attn))+S_in·S_attn

其中，I_in是农作物图像的特征图的输入，I_out为农作物图像特征图的输出，S_in为传感器特征图的输入，S_out为传感器特征图的输出，I_attn为农作物图像注意力机制特征图，S_attn为传感器注意力机制特征图，I_out为Transformer编码器融合的农作物图像特征图，S_out为Transformer编码器融合的传感器特征图。

进一步的，步骤S4.1多头交叉注意力机制的具体实现方法为分为图像注意力特征图计算和传感器注意力特征图计算，图像注意力特征图计算使用传感器特征图作为query(Q)，使用农作物图像特征图作为查询的目标key(K)，使用查询到的结果来更新目标参数value(V)，传感器注意力特征图计算则使用农作物图像特征图作为query(Q')，传感器特征图作为查询的目标key(K'),使用查询到的结果来更新目标参数value(V')，具体计算过程表达式为：

Q＝SW_q,K＝IW_k,V＝IW_v

Q′＝IW′_q,K′＝SW′_k,V′＝SW′_v

其中，I为农作物图像特征图，S为传感器特征图，W_q,W_k,W_v分别代表Q、K、V所对应的参数矩阵，W'_q,W'_k,W'_v分别代表Q'、K'、V'所对应的参数矩阵，A为农作物图像注意力特征输出，A'为传感器注意力特征输出，C和h分别为嵌入向量维度和注意力头的数量，Softmax函数为归一化指数函数。

进一步的，步骤S5中多模态数据融合的农作物生长估计的评估指标为MAE评估指标和MSE评估指标：

MAE计算估计值与真实值之差的绝对值的平均值，其计算公式为：

其中，n是样本数量，y_i是第i个样本的真实值，是第i个样本的估计值。

MSE计算估计值与真实值之差的平方的平均值，其计算公式为：

进一步的，步骤S5中所述农作物生长评价指标为叶面积指数、农作物干重、湿重、土地覆盖度、植被指数、株高、叶绿素含量中的一种。

本发明的有益效果：

本发明所述的一种基于多模态数据融合的农作物生长估计模型构建方法，是可以应用于多种农作物的普适方法；本发明利用容易采集的图像数据和传感器数据完成农作物普适生长建模，用低维度、容易采集的数据挖掘农作物生长信息。对数据的噪声和变化具有鲁棒性：本发明神经网络可以更好地处理噪声和变化，从而在使用大规模数据集时仍能保持较高的估计准确性。用低维度的数据挖掘信息：本发明神经网络可以通过端到端的学习方式直接从原始的传感器和图像数据中学习模式和特征，从而不需要预先进行特征提取和选择，无需设计复杂的机理公式。

本发明所述的一种基于多模态数据融合的农作物生长估计模型构建方法，交叉融合多种模态信息，从算法的角度优化农作物生长建模，在农作物生长方面，利用多模态数据交叉融合的算法优化可以带来以下优势：提高模型估计精度：利用多模态数据可以提供更全面、准确的农作物生长环境信息，从而提高模型的估计精度。例如，通过结合图像和气象数据，可以更准确地估计作物的生长状态和产量。提高模型鲁棒性：通过融合多种数据来源，可以降低某一数据来源的噪声或错误对模型的影响，从而提高模型的鲁棒性。例如，当气象数据出现异常时，通过结合土壤数据可以更准确地估计作物的生长状态。优化特征提取：在利用多模态数据进行特征提取时，不同类型的数据可以提供不同的特征信息，从而丰富特征空间，提高特征提取的效果。提高数据利用效率：利用多模态数据可以更充分地利用已有的数据资源，从而提高数据利用效率。例如，在没有足够的土壤数据时，可以利用气象数据和图像数据对土壤特性进行估计，从而弥补数据缺失的不足。优化多模态融合算法，通过信息的高效融合实现对农作物生长情况的准确估计。

附图说明

图1为本发明所述的一种基于多模态数据融合的农作物生长估计模型构建方法的流程图；

图2为本发明所述的一种基于多模态数据融合的农作物生长估计模型构建方法的架构示意图；

图3为本发明所述的一种基于多模态数据融合的农作物生长估计模型构建方法的多头交叉注意力机制结构示意图；

图4为本发明所述的一种基于多模态数据融合的农作物生长估计模型构建方法的Transformer编码器融合方法架构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明，即所描述的具体实施方式仅仅是本发明一部分实施方式，而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计，本发明还可以具有其他实施方式。

因此，以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

为能进一步了解本发明的发明内容、特点及功效，兹例举以下具体实施方式，并配合附图1-附图4详细说明如下：

具体实施方式一：

进一步的，步骤S1采集农作物图像的方法为采取固定相机拍摄，设置拍摄图像格式为jpg、分辨率为3840*2160，每一种作物固定3-6个点位，以俯视的角度拍摄农作物，拍摄高度设置为3-3.5米，每次拍摄的时间间隔为1-2小时；

进一步的，步骤S1采集传感器数据的时间和采集农作物图像的时间对应一致，采集传感器数据包括二氧化碳浓度、距地表10cm的土壤温度、距地表20cm的土壤温度、距地表30cm的土壤温度、距地表40cm的土壤温度、距地表50cm的土壤温度、距地表10cm的土壤湿度、距地表20cm的土壤湿度、距地表30cm的土壤湿度、距地表40cm的土壤湿度、距地表50cm的土壤湿度、空气湿度、PM10、PM2.5、空气压强、光照强度、空气温度、风向、风速；

表1采集传感器数据列表

I'＝Conv(I)

其中I'为输出的农作物图像特征图，I为输入的农作物图像，Conv为卷积运算；

进一步的，步骤S3的具体实现方法包括如下步骤：

激活函数的表达式为：

f(x)＝max(0,x)

h^(l)＝f(W(l)h(l-1)+b^(l))

其中，表示损失函数对第l层输出的梯度，通过计算损失函数对第l+1层输出的梯度得到，/>表示第l层输出对第l层权重矩阵的梯度；

Q＝SW_q,K＝IW_k,V＝IW_v

Q′＝IW′_q,K′＝SW′_k,V′＝SW′_v

其中，I为农作物图像特征图，S为传感器特征图，W_q,W_k,W_v分别代表Q、K、V所对应的参数矩阵，W'_q,W'_k,W'_v分别代表Q'、K'、V'所对应的参数矩阵，A为农作物图像注意力特征输出，A'为传感器注意力特征输出，C和h分别为嵌入向量维度和注意力头的数量，Softmax函数为归一化指数函数；

Iattn,Sattn＝MHCA(Iin,Sin)

Iout＝MLP(LN(Iin·Iattn))+Iin·Iattn

Sout＝MLP(LN(Sin·Sattn))+Sin·Sattn

其中，Iin是农作物图像的特征图的输入，I_out为农作物图像特征图的输出，Sin为传感器特征图的输入，Sout为传感器特征图的输出，Iattn为农作物图像注意力机制特征图，Sattn为传感器注意力机制特征图，Iout为Transformer编码器融合的农作物图像特征图，Sout为Transformer编码器融合的传感器特征图；

S5、将步骤S4得到的Transformer编码器融合的农作物图像特征图、Transformer编码器融合的传感器特征图进行拼接处理，然后经过池化、线性变换后输出为农作物生长评价指标，进行多模态数据融合的农作物生长估计；

本实施方式所述的一种基于多模态数据融合的农作物生长估计模型构建方法，具有普适性，交叉融合能从多模态数据中提取农作物生长的基本信息，适用于多种作物，大大减少了重新训练网络的时间，从而降低时间成本。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然在上文中已经参考具体实施方式对本申请进行了描述，然而在不脱离本申请的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本申请并不局限于文中公开的特定具体实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，包括如下步骤：

步骤S4的Transformer编码器融合方法包括多头交叉注意力机制、多层感知机神经网络、归一化运算，具体实现方法包括如下步骤：

I_attn,S_attn＝MHCA(I_in,S_in)

I_out＝MLP(LN(I_in·I_attn))+I_in·I_attn

S_out＝MLP(LN(S_in·S_attn))+S_in·S_attn

其中，I_in是农作物图像的特征图的输入，I_out为农作物图像特征图的输出，S_in为传感器特征图的输入，S_out为传感器特征图的输出，I_attn为农作物图像注意力机制特征图，S_attn为传感器注意力机制特征图；

S5、将步骤S4得到的Transformer编码器融合的农作物图像特征图、Transformer编码器融合的传感器特征图进行拼接处理，然后经过池化、线性变换后输出为农作物生长评价指标，进行多模态数据融合的农作物生长估计。

2.根据权利要求1所述的一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，步骤S1采集农作物图像的方法为采取固定相机拍摄，设置拍摄图像格式为jpg、分辨率为3840*2160，每一种作物固定3-6个点位，以俯视的角度拍摄农作物，拍摄高度设置为3-3.5米，每次拍摄的时间间隔为1-2小时。

3.根据权利要求1或2所述的一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，步骤S1采集传感器数据的时间和采集农作物图像的时间对应一致，采集传感器数据包括二氧化碳浓度、距地表10cm的土壤温度、距地表20cm的土壤温度、距地表30cm的土壤温度、距地表40cm的土壤温度、距地表50cm的土壤温度、距地表10cm的土壤湿度、距地表20cm的土壤湿度、距地表30cm的土壤湿度、距地表40cm的土壤湿度、距地表50cm的土壤湿度、空气湿度、PM10、PM2.5、空气压强、光照强度、空气温度、风向、风速。

4.根据权利要求3所述的一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，步骤S2所述卷积神经网络为由卷积层、池化层、全连接层和非线性激活函数组成的多层神经网络，每个卷积层都由768个卷积核组成，每个卷积核用于提取输入农作物图像中的一种特征，卷积核在输入的农作物图像上进行滑动并计算卷积操作，得到一张特征图，通过768个卷积核的组合，提取农作物图像中的不同的生长特征，输出农作物图像特征图，计算公式为：

I′＝Conv(I)

其中I′为输出的农作物图像特征图，I为输入的农作物图像，Conv为卷积运算。

5.根据权利要求4所述的一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，步骤S3的具体实现方法包括如下步骤：

S3.1、所述多层感知机神经网络由输入层、3个隐藏层和输出层组成，将步骤S1得到的传感器数据在输入层首先与权重矩阵相乘，然后加上偏置项，得到线性组合的结果，接着，线性组合的结果通过激活函数进行非线性变换，得到本层的输出，本层的输出又作为下一层的输入，重复以上过程，直到输出层输出传感器特征图；

激活函数的表达式为：

f(x)＝max(0,x)

h^(l)＝f(W^(l)h^(l-1)+b^(l))

其中，h^(l)表示第l层的输出，W^(l)和b^(l)分别表示第l层的权重矩阵和偏置项，f表示激活函数，h^(l-1)表示第l-1层的输出；

6.根据权利要求5所述的一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，步骤S4.1多头交叉注意力机制的具体实现方法为分为图像注意力特征图计算和传感器注意力特征图计算，图像注意力特征图计算使用传感器特征图作为Q，使用农作物图像特征图作为图像注意力特征图查询的目标K，使用农作物图像特征图查询到的结果来更新图像注意力特征图目标参数V，传感器注意力特征图计算则使用农作物图像特征图作为Q′，使用传感器特征图作为传感器注意力特征图查询的目标K′，使用传感器特征图查询到的结果来更新传感器注意力特征图目标参数V′，具体计算过程表达式为：

Q＝SW_q,K＝IW_k,V＝IW_v

Q′＝IW′_q,K′＝SW′_k,V＝SW′_v

其中，I为农作物图像特征图，S为传感器特征图，W_q,W_k,W_v分别代表Q、K、V所对应的参数矩阵，W′_q,W′_k,W′_v分别代表Q′、K′、V′所对应的参数矩阵，A为农作物图像注意力特征输出，A′为传感器注意力特征输出，C和h分别为嵌入向量维度和注意力头的数量，Softmax函数为归一化指数函数。

7.根据权利要求6所述的一种基于多模态数据融合的农作物生长估计模型构建方法，其特征在于，步骤S5中所述农作物生长评价指标为叶面积指数、农作物干重、湿重、土地覆盖度、植被指数、株高、叶绿素含量中的一种。