CN115035512B

CN115035512B - 基于多模态深度学习的作物营养状态诊断方法和系统

Info

Publication number: CN115035512B
Application number: CN202210568094.7A
Authority: CN
Inventors: 蒋翠清; 车万留; 刘艳清; 王钊; 丁勇
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2023-04-18
Anticipated expiration: 2042-05-24
Also published as: CN115035512A

Abstract

本发明提供一种基于多模态深度学习的作物营养状态诊断方法和系统，涉及作物营养状态诊断技术领域。本发明实施例设计了一种多模态特征交互的多头注意力神经网络层，使得各模态信息，例如图片、文本和土壤养分信息实现相互融合，增强了多模态特征的互补性和一致性；为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度，还在LSTM网络的基础上进行改进，创新出一种模态门以自适应赋予每种模态不同的权重。多模态交互注意力机制和增加模态门的LSTM网络的模型设计，不仅实现作物生育期各模态的有机交互，而且自适应的赋予各模态不同的权重，控制每种目标模态的输出，实现作物营养状态的及时、精准、智能诊断，为大规模肥料个性化定制奠定基础。

Description

基于多模态深度学习的作物营养状态诊断方法和系统

技术领域

本发明涉及作物营养状态诊断技术领域，具体涉及一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备。

背景技术

据统计，到2050年全球粮食需求预计将增加至40亿吨，粮食供给不足问题日益迫切。作物营养状态诊断作为长期影响农业生产的关键挑战之一，及时、准确地诊断作物的营养状态，不仅可以使农户尽早采取预防措施，减轻在经济和生产上的损失，还有利于资源环境的保护。在近几十年里，有效检测作物营养状态的最常用方法是实验室化学分析，虽然化验结果精度高，但由于化验工艺复杂、检测周期长，导致其结果不利于作物施肥的瞬时调控。与此同时，随着信息科学的不断发展，图片处理、机器学习等尖端信息技术被广泛应用于精准农业，为快速、准确、非破坏性作物营养状态诊断及个性化配肥提供了强有力支撑。

现如今基于机器学习的作物诊断方法多以利用单模态信息进行营养富集与缺素诊断为主，忽略了其他模态信息的补充作用和协同价值，使得提取到的特征仅涵盖部分作物营养性状，最终导致作物诊断结果精度低，指导效果差。此外，一些研究尝试使用双模态或多模态信息时，多以一种简单拼接的方式进行模态间融合，不能有效体现模态内和模态间的交互作用，进而在一定程度上降低了多模态数据的有效性和互补性。

因此，利用多模态信息进行作物营养状态诊断时缺乏模态内、模态间的有机交互成为当下亟待解决的问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备，解决了利用多模态信息进行作物营养状态诊断时缺乏模态内、模态间的有机交互的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于多模态深度学习的作物营养状态诊断方法，包括：

S1、分别采集多模态的作物营养状态诊断数据；

S2、根据所述作物营养状态诊断数据，获取各模态特征并映射到相同维度的特征空间；

S3、根据维度相同的各模态特征，采用预设的多模态深度学习模型获取作物营养状态诊断结果；

所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层，所述多模态门控神经网络层中在输入门前增加一个模态门结构，所述S3包括：

S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层，获取不同的模态间融合结果；

S32、将不同的所述模态间融合结果输入多模态门控神经网络层，获取各模态特征的权重；

S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接，获取作物营养状态诊断级别对应的概率，所述概率用于确定最终的诊断结果。

优选的，所述多模态的作物营养状态诊断数据包括：按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据。

优选的，所述S2包括：

S21、采用卷积神经网络提取所述各作物生育期图片的第一图片特征；采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征；采用MLP提取所述土壤性状数据的第一土壤特征；

S22、根据预设的多模态特征同维基础块，将各模态特征维数标准化，分别获取相同维度的第二图片特征、第二文本特征和第二土壤特征。

优选的，所述S22中的多模态特征同维基础块的结构依次包括：

步长为2的卷积层、步长为1的卷积层、多头注意力层、步长为1的卷积层、ReLu激活层、步长为1的卷积层、多头注意力层、步长为1的卷积层。

优选的，所述S31包括：

从第二图片特征I_f、第二文本特征T_f和第二土壤特征S_f任意选择两种模态特征

输入多头注意力模块进行双模态融合，第三种模态特征

与前两种模态特征交互的结果执行进一步融合操作，获取三种模态间融合结果I^′ _fT′_fS′_f、I′_fS′_fT′_f、T′_fS′_fI′_f。

优选的，任一种模态间融合结果的获取过程包括：

使

分别作为多头注意力机制的查询Query，另一特征作为键key、值value得到分别得到

式中LN(·)表示层归一化处理，d表示模态特征一致后的维度；

将

执行拼接和卷积操作，将执行结果作为第一层模态间交互结果

将该结果与

执行第二层模态间交互；

将

执行拼接和卷积操作，将执行结果作为第二层模态间交互结果

将

通过上述模态间交互模块得到

将

作为模态间融合结果。

优选的，所述S32包括：

令多模态交互网络模块的输出I′_fT′_fS′_f、I′_fS′_fT′_f、T′_fS′_fI′_f分别为XS_t、XT_t、XI_t，t＝0,…,N；通过模态门结构以自适应为每种模态特征赋予不同的权重，控制每个目标模态的输出，

m_t＝σ(W^(m)·XS_t+V^(m)·XT_t+U^(m)·XI_t+Q^(m)·h_t-1)

x_t＝concate(m_t[0]·XS_t，m_t[1]·XT_t，m_t[2]·XI_t)

式中，m_t表示t时刻的模态门，且

M为模态数量，XS_t、XT_t、XI_t表示三模态t时刻的输入向量，W^(m)、V^(m)、U^(m)、Q(m)代表模态门变换中的权重矩阵，σ表示Sigmoid激活函数，h_t-1是第t-1个LSTM单元输出；

f_t＝σ(W^(f)x_t+U^(f)h_t-1)

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1)

o_t＝a(W^(o)x_t+U^(o)h_t-1)

u_t＝tanh(W^(u)x_t+U^(u)h_t-1)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中，f_t、i_t、o_t、c_t、h_t分别表示t时刻的遗忘门、输入门、输出门、细胞状态、细胞输出；W^(f)、U^(f)表示遗忘门的权重矩阵；W⁽ⁱ⁾、U⁽ⁱ⁾表示输入门的权重矩阵；W^(o)、U^(o)表示输出门的权重矩阵；W^(u)、U^(u)表示细胞状态的权重矩阵；u_t表示细胞状态更新值，⊙表示Hadamard积。

一种基于多模态深度学习的作物营养状态诊断系统，包括：

采集模块，用于执行S1、分别采集多模态的作物营养状态诊断数据；

映射模块，用于执行S2、根据所述作物营养状态诊断数据，获取各模态特征并映射到相同维度的特征空间；

诊断模块，用于执行S3、根据维度相同的各模态特征，采用预设的多模态深度学习模型获取作物营养状态诊断结果；

所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层，所述多模态门控神经网络层中在输入门前增加一个模态门结构，所述诊断模块包括：

融合子模块，用于执行S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层，获取不同的模态间融合结果；

权重子模块，用于执行S32、将不同的所述模态间融合结果输入多模态门控神经网络层，获取各模态特征的权重；

确定子模块，用于执行S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接，获取作物营养状态诊断级别对应的概率，所述概率用于确定最终的诊断结果。

一种存储介质，其存储有用于基于多模态深度学习的作物营养状态诊断的计算机程序，其中，所述计算机程序使得计算机执行如上所述的作物营养状态诊断方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的作物营养状态诊断方法。

(三)有益效果

本发明提供了一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明实施例设计了一种多模态特征交互的多头注意力神经网络层，使得各模态信息，例如图片、文本和土壤养分信息实现相互融合，增强了多模态特征的互补性和一致性；此外，为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度，还在LSTM网络的基础上进行改进，创新出一种模态门以自适应赋予每种模态不同的权重。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于多模态深度学习的作物营养状态诊断方法的流程示意图；

图2为本发明实施例提供的一种特征维数标准化模块的结构示意图；

图3为本发明实施例提供的一种多模态交互注意力神经网络模块的结构示意图；

图4为本发明实施例提供的一种多模态门控神经网络层中的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备，解决了利用多模态信息进行作物营养状态诊断时缺乏模态内、模态间的有机交互的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

如图1所示，本发明实施例提供了一种基于多模态深度学习的作物营养状态诊断方法，包括：

S1、分别采集多模态的作物营养状态诊断数据；

下面将结合具体内容详细介绍上述技术方案的各个步骤：

在步骤S1中，分别采集多模态的作物营养状态诊断数据。

所述多模态的作物营养状态诊断数据包括：按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据。

具体而言，作物生育期图片数据可以通过RGB相机拍摄等途径获得；种植经验丰富的专家可以为作物生长态势提供高质量的文本描述数据；通过土壤墒情传感器、土壤养分传感器等设备可以采集土壤性状数据。至此，分别获取了作物生育期图片数据、文本、土壤性状等多模态数据。

在步骤S2中，根据所述作物营养状态诊断数据，获取各模态特征并映射到相同维度的特征空间；包括：

S21、采用卷积神经网络提取所述各作物生育期图片的第一图片特征；卷积神经网络(CNN)作为目前最常用的图片信息处理网络，可以借助通过卷积操作、池化操作实现图片特征的提取，ResNet、VGGNet、DenseNet等一系列卷积神经网络已被广泛证明对图片特征的提取十分有效；将图片信息转换为向量表示，即图片特征I_f：

其中，N_I代表单位样本内图片数量，I_F表示卷积神经网络提取图片特征的向量表示的维度。

采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征；文本信息与其他模态之间兼具互补性和一致性，通过对作物长势的文本描述进行特征抽取，为下一步模间信息融合，实现作物精准营养状态诊断奠定基础；

其中，N_F代表作物生育期图片对应的文本描述，T_F表示自然语言处理网络提取文本特征的向量表示的维度。

采用多层感知机(MLP)提取所述土壤性状数据的第一土壤特征；

其中，N_S代表图片采集区作物对应的土壤性状数据的条数，且N_S＝N_I＝N_F＝N，S_F表示多层感知机提取土壤特征的向量表示的维度。

由于各模态特征因数据类型异构、处理模式差异等导致的多模态特征维度不匹配问题，难以实现模态间有机融合。因此，需要将各模态特征映射到相同维度的特征空间中。

如图2所示，本发明实施例通过设计一种多模态特征同维基础块，多模态特征同维基础块的结构依次包括：步长为2的卷积层、步长为1的卷积层、多头注意力层、步长为1的卷积层、ReLu激活层、步长为1的卷积层、多头注意力层、步长为1的卷积层；有效实现了模态间特征维度的一致性。

通过上述多模态特征同维基础块对各模态特征进行处理，使各模态特征映射到相同维度的特征空间中。与此同时，在基础块中嵌入多头注意力模块，将特征投影到多个特征空间中，实现模态内特征的有机交互。

在步骤S3中，根据维度相同的各模态特征，采用预设的多模态深度学习模型获取作物营养状态诊断结果；所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层，所述多模态门控神经网络层中在输入门前增加一个模态门结构，所述S3包括：

在步骤S31中，将所述维度相同的各模态特征输入多模态交互注意力神经网络层(MANN)，获取不同的模态间融合结果。

模态间的有机交互可以有效增强作物各模态之间的互补性和一致性，使得作物营养状态诊断结果更精准。进而如图3所示，设计一种基于多头注意力机制的多模态交互注意力神经网络模块，实现各模态特征之间的有机交互。

输入多头注意力模块进行双模态融合，第三种模态特征

与前两种模态特征交互的结果执行进一步融合操作，获取三种模态间融合结果I′_fT′_fS′_f、I′_fS′_fT′_f、T′_fS′_fI′_f。

任一种模态间融合结果的获取过程包括：

为了更有效实现模态之间的交互，使

式中LN(·)表示层归一化处理，d表示模态特征一致后的维度；

将

将该结果与

执行第二层模态间交互；

将

将

通过上述模态间交互模块得到

将

作为模态间融合结果。

总结来说，由于

分别将I_f、T_f、S_f分别作为第三种融合模态，构建MANN-ITS、MANN-IST、MANN-TSI三种模块。

MANN-ITS模块首先将图片特征与文本特征进行融合，将融合结果经过拼接和卷积操作后与土壤特征执行融合、拼接与卷积操作。MANN-IST模块首先将图片特征与土壤特征进行融合，将融合结果经过拼接和卷积操作后与文本特征执行融合、拼接与卷积操作。MANN-ITS模块首先将文本特征与土壤特征进行融合，将融合结果经过拼接和卷积操作后与图片特征执行融合、拼接与卷积操作。

最终将得到三种模态间融合结果I′_fT′_fS′_f、I′_fS′_fT′_f、T′_fS′I′_f，且I′T′_fS′_f、I′_fS′_fT′_f、

在步骤S32中，将不同的所述模态间融合结果输入多模态门控神经网络层(MG-LSTM)，获取各模态特征的权重。

研究表明，利用多模态数据进行分析时，不同模态对结果的影响存在差异。为了更有效实现作物营养状态精准诊断，如图4所示，在长短期记忆神经网络的基础上，新增了一种模态门结构以自适应为每种模态赋予不同的权重，控制每个目标模态的输出。

通过改进标准的LSTM结构，在输入门之前增加协同处理图片特征、文本特征和土壤养分特征的模态门m_t以自适应地传播三种模态。每个LSTM单元的输出作为每一步编码的多模态特征。

所述S32包括：

令多模态交互网络模块的输出I′_fT′_fS′_f、I′_fS′_fT′_f、T′_fS′_fI′_f分别为XS_t、XT_t、XI_t，t＝0，…，N；通过模态门结构以自适应为每种模态特征赋予不同的权重，控制每个目标模态的输出，

m_t＝σ(W^(m)·XS_t+V^(m)·XT_t+U^(m)·XI_t+Q^(m)·h_t-1)

x_t＝concate(m_t[0]·XS_t，m_t[1]·XT_t，m_t[2]·XI_t)

式中，m_t表示t时刻的模态门，且

M为模态数量，XS_t、XT_t、XI_t表示三模态t时刻的输入向量，W^(m)、V^(m)、U^(m)、Q^(m)代表模态门变换中的权重矩阵，σ表示Sigmoid激活函数，h_t-1是第t-1个LSTM单元输出；

f_t＝σ(W^(f)x_t+U^(f)h_t-1)

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1)

o_t＝a(W^(o)x_t+U^(o)h_t-1)

u_t＝tanh(W^(u)x_t+U^(u)h_t-1)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

在步骤S33中，将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接，获取作物营养状态诊断级别(例如将作物营养状态诊断级别分别设计为富集、正常、缺素)对应的概率，所述概率用于确定最终的诊断结果。

本发明实施例考虑到玉米作为我国重要的谷类作物，其生产的发展规模已成为左右我国粮食供求形势，决定畜牧业和玉米加工业发展的重要因素。因此，进一步以玉米为研究对象，着重探讨了本发明所述作物营养状态诊断的有效性。

1、数据采集及特征提取

基于按照时间前后顺序收集玉米关键生育期图片，以及对应的文本描述、土壤性状数据进行营养状态诊断。

玉米图片数据来源于RGB相机拍摄，为确保图片真实、实时、图片清晰、干扰噪声小，所有拍摄均在自然光照射下采用固定模式进行；天气状况要求以晴为主，避免光线过强和过暗。玉米生育期图片对应的文本描述由玉米种植专家以人工方式进行标识，分别获取了作物生育期图片数据和文本数据。通过部署土壤性状无线传感网络获得研究区玉米的土壤性状信息。

通过上述玉米数据采集操作获取了生育期对应的图片数据、文本数据、土壤性状数据后，分别：

采用ResNet34作为玉米图片特征提取，由于处理的是描述同一区域作物的图片集，因此选取三维卷积进行多图片特征提取，得到图片特征

其中32代表玉米图片的数量，2048表示ResNet网络倒数第二层的单元数。

采用Word2vec作为玉米文本特征提取，将文本信息转换为向量表示，得到文本特征

其中玉米图片对应的文本描述句子的长度，300表示将每个汉字转换为一个300维向量表示。

利用MLP对土壤养分实现特征提取是常用的方式，得到土壤特征

其中32代表作物生育期图片对应的土壤性状数据的条数，300表示多层感知机提取土壤特征的300维向量表示。

2、模态特征维数标准化

经过ResNet34网络提取的图片特征，通过图片特征同维模块处理后，使得I_F为300，图片特征同维模块由两个多模态特征同维基础块堆叠。经过Word2vec网络提取的文本特征，通过文本特征同维模块处理后，使得T_F为300，文本特征同维模块由五个多头注意力层堆叠而成。经过多层感知机网络提取的土壤特征，通过文本特征同维模块处理后，使得S_F为300，土壤特征同维模块由五个多头注意力层堆叠而成。

3、基于多模态深度学习的作物营养状态诊断方法

将获取的相同维度的图片特征、文本特征、土壤特征输入预设多模态深度学习模型获取作物营养状态诊断结果。

为了验证模型的有效性，分别使用本发明提供的模型对玉米营养状态进行诊断；去掉多模态交互注意力机制、多模态门控神经网络层对玉米关键生育期诊断；分别仅使用玉米关键生育期图片、文本和土壤性状对营养状态进行诊断，诊断结果如表1所示：

表1使用不同模态信息对玉米关键生育期营养状态诊断精度

上表中的诊断精度具体指示模型诊断正确样本量与总样本量之比。通过上表可以看出，在玉米的三个关键生育期中，本发明实施例提出的基于多模态深度学习的营养状态诊断方法精度最高，实验验证了多模态交互注意力机制和增加模态门的LSTM网络的有效性。该模型不仅实现了作物生育期各模态的有机交互，而且还可以自适应的赋予各模态不同的权重，控制每种目标模态的输出，实现了作物营养状态的及时、精准、智能诊断，为大规模肥料个性化定制奠定基础。

本发明实施例提供了一种基于多模态深度学习的作物营养状态诊断系统，包括：

本发明实施提供了一种存储介质，其存储有用于基于多模态深度学习的作物营养状态诊断的计算机程序，其中，所述计算机程序使得计算机执行如上所述的作物营养状态诊断方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

可理解的是，本发明实施例提供的基于多模态深度学习的作物营养状态诊断系统、存储介质和电子设备与本发明实施例提供的基于多模态深度学习的作物营养状态诊断方法相对应，其有关内容的解释、举例和有益效果等部分可以参考基于区块链的作物营养状态诊断方法中的相应部分，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多模态深度学习的作物营养状态诊断方法，其特征在于，包括：

S1、分别采集多模态的作物营养状态诊断数据；

S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接，获取作物营养状态诊断级别对应的概率，所述概率用于确定最终的诊断结果；

所述多模态的作物营养状态诊断数据包括：按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据；

所述S2包括：

S21、采用卷积神经网络提取各作物生育期图片的第一图片特征；采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征；采用MLP提取所述土壤性状数据的第一土壤特征；

2.如权利要求1所述的作物营养状态诊断方法，其特征在于，所述S22中的多模态特征同维基础块的结构依次包括：

3.如权利要求1所述的作物营养状态诊断方法，其特征在于，所述S31包括：

从第二图片特征I_f、第二文本特征T_f和第二土壤特征S_f任意选择两种模态特征输入多头注意力模块进行双模态融合，第三种模态特征与前两种模态特征交互的结果执行进一步融合操作，获取三种模态间融合结果I′_fT′_fS′_f、I′_fS′_fT′_f、T′_fS′_fI′_f。

4.如权利要求3所述的作物营养状态诊断方法，其特征在于，任一种模态间融合结果的获取过程包括：

使分别作为多头注意力机制的查询Query，另一特征作为键key、值value得到分别得到

式中LN(·)表示层归一化处理，d表示模态特征一致后的维度；

将执行拼接和卷积操作，将执行结果作为第一层模态间交互结果

将该结果与执行第二层模态间交互；

将执行拼接和卷积操作，将执行结果作为第二层模态间交互结果

将通过上述模态间交互模块得到将作为模态间融合结果。

5.如权利要求4所述的作物营养状态诊断方法，其特征在于，所述S32包括：

m_t＝σ(W^(m)·XS_t+V^(m)·XT_t+U^(m)·XI_t+Q^(m)·h_t-1)

x_t＝concate(m_t[0]·XS_t,m_t[1]·XT_t,m_t[2]·XI_t)

式中，m_t表示t时刻的模态门，且M为模态数量，XS_t、XT_t、XI_t表示三模态t时刻的输入向量，W^(m)、V^(m)、U^(m)、Q^(m)代表模态门变换中的权重矩阵，σ表示Sigmoid激活函数，h_t-1是第t-1个LSTM单元输出；

f_t＝σ(W^(f)x_t+U^(f)h_t-1)

i_t＝σ(W⁽ⁱ⁾x_t+U⁽ⁱ⁾h_t-1)

o_t＝σ(W^(o)x_t+U^(o)h_t-1)

u_t＝tanh(W^(u)x_t+U^(u)h_t-1)

c_t＝i_t⊙u_t+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

其中，f_t、i_t、o_t、c_t、h_t分别表示t时刻的遗忘门、输入门、输出门、细胞状态、细胞输出；W^(f)、U^(f)表示遗忘门的权重矩阵；W⁽ⁱ⁾、U⁽ⁱ⁾表示输入门的权重矩阵；W^(o)、U^(o)表示输出门的权重矩阵；W^(u)、U^(u)表示细胞状态的权重矩阵；u_t表示细胞状态更新值，⊙表示Hadmard积。

6.一种基于多模态深度学习的作物营养状态诊断系统，其特征在于，包括：

确定子模块，用于执行S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接，获取作物营养状态诊断级别对应的概率，所述概率用于确定最终的诊断结果；

所述S2包括：

7.一种存储介质，其特征在于，其存储有用于基于多模态深度学习的作物营养状态诊断的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～5任一项所述的作物营养状态诊断方法。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～5任一项所述的作物营养状态诊断方法。