CN115035512B - 基于多模态深度学习的作物营养状态诊断方法和系统 - Google Patents

基于多模态深度学习的作物营养状态诊断方法和系统 Download PDF

Info

Publication number
CN115035512B
CN115035512B CN202210568094.7A CN202210568094A CN115035512B CN 115035512 B CN115035512 B CN 115035512B CN 202210568094 A CN202210568094 A CN 202210568094A CN 115035512 B CN115035512 B CN 115035512B
Authority
CN
China
Prior art keywords
modal
crop
layer
neural network
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210568094.7A
Other languages
English (en)
Other versions
CN115035512A (zh
Inventor
蒋翠清
车万留
刘艳清
王钊
丁勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202210568094.7A priority Critical patent/CN115035512B/zh
Publication of CN115035512A publication Critical patent/CN115035512A/zh
Application granted granted Critical
Publication of CN115035512B publication Critical patent/CN115035512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多模态深度学习的作物营养状态诊断方法和系统,涉及作物营养状态诊断技术领域。本发明实施例设计了一种多模态特征交互的多头注意力神经网络层,使得各模态信息,例如图片、文本和土壤养分信息实现相互融合,增强了多模态特征的互补性和一致性;为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度,还在LSTM网络的基础上进行改进,创新出一种模态门以自适应赋予每种模态不同的权重。多模态交互注意力机制和增加模态门的LSTM网络的模型设计,不仅实现作物生育期各模态的有机交互,而且自适应的赋予各模态不同的权重,控制每种目标模态的输出,实现作物营养状态的及时、精准、智能诊断,为大规模肥料个性化定制奠定基础。

Description

基于多模态深度学习的作物营养状态诊断方法和系统
技术领域
本发明涉及作物营养状态诊断技术领域,具体涉及一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备。
背景技术
据统计,到2050年全球粮食需求预计将增加至40亿吨,粮食供给不足问题日益迫切。作物营养状态诊断作为长期影响农业生产的关键挑战之一,及时、准确地诊断作物的营养状态,不仅可以使农户尽早采取预防措施,减轻在经济和生产上的损失,还有利于资源环境的保护。在近几十年里,有效检测作物营养状态的最常用方法是实验室化学分析,虽然化验结果精度高,但由于化验工艺复杂、检测周期长,导致其结果不利于作物施肥的瞬时调控。与此同时,随着信息科学的不断发展,图片处理、机器学习等尖端信息技术被广泛应用于精准农业,为快速、准确、非破坏性作物营养状态诊断及个性化配肥提供了强有力支撑。
现如今基于机器学习的作物诊断方法多以利用单模态信息进行营养富集与缺素诊断为主,忽略了其他模态信息的补充作用和协同价值,使得提取到的特征仅涵盖部分作物营养性状,最终导致作物诊断结果精度低,指导效果差。此外,一些研究尝试使用双模态或多模态信息时,多以一种简单拼接的方式进行模态间融合,不能有效体现模态内和模态间的交互作用,进而在一定程度上降低了多模态数据的有效性和互补性。
因此,利用多模态信息进行作物营养状态诊断时缺乏模态内、模态间的有机交互成为当下亟待解决的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备,解决了利用多模态信息进行作物营养状态诊断时缺乏模态内、模态间的有机交互的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于多模态深度学习的作物营养状态诊断方法,包括:
S1、分别采集多模态的作物营养状态诊断数据;
S2、根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;
S3、根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;
所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述S3包括:
S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层,获取不同的模态间融合结果;
S32、将不同的所述模态间融合结果输入多模态门控神经网络层,获取各模态特征的权重;
S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别对应的概率,所述概率用于确定最终的诊断结果。
优选的,所述多模态的作物营养状态诊断数据包括:按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据。
优选的,所述S2包括:
S21、采用卷积神经网络提取所述各作物生育期图片的第一图片特征;采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征;采用MLP提取所述土壤性状数据的第一土壤特征;
S22、根据预设的多模态特征同维基础块,将各模态特征维数标准化,分别获取相同维度的第二图片特征、第二文本特征和第二土壤特征。
优选的,所述S22中的多模态特征同维基础块的结构依次包括:
步长为2的卷积层、步长为1的卷积层、多头注意力层、步长为1的卷积层、ReLu激活层、步长为1的卷积层、多头注意力层、步长为1的卷积层。
优选的,所述S31包括:
从第二图片特征If、第二文本特征Tf和第二土壤特征Sf任意选择两种模态特征
Figure BDA0003659080760000031
输入多头注意力模块进行双模态融合,第三种模态特征
Figure BDA0003659080760000041
与前两种模态特征交互的结果执行进一步融合操作,获取三种模态间融合结果I fT′fS′f、I′fS′fT′f、T′fS′fI′f
优选的,任一种模态间融合结果的获取过程包括:
使
Figure BDA0003659080760000042
分别作为多头注意力机制的查询Query,另一特征作为键key、值value得到分别得到
Figure BDA0003659080760000043
Figure BDA0003659080760000044
Figure BDA0003659080760000045
式中LN(·)表示层归一化处理,d表示模态特征一致后的维度;
Figure BDA0003659080760000046
执行拼接和卷积操作,将执行结果作为第一层模态间交互结果
Figure BDA0003659080760000047
Figure BDA0003659080760000048
将该结果与
Figure BDA0003659080760000049
执行第二层模态间交互;
Figure BDA00036590807600000410
Figure BDA00036590807600000411
Figure BDA00036590807600000412
执行拼接和卷积操作,将执行结果作为第二层模态间交互结果
Figure BDA00036590807600000413
Figure BDA00036590807600000414
Figure BDA00036590807600000415
通过上述模态间交互模块得到
Figure BDA00036590807600000416
Figure BDA00036590807600000417
作为模态间融合结果。
优选的,所述S32包括:
令多模态交互网络模块的输出I′fT′fS′f、I′fS′fT′f、T′fS′fI′f分别为XSt、XTt、XIt,t=0,…,N;通过模态门结构以自适应为每种模态特征赋予不同的权重,控制每个目标模态的输出,
mt=σ(W(m)·XSt+V(m)·XTt+U(m)·XIt+Q(m)·ht-1)
xt=concate(mt[0]·XSt,mt[1]·XTt,mt[2]·XIt)
式中,mt表示t时刻的模态门,且
Figure BDA0003659080760000051
M为模态数量,XSt、XTt、XIt表示三模态t时刻的输入向量,W(m)、V(m)、U(m)、Q(m)代表模态门变换中的权重矩阵,σ表示Sigmoid激活函数,ht-1是第t-1个LSTM单元输出;
ft=σ(W(f)xt+U(f)ht-1)
it=σ(W(i)xt+U(i)ht-1)
ot=a(W(o)xt+U(o)ht-1)
ut=tanh(W(u)xt+U(u)ht-1)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,ft、it、ot、ct、ht分别表示t时刻的遗忘门、输入门、输出门、细胞状态、细胞输出;W(f)、U(f)表示遗忘门的权重矩阵;W(i)、U(i)表示输入门的权重矩阵;W(o)、U(o)表示输出门的权重矩阵;W(u)、U(u)表示细胞状态的权重矩阵;ut表示细胞状态更新值,⊙表示Hadamard积。
一种基于多模态深度学习的作物营养状态诊断系统,包括:
采集模块,用于执行S1、分别采集多模态的作物营养状态诊断数据;
映射模块,用于执行S2、根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;
诊断模块,用于执行S3、根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;
所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述诊断模块包括:
融合子模块,用于执行S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层,获取不同的模态间融合结果;
权重子模块,用于执行S32、将不同的所述模态间融合结果输入多模态门控神经网络层,获取各模态特征的权重;
确定子模块,用于执行S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别对应的概率,所述概率用于确定最终的诊断结果。
一种存储介质,其存储有用于基于多模态深度学习的作物营养状态诊断的计算机程序,其中,所述计算机程序使得计算机执行如上所述的作物营养状态诊断方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的作物营养状态诊断方法。
(三)有益效果
本发明提供了一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明实施例设计了一种多模态特征交互的多头注意力神经网络层,使得各模态信息,例如图片、文本和土壤养分信息实现相互融合,增强了多模态特征的互补性和一致性;此外,为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度,还在LSTM网络的基础上进行改进,创新出一种模态门以自适应赋予每种模态不同的权重。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多模态深度学习的作物营养状态诊断方法的流程示意图;
图2为本发明实施例提供的一种特征维数标准化模块的结构示意图;
图3为本发明实施例提供的一种多模态交互注意力神经网络模块的结构示意图;
图4为本发明实施例提供的一种多模态门控神经网络层中的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于多模态深度学习的作物营养状态诊断方法、系统、存储介质和电子设备,解决了利用多模态信息进行作物营养状态诊断时缺乏模态内、模态间的有机交互的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例设计了一种多模态特征交互的多头注意力神经网络层,使得各模态信息,例如图片、文本和土壤养分信息实现相互融合,增强了多模态特征的互补性和一致性;此外,为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度,还在LSTM网络的基础上进行改进,创新出一种模态门以自适应赋予每种模态不同的权重。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例:
如图1所示,本发明实施例提供了一种基于多模态深度学习的作物营养状态诊断方法,包括:
S1、分别采集多模态的作物营养状态诊断数据;
S2、根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;
S3、根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;
所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述S3包括:
S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层,获取不同的模态间融合结果;
S32、将不同的所述模态间融合结果输入多模态门控神经网络层,获取各模态特征的权重;
S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别对应的概率,所述概率用于确定最终的诊断结果。
本发明实施例设计了一种多模态特征交互的多头注意力神经网络层,使得各模态信息,例如图片、文本和土壤养分信息实现相互融合,增强了多模态特征的互补性和一致性;此外,为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度,还在LSTM网络的基础上进行改进,创新出一种模态门以自适应赋予每种模态不同的权重。
下面将结合具体内容详细介绍上述技术方案的各个步骤:
在步骤S1中,分别采集多模态的作物营养状态诊断数据。
所述多模态的作物营养状态诊断数据包括:按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据。
具体而言,作物生育期图片数据可以通过RGB相机拍摄等途径获得;种植经验丰富的专家可以为作物生长态势提供高质量的文本描述数据;通过土壤墒情传感器、土壤养分传感器等设备可以采集土壤性状数据。至此,分别获取了作物生育期图片数据、文本、土壤性状等多模态数据。
在步骤S2中,根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;包括:
S21、采用卷积神经网络提取所述各作物生育期图片的第一图片特征;卷积神经网络(CNN)作为目前最常用的图片信息处理网络,可以借助通过卷积操作、池化操作实现图片特征的提取,ResNet、VGGNet、DenseNet等一系列卷积神经网络已被广泛证明对图片特征的提取十分有效;将图片信息转换为向量表示,即图片特征If
Figure BDA0003659080760000101
其中,NI代表单位样本内图片数量,IF表示卷积神经网络提取图片特征的向量表示的维度。
采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征;文本信息与其他模态之间兼具互补性和一致性,通过对作物长势的文本描述进行特征抽取,为下一步模间信息融合,实现作物精准营养状态诊断奠定基础;
Figure BDA0003659080760000102
其中,NF代表作物生育期图片对应的文本描述,TF表示自然语言处理网络提取文本特征的向量表示的维度。
采用多层感知机(MLP)提取所述土壤性状数据的第一土壤特征;
Figure BDA0003659080760000111
其中,NS代表图片采集区作物对应的土壤性状数据的条数,且NS=NI=NF=N,SF表示多层感知机提取土壤特征的向量表示的维度。
S22、根据预设的多模态特征同维基础块,将各模态特征维数标准化,分别获取相同维度的第二图片特征、第二文本特征和第二土壤特征。
由于各模态特征因数据类型异构、处理模式差异等导致的多模态特征维度不匹配问题,难以实现模态间有机融合。因此,需要将各模态特征映射到相同维度的特征空间中。
如图2所示,本发明实施例通过设计一种多模态特征同维基础块,多模态特征同维基础块的结构依次包括:步长为2的卷积层、步长为1的卷积层、多头注意力层、步长为1的卷积层、ReLu激活层、步长为1的卷积层、多头注意力层、步长为1的卷积层;有效实现了模态间特征维度的一致性。
通过上述多模态特征同维基础块对各模态特征进行处理,使各模态特征映射到相同维度的特征空间中。与此同时,在基础块中嵌入多头注意力模块,将特征投影到多个特征空间中,实现模态内特征的有机交互。
在步骤S3中,根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述S3包括:
在步骤S31中,将所述维度相同的各模态特征输入多模态交互注意力神经网络层(MANN),获取不同的模态间融合结果。
模态间的有机交互可以有效增强作物各模态之间的互补性和一致性,使得作物营养状态诊断结果更精准。进而如图3所示,设计一种基于多头注意力机制的多模态交互注意力神经网络模块,实现各模态特征之间的有机交互。
从第二图片特征If、第二文本特征Tf和第二土壤特征Sf任意选择两种模态特征
Figure BDA0003659080760000121
输入多头注意力模块进行双模态融合,第三种模态特征
Figure BDA0003659080760000122
与前两种模态特征交互的结果执行进一步融合操作,获取三种模态间融合结果I′fT′fS′f、I′fS′fT′f、T′fS′fI′f
任一种模态间融合结果的获取过程包括:
为了更有效实现模态之间的交互,使
Figure BDA0003659080760000123
分别作为多头注意力机制的查询Query,另一特征作为键key、值value得到分别得到
Figure BDA0003659080760000124
Figure BDA0003659080760000125
Figure BDA0003659080760000126
Figure BDA0003659080760000127
式中LN(·)表示层归一化处理,d表示模态特征一致后的维度;
Figure BDA0003659080760000128
执行拼接和卷积操作,将执行结果作为第一层模态间交互结果
Figure BDA0003659080760000129
Figure BDA00036590807600001210
将该结果与
Figure BDA00036590807600001211
执行第二层模态间交互;
Figure BDA0003659080760000131
Figure BDA0003659080760000132
Figure BDA0003659080760000133
执行拼接和卷积操作,将执行结果作为第二层模态间交互结果
Figure BDA0003659080760000134
Figure BDA0003659080760000135
Figure BDA0003659080760000136
通过上述模态间交互模块得到
Figure BDA0003659080760000137
Figure BDA0003659080760000138
作为模态间融合结果。
总结来说,由于
Figure BDA0003659080760000139
分别将If、Tf、Sf分别作为第三种融合模态,构建MANN-ITS、MANN-IST、MANN-TSI三种模块。
MANN-ITS模块首先将图片特征与文本特征进行融合,将融合结果经过拼接和卷积操作后与土壤特征执行融合、拼接与卷积操作。MANN-IST模块首先将图片特征与土壤特征进行融合,将融合结果经过拼接和卷积操作后与文本特征执行融合、拼接与卷积操作。MANN-ITS模块首先将文本特征与土壤特征进行融合,将融合结果经过拼接和卷积操作后与图片特征执行融合、拼接与卷积操作。
最终将得到三种模态间融合结果I′fT′fS′f、I′fS′fT′f、T′fS′I′f,且I′T′fS′f、I′fS′fT′f
Figure BDA00036590807600001310
在步骤S32中,将不同的所述模态间融合结果输入多模态门控神经网络层(MG-LSTM),获取各模态特征的权重。
研究表明,利用多模态数据进行分析时,不同模态对结果的影响存在差异。为了更有效实现作物营养状态精准诊断,如图4所示,在长短期记忆神经网络的基础上,新增了一种模态门结构以自适应为每种模态赋予不同的权重,控制每个目标模态的输出。
通过改进标准的LSTM结构,在输入门之前增加协同处理图片特征、文本特征和土壤养分特征的模态门mt以自适应地传播三种模态。每个LSTM单元的输出作为每一步编码的多模态特征。
所述S32包括:
令多模态交互网络模块的输出I′fT′fS′f、I′fS′fT′f、T′fS′fI′f分别为XSt、XTt、XIt,t=0,…,N;通过模态门结构以自适应为每种模态特征赋予不同的权重,控制每个目标模态的输出,
mt=σ(W(m)·XSt+V(m)·XTt+U(m)·XIt+Q(m)·ht-1)
xt=concate(mt[0]·XSt,mt[1]·XTt,mt[2]·XIt)
式中,mt表示t时刻的模态门,且
Figure BDA0003659080760000141
M为模态数量,XSt、XTt、XIt表示三模态t时刻的输入向量,W(m)、V(m)、U(m)、Q(m)代表模态门变换中的权重矩阵,σ表示Sigmoid激活函数,ht-1是第t-1个LSTM单元输出;
ft=σ(W(f)xt+U(f)ht-1)
it=σ(W(i)xt+U(i)ht-1)
ot=a(W(o)xt+U(o)ht-1)
ut=tanh(W(u)xt+U(u)ht-1)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,ft、it、ot、ct、ht分别表示t时刻的遗忘门、输入门、输出门、细胞状态、细胞输出;W(f)、U(f)表示遗忘门的权重矩阵;W(i)、U(i)表示输入门的权重矩阵;W(o)、U(o)表示输出门的权重矩阵;W(u)、U(u)表示细胞状态的权重矩阵;ut表示细胞状态更新值,⊙表示Hadamard积。
在步骤S33中,将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别(例如将作物营养状态诊断级别分别设计为富集、正常、缺素)对应的概率,所述概率用于确定最终的诊断结果。
本发明实施例考虑到玉米作为我国重要的谷类作物,其生产的发展规模已成为左右我国粮食供求形势,决定畜牧业和玉米加工业发展的重要因素。因此,进一步以玉米为研究对象,着重探讨了本发明所述作物营养状态诊断的有效性。
1、数据采集及特征提取
基于按照时间前后顺序收集玉米关键生育期图片,以及对应的文本描述、土壤性状数据进行营养状态诊断。
玉米图片数据来源于RGB相机拍摄,为确保图片真实、实时、图片清晰、干扰噪声小,所有拍摄均在自然光照射下采用固定模式进行;天气状况要求以晴为主,避免光线过强和过暗。玉米生育期图片对应的文本描述由玉米种植专家以人工方式进行标识,分别获取了作物生育期图片数据和文本数据。通过部署土壤性状无线传感网络获得研究区玉米的土壤性状信息。
通过上述玉米数据采集操作获取了生育期对应的图片数据、文本数据、土壤性状数据后,分别:
采用ResNet34作为玉米图片特征提取,由于处理的是描述同一区域作物的图片集,因此选取三维卷积进行多图片特征提取,得到图片特征
Figure BDA0003659080760000161
其中32代表玉米图片的数量,2048表示ResNet网络倒数第二层的单元数。
采用Word2vec作为玉米文本特征提取,将文本信息转换为向量表示,得到文本特征
Figure BDA0003659080760000162
其中玉米图片对应的文本描述句子的长度,300表示将每个汉字转换为一个300维向量表示。
利用MLP对土壤养分实现特征提取是常用的方式,得到土壤特征
Figure BDA0003659080760000163
其中32代表作物生育期图片对应的土壤性状数据的条数,300表示多层感知机提取土壤特征的300维向量表示。
2、模态特征维数标准化
经过ResNet34网络提取的图片特征,通过图片特征同维模块处理后,使得IF为300,图片特征同维模块由两个多模态特征同维基础块堆叠。经过Word2vec网络提取的文本特征,通过文本特征同维模块处理后,使得TF为300,文本特征同维模块由五个多头注意力层堆叠而成。经过多层感知机网络提取的土壤特征,通过文本特征同维模块处理后,使得SF为300,土壤特征同维模块由五个多头注意力层堆叠而成。
3、基于多模态深度学习的作物营养状态诊断方法
将获取的相同维度的图片特征、文本特征、土壤特征输入预设多模态深度学习模型获取作物营养状态诊断结果。
为了验证模型的有效性,分别使用本发明提供的模型对玉米营养状态进行诊断;去掉多模态交互注意力机制、多模态门控神经网络层对玉米关键生育期诊断;分别仅使用玉米关键生育期图片、文本和土壤性状对营养状态进行诊断,诊断结果如表1所示:
表1使用不同模态信息对玉米关键生育期营养状态诊断精度
Figure BDA0003659080760000171
上表中的诊断精度具体指示模型诊断正确样本量与总样本量之比。通过上表可以看出,在玉米的三个关键生育期中,本发明实施例提出的基于多模态深度学习的营养状态诊断方法精度最高,实验验证了多模态交互注意力机制和增加模态门的LSTM网络的有效性。该模型不仅实现了作物生育期各模态的有机交互,而且还可以自适应的赋予各模态不同的权重,控制每种目标模态的输出,实现了作物营养状态的及时、精准、智能诊断,为大规模肥料个性化定制奠定基础。
本发明实施例提供了一种基于多模态深度学习的作物营养状态诊断系统,包括:
采集模块,用于执行S1、分别采集多模态的作物营养状态诊断数据;
映射模块,用于执行S2、根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;
诊断模块,用于执行S3、根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;
所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述诊断模块包括:
融合子模块,用于执行S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层,获取不同的模态间融合结果;
权重子模块,用于执行S32、将不同的所述模态间融合结果输入多模态门控神经网络层,获取各模态特征的权重;
确定子模块,用于执行S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别对应的概率,所述概率用于确定最终的诊断结果。
本发明实施提供了一种存储介质,其存储有用于基于多模态深度学习的作物营养状态诊断的计算机程序,其中,所述计算机程序使得计算机执行如上所述的作物营养状态诊断方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的作物营养状态诊断方法。
可理解的是,本发明实施例提供的基于多模态深度学习的作物营养状态诊断系统、存储介质和电子设备与本发明实施例提供的基于多模态深度学习的作物营养状态诊断方法相对应,其有关内容的解释、举例和有益效果等部分可以参考基于区块链的作物营养状态诊断方法中的相应部分,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例设计了一种多模态特征交互的多头注意力神经网络层,使得各模态信息,例如图片、文本和土壤养分信息实现相互融合,增强了多模态特征的互补性和一致性;此外,为了进一步挖掘作物营养状态诊断过程中各个模态对结果的影响程度,还在LSTM网络的基础上进行改进,创新出一种模态门以自适应赋予每种模态不同的权重。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于多模态深度学习的作物营养状态诊断方法,其特征在于,包括:
S1、分别采集多模态的作物营养状态诊断数据;
S2、根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;
S3、根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;
所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述S3包括:
S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层,获取不同的模态间融合结果;
S32、将不同的所述模态间融合结果输入多模态门控神经网络层,获取各模态特征的权重;
S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别对应的概率,所述概率用于确定最终的诊断结果;
所述多模态的作物营养状态诊断数据包括:按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据;
所述S2包括:
S21、采用卷积神经网络提取各作物生育期图片的第一图片特征;采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征;采用MLP提取所述土壤性状数据的第一土壤特征;
S22、根据预设的多模态特征同维基础块,将各模态特征维数标准化,分别获取相同维度的第二图片特征、第二文本特征和第二土壤特征。
2.如权利要求1所述的作物营养状态诊断方法,其特征在于,所述S22中的多模态特征同维基础块的结构依次包括:
步长为2的卷积层、步长为1的卷积层、多头注意力层、步长为1的卷积层、ReLu激活层、步长为1的卷积层、多头注意力层、步长为1的卷积层。
3.如权利要求1所述的作物营养状态诊断方法,其特征在于,所述S31包括:
从第二图片特征If、第二文本特征Tf和第二土壤特征Sf任意选择两种模态特征输入多头注意力模块进行双模态融合,第三种模态特征与前两种模态特征交互的结果执行进一步融合操作,获取三种模态间融合结果I′fT′fS′f、I′fS′fT′f、T′fS′fI′f
4.如权利要求3所述的作物营养状态诊断方法,其特征在于,任一种模态间融合结果的获取过程包括:
使分别作为多头注意力机制的查询Query,另一特征作为键key、值value得到分别得到
式中LN(·)表示层归一化处理,d表示模态特征一致后的维度;
执行拼接和卷积操作,将执行结果作为第一层模态间交互结果
将该结果与执行第二层模态间交互;
执行拼接和卷积操作,将执行结果作为第二层模态间交互结果
通过上述模态间交互模块得到作为模态间融合结果。
5.如权利要求4所述的作物营养状态诊断方法,其特征在于,所述S32包括:
令多模态交互网络模块的输出I′fT′fS′f、I′fS′fT′f、T′fS′fI′f分别为XSt、XTt、XIt,t=0,…,N;通过模态门结构以自适应为每种模态特征赋予不同的权重,控制每个目标模态的输出,
mt=σ(W(m)·XSt+V(m)·XTt+U(m)·XIt+Q(m)·ht-1)
xt=concate(mt[0]·XSt,mt[1]·XTt,mt[2]·XIt)
式中,mt表示t时刻的模态门,且M为模态数量,XSt、XTt、XIt表示三模态t时刻的输入向量,W(m)、V(m)、U(m)、Q(m)代表模态门变换中的权重矩阵,σ表示Sigmoid激活函数,ht-1是第t-1个LSTM单元输出;
ft=σ(W(f)xt+U(f)ht-1)
it=σ(W(i)xt+U(i)ht-1)
ot=σ(W(o)xt+U(o)ht-1)
ut=tanh(W(u)xt+U(u)ht-1)
ct=it⊙ut+ft⊙ct-1
ht=ot⊙tanh(ct)
其中,ft、it、ot、ct、ht分别表示t时刻的遗忘门、输入门、输出门、细胞状态、细胞输出;W(f)、U(f)表示遗忘门的权重矩阵;W(i)、U(i)表示输入门的权重矩阵;W(o)、U(o)表示输出门的权重矩阵;W(u)、U(u)表示细胞状态的权重矩阵;ut表示细胞状态更新值,⊙表示Hadmard积。
6.一种基于多模态深度学习的作物营养状态诊断系统,其特征在于,包括:
采集模块,用于执行S1、分别采集多模态的作物营养状态诊断数据;
映射模块,用于执行S2、根据所述作物营养状态诊断数据,获取各模态特征并映射到相同维度的特征空间;
诊断模块,用于执行S3、根据维度相同的各模态特征,采用预设的多模态深度学习模型获取作物营养状态诊断结果;
所述多模态深度学习模型包括多模态交互注意力神经网络层和多模态门控神经网络层,所述多模态门控神经网络层中在输入门前增加一个模态门结构,所述诊断模块包括:
融合子模块,用于执行S31、将所述维度相同的各模态特征输入多模态交互注意力神经网络层,获取不同的模态间融合结果;
权重子模块,用于执行S32、将不同的所述模态间融合结果输入多模态门控神经网络层,获取各模态特征的权重;
确定子模块,用于执行S33、将多模态门控神经网络层输出的各模态特征的权重与全连接层、softmax层相连接,获取作物营养状态诊断级别对应的概率,所述概率用于确定最终的诊断结果;
所述多模态的作物营养状态诊断数据包括:按照时间前后拍摄的作物生育期图片、由专家依据作物生长态势提供且与前述图片内容对应的文本描述、以及由土壤多传感器传输且与前述图片拍摄时间对应的土壤性状数据;
所述S2包括:
S21、采用卷积神经网络提取各作物生育期图片的第一图片特征;采用Word2vec、BERT或者TF-IDF提取所述文本描述的第一文本特征;采用MLP提取所述土壤性状数据的第一土壤特征;
S22、根据预设的多模态特征同维基础块,将各模态特征维数标准化,分别获取相同维度的第二图片特征、第二文本特征和第二土壤特征。
7.一种存储介质,其特征在于,其存储有用于基于多模态深度学习的作物营养状态诊断的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~5任一项所述的作物营养状态诊断方法。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~5任一项所述的作物营养状态诊断方法。
CN202210568094.7A 2022-05-24 2022-05-24 基于多模态深度学习的作物营养状态诊断方法和系统 Active CN115035512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210568094.7A CN115035512B (zh) 2022-05-24 2022-05-24 基于多模态深度学习的作物营养状态诊断方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210568094.7A CN115035512B (zh) 2022-05-24 2022-05-24 基于多模态深度学习的作物营养状态诊断方法和系统

Publications (2)

Publication Number Publication Date
CN115035512A CN115035512A (zh) 2022-09-09
CN115035512B true CN115035512B (zh) 2023-04-18

Family

ID=83120908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210568094.7A Active CN115035512B (zh) 2022-05-24 2022-05-24 基于多模态深度学习的作物营养状态诊断方法和系统

Country Status (1)

Country Link
CN (1) CN115035512B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403048B (zh) * 2023-04-17 2024-03-26 哈尔滨工业大学 一种基于多模态数据融合的农作物生长估计模型构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN113822198A (zh) * 2021-09-23 2021-12-21 华南农业大学 基于uav-rgb图像和深度学习的花生生长监测方法、系统及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457982B (zh) * 2018-12-28 2023-04-11 中国科学院合肥物质科学研究院 一种基于特征迁移学习的作物病害图像识别方法
CN111964719A (zh) * 2020-08-11 2020-11-20 成都大象分形智能科技有限公司 基于人工智能的农业传感器作物精准营养系统及方法
EP4154185A2 (en) * 2020-09-16 2023-03-29 Google LLC Modeling dependencies with global self-attention neural networks
CN113723760A (zh) * 2021-07-30 2021-11-30 哈尔滨工业大学 一种智慧农业物联网平台
CN114282702A (zh) * 2021-11-12 2022-04-05 合肥工业大学 基于iga-bp神经网络的土壤调理时间序列预测方法和系统
CN114332573A (zh) * 2021-12-18 2022-04-12 中国科学院深圳先进技术研究院 基于注意力机制的多模态信息融合识别方法及系统
CN114399108A (zh) * 2022-01-13 2022-04-26 北京智进未来科技有限公司 一种基于多模态信息的茶园产量预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN113779361A (zh) * 2021-08-27 2021-12-10 华中科技大学 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN113822198A (zh) * 2021-09-23 2021-12-21 华南农业大学 基于uav-rgb图像和深度学习的花生生长监测方法、系统及介质

Also Published As

Publication number Publication date
CN115035512A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
Ahmad et al. A survey on using deep learning techniques for plant disease diagnosis and recommendations for development of appropriate tools
van Dijk et al. Machine learning in plant science and plant breeding
Lin et al. Deep learning-based segmentation and quantification of cucumber powdery mildew using convolutional neural network
Li et al. A multi-scale cucumber disease detection method in natural scenes based on YOLOv5
CN111797895A (zh) 一种分类器的训练方法、数据处理方法、系统以及设备
CN111047073B (zh) 一种基于神经网络的水产养殖水质预测方法及系统
Zhou et al. A monitoring system for the segmentation and grading of broccoli head based on deep learning and neural networks
CN115035512B (zh) 基于多模态深度学习的作物营养状态诊断方法和系统
Miao et al. Simulated plant images improve maize leaf counting accuracy
Wu et al. Improved ResNet-50 deep learning algorithm for identifying chicken gender
Fuentes et al. Improving accuracy of tomato plant disease diagnosis based on deep learning with explicit control of hidden classes
Khatoon et al. Image-Based Automatic Diagnostic System for Tomato Plants Using Deep Learning.
Zhao et al. Deep‐learning‐based automatic evaluation of rice seed germination rate
Omer et al. Lightweight improved yolov5 model for cucumber leaf disease and pest detection based on deep learning
CN113361194B (zh) 一种基于深度学习的传感器漂移校准方法、电子设备及存储介质
Sachan et al. Paddy leaf disease detection using thermal images and convolutional neural networks
Yu et al. Teat detection of dairy cows based on deep learning neural network FS-YOLOv4 model
Liao et al. A hybrid CNN-LSTM model for diagnosing rice nutrient levels at the rice panicle initiation stage
Choudhary et al. Automatic classification of cowpea leaves using deep convolutional neural network
Wang et al. TBC-YOLOv7: a refined YOLOv7-based algorithm for tea bud grading detection
Talasila et al. Black gram disease classification using a novel deep convolutional neural network
Gong et al. An analysis of plant diseases identification based on deep learning methods
Wang et al. Crop pest detection by three-scale convolutional neural network with attention
Huang et al. A novel intelligent system for dynamic observation of cotton verticillium wilt
Li et al. Foundation models in smart agriculture: Basics, opportunities, and challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant