CN116563707B

CN116563707B - 一种基于图文多模态特征融合的枸杞虫害识别方法

Info

Publication number: CN116563707B
Application number: CN202310509867.9A
Authority: CN
Inventors: 代国威; 樊景超
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2024-02-27
Anticipated expiration: 2043-05-08
Also published as: CN116563707A

Abstract

本发明公开了一种基于图文多模态特征融合的枸杞虫害识别方法，包括如下步骤，S1、构建图像与文本跨模态特征融合模型；S2、基于多种模型评价指标，利用枸杞虫害图像与文本多模态数据集训练、测试、验证图像与文本跨模态特征融合模型，并利用训练好的评价最优的图像与文本跨模态特征融合模型结合多层感知器对枸杞虫害进行识别分类。优点是：提出的图像与文本跨模态特征融合模型，解决了复杂农业环境中枸杞虫害的识别和分类问题，促进了跨模态在农业领域和枸杞虫害防治的研究发展，降低了农药使用率，保护农业生态系统。

Description

一种基于图文多模态特征融合的枸杞虫害识别方法

技术领域

本发明涉及虫害识别技术领域，尤其涉及一种基于图文多模态特征融合的枸杞虫害识别方法。

背景技术

枸杞被广泛用于中医临床治疗和食疗中，作为一味重要的中药材，其含有的黄酮类化合物、多糖、类胡萝卜素、酚类化合物和其他活性成分，具有补肝益肾、清热明目、抗衰老、抗疲劳、抗肿瘤降血脂、安神助眠和调节免疫系统的功效，除保健作用之外，它还可用作茶叶或搭配其他食物烹饪食用。位于宁夏的枸杞由于果实大、形状美观、有效成分含量高，受到了国内外市场的青睐。枸杞耐盐碱、沙荒和干旱，可生长于土层深厚的岸沟、山坡及田埂，因此常被用于水土保持和造林绿化，近年来随着种植面积逐渐扩大，它具有的生态和经济价值开始突显，目前已成为宁夏乃至整个西北干旱区的重要经济作物之一。

然而，枸杞属于多虫寄主，且抗虫害能力较差，容易遭受虫害侵扰，对产量和品质造成严重影响，导致严重的经济损失。因此，快速准确地识别枸杞虫害的多方面信息，并及时采取精准防治措施，对于避免虫害进一步扩散、提高枸杞产量和品质、促进枸杞产业的发展至关重要。

发明内容

本发明的目的在于提供一种基于图文多模态特征融合的枸杞虫害识别方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于图文多模态特征融合的枸杞虫害识别方法，包括如下步骤，

S1、构建图像与文本跨模态特征融合模型，所述图像与文本跨模态特征融合模型包括，

图像编码器：用于对输入图像与文本中的图像数据进行处理，以获取浅层和深层的图像特征；所述图像编码器融合了上下文Transformer网络和金字塔挤压注意力模块；所述上下文Transformer网络用于获取输入的上下文特征语境表示；所述金字塔挤压注意力模块用于对输入的静态上下文语境表示和动态上下文语境表示进行多尺度特征融合；

文本编码器：用于对输入图像与文本中的文本描述信息进行特征提取处理；所述文本编码器包括1D卷积与BiLSTM，1D卷积用于从输入文本中提取有用信息，BiLSTM用于避免丢失关键信息，两者共同协作完成关键信息的记忆保留；

S2、基于多种模型评价指标，利用枸杞虫害图像与文本多模态数据集训练、测试、验证图像与文本跨模态特征融合模型，并利用训练好的评价最优的图像与文本跨模态特征融合模型结合多层感知器对枸杞虫害进行识别分类。

优选的，图像编码器的输入为2D特征图，大小为H×W×C，H为特征图高度，W为特征图宽度，C为特征图通道数；输入表示为将输入分别按照键、查询和值三条流向进行不同的聚合操作，键定义为K＝X、查询定义为Q＝X、值定义为V＝Xw_v，w_v为嵌入矩阵，以对输入图像与文本中的图像进行处理，具体过程为，

S111、将特征图k×k网格内的所有邻居键在空间上执行k×k组卷积，以实现每个键的上下文表示，获取上下文语境键K¹，即输入的静态上下文语境表示；其中，k为键变量；

S112、将查询与输入的静态上下文语境表示进行连接，通过两个连续的1×1卷积获取上下文注意力矩阵A；所述上下文注意力矩阵A的每个空间位置都存在一个局部注意力矩阵；

A＝[K¹，Q]W_θW_δ；

其中，W_θ表示第一个1×1卷积有ReLU激活函数；W_δ表示第二个1×1卷积无激活函数；

S113、根据上下文注意力矩阵，将每个空间位置的特征向量重塑为局部注意力矩阵，通过乘法汇总上下文注意力矩阵与所有值以获取局部注意力矩阵的聚合，该聚合为被关注的特征图K²，即输入的动态上下文语境表示；

S114、利用金字塔挤压注意力模块将输入的静态上下文语境表示和动态上下文语境表示进行多尺度特征融合，得到图像的最终输出。

优选的，所述图像编码器包括初始卷积层、最大池化层和多尺度特征融合层；

所述初始卷积层使用7×7的滤波器以步幅2生成112×112特征图，随后使用3×3的最大池化层对特征图进行池化操作，以进一步提取特征；

所述多尺度特征融合层包括四个阶段，每个阶段提取的特征随着滤波器增多而加深；每个阶段被生成为两个具有相同深度的网络，上下文Transformer网络在每个阶段的网络中被重复使用两次，每个阶段的第一层网络中都嵌入有一个金字塔挤压注意力模块，每个阶段都使用金字塔挤压注意力模块进行多尺度特征融合；

所述多尺度特征融合层中的损失函数为ReLU激活函数和Swish激活函数。

优选的，使用金字塔挤压注意力模块进行多尺度特征融合的具体过程为，

S121、将输入分成S组并计算不同组中每个通道的权重，每组卷积输出通道是一致的，由c/s计算得到，计算得到的多尺度特征表示为，

F_i＝Conv2d(k_i×k_i，G_i)(X)，(i＝0，1，…，S-1)；

其中，Conv2d为2维卷积运算；k_i为卷积核大小；G_i为第i个组卷积的参数；

S122、连接多个分支的多尺度特征F_i得到整个多尺度特征图F，

F＝Concat([F₀，F₁，…，F_S-1])

其中，Concat为多尺度特征图的连接操作；

S123、将每个通道的多尺度特征F_i通过通道注意力机制SEWeight分别计算不同组的通道权重，

SEW＝Concat(SEWeight(F_i))，(i＝0，1，…，S-1)

其中，Concat为连接了不同通道的注意力权重运算操作；SEW为连接后的多尺度通道注意力权重；

S124、利用Softmax函数重新校准多尺度通道注意力权重SEW，并对重新校准后的多尺度通道注意力权重与整个多尺度特征图F执行通道上的乘积运算操作，获取最终多尺度特征图F_out，

优选的，文本编码器的结构包括词嵌入层、卷积网络层和记忆网络层；所述文本编码器对输入图像与文本中的文本描述信息进行特征提取处理的具体过程为，

S131、将文本向量输入到词嵌入层，计算获取词向量大小；过程中将利用Word2Vec方法得到的词向量权重代替词嵌入层的初始化权重，实现词嵌入层的权重随机初始化；其中，文本向量的区间为批量文本向量中的最大值；

S132、将S131的输出输入到卷积网络层；所述卷积网络层利用堆叠的1D卷积层和池化层构建；

S133、将S132的输出输入到记忆网络层，并将记忆网络层的输出特征展示为文本特征，获取文本的最终输出；

所述记忆网络层在结构上使用两个BiLSTM，第一个BiLSTM上堆叠了两个LSTM单元，且记忆网络层使用Dropout减少堆叠单元出现的过拟合现象。

优选的，步骤S2具体包括如下内容，

S21、将枸杞虫害图像与文本多模态数据集按照7：2：1的比例分为训练集、验证集和测试集；

S22、利用训练集训练图像与文本跨模态特征融合模型，基于多种模型评价指标将训练好的图像与文本跨模态特征融合模型在测试集上进行测试，利用验证集对训练好的图像与文本跨模态特征融合模型进行K折交叉验证；最终获取训练好的评价最优的图像与文本跨模态特征融合模型；

S23、将实时获取的枸杞虫害图像与文本数据输入到训练好的评价最优的图像与文本跨模态特征融合模型中，并将该模型中图像编码器最终输出的图像特征和文本编码器最终输出的文本特征输入到多层感知器中，将多层感知器的输出结果作为当前输入的枸杞虫害类型，实现枸杞虫害的识别分类。

优选的，对枸杞虫害图像与文本多模态数据集进行随机采样并计算图像像素的平均值和标准偏差，利用获取的值对训练集进行标准化处理，并利用标准化处理后的训练集对图像与文本跨模态特征融合模型进行训练。

优选的，在图像与文本跨模态特征融合模型的训练过程中，采用余弦退火热重启策略的动态学习率调整方式对模型进行训练，并采用SGDR作为优化器实现函数优化，在训练过程中集成早停法以防止过拟合。

优选的，所述模型评价指标包括准确率、精确率、灵敏度和F1分数；并利用模型浮点数计算量和参数量作为模型复杂度的评价指标。

优选的，枸杞虫害图像与文本多模态数据集的获取方式为，

S201、获取原始数据样本：

按照枸杞虫害类别对图像进行分类，通过实地调研拍照、网络爬虫、书籍扫描，构建图像数据子集；

通过翻阅相关专业书籍、网络检索、向专家请教，获取每类枸杞虫害的描述信息，并编写对应的文本描述，构建文本数据子集；所述文本数据子集包含每类枸杞虫害的学名简介、来源分布、生活习性、防治方法；

S202、对原始数据样本进行扩充：

对图像数据子集，对每一个原始图像分别进行垂直翻转、随机调整亮度、随机裁剪、随机旋转，获取四类增强图像数据；

对文本数据子集，每一个文本描述分别进行随机插入、同义词替换、随机交换，获取四类增强文本数据；

S203、获取枸杞虫害图像与文本多模态数据集：

将原始数据样本与扩充后的原始数据样本进行汇总，获取枸杞虫害图像与文本多模态数据集；其中，枸杞虫害图像和文本描述各自划分为T类，每一类对应其相应的枸杞虫害。

本发明的有益效果是：1、提出的图像与文本跨模态特征融合模型，解决了复杂农业环境中枸杞虫害的识别和分类，促进了跨模态在农业领域和枸杞虫害防治的研究发展，降低了农药使用率，保护农业生态系统。2、利用图像编码器和文本编码器分别进行图像特征提取和文本体征提取，利用金字塔挤压注意力模块对图像特征和文本特征进行融合，这种融合方式充分考虑了输入数据的静态和动态特征之间的关系，能够提高模型的准确性和鲁棒性。3、图像编码器采用了上下文Transformer网络结构设计，能够充分利用输入键之间的上下文特征信息来指导动态注意矩阵的模式提取，从而增强了视觉表示的能力。4、模型中的金字塔挤压注意力模块能够探索多个尺度的通道特征信息，有利于在更细粒度的层面上有效地提取多尺度的空间信息，并自适应地重新校准跨通道注意力权重，从而丰富特征空间。金字塔挤压注意力模块的使用使得模型能够动态地分配权重给不同的上下文表示，从而使得模型能够更好地适应不同的任务和输入数据。

附图说明

图1是本发明实施例中枸杞虫害图像与文本多模态数据集中样本示例；

图2是本发明实施例中枸杞虫害图像与文本多模态数据集部分类别图像及对应文本描述示例；

图3是本发明实施例中图像与文本跨模态特征融合模型的技术路线图；

图4是本发明实施例中图像编码器的工作流程图；

图5是本发明实施例中图像编码器的结构示意图；

图6是本发明实施例中金字塔挤压注意力模块的工作流程图；

图7是本发明实施例中文本编码器的结构示意图；

图8是本发明实施例中数据集文本向量化的二维空间示意图；

图9是本发明实施例中正常训练与迁移训练在ITF-WPI的精度和损失对比示意图；其中，(a)为训练与验证损失；(b)为训练与验证准确性；

图10是本发明实施例中不同注意力机制在ITF-WPI的性能表现对比示意图；

图11是本发明实施例中不同枸杞虫害识别模型的对比热图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本实施例中，提供了一种基于图文多模态特征融合的枸杞虫害识别方法，包括如下步骤，

下面针对上述方法的实施过程进行展开说明：

一、数据集准备

本实施例中，枸杞虫害图像与文本多模态数据集的获取方式为，

1、获取原始数据样本：

通过翻阅相关专业书籍、网络检索、向专家请教，获取每类枸杞虫害的描述信息，并编写对应的文本描述(具体的每一类枸杞虫害图像与文本描述如图1所示)，构建文本数据子集；所述文本数据子集包含每类枸杞虫害的学名简介、来源分布、生活习性、防治方法。

本实施例中，枸杞虫害图像与文本多模态数据集(WPIT9K)是以宁夏(经度：105.20357，维度：37.50570)常见的枸杞虫害为研究对象。通过上述方式图像数据子集与文本数据子集采集的原始样本为1900。

2、对原始数据样本进行扩充：

针对枸杞虫害图像与文本跨模态数据集学习样本过少，在复杂网络中容易发生过拟合的问题，对图像数据子集与文本数据子集同时采用数据增强技术对原始样本进行扩充，用于保证输入的一致性并提高模型泛化能力。

对图像数据子集，对每一个原始图像分别进行垂直翻转、随机调整亮度、随机裁剪、随机旋转，获取四类增强图像数据，共计7596张。

对文本数据子集，每一个文本描述分别进行随机插入、同义词替换、随机交换，获取四类增强文本数据，共计7596条。

3、获取枸杞虫害图像与文本多模态数据集：

将原始数据样本与扩充后的原始数据样本进行汇总，图像数据及其对应的文本描述样本各为9496份；其中，枸杞虫害图像和文本描述各自划分为T(可以根据实际需求进行设置，本实施例中设置为17)类，每一类对应其相应的枸杞虫害；以Wikipedia数据结构为基准，共同构成了枸杞虫害图像与文本多模态数据集(表1),称之为WPIT9K。此外，构建的枸杞虫害图像与文本描述它们具有一致性，预处理使输入模型前的虫害图像与文本描述成对出现，极大方便了多模态模型对其进行特征提取与编码，部分图像与文本对应联系如图2所示。然后，在随后的建模过程中以7：2：1的比例将其分为训练集、验证集和测试集。

表1枸杞虫害的图像与文本数据集(WPIT9K)说明

二、模型构建

1、拟议ITF-WPI的架构

本实施例中，提出一种名为ITF-WPI的图像与文本跨模态特征融合模型，ITF-WPI模型由两个主要构件组成，它们分别是图像编码器ImageEncoder-CoTN(CoTN)与文本编码器TextEncoder-ODLS(ODLS)。

对于图像编码器CoTN，它负责对输入图像与文本中的图像数据进行处理，以获取浅层和深层的图像特征；该结构融合了Transformer与注意力机制，共同解决了无法利用相邻特征之间丰富上下文信息的问题，使模型能够全局感知，增强视觉表示能力。文本编码器ODLS负责对输入图像与文本中的文本描述信息进行特征提取处理，主要结构由1D卷积与BiLSTM实现，1D卷积对输入文本提取有用信息，BiLSTM避免了丢失关键信息的缺陷，两者共同协作完成关键信息的记忆保留。CoTN与ODLS共同提取的图像与文本特征信息具相关性和互补性，融合特征信息处理后，多层感知器(MLP)目的是实现对枸杞虫害的识别分类。关于提高模型收敛能力，ODLS采用Word2Vec建立词向量完成嵌入层权重的初始化，CoTN则保留最优模型的权重数据作为预训练模型。整体模型的结构及技术路线如图3所示。

2、图像编码器CoTN

图像与文本跨模态特征融合模型ITF-WPI包含的图像编码器CoTN能够实现对图像特征的深度提取，该结构采用了Transformer风格的架构设计，能够充分利用输入键之间的上下文特征信息来指导动态注意矩阵的模式提取，从而增强了视觉表示的能力。

CoTN主要采用上下文Transformer网络(CoT)设计实现，它将上下文信息挖掘和自注意力学习集成到统一的结构中。如图4所示，输入的X是2D特征图，它的大小为H×W×C，其中H表示特征图高度，W表示特征图宽度，C表示特征图通道数，输入X可表示为接着分别按照键、查询和值三条流向进行不同的聚合操作，键定义为K＝X、查询定义为Q＝X、值定义为V＝Xw_v，w_v为嵌入矩阵，则利用图像编码器对输入图像与文本中的图像数据进行处理的具体过程为，

(1)、将特征图k×k网格内的所有邻居键在空间上执行k×k组卷积，以实现每个键的上下文表示，获取上下文语境键它能够反映本地邻居键之间的静态语境信息，因而将K¹作为输入X的静态上下文语境表示，其中，k为键变量。

(2)、将查询与输入的静态上下文语境表示进行连接，通过两个连续的1×1卷积获取上下文注意力矩阵A；所述上下文注意力矩阵A的每个空间位置都存在一个局部注意力矩阵；

A＝[K¹,Q]W_θW_δ。

其中，W_θ表示第一个1×1卷积有ReLU激活函数；W_δ表示第二个1×1卷积无激活函数。第一个1×1卷积具有ReLU激活函数，A的每个空间位置都会有一个局部注意力矩阵，该矩阵的学习不是基于独立的查询-键对，而是结合了查询特征和上下文关键特征，这种方法在利用静态上下文语境表示K¹的指导下，增强了自我注意力的学习效果。

(3)、根据上下文注意力矩阵，将每个空间位置的特征向量重塑为局部注意力矩阵(大小为C_h×k×k)，通过乘法汇总上下文注意力矩阵与所有值以获取局部注意力矩阵的聚合，该聚合为被关注的特征图K²，

鉴于参与的特征图K²能够捕获输入之间的动态特征交互，因此将其命名为输入的动态上下文语境表示，这个表示包含了输入中不同元素之间的相互作用，因此它能够提供比原始输入更丰富的信息，同时能够反映输入数据中的时序关系、相互依赖性和上下文信息，这些信息可以帮助模型更好地理解输入数据并做出准确的预测。

(4)、利用金字塔挤压注意力模块将输入的静态上下文语境表示和动态上下文语境表示进行多尺度特征融合，得到图像的最终输出，这种融合方式充分考虑了输入数据的静态和动态特征之间的关系，能够提高模型的准确性和鲁棒性。注意机制的使用使得模型能够动态地分配权重给不同的上下文表示，从而使得模型能够更好地适应不同的任务和输入数据。

本实施例中，如图5所示，所述图像编码器包括初始卷积层、最大池化层和多尺度特征融合层；初始卷积层使用7×7的滤波器以步幅2生成112×112特征图，随后使用3×3的最大池化层对特征图进行池化操作，以进一步提取特征。通过这个初始卷积层，能够从输入数据中提取出丰富的低级特征，为后续的计算奠定基础。

图像编码器中主要的结构就是多尺度特征融合层。多尺度特征融合层包括四个阶段，第一阶段至第四阶段采用了相似的网络结构，每个阶段被生成为2个具有相同深度的网络；上下文Transformer网络在每个阶段的网络中被重复使用2次，除使用普通的ReLU激活函数外，还利用Swish激活函数提高模型的稳定性和准确性。对于四个阶段网络生成的特征图，初始卷积特征图由第一阶段网络处理，得到256个通道56×56的特征图，此后，阶段2生成具有512个通道28×28的特征图，阶段3生成具有1024个通道14×14的特征图，阶段4生成具有2048个通道7×7的特征图，这部分特征的提取处理是一个累计的过程，由初始的颜色、纹理、边缘与棱角区域的低级特征到高级语义的抽象特征，这些高级别语义特征可以表示图像中的物体、场景和语义信息，具有更丰富的表达能力，并且上下文Transformer网络的加入，使得关注高级别语义特征的同时，更加注重语义特征的上下文信息。此外，为提高模型感知有用信息的能力，同时抑制不需要的噪声，在每个阶段的第一个网络中嵌入一个金字塔挤压注意力(Pyramid Squeeze Attention，PSA)模块，以有效地提高卷积神经网络的性能和表达能力，注意力机制结构(金字塔挤压注意力模块)以插件形式融入实现，方便测试过程顺利进行。

3、金字塔挤压注意力模块

金字塔挤压注意力模块可以探索多个尺度的通道特征信息，有利于在更细粒度的层面上有效地提取多尺度的空间信息，并自适应地重新校准跨通道注意力权重，从而丰富特征空间。图像编辑器CoTN的每个阶段块使用金字塔挤压注意力模块进行多尺度特征融合，图6显示了金字塔挤压注意力模块的具体流程：

(1)、将输入分成S组并计算不同组中每个通道的权重，每组卷积输出通道是一致的，由c/s计算得到，计算得到的多尺度特征表示为，

F_i＝Conv2d(k_i×k_i，G_i)(X)，(i＝0，1，…，S-1)；

其中，Conv2d为2维卷积运算；k_i为卷积核大小；G_i为第i个组卷积的参数；本实施例中，k_i由2×i+3确定，S组卷积核大小是k＝{3，5，7，9}，组数为G＝{1，4，8，16}。

(2)、连接多个分支的多尺度特征F_i得到整个多尺度特征图F∈R^H×w×C，

F＝Concat([F₀，F₁，…，F_S-1])

其中，Concat为多尺度特征图的连接操作；

(3)、将每个通道的多尺度特征F_i通过通道注意力机制SEWeight分别计算不同组的通道权重，

SEW＝Concat(SEWeight(F_i))，(i＝0，1，…，S-1)

(4)、利用Softmax函数重新校准多尺度通道注意力权重SEW，并对重新校准后的多尺度通道注意力权重与整个多尺度特征图F执行通道上的乘积运算操作，获取最终多尺度特征图F_out，

4、文本编码器ODLS

如图7所示，文本编码器ODLS的主要结构分为3层，包括词嵌入层、卷积网络层与记忆网络层。

(1)、词嵌入层将文本向量输入到网络中，文本向量区间是取批量文本向量的最大值，一般情况下，词嵌入层权重采用随机初始化，但为了加速收敛过程，过程中利用Word2Vec得到的词向量权重代替词嵌入层的初始化权重，实现词嵌入层权重的随机初始化，计算得到的词向量大小是1843。

(2)、通过堆叠的卷积层与池化层构建卷积网络层，由于1D卷积和池化相比2D卷积和池化的计算效率更高，因而卷积网络层采用1D卷积与池化建立。

(3)、考虑输入数据通常是由一个个单词或者字符组成的序列，这些单词或者字符之间存在着时间上的先后顺序，因此需要考虑上下文信息。记忆网络层采用的双向长短期记忆网络(BiLSTM)能够保留这种记忆能力，在结构上使用了2个BiLSTM，并且第一个BiLSTM堆叠了2个LSTM单元，堆叠LSTM单元能够加深这种类似于人行为上的记忆能力，但可能会出现过拟合，后又使用Dropout减少堆叠单元可能出现的过拟合现象，最终将记忆层的输出特征展平作为文本特征输入。

关于ITF-WPI图像与文本跨模态特征融合，通过将CoTN与ODLS网络输出的图像与文本特征在末端融合作为MLP头的输入，MLP隐藏层被定义为128，输出结果作为枸杞17类虫害的最终类型。

三、枸杞虫害识别

该部分对应步骤S2，具体包括如下内容，

1、将枸杞虫害图像与文本多模态数据集按照7∶2∶1的比例分为训练集、验证集和测试集。

2、利用训练集训练图像与文本跨模态特征融合模型，基于多种模型评价指标将训练好的图像与文本跨模态特征融合模型在测试集上进行测试，利用验证集对训练好的图像与文本跨模态特征融合模型进行K折交叉验证；最终获取训练好的评价最优的图像与文本跨模态特征融合模型。

3、将实时获取的枸杞虫害图像与文本数据输入到训练好的评价最优的图像与文本跨模态特征融合模型中，并将该模型中图像编码器最终输出的图像特征和文本编码器最终输出的文本特征输入到多层感知器中，将多层感知器的输出结果作为当前输入的枸杞虫害类型，实现枸杞虫害的识别分类。

本实施例中，虽然ITF-WPI模型中的CoTN网络嵌入了BN层，但为了加快模型收敛速度，对数据集随机采样并计算图像像素的平均值和标准偏差，并将得到的值对训练集进行标准化处理。由于Word2Vec能够学习单词在高维向量空间中的向量表示，并计算单词之间的余弦距离以显示其相关性，因此，可以方便找到描述文档中单词之间的语义关系。接下来，通过使用Word2Vec用于检查枸杞虫害描述单词之间的语义关系，绘制的所有单词向量二维空间投影如图8所示，它显示了从17类虫害名称中随机抽取9类虫害名称在二维空间的可视化关系，此外，Word2Vec构建的矩阵还用于初始化ODLS网络的词嵌入层。选择合适的学习率对模型的收敛速度和性能具有直接影响，本实施例中采用了一种称为余弦退火热重启策略的动态学习率调整方式。优化函数方面，采用了SGDR作为优化器，它具有周期性重启的机制，因此有可能使优化过程跳出局部最优解从而获得更好的分类性能并缩短训练时间。早停法是一种简单但有效的防止过拟合技术，在ITF-WPI模型的训练过程中进行了集成，并设置监测验证损失的耐心值为3。所有的实验都是用PyTorch实现的，表2显示了所提出的ITF-WPI模型的优化超参数值。

表2 Optimized hyperparameter values of the ITF-WPI model

本实施例中，使用枸杞虫害图像与文本数据集进行分类性能验证。数据集样本的数量直接影响模型的准确率，为验证模型在不同训练集数量训练的稳定性，将ITF-WPI模型在训练集训练，在对应测试数据集上进行测试。训练与测试的图像与文本样本容量分别为6647与949，测试过程中训练集样本容量依次增大，取得的模型在测试数据集验证。实验结果如表3所示，随着训练集样本容量的增大，模型的准确率依次增高，当训练集样本容量为5982与6647时，模型准确率接近，平均准确率为97.91％。表4显示了每个枸杞虫害的准确性，所有枸杞虫害平均准确率为97.98％，其中Adelgoidea与Carposinidae准确率较低，从视觉上分析，Adelgoidea类别中存在许多较难分辨与叶子颜色相似的害虫，Carposinidae类别中存在许多与其他害虫相似的形态，它们是造成准确率较低的主要原因。

本实施例中，为了全面评价模型性能，实验选用了四个常用的指标:准确率Accuracy、精确率Precision、灵敏度Sensitivity与F1分数F1-Score，以确定枸杞虫害分类的准确性。

根据模型检测真正类别和预测类别的组合，其中：TP_wolfberry表示正确被划分为正样本的个数(真阳性)；FP_wolfberry表示错误被划分为正样本的个数(假阳性)；FN_wolfberry表示错误被划分为负样本的个数(假阴性)；TN_wolfberry表示正确被划分为负样本的个数(真阴性)。

对于模型复杂度的估计，选择模型浮点数计算量(MACCs)和参数量(Params)作为评价重要指标。浮点计算量能从时间上反应模型的复杂度，参数量的大小直接与模型大小相关，同时也影响模型推理时对内存的占用量。换句话说，参数量直接决定模型大小和计算消耗，模型参数大小越大，所需的内存就越大。

本实施例中，为进一步验证模型准确率，使用枸杞虫害图像与文本数据集进行了额外的3折交叉验证实验。将验证集中的枸杞虫害图像与文本数据集分为了三个子集，每个子集互不相交分别有3165、3165和3165个图像，抽取其中一个子集作为测试数据集，剩余的两个子集作为训练数据集，训练集的20％作为验证集，整个过程重复3次，直到每个子集用作测试集，其余子集用作训练集。表5显示了3折交叉验证的实验结果，平均准确率为97.39％，与表3与表4相比准确率稍低，但精度损失控制在0.55％以内，因此，认为ITF-WPI模型的准确性不受K折交叉验证的影响。

表3 ITF-WPI模型在不同容量训练数据集的测试准确性(单位：％)

表4 ITF-WPI在WPIT9K数据集上的各类虫害准确率(单位：％)

表5通过对WPIT9K数据集进行3倍交叉验证的方法准确性(单位：％)

实施例二

本实施例中。为了验证图文多模态特征融合模型的有效性，进行了一些对比实验，实验内容及相关结论具体如下。

1、实验环境

实验在图形工作站进行，主要算法由微软VSCode和Python3.9.13执行，采用Pytorch深度学习框架，版本为1.13.1+cu117，TorchVision版本为0.14.1+cu117，多模态模型构建采用TorchMultimodal，由GPU使用和加速，CUDA及cuDNN版本为11.7，图像绘制选择Matplotlib和Seaborn，性能评价选择Scikit-learn。操作系统采用Windows11专业工作站版本，英特尔i9-13900KF处理器，存储器选择第四代DDR4，128.00GB内存，显卡NVIDIAGeForce RTX 3090，24GB显存，2T固态硬盘。

2、迁移学习实验

迁移学习(TL)是指将一个已经训练好的模型知识迁移到另一个相关任务上的过程。通过这种方法，可以使用已经学到的知识，加速训练，提高模型的泛化能力。在本实施例中，ITF-WPI模型的分支结构CoTN与ODLS网络可以作为独立部分参与到知识迁移的过程。CoTN网络利用枸杞虫害图像与文本多模态数据集中的图像数据部分生成预加权，并在集成到ITF-WPI模型时只改变原有的全连接层。ODLS网络初始部分的词嵌入层为知识迁移提供了方便，通过Word2Vec方法训练得到的词向量作为词嵌入层初始化权重。CoTN与ODLS网络在ITF-WPI模型训练前完成各自权重的初始化，可以看作是从图像与文本两个方面对跨模态模型权重初始化的整体知识迁移方案。结果如图9所示，采用知识迁移的ITF-WPI模型拥有比普通训练更低的损失值和更高的准确率。起始训练时，迁移学习的验证损失值至少比普通训练的训练损失值低5％，迁移学习的验证准确率至少比普通训练的训练准确率高21.5％，并且迁移学习相比普通训练提前5个Epochs达到最高准确率，收敛速度明显更快。准确率曲线与损失曲线总体上具有相似的形态，曲线形态振幅较大的原因是余弦退火热重启策略动态调整学习率所导致。

3、注意力机制实验

深度卷积神经网络模型中注意力机制被广泛应用，因为它能够提供给模型对重要信息的关注度，进而提高模型性能。在ITF-WPI模型的CoTN网络结构中集成PSA机制，为了验证其他注意力机制对模型性能的影响，选择可以灵活地集成到现有网络架构中并且被广泛使用的注意力机制结构进行测试。具体包括，在通道维度增加注意力机制的SENet，SENet的核心单元是Squeeze-and-Excitation(SE)模块；Effective Squeeze-Excitation(ESE)模块作为SENet的改进版本，解决了增维和降维过程中信息丢失的问题，增加了模型对信道信息的关注度；Efficient Channel Attention(ECA)模块能够以较低的模型复杂性有效学习信道注意力；卷积块注意力模块(Convolutional block attention module,CBAM)采用串联结构使通道注意力与空间注意力融合,实现从通道到空间顺序的注意力结构；ParNet是一种新型的注意力模块，该结构由多个并行的子网络组成，每个子网络分别负责提取不同层次的特征信息，并通过注意力机制将不同尺度的特征信息进行融合。以上注意力结构被嵌入到ITF-WPI模型的CoTN网络结构进行测试，图10显示了实验结果。PSA注意力结构取得了97.98％的最高准确率，模型参数为52.20M，PSA与ParNet注意力结构具有相似的准确性，但PSA模型参数比ParNet低31.88％，PSA与ParNet至少比CBAM准确率高1.72％，但模型参数平均却比CBAM多了75.11％。因此，较多参数的注意力机制结构带来更好的性能，但却对训练设备提出了更高的要求，应根据实际情况选择合适的注意力机制结构。

4、消融实验

对ITF-WPI模型涉及的主要方法结构进行消融实验。CoTN与ODLS两大网络结构构成了ITF-WPI模型，其中，CoTN网络采用的CoT结构能够对输入键之间的上下文信息进行提取，以及提取多尺度空间信息的PSA注意力机制。ODLS网络主要采用的方法包括，Word2Vec提取的词向量初始化嵌入层权重，记忆网络层使用的第一层BiLSTM(BiLSTM-One)和第二层BiLSTM(BiLSTM-Two)。考虑输入文本结构的特殊性，实验中ODLS网络的记忆网络层始终保证存在LSTM单元，以上5种技巧进行组合消融验证，实验结果如表6所示。CoT结构的介入使ITF-WPI模型的准确率提高了2.92％，相比于PSA注意力机制提高了2.31％，CoT与PSA两者共同使准确率提高了3.68％，基于Transformer风格的CoT结构对ITF-WPI模型性能的提升最为显著。BiLSTM-One相比于BiLSTM-Two准确率提升了0.84，这归结于BiLSTM-One具有的2个LSTM单元并增加了Dropout层，实验序列7-9证明了Word2Vec几乎不影响ITF-WPI模型的性能，组合的5种方法使分类的准确性接近98％。另一方面，验证ODLS记忆网络层堆叠BiLSTM是否合理，在原始记忆网络层堆叠四层BiLSTM进行比较(表7)。初始堆叠的BiLSTM超过了ODLS网络0.14％的准确性，参数量与MACC分别增加了1.19M与0.058(表7第1-2行)，后续堆叠的BiLSTM使准确性变得更低，同时还带来了更多的计算负担。基于上述结果，在综合性能与计算量合理性的前提下，ITF-WPI跨模态模型表现出较优的性能。

表6 ITF-WPI模型的消融实验

表7 ODLS网络堆叠BiLSTM层的性能实验结果

5、SOTA模型的一般比较

(1)CoTN与SOTA模型的比较分析

将彻底验证ITF-WPI模型的性能和可推广性。由于ITF-WPI模型是CoTN与ODLS两大网络结构构成，并且CoTN与ODLS分别负责图像与文本的编码工作，所以将选择不同的模型作为特征提取结构分开验证，验证工作基于枸杞虫害WPIT9K数据集开展。对于CoTN网络，评估了十个SOTA模型(AlexNet，ResNet50，ShuffleNetV2，MobileNetV3，InceptionV3,ResNeXt50,SwinTransformer V2(SwinTV2-Small),VisionTransformer-B/16(ViT-B/16),ConvNeXt(ConvNeXt-Small)),这些模型是截止到目前最具有影响力的模型,这些模型结构与权重参数可以从Torchvision模型库中获得，除ResNet50与ResNeXt50使用IMAGENET1K_V2权重，其余均使用IMAGENET1K_V1权重。此外，定制模型能够支持细分行业特征和更复杂的应用场景，这些模型结构具有一定的比较价值，例如：Wang等提出了改进SwinTransformer的骨干网络用于增强黄瓜叶病害识别性能。Wu等基于SE注意力机制、Swish损失函数和优化器Ranger，提出了改进的ResNet-50深度学习算法用于鸡性别识别。Bao等基于CA注意力机制提出一种改进的DenseNet-CNN模型(CA_DenseNet_BC_40)，用于对棉蚜虫造成的损害进行分类。Ma等改进VGG16结构，提出了轻量级的CNN深度学习模型(CornNet)，用于对玉米穗种子分类。为了满足本实施例中ITF-WPI模型两个子网络的特征融合，所有比较模型的最后一个FC的神经元数量改为17，由于没有改变比较模型骨干网络的结构，因此可以采用迁移学习的方法进行训练，以确保本实施例中实验结果的可信度。

经典的4个SOTA神经网络(AlexNet，ResNet50，InceptionV3，ResNeXt50-32x4d)模型的平均准确率为89.06％，F1得分为87.72％，低于仅融合使用PSA注意力机制ITF-WPI模型准确率的4.5％，同时比采用CoT结构的准确率低6.81％(表6)，改进的ResNet-50虽然高于经典SOTA神经网络模型，但准确性仍低于ITF-WPI，另外，在模型计算和参数大小方面，仅使用CoT结构的ITF-WPI模型更有优势。

轻量级SOTA神经网络(ShuffleNetV2×0.5与MobileNetV3-large)与改进的轻量级神经网络模型(CA_DenseNet_BC_40与CornNet)的平均准确率为84.7％，F1得分为84.11％，低于ITF-WPI模型，但轻量化模型较低计算平台的资源需求，特征场景下可以用于集成到跨模态模型。

基于Transformer结构的神经网络(SwinTV2-Small，ViT-B/16与Improved SwinT)平均准确率为98.44％，F1得分为97.86％，ConvNeXt作为将SwinT与ViT的所有特殊设计集于一身之后的卷积网络进化版，它升级了ResNet架构，取得Transformer结构网络相当的准确率，ITF-WPI模型相比前者拥有更低的模型参数，与ViT-B/16相比准确率降低了0.66％，但模型参数仅占3/5，MACC降低33.27％。虽然SwinTV2-Small取得了最优计算性能，但比较仅融合CoT结构的ITF-WPI模型MACC多了62.28％，准确性仅提高了2.25％，证明了基于Transformer风格CoT结构的强大优势，也表明了CoT结构在跨模态模型中对于增强视觉表示能力的全面性。

表8不同DL模型在CoTN网络实验结果

(2)ODLS与SOTA模型的比较分析

ODLS网络主要由CNN层与记忆网络层完成特征提取与传递，本质上是堆叠CNN与LSTM层构成的神经网络(CNN-LSTM)。为了与其他先进结构神经网络对比，选择了4个自定义建立的CNN-LSTM网络。这些模型是，依据土壤温度场时空特征来预测出水温度的模型(CNN-LSTM-A)，混合CNN-LSTM模型(Hybrid CNN-LSTM)预测印度每天的COVID-19新病例，挖掘三文鱼储存过程中温度变化预测三文鱼的新鲜度模型(CNN-LSTM-B)，一维CNN实现孤岛检测的深度学习模型(CNN-LSTM-C)。实现了这些研究中提出的网络结构，并集成到ITF-WPI模型进行测试。表9显示了四个模型的实验结果。CNN-LSTM-C模型取得了98.21％的最优准确率，相比ITF-WPI模型准确率提高0.23％。ITF-WPI的准确性是次优的，并且拥有相比其他四个CNN-LSTM模型更低的模型参数，另外MACC相比CNN-LSTM-C低了30％。从模型结构分析，CNN-LSTM-C与ITF-WPI具有相似的结构，它们都选择了在CNN-LSTM的CNN结构上堆叠更多的1维卷积与1维最大池化层，需要说明的是，ITF-WPI在CNN-L STM的LSTM结构上采用了BiLSTM，并且选择了更少的单元数，因此可以保持较低的模参数与MACC。CNN-LSTM-A，Hybrid CNN-LSTM与CNN-LSTM-B都将位于CNN-LSTM的CNN结构上提取的特征转换为一维向量，这直接影响到了它们的准确性。CNN-LSTM-A采用的2维卷积导致计算成本增加，同时也会增加模型的复杂度，因此不适宜用于对序列化数据进行特征提取。

表9不同CNN-LSTM模型在ODLS网络实验结果

6、感兴趣区域可视化

ITF-WPI模型的训练取得了初步成功，但模型内部的解释机制仍不清楚。通过模型可视化解释对特征提取的效果能够较好表达模型内部的机制。本实施例中，将梯度加权类激活映射(Grad-CAM)算法应用到模型的可解释性研究当中，Grad-CAM激活图的幅度表示了原图像中对应位置的像素对分类结果的影响程度,故激活图最强的位置即为目标所在的位置，即模型感兴趣区域(ROI)。图11显示了三类模型实际的枸杞虫害识别热图，具有PSA的ITF-WPI模型具有更大的感受野，相比融合CBAM的ITF-WPI与ITF-WPI能够覆盖更广的重要区域，以凸显预测目标的概念。没有使用任何注意力机制的ITF-WPI能够依据对象进行重要区域识别(右边第三排第1-2张图)，减少了冗余区域的覆盖，而其他两个模型未显示出此特性的ROI热图。融合CBAM与未采用注意力机制的ITF-WPI存在丢失重要识别对象区域的情况(左边第二与三排第1张图)，但都能正常对该图像分类，因此作为分类任务不会影响到识别的准确性。以上证明，ITF-WPI具有的CoT结构与PSA都对模型起到了关键性的作用。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提出一种基于图文多模态特征融合的枸杞虫害识别方法，提出的图像与文本跨模态特征融合模型，解决了复杂农业环境中枸杞虫害的识别和分类，促进了跨模态在农业领域和枸杞虫害防治的研究发展，降低了农药使用率，保护农业生态系统。利用图像编码器和文本编码器分别进行图像特征提取和文本体征提取，利用金字塔挤压注意力模块对图像特征和文本特征进行融合，这种融合方式充分考虑了输入数据的静态和动态特征之间的关系，能够提高模型的准确性和鲁棒性。图像编码器采用了上下文Transformer网络结构设计，能够充分利用输入键之间的上下文特征信息来指导动态注意矩阵的模式提取，从而增强了视觉表示的能力。模型中的金字塔挤压注意力模块能够探索多个尺度的通道特征信息，有利于在更细粒度的层面上有效地提取多尺度的空间信息，并自适应地重新校准跨通道注意力权重，从而丰富特征空间。金字塔挤压注意力模块的使用使得模型能够动态地分配权重给不同的上下文表示，从而使得模型能够更好地适应不同的任务和输入数据。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于图文多模态特征融合的枸杞虫害识别方法，其特征在于：包括如下步骤，

S2、基于多种模型评价指标，利用枸杞虫害图像与文本多模态数据集训练、测试、验证图像与文本跨模态特征融合模型，并利用训练好的评价最优的图像与文本跨模态特征融合模型结合多层感知器对枸杞虫害进行识别分类；

其中：图像编码器的输入为2D特征图，大小为H×W×C，H为特征图高度，W为特征图宽度，C为特征图通道数；输入表示为将输入分别按照键、查询和值三条流向进行不同的聚合操作，键定义为K＝X、查询定义为Q＝X、值定义为V＝Xw_v，w_v为嵌入矩阵，以对输入图像与文本中的图像进行处理，具体过程为，

S111、将特征图k×k网格内的所有邻居键在空间上执行k×k组卷积，以实现每个键的上下文表示，获取上下文语境键K¹,即输入的静态上下文语境表示；其中，k为键变量；

A＝[K¹,Q]W_θW_δ；

S114、利用金字塔挤压注意力模块将输入的静态上下文语境表示和动态上下文语境表示进行多尺度特征融合，得到图像的最终输出；

其中：所述图像编码器包括初始卷积层、最大池化层和多尺度特征融合层；

所述多尺度特征融合层中的损失函数为ReLU激活函数和Swish激活函数；

其中：使用金字塔挤压注意力模块进行多尺度特征融合的具体过程为，

F_i＝Conv2d(k_i×k_i,G_i)(X),(i＝0,1,…,S-1)；

F＝Concat([F₀,F₁,…,F_S-1])

其中，Concat为多尺度特征图的连接操作；

SEW＝Concat(SEWeight(F_i)),(i＝0,1,…,S-1)

其中：文本编码器的结构包括词嵌入层、卷积网络层和记忆网络层；所述文本编码器对输入图像与文本中的文本描述信息进行特征提取处理的具体过程为，

2.根据权利要求1所述的基于图文多模态特征融合的枸杞虫害识别方法，其特征在于：步骤S2具体包括如下内容，

3.根据权利要求2所述的基于图文多模态特征融合的枸杞虫害识别方法，其特征在于：对枸杞虫害图像与文本多模态数据集进行随机采样并计算图像像素的平均值和标准偏差，利用获取的值对训练集进行标准化处理，并利用标准化处理后的训练集对图像与文本跨模态特征融合模型进行训练。

4.根据权利要求2所述的基于图文多模态特征融合的枸杞虫害识别方法，其特征在于：在图像与文本跨模态特征融合模型的训练过程中，采用余弦退火热重启策略的动态学习率调整方式对模型进行训练，并采用SGDR作为优化器实现函数优化，在训练过程中集成早停法以防止过拟合。

5.根据权利要求2所述的基于图文多模态特征融合的枸杞虫害识别方法，其特征在于：所述模型评价指标包括准确率、精确率、灵敏度和F1分数；并利用模型浮点数计算量和参数量作为模型复杂度的评价指标。

6.根据权利要求2所述的基于图文多模态特征融合的枸杞虫害识别方法，其特征在于：枸杞虫害图像与文本多模态数据集的获取方式为，

S201、获取原始数据样本：

S202、对原始数据样本进行扩充：

对文本数据子集，每一个文本描述分别进行随机插入、同义词替换、随机交换，获取三类增强文本数据；

S203、获取枸杞虫害图像与文本多模态数据集：