CN115810123A

CN115810123A - 基于注意力机制和改进特征融合的小目标害虫检测方法

Info

Publication number: CN115810123A
Application number: CN202211522257.4A
Authority: CN
Inventors: 戴凡杰; 万里
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-17

Abstract

本发明提出了一种基于注意力机制和改进特征融合的小目标害虫检测方法，包括以下步骤：S1，获取害虫图像数据集并进行预处理，所述预处理包括镜像翻转和/或随机旋转；S2，将采集的小目标害虫图像数据输入检测模型进行模型训练；S3，将待测的小目标害虫图像输入训练完毕的检测模型得到检测结果。本发明基于深度学习的图像识别技术通过大量的模型参数自主学习，能够获得图像的全局特征和细节特征，对不同环境下的小目标害虫都有较好的鲁棒性和泛化能力。

Description

基于注意力机制和改进特征融合的小目标害虫检测方法

技术领域

本发明涉及虫害图像识别技术领域，特别是涉及一种基于注意力机制和改进特征融合的小目标害虫检测方法。

背景技术

目前，基于模式识别的害虫检测方法虽然已经比较成熟，但在针对小目标害虫的检测方面仍然存在着一些问题：

(1)小目标害虫图像主要来源于实验室环境下的拍摄，因此图像不具备野生自然环境下的复杂特征，这使得训练出来的检测模型不具备泛化能力。

(2)小目标的定义是面积小于32*32的物体，由此导致目标携带的信息少，特征表达能力弱，在基于深层卷积神经网络的机器学习算法上，目标特征在深层次的信息缺失，不能提取到有效的特征，从而导致检测精度下降。

(3)目前较为流行的网络模型大多非常复杂，计算量比较大，对计算能力的要求比较高，训练时间较长。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了基于注意力机制和改进特征融合的小目标害虫检测方法。

为了实现本发明的上述目的，本发明提供了一种基于注意力机制和改进特征融合的小目标害虫检测方法，包括以下步骤：

S1，获取害虫图像数据集并进行预处理，所述预处理包括镜像翻转和/或随机旋转；

S2，将采集的小目标害虫图像数据输入检测模型进行模型训练；

S3，将待测的小目标害虫图像输入训练完毕的检测模型得到检测结果。

进一步地，所述的检测模型包括：

VGG16网络，作为主干网络用于特征提取；

在所述VGG16提取特征之后为注意力机制，使得特征覆盖到待识别物体的更多部位，能让网络学会关注到小目标信息，最终判别物体的几率也更高。

在所述注意力机制后为特征融合，用于保留网络中的浅层信息，通过特征融合，将低分辨率但语义强的特征和高分辨率但语义弱的特征结合起来。

将注意力机制和改进的特征融合机制相结合，从空间和通道这两个维度关注小目标特征信息，并同时融合细节特征和全局特征，提升模型对于小目标害虫的检测精度。

进一步地，所述注意力机制采用CBAM，包括通道注意力模块和空间注意力模块，包括如下步骤：

将VGG16提取的特征图T_S输入通道注意力模块，通道注意力模块对特征图分别进行最大池化和平均池化，然后分别经过全连接层先降低维度再升高维度，最后将处理之后的特征图相加；

将相加后的特征图与VGG16提取的特征图T_S进行相乘，作为空间注意力模块的输入X_S，空间注意力模块首先在通道维度上进行平均池化和最大池化，然后将他们产生的特征图进行拼接，然后进行卷积操作，再通过sigmoid激活函数，将通过激活函数的特征图与特征图X_S进行相乘操作，得到特征图K_C，将特征图K_C与VGG16提取的特征图T_S相加，得到经过注意力机制的特征图。

CBAM具有轻量化，不复杂，计算量小的特点，此外，相较于传统的基于神经网络的注意力机制关注通道维度，CBAM从通道和空间两个维度考虑，能保留更多有效特征。通道注意力模块用于聚焦特征图中有什么有用的信息，空间注意力模块用于聚焦特征图中信息的位置。

进一步地，所述特征融合采用改进FPN，包括以下步骤：

S00，通过注意力机制得到若干层特征图，利用残差分支将最高层特征图按照三种不同的比例尺度划分，并经过自适应池化计算得到三种特征图adaptpool_features，然后经过卷积操作将所述三种特征图的通道大小统一；

所述比例尺度不超过0.5，因为比例过大可能会损失一些信息。

S10，将大小统一的三种特征图分别经过最近邻上采样，将经过最近邻上采样的三种特征图逐元素相加进行融合特征，得到融合的特征图；

S20，将所述融合的特征图与三种特征图adaptpool_features分别相乘然后逐元素相加来融合特征得到该残差分支的目标特征图，然后再与最高层特征图逐元素相加得到adap_featrue代替高层特征图；

S30，将adap_featrue与其它层特征图依次自上而下逐层融合，得到检测结果。

所述特征融合是在原有FPN的基础结构上对高层特征引入了残差网络结构的思想，对最高层特征图加入残差分支能够注入不同的空间上下文信息，减少高层特征在融合过程中的信息损失，同时提高性能。

进一步地，所述自上而下逐层融合是上层特征图采用2倍最近邻上采样与下层特征图逐元素相加来融合特征；

所述上采样的低层特征图权值赋为0.5，这样能够利用高层语义信息对低层特征图进行增强。

所述检测模型的损失函数为：

L＝L_{CrossEntropy Loss}+L_Giou#(6)

其中，L_{CrossEntropy Loss}为类别损失；

L_Giou为位置损失。

在训练时考虑了位置损失Giou Loss，能避免Bbox和ground truth没有重合导致无法优化的情况。

综上所述，由于采用了上述技术方案，相比传统算法中人工设计的特征难以提取出深层学习的图像特征信息，本发明基于深度学习的图像识别技术通过大量的模型参数自主学习，能够获得图像的全局特征和细节特征，对不同环境下的小目标害虫都有较好的鲁棒性和泛化能力。具体优点为：

(1)能够在关注到小目标物体特征信息的同时保留多种上下文细节，融合低层信息，提高检测的精度。

(2)在保证检测精度提升的同时，计算量低，训练时间少。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的整体流程图。

图2是本发明的算法流程图。

图3是本发明注意力机制示意图。

图4是本发明改进FPN示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

对于常见的小目标农田害虫，本发明能够提供一种轻量级的小目标害虫检测算法，使其能够在目标像素少，特征信息不明显的情况下达到计算量较小且精度较高的识别准确率。本发明中轻量级小目标害虫检测模型的整体流程如图一所示：首先由专家进行害虫图像数据的采集，筛选，经过数据增强，形成训练集，将训练集中的样本数据训练本发明提出的模型，得到最终的害虫检测器

基于注意力机制和改进特征融合的轻量级小目标害虫检测方法的整体流程如图1所示：

S1，采集小目标害虫图像数据；

S2，将采集的图像数据存入小目标害虫图像数据库；

S3，从小目标害虫图像数据库提取数据集，对数据集进行预处理；所述预处理有镜像翻转、随机旋转等技术。

S4，将预处理后的数据集输入检测模型，进行模型训练；

S5，训练完毕的检测模型作为小目标害虫检测器；

S6，将待测小目标害虫图像输入小目标害虫检测器，得到检测结果。

所述检测模型是基于注意力机制和改进特征融合的轻量级小目标害虫检测算法实现的，所述小目标害虫检测算法的流程图如图2所示：

先经过VGG16进行特征提取，然后通过注意力机制和改进特征融合得到检测结果，所述监测结果包括位置以及类别信息。

注意力机制：

由于图片中小目标特征信息较少，使得网络很难去关注到此类目标，会造成小目标检测精度低。为了关注样本中的小目标物体，采用注意机制来增加表征能力，关注重要特征，抑制不必要特征，这种利用空间和通道注意的有效的架构可以无缝地集合到任何CNN架构中，开销可以忽略不计，并且可以与基本的CNN一起进行端到端的训练。

因此，本发明在VGG16提取特征之后引入注意力机制，可以使得特征覆盖到待识别物体的更多部位，能让网络学会关注到小目标信息，最终判别物体的几率也更高。

引入的CBAM注意力机制能够串行的在通道和空间两个维度上产生注意力特征图信息，注意力机制示意图如图3所示：将VGG16提取的特征图T_S先经过通道注意力模块再经过空间注意力模块。通道注意力模块对特征图分别进行最大池化和平均池化，然后分别经过全连接层先降低维度再升高维度，最后将处理之后的特征图相加；将相加后的特征图与VGG16提取的特征图T_S进行相乘，作为空间注意力模块的输入X_S，空间注意力模块首先在通道维度上进行平均池化和最大池化，然后将他们产生的特征图进行拼接，然后进行卷积操作，再通过sigmoid激活函数，将通过激活函数的特征图与特征图X_S进行相乘操作，得到特征图K_C，将特征图K_C与VGG16提取的特征图T_S相加，得到经过注意力机制的特征图。通道注意力模块用于聚焦特征图中有什么有用的信息，空间注意力模块用于聚焦特征图中信息的位置。

给定一个中间的特征图，注意力模块沿着通道和空间两个维度依次推导特征图，然后将处理之后的特征图和输入的特征图进行自适应的特征细化。该模块包括通道和空间两个维度：

通道注意力模块首先通过平均池化和最大池化生成两个不同的空间上下文描述符，分别表示平均池化特征和最大池化特征，然后这两个空间描述符被转发到一个共享网络，来产生注意力映射，映射的结果与输入的特征图使用逐元素求和的方式产生最终的特征图：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))#(1)

其中σ是sigmoid函数，MLP表示包含一个隐藏层的多层感知器，AvgPool表示平均池化操作，MaxPool表示最大池化操作，F是输入的特征图。

空间注意力模块首先沿着通道维度应用平均池化和最大池化操作，并将他们连接起来生成一个有效的特征描述符，然后在连接的特征描述符上，应用卷积层生成空间注意力特征图，最后通过sigmoid函数进行标准化得到最终注意力特征图：

M_s(F)＝σ(f^7*7([AvgPool(F)；MaxPool(F)]))#(2)

其中，σ表示sigmoid函数，AvgPool表示平均池化操作，MaxPool表示最大池化操作，f^7*7为7*7的卷积运算，F是输入的特征图。

改进的特征融合：

通常在深度神经网络的层层卷积之后，小目标物体的信息变得几乎很少，为了保留网络中的浅层信息，将VGG16不同阶段提取到的特征图通过从上而下的路径横向连接，来将低分辨率但语义强的特征和高分辨率但语义弱的特征结合起来，在原有FPN的基础结构上对高层特征引入了残差网络结构的思想，高层特征副本先进行自适应池化模块，即对conv_6提取的高层特征分三层进行自适应性池化为1*1，3*3，5*5大小，然后上采样成原来特征图的尺寸并进行融合，最后进行一系列卷积操作产生新的高层特征，特征副本再与原特征融合，形成的新特征图，最后再与conv_5、conv_4和conv_3提取的特征进行特征融合，对最高层特征图加入残差分支能够注入不同的空间上下文信息，减少高层特征在融合过程中的信息损失，同时提高性能。

目前通常利用特征金字塔来探测不同尺度的物体，为了减少不同尺度特征下的语义差异，减少最高层特征中小目标信息的损失，在改进的特征融合中，在最高层特征中利用残差分支中注入不同的空间上下文信息，对应生成3个不同比例的特征图，使用自适应空间融合来融合这3个特征图，生成的特征与输入的特征图相加得到全新的高层特征，然后再依次自上而下逐层融合，实施过程中，为了更加关注高层语义信息，将上采样的低层特征图权值赋为0.5，这样能够利用高层语义信息对低层特征图进行增强。

具体实施细节如下：从主干网络VGG16提取的特征为(Conv_3,Conv_4,Conv_5,Conv_6)，一条残差分支为将Conv_6按照三种不同的比例尺度0.1，0.2，0.3，分别输出(h*0.1)*(w*0.1),(h*0.2)*(w*0.2),(h*0.3)*(w*0.3)的特征图，然后经过自适应池化计算成三种特征图adaptpool_features，分别为1024*1*1，1024*3*3，1024*5*5，经过卷积操作将通道统一成256通道，然后分别经过最近邻上采样得到三种同为256*18*18维度的特征图，将三种特征图逐元素相加来融合特征，得到758*18*18的特征图，该特征图与adaptpool_features分别相乘然后逐元素相加来融合特征得到该残差分支的目标特征图256*18*18然后再与Conv_6逐元素相加得到Conv_6_adap_featrue取代Conv_6，得到待特征融合的特征：Conv_3,Conv_4,Conv_5,Conv_6_adap_featrue。依次将上层特征2倍最近邻上采样再与下层特征图逐元素相加来融合特征，如图4所示：Conv_6_adap_featrue作为上层特征，进行2倍最近邻上采样，然后与下层特征图Conv_5逐元素相加来融合特征，得到融合特征一；Conv_5作为上层特征，进行2倍最近邻上采样，然后与下层特征图Conv_4逐元素相加来融合特征，得到融合特征二；Conv_4作为上层特征，进行2倍最近邻上采样，然后与下层特征图Conv_3逐元素相加来融合特征，得到融合特征三；最后将Conv_6_adap_featrue、融合特征一、融合特征二、融合特征三输出，得到监测结果。

值得注意的是为了增强位置信息以及全局信息，在融合之前会对上采样之后的特征图赋以0.5倍权值。

特征提取：

利用轻量级网络VGG16主干网络用于特征提取，在VGG16的基础上新增了额外的卷积层用来获得更多的特征图，目的是为了同时保留低层的位置信息和高层的语义信息，网络使用了4个不同的特征图来检测不同尺度的目标，低层预测小目标，高层预测大目标，并将其采用以上的方法处理之后进行融合然后用来做分类和定位，在野外的环境下，检测的目标纷繁复杂，为了减少训练时间和成本，我们给模型加入了先验知识，即采用了在大规模数据集ImageNet上预训练好的VGG16模型进行迁移学习，利用模型的先验知识来提高模型的检测能力，在目标比较小的情况之下有较好的识别能力。

特征提取器(主干网络)可以采用各种针对图像特征提取的卷积神经网络。为达到较好效果，要求采取的特征提取器需要在ImageNet上进行预训练。提取的特征向量z表示如下：

z＝f(I；θ)#(3)

其中，I表示输入图像，f表示特征提取器。特征提取过程中的中间特征图A用于下一阶段的显著性目标定位。

损失计算：

损失用来衡量模型预测结果和真实结果之间的差距，并直接反馈于参数的优化。本算法采用了两个损失函数：位置损失采用Giou loss。Giou loss用来解决目标重叠的情况，由于野生环境中目标之间重叠的情况很常见，而一般的交叉熵损失没有考虑到重叠区域的损失计算而且会产生梯度为0的情况，Giou loss在计算时考虑到了重叠区域，能够缓解目标重叠造成的定位检测不准确的问题。

训练过程中的整体损失由CrossEntropy Loss和Giou loss两部分构成。类别损失CrossEntropy Loss，L_{CrossEntropy Loss}可以表示如下：

其中，N表示样本数量；M表示类别数量；y_ic表示符号函数(0或1)，如果样本i的真实类别等于c则取1，否则取0；p_ic表示观测样本i属于类别c的预测概率。位置损失Giou loss，L_Giou可以表示如下：

其中，A和B分别表示Bbox和ground truth，C表示包围A和B的最小包围框，Bbox表示预测目标矩形框，ground truth是标注目标矩形框，C/(A∪B)表示A和B的最小包围框/a和b的面积和，绝对值表示面积。

训练过程中的总损失L表示如下：

L＝L_{CrossEntropy Loss}+L_Giou#(6)

以上步骤用于模型的训练，而训练完成之后的模型推理过程与通用物体检测一致，都需要进行注意力机制和特征融合的步骤。

在通用公开数据集VOC2007上，本发明的算法在map指标上提升明显。充分证明了本发明中算法的有效性。在VOC2007数据集上的结果如下：

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于注意力机制和改进特征融合的小目标害虫检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于注意力机制和改进特征融合的小目标害虫检测方法，其特征在于，所述的检测模型包括：

VGG16网络，作为主干网络用于特征提取；在所述VGG16提取特征之后为注意力机制，在所述注意力机制后为特征融合。

3.根据权利要求1所述的一种基于注意力机制和改进特征融合的小目标害虫检测方法，其特征在于，所述注意力机制采用CBAM，包括通道注意力模块和空间注意力模块，包括如下步骤：

4.根据权利要求1所述的一种基于注意力机制和改进特征融合的小目标害虫检测方法，其特征在于，所述特征融合采用改进FPN，包括以下步骤：

5.根据权利要求4所述的一种基于注意力机制和改进特征融合的小目标害虫检测方法，其特征在于，所述自上而下逐层融合是上层特征图采用2倍最近邻上采样与下层特征图逐元素相加来融合特征；所述上采样的低层特征图权值赋为0.5。

6.根据权利要求4所述的一种基于注意力机制和改进特征融合的小目标害虫检测方法，其特征在于，所述检测模型的损失函数为：

L＝L_{CrossEntropy Loss}+L_Gioi#(6)

其中，L_{CrossEntropy Loss}为类别损失；

L_Giou为位置损失。