CN113239825A

CN113239825A - 一种复杂场景下高精度烟草甲虫检测方法

Info

Publication number: CN113239825A
Application number: CN202110545421.2A
Authority: CN
Inventors: 张宝; 张婧; 徐庆; 魏东梅; 李小霞; 卓亮; 张东; 韩翔雨; 何林洋
Original assignee: China Tobacco Sichuan Industrial Co Ltd; Southwest University of Science and Technology
Current assignee: China Tobacco Sichuan Industrial Co Ltd; Southwest University of Science and Technology
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-10
Anticipated expiration: 2041-05-19
Also published as: CN113239825B

Abstract

本发明公开一种复杂场景下高精度烟草甲虫检测方法，包括构建拟合复杂环境和多分布场景的烟草甲虫数据集；搭建结合多尺度可变形卷积和双重注意力的DCA模块；搭建基于DCA模块的特征金字塔网络，以及由特征提取网络Resnet50、特征金字塔网络DCA‑FPN和目标检测框架FasterR‑CNN构成的复杂场景烟草甲虫小目标检测网络；在自建数据集上对提出的网络模型进行训练和测试。本发明使用多尺度可变形卷积能够拟合多场景下烟草甲虫空间几何形变特征，获取烟草甲虫的多种形状和姿态等有效特征，针对性地减少了复杂环境的背景内容或前景区域的无效信息的影响。还利用双重注意力DCA模块进行冗余特征的消除，实现局部跨通道和空间的信息交互，提高烟草甲虫检测在复杂场境下的分类性能。

Description

一种复杂场景下高精度烟草甲虫检测方法

技术领域

本发明涉及计算机视觉的图像处理技术领域，尤其涉及一种复杂场景下高精度烟草甲虫检测方法。

背景技术

卷烟生产车间空间面积大，环境常年恒温恒湿，设备内有积存的烟末烟丝，这为烟草甲虫提供了良好的生存环境。烟草甲虫会严重影响卷烟质量，虫情监控是烟草甲防治最重要的环节。传统的烟草甲虫检测方法主要依靠人工计数，其人力成本高、效率低、实时性差。因此，基于计算机视觉技术实现烟草甲图像自动采集和目标检测具有重要意义。

小目标由于特征缺失很容易造成漏检。因此，特征金字塔网络(Feature PyramidNetworks,FPN)构建了多尺度金字塔结构，通过引入具有侧向连接的自上而下的途径，将低分辨率、大感受野特征与高分辨率、小感受野特征相结合，检测不同尺度的目标。CARAFE利用一种全新的上采样方式融入特征金字塔中，以此获得更大的感受野，ASPP将具有不同空洞率的空洞卷积下采样来扩大感受野，并行地应用到输入特征图上，以多个尺度捕捉图像的上下文信息。PANet提出了自顶向下的二次融合对自底向上的FPN路径进行增强，减短了信息传播路径，同时更好地利用了低层特征的精确定位信息。NAS-FPN使用神经架构搜索自动学习到更好的目标检测网络架构。

然而，以上方法在增加感受野的同时未考虑信息的有效融合，而且大部分网络是在获得高低层次融合信息后继续增加路径，在增加网络复杂度的代价下提升了网络的性能，但在本质上并没有扩大网络高层的感受野，高层特征图语义信息仍显不足；另外经过多次下采样的高层特征一般会忽略较多的细节信息，导致对于小目标的检测效果不佳，难以实现高精度烟草甲虫检测。

发明内容

本发明提供了一种复杂场景下高精度烟草甲虫检测方法，以解决上述技术问题。

本发明采用的技术方案是：一种复杂场景下高精度烟草甲虫检测方法，包括如下步骤：

步骤1、构建一个拟合复杂环境和多分布场景的烟草甲虫数据集；

步骤2、搭建一个结合多尺度可变形卷积和双重注意力的DCA模块；

步骤3、搭建基于DCA模块的特征金字塔网络，即DCA-FPN，以及由特征提取网络Resnet50、特征金字塔网络DCA-FPN和目标检测框架Faster R-CNN构成的复杂场景烟草甲虫小目标检测网络；

步骤4、在自建数据集上对提出的网络模型进行训练和测试。

进一步的，所述步骤1包括：

使用图像采集终端，实地采集若干烟草甲虫的图像并且进行人工标注，建立烟草甲虫数据集。

进一步的，将采集到的烟草甲虫的图像根据图像背景情况分为无烟丝、少烟丝和多烟丝，根据烟草甲虫聚集情况分为无聚集和有聚集，根据光线情况分为光线正常和光线过暗。

进一步的，所述步骤2中的DCA模块是由两个并行的不同尺度的可变形卷积和双重注意力组成的。

进一步的，搭建所述DCA模块包括：

特征提取网络Resnet50第五个卷积块的最后一个卷积层表示为C5，将C5生成的特征图表示为F_C5∈R^H×W×C，H和W是特征图F_C5的高和宽，单位是像素，C是通道数，通过可变形卷积输出特征图F_dcn3×3和F_dcn5×5∈R^H×W×C为：

式(1)和式(2)中，3×3和5×5表示卷积核的大小，Deformconv_3×3(f)和Deformconv_5×5(f)表示对特征图f进行3×3和5×5的可变形卷积；

通道注意力权重为F_caf3×3和F_caf5×5∈R^1×1×C，通道注意力特征图为F'_caf3×3和F'_caf5×5∈R^H×W×C：

式(3)-(6)中，

表示对应元素相乘操作，3×3和5×5表示两种尺度，Maxpool(f)和Avgpool(f)表示对特征图f的最大池化和平均池化操作，MLP(f)表示求特征图f的共享多层感知机模型输出，Sigmoid(f)表示对特征图f求Sigmoid函数值；

空间注意力特征图为F_saf3×3和F_saf5×5∈R^H×W×1：

Concat(f₁,f₂)表示把两个特征图f₁和f₂进行按通道维度拼接操作，Conv_7×7(f)表示对特征图f进行7×7的卷积操作，将空间注意力特征图F_saf与通道注意力特征图F'_caf对应元素相乘得到经过双重注意力调整的特征块输出F_daf3×3和F_daf5×5∈R^H×W×C：

最后对两个支路的特征进行融合，得到DCA模块的输出特征图F_out∈R^H×W×C：

Conv_3×3(f)表示对特征图f进行3×3的卷积操作，“+”表示对应元素相加。DCA模块利用不同尺度的可变形卷积获得了有效特征，而且使用双重注意力实现特征增强和特征融合，提取了更丰富的细节信息，增强特征语义表达能力。

进一步的，所述搭建基于DCA模块的特征金字塔网络的方法包括：

通过融合低层的细节信息和高层的语义信息实现更准确的目标分类及定位，并在网络最高层添加DCA模块。

进一步的，所述复杂场景烟草甲虫小目标检测网络包括特征提取网络Resnet50、基于DCA模块的特征金字塔网络DCA-FPN和目标检测框架Faster R-CNN这三个部分。

进一步的，所述步骤4中的训练方法包括：

将建立的烟草甲虫数据集按一定比例随机分成训练集、验证集以及测试集，在训练过程中用ImageNet预训练模型作为初始权重，设置训练参数，并使用SGD优化器优化网络参数。

进一步的，所述一定比例为6:2:2，所述设置训练参数包括：学习率初始化为0.001，批量大小设置为3，一共训练50轮，学习率每25轮衰减为原来的1/3。

本发明的有益效果是：

1)本发明方法使用多尺度可变形卷积能够拟合多场景下烟草甲虫空间几何形变特征，获取烟草甲虫的多种形状和姿态等有效特征，针对性地减少了复杂环境的背景内容或前景区域的无效信息的影响。

2)本发明方法利用双重注意力DCA模块进行冗余特征的消除，实现局部跨通道和空间的信息交互，提高烟草甲虫小目标检测在复杂场境下的分类性能。

3)本发明方法提出的复杂场景烟草甲虫小目标检测网络相比于基础模型和其他先进模型，能以更高的置信度检测出烟草甲虫，而且在越复杂的场景，交并比越高的情况下性能表现越优，能更好地担任复杂场景下的烟草甲虫小目标检测任务。

附图说明

图1为本发明的DCA模块结构图；

图2为本发明的特征金字塔网络DCA-FPN结构图；

图3为本发明的复杂场景烟草甲虫小目标检测网络结构图；

图4为本发明在4种场景下的检测结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

实施例1：

一种复杂场景下高精度烟草甲虫检测方法，包括以下步骤：

步骤1、构建一个拟合复杂环境和多分布场景的烟草甲虫数据集。先使用图像采集终端实地采集大量烟草甲虫图像，然后进行人工标注。选用的图像分辨率为1920×1080，标注工具使用的是LabelImg软件，图像标注格式为PASCAL VOC数据集标注格式。本实施例中，自建数据集中烟草甲虫图像一共2074张，每张图像上烟草甲虫的数量不一，图像采集考虑到多种实际情况：根据图像背景情况分为简单背景(无烟丝、少烟丝)和复杂背景(多烟丝)，根据烟草甲虫聚集情况分为无聚集和有聚集，根据光线情况分为光线正常和光线过暗，具体各种情况数据分布见表1。

表1烟草甲虫图像情况分布

步骤2、搭建一个结合多尺度可变形卷积和双重注意力的双路径(DCA)模块。DCA模块是由两条支路并联组成：3×3/5×5的可变形卷积和一个特征双重注意力块级联，如图1所示。DCA模块先利用两个并行的可变形卷积进行特征增强，进一步获取目标的有效特征，更好地拟合烟草甲虫的形状和姿态，减少背景内容或前景区域的无效信息的影响，提高目标检测的分类性能。将特征提取网络Resnet50第二到第五个卷积块的最后一个卷积层分别表示为{C2，C3，C4，C5}。将C5生成的特征图表示为F_C5∈R^H×W×C，H和W是特征图F_C5的高和宽，单位是像素，C是通道数，首先通过两个并行的3×3和5×5的可变形卷积进行特征增强，输出特征图F_dcn3×3和F_dcn5×5∈R^H×W×C如式(1)和式(2)所示：

式(1)和式(2)中，3×3和5×5表示卷积核的大小，Deformconv_3×3(f)和Deformconv_5×5(f)表示对特征图f进行3×3和5×5的可变形卷积。

本发明设计双重注意力块来指导特征融合，在消除冗余特征的同时，从通道和空间上分别捕捉与目标相关度高的特征进行融合。

将可变形卷积生成的特征图F_dcn3×3和F_dcn5×5作为特征注意力块的输入。首先经过通道注意力模块，分别经过最大池化Maxpool来降维，保留目标特征的最大的值(即特征最显著的部分)；同时经过平均池化Avgpool可保留更多的图像的背景信息，同时获得空间信息的融合特征。平均池化特征和最大池化特征被转发到一个共享多层感知机(Multi-LayerPerceptron，MLP)模型中，再将两个通道注意力图进行对应元素相加、激活，得到两个1×1×C的通道注意力权重F_caf3×3和F_caf5×5，C表示通道数，用以分配各个特征通道的权重，每一维的权重表示该维对应的特征图层对于关键信息的重要程度和关联程度，这个权重越大则表示相关度越高，也就是越需要去注意的通道。最后，得到特征通道的权重之后，F_caf3×3和F_caf5×5与F_dcn3×3和F_dcn5×5进行对应元素相乘得到最终的通道注意力特征图F'_caf3×3和F'_caf5×5∈R^H×W×C，完成在通道维度上的原始特征重标定，提高特定语义的特征表示。整个过程可以描述为：

F_caf3×3＝Sigmoid(MLP(Avgpool(F_dcn3×3))+MLP(Maxpool(F_dcn3×3))) (3)

式(3)-(6)中，

表示对应元素相乘操作，3×3和5×5表示两种尺度，Maxpool(f)和Avgpool(f)表示对特征图f的最大池化和平均池化操作，MLP(f)表示求特征图f的共享多层感知机模型输出，Sigmoid(f)表示对特征图f求Sigmoid函数值。

为了更好地表征特征图局部区域，本发明利用特征间的关系生成空间注意力图。把经过通道注意力图细化后的特征图F'_caf送入空间注意力模块，沿着通道方向依次通过平均池化Avgpool和最大池化Maxpool，得到两个1维的细节特征描述符，将其按通道维度拼接(Concat)在一起得到拼接后的特征图，之后使用一个包含单个卷积核的隐藏层对其进行卷积操作，保证最后得到的特征在空间维度上与输入的特征图一致。然后应用7×7的卷积层Conv_7×7和Sigmoid函数生成大小为H×W×1的空间注意力特征图F_saf3×3和F_saf5×5，该图编码了需要关注目标的颜色和纹理等细节信息，抑制了噪声，使图像局部的重要信息能够提取出来，空间注意力特征图为：

最后对两个支路的特征进行融合，为了消除特征融合中的混叠效应，本发明采用3×3的卷积核，得到DCA模块的输出特征图F_out∈R^H×W×C。

Conv_3×3(f)表示对特征图f进行3×3的卷积操作，“+”表示对应元素相加。

综上所述，DCA模块利用不同尺度的可变形卷积获得了有效特征，而且使用双重注意力实现特征增强和特征融合，提取了更丰富的细节信息，增强了特征语义表达能力。

步骤3、搭建基于DCA模块的特征金字塔网络(DCA-FPN)。DCA-FPN网络如图2所示。本发明基于FPN的连接方式，将特征提取网络Resnet50第二到第五个卷积块的最后一个卷积层分别表示为{C2，C3，C4，C5}，自上而下的路径和DCA输出的横向连接分别表示为{P2，P3，P4，P5}。将C5送入DCA模块，通过DCA模块增强特征语义表达能力。将C2-C4与C5经由DCA模块的输出特征层通过P2-P5的方式送入FPN，实现低层的细节信息和高层的丰富语义信息的有效特征融合，进一步增强了特征表达能力。其中DCA模块两边的箭头表示C2-C4和P2-P5间均可添加DCA模块，实验结果表明DCA模块添加在C5和P5间效果最好，连线用实线表示，其余用虚线表示。然后由特征提取网络Resnet50、特征金字塔网络DCA-FPN和目标检测框架Faster R-CNN构成复杂场景烟草甲虫小目标检测网络，如图3所示。

步骤4、在自建数据集上对提出的网络模型进行训练和测试。本发明方法的训练具体过程如下：

自建数据集图像总共有2074张，将图像按6：2：2随机分成训练集、验证集以及测试集，即1244张图像用来训练，414张图像用于验证，416张图像用于测试，并根据图像宽高比将图像缩放至1344×768像素。在训练过程中用ImageNet预训练模型作为初始权重。学习率初始化为0.001，批量大小设置为3，一共训练50轮，学习率每25轮衰减为原来的1/3，并使用SGD优化器优化网络参数。

将本发明方法的检测结果与目前先进的小目标检测方法进行比较分析。实验平台是：CPU型号为Inter(R)Core(TM)i7-7700K、GPU型号为GeForce GTX 1080Ti、显存为11G、内存为32G的台式电脑；所用深度学习框架为Pytorch1.2.0、Cuda10.1以及CuDNN7.6.4。本发明使用平均精度(meanAverage Precision，mAP)作为评价指标。

本发明在进行测试时设置了两种不同大小的IoU进行测试，IoU为预测框与真实框的交集与并集的比值。mAP_0.6、mAP_0.7分别对应IoU＝0.6、0.7时的平均精度。

本发明选用两种目标检测框架进行实验，分别是：Faster R-CNN以及Cascade R-CNN，使用的骨干网络均为Resnet50。首先进行消融实验，即在特征金字塔的每一层分别加入DCA模块进行结果对比，实验结果如表2。

表2消融实验结果

从表2可以看出，在两种目标检测框架下，DCA模块添加在特征金字塔的C5～P5层时平均精度最高。

为了验明DCA-FPN的性能，在Faster R-CNN的算法框架下将本发明算法与目前主流的特征金字塔网络进行对比，对比的特征金字塔网络包括使用神经架构搜索的NAS_FPN，融合ASPP的特征金字塔网络形成ASPP_FPN，将上采样的CARAFE方法嵌入传统FPN中形成的CARAFE_FPN，实验结果如表3。

表3不同特征金字塔网络的性能比较

从表3中可以看出，在Faster R-CNN框架下本发明提出算法的平均精度分别为：88.1％(IoU＝0.6)、61.3％(IoU＝0.7)，在上述两种IoU下平均精度分别比ASPP_FPN和CARAFE_FPN分别提高了1.2％和2.6％。实验结果表明，DCA-FPN的性能优于目前主流的算法。

为了进一步验证DCA_FPN的性能，本发明分别在以Resnet50和Resnet101为骨干网络的FasterR-CNN上进行试验，实验结果如表4。

表4不同骨干网络下的DCA-FPN性能实验

从表4中可以看出，基本模型Faster R-CNN中加入了DCA-FPN后检测精度都有大幅提升，在IoU为0.7时提升最大，在骨干网络Resnet50和Resnet101上分别提高了32％和33.4％。

图4显示了4种场景下以Resnet50为骨干网络的Faster R-CNN和本发明方法的检测结果可视化图，IoU为0.6。其中，白色、黑色和灰色矩形分别代表真阳性、假阴性和假阳性，数字代表置信度。对于每一对图，显示了基本模型(左)和本发明方法(右)的结果。基本模型在各种情况下都有漏检或误检的情况，特别是漏检的情况非常严重，这对烟草甲虫的防治非常不利。与基本模型相比，本发明方法能够以更高的置信度更好地检测出烟草甲虫，而且在越复杂的场景，交并比越高的情况下性能表现越优。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。