CN113344138A

CN113344138A - 一种基于注意力机制的图像检测方法

Info

Publication number: CN113344138A
Application number: CN202110765391.6A
Authority: CN
Inventors: 宋公飞; 王明; 邓壮壮; 卢峥松; 王瑞绅; 张子梦; 汪海洋; 徐宝珍
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-03

Abstract

本发明公开了一种基于注意力机制的图像检测方法，可以通过注意力机制确定图片中感兴趣的区域，包括：采集图像，获取需要测试的图像数据集；将图像分成独立不重复的验证集和测试集；对验证集和测试集中的图像进行特征提取，获取需要的特征信息；基于Darknet53网络模型增加由通道注意力模块和空间注意力模块构成的SCSE模块，得到测试图像的模型；将验证集内的图像特征作为输入模型参数；将测试集内的图像特征作为输入模型参数；将测试集内图像的特征输入，获取相应的测试结果。本实验可以提高图片检测的精度，同时也能够提升检测的效率，提高资源的利用率。

Description

一种基于注意力机制的图像检测方法

技术领域

本发明是一种基于注意力机制的图片特征检测方法，涉及深度学习，涉及目标检测技术。

背景技术

自从深度神经网络算法首次在ImageNet数据集上大放异彩，物体检测领域逐渐开始利用深度学习来做研究。随后各种结构的深度模型被提出，数据集的准确率一再被刷新。实际上，深度学习模型在分类任务上将传统的方法远远地甩在身后。图像分类上明显的提升也带动了检测领域的快速发展。目标检测是检测领域的一种，目前已广泛的应用于交通监控、人机交互、精确制导等各个领域。目标检测方法可大概分为四种，基于模板匹配的方法，基于知识的方法，基于遥感图像分类技术(OBIA)的方法以及机器学习方法。基于使用的模板类型，模板匹配方法可被进一步的分为固定模板匹配和可变模板匹配方法两大类，其主要步骤包括模板生成和相似度度量。而基于知识的目标检测方法则通过使用先验知识如几何信息和纹理信息将目标检测问题转化为一个假设检验问题。基于遥感图像分类技术(OBIA)的方法主要包括图像分割和目标分类两个步骤，其中如何选择合适的分割尺度是影响目标检测效果的关键因素。

但是，在我们对图片进行相关的特征检测时，以往的检测方法容易受到图片内容的影响，对图片重要部分的特征进行提取与检测的精度不高，从而影响对图像的分析、匹配。

发明内容

本发明为了解决现有技术中存在的问题，提供一种。

为了达到上述目的，本发明提出的技术方案为：一种基于注意力机制的图像检测方法，包括如下步骤：

步骤1、获取目标数据集图像的信息，并作为图像样本；

步骤2、对目标数据集图像样本进行划分验证集和测试集；

步骤3、对目标数据集图像所划分的验证集和测试集进行特征提取，分别获得验证集和测试集内各图像的特征；

步骤4、在Darknet53网络模型中增加SCSE模块，并对模型进行训练得到图像检测模型；将验证集内图像的特征输入SCSE模块得到空间注意力特征，将空间注意力特征输入到接下来的卷积模块进行操作，并通过对图像检测模型验证，获取图片检测模型的参数；将测试集内图像的特征输入带参数的图片检测模型中，获取检测结果。

对上述技术方案的进一步设计为：所述步骤1中对目标数据集图像用检测工具进行标注，将图像的格式转化为检测需要的尺寸，进而获取图片检测后的信息。

所述步骤2中采用随机抽样的方式按验证集80％、测试集20％的比例将目标数据集图像样本划分为独立的验证集和测试集。

所述Darknet53网络包括53层卷积层，在网络的第26层卷积层后，添加SCSE模块。

本发明的有益效果为：

本发明由Darknet网络对数据集进训练，得到一个高效的训练结果，由此可以对图片内容进行快速定位，比以往的方法更高效，节省了大量时间；本发明在网络模型中加入注意力模块SCSE，可以更好的对图像中信息进行定位，提高检测精度；加入注意力模块SCSE，使得输出不同层的特征图更精确，优化了输出数据，使定位和分类的准确性得到提高，而且能够帮助模型对图像关键部分的检测并减少背景因素对检测产生的干扰影响，提升图片检测的精度，同时也能够提升检测的效率，提高资源的利用率。

附图说明

图1本发明目标检测的训练流程图；

图2本发明增加注意力机制SCSE模块的简易图；

图3本发明注意力机制SCSE与卷积层融合的示意图；

图4本发明Darknet53模型添加SCSE模块的示意图；

图5本发明未增加与增加SCSE模块的测试效果对比图；

图6本发明未增加与增加SCSE模块的实验数据分析对比图。

具体实施方式

下面结合附图以及具体实施例对本发明进行详细说明。

实施例

本发明基于Ubuntu18.04.4LTS环境下工作，以PyTorch为框架进行，主要参数有：初始学习率为0.01，最终学习率为0.0005；动量参数为0.937，权重系数为0.0005，训练阈值为0.2，imagesize为608×608，epoch为400。

本发明采用的技术方案为：一种基于基于注意力机制改进的目标算法，包括以下几个步骤：

步骤1、获取目标数据集图像的信息，并作为图像样本；

本实施例的图像数据集是通过网络收集得到，所收集的数据集图片均来自于生活中的场景，然后利用目标检测标注工具进行标注，将图片格式化为一定的图片尺寸，数据集各种生活场景组成。

步骤2、对目标数据集图像样本进行划分验证集和测试集；

所选取图像样本的划分，采用随机抽样法将广告图像数据按验证集80％，测试集20％的比例划分为独立的验证集和测试集

步骤4、在Darknet53网络模型中增加SCSE模块，并对模型进行训练得到图像检测模型；将验证集内图像的特征输入SCSE模块得到空间注意力特征，并通过对图像检测模型验证，通过对模型的运行，最后通过结果，获取图片检测模型的参数；将测试集内图像的特征输入带参数的图片检测模型中，获取检测结果，验证模型性能；

Darknet53一共53层卷积，除去最后一个全连接层，总共52个卷积用于当做主体网络。Darknet53共降维5次，通过采取上采样和下采样，可以达到多尺度融合预测；本发明在此基础上引进了SCSE(Concurrent Spatial and Squeeze and Channel Excitation)模块，SCSE模块的简易图如图2所示，SCSE模块表示卷积模块的注意力机制，主要是一种结合了空间(spatial)和通道(channel)的注意力机制模块，学习了通道之间的相关性，筛选出了针对通道的注意力。此外，通过了解要强调或抑制的信息有助于网络内的信息流动。主要网络架构很简单，一个是通道注意力模块，另一个是空间注意力模块，SCSE就是集成了通道注意力模块和空间注意力模块。在整体的网络结束后，也就是第26层卷积层后，添加SCSE模块，如图3和图4所示。SCSE的大致工作流程是：SCSE就是将SSE(Spatial Squeeze andChannel Excitation)和CSE(Channel Squeeze and Spatial Excitation)相加起来。

下面分别对于SCE和SSE模块工作流程进行介绍：

CSE的工作流程：将特征图通过平均池化层(global average pooling)从[C,H,W]变为[C,1,1]；然后使用两个1×1×1卷积进行信息的处理，最终得到C维的向量；然后使用sigmoid函数进行归一化，得到对应的mask模型；最后通过channel-wise相乘，得到经过信息校准过的特征图。

SSE的工作流程：直接对特征图使用1×1×1卷积,将特征图从[C,H,W]变为[1,H,W]；然后使用sigmoid进行激活得到空间注意力图，最后直接施加到原始特征图中，完成空间的信息校准。

图5展示了测试后的效果图，选出两组对比一下。图5中(a)、(b)组左侧是未加入SCSE模块的测试效果图，图5(a)、(b)组右侧是加入SCSE模块的测试效果图。对于(a)组来说，可以看出未添加之前是存在漏检的项目，但检测精度也很可观，添加后的模型可以缓解漏检的缺陷；对于(b)组来说，在一定程度上可以提高检测的精度，总体来说，加入SCSE模块对检测准确性能起到了一定的提升作用。

图6中(a)和(b)分别是本发明未增加与增加SCSE模块的实验数据分析对比图，展示了该模型的精度和各个指标，是在参数epoch为400，batchsize为16，imagesize为608情况下训练得到的；GIoU(Generalized Intersection over Union)表示任意两个边框的度量，此发明中的GIoU作为一种损失度量,其中GIoU和IoU计算公式如下：

其中，A、B代表任意的两个框，C代表能够包住它们的最小方框。

Objectness以具象化理解为“置信度”，Objectness对应的是布尔值类型的二分类标签，理解成对应的真实和错误的逻辑值；其他分别是，分类模型的性能评价指标、精准率、回归率、平均精度，mAP@＝0.5是指IOU＝0.5时测得模型的精度，F1是指P-R的调和平均，F1由精准率和回归率两个因素决定，计算公式为：

其中，Recall为召回率，Precision为精准率。

鉴于计算机硬件，本发明只验证了400个epoch就可以得到明显的提升。实验数据分析：实验采取epoch为0和epoch为399对比，如下表所示：

表1：epoch为0和epoch为399时的对比

对表格一中的几个主要的参数进行分析，在epoch为0时，未加入SCSE模块时，准确率为0.56，加入SCSE模块后，准确率提高到0.619，提高了0.059；未加入SCSE模块时，召回率为0.356，加入SCSE模块时，召回率为0.357，提高了0.001；未加入SCSE模块时，map@0.5为0.409，加入SCSE模块时，map@0.5为0.419，提高了0.01；未加入SCSE模块时，F1为0.371，加入SCSE模块时，F1为0.381，提高了0.01；

在epoch为399时，未加入SCSE模块时，准确率为0.622，加入SCSE模块后，准确率提高到0.642，提高了0.02；未加入SCSE模块时，召回率为0.805，加入SCSE模块时，召回率为0.816，提高了0.011；未加入SCSE模块时，map@0.5为0.76，加入SCSE模块时，map@0.5为782，提高了0.22；未加入SCSE模块时，F1为0.698，加入SCSE模块时，F1为0.716，提高了0.018；

所以，加入该机制能提升检测的总体性能。

表2：综合对比

由实验数据分析，加入SCSE模块后，精度一定的提升，而测试的时候，也验证是这样的，如图4所示。本实施例验证了Darknet53网络的第26层添加了SCSE注意力机制起到了可观的效果。

本发明的技术方案不局限于上述各实施例，凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

Claims

1.一种基于注意力机制的图像检测方法，其特征在于，包括如下步骤：

步骤1、获取目标数据集图像的信息，并作为图像样本；

步骤2、对目标数据集图像样本进行划分验证集和测试集；

步骤4、在Darknet53网络模型中增加SCSE模块，并对模型进行训练得到图像检测模型；将验证集内图像的特征输入SCSE模块得到空间注意力特征，将空间注意力特征输入到接下来的卷积模块中进行操作，并通过对图像检测模型验证，获取图片检测模型的参数；将测试集内图像的特征输入带参数的图片检测模型中，获取检测结果。

2.根据权利要求1所述基于注意力机制的图像检测方法，其特征在于：所述步骤1中对目标数据集图像用检测工具进行标注，将图像的格式转化为检测需要的尺寸，进而获取图片检测后的信息。

3.根据权利要求2所述基于注意力机制的图像检测方法，其特征在于：所述步骤2中采用随机抽样的方式按验证集80％、测试集20％的比例将目标数据集图像样本划分为独立的验证集和测试集。

4.根据权利要求1所述基于注意力机制的图像检测方法，其特征在于：所述Darknet53网络包括53层卷积层，在网络的第26层卷积层后，添加SCSE模块。