CN113344138A - 一种基于注意力机制的图像检测方法 - Google Patents

一种基于注意力机制的图像检测方法 Download PDF

Info

Publication number
CN113344138A
CN113344138A CN202110765391.6A CN202110765391A CN113344138A CN 113344138 A CN113344138 A CN 113344138A CN 202110765391 A CN202110765391 A CN 202110765391A CN 113344138 A CN113344138 A CN 113344138A
Authority
CN
China
Prior art keywords
image
module
scse
detection
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110765391.6A
Other languages
English (en)
Inventor
宋公飞
王明
邓壮壮
卢峥松
王瑞绅
张子梦
汪海洋
徐宝珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110765391.6A priority Critical patent/CN113344138A/zh
Publication of CN113344138A publication Critical patent/CN113344138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的图像检测方法,可以通过注意力机制确定图片中感兴趣的区域,包括:采集图像,获取需要测试的图像数据集;将图像分成独立不重复的验证集和测试集;对验证集和测试集中的图像进行特征提取,获取需要的特征信息;基于Darknet53网络模型增加由通道注意力模块和空间注意力模块构成的SCSE模块,得到测试图像的模型;将验证集内的图像特征作为输入模型参数;将测试集内的图像特征作为输入模型参数;将测试集内图像的特征输入,获取相应的测试结果。本实验可以提高图片检测的精度,同时也能够提升检测的效率,提高资源的利用率。

Description

一种基于注意力机制的图像检测方法
技术领域
本发明是一种基于注意力机制的图片特征检测方法,涉及深度学习,涉及目标检测技术。
背景技术
自从深度神经网络算法首次在ImageNet数据集上大放异彩,物体检测领域逐渐开始利用深度学习来做研究。随后各种结构的深度模型被提出,数据集的准确率一再被刷新。实际上,深度学习模型在分类任务上将传统的方法远远地甩在身后。图像分类上明显的提升也带动了检测领域的快速发展。目标检测是检测领域的一种,目前已广泛的应用于交通监控、人机交互、精确制导等各个领域。目标检测方法可大概分为四种,基于模板匹配的方法,基于知识的方法,基于遥感图像分类技术(OBIA)的方法以及机器学习方法。基于使用的模板类型,模板匹配方法可被进一步的分为固定模板匹配和可变模板匹配方法两大类,其主要步骤包括模板生成和相似度度量。而基于知识的目标检测方法则通过使用先验知识如几何信息和纹理信息将目标检测问题转化为一个假设检验问题。基于遥感图像分类技术(OBIA)的方法主要包括图像分割和目标分类两个步骤,其中如何选择合适的分割尺度是影响目标检测效果的关键因素。
但是,在我们对图片进行相关的特征检测时,以往的检测方法容易受到图片内容的影响,对图片重要部分的特征进行提取与检测的精度不高,从而影响对图像的分析、匹配。
发明内容
本发明为了解决现有技术中存在的问题,提供一种。
为了达到上述目的,本发明提出的技术方案为:一种基于注意力机制的图像检测方法,包括如下步骤:
步骤1、获取目标数据集图像的信息,并作为图像样本;
步骤2、对目标数据集图像样本进行划分验证集和测试集;
步骤3、对目标数据集图像所划分的验证集和测试集进行特征提取,分别获得验证集和测试集内各图像的特征;
步骤4、在Darknet53网络模型中增加SCSE模块,并对模型进行训练得到图像检测模型;将验证集内图像的特征输入SCSE模块得到空间注意力特征,将空间注意力特征输入到接下来的卷积模块进行操作,并通过对图像检测模型验证,获取图片检测模型的参数;将测试集内图像的特征输入带参数的图片检测模型中,获取检测结果。
对上述技术方案的进一步设计为:所述步骤1中对目标数据集图像用检测工具进行标注,将图像的格式转化为检测需要的尺寸,进而获取图片检测后的信息。
所述步骤2中采用随机抽样的方式按验证集80%、测试集20%的比例将目标数据集图像样本划分为独立的验证集和测试集。
所述Darknet53网络包括53层卷积层,在网络的第26层卷积层后,添加SCSE模块。
本发明的有益效果为:
本发明由Darknet网络对数据集进训练,得到一个高效的训练结果,由此可以对图片内容进行快速定位,比以往的方法更高效,节省了大量时间;本发明在网络模型中加入注意力模块SCSE,可以更好的对图像中信息进行定位,提高检测精度;加入注意力模块SCSE,使得输出不同层的特征图更精确,优化了输出数据,使定位和分类的准确性得到提高,而且能够帮助模型对图像关键部分的检测并减少背景因素对检测产生的干扰影响,提升图片检测的精度,同时也能够提升检测的效率,提高资源的利用率。
附图说明
图1本发明目标检测的训练流程图;
图2本发明增加注意力机制SCSE模块的简易图;
图3本发明注意力机制SCSE与卷积层融合的示意图;
图4本发明Darknet53模型添加SCSE模块的示意图;
图5本发明未增加与增加SCSE模块的测试效果对比图;
图6本发明未增加与增加SCSE模块的实验数据分析对比图。
具体实施方式
下面结合附图以及具体实施例对本发明进行详细说明。
实施例
本发明基于Ubuntu18.04.4LTS环境下工作,以PyTorch为框架进行,主要参数有:初始学习率为0.01,最终学习率为0.0005;动量参数为0.937,权重系数为0.0005,训练阈值为0.2,imagesize为608×608,epoch为400。
本发明采用的技术方案为:一种基于基于注意力机制改进的目标算法,包括以下几个步骤:
步骤1、获取目标数据集图像的信息,并作为图像样本;
本实施例的图像数据集是通过网络收集得到,所收集的数据集图片均来自于生活中的场景,然后利用目标检测标注工具进行标注,将图片格式化为一定的图片尺寸,数据集各种生活场景组成。
步骤2、对目标数据集图像样本进行划分验证集和测试集;
所选取图像样本的划分,采用随机抽样法将广告图像数据按验证集80%,测试集20%的比例划分为独立的验证集和测试集
步骤3、对目标数据集图像所划分的验证集和测试集进行特征提取,分别获得验证集和测试集内各图像的特征;
步骤4、在Darknet53网络模型中增加SCSE模块,并对模型进行训练得到图像检测模型;将验证集内图像的特征输入SCSE模块得到空间注意力特征,并通过对图像检测模型验证,通过对模型的运行,最后通过结果,获取图片检测模型的参数;将测试集内图像的特征输入带参数的图片检测模型中,获取检测结果,验证模型性能;
Darknet53一共53层卷积,除去最后一个全连接层,总共52个卷积用于当做主体网络。Darknet53共降维5次,通过采取上采样和下采样,可以达到多尺度融合预测;本发明在此基础上引进了SCSE(Concurrent Spatial and Squeeze and Channel Excitation)模块,SCSE模块的简易图如图2所示,SCSE模块表示卷积模块的注意力机制,主要是一种结合了空间(spatial)和通道(channel)的注意力机制模块,学习了通道之间的相关性,筛选出了针对通道的注意力。此外,通过了解要强调或抑制的信息有助于网络内的信息流动。主要网络架构很简单,一个是通道注意力模块,另一个是空间注意力模块,SCSE就是集成了通道注意力模块和空间注意力模块。在整体的网络结束后,也就是第26层卷积层后,添加SCSE模块,如图3和图4所示。SCSE的大致工作流程是:SCSE就是将SSE(Spatial Squeeze andChannel Excitation)和CSE(Channel Squeeze and Spatial Excitation)相加起来。
下面分别对于SCE和SSE模块工作流程进行介绍:
CSE的工作流程:将特征图通过平均池化层(global average pooling)从[C,H,W]变为[C,1,1];然后使用两个1×1×1卷积进行信息的处理,最终得到C维的向量;然后使用sigmoid函数进行归一化,得到对应的mask模型;最后通过channel-wise相乘,得到经过信息校准过的特征图。
SSE的工作流程:直接对特征图使用1×1×1卷积,将特征图从[C,H,W]变为[1,H,W];然后使用sigmoid进行激活得到空间注意力图,最后直接施加到原始特征图中,完成空间的信息校准。
图5展示了测试后的效果图,选出两组对比一下。图5中(a)、(b)组左侧是未加入SCSE模块的测试效果图,图5(a)、(b)组右侧是加入SCSE模块的测试效果图。对于(a)组来说,可以看出未添加之前是存在漏检的项目,但检测精度也很可观,添加后的模型可以缓解漏检的缺陷;对于(b)组来说,在一定程度上可以提高检测的精度,总体来说,加入SCSE模块对检测准确性能起到了一定的提升作用。
图6中(a)和(b)分别是本发明未增加与增加SCSE模块的实验数据分析对比图,展示了该模型的精度和各个指标,是在参数epoch为400,batchsize为16,imagesize为608情况下训练得到的;GIoU(Generalized Intersection over Union)表示任意两个边框的度量,此发明中的GIoU作为一种损失度量,其中GIoU和IoU计算公式如下:
Figure BDA0003150840440000041
Figure BDA0003150840440000042
其中,A、B代表任意的两个框,C代表能够包住它们的最小方框。
Objectness以具象化理解为“置信度”,Objectness对应的是布尔值类型的二分类标签,理解成对应的真实和错误的逻辑值;其他分别是,分类模型的性能评价指标、精准率、回归率、平均精度,mAP@=0.5是指IOU=0.5时测得模型的精度,F1是指P-R的调和平均,F1由精准率和回归率两个因素决定,计算公式为:
Figure BDA0003150840440000043
其中,Recall为召回率,Precision为精准率。
鉴于计算机硬件,本发明只验证了400个epoch就可以得到明显的提升。实验数据分析:实验采取epoch为0和epoch为399对比,如下表所示:
表1:epoch为0和epoch为399时的对比
Figure BDA0003150840440000044
对表格一中的几个主要的参数进行分析,在epoch为0时,未加入SCSE模块时,准确率为0.56,加入SCSE模块后,准确率提高到0.619,提高了0.059;未加入SCSE模块时,召回率为0.356,加入SCSE模块时,召回率为0.357,提高了0.001;未加入SCSE模块时,map@0.5为0.409,加入SCSE模块时,map@0.5为0.419,提高了0.01;未加入SCSE模块时,F1为0.371,加入SCSE模块时,F1为0.381,提高了0.01;
在epoch为399时,未加入SCSE模块时,准确率为0.622,加入SCSE模块后,准确率提高到0.642,提高了0.02;未加入SCSE模块时,召回率为0.805,加入SCSE模块时,召回率为0.816,提高了0.011;未加入SCSE模块时,map@0.5为0.76,加入SCSE模块时,map@0.5为782,提高了0.22;未加入SCSE模块时,F1为0.698,加入SCSE模块时,F1为0.716,提高了0.018;
所以,加入该机制能提升检测的总体性能。
表2:综合对比
Figure BDA0003150840440000051
由实验数据分析,加入SCSE模块后,精度一定的提升,而测试的时候,也验证是这样的,如图4所示。本实施例验证了Darknet53网络的第26层添加了SCSE注意力机制起到了可观的效果。
本发明的技术方案不局限于上述各实施例,凡采用等同替换方式得到的技术方案均落在本发明要求保护的范围内。

Claims (4)

1.一种基于注意力机制的图像检测方法,其特征在于,包括如下步骤:
步骤1、获取目标数据集图像的信息,并作为图像样本;
步骤2、对目标数据集图像样本进行划分验证集和测试集;
步骤3、对目标数据集图像所划分的验证集和测试集进行特征提取,分别获得验证集和测试集内各图像的特征;
步骤4、在Darknet53网络模型中增加SCSE模块,并对模型进行训练得到图像检测模型;将验证集内图像的特征输入SCSE模块得到空间注意力特征,将空间注意力特征输入到接下来的卷积模块中进行操作,并通过对图像检测模型验证,获取图片检测模型的参数;将测试集内图像的特征输入带参数的图片检测模型中,获取检测结果。
2.根据权利要求1所述基于注意力机制的图像检测方法,其特征在于:所述步骤1中对目标数据集图像用检测工具进行标注,将图像的格式转化为检测需要的尺寸,进而获取图片检测后的信息。
3.根据权利要求2所述基于注意力机制的图像检测方法,其特征在于:所述步骤2中采用随机抽样的方式按验证集80%、测试集20%的比例将目标数据集图像样本划分为独立的验证集和测试集。
4.根据权利要求1所述基于注意力机制的图像检测方法,其特征在于:所述Darknet53网络包括53层卷积层,在网络的第26层卷积层后,添加SCSE模块。
CN202110765391.6A 2021-07-06 2021-07-06 一种基于注意力机制的图像检测方法 Pending CN113344138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110765391.6A CN113344138A (zh) 2021-07-06 2021-07-06 一种基于注意力机制的图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110765391.6A CN113344138A (zh) 2021-07-06 2021-07-06 一种基于注意力机制的图像检测方法

Publications (1)

Publication Number Publication Date
CN113344138A true CN113344138A (zh) 2021-09-03

Family

ID=77482954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110765391.6A Pending CN113344138A (zh) 2021-07-06 2021-07-06 一种基于注意力机制的图像检测方法

Country Status (1)

Country Link
CN (1) CN113344138A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
WO2020258077A1 (zh) * 2019-06-26 2020-12-30 深圳大学 一种行人检测方法及装置
CN112232214A (zh) * 2020-10-16 2021-01-15 天津大学 一种基于深度特征融合和注意力机制的实时目标检测方法
CN112329893A (zh) * 2021-01-04 2021-02-05 中国工程物理研究院流体物理研究所 基于数据驱动的异源多目标智能检测方法及系统
CN112418020A (zh) * 2020-11-09 2021-02-26 南京信息工程大学 一种基于注意力机制的YOLOv3违法广告牌智能检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020258077A1 (zh) * 2019-06-26 2020-12-30 深圳大学 一种行人检测方法及装置
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN112232214A (zh) * 2020-10-16 2021-01-15 天津大学 一种基于深度特征融合和注意力机制的实时目标检测方法
CN112418020A (zh) * 2020-11-09 2021-02-26 南京信息工程大学 一种基于注意力机制的YOLOv3违法广告牌智能检测方法
CN112329893A (zh) * 2021-01-04 2021-02-05 中国工程物理研究院流体物理研究所 基于数据驱动的异源多目标智能检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABHIJIT GUHA ROY 等: "Concurrent Spatial and Channel \'Squeeze & Excitation‘ in Fully Convolutional Networks", 《MEDICAL IMAGE COMPUTING AND COMPUTER ASSISTED INTERVENTION-MICCAI 2018》, pages 421 - 429 *
刘欣;张灿明;: "基于卷积神经网络的矿井安全帽佩戴检测", 《电子技术应用》, vol. 46, no. 09, pages 38 - 42 *
蒋镕圻 等: "嵌入scSE模块的改进 YOLOv4小目标检测算法", 《图学学报》, pages 1 - 10 *

Similar Documents

Publication Publication Date Title
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN110738247A (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN113887661B (zh) 一种基于表示学习重构残差分析的图像集分类方法及系统
CN112949408B (zh) 一种过鱼通道目标鱼类实时识别方法和系统
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN115439458A (zh) 基于深度图注意力的工业图像缺陷目标检测算法
CN111738319A (zh) 一种基于大规模样本的聚类结果评价方法及装置
CN108805181B (zh) 一种基于多分类模型的图像分类装置及分类方法
CN112418207B (zh) 一种基于自注意力蒸馏的弱监督文字检测方法
CN106682604B (zh) 一种基于深度学习的模糊图像检测方法
CN117611830A (zh) 一种基于少样本标注的任意类别目标定位与计数方法
CN117593243A (zh) 可靠伪标签引导的压缩机外观自适应检测方法
CN112418020A (zh) 一种基于注意力机制的YOLOv3违法广告牌智能检测方法
Ardelean et al. High-fidelity zero-shot texture anomaly localization using feature correspondence analysis
CN116188445A (zh) 一种产品表面缺陷的检测定位方法、装置及终端设备
CN116958724A (zh) 一种产品分类模型的训练方法和相关装置
CN115496950A (zh) 邻域信息嵌入的半监督判别字典对学习的图像分类方法
CN113344138A (zh) 一种基于注意力机制的图像检测方法
CN115424000A (zh) 一种指针式仪表识别方法、系统、设备及存储介质
CN114663760A (zh) 模型训练的方法、目标检测方法、存储介质及计算设备
CN114782983A (zh) 基于改进特征金字塔和边界损失的道路场景行人检测方法
CN112598056A (zh) 一种基于屏幕监控的软件识别方法
CN111126485A (zh) 一种基于李群机器学习核函数的Lie-KFDA场景分类方法和系统
CN111369508A (zh) 一种金属三维点阵结构的缺陷检测方法及系统
CN111696070A (zh) 基于深度学习的多光谱图像融合电力物联网故障点检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210903

WD01 Invention patent application deemed withdrawn after publication