CN115346063A - 一种类注意力机制构建方法及目标检测方法 - Google Patents

一种类注意力机制构建方法及目标检测方法 Download PDF

Info

Publication number
CN115346063A
CN115346063A CN202210641150.5A CN202210641150A CN115346063A CN 115346063 A CN115346063 A CN 115346063A CN 202210641150 A CN202210641150 A CN 202210641150A CN 115346063 A CN115346063 A CN 115346063A
Authority
CN
China
Prior art keywords
feature map
training
weight
attention mechanism
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210641150.5A
Other languages
English (en)
Inventor
李自胜
胡朝海
肖晓萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202210641150.5A priority Critical patent/CN115346063A/zh
Publication of CN115346063A publication Critical patent/CN115346063A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种类注意力机制构建方法及目标检测方法。所述类注意力机制构建方法:对小特征图上采样并运算得到上采样权值,将上采样权值作用于大特征图得到过渡特征图,对过渡特征图下采样并运算得到下采样权值,将下采样权值作用于小特征图,该方法构建的类注意力机制增强了小特征图的几何信息;所述目标检测方法,将类注意力机制设计成算法模块,嵌入YOLOv3算法中,得到基于类注意力机制的YOLOv3算法,用于目标检测。本发明的有益效果可包括:改变传统注意力机制算法权值单一问题,提高了注意力效果;利用类注意力机制改进YOLOv3,在浮点运算量和网络复杂度增加不到1%的条件下,检测精度mPA高于同类算法Faster‑RCNN、SSD512,同时高于其它基于YOLOv3的改进算法,如Attention‑YOLO‑A和Attention‑YOLO‑B等。

Description

一种类注意力机制构建方法及目标检测方法
技术领域
本发明涉及人工智能领域,具体来讲,涉及图像中的目标检测。
背景技术
目标检测的任务是找出图像或视频中的感兴趣目标对象,同时检测出它们的位置和大小。传统目标检测算法主要是将矩形窗口在整张图像上滑动,通过扫描图像来生成多个图像区域,然后从每个区域中提取局部图像特征,再将提取到的特征传递给传统机器学习分类器。虽然这些方法在某些特定场景下能够取得较好检测效果,但实时性较低。同时,特定环境或结构化场景已经不能满足现实需求,因此传统目标检测方法的应用场景非常有限。
卷积神经网络CNN(Convolutional Neural Network)由于其可映射任意复杂的非线性关系,具有强大的特征提取能力,提升了目标检测的速度和精度,因此基于CNN的目标检测算法已成为检测任务的首选。基于CNN的目标检测算法主要分为三类:(1)基于R-CNN(Region with Convolutional Neural Network)的检测算法,如R-CNN、Fast R-CNN、及Faster R-CNN,由于计算开销大或小目标检测精度低等原因,该类算法未能得到很好的应用。(2)基于SSD(Single Shot Multi Detector)的算法,如SSD、DSSD(DeconvolutionalSingle Shot Multi Detector),会出现小目标漏检情况。(3)YOLO(You Only Look Once)系列算法包括YOLOv1、YOLOv2和YOLOv3,检测速度和检测精度逐渐提高,尤其是YOLOv3在多个行业得到应用,但在精度要求更高的目标检测任务中,还有待改进。
在不明显降低检测速度条件下,提出了多种基于CNN的目标检测算法的改进方法,注意力机制是常用改进方法之一。注意力机制类似于人看向某一场景时,不会关注场景中的每个目标对象,而只根据需求聚焦场景中的特定部分,其本质是一种权重参数的分配机制,目的是协助模型捕捉重要信息。典型注意力机制主要有基于位置的注意力机制、通道注意力机制与卷积注意模块等。嵌入注意力机制引入,虽然检测精度有所提高,但由于权值计算方法单一,导致注意力效果有限,因此精度提升幅度仍然无法多数检测任务要求。如Attention-YOLO算法在YOLOv3骨干网络中嵌入注意力机制取得较好的效果,mAP最高达到了81.9%,但仍与现实高精度需求存在偏差。因此有必要提出更有效的方法对现有目标检测算法进行改进。
发明内容
本发明的目的在于解决现有注意力机制由于权值较单一,注意力效果有限,导致目标检测精度提升幅度小的问题。
基于此,为了更好地聚焦图像中有目标存在的区域,重点突目标区域,抑制没有目标的区域,本发明提出一种类注意力机制构建方法。类注意力机制构建方法的思路是:将前一个特征图上的几何信息在后一个特征图中强调出来,通过学习,增强有目标部分的特征图权重,抑制没有目标的特征图权重,以降低没有目标部分特征图对目标检测造成的影响,更有利于目标的检测和定位。类注意力机制的网络结构如图1所示。
类注意力机制的输入为
Figure 727551DEST_PATH_IMAGE001
Figure 493644DEST_PATH_IMAGE002
,分别对应大特征图和小特征图,
Figure 870399DEST_PATH_IMAGE003
Figure 474555DEST_PATH_IMAGE004
Figure 645774DEST_PATH_IMAGE005
Figure 335381DEST_PATH_IMAGE006
。其中C*、H*、W*分别表示特征图的通道数、高度和宽度。
Figure 515826DEST_PATH_IMAGE007
。令
Figure 944796DEST_PATH_IMAGE008
,c表示第c个特征通道,
Figure 677129DEST_PATH_IMAGE009
表示第c个特征通道上的卷积核参数,
Figure 526136DEST_PATH_IMAGE010
表示卷积。整个卷积过程可由下公式(1)表示:
Figure 510273DEST_PATH_IMAGE011
(1)
在卷积过程中,进行填充补0,使得
Figure 557863DEST_PATH_IMAGE012
Figure 336463DEST_PATH_IMAGE013
的高度和宽度相等。将卷积后的特征图通过Sigmoid函数,再与
Figure 663DEST_PATH_IMAGE013
特征图逐元素相乘再相加,得到特征图
Figure 319649DEST_PATH_IMAGE014
,可由如下公式表示:
Figure 628270DEST_PATH_IMAGE015
(2)
上式中
Figure 938291DEST_PATH_IMAGE016
表示逐元素相乘,
Figure 965153DEST_PATH_IMAGE017
表示逐元素相加,下同。对
Figure 150146DEST_PATH_IMAGE014
进行步长为2的卷 积操作,得到特征图
Figure 110012DEST_PATH_IMAGE018
Figure 495994DEST_PATH_IMAGE018
的高和宽为
Figure 603628DEST_PATH_IMAGE014
的一半。将
Figure 467678DEST_PATH_IMAGE018
通过Sigmoid函数,再与特 征图FB逐元素相乘和相加,得到
Figure 547630DEST_PATH_IMAGE019
可由如下公式表示:
Figure 963568DEST_PATH_IMAGE020
(3)
最后对
Figure 433863DEST_PATH_IMAGE019
经过一次卷积操作,得到输出
Figure 727704DEST_PATH_IMAGE021
为了实现上述目的,本专利以轻量级目标检测算法YOLOv3为例,阐述类注意力机制算法与宿主算法的嵌入方法。
YOLOv3不对原图像中目标所在区域进行预处理,直接将原图和标注进行训练,很大幅度上提升了网络的训练速度和预测速度。该网络模型是全卷积网络,且采用回归算法,进一步提升了该算法的训练和预测速度。
YOLOv3模型的特征提取骨干网络是DarkNet-53网络。在ImageNet数据集上做分类时,DarkNet-53的性能和ResNet-152相当,但DarkNet-53在网络复杂度和浮点运算量上都远低于ResNet-152。DarkNet-53结构如图2所示。图2中Conv表示卷积层(Convolutionallayer),BN表示BatchNorm(批正则化),对数据进行批正则处理,LeakyRelu是激活函数。LeakyRelu和Relu相比,LeakyRelu保留了部分负信息值。
YOLOv3的预测结构如图3所示,将特征提取网络的后三个不同尺寸的特征图用于目标检测,图3中n×c×13×13,n表示batchsize(批的样本数),c表示通道数,13和13分别表示特征图的高和宽。Conv表示卷积层,对特征图进行卷积操作,Concat表示将两条支路上的特征图在c维度上进行堆叠。通过Concat操作后,对特征图进行卷积操作,将Concat后的通道数c调整为原通道数(256,512,1024)。此时得到的特征图融合了不同大小特征图的特征和不同强度的语义特征,更有利于目标的检测、定位和分类。三个不同大小的特征图中,13×13的特征图用来检测和定位大目标,26×26的特征图用来检测和定位中等大小目标,52×52的特征图用来定位和检测小目标。
类注意力机制模块可嵌在任意两个或多个卷积操作之后,其输入为两个特征图。向YOLOv3中嵌入类注意力模块,分别在DarkNet-53的第一个模块和第二个模块之后嵌入类注意力模块,得到基于类注意力机制的YOLO算法,如图4所示。其中第一个类注意力模块的输入分别为DarkNet-53的第一个模块的Conv(3,1,1)的输出和Conv(3,2,1)的输出,Conv(3,1,1)的输出对应图1的
Figure 865424DEST_PATH_IMAGE022
,Conv(3,2,1)的输出对应图1中的
Figure 124367DEST_PATH_IMAGE023
。第二个类注意力模块的输入分别为第一个类注意力模块的输出和DarkNet-53的第二个模块Conv(3,2,1)的输出,分别对应图1中的
Figure 472172DEST_PATH_IMAGE022
Figure 678025DEST_PATH_IMAGE024
YOLOv3将DarkNet-53网络的后三个模块的输出用于检测,以分辨率为416×416的输入图像为例,后三个大小不同的特征图经过Concat和Conv以后,分别得到(13×13×75)、(26×26×75)和(52×52×75)的特征图,特征图的高和宽取决于输入图像的大小,75取决于数据集有多少个目标类。75=3×(4+1+20),其中3表示特征图的每个网格上生成三个检验框,4表示每个检测框的中心位置坐标值和高宽值的数目个数,1表示每个检验框中包含目标的置信度,20表示数据集中有20个类。
通过DarkNet-53网络对输入图像提取特征后,将最后三个大小不同的特征图用于目标检测,若输入图像的分辨率为416×416,最后三个特征图的分辨率分别为52×52、26×26、13×13,特征图的大小与输入图像的大小相关。检测过程如下:(1)将13×13特征图Conv后直接用于检测目标;(2)对13×13的特征图进行Upsampling(上采样)处理,使得其分辨率大小为26×26,将Upsampling后的特征图与原26×26的特征图在通道维度上进行Concat(堆叠),经过Concat和Conv后的通道数为512,分别将得到的特征图用于目标检测;(3)对26×26的特征图Upsampling处理,使得其分辨率大小为52×52,将Upsampling后的特征图和原52×52的特征图在通道维度上Concat,经过Concat和Conv后通道数为256用于目标检测。在检测阶段,根据特征图大小生成网格,再在每个网格中生成三个边界框,共生成(52×52+26×26+13×13)×3=10647个边界框,其中3表示每个网格上生成3个检测框。在每个网格上,网络预测了25个值,其中前2个值是边界框的中心坐标,用tx和ty表示,第三和第四个值表示边界框的宽度和高度,用tw和th表示,第五个值表示边界框中有无目标的置信度,用t0表示。用(cx,cy)表示边界框相对于图像左上角的偏移量,在图像坐标中,设置左上角为图像的坐标原点。用pw和ph表示先验边界框的宽度和高度。目标的边界框bx、by、bw、bh
Figure 529306DEST_PATH_IMAGE025
预测值可如下表示:
Figure 427992DEST_PATH_IMAGE026
(8)
Figure 263093DEST_PATH_IMAGE027
(9)
Figure 803796DEST_PATH_IMAGE028
(10)
Figure 916108DEST_PATH_IMAGE029
(11)
Figure 346215DEST_PATH_IMAGE030
(12)
其中,
Figure 278399DEST_PATH_IMAGE031
为Sigmoid函数,
Figure 216268DEST_PATH_IMAGE032
表示目标是否处于预测框中,若有目标存在,则
Figure 183087DEST_PATH_IMAGE033
,反之
Figure 282630DEST_PATH_IMAGE034
,表示预测框和真实框之间的交并比IOU。剩余的20个值用来预测框中目标的类别,最大值对应的索引即为目标所属类别。
与现有技术相比,本发明的有益效果可包括:能够提高目标检测精度。
附图说明
图1示出了本发明的发明内容中所述的类注意力机制算法的网络结构示意图;
图2示出了本发明的发明内容中所述的YOLOv3骨干网络Darknet-53结构示意图;
图3示出了本发明的发明内容中所述的YOLOv3预测结构示意图;
图4示出了本发明的发明内容中所述的嵌入类注意力算法模块的Darknet-53结构图。
具体实施方式
在下文中,将结合示例性实施例和附图来详细说明本发明的类注意力机制算法及目标检测方法。
示例性实施例1
在本发明的第一示例性实施例中,所述类注意力机制构建方法及目标检测方法包括以下步骤:
所述构建的类注意力机制的输入为不同大小分辨率的特征图;
所述小特征图是分辨率较小的特征图;
所述大特征图是分辨率较大的特征图;
所述对小特征图上采样是对小特征图补0填充后卷积(卷积核大小为3,步长1),得到上采样特征图;
所述进行运算得到上采样权值是利用Sigmoid函数对上采样特征图进行计算,得到上采样权值;
所述作用于大特征图得到过渡特征图是将上采样权值与大特征图逐元素相乘再相加,得到过渡特征图;
所述对过渡特征图下采样是对过渡特征图卷积(卷积核大小为3,步长2),得到下采样特征图;
所述进行运算得到下采样权值是利用Sigmoid函数对下采样特征图进行计算,得到下采样权值;
所述将下采样权值作用于小特征图是将下采样权值与小特征图逐元素相乘再相加;
示例性实施例2
在本发明的第二示例性实施例中,所述类注意力机制算法及目标检测方法包括以下步骤:
S1、采用PASCAL VOC数据集,该数据集由20个类别的图像组成,分别为:aero、bike、bird、boat、 bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、 person、plant、sheep、sofa、train、tv,使用PASCAL VOC2007训练集与验证集、PASCAL VOC2012 训练集与验证集(共计16551张图像)训练模型,使用PASCAL VOC2007 测试集(共4952张图像)测试模型,通过水平翻转、随机裁剪和随机仿射实现数据增强;
S2、在训练前,设置初始学习率α=0.001,动量参数momentum=0.9,权重衰减系数γ=0.0005,每批图像数batchsize=4,交并比IOU(Intersection-over-Union)阈值
Figure 702110DEST_PATH_IMAGE035
,全体样本训练次数epochs=160;
S3、在训练中,先将DarkNet-53在ImageNet上进行预训练,嵌入类注意力机制算法模块后加载预训练好的网络模型,训练全体样本160次(160个epoch),每个epoch从320,352,384,416,448,480,512,544,576,608,640共11和数中随机抽取一个数作为输入图像的高和宽,实现多尺寸训练;
S4、在测试阶段,采用平均精确率均值mAP(mean Average Precision)评价检测性能,通过交并比
Figure 178091DEST_PATH_IMAGE036
计算出精准率P(Precision)和召回率(Recall),然后画出PR(Precision-Recall)曲线图,在峰值点向左画一条线和上一个峰值的垂线相交,与横轴和纵轴形成封闭的图形,计算出此面积即为AP(Average Precision)。用此方法计算出所有类别的AP,然后求其均值即为mAP,
Figure 796154DEST_PATH_IMAGE037
,C为类别数,本专利中C=20。
1、检测数据集
采用PASCAL VOC数据集,该数据集由20个类别的图像组成,分别为:aero、bike、bird、boat、 bottle、bus、car、cat、chair、cow、table、dog、horse、mbike、 person、plant、sheep、sofa、train、tv。使用PASCAL VOC2007 训练集与验证集、PASCAL VOC2012训练集与验证集(共计16551张图像)训练模型,使用PASCAL VOC2007 测试集(共计4952张图像)测试模型。
实验硬件配置为:双核Intel(R) Xeon(R) CPU Gold 5115,内存大小为32GB,1块Quadro P4000显卡,显存为8GB。软件配置为Windows10,编程语言为Python3.7,使用Pytorch-1.7.1+cu101框架构建网络。在训练过程中,先将DarkNet-53在ImageNet上进行预训练,嵌入类注意力模块后加载预训练好的网络模型。设置初始学习率α=0.001,动量参数momentum=0.9,权重衰减系数γ=0.0005,每批图像数batchsize=4,交并比IOU(Intersection-over-Union)阈值
Figure 207543DEST_PATH_IMAGE035
,全体样本训练次数epochs=160;训练全体样本160次(160个epoch),每个epoch从320,352,384,416,448,480,512,544,576,608,640共11个数中随机抽取一个数作为输入图像的高和宽,实现多尺寸训练,通过水平翻转、随机裁剪和随机仿射实现数据增强。
2、评价方法
在测试阶段,采用mAP(mean Average Precision)平均精确率均值评价检测性能。交并比阈值
Figure 463120DEST_PATH_IMAGE035
,通过交并比
Figure 352579DEST_PATH_IMAGE036
计算出精准率P(Precision)和召回率(Recall),然后画出PR(Precision-Recall)曲线图,在峰值点向左画一条线和上一个峰值的垂线相交,与横轴和纵轴形成封闭的图形,计算出此面积即为AP(Average Precision)。用此方法计算出所有类别的AP,然后求其均值即为mAP,可由如下公式(13)表示:
Figure 90728DEST_PATH_IMAGE038
(13)
其中C为类别数,本文C=20。
3、检测结果
本专利方法在PASCAL VOC测试集上的mAP为检测结果82.8%,各目标类型的检测精度如表1所示。
表1 在PASCAL VOC测试集上的检测精度
Figure 797653DEST_PATH_IMAGE039

Claims (2)

1.一种类注意力机制构建方法,其特征在于:
对小特征图上采样并进行运算得到上采样权值,作用于大特征图得到过渡特征图,对过渡特征图下采样并进行运算得到下采样权值,将下采样权值作用于小特征图,该方法构建的类注意力机制增强了小特征图的几何信息;
所述构建的类注意力机制的输入为不同大小分辨率的特征图;
所述小特征图是分辨率较小的特征图;
所述大特征图是分辨率较大的特征图;
所述对小特征图上采样是对小特征图补0填充后卷积(卷积核大小为3,步长1),得到上采样特征图;
所述进行运算得到上采样权值是利用Sigmoid函数对上采样特征图进行计算,得到上采样权值;
所述作用于大特征图得到过渡特征图是将上采样权值与大特征图逐元素相乘再相加,得到过渡特征图;
所述对过渡特征图下采样是对过渡特征图卷积(卷积核大小为3,步长2),得到下采样特征图;
所述进行运算得到下采样权值是利用Sigmoid函数对下采样特征图进行计算,得到下采样权值;
所述将下采样权值作用于小特征图是将下采样权值与小特征图逐元素相乘再相加。
2.目标检测方法,其特征在于,将权利要求1中所述构建的类注意力机制设计成算法模块,嵌入YOLOv3算法中,得到基于类注意力机制的YOLOv3算法,并用于目标检测;
所述将构建的类注意力机制设计成算法模块是用Python语言,将类注意力机制编写成程序模块;
所述嵌入YOLOv3算法中,得到基于类注意力机制的YOLOv3算法,是将程序模块分别嵌入到宿主算法YOLOv3骨干网络DarkNet-53的第一个模块和第二个模块之后;
所述用于目标检测包括以下步骤:
S1、用训练数据集对基于类注意力机制的YOLOv3算法进行模型训练,得到模型参数;
S2、加载模型参数,用测试数据集进行测试;
基于类注意力机制的YOLOv3算法进行模型训练包括以下步骤:
S101、设置初始学习率α=0.001,动量参数momentum=0.9,权重衰减系数γ=0.0005,每批图像数batchsize=4,交并比IOU(Intersection-over-Union)阈值
Figure RE-RE-RE-DEST_PATH_IMAGE001
,全体样本训练次数epochs=160;
S102、将DarkNet-53在ImageNet上进行预训练,得到模型预训练参数;
S103、将类注意力机制算法分别嵌入DarkNet-53第一个模块和第二个模块之后;
S104、加载模型预训练参数;
S105、从320,352,384,416,448,480,512,544,576,608,640共11个数中,随机抽取一个数作为输入图像的高和宽;
S106、将公共数据PASCAL VOC2007的训练集与验证集、PASCAL VOC2012的训练集与验证集(共计16551张图像)分成batchsize张一批,共4138批;
S107、向网络模型输入一批图像;
S108、对图像采用水平翻转、随机裁剪和随机仿射进行增强处理;
S109、用每张图像训练模型;
S110、完成一次批内样本迭代(iteration)训练;
S111、重复步骤S107,直至训练完所有分批图像;
S112、完成所有样本训练一次(1个epoch训练);
S113、重复步骤S105,直至训练完所有epochs;
S114、得到基于类注意力机制的YOLOv3算法的模型参数;
加载模型参数,用测试数据集进行测试包括以下步骤:
S201、向基于类注意力机制的YOLOv3算法加载模型参数;
S202、输入公共数据PASCAL VOC2007测试集(共计4952张图像)图像;
S203、计算每张图像的预测框与原图像标记框的重合度交并比
Figure RE-RE-386700DEST_PATH_IMAGE002
S204、比较
Figure RE-RE-21949DEST_PATH_IMAGE002
Figure RE-RE-801687DEST_PATH_IMAGE001
大小,
Figure RE-RE-134579DEST_PATH_IMAGE002
>
Figure RE-RE-948951DEST_PATH_IMAGE001
,则预测成功,记录本次预测结果;
S205、预测完所有图像,根据记录结果,计算精准率P(Precision)和召回率(Recall);
S206、画出PR(Precision-Recall)曲线图,在峰值点向左画一条线和上一个峰值的垂线相交,与横轴和纵轴形成封闭的图形,计算出此面积即为AP(Average Precision);
S207、计算所有类别的AP,然后求其均值即为mAP,
Figure RE-RE-RE-DEST_PATH_IMAGE003
,C为类别数。
CN202210641150.5A 2022-06-08 2022-06-08 一种类注意力机制构建方法及目标检测方法 Pending CN115346063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210641150.5A CN115346063A (zh) 2022-06-08 2022-06-08 一种类注意力机制构建方法及目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210641150.5A CN115346063A (zh) 2022-06-08 2022-06-08 一种类注意力机制构建方法及目标检测方法

Publications (1)

Publication Number Publication Date
CN115346063A true CN115346063A (zh) 2022-11-15

Family

ID=83947871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210641150.5A Pending CN115346063A (zh) 2022-06-08 2022-06-08 一种类注意力机制构建方法及目标检测方法

Country Status (1)

Country Link
CN (1) CN115346063A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883741A (zh) * 2023-07-12 2023-10-13 北京市农林科学院 一种基于金字塔注意力机制的小样本虫害检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883741A (zh) * 2023-07-12 2023-10-13 北京市农林科学院 一种基于金字塔注意力机制的小样本虫害检测方法

Similar Documents

Publication Publication Date Title
CN108427920B (zh) 一种基于深度学习的边海防目标检测方法
CN112800964B (zh) 基于多模块融合的遥感影像目标检测方法及系统
CN112446378B (zh) 目标检测方法及装置、存储介质、终端
CN112183203B (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN107784288B (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
Fan et al. A novel sonar target detection and classification algorithm
CN116092179A (zh) 一种改进的yolox跌倒检测系统
US20190370940A1 (en) Method and apparatus with feature data generation
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
CN115346063A (zh) 一种类注意力机制构建方法及目标检测方法
CN113763412B (zh) 图像处理方法、装置及电子设备、计算机可读存储介质
Bouzerdoum et al. Improved deep learning-based classification of mine-like contacts in sonar images from autonomous underwater vehicles
CN115757386B (zh) 海洋空间观测数据的异常检测方法、系统、设备与介质
CN112465847A (zh) 一种基于预测清晰边界的边缘检测方法、装置及设备
CN115661828B (zh) 一种基于动态分层嵌套残差网络的文字方向识别方法
Liu et al. SSD small object detection algorithm based on feature enhancement and sample selection
CN113724261A (zh) 一种基于卷积神经网络的快速图像构图方法
CN113095185A (zh) 人脸表情识别方法、装置、设备及存储介质
Idicula et al. Real time SAR Ship Detection using novel SarNeDe method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination