CN114821246A - 基于多层次残差网络感知和注意力机制的小目标检测方法 - Google Patents
基于多层次残差网络感知和注意力机制的小目标检测方法 Download PDFInfo
- Publication number
- CN114821246A CN114821246A CN202210737757.3A CN202210737757A CN114821246A CN 114821246 A CN114821246 A CN 114821246A CN 202210737757 A CN202210737757 A CN 202210737757A CN 114821246 A CN114821246 A CN 114821246A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- multiplied
- feature
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 230000008447 perception Effects 0.000 title claims abstract description 12
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 230000010076 replication Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 239000006002 Pepper Substances 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 35
- 238000013461 design Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多层次残差网络感知和注意力机制的小目标检测方法,Baseline采用单阶段检测器YOLOv5;方法的具体步骤如下:(1)构建虚拟训练样本,扩充训练数据集的规模,提升模型整体性能;(2)使用多层残差卷积提取图像多维度特征;(3)注意力机制增强浅层特征图;(4)特征金字塔连接浅层特征图;(5)利用损失函数优化模型预测目标位置信息和类别信息以及置信度;(6)P2检测层配合Lufl与VIoU Loss预测小目标。本发明发明了选择性样本增强扩充了数据集,平衡样本之间的差异,充分利用浅层特征图,显著提高小目标检测的召回率和准确率。
Description
技术领域
本发明涉及目标检测与识别领域,涉及基于多层次残差网络感知和注意力机制的小目标检测方法。
背景技术
当前不同场景对于小目标的定义各不相同,目前尚未形成统一的标准。现有的主流小目标定义方式主要分为以下两类,即基于相对尺度的定义与基于绝对尺度的定义。相对尺度一般定义为边界框面积与图像面积之比的中位数在0.08%到0.58%之间。绝对尺度一般定义为分辨率小于32像素×32像素的目标。现有算法的设计往往更为关注大、中尺度目标的检测性能。针对小目标特性的优化设计并不多,加之小目标缺乏充足的外观信息,定位困难,导致现有算法在小目标检测上普遍表现不佳。
小目标检测是目标检测下的一个分支,和目标检测一样,即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。目前主流的目标检测算法主要是基于深度学习模型,大概可以分成两大类别:(1)One-Stage目标检测算法,这类检测算法不需要Region Proposal阶段,可以通过一个Stage直接产生物体的类别概率和位置坐标值,比较典型的算法有YOLO、SSD和CornerNet;(2)Two-Stage目标检测算法,这类检测算法将检测问题划分为两个阶段,第一个阶段首先产生候选区域(RegionProposals),包含目标大概的位置信息,然后第二个阶段对候选区域进行分类和确定位置,这类算法的典型代表有Fast R-CNN,Faster R-CNN,Cascade R-CNN等。目标检测模型的主要性能指标是检测准确度和速度,其中准确度主要考虑物体的定位以及分类准确度。一般情况下,Two-Stage算法在准确度上有优势,而One-Stage算法在速度上有优势。不过,随着研究的发展,两类算法都在两个方面做改进,均能在准确度以及速度上取得较好的结果。
目前小目标检测主要从四个方面入手:数据增强、多尺度学习、上下文学习、无锚框机制。小目标面临着分辨率低、可提取特征少、样本数量匮乏等诸多挑战,提高小目标检测精度需要引入多种策略,实际应用中,往往需要针对目标特性做出优化,设计不当的数据增强、上下文学习、多尺度学习测策略可能会引入新的噪声,损害特征提取的性能,大多方法在提高检测性能的同时也增加了额外的计算量,用牺牲时间的方式换取准确度的提升,或者牺牲准确度的方式换取时间,并且在特征融合过程中难以避免干扰噪声的影响,这些问题导致了小目标检测性能难以得到进一步提升。
发明内容
本发明提供了基于多层次残差网络感知和注意力机制的小目标检测方法,解决了传统目标检测方法中,小目标物体漏检,误检,分辨率导致低可利用特征少,训练样本少,对损失函数贡献少,定位困难等诸多问题。
该方法具体包含以下步骤:
1)选择性样本复制增强扩充训练集,具体操作如下:
预先统计好各类样本数量,选择性复制样本增强后所有样本保证比例统一,将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动,所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声,并添加对应位置和类别图片标注文件。
2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图。
3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图。
4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征。
5)融合经过骨干网络得到的尺度特征图,得到尺度检测层,通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置。
6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。
优选的,所述步骤一中目标样本面积缩放方式具体如下:将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9–1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。
优选的,所述使用多层残差卷积提取图像多维度特征具体步骤如下:
将采集到的待检测图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素。
通过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小。
使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数。
第一层不经过卷积直接添加到x_空张量中,第二层至第x层由上一层切片加上本层切片经过卷积得到,将每一层特征图按列融合,得到经过多层残差卷积后的特征图变为B×1024×W/32×H/32。
优选的,所述利用注意力机制增强浅层特征图具体步骤如下:
将得到的特征图放入通道和空间注意力模块。
特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图。
对融合后的特征图使用s×s卷积核卷积,得到特征图经过通道注意力的结果。
将经过通道注意力特征图放入空间注意力中,将图片中的空间域信息做空间变换,提取关键相对空间位置信息和绝对空间位置信息。
优选的,所述尺度检测层具体如下:
原始待检测图像经过Focus卷积和一层残差卷积后与高层特征图融合得到特征金字塔P2层,P2经过下采样与二层残差卷积融合得到特征金字塔P3层,P3层经过下采样与P2层之前第3层相结合得到P4层,P4层经过下采样与经过三层残差卷积和多次普通卷积融合得到P5层。
优选的,利用损失函数反向传播优化模型权重和偏置,所述损失函数具体如下:
本发明的优点和有益效果:
1)通过选择性样本复制生成,解决了训练数据集中小目标数据量少的问题,并且选取的困难样本有助于提高模型的泛化能力。
2)使用多层残差卷积提取多维度特征,提高小目标检测到概率同时不影响检测中、大目标的性能。
3)使用低维特征提取及注意力机制增强浅层特征图,可以提取到关键信息,放大小目标特征。
4)改变特征金字塔连接方式,增强语义信息和定位信息。
5)多损失函数联合训练,减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。
6)多检测层预测,使各个尺度的锚框有合理的铺设间隔。不同尺度的锚框用来检测不同尺度的物体,检测效果更好。
7)本文发明的基于多层次残差网络感知和注意力机制的小目标检测方法,在相关的小目标数据集中达到了优异的效果。
附图说明
图1为本发明的简要结构图;图中:Cat表示特征拼接。
图2为本发明具体网络结构图;图中:Cat表示特征拼接。
图3为训练和验证loss(包括边框回归损失、分类损失、物体得分损失)下降图,x轴是epoch次数,y轴是loss值。
图4为原始图片与数据增强后的对比图,其中,(a)图是原始图片,(b)图是增强后的图片。
图5为原始YOLOv5l模型与改进后的模型检测效果对比图,其中,(a)图、(c)图、(e)图是原始YOLOv5l模型检测的图片;(b)图、(d)图、(f)图是改进后模型检测的图片。
图6为特征图可视化图,其中(a)为原模型第一次Concat后特征图,(b)为改进后模型第一次Concat后特征图。
图7为不同模块对模型性能的影响示意图;图中:mAP(0.5:0.95)表示在不同IoU阈值(从0.5到0.95,步长0.05)上的平均mAP;mAP0.5表示在不同IoU阈值0.5上的平均mAP;Params(M)表示参数个数,单位是兆字节;GFLOPs(640B)表示正向推理的计算量,表示模型复杂度,640B代表在图片大小为640×640情况下。
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例:
如图1所示,为本发明的基于多层次残差网络感知和注意力机制的小目标检测方法的操作流程图,该方法的实现步骤细节如下:
1)选择性样本复制增强扩充训练集,具体操作如下:
由于训练数据集样本数小目标较少,训练后会使得模型的泛化能力差,模型不能很好地拟合目标数据,选择性样本复制增强可以更好的解决上述问题;本发明设计选择性样本复制增强不同于以往Copy-Paste。本发明设计将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9 – 1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8 – 0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7 –0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6– 0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5 – 0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 – 0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2 – 0.3倍,这样做可以得到多尺度样本,让模型泛化性能进一步提升。为了使样本平衡,避免出现某个样本因为数量少导致过拟合,本发明设计选择性复制样本增强会预先统计好各类样本数量,选择性复制样本增强后尽量让所有样本保证相同比例,将缩放或放大图片随机放置任意图片任意位置并添加适量抖动,减小每个图片之间的相似性,并添加相应的图片标注文件添加增加的目标信息。
具体公式如下:
2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图。
将原始模型采用的C3卷积替换为提取多尺度特征能力更强的残差卷积。将增强后的RGB图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素。先经过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小。用残差卷积代替模型原先采用的C3卷积,残差卷积先将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数,默认为4。第一层不经过卷积直接添加到x_空张量中,其余部分由上一层切片加上本层切片经过卷积得到,最终将每一层特征图按列融合,得到经过多层残差卷积后的特征图。经过3次多层残差卷积,最终得到B×1024×W/32×H/32特征图,具体流程可见图2。
3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图。
原图经过步骤二得到B×1024×W/32×H/32特征图,在经过两次最近邻插值上采样,分别是2倍上采样和4倍上采样,会得到B×256×W/4×H/4特征图。
4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征。
将得到的特征图放入通道和空间注意力模块(CBAM, Convolution BlockAttention Module),注意力机制可以根据网络中每层不同的特征的重要性不同,注重其中重要的信息,抑制不重要的信息。其中通道维度计算公式如下:
其中代表输入的特征图,ANN代表人工神经网络,代表平均池化操作,代表最大池化操作,代表经过平均池化后的特征图,代表经过最大池化后
的特征图,和代表人工神经网络前两层参数,和之间参数需要通过ReLU函数激
活。
空间注意力计算公式如下:
其中代表使用s×s大小卷积核,特征图在通道注意力中同时沿着通道方向分
别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图,然后
在对融合后的特征图使用s×s卷积核卷积,最终得到特征图经过通道注意力的结果,可视
化特征图见图6,图6中a为yolov5l经过上采样和concat操作后特征图,图6中b为本发明模
型经过上采样和concat后特征图,通过对比可以发现,经过空间和通道维度双重注意力后
特征图噪点更少,特征分布更为明确。
5)融合经过骨干网络得到的尺度特征图,得到尺度检测层。具体如下:
RGB图经过残差卷积提取到的浅层特征图与RGB图经过下采样和下采样双重操作后的特征图融合。图像的低层的特征语义信息比较少,但是目标位置准确,愈深层特征包含的高层语义性愈强、分辨能力也愈强,但目标定位信息不明确。图像经过上采样到与之相匹配浅层特征图同样大小,两者进行融合操作,保留定位信息的同时也保留了强语义信息。
原始模型只包含P3、P4、P5检测层,本发明中加入P2检测层。原始RGB图像经过Focus卷积和一层残差卷积后与高层特征图融合得到P2层,P3层由P2经过下采样与二层残差卷积融合而得,P4层由P3层经过下采样与P2层之前第3层相结合而得,P5层由P4层经过下采样与经过三层残差卷积和多次普通卷积融合而得。改变原模型浅层特征图与高层特征图连接方式,语义信息与定位信息相互结合,更好的检测到小目标。
通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置。
6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。
特别的,原模型分类采用的是交叉熵损失函数,本发明发明的分类损失函数(Ultra Focal Loss)是基于焦点损失(Focal Loss)改进而来的。由于检测任务中小目标负样本数量往往比较大,占总的loss的大部分,而且多是容易分类的,因此使得模型的优化变得异常困难,使用改进后的函数可以通过减少易分类样本的权重,增加难分样本损失值,使得模型在训练时更专注于难分类的样本。不同于焦点损失的是,改进后的损失比焦点损更注重难分样本,损失函数变化更大,更加适合本发明模型。分类损失函数公式如下:
其中,是特征经过激活函数后的输出,值在0到1之间。是经过处理后得到的,
为了适应的输入,让损失变为可优化的连续函数。是影响因子,当大于0时可以减少
易分类样本损失,使得模型更关注于难分、困难样本。为平衡因子,用来平衡正负样本本
身不均匀,取0到0.5之间时,即正样本要比负样本占比少,取0.5到1之间时,即负样本要
比正样本占比少。
在本发明原模型边框回归采用的是CIoU损失,其公式如下:
其中为预测框,为真实框,为包含与最小凸闭包框,代表的是真实框
与预测框交集比上真实框与预测框并集,简称交并比,和分别代表真实框的宽高,
和分别代表预测框宽高,代表检测框尺度loss,越接近真实框,loss越小。代表最小凸
闭包框对角线距离,代表两中心点距离。由于小目标真实框与预测框往往相差比较大,引
入VIoU损失可以更好反应边框回归真实变化。
改进后的边框回归损失VIoU如下所示:
其中、、、分别代表预测框左上、右上、左下、右下顶点,、、、分别代表真实框左上、右上、左下、右下顶点,将原模型CIoU中对角线欧氏
距离替换为四顶点平均欧氏距离,更能真实反映预测框与真实框的位置,当预测框与真实
框重合时,此时的为0,符合实际要求。VIoU可以反映真实框与预测框四边差异,再加上宽
高比损失,可以拉近预测框与真实框之间的距离,使预测框更为准确。
物体得分损失采用原模型的二分类交叉熵逻辑(BCEWithLogitsLoss)损失,公式如下所示:
为了证明本发明的有效性,在公开的小目标数据集VisDrone2019上进行了实验,GPU采用Tesla A100(40G),BatchSize设为16,epochs设为200,Conf-thres设为0.7(验证集得出的最佳结果),Iou-thres设为0.45(验证集得出的最佳结果),测试数据采用的是VisDrone2019-DET-test-dev。实验的评价指标采用的是mAP0.5:0.95和mAP0.5。其中,mAP0.5:0.95表示在不同IoU阈值(从0.5到0.95,步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均准确率,mAP0.5表示IoU阈值设为0.5时的平均准确率。最终在640×640分辨率且不使用预训练模型的情况下mAP0.5:0.95可以到达36.8,mAP0.5可以达到51.3,在1536×1536分辨率下mAP0.5:0.95可以到达37.1,mAP0.5可以达到52.2。
不同模块对本发明方法的性能比较如图5所示,从图中可以看出,本发明提出的基于多层次残差网络感知和注意力机制的小目标检测方法具有优良的性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,该方法具体包含以下步骤:
1)选择性样本复制增强扩充训练集,具体操作如下:
预先统计好各类样本数量,选择性复制样本增强后所有样本保证比例统一,将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动,所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声,并添加对应位置和类别图片标注文件;
2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图;
3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图;
4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征;
5)融合经过骨干网络得到的尺度特征图,得到尺度检测层,通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置;
6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。
2.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述步骤一中目标样本面积缩放方式具体如下:将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9–1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。
3.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述使用多层残差卷积提取图像多维度特征具体步骤如下:
将采集到的待检测图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素,
通过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小;
使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数;
第一层不经过卷积直接添加到x_空张量中,第二层至第x层由上一层切片加上本层切片经过卷积得到,将每一层特征图按列融合,得到经过多层残差卷积后的特征图变为 B×1024×W/32×H/32。
4.根据权利要求3所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述利用注意力机制增强浅层特征图具体步骤如下:
将得到的特征图放入通道和空间注意力模块,
特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图,
对融合后的特征图使用s×s卷积核卷积,得到特征图经过通道注意力的结果;
将经过通道注意力特征图放入空间注意力中,将图片中的空间域信息做空间变换,提取关键相对空间位置信息和绝对空间位置信息。
5.根据权利要求4所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述尺度检测层具体如下:
原始待检测图像经过Focus卷积和一层残差卷积后与高层特征图融合得到特征金字塔P2层,P2经过下采样与二层残差卷积融合得到特征金字塔P3层,P3层经过下采样与P2层之前第3层相结合得到P4层,P4层经过下采样与经过三层残差卷积和多次普通卷积融合得到P5层。
6.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,利用损失函数反向传播优化模型权重和偏置,所述损失函数具体如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210737757.3A CN114821246B (zh) | 2022-06-28 | 2022-06-28 | 基于多层次残差网络感知和注意力机制的小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210737757.3A CN114821246B (zh) | 2022-06-28 | 2022-06-28 | 基于多层次残差网络感知和注意力机制的小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114821246A true CN114821246A (zh) | 2022-07-29 |
CN114821246B CN114821246B (zh) | 2022-10-14 |
Family
ID=82523085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210737757.3A Active CN114821246B (zh) | 2022-06-28 | 2022-06-28 | 基于多层次残差网络感知和注意力机制的小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821246B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410060A (zh) * | 2022-11-01 | 2022-11-29 | 山东省人工智能研究院 | 面向公共安全视频的全局感知小目标智能检测方法 |
CN115410140A (zh) * | 2022-11-02 | 2022-11-29 | 中国船舶集团有限公司第七〇七研究所 | 基于海上目标的图像检测方法、装置、设备及介质 |
CN116245732A (zh) * | 2023-03-13 | 2023-06-09 | 江南大学 | 一种基于YOLOv5的小目标反光衣识别检测方法 |
CN116403115A (zh) * | 2023-06-07 | 2023-07-07 | 江西啄木蜂科技有限公司 | 一种大幅面遥感影像目标检测方法 |
CN116596904A (zh) * | 2023-04-26 | 2023-08-15 | 国网江苏省电力有限公司泰州供电分公司 | 一种基于自适应尺度感知的输电检测模型构建方法及装置 |
CN116612087A (zh) * | 2023-05-22 | 2023-08-18 | 山东省人工智能研究院 | 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法 |
CN116935394A (zh) * | 2023-07-27 | 2023-10-24 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
CN117523428A (zh) * | 2023-11-08 | 2024-02-06 | 中国人民解放军军事科学院系统工程研究院 | 基于飞行器平台的地面目标检测方法和装置 |
CN117714875A (zh) * | 2024-02-06 | 2024-03-15 | 博大视野(厦门)科技有限公司 | 一种基于深度神经网络的端到端视频防抖方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190362199A1 (en) * | 2018-05-25 | 2019-11-28 | Adobe Inc. | Joint blur map estimation and blur desirability classification from an image |
CN112329658A (zh) * | 2020-11-10 | 2021-02-05 | 江苏科技大学 | 一种对于yolov3网络的检测算法改进方法 |
CN113674247A (zh) * | 2021-08-23 | 2021-11-19 | 河北工业大学 | 一种基于卷积神经网络的x射线焊缝缺陷检测方法 |
CN113743505A (zh) * | 2021-09-06 | 2021-12-03 | 辽宁工程技术大学 | 基于自注意力和特征融合的改进ssd目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
-
2022
- 2022-06-28 CN CN202210737757.3A patent/CN114821246B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190362199A1 (en) * | 2018-05-25 | 2019-11-28 | Adobe Inc. | Joint blur map estimation and blur desirability classification from an image |
CN112329658A (zh) * | 2020-11-10 | 2021-02-05 | 江苏科技大学 | 一种对于yolov3网络的检测算法改进方法 |
CN113674247A (zh) * | 2021-08-23 | 2021-11-19 | 河北工业大学 | 一种基于卷积神经网络的x射线焊缝缺陷检测方法 |
CN113743505A (zh) * | 2021-09-06 | 2021-12-03 | 辽宁工程技术大学 | 基于自注意力和特征融合的改进ssd目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
Non-Patent Citations (1)
Title |
---|
刘颖等: "基于深度学习的小目标检测研究与应用综述", 《电子学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410060B (zh) * | 2022-11-01 | 2023-02-28 | 山东省人工智能研究院 | 面向公共安全视频的全局感知小目标智能检测方法 |
CN115410060A (zh) * | 2022-11-01 | 2022-11-29 | 山东省人工智能研究院 | 面向公共安全视频的全局感知小目标智能检测方法 |
CN115410140A (zh) * | 2022-11-02 | 2022-11-29 | 中国船舶集团有限公司第七〇七研究所 | 基于海上目标的图像检测方法、装置、设备及介质 |
CN116245732A (zh) * | 2023-03-13 | 2023-06-09 | 江南大学 | 一种基于YOLOv5的小目标反光衣识别检测方法 |
CN116596904A (zh) * | 2023-04-26 | 2023-08-15 | 国网江苏省电力有限公司泰州供电分公司 | 一种基于自适应尺度感知的输电检测模型构建方法及装置 |
CN116596904B (zh) * | 2023-04-26 | 2024-03-26 | 国网江苏省电力有限公司泰州供电分公司 | 一种基于自适应尺度感知的输电检测模型构建方法及装置 |
CN116612087B (zh) * | 2023-05-22 | 2024-02-23 | 山东省人工智能研究院 | 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法 |
CN116612087A (zh) * | 2023-05-22 | 2023-08-18 | 山东省人工智能研究院 | 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法 |
CN116403115A (zh) * | 2023-06-07 | 2023-07-07 | 江西啄木蜂科技有限公司 | 一种大幅面遥感影像目标检测方法 |
CN116403115B (zh) * | 2023-06-07 | 2023-08-22 | 江西啄木蜂科技有限公司 | 一种大幅面遥感影像目标检测方法 |
CN116935394A (zh) * | 2023-07-27 | 2023-10-24 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
CN116935394B (zh) * | 2023-07-27 | 2024-01-02 | 南京邮电大学 | 一种基于PSENet区域分割的列车车厢号定位方法 |
CN117523428A (zh) * | 2023-11-08 | 2024-02-06 | 中国人民解放军军事科学院系统工程研究院 | 基于飞行器平台的地面目标检测方法和装置 |
CN117523428B (zh) * | 2023-11-08 | 2024-03-29 | 中国人民解放军军事科学院系统工程研究院 | 基于飞行器平台的地面目标检测方法和装置 |
CN117714875A (zh) * | 2024-02-06 | 2024-03-15 | 博大视野(厦门)科技有限公司 | 一种基于深度神经网络的端到端视频防抖方法 |
CN117714875B (zh) * | 2024-02-06 | 2024-04-30 | 博大视野(厦门)科技有限公司 | 一种基于深度神经网络的端到端视频防抖方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114821246B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114821246B (zh) | 基于多层次残差网络感知和注意力机制的小目标检测方法 | |
CN111652321B (zh) | 一种基于改进yolov3算法的海上船舶检测方法 | |
CN112733749A (zh) | 融合注意力机制的实时行人检测方法 | |
Tian et al. | A dual neural network for object detection in UAV images | |
WO2020164282A1 (zh) | 基于yolo的图像目标识别方法、装置、电子设备和存储介质 | |
WO2018003212A1 (ja) | 物体検出装置及び物体検出方法 | |
CN112800964B (zh) | 基于多模块融合的遥感影像目标检测方法及系统 | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN114782311B (zh) | 一种基于CenterNet改进的多尺度缺陷目标检测方法及系统 | |
CN112070713A (zh) | 一种引入attention机制的多尺度目标检测方法 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN114821665A (zh) | 一种基于卷积神经网络的城市人流小目标检测方法 | |
CN113313706A (zh) | 基于检测参考点偏移分析的电力设备缺陷图像检测方法 | |
Sandelin | Semantic and instance segmentation of room features in floor plans using Mask R-CNN | |
CN116403127A (zh) | 一种无人机航拍图像目标检测方法、装置和存储介质 | |
CN114639101A (zh) | 一种乳状液液滴识别系统、方法、计算机设备及存储介质 | |
CN116485649A (zh) | 一种端到端的图像拼接定位方法和系统 | |
CN113538458A (zh) | 基于FTL损失函数和注意力的U-Net图像分割方法 | |
Wang et al. | SERR‐U‐Net: Squeeze‐and‐Excitation Residual and Recurrent Block‐Based U‐Net for Automatic Vessel Segmentation in Retinal Image | |
CN117037004A (zh) | 基于多尺度特征融合和上下文增强的无人机影像检测方法 | |
WO2022222080A1 (zh) | 一种基于位置感知的单图像反射层移除方法 | |
Wu et al. | Pneumonia detection based on RSNA dataset and anchor-free deep learning detector | |
CN114048862A (zh) | 模型的解释方法及装置 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |