CN114821246A - 基于多层次残差网络感知和注意力机制的小目标检测方法 - Google Patents

基于多层次残差网络感知和注意力机制的小目标检测方法 Download PDF

Info

Publication number
CN114821246A
CN114821246A CN202210737757.3A CN202210737757A CN114821246A CN 114821246 A CN114821246 A CN 114821246A CN 202210737757 A CN202210737757 A CN 202210737757A CN 114821246 A CN114821246 A CN 114821246A
Authority
CN
China
Prior art keywords
layer
convolution
multiplied
feature
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210737757.3A
Other languages
English (en)
Other versions
CN114821246B (zh
Inventor
高赞
纪威
王水跟
徐国智
顾竟潇
刘大扬
郝敬全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Calmcar Vision Electronic Technology Co ltd
Iray Technology Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Suzhou Calmcar Vision Electronic Technology Co ltd
Iray Technology Co Ltd
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Calmcar Vision Electronic Technology Co ltd, Iray Technology Co Ltd, Taihua Wisdom Industry Group Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Suzhou Calmcar Vision Electronic Technology Co ltd
Priority to CN202210737757.3A priority Critical patent/CN114821246B/zh
Publication of CN114821246A publication Critical patent/CN114821246A/zh
Application granted granted Critical
Publication of CN114821246B publication Critical patent/CN114821246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了基于多层次残差网络感知和注意力机制的小目标检测方法,Baseline采用单阶段检测器YOLOv5;方法的具体步骤如下:(1)构建虚拟训练样本,扩充训练数据集的规模,提升模型整体性能;(2)使用多层残差卷积提取图像多维度特征;(3)注意力机制增强浅层特征图;(4)特征金字塔连接浅层特征图;(5)利用损失函数优化模型预测目标位置信息和类别信息以及置信度;(6)P2检测层配合Lufl与VIoU Loss预测小目标。本发明发明了选择性样本增强扩充了数据集,平衡样本之间的差异,充分利用浅层特征图,显著提高小目标检测的召回率和准确率。

Description

基于多层次残差网络感知和注意力机制的小目标检测方法
技术领域
本发明涉及目标检测与识别领域,涉及基于多层次残差网络感知和注意力机制的小目标检测方法。
背景技术
当前不同场景对于小目标的定义各不相同,目前尚未形成统一的标准。现有的主流小目标定义方式主要分为以下两类,即基于相对尺度的定义与基于绝对尺度的定义。相对尺度一般定义为边界框面积与图像面积之比的中位数在0.08%到0.58%之间。绝对尺度一般定义为分辨率小于32像素×32像素的目标。现有算法的设计往往更为关注大、中尺度目标的检测性能。针对小目标特性的优化设计并不多,加之小目标缺乏充足的外观信息,定位困难,导致现有算法在小目标检测上普遍表现不佳。
小目标检测是目标检测下的一个分支,和目标检测一样,即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。目前主流的目标检测算法主要是基于深度学习模型,大概可以分成两大类别:(1)One-Stage目标检测算法,这类检测算法不需要Region Proposal阶段,可以通过一个Stage直接产生物体的类别概率和位置坐标值,比较典型的算法有YOLO、SSD和CornerNet;(2)Two-Stage目标检测算法,这类检测算法将检测问题划分为两个阶段,第一个阶段首先产生候选区域(RegionProposals),包含目标大概的位置信息,然后第二个阶段对候选区域进行分类和确定位置,这类算法的典型代表有Fast R-CNN,Faster R-CNN,Cascade R-CNN等。目标检测模型的主要性能指标是检测准确度和速度,其中准确度主要考虑物体的定位以及分类准确度。一般情况下,Two-Stage算法在准确度上有优势,而One-Stage算法在速度上有优势。不过,随着研究的发展,两类算法都在两个方面做改进,均能在准确度以及速度上取得较好的结果。
目前小目标检测主要从四个方面入手:数据增强、多尺度学习、上下文学习、无锚框机制。小目标面临着分辨率低、可提取特征少、样本数量匮乏等诸多挑战,提高小目标检测精度需要引入多种策略,实际应用中,往往需要针对目标特性做出优化,设计不当的数据增强、上下文学习、多尺度学习测策略可能会引入新的噪声,损害特征提取的性能,大多方法在提高检测性能的同时也增加了额外的计算量,用牺牲时间的方式换取准确度的提升,或者牺牲准确度的方式换取时间,并且在特征融合过程中难以避免干扰噪声的影响,这些问题导致了小目标检测性能难以得到进一步提升。
发明内容
本发明提供了基于多层次残差网络感知和注意力机制的小目标检测方法,解决了传统目标检测方法中,小目标物体漏检,误检,分辨率导致低可利用特征少,训练样本少,对损失函数贡献少,定位困难等诸多问题。
该方法具体包含以下步骤:
1)选择性样本复制增强扩充训练集,具体操作如下:
预先统计好各类样本数量,选择性复制样本增强后所有样本保证比例统一,将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动,所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声,并添加对应位置和类别图片标注文件。
2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图。
3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图。
4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征。
5)融合经过骨干网络得到的尺度特征图,得到尺度检测层,通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置。
6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。
优选的,所述步骤一中目标样本面积缩放方式具体如下:将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9–1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。
优选的,所述使用多层残差卷积提取图像多维度特征具体步骤如下:
将采集到的待检测图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素。
通过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小。
使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数。
第一层不经过卷积直接添加到x_空张量中,第二层至第x层由上一层切片加上本层切片经过卷积得到,将每一层特征图按列融合,得到经过多层残差卷积后的特征图变为B×1024×W/32×H/32。
优选的,所述利用注意力机制增强浅层特征图具体步骤如下:
将得到的特征图放入通道和空间注意力模块。
特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图。
对融合后的特征图使用s×s卷积核卷积,得到特征图经过通道注意力的结果。
将经过通道注意力特征图放入空间注意力中,将图片中的空间域信息做空间变换,提取关键相对空间位置信息和绝对空间位置信息。
优选的,所述尺度检测层具体如下:
原始待检测图像经过Focus卷积和一层残差卷积后与高层特征图融合得到特征金字塔P2层,P2经过下采样与二层残差卷积融合得到特征金字塔P3层,P3层经过下采样与P2层之前第3层相结合得到P4层,P4层经过下采样与经过三层残差卷积和多次普通卷积融合得到P5层。
优选的,利用损失函数反向传播优化模型权重和偏置,所述损失函数具体如下:
Figure 689863DEST_PATH_IMAGE001
式中:
Figure 97842DEST_PATH_IMAGE002
为分类损失函数,具体公式如下:
Figure 296742DEST_PATH_IMAGE003
Figure 231200DEST_PATH_IMAGE004
其中,
Figure 490143DEST_PATH_IMAGE005
是特征经过激活函数后的输出,值在0到1之间;
Figure 244472DEST_PATH_IMAGE006
Figure 138741DEST_PATH_IMAGE005
经过处理后得到 的,目的是让难分样本占比更大,使模型关注难分样本,
Figure 662126DEST_PATH_IMAGE007
是影响因子,当
Figure 91971DEST_PATH_IMAGE007
大于0时可以减 少易分类样本损失;
Figure 599176DEST_PATH_IMAGE008
为平衡因子,
Figure 139878DEST_PATH_IMAGE008
取0到1之间。
Figure 783349DEST_PATH_IMAGE009
为边框回归损失函数,具体公式如下:
Figure 525040DEST_PATH_IMAGE010
Figure 988383DEST_PATH_IMAGE011
其中
Figure 598356DEST_PATH_IMAGE012
Figure 361912DEST_PATH_IMAGE013
Figure 133559DEST_PATH_IMAGE014
Figure 349777DEST_PATH_IMAGE015
分别代表预测框左上、右上、左下、右下顶点,
Figure 622495DEST_PATH_IMAGE016
Figure 974979DEST_PATH_IMAGE017
Figure 917527DEST_PATH_IMAGE018
Figure 621041DEST_PATH_IMAGE019
分别代表真实框左上、右上、左下、右下顶点。
Figure 307237DEST_PATH_IMAGE020
为二分类交叉熵逻辑损失,具体公式如下所示:
Figure 779807DEST_PATH_IMAGE021
Figure 34202DEST_PATH_IMAGE022
Figure 959433DEST_PATH_IMAGE023
其中
Figure 449320DEST_PATH_IMAGE024
代表模型预测是物体的概率,经过
Figure 41975DEST_PATH_IMAGE025
可将
Figure 326326DEST_PATH_IMAGE024
映射到0到1之间,
Figure 738853DEST_PATH_IMAGE026
代表是 否为真实物体,0代表否,1代表是。
本发明的优点和有益效果:
1)通过选择性样本复制生成,解决了训练数据集中小目标数据量少的问题,并且选取的困难样本有助于提高模型的泛化能力。
2)使用多层残差卷积提取多维度特征,提高小目标检测到概率同时不影响检测中、大目标的性能。
3)使用低维特征提取及注意力机制增强浅层特征图,可以提取到关键信息,放大小目标特征。
4)改变特征金字塔连接方式,增强语义信息和定位信息。
5)多损失函数联合训练,减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。
6)多检测层预测,使各个尺度的锚框有合理的铺设间隔。不同尺度的锚框用来检测不同尺度的物体,检测效果更好。
7)本文发明的基于多层次残差网络感知和注意力机制的小目标检测方法,在相关的小目标数据集中达到了优异的效果。
附图说明
图1为本发明的简要结构图;图中:Cat表示特征拼接。
图2为本发明具体网络结构图;图中:Cat表示特征拼接。
图3为训练和验证loss(包括边框回归损失、分类损失、物体得分损失)下降图,x轴是epoch次数,y轴是loss值。
图4为原始图片与数据增强后的对比图,其中,(a)图是原始图片,(b)图是增强后的图片。
图5为原始YOLOv5l模型与改进后的模型检测效果对比图,其中,(a)图、(c)图、(e)图是原始YOLOv5l模型检测的图片;(b)图、(d)图、(f)图是改进后模型检测的图片。
图6为特征图可视化图,其中(a)为原模型第一次Concat后特征图,(b)为改进后模型第一次Concat后特征图。
图7为不同模块对模型性能的影响示意图;图中:mAP(0.5:0.95)表示在不同IoU阈值(从0.5到0.95,步长0.05)上的平均mAP;mAP0.5表示在不同IoU阈值0.5上的平均mAP;Params(M)表示参数个数,单位是兆字节;GFLOPs(640B)表示正向推理的计算量,表示模型复杂度,640B代表在图片大小为640×640情况下。
图8为原分类采用
Figure 655600DEST_PATH_IMAGE027
函数与本发明设计
Figure 102762DEST_PATH_IMAGE028
Figure 558014DEST_PATH_IMAGE029
Figure 723416DEST_PATH_IMAGE030
可视化曲 线图。
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例:
如图1所示,为本发明的基于多层次残差网络感知和注意力机制的小目标检测方法的操作流程图,该方法的实现步骤细节如下:
1)选择性样本复制增强扩充训练集,具体操作如下:
由于训练数据集样本数小目标较少,训练后会使得模型的泛化能力差,模型不能很好地拟合目标数据,选择性样本复制增强可以更好的解决上述问题;本发明设计选择性样本复制增强不同于以往Copy-Paste。本发明设计将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9 – 1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8 – 0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7 –0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6– 0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5 – 0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 – 0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2 – 0.3倍,这样做可以得到多尺度样本,让模型泛化性能进一步提升。为了使样本平衡,避免出现某个样本因为数量少导致过拟合,本发明设计选择性复制样本增强会预先统计好各类样本数量,选择性复制样本增强后尽量让所有样本保证相同比例,将缩放或放大图片随机放置任意图片任意位置并添加适量抖动,减小每个图片之间的相似性,并添加相应的图片标注文件添加增加的目标信息。
具体公式如下:
Figure 555106DEST_PATH_IMAGE031
(1)
Figure 591195DEST_PATH_IMAGE032
(2)
式中:
Figure 358294DEST_PATH_IMAGE033
代表样本像素值,
Figure 745413DEST_PATH_IMAGE034
)代表随机在
Figure 115214DEST_PATH_IMAGE035
Figure 536968DEST_PATH_IMAGE036
区间取个数,
Figure 599602DEST_PATH_IMAGE037
代表 所有样本数量,
Figure 208438DEST_PATH_IMAGE038
代表类为x样本数量,
Figure 506564DEST_PATH_IMAGE039
代表
Figure 782825DEST_PATH_IMAGE040
类选择复制增强的样本数量比类别
Figure 750781DEST_PATH_IMAGE040
原 始样本数量的比值。
2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图。
将原始模型采用的C3卷积替换为提取多尺度特征能力更强的残差卷积。将增强后的RGB图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素。先经过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小。用残差卷积代替模型原先采用的C3卷积,残差卷积先将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数,默认为4。第一层不经过卷积直接添加到x_空张量中,其余部分由上一层切片加上本层切片经过卷积得到,最终将每一层特征图按列融合,得到经过多层残差卷积后的特征图。经过3次多层残差卷积,最终得到B×1024×W/32×H/32特征图,具体流程可见图2。
3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图。
原图经过步骤二得到B×1024×W/32×H/32特征图,在经过两次最近邻插值上采样,分别是2倍上采样和4倍上采样,会得到B×256×W/4×H/4特征图。
4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征。
将得到的特征图放入通道和空间注意力模块(CBAM, Convolution BlockAttention Module),注意力机制可以根据网络中每层不同的特征的重要性不同,注重其中重要的信息,抑制不重要的信息。其中通道维度计算公式如下:
Figure 112492DEST_PATH_IMAGE041
(3)
其中
Figure 89675DEST_PATH_IMAGE042
代表输入的特征图,ANN代表人工神经网络,
Figure 361388DEST_PATH_IMAGE043
代表平均池化操作,
Figure 500245DEST_PATH_IMAGE044
代表最大池化操作,
Figure 83673DEST_PATH_IMAGE045
代表经过平均池化后的特征图,
Figure 864547DEST_PATH_IMAGE046
代表经过最大池化后 的特征图,
Figure 849821DEST_PATH_IMAGE047
Figure 425159DEST_PATH_IMAGE048
代表人工神经网络前两层参数,
Figure 121981DEST_PATH_IMAGE047
Figure 175388DEST_PATH_IMAGE048
之间参数需要通过ReLU函数激 活。
空间注意力计算公式如下:
Figure 280747DEST_PATH_IMAGE049
(4)
其中
Figure 26986DEST_PATH_IMAGE050
代表使用s×s大小卷积核,特征图在通道注意力中同时沿着通道方向分 别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图,然后 在对融合后的特征图使用s×s卷积核卷积,最终得到特征图经过通道注意力的结果,可视 化特征图见图6,图6中a为yolov5l经过上采样和concat操作后特征图,图6中b为本发明模 型经过上采样和concat后特征图,通过对比可以发现,经过空间和通道维度双重注意力后 特征图噪点更少,特征分布更为明确。
5)融合经过骨干网络得到的尺度特征图,得到尺度检测层。具体如下:
RGB图经过残差卷积提取到的浅层特征图与RGB图经过下采样和下采样双重操作后的特征图融合。图像的低层的特征语义信息比较少,但是目标位置准确,愈深层特征包含的高层语义性愈强、分辨能力也愈强,但目标定位信息不明确。图像经过上采样到与之相匹配浅层特征图同样大小,两者进行融合操作,保留定位信息的同时也保留了强语义信息。
原始模型只包含P3、P4、P5检测层,本发明中加入P2检测层。原始RGB图像经过Focus卷积和一层残差卷积后与高层特征图融合得到P2层,P3层由P2经过下采样与二层残差卷积融合而得,P4层由P3层经过下采样与P2层之前第3层相结合而得,P5层由P4层经过下采样与经过三层残差卷积和多次普通卷积融合而得。改变原模型浅层特征图与高层特征图连接方式,语义信息与定位信息相互结合,更好的检测到小目标。
通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置。
6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。
特别的,原模型分类采用的是交叉熵损失函数,本发明发明的分类损失函数(Ultra Focal Loss)是基于焦点损失(Focal Loss)改进而来的。由于检测任务中小目标负样本数量往往比较大,占总的loss的大部分,而且多是容易分类的,因此使得模型的优化变得异常困难,使用改进后的函数可以通过减少易分类样本的权重,增加难分样本损失值,使得模型在训练时更专注于难分类的样本。不同于焦点损失的是,改进后的损失比焦点损更注重难分样本,损失函数变化更大,更加适合本发明模型。分类损失函数公式如下:
Figure 585007DEST_PATH_IMAGE051
(5)
Figure 542916DEST_PATH_IMAGE052
(6)
其中,
Figure 194477DEST_PATH_IMAGE053
是特征经过激活函数后的输出,值在0到1之间。
Figure 239793DEST_PATH_IMAGE006
Figure 900582DEST_PATH_IMAGE053
经过处理后得到的, 为了适应
Figure 714954DEST_PATH_IMAGE054
的输入,让损失变为可优化的连续函数。
Figure 802996DEST_PATH_IMAGE055
是影响因子,当
Figure 460242DEST_PATH_IMAGE055
大于0时可以减少 易分类样本损失,使得模型更关注于难分、困难样本。
Figure 659142DEST_PATH_IMAGE056
为平衡因子,用来平衡正负样本本 身不均匀,
Figure 593600DEST_PATH_IMAGE056
取0到0.5之间时,即正样本要比负样本占比少,
Figure 852543DEST_PATH_IMAGE056
取0.5到1之间时,即负样本要 比正样本占比少。
在本发明原模型边框回归采用的是CIoU损失,其公式如下:
Figure 606872DEST_PATH_IMAGE057
(7)
Figure 875043DEST_PATH_IMAGE058
(8)
Figure 539373DEST_PATH_IMAGE059
(9)
其中
Figure 969218DEST_PATH_IMAGE060
为预测框,
Figure 210843DEST_PATH_IMAGE061
为真实框,
Figure 17125DEST_PATH_IMAGE062
为包含
Figure 660596DEST_PATH_IMAGE060
Figure 261342DEST_PATH_IMAGE061
最小凸闭包框,
Figure 625151DEST_PATH_IMAGE063
代表的是真实框 与预测框交集比上真实框与预测框并集,简称交并比,
Figure 235124DEST_PATH_IMAGE064
Figure 467522DEST_PATH_IMAGE065
分别代表真实框的宽高,
Figure 504748DEST_PATH_IMAGE066
Figure 720966DEST_PATH_IMAGE067
分别代表预测框宽高,
Figure 603471DEST_PATH_IMAGE068
代表检测框尺度loss,越接近真实框,loss越小。
Figure 96901DEST_PATH_IMAGE069
代表最小凸 闭包框对角线距离,
Figure 305028DEST_PATH_IMAGE070
代表两中心点距离。由于小目标真实框与预测框往往相差比较大,引 入VIoU损失可以更好反应边框回归真实变化。
改进后的边框回归损失VIoU如下所示:
Figure 742963DEST_PATH_IMAGE071
(10)
Figure 694738DEST_PATH_IMAGE072
(11)
其中
Figure 167308DEST_PATH_IMAGE073
Figure 280757DEST_PATH_IMAGE074
Figure 596201DEST_PATH_IMAGE075
Figure 86088DEST_PATH_IMAGE076
分别代表预测框左上、右上、左下、右下顶点,
Figure 413164DEST_PATH_IMAGE077
Figure 697515DEST_PATH_IMAGE078
Figure 375621DEST_PATH_IMAGE079
Figure 403620DEST_PATH_IMAGE080
分别代表真实框左上、右上、左下、右下顶点,将原模型CIoU中对角线欧氏 距离替换为四顶点平均欧氏距离,更能真实反映预测框与真实框的位置,当预测框与真实 框重合时,此时的
Figure 726148DEST_PATH_IMAGE081
为0,符合实际要求。VIoU可以反映真实框与预测框四边差异,再加上宽 高比损失,可以拉近预测框与真实框之间的距离,使预测框更为准确。
物体得分损失采用原模型的二分类交叉熵逻辑(BCEWithLogitsLoss)损失,公式如下所示:
Figure 446979DEST_PATH_IMAGE082
(12)
Figure 81223DEST_PATH_IMAGE083
(13)
Figure 912913DEST_PATH_IMAGE084
(14)
其中
Figure 480160DEST_PATH_IMAGE024
代表模型预测是物体的概率,经过
Figure 106314DEST_PATH_IMAGE025
可将映射到0到1之间,
Figure 119531DEST_PATH_IMAGE026
代表是否 为真实物体,0代表否,1代表是。Loss下降曲线如图3所示,最终损失函数如下所示:
Figure 754912DEST_PATH_IMAGE085
(15)
为了证明本发明的有效性,在公开的小目标数据集VisDrone2019上进行了实验,GPU采用Tesla A100(40G),BatchSize设为16,epochs设为200,Conf-thres设为0.7(验证集得出的最佳结果),Iou-thres设为0.45(验证集得出的最佳结果),测试数据采用的是VisDrone2019-DET-test-dev。实验的评价指标采用的是mAP0.5:0.95和mAP0.5。其中,mAP0.5:0.95表示在不同IoU阈值(从0.5到0.95,步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均准确率,mAP0.5表示IoU阈值设为0.5时的平均准确率。最终在640×640分辨率且不使用预训练模型的情况下mAP0.5:0.95可以到达36.8,mAP0.5可以达到51.3,在1536×1536分辨率下mAP0.5:0.95可以到达37.1,mAP0.5可以达到52.2。
不同模块对本发明方法的性能比较如图5所示,从图中可以看出,本发明提出的基于多层次残差网络感知和注意力机制的小目标检测方法具有优良的性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制;尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,该方法具体包含以下步骤:
1)选择性样本复制增强扩充训练集,具体操作如下:
预先统计好各类样本数量,选择性复制样本增强后所有样本保证比例统一,将缩放或放大图片随机放置任意图片任意位置并随机添加一种图像抖动,所述图像抖动包括小幅度旋转变换、高斯模糊、椒盐噪声,并添加对应位置和类别图片标注文件;
2)将训练集图像输入到骨干网络中,按照骨干网络结构顺序,使用多层残差卷积提取图像多维度特征,再将提取到多尺度特征输入到下采样层,生成待检测图像尺度依次减小的特征映射图;
3)将经过下采样层得到最小特征映射图输入到普通卷积层和上采样层,经过两次最近邻插值上采样,生成检测图像尺度依次增大的特征映射图;
4)利用注意力机制增强浅层特征图,将上采样得到最后一层特征图输入到空间和通道注意力层,放大空间和通道特征;
5)融合经过骨干网络得到的尺度特征图,得到尺度检测层,通过滑动窗口依次在不同检测层从左向右,从上到下检测特征图,将选中特征输入到全连接层中,给出目标预测框,使用非极大值抑制过滤预测框,最终给出目标位置信息、置信度、类别信息,再将得到的信息对比真实框信息,得到总的损失,通过反向传播的方式更新每层卷积权重和偏置;
6)采集待检测图像,将图像送入到已经训练好的模型中,进一步地生成大量预测框,接着采用非极大值抑制算法消除重叠框后生成最终的检测结果。
2.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述步骤一中目标样本面积缩放方式具体如下:将目标样本面积小于500像素随机放大到原图的1.5 - 2倍,样本面积在500到1000像素之间随机缩放至原图的0.9–1倍,样本面积在1000到1500像素之间随机缩放至原图的0.8–0.9倍,样本面积在1000到2000像素之间随机缩放至原图的0.7–0.8倍,样本面积在2000到3500像素之间随机缩放至原图的0.6–0.7倍,样本面积在3500到5500像素之间随机缩放至原图的0.5–0.6倍,样本面积在5500到7500像素之间随机缩放至原图的0.3 –0.4倍,样本面积大于7500像素目标图片随机缩放至原图的0.2–0.3倍。
3.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述使用多层残差卷积提取图像多维度特征具体步骤如下:
将采集到的待检测图像输入到卷积神经网络中,输入尺寸W×H像素,W为图片长度,H为图片宽度,单位是像素,
通过Focus切片操作,由原来的B×3×W×H变为B×64×W/2×H/2,其中B为Batchsize大小;
使用残差卷积将1×1卷积得到的特征图使用torch.chunk函数将特征图按列切分成x层,x是自定义的参数;
第一层不经过卷积直接添加到x_空张量中,第二层至第x层由上一层切片加上本层切片经过卷积得到,将每一层特征图按列融合,得到经过多层残差卷积后的特征图变为 B×1024×W/32×H/32。
4.根据权利要求3所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述利用注意力机制增强浅层特征图具体步骤如下:
将得到的特征图放入通道和空间注意力模块,
特征图在通道注意力中同时沿着通道方向分别做平均池化和最大池化操作,池化后的两个特征图按通道维度融合成一个特征图,
对融合后的特征图使用s×s卷积核卷积,得到特征图经过通道注意力的结果;
将经过通道注意力特征图放入空间注意力中,将图片中的空间域信息做空间变换,提取关键相对空间位置信息和绝对空间位置信息。
5.根据权利要求4所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,所述尺度检测层具体如下:
原始待检测图像经过Focus卷积和一层残差卷积后与高层特征图融合得到特征金字塔P2层,P2经过下采样与二层残差卷积融合得到特征金字塔P3层,P3层经过下采样与P2层之前第3层相结合得到P4层,P4层经过下采样与经过三层残差卷积和多次普通卷积融合得到P5层。
6.根据权利要求1所述的基于多层次残差网络感知和注意力机制的小目标检测方法,其特征在于,利用损失函数反向传播优化模型权重和偏置,所述损失函数具体如下:
Figure 826202DEST_PATH_IMAGE001
式中:
Figure 888836DEST_PATH_IMAGE002
为分类损失函数,具体公式如下:
Figure 638618DEST_PATH_IMAGE003
Figure 812110DEST_PATH_IMAGE004
其中,
Figure 822791DEST_PATH_IMAGE005
是特征经过激活函数后的输出,值在0到1之间;
Figure 56327DEST_PATH_IMAGE006
Figure 418038DEST_PATH_IMAGE005
经过处理后得到的,目 的是让难分样本占比更大,使模型关注难分样本,
Figure 129642DEST_PATH_IMAGE007
是影响因子,当
Figure 895297DEST_PATH_IMAGE007
大于0时可以减少易分 类样本损失;
Figure 299733DEST_PATH_IMAGE008
为平衡因子,
Figure 883161DEST_PATH_IMAGE008
取0到1之间;
Figure 664035DEST_PATH_IMAGE009
为边框回归损失函数,具体公式如下:
Figure 649309DEST_PATH_IMAGE010
Figure 959067DEST_PATH_IMAGE011
其中
Figure 170737DEST_PATH_IMAGE012
Figure 489723DEST_PATH_IMAGE013
Figure 595082DEST_PATH_IMAGE014
Figure 75742DEST_PATH_IMAGE015
分别代表预测框左上、右上、左下、右下顶点,
Figure 899342DEST_PATH_IMAGE016
Figure 490860DEST_PATH_IMAGE017
Figure 575360DEST_PATH_IMAGE018
Figure 758079DEST_PATH_IMAGE019
分别代表真实框左上、右上、左下、右下顶点;
Figure 803396DEST_PATH_IMAGE020
为二分类交叉熵逻辑损失,具体公式如下所示:
Figure 198605DEST_PATH_IMAGE021
Figure 278556DEST_PATH_IMAGE022
Figure 241964DEST_PATH_IMAGE023
其中
Figure 774577DEST_PATH_IMAGE024
代表模型预测是物体的概率,经过
Figure 973477DEST_PATH_IMAGE025
可将
Figure 907935DEST_PATH_IMAGE024
映射到0到1之间,
Figure 166878DEST_PATH_IMAGE026
代表是否为 真实物体,0代表否,1代表是。
CN202210737757.3A 2022-06-28 2022-06-28 基于多层次残差网络感知和注意力机制的小目标检测方法 Active CN114821246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210737757.3A CN114821246B (zh) 2022-06-28 2022-06-28 基于多层次残差网络感知和注意力机制的小目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210737757.3A CN114821246B (zh) 2022-06-28 2022-06-28 基于多层次残差网络感知和注意力机制的小目标检测方法

Publications (2)

Publication Number Publication Date
CN114821246A true CN114821246A (zh) 2022-07-29
CN114821246B CN114821246B (zh) 2022-10-14

Family

ID=82523085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210737757.3A Active CN114821246B (zh) 2022-06-28 2022-06-28 基于多层次残差网络感知和注意力机制的小目标检测方法

Country Status (1)

Country Link
CN (1) CN114821246B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410060A (zh) * 2022-11-01 2022-11-29 山东省人工智能研究院 面向公共安全视频的全局感知小目标智能检测方法
CN115410140A (zh) * 2022-11-02 2022-11-29 中国船舶集团有限公司第七〇七研究所 基于海上目标的图像检测方法、装置、设备及介质
CN116245732A (zh) * 2023-03-13 2023-06-09 江南大学 一种基于YOLOv5的小目标反光衣识别检测方法
CN116403115A (zh) * 2023-06-07 2023-07-07 江西啄木蜂科技有限公司 一种大幅面遥感影像目标检测方法
CN116596904A (zh) * 2023-04-26 2023-08-15 国网江苏省电力有限公司泰州供电分公司 一种基于自适应尺度感知的输电检测模型构建方法及装置
CN116612087A (zh) * 2023-05-22 2023-08-18 山东省人工智能研究院 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法
CN116935394A (zh) * 2023-07-27 2023-10-24 南京邮电大学 一种基于PSENet区域分割的列车车厢号定位方法
CN117523428A (zh) * 2023-11-08 2024-02-06 中国人民解放军军事科学院系统工程研究院 基于飞行器平台的地面目标检测方法和装置
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362199A1 (en) * 2018-05-25 2019-11-28 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN112329658A (zh) * 2020-11-10 2021-02-05 江苏科技大学 一种对于yolov3网络的检测算法改进方法
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
CN113743505A (zh) * 2021-09-06 2021-12-03 辽宁工程技术大学 基于自注意力和特征融合的改进ssd目标检测方法
CN114202672A (zh) * 2021-12-09 2022-03-18 南京理工大学 一种基于注意力机制的小目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362199A1 (en) * 2018-05-25 2019-11-28 Adobe Inc. Joint blur map estimation and blur desirability classification from an image
CN112329658A (zh) * 2020-11-10 2021-02-05 江苏科技大学 一种对于yolov3网络的检测算法改进方法
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
CN113743505A (zh) * 2021-09-06 2021-12-03 辽宁工程技术大学 基于自注意力和特征融合的改进ssd目标检测方法
CN114202672A (zh) * 2021-12-09 2022-03-18 南京理工大学 一种基于注意力机制的小目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘颖等: "基于深度学习的小目标检测研究与应用综述", 《电子学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410060B (zh) * 2022-11-01 2023-02-28 山东省人工智能研究院 面向公共安全视频的全局感知小目标智能检测方法
CN115410060A (zh) * 2022-11-01 2022-11-29 山东省人工智能研究院 面向公共安全视频的全局感知小目标智能检测方法
CN115410140A (zh) * 2022-11-02 2022-11-29 中国船舶集团有限公司第七〇七研究所 基于海上目标的图像检测方法、装置、设备及介质
CN116245732A (zh) * 2023-03-13 2023-06-09 江南大学 一种基于YOLOv5的小目标反光衣识别检测方法
CN116596904A (zh) * 2023-04-26 2023-08-15 国网江苏省电力有限公司泰州供电分公司 一种基于自适应尺度感知的输电检测模型构建方法及装置
CN116596904B (zh) * 2023-04-26 2024-03-26 国网江苏省电力有限公司泰州供电分公司 一种基于自适应尺度感知的输电检测模型构建方法及装置
CN116612087B (zh) * 2023-05-22 2024-02-23 山东省人工智能研究院 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法
CN116612087A (zh) * 2023-05-22 2023-08-18 山东省人工智能研究院 一种基于YOLOv5-LA的冠脉CTA狭窄检测方法
CN116403115A (zh) * 2023-06-07 2023-07-07 江西啄木蜂科技有限公司 一种大幅面遥感影像目标检测方法
CN116403115B (zh) * 2023-06-07 2023-08-22 江西啄木蜂科技有限公司 一种大幅面遥感影像目标检测方法
CN116935394A (zh) * 2023-07-27 2023-10-24 南京邮电大学 一种基于PSENet区域分割的列车车厢号定位方法
CN116935394B (zh) * 2023-07-27 2024-01-02 南京邮电大学 一种基于PSENet区域分割的列车车厢号定位方法
CN117523428A (zh) * 2023-11-08 2024-02-06 中国人民解放军军事科学院系统工程研究院 基于飞行器平台的地面目标检测方法和装置
CN117523428B (zh) * 2023-11-08 2024-03-29 中国人民解放军军事科学院系统工程研究院 基于飞行器平台的地面目标检测方法和装置
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法
CN117714875B (zh) * 2024-02-06 2024-04-30 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Also Published As

Publication number Publication date
CN114821246B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN114821246B (zh) 基于多层次残差网络感知和注意力机制的小目标检测方法
CN111652321B (zh) 一种基于改进yolov3算法的海上船舶检测方法
CN112733749A (zh) 融合注意力机制的实时行人检测方法
WO2020164282A1 (zh) 基于yolo的图像目标识别方法、装置、电子设备和存储介质
WO2018003212A1 (ja) 物体検出装置及び物体検出方法
Tian et al. A dual neural network for object detection in UAV images
CN112800964B (zh) 基于多模块融合的遥感影像目标检测方法及系统
WO2023070447A1 (zh) 模型训练方法、图像处理方法、计算处理设备及非瞬态计算机可读介质
CN112070713A (zh) 一种引入attention机制的多尺度目标检测方法
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN112561907B (zh) 一种基于双流网络的视频篡改操作检测方法及装置
CN114821665A (zh) 一种基于卷积神经网络的城市人流小目标检测方法
CN112966747A (zh) 一种基于无锚框检测网络改进的车辆检测方法
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
Sandelin Semantic and instance segmentation of room features in floor plans using Mask R-CNN
CN113538458A (zh) 基于FTL损失函数和注意力的U-Net图像分割方法
CN116485649A (zh) 一种端到端的图像拼接定位方法和系统
Fan et al. A novel sonar target detection and classification algorithm
CN117037004A (zh) 基于多尺度特征融合和上下文增强的无人机影像检测方法
CN114639101A (zh) 一种乳状液液滴识别系统、方法、计算机设备及存储介质
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN113269156B (zh) 一种基于多尺度特征融合的信号灯检测识别方法及系统
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
WO2022222080A1 (zh) 一种基于位置感知的单图像反射层移除方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant