CN113393457B - 一种结合残差密集块与位置注意力的无锚框目标检测方法 - Google Patents

一种结合残差密集块与位置注意力的无锚框目标检测方法 Download PDF

Info

Publication number
CN113393457B
CN113393457B CN202110793165.9A CN202110793165A CN113393457B CN 113393457 B CN113393457 B CN 113393457B CN 202110793165 A CN202110793165 A CN 202110793165A CN 113393457 B CN113393457 B CN 113393457B
Authority
CN
China
Prior art keywords
layer
feature
convolution
branch
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110793165.9A
Other languages
English (en)
Other versions
CN113393457A (zh
Inventor
邝利丹
陶家俊
张建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202110793165.9A priority Critical patent/CN113393457B/zh
Publication of CN113393457A publication Critical patent/CN113393457A/zh
Application granted granted Critical
Publication of CN113393457B publication Critical patent/CN113393457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合残差密集块与位置注意力的无锚框目标检测方法,属于计算机视觉深度学习领域。采用新型特征融合模块,该模块使用含有位置注意力的残差密集块,与原始特征金字塔网络相比,网络参数量降低了5.3倍并提高了网络特征提取的能力;使用多尺度预测方法解决同一位置大小样本重叠的问题;提出非关键点抑制分支降低非关键点对检测效果的影响,使其后续能在置信度阈值和非极大值抑制中被过滤。本发明能够有效提升提取能力,并降低目标边缘低质量点对检测结果的影响,较之现有算法呈现出较大的精确度与速度提高,在目标检测领域有良好的应用前景。

Description

一种结合残差密集块与位置注意力的无锚框目标检测方法
技术领域
发明涉及计算机视觉深度学习领域,特别是涉及一种结合残差密集块与位置注意力的无锚框目标检测方法。
背景技术
作为智能世界的双眸,计算机视觉是人工智能技术的一大分支,计算机视觉中目标检测是一个复杂且重要的任务,并广泛应用于生活、工业、医疗等实际场景中,其主要目标是在图像中定位出目标边框的位置以及识别该目标所属的类别。传统目标检测方法首先选择出感兴趣的区域,然后利用多尺度、多长宽比的滑框来扫描整张图片,计算量大且冗余窗口多。随着深度学习的快速发展,深度卷积神经网络(convolutional neural networks,CNN)越来越多地应用于计算机视觉领域,并且引领了目标检测领域的发展。
主流的目标检测算法由骨干网络、特征融合网络和检测头组成,最具代表性的网络有YOLO系列,SSD系列和RetinaNet等,这些基于锚框的检测器需要根据数据集采用聚类算法计算出预先设定的大小。无锚框算法则不需要设计各种各样的锚框,从而降低了超参数,提升了网络的泛化能力和鲁棒性。无锚框检测器分为密集点预测和关键点预测两类。以Densebox,FCOS,FSAF,SAPD和FoveaBox等为代表,预测落入真实边界框内所有点的称为密集点预测算法;而以CornerNet,ExtremeNet,和CenterNet等为代表,预测真实边界框内一个或几个关键点的称为关键点预测算法。基于关键点预测算法目前主要存在如下三大问题:
第一,从stride为2或4的一张特征图中计算得到较高精确率需要更大的内存消耗和更多的训练与推理时间;
第二,单尺度特征图同一位置大小目标重叠,检测器将无法正确判断检测点属于哪个目标;
第三,关键点预测不准确,具体表现为物体边缘仍然被判断为检测点,导致出现大量低质量冗余检测框。
发明内容
本发明目的在于,一种结合残差密集块与位置注意力的无锚框目标检测方法,通过残差密集块和注意力机制,多尺度预测和引入非关键点抑制解决上述问题,在VOC2007测试集中取得优于现有算法的结果。
本发明的技术方案是,使用含有位置注意力的残差密集块(residual denseblock with coordinate attention,RDBCA),与原始特征金字塔网络(feature pyramidnetwork,FPN)相比,降低了网络参数并提高了网络特征提取的能力;使用多尺度预测方法解决大小样本之间重叠的问题;提出非关键点抑制分支(non-key-point suppression,NKS)降低非关键点对检测效果的影响,使其后续能在置信度阈值和非极大值抑制(non-maximum suppression,NMS)中被过滤,具体实现步骤如下:
第一步:以50%的概率对原始图片进行随机增强,包括(1)亮度,对比度,色度调整;(2)图片的随机裁剪;(3)图片左右翻转;(4)保持图片比例填充背景色。最后得到原始图像数据I∈RH×W×3,H和W分别是原始图像的长和宽,3为彩色通道数;
第二步:将原始图像数据输入骨干网络,得到特征层。本方法提出的模型使用ResNet-18作为骨干网络,修改网络最后的全连接层以构造全卷积网络;骨干网络每次下采样,特征图大小变为原始图像的一半,最后得到三层特征C3,C4和C5,特征层stride分别为8,16和32,特征图通道数分别为128,256和512;
第三步:调整通道数大小。使用一个1×1卷积将特征层C3,C4和C5的通道数调整为64,64和128,记为D3,D4和D5
第四步:将特征D5输入RDBCA模块得P5。记输入RDBCA的特征数据为F0,首先使用连续三个3×3深度可分离卷积并且保存每次卷积后的特征信息分别记为F1_1、F1_2与F1。每个3×3深度可分离卷积后,都会与F0进行残差连接,以降低梯度消失和梯度爆炸现象,最后输出结果为F1
Figure GDA0003863592090000021
其中
Figure GDA0003863592090000022
是3×3深度可分离卷积,δ是ReLu激活函数。然后将特征信息F0、F1_1、F1_2与F1共4层串联起来,即concat([F0,F1_1,F1_2,F1]),得到比输入数据F0通道数大4倍的新特征,再用一个1×1卷积将特征层通道数降低到与F0相同大小,并与F0相加作为局部特征融合得到特征层F2
Figure GDA0003863592090000023
其中“concat”是串联操作,
Figure GDA0003863592090000024
是1×1卷积,δ是ReLu激活函数。接着利用水平方向自适应平均池化和垂直方向自适应平均池化,从F2得到两个不同方向的池化数据,再将这一对方向感知特征串联起来,送入一个共享参数的1×1卷积进行特征提取,得到输出F3
Figure GDA0003863592090000031
其中“HAvgPool”是水平方向自适应平均池化,“WAvgPool”是垂直方向自适应平均池化,“concat”是串联操作,
Figure GDA0003863592090000032
是1×1卷积。然后沿着空间维度将F3切分为两个单独的张量记为F3_1和F3_2
F3_1,F3_2=split(F3) (4)
其中“split”函数可以将张量拆分为块。接着再利用1×1卷积将F3_1和F3_2变换到和F2相同的通道数,使用sigmoid函数将其映射到(0,1)范围内,再与F2相乘得到输出的特征数据F4
Figure GDA0003863592090000033
其中
Figure GDA0003863592090000034
是1×1卷积,σ是sigmoid激活函数;最后,将输入特征F0与输出特征F4相加作为第二条局部特征融合得到最后输出特征Fout
Fout=δ(F0+F4) (6)
其中δ是ReLu激活函数,Fout即为RDBCA的输出结果;
第五步:使用1×1卷积将P5的通道数缩小一倍,然后使用双线性插值上采样,将特征图放大到与前一层D4一样的大小,接着将D4与P5串联起来,最后将串联后的特征输入第五步中的RDBCA模块得到P4
第六步:重复第四步与第五步,得到P3,使用最大池化将D5下采样,并输入第四步中的RDBCA模块得到P6,最终得到4个特征层Pl,l∈{3,4,5,6};
第七步:生成检测头。对P3,P4,P5和P6分别使用一个通道数为128的3×3深度可分离卷积,接着用一个输出通道数为C的1×1卷积生成分类分支,C为类别数,采用文献“Lin,T.Y.,Goyal,P.,Girshick,R.,He,K.,Dollar,P.:Focal loss for dense objectdetection.In:Proceedings of the IEEE International Conference on ComputerVision,pp.2980–2988(2017).”中生成分类分支方法,得到各特征层各像素点各类的置信度
Figure GDA0003863592090000035
用一个输出通道数为4的1×1卷积生成定位分支,采用文献“Tian,Z.,Shen,C.,Chen,H.,He,T.:FCOS:fully convolutional one-stage object detection.In:ICCV,pp.9627–9636.IEEE(2019).”中方法,得到各特征层各像素点到边界框的距离
Figure GDA0003863592090000036
用一个输出通道数为1的1×1卷积生成“非关键点抑制分支”,用一个二分类器进行训练,对于“非关键点抑制分支”预测到的各层各像素点的值,用sigmoid函数映射到(0,1)上,这些值即为各特征层各像素点“是关键点”的置信度
Figure GDA0003863592090000041
其中l={3,4,5,6},
Figure GDA0003863592090000042
第八步:计算损失。记特征层Pl上像素点的坐标为(il,jl),其中l∈{3,4,5,6},
Figure GDA0003863592090000043
对于一副H×W输入图像,假设有N个目标点,每个目标点Bn,1≤n≤N,都包含其左上和右下坐标以及该目标类别的标注信息,记为
Figure GDA0003863592090000044
其中
Figure GDA0003863592090000045
Figure GDA0003863592090000046
设置特征层Pl的最大距离为:
hl=A×2l-1,l=3,4,5,6 (7)
其中A取12。如果目标n满足:
Figure GDA0003863592090000047
则认为该目标落入Pl层。对于任意一个落入Pl层的目标
Figure GDA0003863592090000048
其“关键点”即为目标区域内的中心点
Figure GDA0003863592090000049
其中
Figure GDA00038635920900000410
令其真实值权重
Figure GDA00038635920900000411
其余点均为“非关键点”,令其真实值权重
Figure GDA00038635920900000412
对所有特征层均进行如上操作,那么,采用二进制交叉熵计算非关键点抑制损失Lnks可表示为:
Figure GDA00038635920900000413
其中M为所有特征层样本总数,
Figure GDA00038635920900000414
Figure GDA00038635920900000415
为原始图像输入神经网络后得到的Pl层上“非关键点抑制分支”预测值权重。分类损失Lcls采用文章“Zhou,X.,Wang,D.,et al.:Objects as points.arXiv preprint arXiv:1904.07850(2019).”中分类损失的设置方法进行计算。位置损失Liou采用文章“Yu,J.,Jiang,Y.,Wang,Z.,Cao,Z.,Huang,T.:UnitBox:an advancedobject detection network.In:Proceedings of the24th ACM International Conference on Multimedia,pp.516–520(2016).”中IoU(Intersection over Union)损失进行计算。网络的总损失L为三个分支损失之和:
L=Lcls+Liou+Lnks (10)
第九步:迭代终止条件判断;使用公式(10)计算损失,根据损失求取梯度,反向传播更新优化器参数。重复第一步至第八步,直到迭代次数达到最大时结束。
第十步:推理阶段。采用文献“Lin,T.Y.,Goyal,P.,Girshick,R.,He,K.,Dollar,P.:Focal loss for dense object detection.In:Proceedings of the IEEEInternational Conference on Computer Vision,pp.2980–2988(2017).”中方法,从检测头的分类分支得到预测的各特征层各像素点各类别的预测结果
Figure GDA0003863592090000051
采用文献“Tian,Z.,Shen,C.,Chen,H.,He,T.:FCOS:fully convolutional one-stage object detection.In:ICCV,pp.9627–9636.IEEE(2019).”中方法,得到各特征层各像素点到边界框的距离
Figure GDA0003863592090000052
从检测头的非关键点抑制分支,得到各特征层各像素点“是关键点”的预测结果,然后使用sigmoid函数将值映射到(0,1)上,这些值即为各特征层各像素点“是关键点”的置信度
Figure GDA0003863592090000053
其中l={3,4,5,6},
Figure GDA0003863592090000054
C为类别数。分类置信度
Figure GDA0003863592090000055
首先利用“非关键点抑制分支”的预测结果
Figure GDA0003863592090000056
与其进行计算,以抑制非关键点对检测结果的影响,得到修正后的各像素点各类别的置信度
Figure GDA0003863592090000057
Figure GDA0003863592090000058
然后从
Figure GDA0003863592090000059
选择置信度从大到小的前100个预测点,再过滤掉置信度低于0.05的点。最后采用文章“Tian,Z.,Shen,C.,Chen,H.,He,T.:FCOS:fully convolutional one-stage object detection.In:ICCV,pp.9627–9636.IEEE(2019).”中方法,计算预测点到四条边的距离并利用非极大值抑制方法去除冗余的预测框。保留下来的类别和边界框即为网络对输入图像内目标的预测结果。
本发明所达到的效果和益处是与现有采用基于Resnet-18、分辨率384×384和512×512的CenterNet算法相比,本方法精确率分别提高了4.7%与3.6%,FPS达到了87与77,分别提升了1.38倍和1.40倍。与基于Resnet-50、分辨率384×384和512×512的FCOS算法、本方法精确率分别提高了5.9%和1.6%,每秒传输帧数(Frames Per Second,FPS)达到了65与60,速度提升2.5倍和2.4倍。另外本发明的非关键点抑制分支能有效抑制非关键点对检测效果的干扰,因此本发明能够有效提升检测精确率和速度,在目标检测领域有良好的应用前景。
附图说明
图1为本发明一种结合残差密集块与位置注意力的无锚框目标检测方法流程图。
图2为本发明方法网络整体结构示意图。
图3为本发明方法含有RDBCA的特征融合模块示意图。
图4为本发明方法RDBCA模块示意图。
具体实施方式
下面结合技术方案和附图,详细叙述本发明的一个具体实施例。
本文所使用的平台是Windows Server 2019操作系统,CPU为Intel(R)Xeon(R)Gold 6226R CPU,GPU为一块Nvidia GeForce RTX 2060SUPER,并在基于CUDA 10.2和CUDNN7.6.5版本的Pytorch 1.8.1深度学习框架下训练本文模型。本文使用Pytorch官方提供的Resnet-18预训练权重文件初始化骨干网络,并采用Adam对网络进行优化,设置批量数大小是24,一共设置200个世代,其中第1个世代采用“预热(warm up)”技术,学习率从10-5逐渐提升到10-3,之后20个世代保持学习率为10-3,再采用余弦退火函数逐步下降学习率,直到第200个世代时下降到10-5训练结束。如图1所示,一种结合残差密集块与位置注意力的无锚框目标检测方法,包括以下步骤:
第一步:以50%的概率对VOC2007和VOC2012训练集原始图片进行随机增强,包括(1)亮度,对比度,色度调整;(2)图片的随机裁剪;(3)图片左右翻转;(4)保持图片比例填充背景色。最后得到原始图像数据I∈R384×384×3
第二步:将原始图像数据输入骨干网络,得到三层特征C3,C4和C5,特征层stride分别为8,16和32,特征图通道数分别为128,256和512;
第三步:参考图2,使用一个1×1卷积将特征层C3,C4和C5的通道数调整为64,64和128,得到为D3,D4和D5
第四步:参考图3,将特征D5输入RDBCA模块得P5
第五步:使用1×1卷积将P5的通道数缩小一倍,然后使用双线性插值上采样,将特征图放大到与前一层D4一样的大小,接着将D4与P5串联起来,最后将串联后的特征输入第五步中的RDBCA模块得到P4
第六步:重复第四步与第五步,得到P3;使用最大池化将D5下采样,并输入第四步中的RDBCA模块得到P6
第七步:对P3,P4,P5和P6分别使用一个3×3深度可分离卷积,接着用一个输出通道数为20的1×1卷积生成分类分支;用一个输出通道数为4的1×1卷积生成定位分支;用一个输出通道数为1的1×1卷积生成非关键点抑制分支;
第八步:使用公式(9)和(10)计算损失;
第九步:根据损失求取梯度,反向传播更新优化器参数,重复第一步至第八步,直到迭代次数达到最大时结束;
第十步:从检测头的分类分支获得各特征层各像素点各类别的置信度
Figure GDA0003863592090000071
从检测头的定位分支获得各特征层各像素点到四条边的距离
Figure GDA0003863592090000072
从检测头的非关键点抑制分支,得到各特征层各像素点“是关键点”的预测结果,然后使用sigmoid函数将值映射到(0,1)上,这些值即为各特征层各像素点“是关键点”的置信度
Figure GDA0003863592090000073
使用公式(11)对分类置信度得分进行抑制,得到抑制后的各特征层各像素点各类别的置信度
Figure GDA0003863592090000074
然后从
Figure GDA0003863592090000075
选择置信度从大到小的前100个预测点,再过滤掉置信度低于0.05的点。再计算预测点到四条边的距离并利用非极大值抑制方法去除冗余的预测框。保留下来的类别和边界框即为网络对输入图像内目标的预测结果。

Claims (1)

1.一种结合残差密集块与位置注意力的无锚框目标检测方法,采用新型特征融合模块,该模块使用含有位置注意力的残差密集块(residual dense block with coordinateattention,RDBCA);使用多尺度预测方法解决大小样本之间重叠的问题;提出非关键点抑制分支(non-key-point suppression,NKS)降低非关键点对检测效果的影响,使其后续能在置信度阈值和非极大值抑制(non-maximum suppression,NMS)中被过滤,具体步骤如下:
第一步:以50%的概率对原始图片进行随机增强,包括(1)亮度,对比度,色度调整;(2)图片的随机裁剪;(3)图片左右翻转;(4)保持图片比例填充背景色;最后得到原始图像数据I∈RH×W×3,H和W分别是原始图像的长和宽,3为彩色通道数;
第二步:将原始图像数据输入骨干网络,得到特征层;本方法提出的模型使用ResNet-18作为骨干网络,修改网络最后的全连接层以构造全卷积网络;骨干网络每次下采样,特征图大小变为原始图像的一半,最后得到三层特征C3,C4和C5,特征层stride分别为8,16和32,特征图通道数分别为128,256和512;
第三步:调整通道数大小;使用一个1×1卷积将特征层C3,C4和C5的通道数调整为64,64和128,记为D3,D4和D5
第四步:将特征D5输入RDBCA模块得P5;记输入RDBCA的特征数据为F0,首先使用连续三个3×3深度可分离卷积并且保存每次卷积后的特征信息分别记为F1_1、F1_2与F1;每个3×3深度可分离卷积后,都会与F0进行残差连接,以降低梯度消失和梯度爆炸现象,最后输出结果为F1
Figure FDA0003863592080000021
其中
Figure FDA0003863592080000022
是3×3深度可分离卷积,δ是ReLu激活函数;然后将特征信息F0、F1_1、F1_2与F1共4层串联起来,即concat([F0,F1_1,F1_2,F1]),得到比输入数据F0通道数大4倍的新特征,再用一个1×1卷积将特征层通道数降低到与F0相同大小,并与F0相加作为局部特征融合得到特征层F2
Figure FDA0003863592080000023
其中“concat”是串联操作,
Figure FDA0003863592080000024
是1×1卷积,δ是ReLu激活函数;接着利用水平方向自适应平均池化和垂直方向自适应平均池化,从F2得到两个不同方向的池化数据,再将这一对方向感知特征串联起来,送入一个共享参数的1×1卷积进行特征提取,得到输出F3
Figure FDA0003863592080000025
其中“HAvgPool”是水平方向自适应平均池化,“WAvgPool”是垂直方向自适应平均池化,“concat”是串联操作,
Figure FDA0003863592080000026
是1×1卷积;然后沿着空间维度将F3切分为两个单独的张量记为F3_1和F3_2
F3_1,F3_2=split(F3), (4)
其中“split”函数可以将张量拆分为块;接着再利用1×1卷积将F3_1和F3_2变换到和F2相同的通道数,使用sigmoid函数将其映射到(0,1)范围内,再与F2相乘得到输出的特征数据F4
Figure FDA0003863592080000027
其中
Figure FDA0003863592080000028
是1×1卷积,σ是sigmoid激活函数;最后,将输入特征F0与输出特征F4相加作为第二条局部特征融合得到最后输出特征Fout
Fout=δ(F0+F4) (6)
其中δ是ReLu激活函数,Fout即为RDBCA的输出结果;
第五步:使用1×1卷积将P5的通道数缩小一倍,然后使用双线性插值上采样,将特征图放大到与前一层D4一样的大小,接着将D4与P5串联起来,最后将串联后的特征输入第五步中的RDBCA模块得到P4
第六步:重复第四步与第五步,得到P3,使用最大池化将D5下采样,并输入第四步中的RDBCA模块得到P6,最终得到4个特征层Pl,l∈{3,4,5,6};
第七步:生成检测头;对P3,P4,P5和P6分别使用一个通道数为128的3×3深度可分离卷积,采用FocalLoss损失函数计算方式,使用一个输出通道数为C的1×1卷积生成分类分支,C为类别数,得到各特征层各像素点各类的预测置信度
Figure FDA0003863592080000031
采用FCOS中四维向量记录检测点到边界框距离,得到检测点向左、向上、向右和向下的距离,使用一个输出通道数为4的1×1卷积生成定位分支,得到各特征层各像素点到边界框的预测距离
Figure FDA0003863592080000032
使用一个输出通道数为1的1×1卷积生成“非关键点抑制分支”,用一个二分类器进行训练,对于“非关键点抑制分支”预测到的各层各像素点的值,用sigmoid函数映射到(0,1)上,这些值即为各特征层各像素点“是关键点”的预测置信度
Figure FDA0003863592080000033
其中l={3,4,5,6},
Figure FDA0003863592080000034
第八步:计算损失;记特征层Pl上像素点的坐标为(il,jl),其中l∈{3,4,5,6},
Figure FDA0003863592080000035
对于一副H×W输入图像,假设有N个目标点,每个目标点Bn,1≤n≤N都包含其左上和右下坐标以及该目标类别的标注信息,记为
Figure FDA0003863592080000036
其中
Figure FDA0003863592080000037
Figure FDA0003863592080000041
Figure FDA0003863592080000042
设置特征层Pl的最大距离为:
hl=A×2l-1,l=3,4,5,6, (7)
其中A取12;如果目标n满足:
Figure FDA0003863592080000043
则认为该目标落入Pl层;对于任意一个落入Pl层的目标
Figure FDA0003863592080000044
其“关键点”即为目标区域内的中心点
Figure FDA0003863592080000045
其中
Figure FDA0003863592080000046
令其真实值权重
Figure FDA0003863592080000047
其余点均为“非关键点”,令其真实值权重
Figure FDA0003863592080000048
对所有特征层均进行如上操作,那么,采用二进制交叉熵计算非关键点抑制损失Lnks可表示为:
Figure FDA0003863592080000049
其中M为所有特征层样本总数,
Figure FDA00038635920800000410
Figure FDA00038635920800000411
为原始图像输入神经网络后得到的Pl层上“非关键点抑制分支”预测值权重;模型分类损失采用FocalLoss计算方式得到分类损失Lcls;位置损失采用IoU Loss计算得到位置损失Liou;网络的总损失L为三个分支损失之和:
L=Lcls+Liou+Lnks; (10)
第九步:迭代终止条件判断;使用公式(10)计算损失,根据损失求取梯度,反向传播更新优化器参数;重复第一步至第八步,直到迭代次数达到最大时结束;
第十步:推理阶段;根据FocalLoss的检测头分类分支,得到各特征层各像素点各类别的预测结果
Figure FDA0003863592080000051
根据FCOS的位置分支,得到各特征层各像素点到边界框的预测距离
Figure FDA0003863592080000052
从检测头的非关键点抑制分支,得到各特征层各像素点“是关键点”的预测结果,然后使用sigmoid函数将值映射到(0,1)上,这些值即为各特征层各像素点“是关键点”的预测置信度
Figure FDA0003863592080000053
其中l={3,4,5,6},
Figure FDA0003863592080000054
C为类别数;分类置信度
Figure FDA0003863592080000055
首先利用“非关键点抑制分支”的预测结果
Figure FDA0003863592080000056
与其进行计算,以抑制非关键点对检测结果的影响,得到修正后的各像素点各类别的置信度
Figure FDA0003863592080000057
Figure FDA0003863592080000058
然后按置信度从大到小的顺序选择
Figure FDA0003863592080000059
的前100个预测点,再过滤掉置信度低于0.05的点;最后计算预测点到四条边的距离并利用非极大值抑制方法去除冗余的预测框;保留下来的类别和边界框即为网络对输入图像内目标的预测结果。
CN202110793165.9A 2021-07-14 2021-07-14 一种结合残差密集块与位置注意力的无锚框目标检测方法 Active CN113393457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110793165.9A CN113393457B (zh) 2021-07-14 2021-07-14 一种结合残差密集块与位置注意力的无锚框目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110793165.9A CN113393457B (zh) 2021-07-14 2021-07-14 一种结合残差密集块与位置注意力的无锚框目标检测方法

Publications (2)

Publication Number Publication Date
CN113393457A CN113393457A (zh) 2021-09-14
CN113393457B true CN113393457B (zh) 2023-02-28

Family

ID=77626030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110793165.9A Active CN113393457B (zh) 2021-07-14 2021-07-14 一种结合残差密集块与位置注意力的无锚框目标检测方法

Country Status (1)

Country Link
CN (1) CN113393457B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822368B (zh) * 2021-09-29 2023-06-20 成都信息工程大学 一种基于无锚的增量式目标检测方法
CN115375917B (zh) * 2022-10-25 2023-03-24 杭州华橙软件技术有限公司 一种目标边缘特征提取方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135267A (zh) * 2019-04-17 2019-08-16 电子科技大学 一种大场景sar图像细微目标检测方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN111292259A (zh) * 2020-01-14 2020-06-16 西安交通大学 一种综合多尺度与注意力机制的深度学习图像去噪方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494937B2 (en) * 2018-11-16 2022-11-08 Uatc, Llc Multi-task multi-sensor fusion for three-dimensional object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135267A (zh) * 2019-04-17 2019-08-16 电子科技大学 一种大场景sar图像细微目标检测方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111179314A (zh) * 2019-12-30 2020-05-19 北京工业大学 一种基于残差密集孪生网络的目标跟踪方法
CN111292259A (zh) * 2020-01-14 2020-06-16 西安交通大学 一种综合多尺度与注意力机制的深度学习图像去噪方法

Also Published As

Publication number Publication date
CN113393457A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112329658B (zh) 一种对于yolov3网络的检测算法改进方法
CN110929578A (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN109558811B (zh) 一种基于运动前景关注及非监督的关键帧提取的动作识别方法
CN113393457B (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN111539343B (zh) 一种基于卷积注意力网络的黑烟车检测方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
CN110991257B (zh) 基于特征融合与svm的极化sar溢油检测方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN113706581B (zh) 基于残差通道注意与多层次分类回归的目标跟踪方法
CN113436227A (zh) 一种基于倒残差的孪生网络目标跟踪方法
CN112580661B (zh) 一种深度监督下的多尺度边缘检测方法
CN113486764A (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN110443775B (zh) 基于卷积神经网络的离散小波变换域多聚焦图像融合方法
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
CN113705371A (zh) 一种水上视觉场景分割方法及装置
CN113962281A (zh) 基于Siamese-RFB的无人机目标跟踪方法
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN114581486A (zh) 基于全卷积孪生网络多层特征的模板更新目标跟踪算法
CN115063704A (zh) 一种立体特征融合语义分割的无人机监测目标分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant