CN112801117B - 多路感受野引导的特征金字塔小目标检测网络及检测方法 - Google Patents

多路感受野引导的特征金字塔小目标检测网络及检测方法 Download PDF

Info

Publication number
CN112801117B
CN112801117B CN202110148501.4A CN202110148501A CN112801117B CN 112801117 B CN112801117 B CN 112801117B CN 202110148501 A CN202110148501 A CN 202110148501A CN 112801117 B CN112801117 B CN 112801117B
Authority
CN
China
Prior art keywords
network
receptive field
characteristic
feature map
pyramid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110148501.4A
Other languages
English (en)
Other versions
CN112801117A (zh
Inventor
张宝
张婧
卓亮
魏东梅
胡伟
李小霞
韩翔雨
张东
何林洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Tobacco Sichuan Industrial Co Ltd
Southwest University of Science and Technology
Original Assignee
China Tobacco Sichuan Industrial Co Ltd
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tobacco Sichuan Industrial Co Ltd, Southwest University of Science and Technology filed Critical China Tobacco Sichuan Industrial Co Ltd
Priority to CN202110148501.4A priority Critical patent/CN112801117B/zh
Publication of CN112801117A publication Critical patent/CN112801117A/zh
Application granted granted Critical
Publication of CN112801117B publication Critical patent/CN112801117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多路感受野引导的特征金字塔小目标检测网络,包括依次连接的获取目标图片特征的骨干网络、融合扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络,其中:骨干网络用于提取不同层次的特征信息;融合扩大感受野模块的特征金字塔网络用于将不同层次的特征信息经过扩大感受野模块后再进行特征融合,以引导网络获得不同层次感受野下的上下文信息,同时获取足够的语义信息和丰富的细节信息;两个分支的检测头网络用于得到目标的预测框以及分类置信度;本发明还提供了一种多路感受野引导的特征金字塔小目标检测方法;本发明优于目前主流的目标检测方法。

Description

多路感受野引导的特征金字塔小目标检测网络及检测方法
技术领域
本发明涉及视觉检测技术领域,特别是一种多路感受野引导的特征金字塔 小目标检测网络及检测方法。
背景技术
目标检测作为机器视觉领域十分重要的一个分支,一直是研究者关注的热 点问题,其中小目标检测更是由于其目标像素少和噪点多等问题长期困扰着研 究者。对于小目标来说,利用浅层特征的传统方法已经满足不了检测需求,因 此多层次的卷积神经网络是目前小目标检测技术的常用手段。
使用卷积神经网络检测小目标的主要难点在于获得高层次语义信息的同时 会丢失低层的细节信息,因此容易造成小目标漏检。针对这个问题,Kaiming He 等提出特征金字塔网络(Feature Pyramid Network,FPN),融合高层特征信息 与低层特征信息,既获得了高层的语义信息,也保留了低层的细节信息,大大 地提高了小目标的检测效果。自FPN提出后其改进算法层出不穷,目标均是获 得高层语义信息与低层细节信息之间更好的融合方式。Ross等人提出RetinaNet, 与FPN不同的是其特征融合从倒数第三层开始。Liu S等人提出PANet,提出了 自顶向下的二次融合,对自底向下的FPN路径进行增强,减短了信息传播路径, 同时更好地利用了低层特征的精准定位信息。Liu S等人还提出了ASFF,将每 一层的特征信息都与其他层次的特征信息相融合,在融合时采用了注意力机制, 控制不同层次特征的贡献度。谷歌大脑团队提出NAS-FPN,旨在使用神经架构搜 索,学习到更好的目标检测特征金字塔网络架构,在此基础上进一步提出BiFPN, 在神经架构搜索的基础上进行人为设计,获得更好的特征金字塔网络。除了直 接对FPN网络进行修改以外,还有些研究设计了可与FPN融合的模块提高检测 效果,例如:Kai Chen等人提出的CARAFE为一种全新的上采样方式,可以替换 传统的上采样方式融入特征金字塔中,与传统的上采样方式不同,CARAFE分为 两个主要模块,分别是上采样核预测模块和特征重组模块,CARAFE首先利用上采样核预测模块预测上采样核,然后利用特征重组模块完成上采样,得到输出 特征图,使之更加轻量级,可以获得更大的感受野,并随意嵌入分割或检测网 络中;Liang-Chieh等人提出的空洞空间卷积池化金字塔(Astrous Spatial Pyramid Polling,ASPP)对给定的输入图像进行并行采样,以多个比例捕捉图 像的上下文信息。
以上网络的改进大部分是在获得高低层次融合信息后继续增加路径,使得 高层次的特征信息可以与低层次的特征信息更好地相辅相成,这样的好处是可 以得到更多的语义信息,从而获得更高的检测率,但是也增加了网络的复杂度, 给网络训练带来了更大的难度与更高的计算量。
小目标检测由于目标像素少、噪点多和特征缺失等问题更容易出现漏检和 误检,通过统计分析小目标框的宽高以及宽高占比,发现小目标下采样的次数 过多会导致大多数的目标信息丢失,而有限次数的下采样不能获得足够的语义 信息。针对小目标检测,上采样卷积层太多时目标容易丢失,而太少时感受野 又太小。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种多路感受野引导 的特征金字塔小目标检测网络及检测方法,本发明在传统特征金字塔的基础上 融入扩大感受野模块,在不增加网络深度的情况下获取更大的感受野,提供更 多的语义信息,提升网络模型的检测性能。
为实现上述目的,本发明采用的技术方案是:一种多路感受野引导的特征 金字塔小目标检测网络,包括依次连接的获取目标图片特征的骨干网络、融合 扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络,其中:
骨干网络用于提取不同层次的特征信息;
融合扩大感受野模块的特征金字塔网络用于将不同层次的特征信息经过扩 大感受野模块后再进行特征融合,以引导网络获得不同层次感受野下的上下文 信息,同时获取足够的语义信息和丰富的细节信息;
两个分支的检测头网络用于得到目标的预测框以及分类置信度。
作为本发明的进一步改进,所述骨干网络为Resnet50网络。
作为本发明的进一步改进,所述扩大感受野模块包括n条并行支路,设置 其中的n-1条并行支路对输入特征图进行空洞卷积,得到n-1个不同大小感受 野的特征图并进行融合,然后使用1*1的卷积降低通道数,再利用剩余的一条 并行支路与输入特征图融合,最后获得的输出特征图既保留了原有感受野下的 细节信息,又获得了更大感受野下的语义信息。
作为本发明的进一步改进,所述扩大感受野模块的计算公式为: O=Add(I,M),其中:O为扩大感受野模块后最终的输出特征图,I为输入特征 图,M为对输入特征图进行空洞卷积后的n-1张特征图的连接特征图,Add表示 将I和M进行特征图相加。
作为本发明的进一步改进,对输入特征图进行空洞卷积后的n-1张特征图 的连接特征图M的计算公式为:M=Conv[Concat(y1,y2,……,yn-1)],其中:y1、y2、……、 yn-1为输入特征图进行空洞卷积后的特征图,Concat表示将y1、y2、……、yn-1通道连接起来。
作为本发明的进一步改进,输入特征图进行空洞卷积后的特征图y1、y2、……、yn-1的计算公式为:yi=DConv(I,U,V),其中:i=1、2、……、n-1,DConv表示对 特征图进行空洞卷积,U表示空洞率,V表示卷积核大小。
作为本发明的进一步改进,所述扩大感受野模块融合在特征金字塔网络的 第四层特征图。
本发明还提供了一种多路感受野引导的特征金字塔小目标检测方法,应用 于如上所述的多路感受野引导的特征金字塔小目标检测网络,所述的检测方法 包括:
首先选取残差网络作为骨干网络;
其次设计由n-1条空洞卷积支路和原图直连组成的n路扩大感受野模块, 可在不继续下采样的情况下扩大特征图的感受野;
然后将扩大感受野模块加入骨干网络和特征金字塔之间,以引导网络获得 不同层次感受野下的上下文信息;
最后将经过扩大感受野模块获得的特征图与骨干网络对应层特征图相加后 形成输出特征图,可同时获取足够的语义信息和丰富的细节信息。
本发明的有益效果是:
本发明针对小目标检测时需要足够的语义信息,但是在通过下采样获取语 义信息时会丢失细节信息的问题,提出了多路感受野引导的特征金字塔 (gMRF-FPN)小目标检测方法,本发明设计了一种扩大感受野模块,使用不同 空洞率的空洞卷积使输出特征图具有更大的感受野,融合四种感受野大小的特 征图可获得多层次的语义信息,在传统特征金字塔网络的基础上融合扩大感受 野模块,在不改变网络层数以及融合路径的基础上获得多种感受野下的上下文 信息,从而提高小目标检测精度;本发明在自建数据集上进行了大量的对比实 验,在不同的算法框架下,本发明方法的平均精度均优于目前主流的检测算法, 表明本发明提出方法的有效性。
附图说明
图1为本发明实施例中的整体网络框架图;
图2为本发明实施例中扩大感受野模块的结构示意图;
图3为本发明实施例中融合扩大感受野模块的特征金字塔网络的机构示意 图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
自建小目标数据集:
在卷积神经网络的学习中,质量优异的数据样本是网络训练的一个重要前 提,因此制作一个好的数据集是训练神经网络的首要条件。本实施例以烟草甲 虫这种典型的小目标为例,验证本发明提出算法的有效性。目前常用目标检测 数据集内无公开的大规模烟草甲虫图片数据,为了获得质量优良的烟草甲虫数 据集,本实施例采用自建数据集的方式,实地采集大量烟草甲虫的图片并且进 行标注,使用自行设计的图像采集终端对烟草甲虫图片进行采集,选用的图片 分辨率为1920×1080,标注工具使用的是LabelImg软件,图片标注格式为Vocal 数据集标注格式。
自建数据集中烟草甲虫图片一共12861张,每张图片上烟草甲虫的数量不 一,图片采集考虑到多种实际情况:根据图片背景情况分为简单背景(无烟丝、 少烟丝)和复杂背景(多烟丝),根据烟草甲虫聚集情况分为无聚集和有聚集, 根据光线情况分为光线正常和光线过暗,每种情况总比例都为100%,具体各种 情况数据分布见表1。
表1烟草甲虫图片情况分布
Figure BDA0002931643270000061
为了更好地构建算法框架,本实施例对自建数据集内图片标注的实际目标 框进行了数据分析,统计了实际目标框的宽高以及实际框占整幅图片的宽高占 比,采用热力图的形式展示。
根据宽高热力图可以看出来实际目标框集中在40×40的像素大小,当下采 样到32倍时,绝大部分目标只剩下一个像素,继续进行下采样会丢失绝大部分 目标。因此,根据对自建数据集内图片标注实际目标框的分析,本实施例设定 骨干网络2倍下采样次数不超过五次,保持下采样倍数不超过32倍,由此保证 大部分目标信息不丢失。
从以上分析可知,在小目标检测时有必要对实际目标框宽高以及实际框占 整幅图的宽高占比进行统计,针对不同的小目标数据集,统计分析其大多数目 标的像素大小,由此设定不同的下采样层数,保留大部分目标信息,可以保证 骨干网络提取有效的目标特征。
基于扩大感受野的小目标检测网络:
为了在不增加网络复杂度的同时获得更大感受野的特征图,本实施例提出 多路感受野引导的特征金字塔小目标检测网络,如图1所示:
该网络主要包括获取目标图片特征的骨干网络、融合扩大感受野模块的特 征金字塔网络以及具有两个分支的检测头网络这三个模块。骨干网络用于提取 不同层次的特征信息,本实施例选取可以更好地表征特征差异性以及拥有良好 的特征提取性能的Resnet50网络作为骨干网络;融合扩大感受野模块的特征金 字塔网络将不同层次的特征信息经过扩大感受野模块后再进行特征融合,以引 导网络获得不同层次感受野下的上下文信息,同时获取足够的语义信息和丰富 的细节信息;最后通过两个分支网络得到目标的预测框以及分类置信度。
扩大感受野模块:
感受野是深度学习中的一个基本概念,表示输出的特征图中某个节点的响 应对应的输入图像的区域,即多大范围的输入图像对这一层输出的神经元有影 响。
原始的卷积神经网络主要以增加网络深度的方式增加感受野,随着网络层 数的增加,感受野也在不断地增大。记rn为第n层的感受野大小,kn为第n层的 卷积核大小,si为第i层的卷积步长,卷积神经网络中感受野大小的计算公式为:
Figure BDA0002931643270000071
然而卷积神经网络中感受野的增大也伴随着图片分辨率降低和细节损失等 问题,因此感受野的增大与细节信息的丢失一直是伴随产生的。希望在获取更 大感受野的同时也可以控制图片分辨率不再降低,由此空洞卷积应运而生,当 设置步长为1时,通过设置不同的空洞率可以在增大感受野的同时不降低图片 分辨率的大小,从而解决在获取更大感受野的同时丢失细节信息的问题,空洞 卷积感受野的计算公式为:
rn=(rn-1-1)+(2·dn+1) n≥2 (2)
其中,rn-1为n-1层特征图的感受野大小,dn为空洞卷积的空洞率,(2·dn+1) 为空洞卷积的卷积核大小。
在小目标的检测任务中,为了保证大多数的目标信息在下采样时不丢失, 设置在骨干网络中不超过限定次数的下采样,但是限定次数的下采样并不能获 得足够的语义信息,因此为了在不增加下采样层数的同时可以获得更大的感受 野以及更多的上下文信息,本实施例在特征金字塔网络融合扩大感受野模块, 可以使本实施例设计的网络在不丢失太多细节信息的情况下可以获得更大的感 受野以及更多的上下文信息,由此获得足够的语义信息,提高检测率,本实施 例的扩大感受野模块是在空洞卷积的基础上进行设计的。
图2为扩大感受野模块示意图,扩大感受野模块一共使用四条并行支路, 设置空洞率为1、3、5的三条并行支路对输入特征图进行空洞卷积,得到三个 不同大小感受野的特征图并进行融合,然后使用1*1的卷积降低通道数,再与 输入特征图融合,最后获得的输出特征图既保留了原有感受野下的细节信息, 又获得了更大感受野下的语义信息。扩大感受野模块的计算公式如式(3)所示。
O=Add(I,M) (3)
公式(3)中,O为扩大感受野模块后最终的输出特征图,I为输入特征图, M为对输入特征图进行空洞卷积后的三张特征图的连接特征图,Add表示将I和 M进行特征图相加,M的计算公式如式(4)所示。
M=Conv[Concat(y1,y2,y3)] (4)
公式(4)中,y1、y2、y3为输入特征图进行空洞率为1、3、5的空洞卷积后 的特征图,Concat表示将y1、y2、y3通道连接起来,y1、y2、y3的计算公式如公 式(5)所示。
y1=DConv(I,1,3)
y2=DConv(I,3,3)
y3=DConv(I,5,3) (5)
公式(5)中,DConv表示对特征图A进行空洞卷积,括号内的第二列表示 空洞率,第三列表示卷积核大小。
融合扩大感受野模块的特征金字塔网络:
由于小目标的目标像素过小,不能采取传统的多次下采样的方式获得足够 大的感受野,本实施例提出在传统的特征金字塔网络中融合扩大感受野模块, 在不继续减小特征图尺寸的条件下,获取更大的感受野,提高小目标的检测率。 本实施例提出的扩大感受野模块可以融入骨干网络与特征金字塔网络连接的任 何一层,融合扩大感受野模块的特征金字塔网络如图3中的(d),通过后续消 融实验发现在第四层特征图添加扩大感受野模块效果最好,因此本实施例对比 试验仅在第四层特征图添加扩大感受野模块。
与传统特征金字塔网络相比,融合扩大感受野模块的特征金字塔网络的预 测输出不仅仅是本层特征与上层特征的融合,还与扩大感受野模块之后的特征 相融合,具有更多的语义信息。与PANet以及NAS-FPN等相比,并未在传统的 预测输出后增加更多的融合路径,而是在骨干网络提取的特征信息的基础上增 加并行的特征信息进行融合,在不增加网络复杂度的基础上可获得更大的感受 野即更多的语义信息。
实验与结果分析:
实验环境:
本实施例的实验平台为:CPU型号为Inter(R)Core(TM)i7-7700K、GPU型号 为GeForce GTX 1080Ti、显存为11G、内存为32G的台式电脑;本实施例实验 使用的深度学习框架为Pytorch1.2.0、Cuda10.1以及CuDNN7.6.4。在训练阶段, 输入图片大小为1920×1080,然后根据宽高比缩放至1333×750,最后经过裁 剪补零操作后变换为1344×768,本实施例使用了随机水平翻转的数据增强方式, 优化器选用SGD优化器,初始学习率设定为0.01,训练批次大小为4,共训练 70轮,为了微调模型,本实施例设定在训练了16轮之后将学习率降低为原来的 1/3,在训练了30轮后,再次降低为上一次学习率的1/3。
评价指标:
为了客观地评估小目标的检测结果,使用平均精度(mean Average Precision,mAP)作为评价指标。mAP是度量模型预测框类别和位置是否准确的 指标,由于本实施例的检测只涉及到烟草甲虫这一种类别,因此精度与平均精 度含义相同,是PR(Precision-Recall)曲线下的面积。mAP的计算公式为:
Figure BDA0002931643270000101
本实施例在进行测试时设置了三种不同大小的IOU进行测试,IOU为预测框 与真实框的交集与并集的比值。mAP0.5、mAP0.6、mAP0.7分别对应IOU=0.5、0.6、 0.7时的平均精度。
实验介绍:
在烟草甲虫的检测实验中,采用来自图像采集终端拍摄的自建数据集中的 2074张图片以及对应的标签作为实验数据,将图片按6:2:2随机分成6份训 练集图片,2份验证集图片以及2份测试集图片。本实施例选用两种算法框架进 行实验,分别是:Faster R-CNN以及Cascade R-CNN,使用的骨干网络均为 Resnet50。首先,对Faster R-CNN进行消融实验,即对特征金字塔的每一层分 别添加扩大感受野模块进行结果对比。然后,在Faster R-CNN以及Cascade R-CNN 的算法框架下将本实施例算法与目前主流的特征金字塔网络进行对比,对比的 特征金字塔网络包括经典的FPN,二次融合的PANet,使用神经架构搜索的NasFPN, 融合ASPP的特征金字塔网络形成Aspp_FPN,除此之外,还包括将上采样的 CARAFE方法嵌入传统FPN中形成的CARAFE_FPN,由此验证本实施例提出算法的 有效性。
实验结果与分析
表2为本实施例设计的扩大感受野模块添加在特征金字塔网络不同层的消 融实验,算法框架为Faster R-CNN。本实施例将Resnet50的第二个到第五个卷 积块的输出表示为{C2,C3,C4,C5},将{C2,C3,C4,C5}经过特征金字塔后 的输出表示为{P2,P3,P4,P5}。由表2可知,扩大感受野模块添加在特征金 字塔的C5-P5层时平均精度mAP0.5、mAP0.6、mAP0.7分别为90.3%、87.4%、59.5%, 在将IOU阈值设定为0.5以及0.6时实验结果最好,这是因为相较于低层特征 图,高层特征图的噪声信息减小了,避免了烟丝等干扰对烟草甲检测的影响, 因此在高层添加扩大感受野模块可以更加有效地提高检测率,本实施例选择在 C5-P5层即第四层特征图添加扩大感受野模块。
表2消融实验结果
Figure BDA0002931643270000111
表3为各种特征金字塔网络与本实施例提出的融合扩大感受野模块的特征 金字塔网络在Faster R-CNN以及Cascade R-CNN两种算法框架下的对比试验, 表明本实施例提出算法的有效性和普适性。在Faster R-CNN框架下本实施例提 出算法的平均精度分别为:90.3%(IOU=0.5)、87.4%(IOU=0.6)、59.5%(IOU=0.7), 在Cascade R-CNN框架下本实施例提出算法的平均精度分别为:90.1%(IOU=0.5)、 87.4%(IOU=0.6)、61.7%(IOU=0.7),在不同的IOU阈值下本实施例设计算法 的平均精度均达到最高,两种算法框架下的对比实验表明本实施例提出的算法 优于目前主流的算法。
表3在自建数据上不同算法的实验结果
Figure BDA0002931643270000121
结论:
本实施例针对小目标检测时需要足够的语义信息,但是在通过下采样获取 语义信息时会丢失细节信息的问题,提出了多路感受野引导的特征金字塔 (gMRF-FPN)小目标检测方法。本实施例设计了一种扩大感受野模块,使用不 同空洞率的空洞卷积使输出特征图具有更大的感受野,融合四种感受野大小的 特征图可获得多层次的语义信息,在传统特征金字塔网络的基础上融合扩大感 受野模块,在不改变网络层数以及融合路径的基础上获得多种感受野下的上下 文信息,从而提高小目标检测精度。本实施例在自建数据集上进行了大量的对 比实验,在不同的算法框架下,本实施例方法的平均精度均优于目前主流的检 测算法,表明本实施例提出方法的有效性。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细, 但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。

Claims (7)

1.一种多路感受野引导的特征金字塔小目标检测方法,其特征在于,包括特征金字塔小目标检测网络,所述的特征金字塔小目标检测网络包括依次连接的获取目标图片特征的骨干网络、融合扩大感受野模块的特征金字塔网络以及具有两个分支的检测头网络,所述的检测方法包括:
首先选取残差网络作为骨干网络,骨干网络用于提取不同层次的特征信息;
其次设计由n-1条空洞卷积支路和原图直连组成的n路扩大感受野模块,可在不继续下采样的情况下扩大特征图的感受野;
然后将扩大感受野模块加入骨干网络和特征金字塔之间,融合扩大感受野模块的特征金字塔网络用于将不同层次的特征信息经过扩大感受野模块后再进行特征融合,以引导网络获得不同层次感受野下的上下文信息,同时获取足够的语义信息和丰富的细节信息;
最后将经过扩大感受野模块获得的特征图与骨干网络对应层特征图相加后形成输出特征图,可同时获取足够的语义信息和丰富的细节信息;两个分支的检测头网络用于得到目标的预测框以及分类置信度。
2.根据权利要求1所述的多路感受野引导的特征金字塔小目标检测方法,其特征在于,所述骨干网络为Resnet50网络。
3.根据权利要求1所述的多路感受野引导的特征金字塔小目标检测方法,其特征在于,所述扩大感受野模块包括n条并行支路,设置其中的n-1条并行支路对输入特征图进行空洞卷积,得到n-1个不同大小感受野的特征图并进行融合,然后使用1*1的卷积降低通道数,再利用剩余的一条并行支路与输入特征图融合,最后获得的输出特征图既保留了原有感受野下的细节信息,又获得了更大感受野下的语义信息。
4.根据权利要求3所述的多路感受野引导的特征金字塔小目标检测方法,其特征在于,所述扩大感受野模块的计算公式为:O=Add(I,M),其中:O为扩大感受野模块后最终的输出特征图,I为输入特征图,M为对输入特征图进行空洞卷积后的n-1张特征图的连接特征图,Add表示将I和M进行特征图相加。
5.根据权利要求4所述的多路感受野引导的特征金字塔小目标检测方法,其特征在于,对输入特征图进行空洞卷积后的n-1张特征图的连接特征图M的计算公式为:M=Conv[Concat(y1,y2,……,yn-1)],其中:y1、y2、……、yn-1为输入特征图进行空洞卷积后的特征图,Concat表示将y1、y2、……、yn-1通道连接起来。
6.根据权利要求5所述的多路感受野引导的特征金字塔小目标检测方法,其特征在于,输入特征图进行空洞卷积后的特征图y1、y2、……、yn-1的计算公式为:yi=DConv(I,U,V),其中:i=1、2、……、n-1,DConv表示对特征图进行空洞卷积,U表示空洞率,V表示卷积核大小。
7.根据权利要求1所述的多路感受野引导的特征金字塔小目标检测方法,其特征在于,所述扩大感受野模块融合在特征金字塔网络的第四层特征图。
CN202110148501.4A 2021-02-03 2021-02-03 多路感受野引导的特征金字塔小目标检测网络及检测方法 Active CN112801117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110148501.4A CN112801117B (zh) 2021-02-03 2021-02-03 多路感受野引导的特征金字塔小目标检测网络及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110148501.4A CN112801117B (zh) 2021-02-03 2021-02-03 多路感受野引导的特征金字塔小目标检测网络及检测方法

Publications (2)

Publication Number Publication Date
CN112801117A CN112801117A (zh) 2021-05-14
CN112801117B true CN112801117B (zh) 2022-07-12

Family

ID=75813869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148501.4A Active CN112801117B (zh) 2021-02-03 2021-02-03 多路感受野引导的特征金字塔小目标检测网络及检测方法

Country Status (1)

Country Link
CN (1) CN112801117B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239825B (zh) * 2021-05-19 2022-08-19 四川中烟工业有限责任公司 一种复杂场景下高精度烟草甲虫检测方法
CN113392960B (zh) * 2021-06-10 2022-08-30 电子科技大学 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN113762476B (zh) * 2021-09-08 2023-12-19 中科院成都信息技术股份有限公司 一种用于文字检测的神经网络模型及其文字检测方法
CN113505769B (zh) * 2021-09-10 2021-12-14 城云科技(中国)有限公司 目标检测方法及应用其的车辆抛洒滴漏识别方法
CN113837080B (zh) * 2021-09-24 2023-07-25 江西理工大学 一种基于信息增强与感受野增强的小目标检测方法
CN114170590A (zh) * 2021-10-18 2022-03-11 中科南京人工智能创新研究院 一种基于RetinaNet网络改进的新能源车牌检测识别方法
CN114565860B (zh) * 2022-03-01 2022-11-11 安徽大学 一种多维度增强学习合成孔径雷达图像目标检测方法
CN114998696B (zh) * 2022-05-26 2024-08-16 燕山大学 基于特征增强与多层级融合的YOLOv3目标检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229442A (zh) * 2018-02-07 2018-06-29 西南科技大学 基于ms-kcf的图像序列中人脸快速稳定检测方法
CN110796037A (zh) * 2019-10-15 2020-02-14 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN111160249A (zh) * 2019-12-30 2020-05-15 西北工业大学深圳研究院 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111797717A (zh) * 2020-06-17 2020-10-20 电子科技大学 一种高速高精度的sar图像船只检测方法
CN111914726A (zh) * 2020-07-28 2020-11-10 联芯智能(南京)科技有限公司 基于多通道自适应注意力机制的行人检测方法
CN112307889A (zh) * 2020-09-22 2021-02-02 北京航空航天大学 一种基于小型辅助网络的人脸检测算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11048948B2 (en) * 2019-06-10 2021-06-29 City University Of Hong Kong System and method for counting objects

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229442A (zh) * 2018-02-07 2018-06-29 西南科技大学 基于ms-kcf的图像序列中人脸快速稳定检测方法
CN110796037A (zh) * 2019-10-15 2020-02-14 武汉大学 基于轻量级感受野金字塔的星载光学遥感图像舰船目标检测方法
CN111160249A (zh) * 2019-12-30 2020-05-15 西北工业大学深圳研究院 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN111797717A (zh) * 2020-06-17 2020-10-20 电子科技大学 一种高速高精度的sar图像船只检测方法
CN111914726A (zh) * 2020-07-28 2020-11-10 联芯智能(南京)科技有限公司 基于多通道自适应注意力机制的行人检测方法
CN112307889A (zh) * 2020-09-22 2021-02-02 北京航空航天大学 一种基于小型辅助网络的人脸检测算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Small Object Detection with Multiple Receptive Fields;Yongjun Zhang等;《IOP Conference Series: Earth and Environmental Science》;20200228;第40卷;1-10 *
The classification of gliomas based on a pyramid dilated convolution resnet model;ZhenyuLu等;《Pattern Recognition Letters》;20200530;第133卷;173-179 *
基于深度学习的光学遥感图像自动舰船检测;郭威;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20200615(第06期);C028-54 *
增强语义信息与多通道特征融合的裂缝检测;顾书豪等;《计算机工程与应用》;20200702;204-210 *

Also Published As

Publication number Publication date
CN112801117A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112801117B (zh) 多路感受野引导的特征金字塔小目标检测网络及检测方法
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN114419449B (zh) 一种自注意力多尺度特征融合的遥感图像语义分割方法
CN111259804B (zh) 一种基于图卷积的多模态融合手语识别系统及方法
CN109472298A (zh) 用于小尺度目标检测的深度双向特征金字塔增强网络
CN107463920A (zh) 一种消除局部遮挡物影响的人脸识别方法
CN110443805A (zh) 一种基于像素密切度的语义分割方法
CN111274921A (zh) 一种利用姿态掩模进行人体行为识别的方法
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN113361466B (zh) 一种基于多模态交叉指导学习的多光谱目标检测方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN114299542A (zh) 一种基于多尺度特征融合的视频行人重识别方法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN114897742B (zh) 一种纹理和结构特征两次融合的图像修复方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN111882516B (zh) 一种基于视觉显著性和深度神经网络的图像质量评价方法
CN117809200A (zh) 一种基于增强小目标特征提取的多尺度遥感图像目标检测方法
CN115330620A (zh) 一种基于循环生成对抗网络的图像去雾方法
CN115294356A (zh) 一种基于广域感受野空间注意力的目标检测方法
CN116310871A (zh) 融合空洞空间金字塔池化的内陆水体提取方法
CN114170581A (zh) 基于深度监督的Anchor-Free交通标志检测方法
WO2024093466A1 (zh) 一种基于模型结构自主进化的行人图像重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant