CN112418165A - 基于改进型级联神经网络的小尺寸目标检测方法与装置 - Google Patents

基于改进型级联神经网络的小尺寸目标检测方法与装置 Download PDF

Info

Publication number
CN112418165A
CN112418165A CN202011430913.9A CN202011430913A CN112418165A CN 112418165 A CN112418165 A CN 112418165A CN 202011430913 A CN202011430913 A CN 202011430913A CN 112418165 A CN112418165 A CN 112418165A
Authority
CN
China
Prior art keywords
resolution
feature
image
feature map
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011430913.9A
Other languages
English (en)
Other versions
CN112418165B (zh
Inventor
韦纪辛
鲁统伟
辛志勐
肖宇
徐子昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yinxing Technology Co ltd
Original Assignee
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Institute of Technology filed Critical Wuhan Institute of Technology
Priority to CN202011430913.9A priority Critical patent/CN112418165B/zh
Publication of CN112418165A publication Critical patent/CN112418165A/zh
Application granted granted Critical
Publication of CN112418165B publication Critical patent/CN112418165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进型级联神经网络的小尺寸目标检测方法,其步骤为读入待测图像;通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图组成的多分辨率特征图F1;基于半稠密特征金字塔对F1在各个分辨率上进行特征融合后组合得到增强后的特征图F2;使用后卷积Pi对F2中的层级i进行异化,得到异化特征图F3,i;对于每一个分辨率层级i,基于特征选择免锚框目标检测头根据F3,i生成该层级的检测结果;将检测结果汇总,通过去除重叠的算法筛选检测结果,输出最终检测结果。本发明能够提升卷积网络对小尺寸目标的表征表达性能。

Description

基于改进型级联神经网络的小尺寸目标检测方法与装置
技术领域
本发明属于目标检测技术领域,具体涉及一种基于改进型级联神经网络的小尺寸目标检测方法与装置。
背景技术
级联神经网络是基于神经单元组合构建复杂的神经网络的思想。而基于卷积改进的级联神经网络是结合了卷积神经网络中卷积模型参数相对高效和级联网络中级联结构对多种深度特征进行利用的算法,实现在生成包含深层次语义特征的低分辨率(Low-Resolution,LR)特征图像时,也生成包含小尺寸目标语义特征的高分辨率(High-Resolution,HR)特征图。改进型级联神经网络能够增强小尺寸物体的特征强度,降低在深度语义特征里小尺寸目标因为深度卷积的系统性缺陷而造成的特征不足,在无人机视觉、太空安全、农业计数、驾驶辅助等应用中发挥了重要的作用。
最广为人知的目标尺寸分类标准源自于MS-COCO数据集的评价指标,在其中,面积小于32x32的目标被视作小尺寸目标。自Ross B.Girshick提出Fast R-CNN以来,各种深度学习的方法在各个公开数据集中不断地刷新排行榜分数。Feature Pyramid Network(FPN)将深层次语义特征上采样回较高清特征图进行融合来为浅层特征图提供更丰富的语义信息,You Only Look Twice(YOLT)尝试通过图像切片来规避图像在输入时的尺寸归一化,Scale Normalization for Image Pyramids with Efficient Resampling(SNIPER)通过Chip策略来生成包含小、中尺寸目标的区域再进行二次检测,Hybrid Cascade R-CNN通过在检测时融合语义分割的特征来强化目标的表征能力。但是这些方法在计算代价和模型能力的取舍中都难以令人满意。
发明内容
本发明的目的在于,提供一种基于改进型级联神经网络的小尺寸目标检测方法与装置,能够有效提升卷积网络对小尺寸目标的特征表达性能。
为解决上述技术问题,本发明的技术方案为:基于改进型级联神经网络的小尺寸目标检测方法,包括以下步骤:
S1、读入待测图像;
S2、通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;
S3、基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图组成的多分辨率特征图F1
S4、基于半稠密特征金字塔对F1在各个分辨率上进行特征融合后组合得到增强后的特征图F2
S5、使用后卷积Pi对F2中的层级i进行异化,得到异化特征图F3,i
S6、对于每一个分辨率层级i,基于特征选择免锚框目标检测头根据F3,i生成该层级的检测结果;
S7、将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果并输出。
进一步地,所述S2中预处理过程具体为:
S2.1、将图像的宽、高填充到与32的倍数最接近的尺寸上;
S2.2、图像在缩放时,保持图像内容的宽高比例不变;
S2.3、基于应用场景中目标的特性进行图像翻转;
S2.4、对场景进行数值统计,求得图像灰度值的平均值和方差,对输入图像进行灰度值正则化。
进一步地,所述S3具体为:
S3.1、利用kKnNsSpP卷积块、若干N1→N2瓶颈块,对增强图像进行卷积操作和特征图融合,得到第一阶段特征图FS1
S3.2、对各个分辨率层级特征图FSi或第一阶段特征图FS1进行交叉融合;
S3.3、对于第i大的分辨率层级,利用若干串联的基础块得到同分辨率的特征图,并在最小的分辨率层级上利用wi→wj转移块增加一个较低分辨率层级的特征图;
S3.4、如果分辨率层级数量没有达到m,则返回至S3.2;
S3.5、输出m个分辨率层级的特征图,组成多分辨率特征图F1
进一步地,所述S4中得到若干不同分辨率层级上的增强特征图的具体方法为,根据下式计算:
Ij=concatenate[{Ci→j|1≤i≤m}]
式中,i为特征图C的源层级,j为目标层级,Ci→j为将C的分辨率从层级i调整到层级j得到的特征图,Ij为层级j上各个子图级联成的增强特征图F2
更进一步地,所述卷积块为kKnNsSpP卷积块,其中kKnNsSpP卷积块的形成过程为,先利用核尺寸为K、卷积层数为N、步长为S、填充宽度为P的卷积层进行特征提取,当S>1时,也对特征图的分辨率进行调整;再利用一层BatchNorm层进行特征激活值的分布调整。
更进一步地,所述N1→N2瓶颈块的形成过程为,
利用一层
Figure BDA0002820587780000031
即核尺寸为1、卷积层数为
Figure BDA0002820587780000032
步长为1、填充宽度为0的卷积块进行通道下降;
利用一层
Figure BDA0002820587780000033
即核尺寸为3、卷积层数为
Figure BDA0002820587780000034
步长为1、填充宽度为1的卷积层进行特征提取;
利用一层k1nN2s1p0,即核尺寸为1、卷积层数为N2、步长为1、填充宽度为0倒置的卷积块进行通道上升;
将瓶颈块的输入特征图按特征像素对位相加到输出特征图上,如果N1≠N2,利用一层k1nN2s1p0,即核尺寸为1、卷积层数为N2、步长为1、填充宽度为0的卷积层对输入特征图进行通道调整;
所述倒置的卷积块的形成过程为,先利用一层BatchNorm层进行特征激活值的分布调整;再利用核尺寸为K、卷积层数为N、步长为S、填充宽度为P的卷积层进行特征提取,当S>1时,也对特征图的分辨率进行调整。
更进一步地,所述基础块的形成过程为,
利用两层k3nNs1p1,即核尺寸为3、卷积层数为N、步长为1、填充宽度为1的卷积层进行特征提取;
将输入特征图按特征像素对位相加到输出特征图上。
进一步地,在所述S7中,
所述结果汇总,是将各个层级检测到的建议框添加到一个总的集合中;
所述去除重叠算法,是根据建议框的两两之间的交并比关系,以保留较高置信度为标准,去除交并比大于阈值而置信度较低的那个建议框;
所述建议框,指的是由检测头从特征图当中计算生成的,包含各类的分类置信度和关于空间坐标、框体宽高信息的信息集合体;
所述交并比,指的是两个图形之间,以交集面积除以并集面积得到的实数,当两个图形完全重合时,该值为1;当两个图形完全分离时,该值为0。
一种用于实现上述的基于改进型级联神经网络的小尺寸目标检测方法的装置,包括输入模块,增强模块,多分辨率模块和输出模块;其中,
所述输入模块,用于读入待测图像;
所述增强模块,用于通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图;基于半稠密特征金字塔对特征图进行多分辨率融合,得到若干不同分辨率层级上的增强特征图;
所述多分辨率模块,用于使用后卷积对不同分辨率层级上的增强特征图进行异化;对于每一个分辨率层级,基于特征选择免锚框目标检测头根据增强特征图生成该层级的检测结果;将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果;
所述输出模块,用于输出最终检测结果。
一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现上述的方法步骤。
与现有技术相比,本发明的有益效果为:
通过较小的显卡存储空间占用,提升了特征图中小尺寸目标的表达能力。
附图说明
图1为本发明实施例提供的一种方法流程示意图;
图2为本发明实施例提供的一种网络宏观结构图;
图3为本发明实施例提供的一种卷积块网络单元结构图;
图4为本发明实施例提供的一种瓶颈块网络单元结构图;
图5为本发明实施例提供的一种基础块网络单元结构图;
图6为本发明实施例中提供的方法与对比方法在VisDrone校验集上实验的结果对比表;
图7为本发明实施例中提供的方法与对比方法在WIDER-Face校验集上实验的结果对比表。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供基于改进型级联神经网络的小尺寸目标检测方法,如图1所示,包括以下步骤:
S1、读入待测图像。
图像应当为RGB三通道图,如果输入的是单色图、ARGB四通道图或BGR三通道图,则应当在读入后进行通道转化,变为RGB三通道图。
S2、通过包括但不限于尺寸填充、尺寸缩放、随机翻转、灰度值正则化等预处理方法,进行图像增强。在本发明实施例中,S2步骤可以通过以下方法实现:
S2.1、图像的宽、高将被填充到与32的倍数最接近的尺寸上,即原尺寸为(w0,h0)时,图像将被填充到新尺寸
Figure BDA0002820587780000061
填充颜色没有限制;
S2.2、图像在缩放时,保持图像内容的宽高比例不变;
S2.3、基于应用场景中目标的特性进行考虑,一些场景只进行水平方向的翻转,一些场景只进行竖直方向的翻转,而一些场景同时进行两个方向的翻转。在考虑翻转时,在实数区间[0,1]之内生成随机因子,当随机因子大于0.5时,进行翻转;
S2.4、对场景进行数值统计,求得图像灰度值的平均值和方差,对图像进行灰度值正则化,将各个像素点的值减去这个平均值,并缩放到[0,1]区间中。
S3、基于高分辨率表示网络从增强后的图像生成由高分辨率到低分辨率若干个特征图;
S3.1、利用1个k3n64s2p1的卷积块、1个64→256瓶颈块和3个串联256→256的瓶颈块,对增强图像进行卷积操作和特征图融合,得到第一阶段特征图FS1
S3.2、对各个分辨率层级的特征图或第一阶段特征图进行交叉融合;
S3.3、对于第i大的分辨率层级,利用4个串联的基础块得到同分辨率的特征图,并在最小的分辨率层级上利用wi→wj转移块增加一个较低分辨率层级的特征图;
S3.4、如果分辨率层级数量没有达到m,则从S3.2开始重复;
S3.5、最终输出m个分辨率层级的特征图,组成多分辨率特征图F1
S4、基于半稠密特征金字塔对特征图进行多分辨率融合,得到不同分辨率上增强若干特征图;
S5、使用后卷积对不同分辨率层级上的特征图进行异化;
S6、对于每一个分辨率层级i,基于特征选择免锚框目标检测头根据特征图F3,i生成该层级的检测结果;
S7、将各分辨率层级的检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果并输出。
如图3所示,所述kKnNsSpP卷积块的形成过程为,先利用核尺寸为K、卷积层数为N、步长为S、填充宽度为P的卷积层进行特征提取,当S>1时,也对特征图的分辨率进行调整,卷积层在Caffe、TensorFlow、Pytorch等基础框架中已有实现;再利用一层BatchNorm层进行特征激活值的分布调整,BatchNorm在Caffe、TensorFlow、Pytorch等基础框架中已有实现。
如图4所示,所述N1→N2瓶颈块的形成过程为,
利用一层
Figure BDA0002820587780000071
的卷积块进行通道下降;
利用一层
Figure BDA0002820587780000072
的卷积层进行特征提取;
利用一层k1nN2s1p0的倒置的卷积块进行通道上升;
将瓶颈块的输入特征图按特征像素对位相加到输出特征图上,如果N1≠N2,利用一层k1nN2s1p0的卷积层对输入特征图进行通道调整;
所述倒置的卷积块的形成过程为,先利用一层BatchNorm层进行特征激活值的分布调整;再利用核尺寸为K、卷积层数为N、步长为S、填充宽度为P的卷积层进行特征提取,当S>1时,也对特征图的分辨率进行调整。
如图5所示,所述基础块的形成过程为,
利用两层k3nNs1p1的卷积层进行特征提取;
将输入特征图按特征像素对位相加到输出特征图上。
所述结果汇总,其是将各个层级检测到的建议框添加到一个总的集合中;
所述去除重叠算法,是根据建议框的两两之间的交并比关系,以保留较高置信度为标准,去除交并比大于阈值而置信度较低的那个建议框;
所述建议框,指的是由检测头从特征图当中计算生成的,包含各类的分类置信度和关于空间坐标、框体宽高信息的信息集合体;
所述交并比,指的是两个图形之间,以交集面积除以并集面积得到的实数。当两个图形完全重合时,该值为1;当两个图形完全分离时,该值为0。
检测结果有图像和文档两种形式,视实施的部署情况来确定。
测试实施例:测试环节使用无人机视觉数据库(VisDrone-DET2020)。在VisDrone数据集7019张图像中,实验使用6471张作为训练样本,另548张作为校验样本。使用WIDER-Face数据集仅作为验证鲁棒性的数据集,其中训练集包含12880张图像,校验集包含3226张图像。测试在网络的每次迭代训练中使用SGD算法进行优化,网络在第8次和第11次迭代后,学习率衰减为原来的0.1倍。通过平均精度(Average Precise,AP)来证明本发明中算法的有效性和优越性。以下提供实验对比结果说明本方法的有效性和优越性。如图6和7所示,与其他方法相比,本发明方法的AP值高于其他对比方法。
基于上述基于改进型级联神经网络的小尺寸目标检测方法,本发明还提供一种装置,如图2所示,包括输入模块,增强模块,多分辨率模块和输出模块;其中,
所述输入模块,用于读入待测图像;
所述增强模块,用于通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图;基于半稠密特征金字塔对特征图进行多分辨率融合,得到若干不同分辨率层级上的增强特征图;
所述多分辨率模块,用于使用后卷积对不同分辨率层级上的增强特征图进行异化;对于每一个分辨率层级,基于特征选择免锚框目标检测头根据增强特征图生成该层级的检测结果;将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果;
所述输出模块,用于输出最终检测结果。
基于上述基于改进型级联神经网络的小尺寸目标检测方法,本发明还提供一种计算机存储介质。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD-ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的基于分层多尺度残差融合网络的人脸超分辨率方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,包括以下步骤:
S1、读入待测图像;
S2、通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;
S3、基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图组成的多分辨率特征图F1
S4、基于半稠密特征金字塔对F1在各个分辨率上进行特征融合后组合得到增强后的特征图F2
S5、使用后卷积Pi对F2中的层级i进行异化,得到异化特征图F3,i
S6、对于每一个分辨率层级i,基于特征选择免锚框目标检测头根据F3,i生成该层级的检测结果;
S7、将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果并输出。
2.根据权利要求1所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,所述S2中预处理过程具体为:
S2.1、将图像的宽、高填充到与32的倍数最接近的尺寸上;
S2.2、图像在缩放时,保持图像内容的宽高比例不变;
S2.3、基于应用场景中目标的特性进行图像翻转;
S2.4、对场景进行数值统计,求得图像灰度值的平均值和方差,对图像进行灰度值正则化。
3.根据权利要求1所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,所述S3具体为:
S3.1、利用kKnNsSpP卷积块、若干N1→N2瓶颈块,对增强图像进行卷积操作和特征图融合,得到第一阶段特征图FS1
S3.2、对各个分辨率层级的特征图或第一阶段特征图进行交叉融合;
S3.3、对于第i大的分辨率层级,利用若干串联的基础块得到同分辨率的特征图,并在最小的分辨率层级上利用wi→wj转移块增加一个较低分辨率层级的特征图;
S3.4、如果分辨率层级数量没有达到m,则返回至S3.2;
S3.5、输出m个分辨率层级的特征图,组成多分辨率特征图F1
4.根据权利要求1所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,所述S4中得到若干不同分辨率层级上的增强特征图的具体方法为,根据下式计算:
Ij=concatenate[{Ci→j|1≤i≤m}]
式中,i为特征图C的源层级,j为目标层级,Ci→j为将C的分辨率从层级i调整到层级j得到的特征图,Ij为层级j上各个子图级联成的增强特征图F2
5.根据权利要求3所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,所述kKnNsSpP卷积块的形成过程为,
先利用核尺寸为K、卷积层数为N、步长为S、填充宽度为P的卷积层进行特征提取,当S>1时,也对特征图的分辨率进行调整;再利用一层BatchNorm层进行特征激活值的分布调整。
6.根据权利要求5所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,所述N1→N2瓶颈块的形成过程为,
利用一层
Figure FDA0002820587770000021
即核尺寸为1、卷积层数为
Figure FDA0002820587770000022
步长为1、填充宽度为0的卷积块进行通道下降;
利用一层
Figure FDA0002820587770000023
即核尺寸为3、卷积层数为
Figure FDA0002820587770000024
步长为1、填充宽度为1的卷积层进行特征提取;
利用一层k1nN2s1p0,即核尺寸为1、卷积层数为N2、步长为1、填充宽度为0倒置的卷积块进行通道上升;
将瓶颈块的输入特征图按特征像素对位相加到输出特征图上,如果N1≠N2,利用一层k1nN2s1p0,即核尺寸为1、卷积层数为N2、步长为1、填充宽度为0的卷积层对输入特征图进行通道调整;
所述倒置的卷积块的形成过程为,先利用一层BatchNorm层进行特征激活值的分布调整;再利用核尺寸为K、卷积层数为N、步长为S、填充宽度为P的卷积层进行特征提取,当S>1时,也对特征图的分辨率进行调整。
7.根据权利要求5所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,所述基础块的形成过程为,
利用两层k3nNs1p1,即核尺寸为3、卷积层数为N、步长为1、填充宽度为1的卷积层进行特征提取;
将输入特征图按特征像素对位相加到输出特征图上。
8.根据权利要求1所述的基于改进型级联神经网络的小尺寸目标检测方法,其特征在于,在所述S7中,
所述结果汇总,是将各个层级检测到的建议框添加到一个总的集合中;
所述去除重叠算法,是根据建议框的两两之间的交并比关系,以保留较高置信度为标准,去除交并比大于阈值而置信度较低的那个建议框;
所述建议框,指的是由检测头从特征图当中计算生成的,包含各类的分类置信度和关于空间坐标、框体宽高信息的信息集合体;
所述交并比,指的是两个图形之间,以交集面积除以并集面积得到的实数,当两个图形完全重合时,该值为1;当两个图形完全分离时,该值为0。
9.一种用于实现如权利要求1所述的基于改进型级联神经网络的小尺寸目标检测方法的装置,其特征在于,包括输入模块,增强模块,多分辨率模块和输出模块;其中,
所述输入模块,用于读入待测图像;
所述增强模块,用于通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图;基于半稠密特征金字塔对特征图进行多分辨率融合,得到若干不同分辨率层级上的增强特征图;
所述多分辨率模块,用于使用后卷积对不同分辨率层级上的增强特征图进行异化;对于每一个分辨率层级,基于特征选择免锚框目标检测头根据增强特征图生成该层级的检测结果;将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果;
所述输出模块,用于输出最终检测结果。
10.一种计算机存储介质,其特征在于,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现如权利要求1至8任一项所述的方法步骤。
CN202011430913.9A 2020-12-07 2020-12-07 基于改进型级联神经网络的小尺寸目标检测方法与装置 Active CN112418165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011430913.9A CN112418165B (zh) 2020-12-07 2020-12-07 基于改进型级联神经网络的小尺寸目标检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011430913.9A CN112418165B (zh) 2020-12-07 2020-12-07 基于改进型级联神经网络的小尺寸目标检测方法与装置

Publications (2)

Publication Number Publication Date
CN112418165A true CN112418165A (zh) 2021-02-26
CN112418165B CN112418165B (zh) 2023-04-07

Family

ID=74776351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011430913.9A Active CN112418165B (zh) 2020-12-07 2020-12-07 基于改进型级联神经网络的小尺寸目标检测方法与装置

Country Status (1)

Country Link
CN (1) CN112418165B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495042A (zh) * 2022-01-27 2022-05-13 北京百度网讯科技有限公司 目标检测方法和装置
CN114863267A (zh) * 2022-03-30 2022-08-05 南京邮电大学 一种基于多轨迹智能预测的航拍树木数量精准统计方法
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及系统
WO2023051408A1 (zh) * 2021-09-29 2023-04-06 华为技术有限公司 特征图的处理方法和相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276523A1 (en) * 2015-11-30 2018-09-27 Toppan Printing Co., Ltd. Identification method and identification medium
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
US20190156144A1 (en) * 2017-02-23 2019-05-23 Beijing Sensetime Technology Development Co., Ltd Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN111079683A (zh) * 2019-12-24 2020-04-28 天津大学 基于卷积神经网络的遥感图像云雪检测方法
CN111652288A (zh) * 2020-05-11 2020-09-11 北京航天自动控制研究所 一种基于稠密特征金字塔的改进型ssd小目标检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276523A1 (en) * 2015-11-30 2018-09-27 Toppan Printing Co., Ltd. Identification method and identification medium
US20190156144A1 (en) * 2017-02-23 2019-05-23 Beijing Sensetime Technology Development Co., Ltd Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109816012A (zh) * 2019-01-22 2019-05-28 南京邮电大学 一种融合上下文信息的多尺度目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
CN111079683A (zh) * 2019-12-24 2020-04-28 天津大学 基于卷积神经网络的遥感图像云雪检测方法
CN111652288A (zh) * 2020-05-11 2020-09-11 北京航天自动控制研究所 一种基于稠密特征金字塔的改进型ssd小目标检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023051408A1 (zh) * 2021-09-29 2023-04-06 华为技术有限公司 特征图的处理方法和相关设备
CN114495042A (zh) * 2022-01-27 2022-05-13 北京百度网讯科技有限公司 目标检测方法和装置
CN114495042B (zh) * 2022-01-27 2023-08-29 北京百度网讯科技有限公司 目标检测方法和装置
CN114863267A (zh) * 2022-03-30 2022-08-05 南京邮电大学 一种基于多轨迹智能预测的航拍树木数量精准统计方法
CN115908464A (zh) * 2023-01-09 2023-04-04 智慧眼科技股份有限公司 一种舌体图像分割方法及系统

Also Published As

Publication number Publication date
CN112418165B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112418165B (zh) 基于改进型级联神经网络的小尺寸目标检测方法与装置
CN109902677B (zh) 一种基于深度学习的车辆检测方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN112633277B (zh) 基于深度学习的航道船牌检测、定位及识别方法
CN112016614B (zh) 光学图像目标检测模型的构建方法、目标检测方法及装置
CN107977620A (zh) 一种基于全卷积网络的多方向场景文本单次检测方法
Zhang et al. A dense u-net with cross-layer intersection for detection and localization of image forgery
CN108510504B (zh) 图像分割方法和装置
CN112541483A (zh) Yolo和分块-融合策略结合的稠密人脸检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN112800964A (zh) 基于多模块融合的遥感影像目标检测方法及系统
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN111709307B (zh) 一种基于分辨率增强的遥感图像小目标检测方法
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
CN105427333A (zh) 视频序列图像的实时配准方法、系统及拍摄终端
CN110580680A (zh) 基于组合学习的人脸超分辨率方法及装置
CN113807334A (zh) 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
Cai et al. Vehicle Detection Based on Deep Dual‐Vehicle Deformable Part Models
CN113963272A (zh) 一种基于改进yolov3的无人机图像目标检测方法
CN116798041A (zh) 图像识别方法、装置和电子设备
CN112926500B (zh) 一种结合头部和整体信息的行人检测方法
CN116403127A (zh) 一种无人机航拍图像目标检测方法、装置和存储介质
CN115953312A (zh) 一种基于单幅图像的联合去雾检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231025

Address after: Room 01, 10th Floor, Unit 2, Building 8, Hongteng Babilenburg, No. 17, Software Park 3rd Road, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430073

Patentee after: WUHAN YINXING TECHNOLOGY Co.,Ltd.

Address before: 430074, No. 693 Xiong Chu street, Hongshan District, Hubei, Wuhan

Patentee before: WUHAN INSTITUTE OF TECHNOLOGY