CN115565049A - 一种图像的微小目标检测方法及装置 - Google Patents
一种图像的微小目标检测方法及装置 Download PDFInfo
- Publication number
- CN115565049A CN115565049A CN202211193876.3A CN202211193876A CN115565049A CN 115565049 A CN115565049 A CN 115565049A CN 202211193876 A CN202211193876 A CN 202211193876A CN 115565049 A CN115565049 A CN 115565049A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- feature
- target
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000001514 detection method Methods 0.000 claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 125000004432 carbon atom Chemical group C* 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 239000013589 supplement Substances 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 241000408529 Libra Species 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体提供了一种图像的微小目标检测方法及装置,包括:获取待检测图像;将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。本发明的深度卷积神经网络能够融合不同尺度的特征,补充浅层的上下文信息,同时减轻特征融合时产生的特征混叠效应,使模型在训练时自己学会这一能力,并可以在不同的模型间灵活地迁移。本发明可以提升微小目标检测准确性,增强鲁棒性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种图像的微小目标检测方法及装置。
背景技术
目标检测即在给定的图像中对感兴趣目标实现定位与分类。定位是指确定感兴趣目标的位置和范围,通常输出的是给定图像中包围感兴趣目标的矩形框位置,形式为输出矩形框的左上角和右下角坐标,或矩形框的中心点坐标和矩形框的长和宽;分类是指判断矩形框是否存在模型已知的感兴趣类别的目标,并输出感兴趣目标类别以及置信度。
实现目标检测任务的方法主要有两类:一是传统的基于手工设计提取图像特征的检测方式,如基于图像纹理、色彩、明暗等特征的目标检测;二是以卷积神经网络为代表的基于深度神经网络的目标检测算法。随着目标检测研究的深入,检测任务越来越复杂,传统方法难以有较高提升。得益于硬件技术的快速发展,深度卷积神经网络的大量计算得到支持,基于深度卷积神经网络的目标检测发展迅速且整体水平较高,已成为主流。
近年来,基于深度卷积神经网络涌现出了许多经典算法,这些基于深度卷积神经网络的目标检测算法可以分为两类,第一类是先提出可能存在目标的区域,再进行精确定位和分类的两阶段算法;第二类是直接对特征图预测,可以进行端到端训练的单阶段算法。以上两类现有的模型在中大型目标检测任务中表现较好,却普遍在微小目标检测任务中表现不佳。
微小目标分为小型目标和微型目标。COCO数据集将目标像素小于32×32的图像定义为小目标,TinyPerson数据集进一步区分小目标和微目标,将小于20×20像素的图像定义为微目标。微小目标检测难的原因主要在于目标像素少,可供提取的特征较少,在经过几次卷积和池化后极难提取到可用特征,导致微小目标的特征表达能力弱,从而难以检测。
目前,提升微小目标检测准确率最常用的方法是多尺度检测,代表工作为FPN(Feature Pyramid Network,中文名为特征金字塔网络),2017年由Tsung-Yi Lin等人在IEEE Conference on Computer Vision and Pattern Recognition,第2117-2125页上发表的文章《Feature pyramid networks for object detection》即《用于目标检测的特征金字塔网络》提出。FPN构建了一个自顶向下的特征金字塔结构,对原始图像提取的不同尺度特征图融合处理后,在特征金字塔多尺度特征上检测不同尺度的目标,在小尺度的特征图上检测中大目标,在大尺度的特征图上检测微小目标,兼顾检测各尺度的目标,提升算法的整体性能。在广为使用的基线排行中,排名靠前的算法几乎都使用了多尺度方法。但是在已有的多尺度检测算法中,使用的大尺度特征一般来源于骨干网络提取的浅层特征,小尺度特征则来源于深层特征。由于VGG、ResNet等作为骨干网络提取图像特征时,使用卷积、激活、池化等非线性方式层层处理图像,浅层经过较少次非线性处理的特征图具有较少的语义信息,保留更多的原始图像信息,深层特征经过较多次非线性处理,具有更丰富的语义信息,使得浅层与深层特征处于不同的特征域。当不同尺度的特征层共享参数训练时,每一层在训练时受到其他层损失的监督,使每层都要学习所有层的特征,导致模型在训练时以牺牲部分性能为代价保证对两种特征域的兼容,影响了模型的检测精度。
此外,以往的多尺度模型设计了特征融合结构,以增强浅层特征层的语义信息。然而,现有的多尺度特征融合结构大多通过自顶向下的特征累加将特征从深层传递到浅层。多次特征的累积会在浅层特征上产生特征混叠效应,干扰微小目标特征在浅层特征上的表示。
因此,有必要提供一种可以显著提高微小目标检测效果的,基于统一特征域,且能够解决特征混叠效应的多尺度微小目标检测方法。
发明内容
为了克服上述缺陷,本发明提出了一种图像的微小目标检测方法及装置。
第一方面,提供一种图像的微小目标检测方法,所述图像的微小目标检测方法包括:
获取待检测图像;
将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;
其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。
优选的,所述预先构建的深度卷积神经网络的获取过程包括:
将图像作为初始深度卷积神经网络输入层训练样本,将所述图像的微小目标检测结果作为初始深度卷积神经网络输出层训练样本,对初始深度卷积神经网络进行训练,得到所述预先构建的深度卷积神经网络。
进一步的,所述初始深度卷积神经网络包括:数据增强网络、特征提取网络、特征融合网络以及目标预测网络;
所述数据增强网络,用于对图像进行上采样,得到图像对应的高分辨率图像;
所述特征提取网络,用于对所述图像及其对应的高分辨率图像进行特征提取,得到所述图像的特征{C2,C3,C4,C5}和所述高分辨率图像的特征{C′2,C′3,C′4,C′5};
所述特征融合网络,用于基于{C4,C5}和{C′4,C′5},得到统一特征域且增强的多尺度特征{P2,P3,P4,P5};
所述目标预测网络,用于根据输入的所述统一特征域且增强的多尺度特征{P2,P3,P4,P5},输出所述图像的微小目标检测结果。
进一步的,所述数据增强网络为高斯平滑网络或生成对抗网络,所述数据增强网络的上采样率为所述特征提取网络相邻块间步长的2倍。
进一步的,所述特征提取网络为ResNet-50网络。
进一步的,所述特征融合网络具体用于:
将C5经过一个256x2048x1x1的卷积转换为p5;
令i∈[2,4],按下式确定所述P2,P3,P4:
进一步的,所述Pi+1与Pi特征融合时的注意力参数的计算式如下:
优选的,所述将待检测图像输入至预先构建的深度卷积神经网络之前,包括:
将所述待检测图像分割为宽512像素,长640像素的子图,子图间设置32像素的重叠区域。
第二方面,提供一种图像的微小目标检测装置,所述图像的微小目标检测装置包括:
获取模块,用于获取待检测图像;
分析模块,用于将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;
其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。
第三方面,提供一种计算机设备,包括:一个或多个处理器;
所述处理器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,实现所述的图像的微小目标检测方法。
第四方面,提供一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现所述的图像的微小目标检测方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明提供了一种图像的微小目标检测方法及装置,包括:获取待检测图像;将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。本发明的深度卷积神经网络能够融合不同尺度的特征,补充浅层的上下文信息,同时减轻特征融合时产生的特征混叠效应,使模型在训练时自己学会这一能力,并可以在不同的模型间灵活地迁移。本发明可以提升微小目标检测准确性,增强鲁棒性。
具体的,与现有技术相比,本发明提供的一种图像的微小目标检测方法及装置具有如下有益效果:
(1)通过构建统一特征域的特征金字塔网络,可以在微小目标检测的基线上获得显著的性能提升。
(2)通过在多尺度特征图之间建立基于通道注意力的自顶向下的连接,增强下层大尺度特征的感受野,可以在微小目标检测的基线上获得显著的性能提升。
(3)采用深度学习的方法更新参数,针对不同的数据集和检测任务提高了学习效率和检测性能。
(4)可以在多种检测器中灵活地迁移,扩大了应用范围。
附图说明
图1是本发明实施例的图像的微小目标检测方法的主要步骤流程示意图;
图2是本发明实施例的深度卷积神经网络结构示意图;
图3是本发明实施例的通道注意力的特征融合网络结构示意图;
图4是本发明实施例的基于特征融合网络对通道维度特征增强的原理示意图;
图5是本发明实施例的使用高斯平滑上采样与GAN生成高分辨率图像的效果对比图;
图6是本发明实施例的图像的微小目标检测装置的主要结构框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
本发明提供了一种图像的微小目标检测方法,该方法从两个方面设计提升微小目标检测效果:第一,构建一个统一特征域的特征金字塔,将大尺度特征和小尺度特征均统一为骨干网络提取的深层特征,具体方式为小尺度特征由原始图像提取的深层特征组成,大尺度特征由原始图像的高分辨率图像提取的深层特征组成;第二,构建一个自上至下的通道注意力模块,融合不同尺度的特征,补充浅层的上下文信息,同时减轻特征融合时产生的特征混叠效应,使模型在训练时自己学会这一能力,并可以在不同的模型间灵活地迁移。
参阅附图1,图1是本发明的一个实施例的图像的微小目标检测方法的主要步骤流程示意图。如图1所示,本发明实施例中的图像的微小目标检测方法主要包括以下步骤:
步骤S101:获取待检测图像;
步骤S102:将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;
其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。
本实施例中,构建深度卷积神经网络的网络结构,包括数据增强、特征提取网络、特征融合网络以及目标预测网络,并对参数进行初始化;使用上采样作为数据增强方法;使用ResNet(残差网络)作为骨干网络提取特征;特征融合网络根据特征提取网络所提取的特征,构建统一特征域的多尺度特征,使用基于通道注意力的多尺度特征融合模块建立自顶向下的连接,对多层特征融合;使用分类网络和回归网络,预测目标的类别和位置;
具体的,所述预先构建的深度卷积神经网络的获取过程包括:
将图像作为初始深度卷积神经网络输入层训练样本,将所述图像的微小目标检测结果作为初始深度卷积神经网络输出层训练样本,对初始深度卷积神经网络进行训练,得到所述预先构建的深度卷积神经网络。
在一个实施方式中,所述初始深度卷积神经网络包括:数据增强网络、特征提取网络、特征融合网络以及目标预测网络;
所述数据增强网络,用于对图像进行上采样,得到图像对应的高分辨率图像;
所述特征提取网络,用于对所述图像及其对应的高分辨率图像进行特征提取,得到所述图像的特征{C2,C3,C4,C5}和所述高分辨率图像的特征{C′2,C′3,C′4,C′5};
所述特征融合网络,用于基于{C4,C5}和{C′4,C′5},得到统一特征域且增强的多尺度特征{p2,P3,P4,P5};
所述目标预测网络,用于根据输入的所述统一特征域且增强的多尺度特征{P2,P3,P4,P5},输出所述图像的微小目标检测结果。
在一个实施方式中,所述数据增强网络为高斯平滑网络或生成对抗网络,所述数据增强网络的上采样率为所述特征提取网络相邻块间步长的2倍。
在一个实施方式中,所述特征提取网络为ResNet-50网络。表1示出了特征提取网络ResNet-50的结构,残差卷积块conv1至conv5提取的特征语义信息递增,输出特征图相对原图的步长同样递增;
表1
当使用ResNet-50作为骨干网络时,相邻残差块的步长为2,此时上采样率为4。当使用类似结构的特征提取网络时,上采样率设置方式同理;
所述图像的特征{C2,C3,C4,C5}和所述高分辨率图像的特征{C′2,C′3,C′4,C′5}相对于原始图像的步长分别为{4,8,16,32}和{0,2,4,8},特征通道数均为{256,512,1024,2048};
进一步的,特征融合网络构建一个统一特征域的金字塔,由原始图像的深层特征和高分辨率图像的深层特征组合而成。如图2中a所示,使用ResNet-50作为骨干网络时,原始图像的深层特征{C4,C5}和高分辨率图像的深层特征{C′4,C′5}组合为{C′4,C′5,C4,C5},特征通道数为{1024,2048,1024,2048},相对于原始图像的步长为{4,8,16,32}。
在特征提取时,对原始图像的上采样率取自于两倍的骨干网络步长,高分辨率提取的深层特征{C′4,C′5}与原始图像提取的浅层特征{C4,C5}相对于原始图像的步长一样,由此可以在高分辨率的深层特征检测微小目标而不影响后续网络,所述特征融合网络具体用于:
将C5经过一个256x2048x1x1的卷积转换为P5;
令i∈[2,4],按下式确定所述P2,P3,P4:
如图2中b所示,本发明的特征融合网络由四个特征层{P2,P3,P4,P5}组成,{P4,P5}特征由原始图像经骨干网络提取的深层特征{C4,C5}经1×1 conv进行通道数匹配后,使用通道注意力模块相连得到。{P2,P3}特征由高分辨率图像经骨干网络提取的深层特征{C′4,C′5}经1×1 conv进行通道数匹配后,再使用多尺度特征融合模块与{P4,P5}串联得到;
在特征融合网络部分构建自顶向下的特征传递机制增强浅层特征,由深层的强语义特征层{C5,C′5}向浅层的相对弱语义特征层{C4,C′4}传递。在本发明的特征融合网络部分中,顶层特征来源于对原始图像提取的深层特征,相比于其他层具有最广大的实际感受野,包含最丰富的上下文信息,建立自顶向下的连接增强浅层语义信息的同时丰富浅层的上下文信息;
特征融合网络中自顶向下的连接使用基于通道注意力的多尺度特征融合模块(Channel Attention Fusion Module,CAF)实现特征融合;
基于通道注意力的多尺度特征融合模块CAF如图3所示,其中Pi+1为上层特征,2xup-sampling指将上层特征上采样2倍,Ci/C′i+2指横向连接的自底向上的骨干网络特征,为Pi+1与Pi特征融合时的注意力参数。CAF首先根据上层特征计算通道权重参数w,将w与上层特征两倍上采样后的特征相乘,再与相邻的经1×1 conv匹配通道数后的下层特征相加,得到新的增强特征。
层特征通道权重参数w通过灵活的方式学习特征通道间的非线性相互作用,并根据输入判断哪些特征需要被抑制,哪些特征需要被保留,所述Pi+1与Pi特征融合时的注意力参数的计算式如下:
如图4所示,使用两个不同维度的全连接层并连接一个激活函数,在增加非线性计算的同时减少参数数量的增长,通过Sigmoid激活函数输出特征通道权重参数w,最终将参数w与上层特征进行通道层上的相乘,由于不同特征层对下层的影响不同,因此在相邻的四个特征层间设置三个不共享参数的CAF,图4中Max-Pooling指全局最大池化,Fc指两层全连接网络,Element-Wise Product指矩阵对应元素相乘,Element-Wise Sum指矩阵对应元素相加;
本发明的特征提取网络不仅限于ResNet,对于其他输出多尺度特征的骨干网络同样适用。在CA中,通过池化、激活、全连接等步骤,使用全局的信息计算不同特征层中各通道的注意力参数,选择性地强调或抑制某些通道的特征信息,根据参数消除有负影响通道层的特征,保留有正影响通道层的特征,为下层特征提供有价值的语义信息,从而有效减少因简单的多层累加产生的特征混叠对微小目标检测造成的影响,更好地指导浅层特征中微小目标的检测。这种能力可以通过模型在数据集中的训练自动获得,当更换模型或更换数据集时,同样可以在训练中获得更适应当前模型和数据集的参数,无需进行额外的计算;
如图2中c所示,其中Box指网络预测的目标框,Class指网络预测的目标类别,目标预测网络分为两部分,一是回归网络模块,该回归网络用于对目标框进行定位,另一个是分类网络模块,用于对目标框进行目标分类,均使用卷积层、池化层以及全连接层构建两个模块,根据特征融合网络得到的特征图作为输入,输出目标预测回归框的位置,以及目标的分类信息和置信度。
本发明提供一种最优的实施方式,具体如下:
a,将大尺度图像分割为宽512像素,长640像素的子图,子图间设置32像素的重叠区域;
b,将原始子图送入网络,使用高斯平滑上采样或GAN生成宽2048像素,长2560像素的高分辨率切片,使用ResNet骨干网络对原始子图图像和高分辨率子图图像提取多尺度特征,保留第4、第5残差块输出的多尺度深层特征{C4,C5}和{C′4,C′5};
c,通过特征融合网络处理,得到统一特征域且增强的多尺度特征{P2,P3,P4,P5},并送入目标预测网络;
d,目标预测网络根据输入的多尺度特征预测目标框、目标类别及置信度,使用分类损失函数和回归损失函数,根据预测值和真实值计算分类损失和回归损失;
e,根据计算得到的损失值,使用反向传播算法(BP,Back Propagation)迭代优化网络参数。当损失值低于一定阈值,或迭代优化至一定次数后,获得网络参数;
f,使用得到的参数构建网络模型,将测试集数据送入网络,评估模型性能,将评估结果最优的模型参数作为最终结果。
以下通过具体实例进一步描述本发明,不过这些实例仅仅是范例性的,并不对本发明的保护范围构成任何限制。
本实施例在微小目标数据集TinyPerson中进行训练和测试。TinyPerson数据集共有794张训练图像和816张测试图像,检测目标是处于各种复杂环境背景下或密集分布的人,目标的平均大小是18×18像素。在输入数据时,先将大尺度原始图像分割为长640像素、宽512像素的子图,再送入深度卷积神经网络进行预测。
所有模型的代码均基于PyTorch编写,骨干网络默认选择在ImageNet数据集预训练后的ResNet-50,目标预测网络选择Faster R-CNN。锚框尺寸为(8,16,32,64),比例为(0.5,1.0,2.0)。训练方式统一为迭代12次,使用随机梯度下降(Stochastic GradientDescent,SGD)优化方法,学习率在第8次和第11次时,分别下降为原来的十分之一。由于数据集中图像分辨率较高,单张图像中目标数量较大,因此,每批次处理2张图像,在单张NVIDIA RTX 3090显卡上实施。实施时,每张图片的最大检测目标数设置为1000个。
对模型使用平均查准率(Average Precision,AP)和平均查全率(AverageRecall,AR)进行评估。平均查准率和平均查全率是目标检测任务中衡量模型性能广泛使用的指标,查准率反应模型预测的准确性,查全率反应模型预测的漏检率,两者的计算方法如下所示:
其中,TP,FP,TN和FN分别表示检测结果中真阳性、假阳性、真阴性、假阴性目标的个数。由于TinyPerson是一个微小目标数据集,平均目标尺寸为18像素,因此,参考2020年由Xuehui Yu等人在Proceedings of the IEEE/CVF Winter Conference onApplications of Computer Vision,第1257-1265页上发表的文章《Scale match fortiny person detection》即《用于微小人物检测的尺度匹配》提出的TinyBenchmark,将32×32像素下的目标划分为微目标[2,20]和小目标[20,32],微目标又细分为tiny 1[2,8],tiny 2[8,12]和tiny 3[12,20],并将交并比阈值设为0.25,0.50和0.75。由于本研究针对微小目标检测,因此根据上述标准对模型进行评价。
实验表明:
选择七种先进的目标检测模型与我们的模型在TinyPerson数据集上进行性能比较,骨干网络均使用在ImageNet数据集预训练后的ResNet-50,为了比较方便,目标预测网络选择广泛使用的Faster R-CNN,评价指标包括AP和AR,结果如表2所示。
表2
其中,FreeAnchor如文献“Zhang X,Wan F,Liu C,et al.FreeAnchor:Learningto Match Anchors for Visual Object Detection[J].Advances in NeuralInformation Processing Systems,2019,32:147-155.”所述;
Libra RCNN如文献“Pang J,Chen K,Shi J,et al.Libra r-cnn:Towardsbalanced learning for object detection[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2019:821-830.”所述;
RetinaNet如文献“Lin T Y,Goyal P,Girshick R,et al.Focal loss for denseobject detection[C]//Proceedings of the IEEE international conference oncomputer vision.2017:2980-2988.”所述;
Grid RCNN如文献“Lu X,Li B,Yue Y,et al.Grid r-cnn[C]//Proceedings ofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:7363-7372.”所述;
Faster RCNN-FPN如文献“Lin T Y,Dollár P,Girshick R,et al.Featurepyramid networks for object detection[C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.2017:2117-2125.”所述;
Faster RCNN如文献“Ren S,He K,Girshick R,et al.Faster r-cnn:Towardsreal-time object detection with region proposal networks[J].Advances inneural information processing systems,2015,28.”所述;
RetinaNet with S-α与Faster RCNN-FPN with S-α如文献“Gong Y,Yu X,DingY,et al.Effective fusion factor in FPN for tiny object detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of ComputerVision.2021:1160-1168.”所述。
所有模型均使用2019年由Kai Chen等人在arXiv preprint arXiv:1906.07155,发表的文章MMDetection:Open mmlab detection toolbox and benchmark》即《MMDetection:开放的mmlab检测工具箱和基准测试》提供的代码在TinyPerson数据集上训练和测试,只将锚框的大小调整为[8,16,32,64]以适应微小目标的检测,另外FreeAnchor和RetinaNet使用五层输出特征构建FPN的改进版。结果显示,本发明的模型在各个指标上的表现均优于所选的先进模型。本发明在上相比其他最优模型提高了4.01%,在上相比其他最优模型提高了0.7%,结果表明本发明在提高微小目标检测准确率上表现优异。
进一步地,将本发明提出的统一增强特征金字塔在3个已有先进模型中替换多尺度特征融合模块,结果如表3和表4所示:
表3
表4
其中,RetinaNet-FPN、Grid RCNN-FPN和Faster RCNN-FPN中的多尺度特征融合网络均为FPN,作为对比,*代表将FPN替换为本发明提出的统一增强特征金字塔;
从表3可以得出,在选择的三种算法中,无论是单阶段检测器还是两阶段检测器,使用统一增强特征金字塔处理特征均能够有效提升模型检测微小目标的准确率。表4展示了统一增强特征金字塔对各模型平均查全率性能的影响,当交并比为0.5时,统一增强特征金字塔将Grid RCNN对微小目标的平均查全率分别提升了1.12%和0.89%,将Faster RCNN对微小目标的平均查全率分别提升了4.77%和3.58%,将RetinaNet对微小目标的平均查全率分别提升了0.12%和0.73%。可以得出,统一增强特征金字塔对单阶段和两阶段检测模型的平均查全率均有提升,对两阶段模型的提升相对更高。
进一步地,验证使用不同上采样方法时本发明提出的统一增强特征金字塔模型的性能,结果如表5所示:
表5
其中,Gaussian指使用高斯平滑上采样原始图像,GAN指使用生成对抗网络生成超分辨率图像。两种方法上采样图像的效果如图5所示,高斯平滑通过求周围点像素的均值补充新像素,处理图像的速度较快,但在生成的高分辨率图像中没有增加新信息,目标轮廓模糊。GAN根据网络性能为生成的超分辨率图像添加丰富的细节信息,目标轮廓更清晰。实验结果如表5所示,使用两种上采样方法均可以明显提升模型对微小目标检测的准确率。其中,使用GAN上采样图像,可以在各项指标得到更高的准确率,特别是在上比使用高斯平滑上采样的方法提升了0.97%,说明补充了细节信息,目标轮廓更清晰的图像更有助于提升微小目标检测的准确率。
通过上述实验例,证明了本发明所述的图像的微小目标检测方法对提升微小目标检测性能的有效性。
实施例2
基于同一种发明构思,本发明还提供了一种图像的微小目标检测装置,如图6所示,所述图像的微小目标检测装置包括:
获取模块,用于获取待检测图像;
分析模块,用于将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;
其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。
优选的,所述预先构建的深度卷积神经网络的获取过程包括:
将图像作为初始深度卷积神经网络输入层训练样本,将所述图像的微小目标检测结果作为初始深度卷积神经网络输出层训练样本,对初始深度卷积神经网络进行训练,得到所述预先构建的深度卷积神经网络。
进一步的,所述初始深度卷积神经网络包括:数据增强网络、特征提取网络、特征融合网络以及目标预测网络;
所述数据增强网络,用于对图像进行上采样,得到图像对应的高分辨率图像;
所述特征提取网络,用于对所述图像及其对应的高分辨率图像进行特征提取,得到所述图像的特征{C2,C3,C4,C5}和所述高分辨率图像的特征{C′2,C′3,C′4,C′5};
所述特征融合网络,用于基于{C4,C5}和{C′4,C′5},得到统一特征域且增强的多尺度特征{P2,P3,P4,P5};
所述目标预测网络,用于根据输入的所述统一特征域且增强的多尺度特征{P2,P3,P4,P5},输出所述图像的微小目标检测结果。
进一步的,所述数据增强网络为高斯平滑网络或生成对抗网络,所述数据增强网络的上采样率为所述特征提取网络相邻块间步长的2倍。
进一步的,所述特征提取网络为ResNet-50网络。
进一步的,所述特征融合网络具体用于:
将C5经过一个256x2048x1x1的卷积转换为P5;
令i∈[2,4],按下式确定所述P2,P3,P4:
进一步的,所述Pi+1与Pi特征融合时的注意力参数的计算式如下:
优选的,所述将待检测图像输入至预先构建的深度卷积神经网络之前,包括:
将所述待检测图像分割为宽512像素,长640像素的子图,子图间设置32像素的重叠区域。
实施例3
基于同一种发明构思,本发明还提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能,以实现上述实施例中一种图像的微小目标检测方法的步骤。
实施例4
基于同一种发明构思,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中一种图像的微小目标检测方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (11)
1.一种图像的微小目标检测方法,其特征在于,所述方法包括:
获取待检测图像;
将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;
其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。
2.如权利要求1所述的方法,其特征在于,所述预先构建的深度卷积神经网络的获取过程包括:
将图像作为初始深度卷积神经网络输入层训练样本,将所述图像的微小目标检测结果作为初始深度卷积神经网络输出层训练样本,对初始深度卷积神经网络进行训练,得到所述预先构建的深度卷积神经网络。
3.如权利要求2所述的方法,其特征在于,所述初始深度卷积神经网络包括:数据增强网络、特征提取网络、特征融合网络以及目标预测网络;
所述数据增强网络,用于对图像进行上采样,得到图像对应的高分辨率图像;
所述特征提取网络,用于对所述图像及其对应的高分辨率图像进行特征提取,得到所述图像的特征{C2,C3,C4,C5}和所述高分辨率图像的特征{C′2,C′3,C′4,C′5};
所述特征融合网络,用于基于{C4,C5}和{C′4,C′5},得到统一特征域且增强的多尺度特征{P2,P3,P4,P5};
所述目标预测网络,用于根据输入的所述统一特征域且增强的多尺度特征{P2,P3,P4,P5},输出所述图像的微小目标检测结果。
4.如权利要求3所述的方法,其特征在于,所述数据增强网络为高斯平滑网络或生成对抗网络,所述数据增强网络的上采样率为所述特征提取网络相邻块间步长的2倍。
5.如权利要求3所述的方法,其特征在于,所述特征提取网络为ResNet-50网络。
8.如权利要求1所述的方法,其特征在于,所述将待检测图像输入至预先构建的深度卷积神经网络之前,包括:
将所述待检测图像分割为宽512像素,长640像素的子图,子图间设置32像素的重叠区域。
9.一种图像的微小目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测图像;
分析模块,用于将待检测图像输入至预先构建的深度卷积神经网络,得到所述预先构建的深度卷积神经网络输出的图像的微小目标检测结果;
其中,所述检测结果包括下述中的至少一种:微小目标框像素位置、类别、置信度,所述微小目标为像素小于32×32的图像或像素小于20×20的图像。
10.一种计算机设备,其特征在于,包括:一个或多个处理器;
所述处理器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,实现如权利要求1至8中任意一项所述的图像的微小目标检测方法。
11.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1至8中任意一项所述的图像的微小目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211193876.3A CN115565049A (zh) | 2022-09-28 | 2022-09-28 | 一种图像的微小目标检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211193876.3A CN115565049A (zh) | 2022-09-28 | 2022-09-28 | 一种图像的微小目标检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565049A true CN115565049A (zh) | 2023-01-03 |
Family
ID=84743247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211193876.3A Pending CN115565049A (zh) | 2022-09-28 | 2022-09-28 | 一种图像的微小目标检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565049A (zh) |
-
2022
- 2022-09-28 CN CN202211193876.3A patent/CN115565049A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN111126472A (zh) | 一种基于ssd改进的目标检测方法 | |
Xu et al. | Scale-aware feature pyramid architecture for marine object detection | |
CN114240821A (zh) | 一种基于改进型yolox的焊缝缺陷检测方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN113516116B (zh) | 一种适用于复杂自然场景的文本检测方法、系统和介质 | |
CN113657409A (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN115131797A (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN110008900A (zh) | 一种由区域到目标的可见光遥感图像候选目标提取方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
Sun et al. | Marine ship instance segmentation by deep neural networks using a global and local attention (GALA) mechanism | |
Ke et al. | Scale-aware dimension-wise attention network for small ship instance segmentation in synthetic aperture radar images | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN115115947A (zh) | 遥感图像检测方法、装置、电子设备以及存储介质 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN115565049A (zh) | 一种图像的微小目标检测方法及装置 | |
Zhang et al. | MFFSSD: an enhanced SSD for underwater object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |