CN114898105B - 一种复杂场景下的红外目标检测方法 - Google Patents
一种复杂场景下的红外目标检测方法 Download PDFInfo
- Publication number
- CN114898105B CN114898105B CN202210207336.XA CN202210207336A CN114898105B CN 114898105 B CN114898105 B CN 114898105B CN 202210207336 A CN202210207336 A CN 202210207336A CN 114898105 B CN114898105 B CN 114898105B
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- multiplied
- detection
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000002776 aggregation Effects 0.000 claims abstract description 12
- 238000004220 aggregation Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 10
- 230000001629 suppression Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种复杂场景下的红外目标检测方法,本发明通过改进的主干特征提取网络对输入红外图像进行特征提取,结合特征金字塔网络结构与路径聚集网络结构,实现不同尺度特征信息的融合,同时优化网络的损失函数,最后对不同尺度的特征图进行预测,并使用基于Distance‑IoU(DIoU)的非极大值抑制提升对密集遮挡物体的检测,可广泛应用于自动驾驶、夜间安防等领域。
Description
技术领域
本发明属于数字红外目标检测领域,具体涉及一种复杂场景下的红外目标检测方法。
背景技术
目标检测是一项重要的计算机视觉任务,包括识别(例如目标分类)和定位(例如位置回归)任务。目标检测需要将特定目标类的目标与图像中的背景进行区分,并对每个目标实例进行精确定位和正确的分类标签预测。目标检测能够为图像和视频的语义理解提供有价值的信息。近年来,随着深度学习技术的快速发展,为目标检测注入了新鲜血液,取得了显著的突破,也将其推向了一个前所未有的研究热点。相对于传统的目标检测方法,深度学习的算法具有更高的精度。
为了实现鲁棒的检测和识别,用于验证的提取特征必须不受光照、姿态和其他变化的影响。可见光图像分辨率高、细节丰富,但是相比红外图像很容易受光照变化的影响,很大程度上增加了目标识别的难度。红外目标检测利用红外探测器感知目标与背景之间的红外辐射差异成像后进行检测。在一些特殊天气如雨天、雾天包括夜间和缺乏光源的情况下,红外成像也可以正常工作,且抗干扰能力强、工作距离远、受天气影响小、能昼夜工作。红外目标检测不仅应用于军事领域,在工业、安防、交通等民用领域也有着广泛应用。
目前基于深度学习的目标检测算法研究已经取得了显著性的成果,但是当下国内外研究的大多数应用场景均是基于可见光条件,有关红外场景的研究很少,因此需要针对红外目标检测进行深入研究。
发明内容
针对现有红外目标检测技术研究较少,且在人群密集、复杂场景下检测效果不佳等问题,本发明提出了一种复杂场景下的红外目标检测方法。其目的在于,使用改进的主干网络进行特征提取,提高模型对重要特征的提取能力。优化网络的损失函数,使得训练聚焦在高质量的正样本上,提高模型在复杂场景下的检测能力,增强鲁棒性。采用多尺度融合实现不同大小目标的检测,增强模型在不同尺度目标下的检测精度。
为了实现上述目的,本发明所采用的技术方案为:一种复杂场景下的红外目标检测方法,该方法包括如下步骤:
(1)对输入红外图像进行Mosaic数据增强;
(2)对特征提取网络CSPDarknet53结构进行优化改进,在特征提取网络中加入注意力机制ECA模块;使用Focus结构对输入图像进行切片操作,再经过多次卷积处理,然后利用优化的CSPDarknet53特征提取网络进行特征信息的提取,得到不同尺度的特征图,并在特征提取网络后加入SPP模块,解决目标尺度变化带来的精度下降的问题;
(3)将(2)中最后所得的最小特征图通过特征金字塔网络结构与路径聚集网络结构,将高层的强语义特征信息与低层的强定位特征进行融合,结合两种网络结构最终得到同时具备强语义特征和强定位特征的不同尺度的检测层;
(4)优化损失函数,使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数,实现多尺度检测,得到不同的预测框;
(5)对(4)所得预测框进行非极大值抑制处理,通过基于DIoU的非极大值抑制对预测框进行筛选,消除置信度低的预测框,得到精确度更高的预测框;
(6)使用FLIR红外图像数据集对(2)-(5)中的整体网络结构进行训练,使用训练得到的整体网络结构进行检测,得到测试结果。
进一步的,步骤(1)的具体实现方式如下;
(1-1)对输入红外图像预处理,对图像进行自适应缩放,统一缩放为640×640的尺寸;
(1-2)对缩放后的图像进行数据增强,每4张图片通过随机缩放、裁剪、排布的方式进行拼接,丰富检测数据集,提升小目标的检测效果。
进一步的,步骤(2)的具体实现方式如下;
(2-1)对主干特征提取网络CSPDarknet53结构进行改进,在卷积层之间添加注意力机制ECA模块,将特征提取网络中的10层网络变为13层网络;
(2-2)使用Focus结构将步骤(1)所得图像进行切片操作把高分辨率的特征图拆分为多个低分辨率的特征图,在通道维度上进行拼接再经过一次卷积得到320×320的特征图,然后经过步长为2的3×3卷积核对得到的320×320特征图进行4次下采样,并使用优化后的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图;
(2-3)在特征提取网络后加入SPP模块,首先对改进的CSPDarknet53网络进行特征提取所得到的20×20特征图经过1×1的卷积核进行降维,然后经过四种不同大小的池化层得到全局特征和局部特征,具体地,经过1×1大小的池化层获取全局特征,经过5×5、9×9、13×13大小的池化层获取不同大小的特征图得到局部特征,经过不同的通道获取不同的特征信息,然后将局部特征与全局特征进行融合,再经过一次卷积得到新的20×20特征图,增强特征表达能力,扩大特征图的感受野,解决目标尺度变化带来的精度下降的问题。
进一步的,步骤(3)的具体实现方式如下;
将步骤(2-3)中所得20×20特征图通过特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合,将20×20特征图进行上采样得到40×40特征图,再与(2-2)中特征提取网络所得40×40特征图进行融合,将融合所得40×40特征图进行上采样得到80×80特征图,与(2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图,然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图,并与特征金字塔中经过融合所得到的40×40特征图进行融合,再将融合所得40×40特征图进行下采样得到的20×20特征图与(2-3)中经过SPP模块处理所得20×20特征图进行融合得到融合的20×20特征图;通过两种网络结构结合,最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层,实现不同大小目标类别和位置的预测。
进一步的,步骤(4)的具体实现方式如下;
损失函数Varifocal Loss的计算公式如下:
其中p是预测的分类得分,q为目标分数,γ为常数;Varifocal Loss非对称地处理正负样本,只对负样本进行pγ的衰减,并对正样本使用q进行加权,使得训练可以聚焦在质量高的样本上,同时使用权重因子α对负样本进行加权,平衡总体的正负样本。
进一步的,步骤(5)的具体实现方式如下;
DIoU的计算公式为:
其中IoU为预测框P与Q的交并比,计算公式为:
d表示两个预测框中心点之间的距离,c表示同时包含两个预测框的最小框的对角线长度,对于得分最高的预测框M,将DIoU-NMS的公式定义为:
其中si是分类得分,ε是NMS的阈值,RDIoU表示的是得分最高的预测框M与预测框Bi中心点之间距离的关系,用下面的公式表示:
通过同时考虑IoU和两个预测框的中心点之间的距离来删除冗余的预测框,将得分最高的预测框M和其他框Bi的DIoU值与NMS的阈值进行比较,如果较小则保持得分si,否则当DIoU值大于阈值时将si值设为0,即被过滤掉。
进一步的,采用随机梯度下降(SGD)优化器对整体网络结构参数进行迭代更新训练,利用训练得到的整体网络结构进行测试得到检测结果。
本发明的有益效果在于:通过改进的主干特征提取网络对输入红外图像进行特征提取,结合特征金字塔网络结构与路径聚集网络结构,实现不同尺度特征信息的融合,同时优化网络的损失函数,最后对不同尺度的特征图进行预测,并使用基于Distance-IoU(DIoU)的非极大值抑制提升对密集遮挡物体的检测,可广泛应用于自动驾驶、夜间安防等领域。该方法包括输入端、主干网络和检测层。在输入端对红外图像进行数据增强,提升对小目标的检测能力。使用融合注意力机制的主干网络从输入红外图像中提取信息特征,能够更有效地提取检测目标的特征信息。在检测层采用多尺度特征进行检测,在特征金字塔网络结构后加入一种自下而上的路径聚集网络结构,实现不同尺度特征信息的融合。同时优化检测网络的损失函数,使训练聚焦在高质量的正样本上。本发明主要包括三个方面:一是在主干特征提取网络CSPDarknet53中嵌入轻量化注意力模块ECA-Net,使检测网络能够更显著地提取红外图像的特征,提高网络的检测能力。二是对损失函数进行优化,使用正负样本不对称加权的Varifocal Loss作为损失函数。由于正样本太少,故只对负样本进行衰减,避免大量的简单负样本主导训练的loss,另一方面对正样本进行加权,使训练可以聚焦到质量高的样本上,从而进一步提升模型的鲁棒性。三是使用基于DIOU的非极大值抑制筛选多余的目标检测框,改善由于密集或遮挡物体带来的漏检、错检等问题。
附图说明
图1为本发明一种复杂场景下的红外目标检测方法的流程图;
图2为本发明一种复杂场景下的红外目标检测方法的网络结构示意图;(a)为本发明一种复杂场景下的红外目标检测方法的网络结构整体示意图;(b)为本发明一种复杂场景下的红外目标检测方法的网络中各模块详细结构图;
图3为本发明一种复杂场景下的红外目标检测方法所采用的ECA注意力机制流程图;
图4为本发明一种复杂场景下的红外目标检测方法所采用的特征金字塔网络与路径聚集网络结构示意图;
图5为本发明一种复杂场景下的红外目标检测方法所采用的DIoU示意图;
图6为本发明一种复杂场景下的红外目标检测方法的检测效果图示例。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种复杂场景下的红外目标检测方法,该方法主要包括:如图1所示,对输入红外图像进行数据增强、主干网络特征提取、多尺度特征融合、非极大值抑制处理及优化的损失函数等方面。整个方法包括如下步骤:
(1)对输入红外图像进行Mosaic数据增强,丰富检测数据集,同时增加数据中的小目标,增强网络的鲁棒性;
(2)对特征提取网络CSPDarknet53结构进行改进,在网络中加入注意力机制ECA模块,ECA模块仅包含少量参数,在不降低维度的情况下进行逐通道全局平均池化,通过考虑每个通道及其k个近邻来实现局部跨通道交互,使网络能够更加有效地提取目标的特征信息;使用Focus结构进行切片操作,再经过一次卷积得到320×320的特征图,然后经过步长为2的3×3卷积核对图片进行4次下采样,利用优化的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图;在特征提取网络后加入SPP模块,将局部特征与全局特征进行融合,增强特征表达能力,解决目标尺度变化带来的精度下降的问题;
(3)将(2)最后所得20×20特征图通过特征金字塔网络结构与路径聚集网络结构将高层的强语义特征信息与低层的强定位特征进行融合,特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合,将20×20特征图进行上采样得到40×40特征图,再与(2)中特征提取网络所得40×40特征图进行融合,将融合所得40×40特征图进行上采样得到80×80特征图,与(2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图,然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图,并与特征金字塔中经过融合所得到的40×40特征图进行融合,再将融合所得40×40特征图进行下采样得到的20×20特征图与(2)中最后所得20×20特征图进行融合得到融合的20×20特征图,通过路径聚集网络自底向上将低层的强定位特征传递上去,结合两种网络结构最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层;
(4)优化网络的损失函数,使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数,使用优化损失函数的预测网络进行多尺度检测,得到不同的预测框;
(5)对(4)所得预测框进行非极大值抑制处理,即保留局部类别置信度得分最高的预测框,抑制掉得分低的预测框。通过基于DIoU的非极大值抑制对预测框进行筛选,消除置信度低的预测框,得到精确度更高的预测框;
(6)使用FLIR红外图像数据集对上述整体的网络结构进行训练,使用训练得到的网络结构进行检测,得到测试结果。
优选地,步骤(1)包含以下步骤:
(1-1)对输入红外图像预处理,对图像进行自适应缩放,统一缩放为640×640的尺寸。
(1-2)对缩放后的图像进行数据增强,每4张图片通过随机缩放、裁剪、排布的方式进行拼接,丰富检测数据集,提升小目标的检测效果。
优选地,步骤(2)包含以下步骤:
(2-1)对主干特征提取网络CSPDarknet53结构进行改进,在卷积层之间添加注意力机制ECA模块,将特征提取网络中的10层网络变为13层网络,优化网络结构,改进后的网络能够更有效地提取检测目标的特征信息。
(2-2)使用Focus结构将步骤(1)所得图像进行切片操作把高分辨率的特征图拆分为多个低分辨率的特征图,在通道维度上进行拼接再经过一次卷积得到320×320的特征图,采用这种方式可以减少下采样带来的信息损失。然后经过步长为2的3×3卷积核对得到的320×320特征图进行4次下采样,使用优化后的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图。
(2-3)在特征提取网络后加入SPP模块,首先对改进的CSPDarknet53网络进行特征提取所得到的20×20特征图经过1×1的卷积核进行降维,然后经过四种不同大小的池化层得到全局特征和局部特征,具体地,经过1×1大小的池化层获取全局特征,经过5×5、9×9、13×13大小的池化层获取不同大小的特征图得到局部特征,经过不同的通道获取不同的特征信息,然后将局部特征与全局特征进行融合,再经过一次卷积得到新的20×20特征图,增强特征表达能力,扩大特征图的感受野,解决目标尺度变化带来的精度下降的问题。
优选地,步骤(3)包含以下步骤:
将步骤(2-3)最后所得20×20特征图通过特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合,将20×20特征图进行上采样得到40×40特征图,再与(2-2)中特征提取网络所得40×40特征图进行融合,将融合所得40×40特征图进行上采样得到80×80特征图,与(2-2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图,然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图,并与特征金字塔中经过融合所得到的40×40特征图进行融合,再将融合所得40×40特征图进行下采样得到的20×20特征图与(2-3)中经过SPP模块处理所得20×20特征图进行融合得到融合的20×20特征图。特征金字塔网络结构自顶向下将高层的特征信息通过上采样的方式进行传递融合,传达强语义特征;路径聚集网络结构自底向上传达强定位特征。通过两种网络结构结合,最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层,实现不同大小目标类别和位置的预测。
优选地,步骤(4)包含以下步骤:
优化网络的损失函数,使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数。Varifocal Loss的计算公式如下:
其中p是预测的分类得分,q为目标分数,γ为常数。Varifocal Loss非对称地处理正负样本,由于正样本太少,为充分利用正样本的监督信号,只对负样本进行pγ的衰减,并对正样本使用q进行加权,使得训练可以聚焦在质量高的样本上。同时使用权重因子α对负样本进行加权,平衡总体的正负样本。使用优化损失函数的预测网络进行多尺度检测,提升网络的检测精度,得到不同尺度特征下的预测框。
优选地,步骤(5)包含以下步骤:
对步骤(4)所得预测框进行非极大值抑制处理,即保留局部类别置信度得分最高的预测框,抑制掉得分低的预测框。采用基于DIoU的非极大值抑制,DIoU-NMS将DIoU作为非极大值抑制的准则,DIoU同时考虑了两个预测框的重叠区域和中心距离。DIoU用下面的公式表示:
其中IoU为预测框P与Q的交并比。计算公式为:
d表示两个预测框中心点之间的距离,c表示同时包含两个预测框的最小框的对角线长度。对于得分最高的预测框M,将DIoU-NMS的公式定义为:
其中si是分类得分,ε是NMS的阈值,RDIoU表示的是得分最高的预测框M与预测框Bi中心点之间距离的关系,用下面的公式表示:
通过同时考虑IoU和两个预测框的中心点之间的距离来删除冗余的预测框。将得分最高的预测框M和其他框Bi的DIoU值与NMS的阈值进行比较,如果较小则保持得分si,否则当DIoU值大于阈值时将si值设为0,即被过滤掉。使用DIoU-NMS来筛选预测框,有效改善由于密集或遮挡物体带来的漏检、错检等问题,提升复杂场景下的检测能力,得到更加精确的预测框。
优选地,步骤(6)包含以下步骤:
使用FLIR红外图像数据集对改进后的网络进行训练,训练集和测试集的数量分别为8862和1366。采用随机梯度下降(SGD)优化器对网络参数进行迭代更新。利用训练得到的网络模型进行测试得到检测结果。
如图6所示,示例红外图像中存在大量的检测对象,包括人、自行车和车辆,经过检测红外图像中不同大小的目标都很好的被识别出来,对于密集遮挡的复杂场景下依然有较好的检测效果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种复杂场景下的红外目标检测方法,其特征在于,包括如下步骤:
(1)对输入红外图像进行Mosaic数据增强;
(2)对特征提取网络CSPDarknet53结构进行优化改进,在特征提取网络中加入注意力机制ECA模块;使用Focus结构对输入图像进行切片操作,再经过多次卷积处理,然后利用优化的CSPDarknet53特征提取网络进行特征信息的提取,得到不同尺度的特征图,并在特征提取网络后加入SPP模块,解决目标尺度变化带来的精度下降的问题;
(2-1)对主干特征提取网络CSPDarknet53结构进行改进,在卷积层之间添加注意力机制ECA模块,将特征提取网络中的10层网络变为13层网络;
(2-2)使用Focus结构将步骤(1)所得图像进行切片操作把高分辨率的特征图拆分为多个低分辨率的特征图,在通道维度上进行拼接再经过一次卷积得到320×320的特征图,然后经过步长为2的3×3卷积核对得到的320×320特征图进行4次下采样,并使用优化后的CSPDarknet53网络结构进行特征提取分别得到160×160、80×80、40×40、20×20的特征图;
(2-3)在特征提取网络后加入SPP模块,首先对改进的CSPDarknet53网络进行特征提取所得到的20×20特征图经过1×1的卷积核进行降维,然后经过四种不同大小的池化层得到全局特征和局部特征,具体地,经过1×1大小的池化层获取全局特征,经过5×5、9×9、13×13大小的池化层获取不同大小的特征图得到局部特征,经过不同的通道获取不同的特征信息,然后将局部特征与全局特征进行融合,再经过一次卷积得到新的20×20特征图,增强特征表达能力,扩大特征图的感受野,解决目标尺度变化带来的精度下降的问题;
(3)将(2)中最后所得的最小特征图通过特征金字塔网络结构与路径聚集网络结构,将高层的强语义特征信息与低层的强定位特征进行融合,结合两种网络结构最终得到同时具备强语义特征和强定位特征的不同尺度的检测层;
将步骤(2-3)中所得20×20特征图通过特征金字塔自顶向下将高层的特征信息通过上采样的方式进行传递融合,将20×20特征图进行上采样得到40×40特征图,再与(2-2)中特征提取网络所得40×40特征图进行融合,将融合所得40×40特征图进行上采样得到80×80特征图,与(2)中特征提取网络所得80×80特征图进行融合得到融合的80×80特征图,然后通过路径聚集网络将融合所得80×80特征图进行下采样得到40×40特征图,并与特征金字塔中经过融合所得到的40×40特征图进行融合,再将融合所得40×40特征图进行下采样得到的20×20特征图与(2-3)中经过SPP模块处理所得20×20特征图进行融合得到融合的20×20特征图;通过两种网络结构结合,最终得到同时具备强语义特征和强定位特征的20×20、40×40、80×80三个不同尺度的检测层,实现不同大小目标类别和位置的预测
(4)优化损失函数,使用Varifocal Loss作为检测物体的置信度和类别概率的损失函数,实现多尺度检测,得到不同的预测框;
步骤(4)的具体实现方式如下;
损失函数Varifocal Loss的计算公式如下:
其中p是预测的分类得分,q为目标分数,γ为常数;Varifocal Loss非对称地处理正负样本,只对负样本进行pγ的衰减,并对正样本使用q进行加权,使得训练可以聚焦在质量高的样本上,同时使用权重因子α对负样本进行加权,平衡总体的正负样本;
(5)对(4)所得预测框进行非极大值抑制处理,通过基于DIoU的非极大值抑制对预测框进行筛选,消除置信度低的预测框,得到精确度更高的预测框;
(6)使用FLIR红外图像数据集对(2)-(5)中的整体网络结构进行训练,使用训练得到的整体网络结构进行检测,得到测试结果。
2.如权利要求1所述的一种复杂场景下的红外目标检测方法,其特征在于:步骤(1)的具体实现方式如下;
(1-1)对输入红外图像预处理,对图像进行自适应缩放,统一缩放为640×640的尺寸;
(1-2)对缩放后的图像进行数据增强,每4张图片通过随机缩放、裁剪、排布的方式进行拼接,丰富检测数据集,提升小目标的检测效果。
3.如权利要求1所述的一种复杂场景下的红外目标检测方法,其特征在于:步骤(5)的具体实现方式如下;
DIoU的计算公式为:
其中IoU为预测框P与Q的交并比,计算公式为:
d表示两个预测框中心点之间的距离,c表示同时包含两个预测框的最小框的对角线长度,对于得分最高的预测框M,将DIoU-NMS的公式定义为:
其中si是分类得分,ε是NMS的阈值,RDIoU表示的是得分最高的预测框M与预测框Bi中心点之间距离的关系,用下面的公式表示:
通过同时考虑IoU和两个预测框的中心点之间的距离来删除冗余的预测框,将得分最高的预测框M和其他框Bi的DIoU值与NMS的阈值进行比较,如果较小则保持得分si,否则当DIoU值大于阈值时将si值设为0,即被过滤掉。
4.如权利要求1所述的一种复杂场景下的红外目标检测方法,其特征在于:采用随机梯度下降SGD优化器对整体网络结构参数进行迭代更新训练,利用训练得到的整体网络结构进行测试得到检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210207336.XA CN114898105B (zh) | 2022-03-04 | 2022-03-04 | 一种复杂场景下的红外目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210207336.XA CN114898105B (zh) | 2022-03-04 | 2022-03-04 | 一种复杂场景下的红外目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898105A CN114898105A (zh) | 2022-08-12 |
CN114898105B true CN114898105B (zh) | 2024-04-19 |
Family
ID=82714652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210207336.XA Active CN114898105B (zh) | 2022-03-04 | 2022-03-04 | 一种复杂场景下的红外目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898105B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949633A (zh) * | 2021-03-05 | 2021-06-11 | 中国科学院光电技术研究所 | 一种基于改进YOLOv3的红外目标检测方法 |
CN113076871A (zh) * | 2021-04-01 | 2021-07-06 | 华南理工大学 | 一种基于目标遮挡补偿的鱼群自动检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN113902965A (zh) * | 2021-09-30 | 2022-01-07 | 重庆邮电大学 | 一种基于多层特征融合的多光谱行人检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055574B2 (en) * | 2018-11-20 | 2021-07-06 | Xidian University | Feature fusion and dense connection-based method for infrared plane object detection |
-
2022
- 2022-03-04 CN CN202210207336.XA patent/CN114898105B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN112949633A (zh) * | 2021-03-05 | 2021-06-11 | 中国科学院光电技术研究所 | 一种基于改进YOLOv3的红外目标检测方法 |
CN113076871A (zh) * | 2021-04-01 | 2021-07-06 | 华南理工大学 | 一种基于目标遮挡补偿的鱼群自动检测方法 |
CN113902965A (zh) * | 2021-09-30 | 2022-01-07 | 重庆邮电大学 | 一种基于多层特征融合的多光谱行人检测方法 |
Non-Patent Citations (3)
Title |
---|
聂鑫 ; 刘文 ; 吴巍 ; .复杂场景下基于增强YOLOv3的船舶目标检测.计算机应用.2020,(09),全文. * |
赵斌 ; 王春平 ; 付强 ; 陈一超 ; .基于深度注意力机制的多尺度红外行人检测.光学学报.2020,(05),全文. * |
高效检测复杂场景的快速金字塔网络SPNet;李鑫泽;张轩雄;陈胜;;中国图象图形学报;20200516(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114898105A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956094A (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN111814621A (zh) | 一种基于注意力机制的多尺度车辆行人检测方法及装置 | |
CN114330529A (zh) | 一种基于改进YOLOv4的遮挡行人实时检测方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN111339917B (zh) | 一种真实场景下玻璃检测的方法 | |
US8520955B2 (en) | Object detection apparatus and method | |
CN112819837B (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN102385592A (zh) | 图像概念的检测方法和装置 | |
CN112488229A (zh) | 一种基于特征分离和对齐的域自适应无监督目标检测方法 | |
CN111986164A (zh) | 一种基于多源Unet+Attention网络迁移的道路裂缝检测方法 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
Xiang et al. | License plate detection based on fully convolutional networks | |
CN116416503A (zh) | 一种基于多模态融合的小样本目标检测方法、系统及介质 | |
CN111881984A (zh) | 一种基于深度学习的目标检测方法和装置 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
CN114639067A (zh) | 一种基于注意力机制的多尺度全场景监控目标检测方法 | |
CN114898105B (zh) | 一种复杂场景下的红外目标检测方法 | |
CN116363532A (zh) | 基于注意力机制和重参数化的无人机图像交通目标检测方法 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
CN116385876A (zh) | 基于yolox的光学遥感影像地物检测方法 | |
Qu et al. | Method of feature pyramid and attention enhancement network for pavement crack detection | |
CN113269734B (zh) | 一种基于元学习特征融合策略的肿瘤图像检测方法及装置 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN115205518A (zh) | 一种基于YOLO v5s网络结构的目标检测方法及其系统 | |
CN115100428A (zh) | 一种利用上下文感知的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |