CN111414882A - 一种基于多级分辨率平衡网络的红外目标检测方法 - Google Patents
一种基于多级分辨率平衡网络的红外目标检测方法 Download PDFInfo
- Publication number
- CN111414882A CN111414882A CN202010228602.8A CN202010228602A CN111414882A CN 111414882 A CN111414882 A CN 111414882A CN 202010228602 A CN202010228602 A CN 202010228602A CN 111414882 A CN111414882 A CN 111414882A
- Authority
- CN
- China
- Prior art keywords
- size
- processing
- feature
- convolution
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开基于多级分辨率平衡网络的红外目标检测方法,包括步骤:特征转换网络通过卷积操作将基础特征提取网络所输出的一个级别的单分辨率输入特征图像转换为4个级别的多分辨率输出特征图像;多级分辨率网络对4个级别的多分辨率输出特征图像处理,输出4个级别的多分辨率特征图像;多分辨率网络包括先后连接的4个处理阶段,每个处理阶段包括由若干个多路径残差模块组成4个级别的多分辨率特征提取网络,以及用于聚合多路径残差处理模块输出的不同级别的特征图像后输出的多分辨率融合模块;检测器头对输入的具有5个分辨率的金字塔特征图像内的目标物体进行类别预测和边界框预测。本发明能提高红外目标检测的准确度。
Description
技术领域
本发明涉及目标检测技术领域,特别是涉及一种基于多级分辨率平衡网络的红外目标检测方法。
背景技术
为了使计算机能够理解周围环境或者与周围环境交互,自动识别并定位图像和视频中的目标就显得非常重要。目标检测是计算机视觉领域应用最广的技术之一,广泛应用于自动驾驶,人脸检测,车辆检测,行人检测,医疗影像,理解航拍图像,监控等领域。目标检测的任务是让系统自动识别出给定图像和视频中的物体,并将其定位,例如用方框标记物体的边界。目前大多数目标检测方法都是针对普通图像进行的,但对于红外图像的检测效果并不好,因此,急需一种专门针对红外图像的目标检测方法。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于多级分辨率平衡网络的红外目标检测方法,其利用多级分辨率网络,在损失函数中加入多级分辨率网络的不同分辨率特征图像之间的互信息,同时提供一种梯度更加平衡的定位损失函数,有效解决定位损失函数梯度不平衡的问题,提高红外目标检测的准确度。
为实现本发明的目的所采用的技术方案是:
一种基于多级分辨率平衡网络的红外目标检测方法,包括以下步骤:
特征转换网络通过卷积操作将基础特征提取网络所输出的一个级别的单分辨率输入特征图像转换为4个级别的多分辨率输出特征图像,每个级别的输出特征图像对应一个分辨率;
多级分辨率网络对上述4个级别的多分辨率输出特征图像处理,输出4个级别的多分辨率特征图像;多分辨率网络包括先后连接的4个处理阶段,每个处理阶段包括由若干个多路径残差模块组成4个级别的多分辨率特征提取网络,以及用于聚合多路径残差处理模块输出的不同级别的特征图像后输出的多分辨率融合模块;
检测器头对输入的具有N+1个分辨率的金字塔特征图像内的目标物体进行类别预测和边界框预测;
其中,总目标损失函数为
式中,β是一个是常数权重因子,LMI是多级分辨率网络输出的最大分辨率的特征图像与其它各分辨率的特征图像之间的互信息之和,zi为一个批量输入图像内某一图像的多级分辨率网络输出的最大分辨率特征图像外的某个分辨率的特征图像,z1为与zi同一图像的多级分辨率网络输出的最大分辨率特征图像,z′i为该批量输入图像内其它输入图像的多级分辨率网络输出的同分辨率特征图像,Dw表示额外的深度网络,p(zi)为zi的分布函数,p(z1)为z1的分布函数,p(z′i)为z′i的分布函数,E表示期望,x,y,w,h分别为预测边界框的坐标、宽和高,为定位损失函数。
本发明通过利用多级分辨率网络,使高分辨率的特征图像与较低分辨率的特征图像在网络中并行存在,同时为了使多级分辨率网络中不同分辨率的特征图像更加平衡,将不同分辨率特征图像之间的互信息加入目标损失函数中,同时提供一种梯度更加平衡的定位损失函数,有效解决定位损失函数梯度不平衡的问题,提高红外目标检测的准确度。
附图说明
图1为本发明的基于多级分辨率平衡网络的红外目标检测方法的网络结构示意图;
图2为基础特征提取网络的结构示意图;
图3为瓶颈残差模块a的结构示意图;
图4为瓶颈残差模块b的结构示意图;
图5为特征转换网络的结构示意图;
图6为多级分辨率网络的结构示意图;
图7为多级分辨率网络的阶段一的结构示意图;
图8为多级分辨率网络的阶段二的结构示意图;
图9为多级分辨率网络的阶段三的结构示意图;
图10为多级分辨率网络的阶段四的结构示意图;
图11为多路径残差模块的结构示意图;
图12为多分辨率融合模块的结构示意图;
图13为特征金字塔网络的结构示意图;
图14为多级特征通道拼接模块的结构示意图;
图15为整合模块的结构示意图;
图16为检测器头的结构示意图;
图17为梯度图像的示意图;
图18为定位损失函数的图像示意图;
图19为用于估计互信息的额外网络的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中,对相应的概念或术语说明如下:
1×1卷积:卷积核大小为1×1、步长为1的卷积操作。
3×3_2卷积:卷积核大小为3×3、步长为2的卷积操作。
3×3卷积:卷积核大小为3×3、步长为1的卷积操作。
BN:批量归一化处理。
ReLU:修正线性单元,一种常用的非线性神经网络激活函数,增强神经网络的非线性。
Sigmoid:一种常用的S型神经网络激活函数。
像素级相加:具有相同大小的多个特征图像上对应相同位置的像素值进行相加,输出相同大小的特征图像。
如图1所示,本发明基于多级分辨率平衡网络的红外目标检测方法,包括步骤:
11、输入图像大小为800*800*3,用图中箭头边上的800*800*3表示,本发明所有图中的箭头旁边的类似X*X*X为对应操作输出的特征图像的大小,分别表示特征图像的宽、高和通道数。
12、将输入图像先后进行两次卷积核数量为64的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像大小为200*200*64。
13、基础特征提取网络由两种瓶颈残差模块组成,如图2所示,初步提取图像的特征,输出特征图像大小为200*200*256。
14、特征转换网络通过一系列卷积操作将一个级别的单分辨率输入特征图像转换为四个级别的多分辨率输出特征图像,每个级别的输出特征图像对应一个分辨率,多个级别的输出特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024,具体结构示意图如图5所示。
15、多级分辨率网络由四个阶段前后连接组成,每个阶段首先由若干个多路径残差模块组成四个级别的多分辨率特征提取网络,然后通过多分辨率融合模块聚合不同级别的特征图像,最后输出四个级别的多分辨率特征图像,多级分辨率网络的结构示意图如图6所示。
16、特征金字塔网络生成用于检测的具有5个分辨率的金字塔特征图像,图像大小分别为100*100*256、50*50*256、25*25*256、13*13*256和7*7*256。特征金字塔网络的结构示意图如图13所示。
17、检测器头对输入的金字塔特征图像内的目标物体进行类别预测和边界框预测,结构示意图如图16所示。
图2是基础特征提取网络的结构示意图,基础特征提取网络由两个瓶颈残差模块a(21和22)和两个瓶颈残差模块b(23和24)组成。瓶颈残差模块a的结构示意图如图3所示,瓶颈残差模块b的结构示意图如图4所示,具体说明如下:
21、将输入特征图像(大小为200*200*64)进行瓶颈残差模块a处理,输出特征图像的大小为200*200*128;
22、将21输出的特征图像进行瓶颈残差模块b处理,输出特征图像的大小为200*200*128;
23、将22输出的特征图像进行瓶颈残差模块a处理,输出特征图像的大小为200*200*256;
24、将23输出的特征图像进行瓶颈残差模块b处理,输出特征图像的大小为200*200*256。
图3是瓶颈残差模块a的结构示意图,具体说明如下:
31、将输入特征图像(大小为N*N*C)先后进行两次卷积核数量为C/2的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为2C的1×1卷积处理和批量归一化处理,输出特征图像的大小为N*N*2C。
32、将输入特征图像(大小为N*N*C)进行卷积核数量为2C的1×1卷积处理和批量归一化处理,输出特征图像大小为N*N*2C。
33、将31的输出特征图像与32的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小为N*N*2C。
图4是瓶颈残差模块b的结构示意图,具体说明如下:
41、将输入特征图像(大小为N*N*C)先后进行两次卷积核数量为C/4的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为C的1×1卷积处理和批量归一化处理,输出特征图像大小为N*N*C。
42、将输入特征图像与41的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小N*N*C。
图5是特征转换网络的结构示意图,将输入的单通道特征图像转换为4个通道的特征图像,具体说明如下:
51、将输入特征图像(大小为200*200*256)进行一次卷积核数量为128的3×3卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为200*200*128。
52、将输入特征图像(大小为200*200*256)进行一次卷积核数量为256的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为100*100*256。
53、将输入特征图像(大小为200*200*256)进行两次卷积核数量为512的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为50*50*512。
54、将输入特征图像(大小为200*200*256)进行三次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为25*25*1024。
本发明中,将多路径残差模块作为基本残差模块,建立多个级别并行的多级分辨率网络,每个级别的特征图像具有不同的分辨率。利用基础特征提取网络初步提取图像的特征,通过特征转换网络同时生成多个分辨率的特征图像,形成多级分辨率网络;多级分辨率网络由四个阶段组成,每个阶段首先由若干个多路径残差模块组成四个级别的多分辨率特征提取网络(第一、二、三、四阶段的每个通道分别由3、4、6、3个多路径残差模块组成),然后通过多分辨率融合模块聚合不同级别的特征图像,最后输出四个级别的多分辨率特征图像。
图6是多级分辨率网络的结构示意图,由阶段一(61)、阶段二(62)、阶段三(63)和阶段四(64)前后连接组成,每个阶段首先由若干个多路径残差模块组成四个级别的多分辨率特征提取网络,然后通过多分辨率融合模块聚合不同级别的特征图像,最后输出四个级别的多分辨率特征图像。阶段一、二、三和四的结构示意图分别如图7、8、9和10所示。
图7是阶段一的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
71、将大小为200*200*128的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为200*200*128;
72、将大小为100*100*256的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为100*100*256;
73、将大小为50*50*512的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为50*50*512;
74、将大小为25*25*1024的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为25*25*1024;
75、将71、72、73和74的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图8是阶段二的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
81、将大小为200*200*128的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为200*200*128;
82、将大小为100*100*256的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为100*100*256;
83、将大小为50*50*512的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为50*50*512;
84、将大小为25*25*1024的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为25*25*1024;
85、将81、82、83和84的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图9是阶段三的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
91、将大小为200*200*128的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为200*200*128;
92、将大小为100*100*256的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为100*100*256;
93、将大小为50*50*512的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为50*50*512;
94、将大小为25*25*1024的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为25*25*1024;
95、将91、92、93和94的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图10是阶段四的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
101、将大小为200*200*128的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为200*200*128;
102、将大小为100*100*256的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为100*100*256;
103、将大小为50*50*512的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为50*50*512;
104、将大小为25*25*1024的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为25*25*1024;
105、将101、102、103和104的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图11是多路径残差模块的结构示意图,具体说明如下:
111、将输入特征图像(大小为N*N*C)经过32个并行的路径,每个路径分别对输入特征图像进行1次卷积核数量为C/64的1×1卷积处理、批量归一化处理和ReLU激活函数处理,1次卷积核数量为C/64的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及1次卷积核数量为C的1×1卷积处理和批量归一化处理,每个路径输出的特征图像大小均为N*N*C,最后对所有并行路径输出的特征图像进行像素级相加,输出特征图像大小为N*N*C;
112、将输入特征图像与111的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小N*N*C。
图12是多分辨率融合模块的结构示意图,多分辨率融合模块融合四个级别的输入特征图像,增强高分辨率特征图像的语义信息,提高低分辨率特征图像的目标位置信息。具体说明如下:
121、第一个级别的融合过程。
(a)将大小为100*100*256的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为200*200*128。
(b)将大小为50*50*512的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为200*200*128。
(c)将大小为25*25*1024的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和8倍最近邻上采样处理,输出特征图像大小为200*200*128。
(d)将大小为200*200*128的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小200*200*128。
122、第二个级别的融合过程。
(a)将大小为200*200*128的输入特征图像先后进行卷积核数量为256的3×3_2卷积处理和批量归一化处理,输出特征图像大小为100*100*256。
(b)将大小为50*50*512的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为100*100*256。
(c)将大小为25*25*1024的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为100*100*256。
(d)将大小为100*100*256的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小100*100*256。
123、第三个级别的融合过程。
(a)将大小为200*200*128的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512。
(b)将大小为100*100*256的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512。
(c)将大小为25*25*1024的输入特征图像先后进行卷积核数量为512的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为50*50*512。
(d)将大小为50*50*512的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小50*50*512。
124、第四个级别的融合过程。
(a)将大小为200*200*128的输入特征图像先后进行两次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024。
(b)将大小为100*100*256的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024。
(c)将大小为50*50*512的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024。
(d)将大小为25*25*1024的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小25*25*1024。
本发明中,在多级分辨率网络输出多分辨率特征图像后,首先通过多级特征通道拼接模块在多个级别上分别拼接多级分辨率网络输出的多分辨率特征图像,然后利用几个全连接层组成的整合模块加强特征图像的不同通道之间的关联,最后采用一系列卷积操作生成用于检测的金字塔特征图像。
图13是特征金字塔网络的结构示意图,特征金字塔网络生成用于检测的包含5个级别的金字塔特征图像,具体说明如下:
131、多级特征通道拼接模块首先将输入的4个级别的特征图像(大小分别为200*200*128、100*100*256、50*50*512和25*25*1024)转换成与其它级别特征图像大小相同的特征图像,此时每个分辨率都有4个不同的特征图像,将具有相同分辨率的特征图像在图像通道上进行拼接,拼接后每个级别的输出特征图像的通道数都是1920,其大小分别为200*200*1920、100*100*1920、50*50*1920和25*25*1920。多级特征通道拼接模块的结构示意图如图12所示。
132、整合模块通过建立全连接层加强每个级别的特征图像内部不同通道之间的联系,不改变特征图像的大小,具体的结构示意图如图13所示。
133、各个级别的特征图像分别通过卷积核大小为256的1×1卷积处理将通道数降低到256,输出特征图像的大小分别为200*200*256、100*100*256、50*50*256和25*25*256。
134、各个级别的特征图像分别通过卷积核大小为256的3×3_2卷积处理将图像宽和高减小到原来的1/2,输出特征图像的大小分别为100*100*256、50*50*256、25*25*256和13*13*256。
135、将113中大小为25*25*256的输出特征图像通过1/2平均池化下采样处理和3×3_2卷积处理将特征图像的宽和高减小到原来的1/4,输出特征图像的大小为7*7*256,与134输出的4个级别的特征图像组成用于检测的金字塔特征图像。
图14是多级特征通道拼接模块的结构示意图,具体说明如下:
141、第一个级别的特征通道拼接过程。
a)将大小为100*100*256的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为200*200*256。
b)将大小为50*50*512的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为200*200*512。
c)将大小为25*25*1024的输入特征图像进行8倍线性插值上采样处理,输出特征图像大小为200*200*1024。
d)将大小为200*200*128的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为200*200*1920。
142、第二个级别的特征通道拼接过程。
a)将大小为200*200*128的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为100*100*128。
b)将大小为50*50*512的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为100*100*512。
c)将大小为25*25*1024的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为100*100*1024。
d)将将大小为100*100*256的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为100*100*1920。
143、第三个级别的特征通道拼接过程。
a)将大小为200*200*128的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为50*50*128。
b)将大小为100*100*256的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为50*50*256。
c)将大小为25*25*1024的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为50*50*1024。
d)将将大小为50*50*512的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为50*50*1920。
144、第四个级别的特征通道拼接过程。
a)将大小为200*200*128的输入特征图像进行1/8平均池化下采样处理,输出特征图像大小为25*25*128。
b)将大小为100*100*256的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为25*25*256。
c)将大小为50*50*512的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为25*25*512。
d)将将大小为25*25*1024的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为25*25*1920。
图15是整合模块的结构示意图,具体说明如下:
151、将输入特征图像(大小为N*N*1920)进行全局平均池化处理,输出特征图像大小为1*1*1920;在此后面接一个具有120个神经元的全连接层,并进行ReLU激活函数处理,输出特征图像大小为1*1*120;在此后面接一个具有1920个神经元的全连接层,并进行Sigmoid激活函数处理,输出特征图像大小为1*1*1920。
152、整合过程将步骤151输出的特征图像中各通道的像素值与的输入特征图像中对应通道上的所有像素值分别相乘,输出特征图像大小为N*N*1920。
图16是检测器头的结构示意图,由边界框预测和类别预测两个通道组成,每个通道的输入特征图像先进行4次卷积核个数为256的3×3卷积加BN处理,最后再进行一次3×3卷积处理。对于类别预测部分,最后一次卷积处理的卷积核个数为4A,其中A为预定锚框的个数;对于边界框预测部分,最后一次卷积处理的卷积核个数为KA,其中K为总类别的个数,A为预定锚框的个数。
其中,为有效解决定位损失函数梯度不平衡的问题,提高红外目标检测的准确度,本发明提出一种更加平衡的定位损失函数,将其用于目标损失函数。
常见的目标损失函数公式如下
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu-v) (1)
等号右边前一部分表示分类损失函数,后一部分表示定位损失函数。p是预测的类别,u是真实的类别标签,tu是边界框的预测值,v是边界框的真实标注值,λ是常数权重因子。将定位误差大于1.0的样本称为困难样本,定位误差小于1.0的样本称为简单样本。
定位损失函数的展开形式如下
定位损失函数关于网络参数权重的梯度为
式中w为网络参数权,定位损失函数关于参数权重的梯度正比于Lb关于定位回归误差的梯度。
由图15中可以看出,对于smooth L1 loss,困难样本的梯度值远大小简单样本的梯度值,造成了梯度的不平衡,为此本发明提出一种更加平衡的定位损失函数。
设计一个梯度函数,增加简单样本的梯度值,设计函数如下
γ,b满足如下约束,b=γ,梯度图像如图17所示。从图中可以看出,该函数能够显著提高简单样本的梯度值,使简单样本的梯度值和困难样本的梯度值之间更加平衡,同时改变α的大小可以调节梯度增加的幅度,以适应更加复杂的情况。
对梯度公式积分得到定位损失函数的具体形式,如下
γ,b,C满足如下约束
b=γ
定位损失函数的图像如图18所示。
因此,本发明设计的更加平衡的定位损失函数为
此时,总目标损失函数为
特别是,本发明在前面第3点改进之后的目标损失函数(公式9)基础上增加多级分辨率网络输出的最大分辨率的特征图像与其它各分辨率的特征图像之间的互信息之和LMI。采用额外的深度网络(如图19所示)来估计并最大化互信息,以使多级特征图像之间特征信息的相似度最大。在计算互信息时将多级分辨率网络输出的最大分辨率的特征图像与其它某一分辨率的特征图像输入额外的深度网络,根据以下公式计算互信息。
其中,zi为一个小批量输入图像内某一图像的多级分辨率网络输出的某个分辨率的特征图像(最大分辨率特征图像除外),z1为与zi同一图像的多级分辨率网络输出的最大分辨率特征图像,z′i为该批量输入图像内其它输入图像的多级分辨率网络输出的同分辨率特征图像,Dw表示额外的深度网络(如图19所示,具体说明在最后的网络结构说明中),p(zi)为zi的分布函数,p(z1)为z1的分布函数,E表示期望。另外有
p(z1)=∫p(z1|zi)p(zi)dzi (11)
其中,∫dzi表示对zi进行积分。
此时总目标损失函数为
其中,β是一个是常数权重因子。
图19是用于估计互信息的额外网络的结构示意图,具体说明如下:
191、将多级分辨率网络输出的非最大分辨率特征图像(zi或者z′i)作为输入特征图像(假设大小为N*N*C),进行线性插值上采样处理,使其与多级分辨率网络输出的最大分辨率特征图像(z1)的尺度一致(200*200),输出特征图像大小为200*200*C。
192、将191输出的特征图像与多级分辨率网络输出的最大分辨率特征图像(z1)在通道维度上进行拼接,输出特征图像大小为200*200*(128+C)。
193、将192输出的特征图像进行卷积核数量为512的3×3卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
194、将193输出的特征图像进行卷积核数量为512的1×1卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
195、将194输出的特征图像进行卷积核数量为512的3×3卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
196、将195输出的特征图像进行卷积核数量为512的1×1卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
197、将196输出的特征图像进行卷积核数量为1的1×1卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*1。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于多级分辨率平衡网络的红外目标检测方法,其特征在于,包括步骤:
特征转换网络通过卷积操作将基础特征提取网络所输出的一个级别的单分辨率输入特征图像转换为4个级别的多分辨率输出特征图像,每个级别的输出特征图像对应一个分辨率;
多级分辨率网络对上述4个级别的多分辨率输出特征图像处理,输出4个级别的多分辨率特征图像;多分辨率网络包括先后连接的4个处理阶段,每个处理阶段包括由若干个多路径残差模块组成4个级别的多分辨率特征提取网络,以及用于聚合多路径残差处理模块输出的不同级别的特征图像后输出的多分辨率融合模块;
检测器头对输入的具有5个分辨率的金字塔特征图像内的目标物体进行类别预测和边界框预测;
其中,总目标损失函数为
2.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述基础特征提取网络包括两个瓶颈残差模块a和两个瓶颈残差模块b,按瓶颈残差模块a-瓶颈残差模块b-瓶颈残差模块a-瓶颈残差模块b的顺序连接;
所述瓶颈残差模块a包括:
第一处理模块,用于将大小为N*N*C的特征图像先后进行两次卷积核数量为C/2的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为2C的1×1卷积处理和批量归一化处理,输出大小为N*N*2C的特征图像;
第二处理模块,用于将输入特征图像N*N*C进行卷积核数量为2C的1×1卷积处理和批量归一化处理,输出大小为N*N*2C的特征图像;
第三处理模块,用于将第一处理模块的输出特征图像与第二处理模块的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出大小为N*N*2C的特征图像;
所述瓶颈残差模块b,包括:
第一模块,用于将大小为N*N*C的输入特征图像先后进行两次卷积核数量为C/4的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为C的1×1卷积处理和批量归一化处理,输出大小为N*N*C的特征图像。
第二模块,用于将输入特征图像与第四处理模块的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出大小为N*N*C的特征图像。
3.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述特征转换网络包括:
第一处理单元,用于将大小为200*200*256的输入特征图像进行一次卷积核数量为128的3×3卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为200*200*128;
第二处理单元,用于将大小为200*200*256的输入特征图像进行一次卷积核数量为256的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为100*100*256;
第三处理单元,用于将大小为200*200*256的输入特征图像进行两次卷积核数量为512的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为50*50*512;
第四处理单元,用于将大小为200*200*256的输入特征图像进行三次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为25*25*1024。
4.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,多分辨率网络的每个处理阶段所包含的4个级别的多分辨率特征提取网络,分别由相同数量的多路径残差模块组成,各个处理阶段包含的多路径残差模块的数量不同;其中,第一处理阶段、第二处理阶段、第三处理阶段、第四处理阶段的多路径残差模块分别为3、4、6、3个。
5.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,每个所述多路径残差模块包括32个并行的路径,每个路径分别对输入特征图像进行1次卷积核数量为C/64的1×1卷积处理、批量归一化处理和ReLU激活函数处理,1次卷积核数量为C/64的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及1次卷积核数量为C的1×1卷积处理和批量归一化处理,最对所有并行路径输出的特征图像像素级相加,然后与输入特征图像再像素级相加,之后ReLU激活函数处理,最后输出特征图像。
6.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述多分辨率融合模块融合四个级别的输入特征图像,增强高分辨率特征图像的语义信息,提高低分辨率特征图像的目标位置信息,进行四个级别的融合,其中,融合过程包括:
第一个级别的融合过程
a1.将大小为100*100*256的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为200*200*128;
b1.将大小为50*50*512的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为200*200*128;
c1.将大小为25*25*1024的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和8倍最近邻上采样处理,输出特征图像大小为200*200*128;
d1.将大小为200*200*128的输入特征图像与步骤a1、b1和c1的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小200*200*128;
第二个级别的融合过程
a2.将大小为200*200*128的输入特征图像先后进行卷积核数量为256的3×3_2卷积处理和批量归一化处理,输出特征图像大小为100*100*256;
b2.将大小为50*50*512的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为100*100*256;
c2.将大小为25*25*1024的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为100*100*256;
d2.将大小为100*100*256的输入特征图像与步骤a2、b2和c2的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小100*100*256;
第三个级别的融合过程
a3.将大小为200*200*128的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512;
b3.将大小为100*100*256的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512;
c3.将大小为25*25*1024的输入特征图像先后进行卷积核数量为512的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为50*50*512;
d3.将大小为50*50*512的输入特征图像与步骤a3、b3和c3的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小50*50*512;
第四个级别的融合过程
a4.将大小为200*200*128的输入特征图像先后进行两次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024;
b4.将大小为100*100*256的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024;
c4.将大小为50*50*512的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024;
d4.将大小为25*25*1024的输入特征图像与步骤a4、b4和c4的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小25*25*1024。
7.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述金字塔特征图像由特征金字塔网络生成,所述特征金字塔网络通过多级特征通道拼接模块在4个级别上分别拼接多级分辨率网络输出的多分辨率特征图像,然后利用全连接层组成的4个整合模块加强特征图像不同通道间的关联,最后采用一系列卷积操作生成用于检测的金字塔特征图像。
8.根据权利要求7所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述的多级特征通道拼接模块的拼接过程如下:
第一个级别的特征通道拼接过程
A1将大小为100*100*256的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为200*200*256;
B1将大小为50*50*512的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为200*200*512;
C1将大小为25*25*1024的输入特征图像进行8倍线性插值上采样处理,输出特征图像大小为200*200*1024。
D1将大小为200*200*128的输入特征图像与步骤A1、B1、C1输出的特征图像在通道维度上进行拼接,输出特征图像大小为200*200*1920;
142、第二个级别的特征通道拼接过程。
A2将大小为200*200*128的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为100*100*128;
B2将大小为50*50*512的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为100*100*512;
C2将大小为25*25*1024的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为100*100*1024;
D2将将大小为100*100*256的输入特征图像与步骤A2、B3、C2输出的特征图像在通道维度上进行拼接,输出特征图像大小为100*100*1920;
第三个级别的特征通道拼接过程
A3将大小为200*200*128的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为50*50*128;
B3将大小为100*100*256的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为50*50*256;
C3将大小为25*25*1024的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为50*50*1024;
D3将将大小为50*50*512的输入特征图像与步骤A3、B3、C3输出的特征图像在通道维度上进行拼接,输出特征图像大小为50*50*1920;
第四个级别的特征通道拼接过程
A4将大小为200*200*128的输入特征图像进行1/8平均池化下采样处理,输出特征图像大小为25*25*128;
B4将大小为100*100*256的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为25*25*256;
C4将大小为50*50*512的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为25*25*512;
D4将将大小为25*25*1024的输入特征图像与步骤A4、B4、C4输出的特征图像在通道维度上进行拼接,输出特征图像大小为25*25*1920。
9.根据权利要求7所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述整合模块的处理过程如下:
将大小为N*N*1920的输入特征图像进行全局平均池化处理,输出大小为1*1*1920的特征图像,在此后面接一个具有120个神经元的全连接层,并进行ReLU激活函数处理,输出大小为1*1*120的特征图像;在此后面接一个具有1920个神经元的全连接层,并进行Sigmoid激活函数处理,输出大小为1*1*1920的特征图像;
将上一步输出的大小为1*1*1920的特征图像中各通道的像素值与的输入特征图像中对应通道上的所有像素值分别相乘,输出特征图像,大小为N*N*1920。
10.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述检测器头由边界框预测和类别预测两个通道组成,每个通道的输入特征图像先进行4次卷积核个数为256的3×3卷积加BN处理,最后再进行一次3×3卷积处理。对于类别预测部分,最后一次卷积处理的卷积核个数为4A,其中A为预定锚框的个数;对于边界框预测部分,最后一次卷积处理的卷积核个数为KA,其中K为总类别的个数,A为预定锚框的个数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911080623 | 2019-11-07 | ||
CN2019110806233 | 2019-11-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414882A true CN111414882A (zh) | 2020-07-14 |
CN111414882B CN111414882B (zh) | 2023-04-28 |
Family
ID=71491526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010228602.8A Active CN111414882B (zh) | 2019-11-07 | 2020-03-27 | 一种基于多级分辨率平衡网络的红外目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414882B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077418A (zh) * | 2021-03-18 | 2021-07-06 | 心医国际数字医疗系统(大连)有限公司 | 基于卷积神经网络的ct影像骨骼分割方法及装置 |
CN115965829A (zh) * | 2022-11-24 | 2023-04-14 | 阿里巴巴(中国)有限公司 | 对象检测模型训练方法以及对象检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030228064A1 (en) * | 2002-06-06 | 2003-12-11 | Eastman Kodak Company | Multiresolution method of spatially filtering a digital image |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN109061658A (zh) * | 2018-06-06 | 2018-12-21 | 天津大学 | 激光雷达数据融方法 |
CN109272452A (zh) * | 2018-08-30 | 2019-01-25 | 北京大学 | 小波域中基于集团结构子带共同学习超分辨率网络的方法 |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
-
2020
- 2020-03-27 CN CN202010228602.8A patent/CN111414882B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030228064A1 (en) * | 2002-06-06 | 2003-12-11 | Eastman Kodak Company | Multiresolution method of spatially filtering a digital image |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN109061658A (zh) * | 2018-06-06 | 2018-12-21 | 天津大学 | 激光雷达数据融方法 |
CN109272452A (zh) * | 2018-08-30 | 2019-01-25 | 北京大学 | 小波域中基于集团结构子带共同学习超分辨率网络的方法 |
Non-Patent Citations (4)
Title |
---|
YANFEI ZHONG等: "Multi-class geospatial object detection based on a position-sensitive balancing framework for high spatial resolution remote sensing imagery" * |
孙超等: "基于迁移学习的红外图像超分辨率方法研究" * |
徐敏等: "基于长线列探测器的图像非均匀性研究与校正" * |
王一宁等: "基于残差神经网络的图像超分辨率改进算法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077418A (zh) * | 2021-03-18 | 2021-07-06 | 心医国际数字医疗系统(大连)有限公司 | 基于卷积神经网络的ct影像骨骼分割方法及装置 |
CN115965829A (zh) * | 2022-11-24 | 2023-04-14 | 阿里巴巴(中国)有限公司 | 对象检测模型训练方法以及对象检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111414882B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
WO2022111355A1 (zh) | 车牌识别方法及装置、存储介质、终端 | |
CN110648334A (zh) | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 | |
CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
US10304009B1 (en) | Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same | |
CN110717851A (zh) | 图像处理方法及装置、神经网络的训练方法、存储介质 | |
US9870600B2 (en) | Raw sensor image and video de-hazing and atmospheric light analysis methods and systems | |
CN110322400B (zh) | 图像处理方法及装置、图像处理系统及其训练方法 | |
CN113591795A (zh) | 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
CN110555877B (zh) | 一种图像处理方法、装置及设备、可读介质 | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN111414882A (zh) | 一种基于多级分辨率平衡网络的红外目标检测方法 | |
CN113705788A (zh) | 基于全卷积神经网络的红外图像温度估计方法及系统 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN113449811A (zh) | 一种基于ms-wsda的低照度目标检测方法 | |
CN116188999A (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN112365451A (zh) | 图像质量等级的确定方法、装置、设备及计算机可读介质 | |
CN111179212B (zh) | 集成蒸馏策略和反卷积的微小目标检测片上实现方法 | |
Singh et al. | Semantic segmentation using deep convolutional neural network: A review | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN117058606A (zh) | 一种x射线图像违禁品检测方法 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |