CN111414882B - 一种基于多级分辨率平衡网络的红外目标检测方法 - Google Patents

一种基于多级分辨率平衡网络的红外目标检测方法 Download PDF

Info

Publication number
CN111414882B
CN111414882B CN202010228602.8A CN202010228602A CN111414882B CN 111414882 B CN111414882 B CN 111414882B CN 202010228602 A CN202010228602 A CN 202010228602A CN 111414882 B CN111414882 B CN 111414882B
Authority
CN
China
Prior art keywords
size
processing
characteristic image
convolution
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010228602.8A
Other languages
English (en)
Other versions
CN111414882A (zh
Inventor
陈瑞
刘继鑫
赵毅强
张衡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Publication of CN111414882A publication Critical patent/CN111414882A/zh
Application granted granted Critical
Publication of CN111414882B publication Critical patent/CN111414882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开基于多级分辨率平衡网络的红外目标检测方法,包括步骤:特征转换网络通过卷积操作将基础特征提取网络所输出的一个级别的单分辨率输入特征图像转换为4个级别的多分辨率输出特征图像;多级分辨率网络对4个级别的多分辨率输出特征图像处理,输出4个级别的多分辨率特征图像;多分辨率网络包括先后连接的4个处理阶段,每个处理阶段包括由若干个多路径残差模块组成4个级别的多分辨率特征提取网络,以及用于聚合多路径残差处理模块输出的不同级别的特征图像后输出的多分辨率融合模块;检测器头对输入的具有5个分辨率的金字塔特征图像内的目标物体进行类别预测和边界框预测。本发明能提高红外目标检测的准确度。

Description

一种基于多级分辨率平衡网络的红外目标检测方法
技术领域
本发明涉及目标检测技术领域,特别是涉及一种基于多级分辨率平衡网络的红外目标检测方法。
背景技术
为了使计算机能够理解周围环境或者与周围环境交互,自动识别并定位图像和视频中的目标就显得非常重要。目标检测是计算机视觉领域应用最广的技术之一,广泛应用于自动驾驶,人脸检测,车辆检测,行人检测,医疗影像,理解航拍图像,监控等领域。目标检测的任务是让系统自动识别出给定图像和视频中的物体,并将其定位,例如用方框标记物体的边界。目前大多数目标检测方法都是针对普通图像进行的,但对于红外图像的检测效果并不好,因此,急需一种专门针对红外图像的目标检测方法。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于多级分辨率平衡网络的红外目标检测方法,其利用多级分辨率网络,在损失函数中加入多级分辨率网络的不同分辨率特征图像之间的互信息,同时提供一种梯度更加平衡的定位损失函数,有效解决定位损失函数梯度不平衡的问题,提高红外目标检测的准确度。
为实现本发明的目的所采用的技术方案是:
一种基于多级分辨率平衡网络的红外目标检测方法,包括以下步骤:
特征转换网络通过卷积操作将基础特征提取网络所输出的一个级别的单分辨率输入特征图像转换为4个级别的多分辨率输出特征图像,每个级别的输出特征图像对应一个分辨率;
多级分辨率网络对上述4个级别的多分辨率输出特征图像处理,输出4个级别的多分辨率特征图像;多分辨率网络包括先后连接的4个处理阶段,每个处理阶段包括由若干个多路径残差模块组成4个级别的多分辨率特征提取网络,以及用于聚合多路径残差处理模块输出的不同级别的特征图像后输出的多分辨率融合模块;
检测器头对输入的具有N+1个分辨率的金字塔特征图像内的目标物体进行类别预测和边界框预测;
其中,总目标损失函数为
Figure BDA0002428573780000024
Figure BDA0002428573780000021
Figure BDA0002428573780000022
式中,β是一个是常数权重因子,LMI是多级分辨率网络输出的最大分辨率的特征图像与其它各分辨率的特征图像之间的互信息之和,zi为一个批量输入图像内某一图像的多级分辨率网络输出的最大分辨率特征图像外的某个分辨率的特征图像,z1为与zi同一图像的多级分辨率网络输出的最大分辨率特征图像,z′i为该批量输入图像内其它输入图像的多级分辨率网络输出的同分辨率特征图像,Dw表示额外的深度网络,p(zi)为zi的分布函数,p(z1)为z1的分布函数,p(z′i)为z′i的分布函数,E表示期望,x,y,w,h分别为预测边界框的坐标、宽和高,
Figure BDA0002428573780000023
为定位损失函数。
本发明通过利用多级分辨率网络,使高分辨率的特征图像与较低分辨率的特征图像在网络中并行存在,同时为了使多级分辨率网络中不同分辨率的特征图像更加平衡,将不同分辨率特征图像之间的互信息加入目标损失函数中,同时提供一种梯度更加平衡的定位损失函数,有效解决定位损失函数梯度不平衡的问题,提高红外目标检测的准确度。
附图说明
图1为本发明的基于多级分辨率平衡网络的红外目标检测方法的网络结构示意图;
图2为基础特征提取网络的结构示意图;
图3为瓶颈残差模块a的结构示意图;
图4为瓶颈残差模块b的结构示意图;
图5为特征转换网络的结构示意图;
图6为多级分辨率网络的结构示意图;
图7为多级分辨率网络的阶段一的结构示意图;
图8为多级分辨率网络的阶段二的结构示意图;
图9为多级分辨率网络的阶段三的结构示意图;
图10为多级分辨率网络的阶段四的结构示意图;
图11为多路径残差模块的结构示意图;
图12为多分辨率融合模块的结构示意图;
图13为特征金字塔网络的结构示意图;
图14为多级特征通道拼接模块的结构示意图;
图15为整合模块的结构示意图;
图16为检测器头的结构示意图;
图17为梯度图像的示意图;
图18为定位损失函数的图像示意图;
图19为用于估计互信息的额外网络的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中,对相应的概念或术语说明如下:
1×1卷积:卷积核大小为1×1、步长为1的卷积操作。
3×3_2卷积:卷积核大小为3×3、步长为2的卷积操作。
3×3卷积:卷积核大小为3×3、步长为1的卷积操作。
BN:批量归一化处理。
ReLU:修正线性单元,一种常用的非线性神经网络激活函数,增强神经网络的非线性。
Sigmoid:一种常用的S型神经网络激活函数。
像素级相加:具有相同大小的多个特征图像上对应相同位置的像素值进行相加,输出相同大小的特征图像。
如图1所示,本发明基于多级分辨率平衡网络的红外目标检测方法,包括步骤:
11、输入图像大小为800*800*3,用图中箭头边上的800*800*3表示,本发明所有图中的箭头旁边的类似X*X*X为对应操作输出的特征图像的大小,分别表示特征图像的宽、高和通道数。
12、将输入图像先后进行两次卷积核数量为64的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像大小为200*200*64。
13、基础特征提取网络由两种瓶颈残差模块组成,如图2所示,初步提取图像的特征,输出特征图像大小为200*200*256。
14、特征转换网络通过一系列卷积操作将一个级别的单分辨率输入特征图像转换为四个级别的多分辨率输出特征图像,每个级别的输出特征图像对应一个分辨率,多个级别的输出特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024,具体结构示意图如图5所示。
15、多级分辨率网络由四个阶段前后连接组成,每个阶段首先由若干个多路径残差模块组成四个级别的多分辨率特征提取网络,然后通过多分辨率融合模块聚合不同级别的特征图像,最后输出四个级别的多分辨率特征图像,多级分辨率网络的结构示意图如图6所示。
16、特征金字塔网络生成用于检测的具有5个分辨率的金字塔特征图像,图像大小分别为100*100*256、50*50*256、25*25*256、13*13*256和7*7*256。特征金字塔网络的结构示意图如图13所示。
17、检测器头对输入的金字塔特征图像内的目标物体进行类别预测和边界框预测,结构示意图如图16所示。
图2是基础特征提取网络的结构示意图,基础特征提取网络由两个瓶颈残差模块a(21和22)和两个瓶颈残差模块b(23和24)组成。瓶颈残差模块a的结构示意图如图3所示,瓶颈残差模块b的结构示意图如图4所示,具体说明如下:
21、将输入特征图像(大小为200*200*64)进行瓶颈残差模块a处理,输出特征图像的大小为200*200*128;
22、将21输出的特征图像进行瓶颈残差模块b处理,输出特征图像的大小为200*200*128;
23、将22输出的特征图像进行瓶颈残差模块a处理,输出特征图像的大小为200*200*256;
24、将23输出的特征图像进行瓶颈残差模块b处理,输出特征图像的大小为200*200*256。
图3是瓶颈残差模块a的结构示意图,具体说明如下:
31、将输入特征图像(大小为N*N*C)先后进行两次卷积核数量为C/2的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为2C的1×1卷积处理和批量归一化处理,输出特征图像的大小为N*N*2C。
32、将输入特征图像(大小为N*N*C)进行卷积核数量为2C的1×1卷积处理和批量归一化处理,输出特征图像大小为N*N*2C。
33、将31的输出特征图像与32的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小为N*N*2C。
图4是瓶颈残差模块b的结构示意图,具体说明如下:
41、将输入特征图像(大小为N*N*C)先后进行两次卷积核数量为C/4的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为C的1×1卷积处理和批量归一化处理,输出特征图像大小为N*N*C。
42、将输入特征图像与41的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小N*N*C。
图5是特征转换网络的结构示意图,将输入的单通道特征图像转换为4个通道的特征图像,具体说明如下:
51、将输入特征图像(大小为200*200*256)进行一次卷积核数量为128的3×3卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为200*200*128。
52、将输入特征图像(大小为200*200*256)进行一次卷积核数量为256的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为100*100*256。
53、将输入特征图像(大小为200*200*256)进行两次卷积核数量为512的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为50*50*512。
54、将输入特征图像(大小为200*200*256)进行三次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为25*25*1024。
本发明中,将多路径残差模块作为基本残差模块,建立多个级别并行的多级分辨率网络,每个级别的特征图像具有不同的分辨率。利用基础特征提取网络初步提取图像的特征,通过特征转换网络同时生成多个分辨率的特征图像,形成多级分辨率网络;多级分辨率网络由四个阶段组成,每个阶段首先由若干个多路径残差模块组成四个级别的多分辨率特征提取网络(第一、二、三、四阶段的每个通道分别由3、4、6、3个多路径残差模块组成),然后通过多分辨率融合模块聚合不同级别的特征图像,最后输出四个级别的多分辨率特征图像。
图6是多级分辨率网络的结构示意图,由阶段一(61)、阶段二(62)、阶段三(63)和阶段四(64)前后连接组成,每个阶段首先由若干个多路径残差模块组成四个级别的多分辨率特征提取网络,然后通过多分辨率融合模块聚合不同级别的特征图像,最后输出四个级别的多分辨率特征图像。阶段一、二、三和四的结构示意图分别如图7、8、9和10所示。
图7是阶段一的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
71、将大小为200*200*128的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为200*200*128;
72、将大小为100*100*256的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为100*100*256;
73、将大小为50*50*512的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为50*50*512;
74、将大小为25*25*1024的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为25*25*1024;
75、将71、72、73和74的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图8是阶段二的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
81、将大小为200*200*128的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为200*200*128;
82、将大小为100*100*256的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为100*100*256;
83、将大小为50*50*512的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为50*50*512;
84、将大小为25*25*1024的输入特征图像先后进行4次多路径残差模块处理,输出特征图像的大小为25*25*1024;
85、将81、82、83和84的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图9是阶段三的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
91、将大小为200*200*128的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为200*200*128;
92、将大小为100*100*256的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为100*100*256;
93、将大小为50*50*512的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为50*50*512;
94、将大小为25*25*1024的输入特征图像先后进行6次多路径残差模块处理,输出特征图像的大小为25*25*1024;
95、将91、92、93和94的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图10是阶段四的结构示意图,输入特征图像共有4个分辨率,具体说明如下:
101、将大小为200*200*128的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为200*200*128;
102、将大小为100*100*256的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为100*100*256;
103、将大小为50*50*512的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为50*50*512;
104、将大小为25*25*1024的输入特征图像先后进行3次多路径残差模块处理,输出特征图像的大小为25*25*1024;
105、将101、102、103和104的输出特征图像通过多分辨率融合模块进行特征融合处理,输出的不同级别的特征图像大小分别为200*200*128、100*100*256、50*50*512和25*25*1024。
图11是多路径残差模块的结构示意图,具体说明如下:
111、将输入特征图像(大小为N*N*C)经过32个并行的路径,每个路径分别对输入特征图像进行1次卷积核数量为C/64的1×1卷积处理、批量归一化处理和ReLU激活函数处理,1次卷积核数量为C/64的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及1次卷积核数量为C的1×1卷积处理和批量归一化处理,每个路径输出的特征图像大小均为N*N*C,最后对所有并行路径输出的特征图像进行像素级相加,输出特征图像大小为N*N*C;
112、将输入特征图像与111的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小N*N*C。
图12是多分辨率融合模块的结构示意图,多分辨率融合模块融合四个级别的输入特征图像,增强高分辨率特征图像的语义信息,提高低分辨率特征图像的目标位置信息。具体说明如下:
121、第一个级别的融合过程。
(a)将大小为100*100*256的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为200*200*128。
(b)将大小为50*50*512的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为200*200*128。
(c)将大小为25*25*1024的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和8倍最近邻上采样处理,输出特征图像大小为200*200*128。
(d)将大小为200*200*128的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小200*200*128。
122、第二个级别的融合过程。
(a)将大小为200*200*128的输入特征图像先后进行卷积核数量为256的3×3_2卷积处理和批量归一化处理,输出特征图像大小为100*100*256。
(b)将大小为50*50*512的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为100*100*256。
(c)将大小为25*25*1024的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为100*100*256。
(d)将大小为100*100*256的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小100*100*256。
123、第三个级别的融合过程。
(a)将大小为200*200*128的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512。
(b)将大小为100*100*256的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512。
(c)将大小为25*25*1024的输入特征图像先后进行卷积核数量为512的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为50*50*512。
(d)将大小为50*50*512的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小50*50*512。
124、第四个级别的融合过程。
(a)将大小为200*200*128的输入特征图像先后进行两次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024。
(b)将大小为100*100*256的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024。
(c)将大小为50*50*512的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024。
(d)将大小为25*25*1024的输入特征图像与(a)、(b)和(c)的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小25*25*1024。
本发明中,在多级分辨率网络输出多分辨率特征图像后,首先通过多级特征通道拼接模块在多个级别上分别拼接多级分辨率网络输出的多分辨率特征图像,然后利用几个全连接层组成的整合模块加强特征图像的不同通道之间的关联,最后采用一系列卷积操作生成用于检测的金字塔特征图像。
图13是特征金字塔网络的结构示意图,特征金字塔网络生成用于检测的包含5个级别的金字塔特征图像,具体说明如下:
131、多级特征通道拼接模块首先将输入的4个级别的特征图像(大小分别为200*200*128、100*100*256、50*50*512和25*25*1024)转换成与其它级别特征图像大小相同的特征图像,此时每个分辨率都有4个不同的特征图像,将具有相同分辨率的特征图像在图像通道上进行拼接,拼接后每个级别的输出特征图像的通道数都是1920,其大小分别为200*200*1920、100*100*1920、50*50*1920和25*25*1920。多级特征通道拼接模块的结构示意图如图12所示。
132、整合模块通过建立全连接层加强每个级别的特征图像内部不同通道之间的联系,不改变特征图像的大小,具体的结构示意图如图13所示。
133、各个级别的特征图像分别通过卷积核大小为256的1×1卷积处理将通道数降低到256,输出特征图像的大小分别为200*200*256、100*100*256、50*50*256和25*25*256。
134、各个级别的特征图像分别通过卷积核大小为256的3×3_2卷积处理将图像宽和高减小到原来的1/2,输出特征图像的大小分别为100*100*256、50*50*256、25*25*256和13*13*256。
135、将113中大小为25*25*256的输出特征图像通过1/2平均池化下采样处理和3×3_2卷积处理将特征图像的宽和高减小到原来的1/4,输出特征图像的大小为7*7*256,与134输出的4个级别的特征图像组成用于检测的金字塔特征图像。
图14是多级特征通道拼接模块的结构示意图,具体说明如下:
141、第一个级别的特征通道拼接过程。
a)将大小为100*100*256的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为200*200*256。
b)将大小为50*50*512的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为200*200*512。
c)将大小为25*25*1024的输入特征图像进行8倍线性插值上采样处理,输出特征图像大小为200*200*1024。
d)将大小为200*200*128的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为200*200*1920。
142、第二个级别的特征通道拼接过程。
a)将大小为200*200*128的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为100*100*128。
b)将大小为50*50*512的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为100*100*512。
c)将大小为25*25*1024的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为100*100*1024。
d)将将大小为100*100*256的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为100*100*1920。
143、第三个级别的特征通道拼接过程。
a)将大小为200*200*128的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为50*50*128。
b)将大小为100*100*256的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为50*50*256。
c)将大小为25*25*1024的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为50*50*1024。
d)将将大小为50*50*512的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为50*50*1920。
144、第四个级别的特征通道拼接过程。
a)将大小为200*200*128的输入特征图像进行1/8平均池化下采样处理,输出特征图像大小为25*25*128。
b)将大小为100*100*256的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为25*25*256。
c)将大小为50*50*512的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为25*25*512。
d)将将大小为25*25*1024的输入特征图像与a)、b)和c)输出的特征图像在通道维度上进行拼接,输出特征图像大小为25*25*1920。
图15是整合模块的结构示意图,具体说明如下:
151、将输入特征图像(大小为N*N*1920)进行全局平均池化处理,输出特征图像大小为1*1*1920;在此后面接一个具有120个神经元的全连接层,并进行ReLU激活函数处理,输出特征图像大小为1*1*120;在此后面接一个具有1920个神经元的全连接层,并进行Sigmoid激活函数处理,输出特征图像大小为1*1*1920。
152、整合过程将步骤151输出的特征图像中各通道的像素值与的输入特征图像中对应通道上的所有像素值分别相乘,输出特征图像大小为N*N*1920。
图16是检测器头的结构示意图,由边界框预测和类别预测两个通道组成,每个通道的输入特征图像先进行4次卷积核个数为256的3×3卷积加BN处理,最后再进行一次3×3卷积处理。对于类别预测部分,最后一次卷积处理的卷积核个数为4A,其中A为预定锚框的个数;对于边界框预测部分,最后一次卷积处理的卷积核个数为KA,其中K为总类别的个数,A为预定锚框的个数。
其中,为有效解决定位损失函数梯度不平衡的问题,提高红外目标检测的准确度,本发明提出一种更加平衡的定位损失函数,将其用于目标损失函数。
常见的目标损失函数公式如下
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu-v)   (1)
等号右边前一部分表示分类损失函数,后一部分表示定位损失函数。p是预测的类别,u是真实的类别标签,tu是边界框的预测值,v是边界框的真实标注值,λ是常数权重因子。将定位误差大于1.0的样本称为困难样本,定位误差小于1.0的样本称为简单样本。
定位损失函数的展开形式如下
Figure BDA0002428573780000161
式中x,y,w,h分别为预测边界框的坐标、宽和高,
Figure BDA0002428573780000162
为定位损失函数的具体形式,对于smooth L1 loss,有
Figure BDA0002428573780000163
式中x为定位误差,即
Figure BDA0002428573780000164
定位损失函数关于网络参数权重的梯度为
Figure BDA0002428573780000165
式中w为网络参数权,定位损失函数关于参数权重的梯度正比于Lb关于定位回归误差的梯度。
由图15中可以看出,对于smooth L1 loss,困难样本的梯度值远大小简单样本的梯度值,造成了梯度的不平衡,为此本发明提出一种更加平衡的定位损失函数。
设计一个梯度函数,增加简单样本的梯度值,设计函数如下
Figure BDA0002428573780000171
γ,b满足如下约束,b=γ,梯度图像如图17所示。从图中可以看出,该函数能够显著提高简单样本的梯度值,使简单样本的梯度值和困难样本的梯度值之间更加平衡,同时改变α的大小可以调节梯度增加的幅度,以适应更加复杂的情况。
对梯度公式积分得到定位损失函数的具体形式,如下
Figure BDA0002428573780000172
γ,b,C满足如下约束
b=γ
Figure BDA0002428573780000173
定位损失函数的图像如图18所示。
因此,本发明设计的更加平衡的定位损失函数为
Figure BDA0002428573780000174
此时,总目标损失函数为
Figure BDA0002428573780000175
特别是,本发明在前面第3点改进之后的目标损失函数(公式9)基础上增加多级分辨率网络输出的最大分辨率的特征图像与其它各分辨率的特征图像之间的互信息之和LMI。采用额外的深度网络(如图19所示)来估计并最大化互信息,以使多级特征图像之间特征信息的相似度最大。在计算互信息时将多级分辨率网络输出的最大分辨率的特征图像与其它某一分辨率的特征图像输入额外的深度网络,根据以下公式计算互信息。
Figure BDA0002428573780000181
其中,zi为一个小批量输入图像内某一图像的多级分辨率网络输出的某个分辨率的特征图像(最大分辨率特征图像除外),z1为与zi同一图像的多级分辨率网络输出的最大分辨率特征图像,z′i为该批量输入图像内其它输入图像的多级分辨率网络输出的同分辨率特征图像,Dw表示额外的深度网络(如图19所示,具体说明在最后的网络结构说明中),p(zi)为zi的分布函数,p(z1)为z1的分布函数,E表示期望。另外有
p(z1)=∫p(z1|zi)p(zi)dzi   (11)
其中,∫dzi表示对zi进行积分。
此时总目标损失函数为
Figure BDA0002428573780000182
其中,β是一个是常数权重因子。
图19是用于估计互信息的额外网络的结构示意图,具体说明如下:
191、将多级分辨率网络输出的非最大分辨率特征图像(zi或者z′i)作为输入特征图像(假设大小为N*N*C),进行线性插值上采样处理,使其与多级分辨率网络输出的最大分辨率特征图像(z1)的尺度一致(200*200),输出特征图像大小为200*200*C。
192、将191输出的特征图像与多级分辨率网络输出的最大分辨率特征图像(z1)在通道维度上进行拼接,输出特征图像大小为200*200*(128+C)。
193、将192输出的特征图像进行卷积核数量为512的3×3卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
194、将193输出的特征图像进行卷积核数量为512的1×1卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
195、将194输出的特征图像进行卷积核数量为512的3×3卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
196、将195输出的特征图像进行卷积核数量为512的1×1卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*512。
197、将196输出的特征图像进行卷积核数量为1的1×1卷积处理和ReLU激活函数处理,输出特征图像大小为200*200*1。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于多级分辨率平衡网络的红外目标检测方法,其特征在于,包括步骤:
特征转换网络通过卷积操作将基础特征提取网络所输出的一个级别的单分辨率输入特征图像转换为4个级别的多分辨率输出特征图像,每个级别的输出特征图像对应一个分辨率;
多级分辨率网络对上述4个级别的多分辨率输出特征图像处理,输出4个级别的多分辨率特征图像;多分辨率网络包括先后连接的4个处理阶段,每个处理阶段包括由若干个多路径残差模块组成的4个级别的多分辨率特征提取网络,以及用于聚合多路径残差处理模块输出的不同级别的特征图像的多分辨率融合模块;
检测器头对输入的具有5个分辨率的金字塔特征图像内的目标物体进行类别预测和边界框预测;
其中,总目标损失函数为
Figure FDA0004123590830000011
Figure FDA0004123590830000012
Figure FDA0004123590830000013
式中,β是一个是常数权重因子,LMI是多级分辨率网络输出的最大分辨率的特征图像与其它各分辨率的特征图像之间的互信息之和,zi为一个批量输入图像内某一图像的多级分辨率网络输出的除最大分辨率特征图像之外的某个分辨率的特征图像,z1为与zi同一图像的多级分辨率网络输出的最大分辨率特征图像,z′i为该批量输入图像内其它输入图像的多级分辨率网络输出的同分辨率特征图像,Dw表示额外的深度网络,
Figure FDA0004123590830000021
为zi的分布函数,p(z1)为z1的分布函数,
Figure FDA0004123590830000023
为z′i的分布函数,E表示期望,x,y,w,h分别为预测边界框的坐标、宽和高,
Figure FDA0004123590830000022
为定位损失函数,p是预测的类别,u是真实的类别标签,tu是边界框的预测值,v是边界框的真实标注值;Lcls是分类损失函数;所述基础特征提取网络包括两个瓶颈残差模块a和两个瓶颈残差模块b,按瓶颈残差模块a-瓶颈残差模块b-瓶颈残差模块a-瓶颈残差模块b的顺序连接;
所述瓶颈残差模块a包括:
第一处理模块,用于将大小为N*N*C的特征图像先后进行两次卷积核数量为C/2的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为2C的1×1卷积处理和批量归一化处理,输出大小为N*N*2C的特征图像;
第二处理模块,用于将输入特征图像N*N*C进行卷积核数量为2C的1×1卷积处理和批量归一化处理,输出大小为N*N*2C的特征图像;
第三处理模块,用于将第一处理模块的输出特征图像与第二处理模块的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出大小为N*N*2C的特征图像;
所述瓶颈残差模块b,包括:
第一模块,用于将大小为N*N*C的输入特征图像先后进行两次卷积核数量为C/4的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为C的1×1卷积处理和批量归一化处理,输出大小为N*N*C的特征图像;
第二模块,用于将输入特征图像与第四处理模块的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出大小为N*N*C的特征图像;所述特征转换网络包括:
第一处理单元,用于将大小为200*200*256的输入特征图像进行一次卷积核数量为128的3×3卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为200*200*128;
第二处理单元,用于将大小为200*200*256的输入特征图像进行一次卷积核数量为256的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为100*100*256;
第三处理单元,用于将大小为200*200*256的输入特征图像进行两次卷积核数量为512的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为50*50*512;
第四处理单元,用于将大小为200*200*256的输入特征图像进行三次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理,输出特征图像的大小为25*25*1024;多分辨率网络的每个处理阶段所包含的4个级别的多分辨率特征提取网络,分别由相同数量的多路径残差模块组成,各个处理阶段包含的多路径残差模块的数量不同;其中,第一处理阶段、第二处理阶段、第三处理阶段、第四处理阶段的多路径残差模块分别为3、4、6、3个;每个所述多路径残差模块包括32个并行的路径,每个路径分别对输入特征图像进行1次卷积核数量为C/64的1×1卷积处理、批量归一化处理和ReLU激活函数处理,1次卷积核数量为C/64的3×3卷积处理、批量归一化处理和ReLU激活函数处理以及1次卷积核数量为C的1×1卷积处理和批量归一化处理,对所有并行路径输出的特征图像像素级相加,然后与输入特征图像再像素级相加,之后ReLU激活函数处理,最后输出特征图像;所述多分辨率融合模块融合四个级别的输入特征图像,增强高分辨率特征图像的语义信息,提高低分辨率特征图像的目标位置信息,进行四个级别的融合,其中,融合过程包括:
第一个级别的融合过程
a1.将大小为100*100*256的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为200*200*128;
b1.将大小为50*50*512的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为200*200*128;
c1.将大小为25*25*1024的输入特征图像先后进行卷积核数量为128的1×1卷积处理、批量归一化处理和8倍最近邻上采样处理,输出特征图像大小为200*200*128;
d1.将大小为200*200*128的输入特征图像与步骤a1、b1和c1的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小200*200*128;
第二个级别的融合过程
a2.将大小为200*200*128的输入特征图像先后进行卷积核数量为256的3×3_2卷积处理和批量归一化处理,输出特征图像大小为100*100*256;
b2.将大小为50*50*512的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为100*100*256;
c2.将大小为25*25*1024的输入特征图像先后进行卷积核数量为256的1×1卷积处理、批量归一化处理和4倍最近邻上采样处理,输出特征图像大小为100*100*256;
d2.将大小为100*100*256的输入特征图像与步骤a2、b2和c2的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小100*100*256;
第三个级别的融合过程
a3.将大小为200*200*128的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512;
b3.将大小为100*100*256的输入特征图像先后进行卷积核数量为512的3×3_2卷积处理和批量归一化处理,输出特征图像大小为50*50*512;
c3.将大小为25*25*1024的输入特征图像先后进行卷积核数量为512的1×1卷积处理、批量归一化处理和2倍最近邻上采样处理,输出特征图像大小为50*50*512;
d3.将大小为50*50*512的输入特征图像与步骤a3、b3和c3的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小50*50*512;
第四个级别的融合过程
a4.将大小为200*200*128的输入特征图像先后进行两次卷积核数量为1024的3×3_2卷积处理、批量归一化处理和ReLU激活函数处理以及一次卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024;
b4.将大小为100*100*256的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理、批量归一化处理、ReLU激活函数处理、卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024;
c4.将大小为50*50*512的输入特征图像先后进行卷积核数量为1024的3×3_2卷积处理和批量归一化处理,输出特征图像大小为25*25*1024;
d4.将大小为25*25*1024的输入特征图像与步骤a4、b4和c4的输出特征图像进行像素级相加,之后进行ReLU激活函数处理,输出特征图像的大小25*25*1024;
所述检测器头由边界框预测和类别预测两个通道组成,每个通道的输入特征图像先进行4次卷积核个数为256的3×3卷积加BN处理,最后再进行一次3×3卷积处理;对于类别预测部分,最后一次卷积处理的卷积核个数为4A,其中A为预定锚框的个数;对于边界框预测部分,最后一次卷积处理的卷积核个数为KA,其中K为总类别的个数,A为预定锚框的个数;
其中,1×1卷积为卷积核大小为1×1、步长为1的卷积操作,3×3_2卷积为卷积核大小为3×3、步长为2的卷积操作;3×3卷积为卷积核大小为3×3、步长为1的卷积操作。
2.根据权利要求1所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述金字塔特征图像由特征金字塔网络生成,所述特征金字塔网络通过多级特征通道拼接模块在4个级别上分别拼接多级分辨率网络输出的多分辨率特征图像,然后利用全连接层组成的4个整合模块加强特征图像不同通道间的关联,最后采用一系列卷积操作生成用于检测的金字塔特征图像。
3.根据权利要求2所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述的多级特征通道拼接模块的拼接过程如下:
第一个级别的特征通道拼接过程
A1将大小为100*100*256的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为200*200*256;
B1将大小为50*50*512的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为200*200*512;
C1将大小为25*25*1024的输入特征图像进行8倍线性插值上采样处理,输出特征图像大小为200*200*1024;
D1将大小为200*200*128的输入特征图像与步骤A1、B1、C1输出的特征图像在通道维度上进行拼接,输出特征图像大小为200*200*1920;
第二个级别的特征通道拼接过程
A2将大小为200*200*128的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为100*100*128;
B2将大小为50*50*512的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为100*100*512;
C2将大小为25*25*1024的输入特征图像进行4倍线性插值上采样处理,输出特征图像大小为100*100*1024;
D2将大小为100*100*256的输入特征图像与步骤A2、B2、C2输出的特征图像在通道维度上进行拼接,输出特征图像大小为100*100*1920;
第三个级别的特征通道拼接过程
A3将大小为200*200*128的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为50*50*128;
B3将大小为100*100*256的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为50*50*256;
C3将大小为25*25*1024的输入特征图像进行2倍线性插值上采样处理,输出特征图像大小为50*50*1024;
D3将大小为50*50*512的输入特征图像与步骤A3、B3、C3输出的特征图像在通道维度上进行拼接,输出特征图像大小为50*50*1920;
第四个级别的特征通道拼接过程
A4将大小为200*200*128的输入特征图像进行1/8平均池化下采样处理,输出特征图像大小为25*25*128;
B4将大小为100*100*256的输入特征图像进行1/4平均池化下采样处理,输出特征图像大小为25*25*256;
C4将大小为50*50*512的输入特征图像进行1/2平均池化下采样处理,输出特征图像大小为25*25*512;
D4将大小为25*25*1024的输入特征图像与步骤A4、B4、C4输出的特征图像在通道维度上进行拼接,输出特征图像大小为25*25*1920。
4.根据权利要求3所述基于多级分辨率平衡网络的红外目标检测方法,其特征在于,所述整合模块的处理过程如下:
将大小为N*N*1920的输入特征图像进行全局平均池化处理,输出大小为1*1*1920的特征图像,在此后面接一个具有120个神经元的全连接层,并进行ReLU激活函数处理,输出大小为1*1*120的特征图像;在此后面接一个具有1920个神经元的全连接层,并进行Sigmoid激活函数处理,输出大小为1*1*1920的特征图像;
将上一步输出的大小为1*1*1920的特征图像中各通道的像素值与的输入特征图像中对应通道上的所有像素值分别相乘,输出特征图像,大小为N*N*1920。
CN202010228602.8A 2019-11-07 2020-03-27 一种基于多级分辨率平衡网络的红外目标检测方法 Active CN111414882B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019110806233 2019-11-07
CN201911080623 2019-11-07

Publications (2)

Publication Number Publication Date
CN111414882A CN111414882A (zh) 2020-07-14
CN111414882B true CN111414882B (zh) 2023-04-28

Family

ID=71491526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010228602.8A Active CN111414882B (zh) 2019-11-07 2020-03-27 一种基于多级分辨率平衡网络的红外目标检测方法

Country Status (1)

Country Link
CN (1) CN111414882B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077418A (zh) * 2021-03-18 2021-07-06 心医国际数字医疗系统(大连)有限公司 基于卷积神经网络的ct影像骨骼分割方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109061658A (zh) * 2018-06-06 2018-12-21 天津大学 激光雷达数据融方法
CN109272452A (zh) * 2018-08-30 2019-01-25 北京大学 小波域中基于集团结构子带共同学习超分辨率网络的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181086B2 (en) * 2002-06-06 2007-02-20 Eastman Kodak Company Multiresolution method of spatially filtering a digital image
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109061658A (zh) * 2018-06-06 2018-12-21 天津大学 激光雷达数据融方法
CN109272452A (zh) * 2018-08-30 2019-01-25 北京大学 小波域中基于集团结构子带共同学习超分辨率网络的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Yanfei Zhong等.Multi-class geospatial object detection based on a position-sensitive balancing framework for high spatial resolution remote sensing imagery.ISPRS Journal of Photogrammetry and Remote Sensing.2018,第第138卷卷281-294. *
孙超等.基于迁移学习的红外图像超分辨率方法研究.激光与红外.2017,第47卷(第12期),1559-1564. *
徐敏等.基于长线列探测器的图像非均匀性研究与校正.传感器与微系统.2013,第32卷(第7期),15-17. *
王一宁等.基于残差神经网络的图像超分辨率改进算法.计算机应用.2018,第38卷(第1期),246-254. *

Also Published As

Publication number Publication date
CN111414882A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN109325972B (zh) 激光雷达稀疏深度图的处理方法、装置、设备及介质
CN108776772B (zh) 一种跨时间建筑物变化检测建模方法以及检测装置、方法及存储介质
CN104025118B (zh) 使用扩展surf特征的对象检测
US10304009B1 (en) Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
CN113627228B (zh) 一种基于关键点回归与多尺度特征融合的车道线检测方法
CN108960261A (zh) 一种基于注意力机制的显著物体检测方法
US8577137B2 (en) Image processing apparatus and method, and program
JP7230294B2 (ja) オブジェクト検出のためのシステム及び方法
CN111310746B (zh) 文本行检测方法、模型训练方法、装置、服务器及介质
CN113591795A (zh) 一种基于混合注意力特征金字塔结构的轻量化人脸检测方法和系统
CN111681273A (zh) 图像分割方法、装置、电子设备及可读存储介质
US11854209B2 (en) Artificial intelligence using convolutional neural network with hough transform
CN116188999A (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
US20070223785A1 (en) Image processor and method
Singh et al. Semantic segmentation using deep convolutional neural network: A review
CN111414882B (zh) 一种基于多级分辨率平衡网络的红外目标检测方法
CN111488766A (zh) 目标检测方法和装置
CN113343989A (zh) 一种基于前景选择域自适应的目标检测方法及系统
CN111179212B (zh) 集成蒸馏策略和反卷积的微小目标检测片上实现方法
CN117058606A (zh) 一种x射线图像违禁品检测方法
CN116758340A (zh) 基于超分辨率特征金字塔和注意力机制的小目标检测方法
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
US20220414827A1 (en) Training apparatus, training method, and medium
CN111062384A (zh) 一种基于深度学习的车窗精确定位方法
CN112541916A (zh) 一种基于稠密连接的废旧塑料图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant