CN113111718A - 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 - Google Patents
一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 Download PDFInfo
- Publication number
- CN113111718A CN113111718A CN202110280408.9A CN202110280408A CN113111718A CN 113111718 A CN113111718 A CN 113111718A CN 202110280408 A CN202110280408 A CN 202110280408A CN 113111718 A CN113111718 A CN 113111718A
- Authority
- CN
- China
- Prior art keywords
- convolution
- output
- bottleneck
- remote sensing
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 38
- 238000010586 diagram Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 3
- 238000003384 imaging method Methods 0.000 description 17
- 230000008901 benefit Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003313 weakening effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012634 optical imaging Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/194—Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态遥感图像细粒度弱特征目标涌现检测方法。先将标注好的多模态遥感检测数据集划分为训练集和测试集,进行预处理;然后利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,构建特征金字塔;接着利用原始标注信息构建语义真值图以及语义引导模块,将预测到的语义信息与真实标注信息对比,对原始特征图进行类注意力机制的引导;最后使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,并进行位置信息解码,得到最终结果。这种检测方法采用的网络结构设计合理,针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求。
Description
技术领域
本发明涉及遥感图像处理领域,尤其涉及一种基于多模态遥感图像细粒度弱特征目标涌现检测方法。
背景技术
对遥感图像进行实时处理的需求随遥感成像技术的逐渐发展而日益强烈。根据拍摄平台距地面高度,遥感图像可分为天基遥感图像和空基遥感图像。天基遥感图像一般由人造卫星等太空设备垂直向下观测而形成,而空基遥感图像往往是通过侦察机等装备以较大的倾斜角对地观测而得到。
依据是否需要主动搭载辐射源,遥感成像方式可分为主动成像和被动成像。典型的主动成像方式为合成孔径雷达成像;遥感中的被动成像中一般指光学成像,应用较为普遍的有可见光图像、红外图像、全色图像等。受到成像硬件的能力制约,早前的天基及空基成像系统一般仅支持一种成像方式,难以同时获得对同一地点的雷达成像与光学成像结果。近年来,以capella space为代表的一些商业遥感公司实现了主被动成像方式在同一平台上的集成,实现了光学遥感图像与合成孔径雷达遥感图像在成像阶段的配准,为研究人员提供了大量配准后的多模态遥感数据。
在众多遥感图像的应用场景中,目标检测是一个热门应用。遥感图像目标检测要求从遥感图像中检测出飞机、跑道、油罐、舰船等重要目标的位置。但天基遥感平台到地面距离较远、空基大倾角对地成像过程受大气效应影响较大,使得遥感图像中车辆等典型小目标占据的像素很少,较易出现特征弱化、异化的问题。得益于近年来遥感成像设备空间分辨率的提升,以车辆为代表的小目标在遥感图像中的像素数目可以达到100-300左右,使得对遥感图像中车辆等小目标的检测具备了一定的可行性。
综上,针对多模态遥感图像的弱特征目标涌现检测方法是遥感目标检测领域仍需填补的技术。
现有目标检测模型可分为传统模型和深度学习模型两大类;其中,深度学习模型相较于传统模型,检测结果更精确、检测速度更快、检测效果更好。但是目前的深度学习检测模型还未能很好地解决分布密集、小尺寸、任意方向的遥感目标检测问题。
小目标检测难点在于小目标包含的信息很少,在模型推测过程中会丢失大量甚至全部信息,导致检测效果很差。目前的目标检测网络还偏向于用单一的可见光或红外图像进行检测,未能充分利用多种传感器采集到的信息量优势。旋转对遥感图像目标检测的影响非常大,然而目前广泛采用的基于提取特征的卷积神经网络的旋转不变性表现较差。
发明内容
本发明所要解决的技术问题是,提供一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,能够克服遥感图像中弱特征目标检测精度低、虚警率高的问题,可以实现对模态遥感图像的综合利用、提高对遥感弱特征目标的检测效果。
为了解决上述技术问题,本发明是通过以下技术方案实现的:一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,包括以下步骤:
(1)将标注好的多模态遥感检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;
(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,并在此基础上构建多层次特征金字塔;
(3)利用原始标注信息构建语义真值图,构建语义引导模块,将预测得到的语义信息与真实标注信息进行对比,对原始特征图进行类注意力机制的引导、达到降低虚警率的目的;
(4)使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到最终结果。
进一步地,所述步骤(1)中训练集和测试集进行预处理涉及的卷积操作的步长均为1。
进一步地,所述步骤(2)中使用的深度卷积神经网络包括4个阶段;
阶段1包含两个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长均为1,输出特征图的通道数依次为64、64、256,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
第二个瓶颈结构的主干部分与第一个瓶颈结构相同,旁支部分不进行任何卷积操作;第二个瓶颈结构的输出经过一次三维卷积操作后,阶段1的所有处理操作完成;
阶段2包含四个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为128、128、 512,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第四个瓶颈结构的输出经过一次三维卷积操作后,阶段2的所有处理操作完成;
阶段3包含六个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为256、256、 1024,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第六个瓶颈结构的输出经过一次三维卷积操作后,阶段3的所有处理操作完成;
阶段4包含三个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为512、512、 2048,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第三个瓶颈结构的输出经过一次三维卷积操作后,阶段4的所有处理操作完成;
所述特征金字塔包含最上层、中间层和底层三个层次:尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸,将最上层上采样后的结果与上述阶段3 的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层;将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接,再经过一次卷积后得到特征金字塔的底层;
进一步地,所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256。
进一步地,所述步骤(3)中语义引导模块包含上下两个分支;其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层;三次卷积后的输出会再分别经过两个卷积操作:其中一个卷积操作的输出通道数为目标类别数加一,用来和人为定义的语义真值进行对比、计算语义引导loss;另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同,用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导,实现对噪声的抑制、达到降低虚警率的目的。
进一步地,所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256。
进一步地,所述步骤(4)中共包含四个卷积分支:分支一包含卷积核为3*3、 1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含卷积核为3*3、1*1的两个卷积层,用于预测中心点的偏移量,其输出张量的维度为2;分支三包含两个卷积核均为7*7的卷积层,用于包围框的相关参数,其输出张量的维度为10;分支四包含3*3、1*1的两个卷积层,用于预测检测框的倾斜角,其输出张量的维度为1。
与现有技术相比,本发明的有益之处在于:这种基于多模态遥感图像细粒度弱特征目标涌现检测方法采用的网络结构设计合理,针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求,其具有以下优点:
(1)本发明能够同时处理通过主被动成像方式获得的遥感图像,能够弥补光学图像在雾霾、遮挡等情况下无法有效对目标进行检测的问题,同时有效利用了光学遥感图像丰富的纹理和色彩信息;在网络结构中加入三维卷积模块,有利于对多光谱、高光谱、多模态数据的通道优选,快速筛选出对目标检测有益的通道,通过类通道注意力的方式实现对大数据量的遥感数据的快速有效处理。
(2)本发明在特征金字塔后加入了场景语义引导模块,将更高级的场景理解任务引入到检测网络中,有利于抑制背景区域在特征图中的强度、提升前景弱特征目标在特征图中的显著度,能够应对弱特征目标在高级语义信息中特征弱化、异化的问题。
(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式,相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对大幅面遥感数据进行处理的场景,并在边界框回归的过程中采用高维向量代替以往五维的旋转框表述方式,能够提高边界框回归的精度。
附图说明
图1是本发明一种基于多模态遥感图像细粒度弱特征目标涌现检测方法的整体流程图;
图2是对图1中相关内容的展开说明;
图3是本发明输入的原始图像,涉及到可见光、红外、全色、雷达多个通道;
图4是采用本发明方法获得的检测结果;
图5是三维卷积过程的示意图;
图6是检测模块检测框图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,包括以下步骤:
(1)将标注好的多模态遥感检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;该步骤中涉及的卷积操作的步长均为1;
(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,并在此基础上构建多层次特征金字塔;所述深度卷积神经网络包括4个阶段;
阶段1包含两个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长均为1,输出特征图的通道数依次为64、64、256,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
第二个瓶颈结构的主干部分与第一个瓶颈结构相同,旁支部分不进行任何卷积操作;第二个瓶颈结构的输出经过一次三维卷积操作后,阶段1的所有处理操作完成;
阶段2包含四个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为128、128、 512,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第四个瓶颈结构的输出经过一次三维卷积操作后,阶段2的所有处理操作完成;
阶段3包含六个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为256、256、 1024,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第六个瓶颈结构的输出经过一次三维卷积操作后,阶段3的所有处理操作完成;
阶段4包含三个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为512、512、 2048,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第三个瓶颈结构的输出经过一次三维卷积操作后,阶段4的所有处理操作完成;
所述特征金字塔包含最上层、中间层和底层三个层次:尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸,将最上层上采样后的结果与上述阶段3 的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层;将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接,再经过一次卷积后得到特征金字塔的底层;所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256;
(3)利用原始标注信息构建语义真值图,构建语义引导模块,将预测得到的语义信息与真实标注信息进行对比,对原始特征图进行类注意力机制的引导、达到降低虚警率的目的;所述语义引导模块包含上下两个分支;其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层;所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256;三次卷积后的输出会再分别经过两个卷积操作:其中一个卷积操作的输出通道数为目标类别数加一,用来和人为定义的语义真值进行对比、计算语义引导loss;另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同,用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导,实现对噪声的抑制、达到降低虚警率的目的;
(4)使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到最终结果;该步中共包含四个卷积分支:分支一包含卷积核为3*3、1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含卷积核为3*3、1*1的两个卷积层,用于预测中心点的偏移量,其输出张量的维度为2;分支三包含两个卷积核均为 7*7的卷积层,用于包围框的相关参数,其输出张量的维度为10;分支四包含 3*3、1*1的两个卷积层,用于预测检测框的倾斜角,其输出张量的维度为1。
实验环境配置如下,以GPU(型号为GTX2080)作为计算平台,采用GPU并行计算框架,选取Pytorch作为卷积网络框架,本发明具体步骤概括为:
(1)标注多模态遥感数据:考虑到多模态遥感数据是已经经过配准的,前景目标对应的标注框在不同通道的数据中有着相同的坐标值;在标注数据时首先利用可见光数据对无云雾、遮挡的数据进行标注,然后通过多通道的综合判读对可疑区域进行进一步的精细标注,并最终将标注好的数据拆分为训练集和测试集,如说明书附图3所示,输入的原始图像涉及到可见光、红外、全色、雷达多个通道;
(2)依照说明书附图1中的网络架构图和附图2中对主干网络各个阶段的说明,构建卷积神经网络架构,网络整体可被分为主干网络、特征金字塔、场景语义引导模块、检测头四个模块;
(3)利用训练集和测试集,通过自适应学习率调整算法、利用Pytorch框架中的自动求导机制对网络整体进行训练,得到训练好的模型参数并保存网络模型;
(4)调用保存的网络模型对实际的多模态遥感数据进行推理计算,得到对应的置信度预测结果、中心点偏移量、包围框参数、包围框角度,然后通过参数解码及NMS得到最终应当保留的检测框。
结合上述步骤,本发明的具体技术细节如下:
(1)三维卷积
二维卷积模块仅在张量H、W两个维度内进行滑动,每次滑动对应一次卷积运算。在卷积运算的过程中会对H、W两个维度中卷积核大小内、depth维度中所有的元素进行乘积求和运算。
而三维卷积模块会在张量的H、W、depth三个维度内进行滑动,每次滑动对应一次卷积运算。在卷积运算过程中会对H、W、depth三个维度中卷积核大小内的元素进行乘积求和运算。相较于二维卷积模块,它多出了一个在depth 维度上进行滑动的自由度。同时,3D卷积在执行时不仅在H、W两个维度上共享卷积核,而且在depth维度上也共享卷积核。
其卷积过程如说明书附图5所示。
(2)语义引导模块中真值的构建及loss的计算
语义引导模块的数学思想是基于注意力机制的,通过这种卷积响应映射重新加权的方法,抑制非有效信息部分、加强弱特征目标在特征图中的响应。其数学表达式为:
在此基础上,充分考虑类内对象与类间对象之间的相互作用,使得注意力模块不仅可以区分物体与背景,还可以减弱对象之间的相互干扰,将不同目标类别的特征分离到各自的通道中。此时的表达式为:
训练过程中,语义分割真值的构建过程为:初始化得到一个与场景语义预测结果H、W、depth均相同的全零张量,此时该张量的depth为类别数+1。依次筛选出各个前景类别对应的真值标注框,并在该张量的depth维度上依次将某一类别的真值框对应区域的值修改为类别标签值,即可得到语义分割真值。计算语义分割真值与语义分割预测值的损失函数时,使用的是逐像素的交叉熵。
(3)检测模块loss的计算方法
在检测过程中,使用一个10维的向量[t,r,b,l,we,he]来表征物体的包围框。其中t,r,b,l均为向量,表示四个边界的中点相较于检测框中心点的偏移向量; we,he为两个标量,表示水平垂直方向的最小外接矩形的长和宽,如说明书附图 6所示。
基于此,检测模块的损失函数包含以下几个部分:
1、分类损失
2、位置回归损失
位置回归loss主要包括包围框中心点的偏移损失、包围框形状参数的偏移损失、包围框偏转角度的偏移损失,它们的定义依次为:
这种基于多模态遥感图像细粒度弱特征目标涌现检测方法采用的网络结构设计合理,针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求,其具有以下优点:
(1)本发明能够同时处理通过主被动成像方式获得的遥感图像,能够弥补光学图像在雾霾、遮挡等情况下无法有效对目标进行检测的问题,同时有效利用了光学遥感图像丰富的纹理和色彩信息;在网络结构中加入三维卷积模块,有利于对多光谱、高光谱、多模态数据的通道优选,快速筛选出对目标检测有益的通道,通过类通道注意力的方式实现对大数据量的遥感数据的快速有效处理。
(2)本发明在特征金字塔后加入了场景语义引导模块,将更高级的场景理解任务引入到检测网络中,有利于抑制背景区域在特征图中的强度、提升前景弱特征目标在特征图中的显著度,能够应对弱特征目标在高级语义信息中特征弱化、异化的问题。
(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式,相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对大幅面遥感数据进行处理的场景,并在边界框回归的过程中采用高维向量代替以往五维的旋转框表述方式,能够提高边界框回归的精度,说明书附图4即为采用本发明检测方法获得的检测结果说明。
通过在卷积过程中加入三维卷积模块,实现对多模态数据的空-谱联合处理,以实现对多模态数据的通道优选。在训练过程中加入场景信息理解模块,通过场景信息理解模块实现对高级语义特征的噪声去除,降低噪声对弱特征目标检测的影响,实现虚警抑制的目的。
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,包括以下步骤:
(1)将标注好的多模态遥感检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;
(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,并在此基础上构建多层次特征金字塔;
(3)利用原始标注信息构建语义真值图,构建语义引导模块,将预测得到的语义信息与真实标注信息进行对比,对原始特征图进行类注意力机制的引导、达到降低虚警率的目的;
(4)使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到最终结果。
2.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(1)中训练集和测试集进行预处理涉及的卷积操作的步长均为1。
3.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(2)中使用的深度卷积神经网络包括4个阶段;
阶段1包含两个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长均为1,输出特征图的通道数依次为64、64、256,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
第二个瓶颈结构的主干部分与第一个瓶颈结构相同,旁支部分不进行任何卷积操作;第二个瓶颈结构的输出经过一次三维卷积操作后,阶段1的所有处理操作完成;
阶段2包含四个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为128、128、512,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第四个瓶颈结构的输出经过一次三维卷积操作后,阶段2的所有处理操作完成;
阶段3包含六个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为256、256、1024,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第六个瓶颈结构的输出经过一次三维卷积操作后,阶段3的所有处理操作完成;
阶段4包含三个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为512、512、2048,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第三个瓶颈结构的输出经过一次三维卷积操作后,阶段4的所有处理操作完成;
所述特征金字塔包含最上层、中间层和底层三个层次:尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸,将最上层上采样后的结果与上述阶段3的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层;将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接,再经过一次卷积后得到特征金字塔的底层。
4.根据权利要求3所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256。
5.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(3)中语义引导模块包含上下两个分支;其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层;三次卷积后的输出会再分别经过两个卷积操作:其中一个卷积操作的输出通道数为目标类别数加一,用来和人为定义的语义真值进行对比、计算语义引导loss;另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同,用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导,实现对噪声的抑制、达到降低虚警率的目的。
6.根据权利要求5所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256。
7.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(4)中共包含四个卷积分支:分支一包含卷积核为3*3、1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含卷积核为3*3、1*1的两个卷积层,用于预测中心点的偏移量,其输出张量的维度为2;分支三包含两个卷积核均为7*7的卷积层,用于包围框的相关参数,其输出张量的维度为10;分支四包含3*3、1*1的两个卷积层,用于预测检测框的倾斜角,其输出张量的维度为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110280408.9A CN113111718B (zh) | 2021-03-16 | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110280408.9A CN113111718B (zh) | 2021-03-16 | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111718A true CN113111718A (zh) | 2021-07-13 |
CN113111718B CN113111718B (zh) | 2024-06-21 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188999A (zh) * | 2023-04-26 | 2023-05-30 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109102502A (zh) * | 2018-08-03 | 2018-12-28 | 西北工业大学 | 基于三维卷积神经网络的肺结节检测方法 |
EP3480786A1 (en) * | 2017-11-03 | 2019-05-08 | Siemens Healthcare GmbH | Medical image object detection with dense feature pyramid network architecture in machine learning |
US20190142390A1 (en) * | 2017-11-14 | 2019-05-16 | Verathon Inc. | Real-time feedback and semantic-rich guidance on quality ultrasound image acquisition |
CN110472652A (zh) * | 2019-06-30 | 2019-11-19 | 天津大学 | 基于语义引导的少量样本分类方法 |
CN110853011A (zh) * | 2019-11-11 | 2020-02-28 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
CN111178344A (zh) * | 2020-04-15 | 2020-05-19 | 中国人民解放军国防科技大学 | 一种多尺度时序行为识别方法 |
CN111242071A (zh) * | 2020-01-17 | 2020-06-05 | 陕西师范大学 | 一种基于锚框的注意力遥感图像目标检测方法 |
CN111563415A (zh) * | 2020-04-08 | 2020-08-21 | 华南理工大学 | 一种基于双目视觉的三维目标检测系统及方法 |
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
CN112101153A (zh) * | 2020-09-01 | 2020-12-18 | 北京航空航天大学 | 基于感受野模块与多重特征金字塔的遥感目标检测方法 |
CN112465827A (zh) * | 2020-12-09 | 2021-03-09 | 北京航空航天大学 | 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法 |
CN113850176A (zh) * | 2021-09-22 | 2021-12-28 | 北京航空航天大学 | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 |
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3480786A1 (en) * | 2017-11-03 | 2019-05-08 | Siemens Healthcare GmbH | Medical image object detection with dense feature pyramid network architecture in machine learning |
US20190142390A1 (en) * | 2017-11-14 | 2019-05-16 | Verathon Inc. | Real-time feedback and semantic-rich guidance on quality ultrasound image acquisition |
CN109102502A (zh) * | 2018-08-03 | 2018-12-28 | 西北工业大学 | 基于三维卷积神经网络的肺结节检测方法 |
CN110472652A (zh) * | 2019-06-30 | 2019-11-19 | 天津大学 | 基于语义引导的少量样本分类方法 |
CN110853011A (zh) * | 2019-11-11 | 2020-02-28 | 河北工业大学 | 用于肺结节检测的卷积神经网络模型的构建方法 |
CN111242071A (zh) * | 2020-01-17 | 2020-06-05 | 陕西师范大学 | 一种基于锚框的注意力遥感图像目标检测方法 |
CN111563415A (zh) * | 2020-04-08 | 2020-08-21 | 华南理工大学 | 一种基于双目视觉的三维目标检测系统及方法 |
CN111178344A (zh) * | 2020-04-15 | 2020-05-19 | 中国人民解放军国防科技大学 | 一种多尺度时序行为识别方法 |
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
CN112101153A (zh) * | 2020-09-01 | 2020-12-18 | 北京航空航天大学 | 基于感受野模块与多重特征金字塔的遥感目标检测方法 |
CN112465827A (zh) * | 2020-12-09 | 2021-03-09 | 北京航空航天大学 | 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法 |
CN113850176A (zh) * | 2021-09-22 | 2021-12-28 | 北京航空航天大学 | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 |
Non-Patent Citations (2)
Title |
---|
李希;徐翔;李军;: "面向航空飞行安全的遥感图像小目标检测", 航空兵器, no. 03, 15 June 2020 (2020-06-15), pages 58 - 65 * |
李道纪;郭海涛;卢俊;赵传;林雨准;余东行;: "遥感影像地物分类多注意力融和U型网络法", 测绘学报, no. 08, 15 August 2020 (2020-08-15), pages 117 - 130 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188999A (zh) * | 2023-04-26 | 2023-05-30 | 南京师范大学 | 一种基于可见光和红外图像数据融合的小目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614985B (zh) | 一种基于密集连接特征金字塔网络的目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110298262B (zh) | 物体识别方法及装置 | |
CN112308019B (zh) | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 | |
CN110287800B (zh) | 一种基于sgse-gan的遥感图像场景分类方法 | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN111507271B (zh) | 一种机载光电视频目标智能化检测与识别方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN110097553A (zh) | 基于即时定位建图与三维语义分割的语义建图系统 | |
CN111783523A (zh) | 一种遥感影像旋转目标检测方法 | |
CN113850176A (zh) | 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 | |
CN116824413A (zh) | 一种基于多尺度空洞卷积的航拍图像目标检测方法 | |
CN113989797A (zh) | 一种基于体素点云融合的三维动态目标检测方法及装置 | |
CN113838064B (zh) | 一种基于分支gan使用多时相遥感数据的云去除方法 | |
Zhu et al. | AOPDet: Automatic organized points detector for precisely localizing objects in aerial imagery | |
CN113486819A (zh) | 一种基于YOLOv4算法的船舶目标检测方法 | |
CN116580322A (zh) | 一种地面背景下无人机红外小目标检测方法 | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN117542082A (zh) | 一种基于YOLOv7的行人检测方法 | |
CN116778145A (zh) | 一种基于三模态数据源融合的自动驾驶三维目标检测方法 | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
Yang et al. | Remote sensing object localization with deep heterogeneous superpixel features | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN116935213A (zh) | 一种基于知识蒸馏的轻量化sar图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210907 Address after: Room 32032, floor 2, No. 3, Shuangqing Road, Haidian District, Beijing 100083 Applicant after: BEIJING HANGKE WEISHI PHOTOELECTRIC INFORMATION TECHNOLOGY Co.,Ltd. Address before: 215316 3rd floor, R & D building, No. 1699, Zuchongzhi South Road, Yushan Town, Kunshan City, Suzhou City, Jiangsu Province Applicant before: Suzhou Haichen Weishi Intelligent Technology Co.,Ltd. |
|
GR01 | Patent grant |