CN113111718A - 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 - Google Patents

一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 Download PDF

Info

Publication number
CN113111718A
CN113111718A CN202110280408.9A CN202110280408A CN113111718A CN 113111718 A CN113111718 A CN 113111718A CN 202110280408 A CN202110280408 A CN 202110280408A CN 113111718 A CN113111718 A CN 113111718A
Authority
CN
China
Prior art keywords
convolution
output
bottleneck
remote sensing
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110280408.9A
Other languages
English (en)
Other versions
CN113111718B (zh
Inventor
张弘
李旭亮
李亚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hangke Weishi Photoelectric Information Technology Co ltd
Original Assignee
Suzhou Haichen Weishi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Haichen Weishi Intelligent Technology Co ltd filed Critical Suzhou Haichen Weishi Intelligent Technology Co ltd
Priority to CN202110280408.9A priority Critical patent/CN113111718B/zh
Priority claimed from CN202110280408.9A external-priority patent/CN113111718B/zh
Publication of CN113111718A publication Critical patent/CN113111718A/zh
Application granted granted Critical
Publication of CN113111718B publication Critical patent/CN113111718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态遥感图像细粒度弱特征目标涌现检测方法。先将标注好的多模态遥感检测数据集划分为训练集和测试集,进行预处理;然后利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,构建特征金字塔;接着利用原始标注信息构建语义真值图以及语义引导模块,将预测到的语义信息与真实标注信息对比,对原始特征图进行类注意力机制的引导;最后使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,并进行位置信息解码,得到最终结果。这种检测方法采用的网络结构设计合理,针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求。

Description

一种基于多模态遥感图像细粒度弱特征目标涌现检测方法
技术领域
本发明涉及遥感图像处理领域,尤其涉及一种基于多模态遥感图像细粒度弱特征目标涌现检测方法。
背景技术
对遥感图像进行实时处理的需求随遥感成像技术的逐渐发展而日益强烈。根据拍摄平台距地面高度,遥感图像可分为天基遥感图像和空基遥感图像。天基遥感图像一般由人造卫星等太空设备垂直向下观测而形成,而空基遥感图像往往是通过侦察机等装备以较大的倾斜角对地观测而得到。
依据是否需要主动搭载辐射源,遥感成像方式可分为主动成像和被动成像。典型的主动成像方式为合成孔径雷达成像;遥感中的被动成像中一般指光学成像,应用较为普遍的有可见光图像、红外图像、全色图像等。受到成像硬件的能力制约,早前的天基及空基成像系统一般仅支持一种成像方式,难以同时获得对同一地点的雷达成像与光学成像结果。近年来,以capella space为代表的一些商业遥感公司实现了主被动成像方式在同一平台上的集成,实现了光学遥感图像与合成孔径雷达遥感图像在成像阶段的配准,为研究人员提供了大量配准后的多模态遥感数据。
在众多遥感图像的应用场景中,目标检测是一个热门应用。遥感图像目标检测要求从遥感图像中检测出飞机、跑道、油罐、舰船等重要目标的位置。但天基遥感平台到地面距离较远、空基大倾角对地成像过程受大气效应影响较大,使得遥感图像中车辆等典型小目标占据的像素很少,较易出现特征弱化、异化的问题。得益于近年来遥感成像设备空间分辨率的提升,以车辆为代表的小目标在遥感图像中的像素数目可以达到100-300左右,使得对遥感图像中车辆等小目标的检测具备了一定的可行性。
综上,针对多模态遥感图像的弱特征目标涌现检测方法是遥感目标检测领域仍需填补的技术。
现有目标检测模型可分为传统模型和深度学习模型两大类;其中,深度学习模型相较于传统模型,检测结果更精确、检测速度更快、检测效果更好。但是目前的深度学习检测模型还未能很好地解决分布密集、小尺寸、任意方向的遥感目标检测问题。
小目标检测难点在于小目标包含的信息很少,在模型推测过程中会丢失大量甚至全部信息,导致检测效果很差。目前的目标检测网络还偏向于用单一的可见光或红外图像进行检测,未能充分利用多种传感器采集到的信息量优势。旋转对遥感图像目标检测的影响非常大,然而目前广泛采用的基于提取特征的卷积神经网络的旋转不变性表现较差。
发明内容
本发明所要解决的技术问题是,提供一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,能够克服遥感图像中弱特征目标检测精度低、虚警率高的问题,可以实现对模态遥感图像的综合利用、提高对遥感弱特征目标的检测效果。
为了解决上述技术问题,本发明是通过以下技术方案实现的:一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,包括以下步骤:
(1)将标注好的多模态遥感检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;
(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,并在此基础上构建多层次特征金字塔;
(3)利用原始标注信息构建语义真值图,构建语义引导模块,将预测得到的语义信息与真实标注信息进行对比,对原始特征图进行类注意力机制的引导、达到降低虚警率的目的;
(4)使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到最终结果。
进一步地,所述步骤(1)中训练集和测试集进行预处理涉及的卷积操作的步长均为1。
进一步地,所述步骤(2)中使用的深度卷积神经网络包括4个阶段;
阶段1包含两个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长均为1,输出特征图的通道数依次为64、64、256,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
第二个瓶颈结构的主干部分与第一个瓶颈结构相同,旁支部分不进行任何卷积操作;第二个瓶颈结构的输出经过一次三维卷积操作后,阶段1的所有处理操作完成;
阶段2包含四个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为128、128、 512,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第四个瓶颈结构的输出经过一次三维卷积操作后,阶段2的所有处理操作完成;
阶段3包含六个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为256、256、 1024,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第六个瓶颈结构的输出经过一次三维卷积操作后,阶段3的所有处理操作完成;
阶段4包含三个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为512、512、 2048,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第三个瓶颈结构的输出经过一次三维卷积操作后,阶段4的所有处理操作完成;
所述特征金字塔包含最上层、中间层和底层三个层次:尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸,将最上层上采样后的结果与上述阶段3 的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层;将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接,再经过一次卷积后得到特征金字塔的底层;
进一步地,所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256。
进一步地,所述步骤(3)中语义引导模块包含上下两个分支;其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层;三次卷积后的输出会再分别经过两个卷积操作:其中一个卷积操作的输出通道数为目标类别数加一,用来和人为定义的语义真值进行对比、计算语义引导loss;另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同,用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导,实现对噪声的抑制、达到降低虚警率的目的。
进一步地,所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256。
进一步地,所述步骤(4)中共包含四个卷积分支:分支一包含卷积核为3*3、 1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含卷积核为3*3、1*1的两个卷积层,用于预测中心点的偏移量,其输出张量的维度为2;分支三包含两个卷积核均为7*7的卷积层,用于包围框的相关参数,其输出张量的维度为10;分支四包含3*3、1*1的两个卷积层,用于预测检测框的倾斜角,其输出张量的维度为1。
与现有技术相比,本发明的有益之处在于:这种基于多模态遥感图像细粒度弱特征目标涌现检测方法采用的网络结构设计合理,针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求,其具有以下优点:
(1)本发明能够同时处理通过主被动成像方式获得的遥感图像,能够弥补光学图像在雾霾、遮挡等情况下无法有效对目标进行检测的问题,同时有效利用了光学遥感图像丰富的纹理和色彩信息;在网络结构中加入三维卷积模块,有利于对多光谱、高光谱、多模态数据的通道优选,快速筛选出对目标检测有益的通道,通过类通道注意力的方式实现对大数据量的遥感数据的快速有效处理。
(2)本发明在特征金字塔后加入了场景语义引导模块,将更高级的场景理解任务引入到检测网络中,有利于抑制背景区域在特征图中的强度、提升前景弱特征目标在特征图中的显著度,能够应对弱特征目标在高级语义信息中特征弱化、异化的问题。
(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式,相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对大幅面遥感数据进行处理的场景,并在边界框回归的过程中采用高维向量代替以往五维的旋转框表述方式,能够提高边界框回归的精度。
附图说明
图1是本发明一种基于多模态遥感图像细粒度弱特征目标涌现检测方法的整体流程图;
图2是对图1中相关内容的展开说明;
图3是本发明输入的原始图像,涉及到可见光、红外、全色、雷达多个通道;
图4是采用本发明方法获得的检测结果;
图5是三维卷积过程的示意图;
图6是检测模块检测框图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细描述。
一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,包括以下步骤:
(1)将标注好的多模态遥感检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;该步骤中涉及的卷积操作的步长均为1;
(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,并在此基础上构建多层次特征金字塔;所述深度卷积神经网络包括4个阶段;
阶段1包含两个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长均为1,输出特征图的通道数依次为64、64、256,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
第二个瓶颈结构的主干部分与第一个瓶颈结构相同,旁支部分不进行任何卷积操作;第二个瓶颈结构的输出经过一次三维卷积操作后,阶段1的所有处理操作完成;
阶段2包含四个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为128、128、 512,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第四个瓶颈结构的输出经过一次三维卷积操作后,阶段2的所有处理操作完成;
阶段3包含六个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为256、256、 1024,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第六个瓶颈结构的输出经过一次三维卷积操作后,阶段3的所有处理操作完成;
阶段4包含三个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、 1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为512、512、 2048,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第三个瓶颈结构的输出经过一次三维卷积操作后,阶段4的所有处理操作完成;
所述特征金字塔包含最上层、中间层和底层三个层次:尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸,将最上层上采样后的结果与上述阶段3 的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层;将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接,再经过一次卷积后得到特征金字塔的底层;所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256;
(3)利用原始标注信息构建语义真值图,构建语义引导模块,将预测得到的语义信息与真实标注信息进行对比,对原始特征图进行类注意力机制的引导、达到降低虚警率的目的;所述语义引导模块包含上下两个分支;其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层;所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256;三次卷积后的输出会再分别经过两个卷积操作:其中一个卷积操作的输出通道数为目标类别数加一,用来和人为定义的语义真值进行对比、计算语义引导loss;另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同,用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导,实现对噪声的抑制、达到降低虚警率的目的;
(4)使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到最终结果;该步中共包含四个卷积分支:分支一包含卷积核为3*3、1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含卷积核为3*3、1*1的两个卷积层,用于预测中心点的偏移量,其输出张量的维度为2;分支三包含两个卷积核均为 7*7的卷积层,用于包围框的相关参数,其输出张量的维度为10;分支四包含 3*3、1*1的两个卷积层,用于预测检测框的倾斜角,其输出张量的维度为1。
实验环境配置如下,以GPU(型号为GTX2080)作为计算平台,采用GPU并行计算框架,选取Pytorch作为卷积网络框架,本发明具体步骤概括为:
(1)标注多模态遥感数据:考虑到多模态遥感数据是已经经过配准的,前景目标对应的标注框在不同通道的数据中有着相同的坐标值;在标注数据时首先利用可见光数据对无云雾、遮挡的数据进行标注,然后通过多通道的综合判读对可疑区域进行进一步的精细标注,并最终将标注好的数据拆分为训练集和测试集,如说明书附图3所示,输入的原始图像涉及到可见光、红外、全色、雷达多个通道;
(2)依照说明书附图1中的网络架构图和附图2中对主干网络各个阶段的说明,构建卷积神经网络架构,网络整体可被分为主干网络、特征金字塔、场景语义引导模块、检测头四个模块;
(3)利用训练集和测试集,通过自适应学习率调整算法、利用Pytorch框架中的自动求导机制对网络整体进行训练,得到训练好的模型参数并保存网络模型;
(4)调用保存的网络模型对实际的多模态遥感数据进行推理计算,得到对应的置信度预测结果、中心点偏移量、包围框参数、包围框角度,然后通过参数解码及NMS得到最终应当保留的检测框。
结合上述步骤,本发明的具体技术细节如下:
(1)三维卷积
二维卷积模块仅在张量H、W两个维度内进行滑动,每次滑动对应一次卷积运算。在卷积运算的过程中会对H、W两个维度中卷积核大小内、depth维度中所有的元素进行乘积求和运算。
而三维卷积模块会在张量的H、W、depth三个维度内进行滑动,每次滑动对应一次卷积运算。在卷积运算过程中会对H、W、depth三个维度中卷积核大小内的元素进行乘积求和运算。相较于二维卷积模块,它多出了一个在depth 维度上进行滑动的自由度。同时,3D卷积在执行时不仅在H、W两个维度上共享卷积核,而且在depth维度上也共享卷积核。
其卷积过程如说明书附图5所示。
(2)语义引导模块中真值的构建及loss的计算
语义引导模块的数学思想是基于注意力机制的,通过这种卷积响应映射重新加权的方法,抑制非有效信息部分、加强弱特征目标在特征图中的响应。其数学表达式为:
Figure RE-GDA0003077046060000111
其中
Figure RE-GDA0003077046060000112
分别代表原始特征图和引导修正后的特征图;注意力函数A(X)对应注意力模块的输出结果;符号⊙是逐元素卷积
Figure RE-GDA0003077046060000113
Figure RE-GDA0003077046060000114
表示空间权重和通道权重;
Figure RE-GDA0003077046060000115
表示第i个通道的权重,U表示沿特征图通道连接张量的级联操作。
在此基础上,充分考虑类内对象与类间对象之间的相互作用,使得注意力模块不仅可以区分物体与背景,还可以减弱对象之间的相互干扰,将不同目标类别的特征分离到各自的通道中。此时的表达式为:
Figure RE-GDA0003077046060000121
其中
Figure RE-GDA0003077046060000122
是分层权重,
Figure RE-GDA0003077046060000123
Figure RE-GDA0003077046060000124
代表与第i个类别相对应的权重和特征响应;
Figure RE-GDA0003077046060000125
Figure RE-GDA0003077046060000126
分别表示沿第j个通道的第i个类别的权重和特征;在实际执行过程中,D(X)是通过语义引导模块直接计算得到的。
训练过程中,语义分割真值的构建过程为:初始化得到一个与场景语义预测结果H、W、depth均相同的全零张量,此时该张量的depth为类别数+1。依次筛选出各个前景类别对应的真值标注框,并在该张量的depth维度上依次将某一类别的真值框对应区域的值修改为类别标签值,即可得到语义分割真值。计算语义分割真值与语义分割预测值的损失函数时,使用的是逐像素的交叉熵。
(3)检测模块loss的计算方法
在检测过程中,使用一个10维的向量[t,r,b,l,we,he]来表征物体的包围框。其中t,r,b,l均为向量,表示四个边界的中点相较于检测框中心点的偏移向量; we,he为两个标量,表示水平垂直方向的最小外接矩形的长和宽,如说明书附图 6所示。
基于此,检测模块的损失函数包含以下几个部分:
1、分类损失
Figure RE-GDA0003077046060000127
其中
Figure RE-GDA0003077046060000128
和p分别代表类别的真值图和预测图,i表示图上的第i个像素,α和β为超参数,用于控制两种情况下的权重比,N是前景目标的数量。
2、位置回归损失
位置回归loss主要包括包围框中心点的偏移损失、包围框形状参数的偏移损失、包围框偏转角度的偏移损失,它们的定义依次为:
Figure RE-GDA0003077046060000131
Figure RE-GDA0003077046060000132
Figure RE-GDA0003077046060000133
其中
Figure RE-GDA0003077046060000134
和ok分别为第k个包围框的中心点的真值和预测值;
Figure RE-GDA0003077046060000135
和bk分别为第k个包围框的形状参数的真值和预测值;αi
Figure RE-GDA0003077046060000136
分别为第k个包围框的偏转角度的真值和预测值,N是前景目标的数量。
这种基于多模态遥感图像细粒度弱特征目标涌现检测方法采用的网络结构设计合理,针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求,其具有以下优点:
(1)本发明能够同时处理通过主被动成像方式获得的遥感图像,能够弥补光学图像在雾霾、遮挡等情况下无法有效对目标进行检测的问题,同时有效利用了光学遥感图像丰富的纹理和色彩信息;在网络结构中加入三维卷积模块,有利于对多光谱、高光谱、多模态数据的通道优选,快速筛选出对目标检测有益的通道,通过类通道注意力的方式实现对大数据量的遥感数据的快速有效处理。
(2)本发明在特征金字塔后加入了场景语义引导模块,将更高级的场景理解任务引入到检测网络中,有利于抑制背景区域在特征图中的强度、提升前景弱特征目标在特征图中的显著度,能够应对弱特征目标在高级语义信息中特征弱化、异化的问题。
(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式,相较于两阶段的检测网络,能够显著提升检测网络的运算速度,适宜于对大幅面遥感数据进行处理的场景,并在边界框回归的过程中采用高维向量代替以往五维的旋转框表述方式,能够提高边界框回归的精度,说明书附图4即为采用本发明检测方法获得的检测结果说明。
通过在卷积过程中加入三维卷积模块,实现对多模态数据的空-谱联合处理,以实现对多模态数据的通道优选。在训练过程中加入场景信息理解模块,通过场景信息理解模块实现对高级语义特征的噪声去除,降低噪声对弱特征目标检测的影响,实现虚警抑制的目的。
需要强调的是:以上仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (7)

1.一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,包括以下步骤:
(1)将标注好的多模态遥感检测数据集划分为训练集和测试集,并对训练集和测试集进行预处理;
(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取,并在此基础上构建多层次特征金字塔;
(3)利用原始标注信息构建语义真值图,构建语义引导模块,将预测得到的语义信息与真实标注信息进行对比,对原始特征图进行类注意力机制的引导、达到降低虚警率的目的;
(4)使用单阶段的检测头,在修正后的特征图上进行目标类别与位置信息的预测,然后进行位置信息的解码,得到最终结果。
2.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(1)中训练集和测试集进行预处理涉及的卷积操作的步长均为1。
3.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(2)中使用的深度卷积神经网络包括4个阶段;
阶段1包含两个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长均为1,输出特征图的通道数依次为64、64、256,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
第二个瓶颈结构的主干部分与第一个瓶颈结构相同,旁支部分不进行任何卷积操作;第二个瓶颈结构的输出经过一次三维卷积操作后,阶段1的所有处理操作完成;
阶段2包含四个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为128、128、512,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第四个瓶颈结构的输出经过一次三维卷积操作后,阶段2的所有处理操作完成;
阶段3包含六个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为256、256、1024,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第六个瓶颈结构的输出经过一次三维卷积操作后,阶段3的所有处理操作完成;
阶段4包含三个瓶颈结构:
第一个瓶颈结构的主干部分包含三个卷积层,分别使用大小为1*1、3*3、1*1的卷积核,卷积步长依次为1、2、1,输出特征图的通道数依次为512、512、2048,激活函数均为Relu函数;第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层;主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中;
后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同,但卷积步长均为1,旁支部分不进行任何卷积操作;第三个瓶颈结构的输出经过一次三维卷积操作后,阶段4的所有处理操作完成;
所述特征金字塔包含最上层、中间层和底层三个层次:尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的;将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸,将最上层上采样后的结果与上述阶段3的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层;将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接,再经过一次卷积后得到特征金字塔的底层。
4.根据权利要求3所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256。
5.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(3)中语义引导模块包含上下两个分支;其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层;三次卷积后的输出会再分别经过两个卷积操作:其中一个卷积操作的输出通道数为目标类别数加一,用来和人为定义的语义真值进行对比、计算语义引导loss;另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同,用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导,实现对噪声的抑制、达到降低虚警率的目的。
6.根据权利要求5所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256。
7.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法,其特征是,所述步骤(4)中共包含四个卷积分支:分支一包含卷积核为3*3、1*1的两个卷积层,用于预测检测框的置信度,其输出张量的维度为目标类别数;分支二包含卷积核为3*3、1*1的两个卷积层,用于预测中心点的偏移量,其输出张量的维度为2;分支三包含两个卷积核均为7*7的卷积层,用于包围框的相关参数,其输出张量的维度为10;分支四包含3*3、1*1的两个卷积层,用于预测检测框的倾斜角,其输出张量的维度为1。
CN202110280408.9A 2021-03-16 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法 Active CN113111718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110280408.9A CN113111718B (zh) 2021-03-16 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110280408.9A CN113111718B (zh) 2021-03-16 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法

Publications (2)

Publication Number Publication Date
CN113111718A true CN113111718A (zh) 2021-07-13
CN113111718B CN113111718B (zh) 2024-06-21

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188999A (zh) * 2023-04-26 2023-05-30 南京师范大学 一种基于可见光和红外图像数据融合的小目标检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102502A (zh) * 2018-08-03 2018-12-28 西北工业大学 基于三维卷积神经网络的肺结节检测方法
EP3480786A1 (en) * 2017-11-03 2019-05-08 Siemens Healthcare GmbH Medical image object detection with dense feature pyramid network architecture in machine learning
US20190142390A1 (en) * 2017-11-14 2019-05-16 Verathon Inc. Real-time feedback and semantic-rich guidance on quality ultrasound image acquisition
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN110853011A (zh) * 2019-11-11 2020-02-28 河北工业大学 用于肺结节检测的卷积神经网络模型的构建方法
CN111178344A (zh) * 2020-04-15 2020-05-19 中国人民解放军国防科技大学 一种多尺度时序行为识别方法
CN111242071A (zh) * 2020-01-17 2020-06-05 陕西师范大学 一种基于锚框的注意力遥感图像目标检测方法
CN111563415A (zh) * 2020-04-08 2020-08-21 华南理工大学 一种基于双目视觉的三维目标检测系统及方法
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN112101153A (zh) * 2020-09-01 2020-12-18 北京航空航天大学 基于感受野模块与多重特征金字塔的遥感目标检测方法
CN112465827A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法
CN113850176A (zh) * 2021-09-22 2021-12-28 北京航空航天大学 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3480786A1 (en) * 2017-11-03 2019-05-08 Siemens Healthcare GmbH Medical image object detection with dense feature pyramid network architecture in machine learning
US20190142390A1 (en) * 2017-11-14 2019-05-16 Verathon Inc. Real-time feedback and semantic-rich guidance on quality ultrasound image acquisition
CN109102502A (zh) * 2018-08-03 2018-12-28 西北工业大学 基于三维卷积神经网络的肺结节检测方法
CN110472652A (zh) * 2019-06-30 2019-11-19 天津大学 基于语义引导的少量样本分类方法
CN110853011A (zh) * 2019-11-11 2020-02-28 河北工业大学 用于肺结节检测的卷积神经网络模型的构建方法
CN111242071A (zh) * 2020-01-17 2020-06-05 陕西师范大学 一种基于锚框的注意力遥感图像目标检测方法
CN111563415A (zh) * 2020-04-08 2020-08-21 华南理工大学 一种基于双目视觉的三维目标检测系统及方法
CN111178344A (zh) * 2020-04-15 2020-05-19 中国人民解放军国防科技大学 一种多尺度时序行为识别方法
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN112101153A (zh) * 2020-09-01 2020-12-18 北京航空航天大学 基于感受野模块与多重特征金字塔的遥感目标检测方法
CN112465827A (zh) * 2020-12-09 2021-03-09 北京航空航天大学 一种基于逐类卷积操作的轮廓感知多器官分割网络构建方法
CN113850176A (zh) * 2021-09-22 2021-12-28 北京航空航天大学 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李希;徐翔;李军;: "面向航空飞行安全的遥感图像小目标检测", 航空兵器, no. 03, 15 June 2020 (2020-06-15), pages 58 - 65 *
李道纪;郭海涛;卢俊;赵传;林雨准;余东行;: "遥感影像地物分类多注意力融和U型网络法", 测绘学报, no. 08, 15 August 2020 (2020-08-15), pages 117 - 130 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188999A (zh) * 2023-04-26 2023-05-30 南京师范大学 一种基于可见光和红外图像数据融合的小目标检测方法

Similar Documents

Publication Publication Date Title
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110298262B (zh) 物体识别方法及装置
CN112308019B (zh) 基于网络剪枝和知识蒸馏的sar舰船目标检测方法
CN110287800B (zh) 一种基于sgse-gan的遥感图像场景分类方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111507271B (zh) 一种机载光电视频目标智能化检测与识别方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN112288008B (zh) 一种基于深度学习的马赛克多光谱图像伪装目标检测方法
CN110097553A (zh) 基于即时定位建图与三维语义分割的语义建图系统
CN111783523A (zh) 一种遥感影像旋转目标检测方法
CN113850176A (zh) 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法
CN116824413A (zh) 一种基于多尺度空洞卷积的航拍图像目标检测方法
CN113989797A (zh) 一种基于体素点云融合的三维动态目标检测方法及装置
CN113838064B (zh) 一种基于分支gan使用多时相遥感数据的云去除方法
Zhu et al. AOPDet: Automatic organized points detector for precisely localizing objects in aerial imagery
CN113486819A (zh) 一种基于YOLOv4算法的船舶目标检测方法
CN116580322A (zh) 一种地面背景下无人机红外小目标检测方法
CN113128564B (zh) 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN117542082A (zh) 一种基于YOLOv7的行人检测方法
CN116778145A (zh) 一种基于三模态数据源融合的自动驾驶三维目标检测方法
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
Yang et al. Remote sensing object localization with deep heterogeneous superpixel features
CN116721398A (zh) 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法
CN116935213A (zh) 一种基于知识蒸馏的轻量化sar图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210907

Address after: Room 32032, floor 2, No. 3, Shuangqing Road, Haidian District, Beijing 100083

Applicant after: BEIJING HANGKE WEISHI PHOTOELECTRIC INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 215316 3rd floor, R & D building, No. 1699, Zuchongzhi South Road, Yushan Town, Kunshan City, Suzhou City, Jiangsu Province

Applicant before: Suzhou Haichen Weishi Intelligent Technology Co.,Ltd.

GR01 Patent grant