CN113111718A

CN113111718A - 一种基于多模态遥感图像细粒度弱特征目标涌现检测方法

Info

Publication number: CN113111718A
Application number: CN202110280408.9A
Authority: CN
Inventors: 张弘; 李旭亮; 李亚伟
Original assignee: Suzhou Haichen Weishi Intelligent Technology Co ltd
Current assignee: Beijing Hangke Weishi Photoelectric Information Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-07-13
Anticipated expiration: 2041-03-16

Abstract

本发明公开了一种基于多模态遥感图像细粒度弱特征目标涌现检测方法。先将标注好的多模态遥感检测数据集划分为训练集和测试集，进行预处理；然后利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取，构建特征金字塔；接着利用原始标注信息构建语义真值图以及语义引导模块，将预测到的语义信息与真实标注信息对比，对原始特征图进行类注意力机制的引导；最后使用单阶段的检测头，在修正后的特征图上进行目标类别与位置信息的预测，并进行位置信息解码，得到最终结果。这种检测方法采用的网络结构设计合理，针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求。

Description

一种基于多模态遥感图像细粒度弱特征目标涌现检测方法

技术领域

本发明涉及遥感图像处理领域，尤其涉及一种基于多模态遥感图像细粒度弱特征目标涌现检测方法。

背景技术

对遥感图像进行实时处理的需求随遥感成像技术的逐渐发展而日益强烈。根据拍摄平台距地面高度，遥感图像可分为天基遥感图像和空基遥感图像。天基遥感图像一般由人造卫星等太空设备垂直向下观测而形成，而空基遥感图像往往是通过侦察机等装备以较大的倾斜角对地观测而得到。

依据是否需要主动搭载辐射源，遥感成像方式可分为主动成像和被动成像。典型的主动成像方式为合成孔径雷达成像；遥感中的被动成像中一般指光学成像，应用较为普遍的有可见光图像、红外图像、全色图像等。受到成像硬件的能力制约，早前的天基及空基成像系统一般仅支持一种成像方式，难以同时获得对同一地点的雷达成像与光学成像结果。近年来，以capella space为代表的一些商业遥感公司实现了主被动成像方式在同一平台上的集成，实现了光学遥感图像与合成孔径雷达遥感图像在成像阶段的配准，为研究人员提供了大量配准后的多模态遥感数据。

在众多遥感图像的应用场景中，目标检测是一个热门应用。遥感图像目标检测要求从遥感图像中检测出飞机、跑道、油罐、舰船等重要目标的位置。但天基遥感平台到地面距离较远、空基大倾角对地成像过程受大气效应影响较大，使得遥感图像中车辆等典型小目标占据的像素很少，较易出现特征弱化、异化的问题。得益于近年来遥感成像设备空间分辨率的提升，以车辆为代表的小目标在遥感图像中的像素数目可以达到100-300左右，使得对遥感图像中车辆等小目标的检测具备了一定的可行性。

综上，针对多模态遥感图像的弱特征目标涌现检测方法是遥感目标检测领域仍需填补的技术。

现有目标检测模型可分为传统模型和深度学习模型两大类；其中，深度学习模型相较于传统模型，检测结果更精确、检测速度更快、检测效果更好。但是目前的深度学习检测模型还未能很好地解决分布密集、小尺寸、任意方向的遥感目标检测问题。

小目标检测难点在于小目标包含的信息很少，在模型推测过程中会丢失大量甚至全部信息，导致检测效果很差。目前的目标检测网络还偏向于用单一的可见光或红外图像进行检测，未能充分利用多种传感器采集到的信息量优势。旋转对遥感图像目标检测的影响非常大，然而目前广泛采用的基于提取特征的卷积神经网络的旋转不变性表现较差。

发明内容

本发明所要解决的技术问题是，提供一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，能够克服遥感图像中弱特征目标检测精度低、虚警率高的问题，可以实现对模态遥感图像的综合利用、提高对遥感弱特征目标的检测效果。

为了解决上述技术问题，本发明是通过以下技术方案实现的：一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，包括以下步骤：

(1)将标注好的多模态遥感检测数据集划分为训练集和测试集，并对训练集和测试集进行预处理；

(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取，并在此基础上构建多层次特征金字塔；

(3)利用原始标注信息构建语义真值图，构建语义引导模块，将预测得到的语义信息与真实标注信息进行对比，对原始特征图进行类注意力机制的引导、达到降低虚警率的目的；

(4)使用单阶段的检测头，在修正后的特征图上进行目标类别与位置信息的预测，然后进行位置信息的解码，得到最终结果。

进一步地，所述步骤(1)中训练集和测试集进行预处理涉及的卷积操作的步长均为1。

进一步地，所述步骤(2)中使用的深度卷积神经网络包括4个阶段；

阶段1包含两个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、 1*1的卷积核，卷积步长均为1，输出特征图的通道数依次为64、64、256，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

第二个瓶颈结构的主干部分与第一个瓶颈结构相同，旁支部分不进行任何卷积操作；第二个瓶颈结构的输出经过一次三维卷积操作后，阶段1的所有处理操作完成；

阶段2包含四个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、 1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为128、128、 512，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

后续三个瓶颈结构的主干部分与第一个瓶颈结构基本相同，但卷积步长均为1，旁支部分不进行任何卷积操作；第四个瓶颈结构的输出经过一次三维卷积操作后，阶段2的所有处理操作完成；

阶段3包含六个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、 1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为256、256、 1024，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

后续五个瓶颈结构的主干部分与第一个瓶颈结构基本相同，但卷积步长均为1，旁支部分不进行任何卷积操作；第六个瓶颈结构的输出经过一次三维卷积操作后，阶段3的所有处理操作完成；

阶段4包含三个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、 1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为512、512、 2048，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

后续两个瓶颈结构的主干部分与第一个瓶颈结构基本相同，但卷积步长均为1，旁支部分不进行任何卷积操作；第三个瓶颈结构的输出经过一次三维卷积操作后，阶段4的所有处理操作完成；

所述特征金字塔包含最上层、中间层和底层三个层次：尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的；将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸，将最上层上采样后的结果与上述阶段3 的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层；将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接，再经过一次卷积后得到特征金字塔的底层；

进一步地，所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256。

进一步地，所述步骤(3)中语义引导模块包含上下两个分支；其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层；三次卷积后的输出会再分别经过两个卷积操作：其中一个卷积操作的输出通道数为目标类别数加一，用来和人为定义的语义真值进行对比、计算语义引导loss；另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同，用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导，实现对噪声的抑制、达到降低虚警率的目的。

进一步地，所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256。

进一步地，所述步骤(4)中共包含四个卷积分支：分支一包含卷积核为3*3、 1*1的两个卷积层，用于预测检测框的置信度，其输出张量的维度为目标类别数；分支二包含卷积核为3*3、1*1的两个卷积层，用于预测中心点的偏移量，其输出张量的维度为2；分支三包含两个卷积核均为7*7的卷积层，用于包围框的相关参数，其输出张量的维度为10；分支四包含3*3、1*1的两个卷积层，用于预测检测框的倾斜角，其输出张量的维度为1。

与现有技术相比，本发明的有益之处在于：这种基于多模态遥感图像细粒度弱特征目标涌现检测方法采用的网络结构设计合理，针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求，其具有以下优点：

(1)本发明能够同时处理通过主被动成像方式获得的遥感图像，能够弥补光学图像在雾霾、遮挡等情况下无法有效对目标进行检测的问题，同时有效利用了光学遥感图像丰富的纹理和色彩信息；在网络结构中加入三维卷积模块，有利于对多光谱、高光谱、多模态数据的通道优选，快速筛选出对目标检测有益的通道，通过类通道注意力的方式实现对大数据量的遥感数据的快速有效处理。

(2)本发明在特征金字塔后加入了场景语义引导模块，将更高级的场景理解任务引入到检测网络中，有利于抑制背景区域在特征图中的强度、提升前景弱特征目标在特征图中的显著度，能够应对弱特征目标在高级语义信息中特征弱化、异化的问题。

(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式，相较于两阶段的检测网络，能够显著提升检测网络的运算速度，适宜于对大幅面遥感数据进行处理的场景，并在边界框回归的过程中采用高维向量代替以往五维的旋转框表述方式，能够提高边界框回归的精度。

附图说明

图1是本发明一种基于多模态遥感图像细粒度弱特征目标涌现检测方法的整体流程图；

图2是对图1中相关内容的展开说明；

图3是本发明输入的原始图像，涉及到可见光、红外、全色、雷达多个通道；

图4是采用本发明方法获得的检测结果；

图5是三维卷积过程的示意图；

图6是检测模块检测框图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细描述。

一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，包括以下步骤：

(1)将标注好的多模态遥感检测数据集划分为训练集和测试集，并对训练集和测试集进行预处理；该步骤中涉及的卷积操作的步长均为1；

(2)利用加入了三维卷积模块的深度卷积神经网络实现对多模态数据的通道优选及高级语义信息提取，并在此基础上构建多层次特征金字塔；所述深度卷积神经网络包括4个阶段；

阶段1包含两个瓶颈结构：

阶段2包含四个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为128、128、 512，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

阶段3包含六个瓶颈结构：

阶段4包含三个瓶颈结构：

所述特征金字塔包含最上层、中间层和底层三个层次：尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的；将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸，将最上层上采样后的结果与上述阶段3 的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层；将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接，再经过一次卷积后得到特征金字塔的底层；所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256；

(3)利用原始标注信息构建语义真值图，构建语义引导模块，将预测得到的语义信息与真实标注信息进行对比，对原始特征图进行类注意力机制的引导、达到降低虚警率的目的；所述语义引导模块包含上下两个分支；其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层；所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256；三次卷积后的输出会再分别经过两个卷积操作：其中一个卷积操作的输出通道数为目标类别数加一，用来和人为定义的语义真值进行对比、计算语义引导loss；另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同，用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导，实现对噪声的抑制、达到降低虚警率的目的；

(4)使用单阶段的检测头，在修正后的特征图上进行目标类别与位置信息的预测，然后进行位置信息的解码，得到最终结果；该步中共包含四个卷积分支：分支一包含卷积核为3*3、1*1的两个卷积层，用于预测检测框的置信度，其输出张量的维度为目标类别数；分支二包含卷积核为3*3、1*1的两个卷积层，用于预测中心点的偏移量，其输出张量的维度为2；分支三包含两个卷积核均为 7*7的卷积层，用于包围框的相关参数，其输出张量的维度为10；分支四包含 3*3、1*1的两个卷积层，用于预测检测框的倾斜角，其输出张量的维度为1。

实验环境配置如下，以GPU(型号为GTX2080)作为计算平台，采用GPU并行计算框架，选取Pytorch作为卷积网络框架，本发明具体步骤概括为：

(1)标注多模态遥感数据：考虑到多模态遥感数据是已经经过配准的，前景目标对应的标注框在不同通道的数据中有着相同的坐标值；在标注数据时首先利用可见光数据对无云雾、遮挡的数据进行标注，然后通过多通道的综合判读对可疑区域进行进一步的精细标注，并最终将标注好的数据拆分为训练集和测试集，如说明书附图3所示，输入的原始图像涉及到可见光、红外、全色、雷达多个通道；

(2)依照说明书附图1中的网络架构图和附图2中对主干网络各个阶段的说明，构建卷积神经网络架构，网络整体可被分为主干网络、特征金字塔、场景语义引导模块、检测头四个模块；

(3)利用训练集和测试集，通过自适应学习率调整算法、利用Pytorch框架中的自动求导机制对网络整体进行训练，得到训练好的模型参数并保存网络模型；

(4)调用保存的网络模型对实际的多模态遥感数据进行推理计算，得到对应的置信度预测结果、中心点偏移量、包围框参数、包围框角度，然后通过参数解码及NMS得到最终应当保留的检测框。

结合上述步骤，本发明的具体技术细节如下：

(1)三维卷积

二维卷积模块仅在张量H、W两个维度内进行滑动，每次滑动对应一次卷积运算。在卷积运算的过程中会对H、W两个维度中卷积核大小内、depth维度中所有的元素进行乘积求和运算。

而三维卷积模块会在张量的H、W、depth三个维度内进行滑动，每次滑动对应一次卷积运算。在卷积运算过程中会对H、W、depth三个维度中卷积核大小内的元素进行乘积求和运算。相较于二维卷积模块，它多出了一个在depth 维度上进行滑动的自由度。同时，3D卷积在执行时不仅在H、W两个维度上共享卷积核，而且在depth维度上也共享卷积核。

其卷积过程如说明书附图5所示。

(2)语义引导模块中真值的构建及loss的计算

语义引导模块的数学思想是基于注意力机制的，通过这种卷积响应映射重新加权的方法，抑制非有效信息部分、加强弱特征目标在特征图中的响应。其数学表达式为：

其中

分别代表原始特征图和引导修正后的特征图；注意力函数A(X)对应注意力模块的输出结果；符号⊙是逐元素卷积

和

表示空间权重和通道权重；

表示第i个通道的权重，U表示沿特征图通道连接张量的级联操作。

在此基础上，充分考虑类内对象与类间对象之间的相互作用，使得注意力模块不仅可以区分物体与背景，还可以减弱对象之间的相互干扰，将不同目标类别的特征分离到各自的通道中。此时的表达式为：

其中

是分层权重，

和

代表与第i个类别相对应的权重和特征响应；

和

分别表示沿第j个通道的第i个类别的权重和特征；在实际执行过程中，D(X)是通过语义引导模块直接计算得到的。

训练过程中，语义分割真值的构建过程为：初始化得到一个与场景语义预测结果H、W、depth均相同的全零张量，此时该张量的depth为类别数+1。依次筛选出各个前景类别对应的真值标注框，并在该张量的depth维度上依次将某一类别的真值框对应区域的值修改为类别标签值，即可得到语义分割真值。计算语义分割真值与语义分割预测值的损失函数时，使用的是逐像素的交叉熵。

(3)检测模块loss的计算方法

在检测过程中，使用一个10维的向量[t,r,b,l,w_e,h_e]来表征物体的包围框。其中t,r,b,l均为向量，表示四个边界的中点相较于检测框中心点的偏移向量； w_e,h_e为两个标量，表示水平垂直方向的最小外接矩形的长和宽，如说明书附图 6所示。

基于此，检测模块的损失函数包含以下几个部分：

1、分类损失

其中

和p分别代表类别的真值图和预测图，i表示图上的第i个像素，α和β为超参数，用于控制两种情况下的权重比，N是前景目标的数量。

2、位置回归损失

位置回归loss主要包括包围框中心点的偏移损失、包围框形状参数的偏移损失、包围框偏转角度的偏移损失，它们的定义依次为：

其中

和o_k分别为第k个包围框的中心点的真值和预测值；

和b_k分别为第k个包围框的形状参数的真值和预测值；α_i和

分别为第k个包围框的偏转角度的真值和预测值，N是前景目标的数量。

这种基于多模态遥感图像细粒度弱特征目标涌现检测方法采用的网络结构设计合理，针对多模态遥感数据中的弱特征目标的检测效果良好且算法能够满足对多模态数据进行实时处理的需求，其具有以下优点：

(3)本发明在对位置信息及类别信息进行预测时采用了直接预测的方式，相较于两阶段的检测网络，能够显著提升检测网络的运算速度，适宜于对大幅面遥感数据进行处理的场景，并在边界框回归的过程中采用高维向量代替以往五维的旋转框表述方式，能够提高边界框回归的精度，说明书附图4即为采用本发明检测方法获得的检测结果说明。

通过在卷积过程中加入三维卷积模块，实现对多模态数据的空-谱联合处理，以实现对多模态数据的通道优选。在训练过程中加入场景信息理解模块，通过场景信息理解模块实现对高级语义特征的噪声去除，降低噪声对弱特征目标检测的影响，实现虚警抑制的目的。

需要强调的是：以上仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，包括以下步骤：

2.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，所述步骤(1)中训练集和测试集进行预处理涉及的卷积操作的步长均为1。

3.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，所述步骤(2)中使用的深度卷积神经网络包括4个阶段；

阶段1包含两个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、1*1的卷积核，卷积步长均为1，输出特征图的通道数依次为64、64、256，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为1、输出特征图通道数为256、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

阶段2包含四个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为128、128、512，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为512、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

阶段3包含六个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为256、256、1024，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为1024、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

阶段4包含三个瓶颈结构：

第一个瓶颈结构的主干部分包含三个卷积层，分别使用大小为1*1、3*3、1*1的卷积核，卷积步长依次为1、2、1，输出特征图的通道数依次为512、512、2048，激活函数均为Relu函数；第一个瓶颈结构的旁支部分包含一个卷积核大小为1*1、卷积步长为2、输出特征图通道数为2048、激活函数为relu函数的卷积层；主干部分与旁支部分输出的张量按对应位置相加后输入到第二个瓶颈结构中；

所述特征金字塔包含最上层、中间层和底层三个层次：尺寸最小的最上层是通过对上述阶段4的输出进行一次卷积后得到的；将特征金字塔的最上层上采样到和上述阶段3的输出同样的尺寸，将最上层上采样后的结果与上述阶段3的输出在通道维拼接到一起后再经过一次卷积得到特征金字塔的中间层；将中间层上采样到与上述阶段2输出的尺寸后与上述阶段2的输出在通道维进行拼接，再经过一次卷积后得到特征金字塔的底层。

4.根据权利要求3所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，所述特征金字塔构造过程中使用的卷积核的尺寸均为3*3、卷积步长均为1、输出通道数均为256。

5.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，所述步骤(3)中语义引导模块包含上下两个分支；其中上侧的分支抽取特征金字塔中的某一层并对其连续进行三次卷积以获得有利于语义分割的特征层；三次卷积后的输出会再分别经过两个卷积操作：其中一个卷积操作的输出通道数为目标类别数加一，用来和人为定义的语义真值进行对比、计算语义引导loss；另一个卷积操作的输出通道数和特征金字塔中每层的张量数相同，用于和来自特征金字塔的张量直接按位置相乘、对来自特征金字塔的张量进行类注意力机制的引导，实现对噪声的抑制、达到降低虚警率的目的。

6.根据权利要求5所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，所述三次卷积中卷积核大小为3*3、卷积的步长为1*1、输出通道数均为256。

7.根据权利要求1所述的一种基于多模态遥感图像细粒度弱特征目标涌现检测方法，其特征是，所述步骤(4)中共包含四个卷积分支：分支一包含卷积核为3*3、1*1的两个卷积层，用于预测检测框的置信度，其输出张量的维度为目标类别数；分支二包含卷积核为3*3、1*1的两个卷积层，用于预测中心点的偏移量，其输出张量的维度为2；分支三包含两个卷积核均为7*7的卷积层，用于包围框的相关参数，其输出张量的维度为10；分支四包含3*3、1*1的两个卷积层，用于预测检测框的倾斜角，其输出张量的维度为1。