CN115631427A - 一种基于混合注意力多场景船舶检测分割方法 - Google Patents

一种基于混合注意力多场景船舶检测分割方法 Download PDF

Info

Publication number
CN115631427A
CN115631427A CN202211295062.0A CN202211295062A CN115631427A CN 115631427 A CN115631427 A CN 115631427A CN 202211295062 A CN202211295062 A CN 202211295062A CN 115631427 A CN115631427 A CN 115631427A
Authority
CN
China
Prior art keywords
feature
channel
network
attention
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211295062.0A
Other languages
English (en)
Inventor
聂烜
柴博松
潘磊
高和瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202211295062.0A priority Critical patent/CN115631427A/zh
Publication of CN115631427A publication Critical patent/CN115631427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Astronomy & Astrophysics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合注意力多场景船舶检测分割方法,基于Mask RCNN的改进模型,在Mask R‑CNN中使用FPN获得特征金字塔,在FPN之后,添加一个自底向上的路径,以缩短底层特征传递到高层网络之间的路径,从而保留下更多的浅层特征,来提升小目标的检测和分割效果,并通过在自下而上的路径使用了通道和空间注意力机制,从而使得特征图能够更好地响应区域,抑制背景区域,从而提升检测分割效果。

Description

一种基于混合注意力多场景船舶检测分割方法
技术领域
本发明属于人工智能技术领域,具体涉及一种多场景船舶检测分割方法。
背景技术
高分辨率遥感影像船舶目标检测是遥感影像处理领域中的研究热点,在军事侦查和民用监测等领域应用广泛。高分辨率卫星遥感作为主要的对地观测手段,其精度可以达到亚米级,从遥感影像中,可以人工解译出船舶、港口等目标。然而,随着获取到的遥感图像数据量不断增长,人工解译的方法由于效率较低,难以应对日益增长的数据量。由此需求推动,对高性能遥感图像自动解译系统的需求十分迫切。
船舶自动化检测可以帮助获取船舶分布信息,它所起到的海上监视的作用日益重要,可以帮助控制非法渔业和货物运输。近年来,船舶检测卫星遥感图像的合成已成为一个重要的研究方向。随着深度学习在目标检测、图像分割等计算机视觉任务中大放光彩,利用深度学习处理遥感图像分类、目标检测、分割等任务已成为主流方法,现有基于深度学习的遥感影像语义分割也大多都是基于FCN、DeconvNet、U-Net、 DeepLab等网络改进而来。然而,当前的识别分割方法大多以遥感影像的目标检测识别和语义分割为主。
目前,船舶目标检测研究方法大致可以分为两类:一类基于传统图像处理技术的船舶检测方法,通过图像分割、特征提取以及分类器分类等过程进行目标检测;另一类以深度学习技术为基础,利用卷积神经网络等算法进行船舶检测,目前已经成为研究热点。传统图像处理方法应用广泛,技术较为成熟,能够在一定程度上解决遥感影像检测和分割任务,但是随着遥感影像分辨率越来越高、覆盖面积越来越大,几何纹理等信息越来越丰富,传统方法逐渐无法胜任遥感影像的检测和分割等任务,在实际应用中受到限制。而基于深度学习的方法虽然在识别精度与实时性方面具有良好的表现,但很多算法具有一定的针对性,遥感影像中的船舶不是完美的俯视图,会有一定的角度以及一些阴影,对部分特征的提取会造成影响,甚至一些船舶体积较小,在特征提取时容易被忽略掉,导致未被识别。因此,迫切需要设计出一种能够克服不同复杂背景、噪声的影响,以及能够对小型船舶进行检测分割的识别算法。
发明内容
为了克服现有技术的不足,本发明提供了一种基于混合注意力多场景船舶检测分割方法,基于Mask R-CNN的改进模型,在Mask R-CNN中使用FPN获得特征金字塔,在FPN之后,添加一个自底向上的路径,以缩短底层特征传递到高层网络之间的路径,从而保留下更多的浅层特征,来提升小目标的检测和分割效果,并通过在自下而上的路径使用了通道和空间注意力机制,从而使得特征图能够更好地响应区域,抑制背景区域,从而提升检测分割效果。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:数据预处理;
选择遥感影像船舶数据集,将数据集分成训练集和测试集;对数据集中的图像进行实例分割格式标注,再进行数据增强,扩充数据集;
步骤2:特征提取;
使用ResNet101作为骨干网络进行初始化,然后利用FPN网络进行特征提取,获得特征金字塔{P2,P3,P4,P5},通过利用浅层低级特征高分辨率和深层高级特征的高语义信息,融合不同层的特征来提高网络提取目标特征的能力,具体如下:
步骤2-1:使用预先训练的ResNet101模型初始化网络模型,分成5个阶段,这里的5个阶段分别对应着不同尺度的feature maps输出,用来建立FPN网络的特征金字塔{P2,P3,P4,P5};
步骤2-2:FPN网络使用自底向上路径、自顶向下路径和横向连接的方法融合浅层特征和深层特征;
步骤2-2-1:自底向上路径;
自底向上即是卷积网络的过程;对于ResNet101模型,使用每个阶段的最后一个残差结构的特征激活输出,将这些输出表示为特征图{C2,C3,C4,C5},对应于conv2、 conv3、conv4、conv5的输出;
步骤2-2-2:自顶向下路径和横向连接;
通过自底向上路径,FPN得到了四组特征图,为了将这四组倾向不同特征的特征图组合起来,FPN使用了自顶向下及横向连接的策略:
P5由特征图C5使用256通道数的1×1大小的卷积核卷积而来;对特征图Pi+1,i=4、3、2进行2倍上采样,上采样后得到的特征图与相应的特征图Ci通过逐元素相加操作进行特征融合,生成新的融合特征图,最终获得特征金字塔{P2,P3,P4,P5};
步骤3:特征增强;
在Mask R-CNN网络中加入Bottom-up结构,接收由FPN网络获得的特征金字塔,缩短浅层特征传递到顶层之间的传递路径,来增强网络中的浅层特征的传递,使得更多的浅层特征得以被利用,并加入通道和空间注意力机制,进一步增强网络的特征提取能力,从而获得新的特征金字塔{N2,N3,N4,N5},然后将其发送到后续网络层,具体如下:
步骤3-1:引入通道注意力机制和空间注意力机制为图像特征赋予权重;假设通过FPN网络得到特征图F={F1,F2,…,FC},其中,W和H分别代表特征图F的宽和高, C代表特征图F的通道数,Fi∈RW×H代表特征图F的第i个通道的特征;
步骤3-1-1:通道注意力机制;
在对于特征图F的每个通道特征Fi上执行平均池化Average Pooling操作,将每个通道中W×H大小的特征图池化为1×1大小,得到一个通道特征向量V:
V=[V1,V2,…,VC],V∈RC
其中Vi代表第i个通道经过平均池化后得到的特征;然后使用1×1大小的卷积核从每个通道Vi学习聚合特征,然后对学习到的特征执行Softmax操作,使得所有通道值的和为1,实现每个通道的权重分配;
步骤3-1-2:空间注意力机制
对于特征图F,空间点的集合定义为L={{x,y}|x=1,…,W;y=1,…,H},其中 (x,y)表示空间点的坐标;空间注意图产生的过程如下:
先利用1×1卷积将有C个通道的特征图F整合到通道数为1的一张特征图M上:
M=WS*F+bS,V∈RC
其中,WS表示卷积核,*表示卷积操作,bS表示偏置;此时,特征图M融合了特征图F中所有通道的信息;
然后对特征图M的空间上执行Softmax运算,用M(l)表示空间位置l处的特征向量,则在l处得到的注意力权重为:
Figure BDA0003902346130000031
其中,空间所有点的权重之和为1,∑l∈LaS(l)=1;完成对空间上的每个像素点分配权重;
步骤3-2:将空间注意力机制和通道注意力机制进行组合得到先通道再空间注意力单元CA-SA;该注意力单元是通过通道注意力单元CA和空间注意力单元SA按前后顺序串联而成的,特征图F先经过通道注意力单元得到通道级别的注意性特征Fca,再将Fca送入到空间注意力单元,得到最终的通道-空间注意性特征Fcsa
步骤3-3:在Mask R-CNN网络中加入Bottom-up结构,并加入注意力机制,具体如下:为了生成特征图Ni+1,i=2、3、4,Ni(W×H×C)通过大小为3×3,通道数为256,卷积步长为2的卷积核进行下采样,使得特征图的高度和宽度减小了一半,与 Pi+1(W×H×C)的大小相同,下采样后的特征图与Pi+1逐元素相加以获得融合后的特征图Ni_half,然后将融合特征图Ni_half发送到注意力单元模块CA-SA获取注意特征图 Ni;最后获得新的特征金字塔{N2,N3,N4,N5},然后将其发送到后续网格层;
步骤4:目标检测分割;
在主干网络最终产生的feature maps集合之上,使用RPN生成多个regionproposals,然后再将这些region proposals分别生成对应的ROI窗口,通过RoIAlign后得到对应的特征信息,进而用于后续的目标分类、目标框定位及目标框Mask map识别;
步骤4-1:提取的特征进入RPN网络用于生成region proposals;该层通过softmax判断anchors属于前景或者背景,再利用bounding box regression修正anchors获得精确的proposals;
步骤4-2:根据步骤4-1中得到的候选框和步骤3-3提取的特征金字塔,通过映射关系提取候选框所对应的特征图,进入RoI池化层中将每个特征框池化到固定为 H×W的尺寸;
步骤4-3:将步骤4-2中所获得特征分别传入Mask分支和全连接层;传入Mask 分支后得到Mask结果,通过两个并行的全连接层,输出该区域的分类得分以及对候选框再次进行bounding box regression获得检测框最终的位置。
优选地,所述遥感影像船舶数据集为Airbus公司的用于语义分割任务的遥感影像船舶数据集。
优选地,所述数据增强处理为对训练图像进行随机水平翻转。
本发明的有益效果如下:
本发明提出了一种端到端的深度学习网络,用于遥感卫星图像中的船舶检测和分割,与基线模型和其他方法相比,本发明显著提高了不同复杂环境下的船舶整体检测和分割精度,能够很好地应对多场景下的船舶检测。另外,本发明方法对于小型船舶的检测和分割精度有了进一步提高。
附图说明
图1为本发明实施例标注格式转化示例,(a)原始图像,(b)语义分割格式标注,(c)实例分割格式标注。
图2为本发明实施例ResNet101整体架构示意图。
图3为本发明实施例FPN结构示意图。
图4为本发明实施例通道注意(CA)和空间注意(SA)的图示。
图5为本发明实施例Bottom-up-AM结构图示。
图6为本发明实施例Bottom-up-AM“横向连接”特征融合示意图。
图7为本发明实施例船舶检测和分割的样本:(a)原始图像,(b)地面实况,(c)Mask R-CNN基线模型的结果,(d)Mask R-CNN+S-NMS的结果,(e)Mask Scoring R-CNN模型的结果;(f)PANET模型的结果;(g)SCRDet模型的结果;(h)Mask R- CNN_B-CA-SA(本方法)的结果;
图8为本发明基于混合注意力多场景船舶检测分割方法结构示意图
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明基于深度学习的遥感影像实例分割方法,在实现目标检测的同时,实现对目标在像素级的分割,并针对遥感影像中背景特征复杂,噪声干扰大的问题,引入注意力模块,利用注意力机制实现对复杂背景中噪声等干扰特征的抑制;针对遥感影像中小型船舶分割和检测识别效果不佳的问题,构建一个注意力“自底向上”的多尺度特征融合结构,提高网络特征提取能力,改善遥感影像中小型船舶检测识别效果。
一种基于混合注意力多场景船舶检测分割方法,其特征在于,包括如下步骤:
步骤A:数据预处理模块,选择合适的数据集,并对数据集做预处理,为后续模型的训练和测试做准备。
步骤A-1:使用Airbus公司为了探寻遥感影像中海面船舶目标的分割而创建的可用于语义分割任务的遥感影像船舶数据集,该数据集包含了不同地区,多种场景下(海陆背景、云雾遮挡、目标清晰)的船舶遥感图像,共有15万多张图像,但大部分图像为不含船舶的图像,需要对进行筛选,并删除一些图像效果差的图片,最后剩余约 42500张图像,并对数据集进行训练集和测试集的分割。
步骤A-2:原始数据集是以RLE格式编码,用于语义分割任务的标注方式,为了可以适用于实例分割任务和便于训练,需要对原始标注方式进行转化,标注格式转化示例如图1所示。
步骤A-3:数据增强处理,对训练图像进行了随机的水平翻转,以此来扩充数据集规模。
步骤B:特征提取模块,使用ResNet101作为骨干网络进行初始化,然后利用FPN 网络进行特征提取,获得特征金字塔{P2,P3,P4,P5},通过利用浅层低级特征高分辨率和深层高级特征的高语义信息,融合不同层的特征来提高网络提取目标特征的能力。
步骤B-1:使用预先训练的ResNet101模型初始化网络模型,分成5个Stage,这里的5个阶段分别对应着不同尺度的feature maps输出,用来建立FPN网络的特征金字塔。如图2所示。
步骤B-2:FPN网络使用“自底向上”的通路(Bottom-top Pathway)、“自顶向下”的通路(Bottom-top Pathway)和“横向连接”(Lateral Connection)的方法来融合浅层特征和深层特征。
(1)自底向上路径
自底向上即是卷积网络的过程,对于ResNet101,使用每个阶段的最后一个残差结构的特征激活输出。将这些残差模块输出表示为{C2,C3,C4,C5},对应于conv2、conv3、conv4、conv5的输出,并且注意到它们相对于输入图像具有{4,8,16,32}像素的步长(也就是感受野)。考虑到内存占用,没有将conv1包含在金字塔中。
(2)自顶向下路径和横向连接
通过自底向上路径,FPN得到了四组feature map,浅层的feature map如C2含有更多的纹理信息,而深层的feature map如C5含有更多的语义信息。为了将着四组倾向不同特征的feature map组合起来,FPN使用了自顶向下及横向连接的策略,如图3所示。
P5由特征图C5使用256通道数的1×1大小的卷积核卷积而来,对于其他级别的{P3,P4,P5},对特征图Pi+1(W×H×C)(i=4,3或2)进行2倍上采样,则上采样后得到的特征图与相应的特征图Ci(2W×2H×C)(经过1×1卷积层将通道变为256)通过逐元素相加操作进行特征融合,生成新的融合特征图,最终获得特征金字塔 {P2,P3,P4,P5},送入后续网络中。
步骤C:特征增强模块,在Mask R-CNN网络中加入Bottom-up结构,接收由FPN 网络获得的特征金字塔,缩短浅层特征传递到顶层之间的传递路径,来增强网络中的浅层特征的传递,使得更多的浅层特征得以被利用,并加入通道和空间注意力机制,进一步增强网络的特征提取能力,从而获得新的特征金字塔{N2,N3,N4,N5},然后将其发送到后续网络层。
步骤C-1:引入通道注意力机制和空间注意力机制来为图像特征赋予权重。假设通过卷积网络得到特征图F={F1,F2,…,FC},其中,W和H分别代表特征图F的宽和高,C代表特征图F的通道数,Fi∈RW×H代表特征图F的第i个通道的特征。
(1)通道注意力机制
在对于特征图F的每个通道特征Fi上执行平均池化(Average Pooling)操作,将每个通道中W×H大小的特征图池化为1×1大小,那么,就得到了一个通道特征向量V:
V=[V1,V2,…,VC],V∈RC
其中Vi代表第i个通道经过平均池化后得到的特征。然后使用1×1大小的卷积核从每个通道Vi学习聚合特征,然后对学习到的特征执行Softmax操作,使得所有通道值的和为1,这样就实现了为每个通道的权重分配。如图4为通道注意力机制的流程。
(2)空间注意力机制
对于特征图F,空间点的集合定义为L={{x,y}|x=1,…,W;y=1,…,H},其中 (x,y)表示空间点的坐标。空间注意图产生的过程如下:
先利用1×1卷积将有C个通道的特征图F整合到通道数为1的一张特征图M上:
M=WS*F+bS,V∈RC
其中,WS表示卷积核,*表示卷积操作,bS表示偏置。此时,特征图M则融合了卷积特征F中所有通道的信息。
然后,对特征图M的空间上执行Softmax运算,用M(l)表示空间位置l处的特征向量,则在l处得到的注意力权重为:
Figure BDA0003902346130000071
其中,空间所有点的权重之和为1,∑l∈LaS(l)=1。这样就完成了对空间上的每个像素点分配权重。如图4为空间注意力机制的流程。
步骤C-2:在空间注意机制和通道注意机制的基础上设计注意单元,将空间注意力机制和通道注意力机制进行组合得到了CA-SA(先通道再空间注意力单元)。该注意力单元是通过CA(通道注意力单元)和SA(空间注意力单元)按前后顺序串联而成的,如图5所示,特征图F先经过通道注意力单元得到通道级别的注意性特征Fca, 再将Fca送入到空间注意力单元,得到最终的通道-空间注意性特征Fcsa
步骤C-3:相比于自然图像,遥感影像拍摄距离高、覆盖范围广,遥感影像中的目标都很小,为了能够有效检测处遥感影像中的小型目标,在Mask R-CNN网络中加入了Bottom-up结构,缩短浅层特征传递到顶层之间的传递路径,来增强网络中的浅层特征的传递,并加入注意力机制,进一步增强网络的特征提取能力。图5是加入了注意力机制的Bottom-up结构,称为Bottom-up-AM(Bottom-up Structure with Attention Module)。具体如下:N2与P2相同,为了生成特征图Ni+1(i=2,3或4),如图6所示, Ni(W×H×C)通过大小为3×3,通道数为256,卷积步长为2的卷积核进行下采样,使得特征图的高度和宽度减小了一半,与Pi+1(W×H×C)的大小相同,下采样后的特征图与Pi+1逐元素相加以获得融合后的特征图Ni_half,然后将融合特征图Ni_half发送到注意力单元模块(CA-SA)获取注意特征图Ni。最后获得新的特征金字塔{N2,N3,N4,N5},然后将其发送到后续网格层。
步骤D:目标检测分割模块,在主干网络最终产生的feature maps集合之上,使用RPN生成多个region proposals,然后再将这些region proposals分别生成对应的ROI窗口,通过RoIAlign后得到对应的特征信息,进而可用于后续的目标分类、目标框定位及目标框Mask map识别等。
步骤D-1:提取的特征进入RPN网络用于生成region proposals。该层通过softmax判断anchors属于前景或者背景,再利用bounding box regression修正anchors获得精确的proposals。
步骤D-2:根据步骤D-1中得到的候选框和步骤C-3提取的feature maps,通过映射关系提取候选框所对应的特征图,进入RoI池化层中将每个特征框池化到固定 H×W的size。
步骤D-3:将步骤D-2中所获得特征分别传入Mask分支和全连接层。传入Mask 分支后得到Mask结果,通过两个并行的全连接层,输出该区域的分类得分以及对候选框再次进行bounding box regression获得检测框最终的精确位置。本方法的具体实验效果如图7所示。
具体实施例:
本方法的结构示意图如图8所示,现结合图8对本方法的具体实施过程进行详细说明。其具体步骤如下:
步骤A:数据预处理模块。
选择Airbus公司的遥感影像船舶数据集作为实验数据,并从中筛选出42,500张图像作为本方法的实验数据集,再从数据集中随机选择了3000张图像作为测试集,将其余图像作为训练集。
原始数据集以RLE格式进行编码,为了方便训练,将其转换为COCO注释格式。
为了能够使得训练的模型效果更好,对训练图像进行了随机的水平翻转,来丰富图像训练集。
步骤B:特征提取模块。
使用预先训练的ResNet-101模型进行初始化,将batch size大小设置为1,将初始学习率设置为0.001,训练中使用随机梯度下降(SGD)作为优化器,将其权重衰减衰减设置为0.0001,并将动量为0.9。整个模型训练的最大迭代次数设置为350000次。以ResNet为基础的特征提取网络的FPN网络分为自下而上、横向连接和自上而下三个部分。
自下而上的网络以ResNet作为基础网络,将ResNet的卷积过程分成五个阶段,从第二个阶段开始,记为Conv2,Conv3,Conv4,Conv5,将其用{C2,C3,C4,C5}表示,每进行一个模块的卷积,特征图的尺寸变为原来的1/2。每一个Stage输出作为横向连接的输入。
横向连接在自下而上的ResNet中{C2,C3,C4,C5}分别进行一个1*1的卷积,保持相同的输出通道数,与自上而下的网络进行融合。
自上而下是从最高层开始进行最近邻上采样,与横向连接进行融合。对融合之后的特征进行处理,输出大小不同的几个Feature Map。M5通过下采样得到P6。经过两层融合之后,获得四个不同尺寸的特征图,分别用{P2,P3,P4,P5}从下到上依次表示,下一步将提取到的特征输入到Bottom-up结构中。
步骤C:特征增强模块。
每个特征图Ni(W×H大小)首先通过卷积核大小为3×3,卷积步长为2的卷积操作来减小特征图空间大小,得到新的特征图,不妨称为
Figure BDA0003902346130000101
然后通过横向连接,将特征图
Figure BDA0003902346130000102
中的每个元素和特征图N′i进行逐元素相加操作,相加融合后的特征图再通过卷积核大小为3×3,卷积步长为2的卷积操作消除融合的叠影,生成新的特征图Ni+1,最后将特征图发送到注意力单元模块(CA-SA)获取注意特征图,即获得新的特征金字塔{N2,N3,N4,N5}。
步骤D:目标检测分割模块。
对特征图集中的每一点设定预定数量的ROI,最后获得多个最佳的候选ROI。然后将候选的ROI送入RPN网络进行前景或背景的二值分类和边框回归,过滤一部分候选的ROI。对剩余ROI进行ROIAlign操作,即先将原图和特征图的像素对应起来,随后将特征图和固定的特征对应起来。最后,对ROI进行N类别的分类、位置的预测,目标框回归。通过改进的分割网络进行Mask的预测和语义的分割,得到二值的掩模图像。

Claims (3)

1.一种基于混合注意力多场景船舶检测分割方法,其特征在于,包括如下步骤:
步骤1:数据预处理;
选择遥感影像船舶数据集,将数据集分成训练集和测试集;对数据集中的图像进行实例分割格式标注,再进行数据增强,扩充数据集;
步骤2:特征提取;
使用ResNet101作为骨干网络进行初始化,然后利用FPN网络进行特征提取,获得特征金字塔{P2,P3,P4,P5},通过利用浅层低级特征高分辨率和深层高级特征的高语义信息,融合不同层的特征来提高网络提取目标特征的能力,具体如下:
步骤2-1:使用预先训练的ResNet101模型初始化网络模型,分成5个阶段,这里的5个阶段分别对应着不同尺度的feature maps输出,用来建立FPN网络的特征金字塔{P2,P3,P4,P5};
步骤2-2:FPN网络使用自底向上路径、自顶向下路径和横向连接的方法融合浅层特征和深层特征;
步骤2-2-1:自底向上路径;
自底向上即是卷积网络的过程;对于ResNet101模型,使用每个阶段的最后一个残差结构的特征激活输出,将这些输出表示为特征图{C2,C3,C4,C5},对应于conv2、conv3、conv4、conv5的输出;
步骤2-2-2:自顶向下路径和横向连接;
通过自底向上路径,FPN得到了四组特征图,为了将这四组倾向不同特征的特征图组合起来,FPN使用了自顶向下及横向连接的策略:
P5由特征图C5使用256通道数的1×1大小的卷积核卷积而来;对特征图Pi+1,i=4、3、2进行2倍上采样,上采样后得到的特征图与相应的特征图Ci通过逐元素相加操作进行特征融合,生成新的融合特征图,最终获得特征金字塔{P2,P3,P4,P5};
步骤3:特征增强;
在Mask R-CNN网络中加入Bottom-up结构,接收由FPN网络获得的特征金字塔,缩短浅层特征传递到顶层之间的传递路径,来增强网络中的浅层特征的传递,使得更多的浅层特征得以被利用,并加入通道和空间注意力机制,进一步增强网络的特征提取能力,从而获得新的特征金字塔{N2,N3,N4,N5},然后将其发送到后续网络层,具体如下:
步骤3-1:引入通道注意力机制和空间注意力机制为图像特征赋予权重;假设通过FPN网络得到特征图F={F1,F2,...,FC},其中,W和H分别代表特征图F的宽和高,C代表特征图F的通道数,Fi∈RW×H代表特征图F的第i个通道的特征;
步骤3-1-1:通道注意力机制;
在对于特征图F的每个通道特征Fi上执行平均池化Average Pooling操作,将每个通道中W×H大小的特征图池化为1×1大小,得到一个通道特征向量V:
V=[V1,V2,...,VC],V∈RC
其中Vi代表第i个通道经过平均池化后得到的特征;然后使用1×1大小的卷积核从每个通道Vi学习聚合特征,然后对学习到的特征执行Softmax操作,使得所有通道值的和为1,实现每个通道的权重分配;
步骤3-1-2:空间注意力机制
对于特征图F,空间点的集合定义为L={{x,y}|x=1,...,W;y=1,...,H},其中(x,y)表示空间点的坐标;空间注意图产生的过程如下:
先利用1×1卷积将有C个通道的特征图F整合到通道数为1的一张特征图M上:
M=WS*F+bs,V∈RC
其中,WS表示卷积核,*表示卷积操作,bs表示偏置;此时,特征图M融合了特征图F中所有通道的信息;
然后对特征图M的空间上执行Softmax运算,用M(l)表示空间位置l处的特征向量,则在l处得到的注意力权重为:
Figure FDA0003902346120000021
其中,空间所有点的权重之和为1,∑l∈LaS(l)=1;完成对空间上的每个像素点分配权重;
步骤3-2:将空间注意力机制和通道注意力机制进行组合得到先通道再空间注意力单元CA-SA;该注意力单元是通过通道注意力单元CA和空间注意力单元SA按前后顺序串联而成的,特征图F先经过通道注意力单元得到通道级别的注意性特征Fca,再将Fca送入到空间注意力单元,得到最终的通道-空间注意性特征Fcsa
步骤3-3:在MaskR-CNN网络中加入Bottom-up结构,并加入注意力机制,具体如下:为了生成特征图Ni+1,i=2、3、4,Ni(W×H×C)通过大小为3×3,通道数为256,卷积步长为2的卷积核进行下采样,使得特征图的高度和宽度减小了一半,与Pi+1(W×H×C)的大小相同,下采样后的特征图与Pi+1逐元素相加以获得融合后的特征图Ni_half,然后将融合特征图Ni_half发送到注意力单元模块CA-SA获取注意特征图Ni;最后获得新的特征金字塔{N2,N3,N4,N5},然后将其发送到后续网格层;
步骤4:目标检测分割;
在主干网络最终产生的feature maps集合之上,使用RPN生成多个region proposals,然后再将这些region proposals分别生成对应的ROI窗口,通过RoIAlign后得到对应的特征信息,进而用于后续的目标分类、目标框定位及目标框Mask map识别;
步骤4-1:提取的特征进入RPN网络用于生成region proposals;该层通过softmax判断anchors属于前景或者背景,再利用bounding box regression修正anchors获得精确的proposals;
步骤4-2:根据步骤4-1中得到的候选框和步骤3-3提取的特征金字塔,通过映射关系提取候选框所对应的特征图,进入RoI池化层中将每个特征框池化到固定为H×W的尺寸;
步骤4-3:将步骤4-2中所获得特征分别传入Mask分支和全连接层;传入Mask分支后得到Mask结果,通过两个并行的全连接层,输出该区域的分类得分以及对候选框再次进行bounding box regression获得检测框最终的位置。
2.根据权利要求1所述的一种基于混合注意力多场景船舶检测分割方法,其特征在于,所述遥感影像船舶数据集为Airbus公司的用于语义分割任务的遥感影像船舶数据集。
3.根据权利要求1所述的一种基于混合注意力多场景船舶检测分割方法,其特征在于,所述数据增强处理为对训练图像进行随机水平翻转。
CN202211295062.0A 2022-10-21 2022-10-21 一种基于混合注意力多场景船舶检测分割方法 Pending CN115631427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211295062.0A CN115631427A (zh) 2022-10-21 2022-10-21 一种基于混合注意力多场景船舶检测分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211295062.0A CN115631427A (zh) 2022-10-21 2022-10-21 一种基于混合注意力多场景船舶检测分割方法

Publications (1)

Publication Number Publication Date
CN115631427A true CN115631427A (zh) 2023-01-20

Family

ID=84907246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211295062.0A Pending CN115631427A (zh) 2022-10-21 2022-10-21 一种基于混合注意力多场景船舶检测分割方法

Country Status (1)

Country Link
CN (1) CN115631427A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778176A (zh) * 2023-06-30 2023-09-19 哈尔滨工程大学 基于频域注意力的sar图像舰船尾迹检测方法
CN117152546A (zh) * 2023-10-31 2023-12-01 江西师范大学 一种遥感场景分类方法、系统、存储介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778176A (zh) * 2023-06-30 2023-09-19 哈尔滨工程大学 基于频域注意力的sar图像舰船尾迹检测方法
CN116778176B (zh) * 2023-06-30 2024-02-09 哈尔滨工程大学 基于频域注意力的sar图像舰船尾迹检测方法
CN117152546A (zh) * 2023-10-31 2023-12-01 江西师范大学 一种遥感场景分类方法、系统、存储介质及电子设备
CN117152546B (zh) * 2023-10-31 2024-01-26 江西师范大学 一种遥感场景分类方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
CN109934200B (zh) 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
Mahmoud et al. Object detection using adaptive mask RCNN in optical remote sensing images
CN113569667B (zh) 基于轻量级神经网络模型的内河船舶目标识别方法及系统
CN115631427A (zh) 一种基于混合注意力多场景船舶检测分割方法
Liu et al. Performance comparison of deep learning techniques for recognizing birds in aerial images
CN110008900B (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
CN114820655B (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN113838064B (zh) 一种基于分支gan使用多时相遥感数据的云去除方法
CN113870157A (zh) 一种基于CycleGAN的SAR图像合成方法
CN116596792B (zh) 一种面向智能船舶的内河雾天场景恢复方法、系统及设备
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
Chen et al. Object detection of optical remote sensing image based on improved faster RCNN
CN107529647B (zh) 一种基于多层无监督稀疏学习网络的云图云量计算方法
CN115223056A (zh) 基于多尺度特征增强的光学遥感图像舰船目标检测方法
CN110852255B (zh) 一种基于u型特征金字塔的交通目标检测方法
CN113111740A (zh) 一种遥感图像目标检测的特征编织方法
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法
CN111652288A (zh) 一种基于稠密特征金字塔的改进型ssd小目标检测方法
CN115953312A (zh) 一种基于单幅图像的联合去雾检测方法、装置及存储介质
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination