CN115272670A - 一种基于掩膜注意交互的sar图像舰船实例分割方法 - Google Patents
一种基于掩膜注意交互的sar图像舰船实例分割方法 Download PDFInfo
- Publication number
- CN115272670A CN115272670A CN202210806482.4A CN202210806482A CN115272670A CN 115272670 A CN115272670 A CN 115272670A CN 202210806482 A CN202210806482 A CN 202210806482A CN 115272670 A CN115272670 A CN 115272670A
- Authority
- CN
- China
- Prior art keywords
- characteristic diagram
- feature map
- adopting
- network
- traditional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 185
- 230000011218 segmentation Effects 0.000 title claims abstract description 40
- 230000003993 interaction Effects 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 58
- 238000011176 pooling Methods 0.000 claims abstract description 52
- 238000010586 diagram Methods 0.000 claims description 138
- 238000000605 extraction Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 38
- 238000010276 construction Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 35
- 230000002452 interceptive effect Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 22
- 239000011800 void material Substances 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 15
- 102100021987 Apoptosis-stimulating of p53 protein 1 Human genes 0.000 claims description 12
- 102100021986 Apoptosis-stimulating of p53 protein 2 Human genes 0.000 claims description 12
- 101000752722 Homo sapiens Apoptosis-stimulating of p53 protein 1 Proteins 0.000 claims description 12
- 101000752711 Homo sapiens Apoptosis-stimulating of p53 protein 2 Proteins 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 238000005215 recombination Methods 0.000 claims description 9
- 230000006798 recombination Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims 1
- 239000000203 mixture Substances 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 13
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 12
- 230000001629 suppression Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011796 hollow space material Substances 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102100032303 26S proteasome non-ATPase regulatory subunit 2 Human genes 0.000 description 2
- 101000590272 Homo sapiens 26S proteasome non-ATPase regulatory subunit 2 Proteins 0.000 description 2
- 101000848781 Homo sapiens Dolichyl-diphosphooligosaccharide-protein glycosyltransferase subunit 1 Proteins 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于掩膜注意交互的SAR图像舰船实例分割方法,它是基于深度学习理论,主要包括特征增强金字塔,空洞空间金字塔池化、非局部模块、串联注意块、通道混洗。特征增强金字塔融合并增强了多分辨率特征。空洞空间金字塔池化和非局部模块提高了视野域,有效的结合了全局特征。串联注意块和通道混洗操作增强了网络间信息交互的效益。本发明解决现有技术中存在模型内数据交互性能有限或者不能实现掩膜交互的问题,提高了船只检测精度和分割精度。
Description
技术领域
本发明属于合成孔径雷达(Synthetic Aperture Radar,SAR)图像解译技术领域,涉及一种基于掩膜注意交互与尺度增强网络的SAR图像舰船实例分割方法。
背景技术
合成孔径雷达(SAR)是一种用于高分辨率对地观测的先进主动微波传感器,在海洋监测领域方面具有广泛的应用。在海上交通管制、救灾、渔业管理等军事和民用领域得到了广泛的应用。目前,虽然光学或高光谱卫星提供了一些监测服务,但具有全天、全天候工作能力的SAR更适合气候变化的海洋。因此,SAR是海洋区域感知中必不可少的遥感工具。
船只是非常重要的海上目标,针对海上舰船目标进行实例分割也有着非常重要的作用,对海洋舰船监视具有重要的意义。自美国发射第一颗SAR卫星Seasat-1以来,SAR卫星为SAR海洋舰船实例分割提供了大量的数据。船只SAR实例分割已成为高分辨率对地观测界的研究热点。详见文献“王智勇,窦浩,田金文.SAR图像船只目标快速检测方法研究[J].船只电子工程,2016,36(09):27-30+88.”
近年来,随着深度学习(deep learning,DL)的迅速兴起,SAR界许多学者开始研究基于DL的实例分割方法。与传统的基于特征的方法相比,基于DL的方法具有简单、全自动化(即无需复杂的陆海分割、海岸线检测、散斑校正等基本阶段)、高速、高精度等突出优点。虽然他们的深层原理还没有被人们所认识到,但是它可以解放生产力,大大提高工作效率。这使得SAR图像的智能解译实现了质的飞跃。详见“杜兰,王兆成,王燕,魏迪,李璐.复杂场景下单通道SAR目标检测及鉴别研究进展综述[J].雷达学报,2020,9(01):34-54.”。
然而,现有的基于深度学习的SAR舰船实例分割方法存在模型内数据交互性能有限或者不能实现掩膜交互的问题。有限的交互性能阻碍了SAR舰船实例分割方法精度的提升,因此,为了解决上述问题,本文提出一种基于掩膜注意交互与尺度增强网络的SAR图像舰船实例分割方法。该方法包括使用空洞空间金字塔池化获得多分辨率特征响应,使用非局部模块对远程空间依赖性建模,使用串联注意块和通道混洗操作提高交互效益。在SSDD数据集和HRSID数据集上的实验结果表明,所提方法优于其他基于深度学习的SAR舰船实例分割方法。
发明内容
本发明属于合成孔径雷达(SAR)图像解译技术领域,公开了一种基于掩膜注意交互的SAR图像舰船实例分割方法,用来解决现有技术中存在模型内数据交互性能有限或者不能实现掩膜交互的问题。该方法基于深度学习理论,主要包括特征增强金字塔,空洞空间金字塔池化、非局部模块、串联注意块、通道混洗。特征增强金字塔融合并增强了多分辨率特征。空洞空间金字塔池化和非局部模块提高了视野域,有效的结合了全局特征。串联注意块和通道混洗操作增强了网络间信息交互的效益。实验证明,在SSDD数据集上,基于掩膜注意交互与尺度增强网络的SAR图像舰船实例分割方法的检测精度为70.3%,分割精度为63.0%。现有其他基于深度学习的SAR船只检测精度为65.6%,分割精度为59.6%。在HRSID数据集上,基于掩膜注意交互与尺度增强网络的SAR图像舰船实例分割方法的检测精度为69.7%,分割精度为57.8%。现有其他基于深度学习的SAR船只检测精度为66.7%,分割精度为55.4%。基于掩膜注意交互与尺度增强网络的SAR图像舰船实例分割方法提高了船只检测精度和分割精度。
为了方便描述本发明的内容,首先作以下术语定义:
定义1:SSDD数据集获取方法
SSDD数据集是指SAR船只检测数据集,英文全称为SAR Ship Detection Dataset,SSDD是第一个开放的SAR船只检测数据集。包括Sentinel-1、RadarSat-2和TerraSAR-X的SAR图像共1160幅,分辨率为500×500像素。SSDD有2551艘船只。最小的是28pixel2,最大的是62878pixel2(pixel2是宽度像素和高度1的乘积)。在SSDD中,选取后缀为1和9的图像(232个样本)作为测试集,其余的作为训练集(928个样本)。获取SSDD数据集方法可从参考文献“李健伟,曲长文,彭书娟,邓兵.基于卷积神经网络的SAR图像船只目标检测[J].系统工程与电子技术,2018,40(09):1953-1959.”中获得。
定义2:HRSID数据集获取方法
HRSID数据集是指高分辨率SAR图像数据集,英文全称为High-Resolution SARImages Dataset,是一个用于进行船舶检测和实例分割的数据集。HRSID中有5604幅裁剪过的SAR图像和16951艘舰船。HRSID数据集在重叠率为25%的情况下,将136幅距离分辨率为1m到5m的全景SAR图像裁剪为800×800像素的SAR图像。在HRSID数据集中,将65%SAR图像分为训练集,将35%SAR图像分为测试集。此外,为了减少错误标注和遗漏标注,HRSID数据集将SAR图像与光学遥感影像进行对照,以减少港口的干扰。获取HRSID数据集方法可从参考文献“”中获得。
定义3:经典的卷积神经网络构建方法
经典的卷积神经网络通常由输入层,隐含层,输出层组成。输入层可以处理多维数据,在计算机视觉领域通常预先假设输入层输入三维输入数据,即平面上的二维像素点和RGB通道。输出层在图像检测和识别当中通常使用逻辑函数或归一化指数函数输出分类标签和相应边框坐标值。隐含层包含卷积层、非线性激活函数、池化层和全连接层构成,卷积层以输入特征的一小块矩形区域为单位,将特征进行高维的抽象;非线性池化层被用来缩小矩阵,进而减少后续神经网络中的参数;全连接层等价于传统前馈神经网络中的隐含层,它将之前抽象得到的高维特征作为输入进行分类和检测任务。经典的卷积神经网络方法详见文献“胡伏原,李林燕,尚欣茹,沈军宇,戴永良.基于卷积神经网络的目标检测算法综述[J].苏州科技大学学报(自然科学版),2020,37(02):1-10+25.”
定义4:经典的残差网络构建方法
残差网络是由来自Microsoft Research的4位学者提出的卷积神经网络,在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual RecognitionChallenge,ILSVRC)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题经典的残差网络构建方法。经典的残差网络构建方法详见“K.He et al.,“Deep Residual Learning for Image Recognition,”IEEEConf.Comput.Vis.Pattern Recognit.,2016,pp.770-778.”。
定义5:金字塔网络构建方法
金字塔网络是一种将特征图缩放成不同分辨率,然后对每个分辨率的特征图进行相应的操作的网络。金字塔网络可以让多尺度特征图更好、更精确地描述不同大小的目标。金字塔网络是目前用于目标检测、语义分割、行为识别等方面比较重要的一个部分,对于提高模型性能具有较好的表现。在特征提取中,低层的特征语义信息比较少,但目标位置准确,分辨率高。高层的特征语义信息比较丰富,但是目标位置比较粗略,分辨率低和比较抽象。于是有些算法采用多尺度特征融合的方式,在融合后的特征做预测。金字塔网络的预测是在不同特征层独立进行的,即:同时利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到预测的效果。金字塔网络详见“https://blog.csdn.net/qq_41204464/article/details/119063011?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_ecpm_v1~rank_v31_ecpm-8-119063011-null-null.pc_agg_new_rank&utm_term=%E7%89%B9%E5%BE%81%E9%87%91%E5%AD%97%E5%A1%94%E7%BD%91%E7%BB%9C&spm=1000.2123.3001.4430”。
定义6:级联操作方法
级联是网络结构设计中重要的一种操作,用于将特征联合,多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合,从而增强网络的特征提取能力。级联方法详见“https://blog.csdn.net/alxe_made/article/details/80506051?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param”。
定义7:前向传播方法
前向传播方法是深度学习当中最基本的一个方法,主要是将输入依据网络中的参数和连接方法进行前向推理,从而得到网络的输出。前向传播方法详见“https://www.jianshu.com/p/f30c8daebebb”。
定义8:经典的Adam算法
经典的Adam算法是一种对随机梯度下降法的扩展,最近在计算机视觉和自然语言处理中广泛应用于深度学习应用。经典的Adam与经典的随机梯度下降法是不同的。随机梯度下降保持一个单一的学习速率,用于所有的权重更新,并且在训练过程中学习速率不会改变。每一个网络权重都保持一个学习速率,并随着学习的展开而单独地进行调整。该方法从梯度的第一次和第二次矩的预算来计算不同参数的自适应学习速率。经典的Adam算法详见“Kingma,D.;Ba,J.Adam:A Method for Stochastic Optimization.arXiv 2014,arXiv:1412.6980.”。
定义9:卷积核构建方法
卷积核是实现将输入的特征图或者图片中的一小部分矩形区域内的值分别加权然后求和作为输出的一个节点。每个卷积核需要人工指定多个参数。一类参数是卷积核所处理的节点矩阵的长和宽,这个节点矩阵的尺寸也是卷积核的尺寸。另外一类卷积核的参数是处理得到的单位节点矩阵的深度,单位节点矩阵的深度也是卷积核的深度。在卷积操作过程中,每个卷积核在输入数据上滑动,然后计算整个卷积核与输入数据相对应位置的内积,之后将内积通过非线性函数得到最终结果,最后所有对应位置的结果组成了一张二维的特征图。每个卷积核都会生成一张二维的特征图,多个卷积核生成的特征图相叠加组成了一个三维的特征图。卷积核操作详见“范丽丽,赵宏伟,赵浩宇,胡黄水,王振.基于深度卷积神经网络的目标检测研究综述[J].光学精密工程,2020,28(05):1152-1164.”。
定义10:上采样方法
上采样是将图片或特征图进行放大操作的一种方法,主流的上采样操作通常采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。在主流插值的算法中,邻插值较简单,容易实现,早期的时候应用比较普遍。但是,该方法会在新图像中产生明显的锯齿边缘和马赛克现象。双线性插值法具有平滑功能,能有效地克服邻法的不足,但会退化图像的高频部分,使图像细节变模糊。在放大倍数比较高时,高阶插值,如双三次和三次样条插值等比低阶插值效果好。这些插值算法可以使插值生成的像素灰度值延续原图像灰度变化的连续性,从而使放大图像浓淡变化自然平滑。但是在图像中,有些像素与相邻像素间灰度值存在突变,即存在灰度不连续性。这些具有灰度值突变的像素就是图像中描述对象的轮廓或纹理图像的边缘像素。经典的上采样操作详见“https://blog.csdn.net/weixin_43960370/article/details/106049708?utm_term=%E5%8D%B7%E7%A7%AF%E7%89%B9%E5%BE%81%E5%9B%BE%E4%B8%8A%E9%87%87%E6%A0%B7&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduweb~default-1-106049708&spm=3001.4430”。
定义11:下采样方法
下采样是将图片或特征图进行缩小操作的一种方法。对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的分辨率的图像,其中s是M和N的公约数,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。经典的下采样操作详见“https://blog.csdn.net/liulina603/article/details/47727277”。
定义12:池化操作方法
池化操作(Pooling)是CNN中非常常见的一种操作,Pooling层是模仿人的视觉系统对数据进行降维,池化操作通常也叫做子采样(Subsampling)或降采样(Downsampling),在构建卷积神经网络时,往往会用在卷积层之后,通过池化来降低卷积层输出的特征维度,有效减少网络参数的同时还可以防止过拟合现象。池化操作具有不同的方式,将保留区域内最大参数作为输出称作最大池化,将保留区域内平均数作为输出成为平均池化。池化操作详见“https://www.zhihu.com/question/303215483/answer/615115629”。
定义13:softmax函数运算方法
Softmax函数是用于多类分类问题的激活函数,在多类分类问题中,超过两个类标签则需要类成员关系。对于长度为K的任意实向量,Softmax函数可以将其压缩为长度为K,值在[0,1]范围内,并且向量中元素的总和为1的实向量
函数的公式为Softmax函数与正常的max函数不同:max函数仅输出最大值,但Softmax函数确保较小的值具有较小的概率,并且不会直接丢弃。我们可以认为它是argmax函数的概率版本或“soft”版本。Softmax函数的分母结合了原始输出值的所有因子,这意味着Softmax函数获得的各种概率彼此相关。Softmax函数详见于“https://blog.csdn.net/hy592070616/article/details/120618490”
定义14:区域推荐网络构建方法
区域推荐网络是Faster R-CNN中的子网络,用于提取图片中可能存在目标的区域。区域推荐网络是全卷积网络,其采用基础网络输出的卷积特征图作为输入,输出是每个候选框的目标置信度得分。区域推荐网络构建方法详见“Ren S,He K,Girshick R,etal.Faster R-CNN:Towards Real-Time Object Detection with Region ProposalNetworks[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,39(6):1137-1149.”
定义15:非极大值抑制方法
非极大值抑制方法是目标检测领域中用来去除冗余检测框的算法。在经典的检测网络的前向传播结果中,常常会出现同一目标对应多个检测框的情况。因此,需要一种算法从同一目标的多个检测框中筛选出一个质量最好、得分最高的检测框。非极大值抑制通过计算重叠率阈值进行局部最大搜索。非极大值抑制方法详见“https://www.cnblogs.com/makefile/p/nms.html”。
定义16:召回率和精确率计算方法
召回率R指在所有的正样本中预测正确的数量,表达式为精确率P指预测为正例的结果中,正确的个数所占的比例表达式为其中,TP(truepositive)表示被模型预测为正值的正样本;FN(false negative)表示被模型预测为负值的负样本;FP(false positive)表示为被模型预测为负值的正样本。召回率和精确率曲线P(R)指以R为自变量,P为因变量的函数,以上参数数值的求法详见文献“李航.统计学习方法[M].北京:清华大学出版社,2012.”。
定义17:内容感知特征重组模块构建方法
上采样操作可以表示为每个位置的上采样核和输入特征图中对应邻域的像素做点积,称之为特征重组。内容感知特征重组模块在特征重组时,会根据输入特征来指导重组过程,在具有较大感受野的同时实现了模块的轻量化。具体来说,是首先利用输入特征图来预测上采样核,每个位置的上采样核是不同的,然后基于预测的上采样核来进行特征重组。内容感知特征重组模块详见于“https://www.pianshen.com/article/45741597585/”。
定义18:RELU激活函数运算方法
ReLU函数是目前比较火的一个激活函数,函数公式:F(x)=max(0,x)。RELU函数具有以下特点:1、没有饱和区,不存在梯度消失问题,防止梯度弥散;2、RELU具有稀疏性;3、RELU函数没有复杂的指数运算,计算简单、效率提高;4、实际收敛速度较快,比Sigmoid/tanh快很多;5、比Sigmoid更符合生物学神经激活机制。RELU激活函数详见于“https://zhuanlan.zhihu.com/p/428448728”。
定义19:感兴趣区域对齐层构建方法
感兴趣区域对齐层是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式,很好地解决了感兴趣区域池化操作中两次量化造成的区域不匹配的问题。实验显示,在检测任务中将感兴趣区域池化层替换为感兴趣区域对齐层可以提升检测模型的准确性。感兴趣区域对齐的思路为:取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。具体操作如下:1.遍历每一个候选区域,保持浮点数边界不做量化。2.将候选区域分割成k×k个单元,每个单元的边界也不做量化。3.在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。感兴趣区域对齐层详见于“https://blog.csdn.net/u011918382/article/details/79455407”。
定义20:反卷积方法
反卷积又称转秩卷积,是一种基于算法的过程,用于反转卷积对记录数据的影响。反卷积是一种特殊的正向卷积,先按照一定的比例通过补0来扩大输入图像的尺寸,接着旋转卷积核,再进行正向卷积。反卷积的公式如下:X=CTY,Y是输入矩阵,X是输出矩阵。反卷积操作详见于“https://zhuanlan.zhihu.com/p/48501100/”。
定义21:非局部注意力模块构建方法
非局部注意力模块的作用即为了有效捕捉序列中各个元素间的依赖关系。在这里,所谓的序列可以是单幅图像的不同位置(即空间序列),也可以是视频中的不同帧(即时间序列),还可以是视频中不同帧的不同位置(即时空序列)。非局部注意力模块具有易于实现的特点。此外,非局部注意力模块具有较强的通用性,可以将其嵌入到任意具体视觉任务模型中的任意位置,使用范围较为广泛。非局部注意力模块详见于“https://zhuanlan.zhihu.com/p/353442085”。
定义22:空洞空间金字塔池化方法
ASPP是由空洞卷积组成。如果想要对图片提取的特征具有较大的感受野,并且又想让特征图的分辨率不下降太多,这两个是矛盾的,想要获取较大感受野需要用较大的卷积核或池化时采用较大的步长,对于前者计算量太大,后者会损失分辨率。而空洞卷积就是用来解决这个矛盾的。即可让其获得较大感受野,又可让分辨率不损失太多。而为了尽可能地减少使用空洞卷积所带来的分辨率损失,空洞空间金字塔池化采用了多种扩张间隔的空洞卷积。空洞空间金字塔池化详见“https://blog.csdn.net/qq_41731861/article/details/122560247?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-2-122560247-blog-120967519.pc_relevant_multi_platform_whitelistv1&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-2-122560247-blog-120967519.pc_relevant_multi_platform_whitelistv1&utm_relevant_index=5”。
定义23:混洗操作方法
混洗操作的概念如下:先通过一个组卷积,得到对应的特征矩阵,假设GConv1采用了三个组(g=3),对其每个组得到的特征矩阵进一步划分为3份,将每个组的第1、2、3份放在一起,得到了混洗部分的特征矩阵。接下来使用混洗操作后的特征矩阵进行组卷积,就能融合不同组之间的维度信息。混洗操作详见“Zhang X,Zhou X,Lin M,et al.Shufflenet:An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2018:6848-6856.”
定义24:卷积块注意力模块构建方法
卷积块注意力模块,英文名为Convolutional Block Attention Module,具有轻量级和通用性,可以集成至任何CNN网络中。卷积运算是通过将跨通道信息和空间信息混合在一起来提取信息特征的,因此提出了使用卷积块来强调通道轴和空间轴这两个主要维度上的有意义特征,构建了卷积块注意力模块。并对此依次应用了Channel AttentionModule(通道注意模块)和Spatial Attention Module(空间注意模块);卷积块注意力模块详见“https://blog.csdn.net/qq_35054151/article/details/113732691”。
本发明提供一种基于掩膜注意交互的SAR图像舰船实例分割方法,它包括以下步骤:
步骤1、初始化数据集
采用定义1中的传统SSDD数据集获取方法获取SSDD数据集,采用传统随机的方法调整SSDD数据集中的SAR图像次序,得到新的SSDD数据集。
采用定义2中的传统HRSID数据集获取方法获取HRSID数据集,采用传统随机的方法调整HRSID数据集中的SAR图像次序,得到新的HRSID数据集。
步骤2、搭建前向传播网络
步骤2.1、搭建特征增强金字塔网络
采用定义4中的经典的残差网络构建方法构建网络层数为101的残差网络,记为Res-101,同时将残差网络Res-101中最后一层网络所生成的特征图,按特征图不同尺寸的由大到小分别记为特征图F1,特征图F2,特征图F3,特征图F4,特征图F5。
将特征图F5另记为特征图P5。
采用定义9中的传统卷积核操作方法,对特征图F4用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E4。采用定义10中的传统上采样方法,通过上采样得到特征图P5的尺寸与特征图F4一致的新的特征图,记为特征图U5。采用定义6中的传统级联操作方法,将特征图E4和特征图U5进行叠加,得到叠加结果特征图,记为P4。
采用定义9中的传统卷积核操作方法,对特征图F3,用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E3。采用定义10中的传统上采样方法,通过上采样得到特征图P4的尺寸与特征图F3一致的新的特征图,记为特征图U4。采用定义6中的传统级联操作方法,将特征图E3和特征图U4进行叠加,得到叠加结果特征图,记为P3。
将特征图P3另记为特征图H3。
采用定义9中的传统卷积核操作方法,对特征图F2,用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E2。采用定义10中的传统上采样方法,通过上采样得到特征图P3的尺寸与特征图F2一致的新的特征图,记为特征图U3;采用定义6中的传统级联操作方法,将特征图E2和特征图U3进行叠加,得到叠加结果特征图,记为P2。
采用定义17中的传统内容感知特征重组模块构建方法,构建内容感知特征重组模块,记为CARAFE。将特征图P2作为输入,送入CARAFE,得到CARAFE的输出结果,记为P1。
采用定义10中的传统上采样操作方法,通过上采样得到特征图P5的尺寸与特征图P3一致的新的特征图,记为特征图H5。
采用定义10中的传统上采样操作方法,通过上采样得到特征图P4的尺寸与特征图P3一致的新的特征图,记为特征图H4。
采用定义10中的传统下采样操作方法,通过上采样得到特征图P2的尺寸与特征图P3一致的新的特征图,记为特征图H2。
采用定义10中的传统下采样操作方法,通过上采样得到特征图P1的尺寸与特征图P3一致的新的特征图,记为特征图H1。
采用定义9中的传统卷积核操作,对特征图I用1×1卷积核进行特征提取,记特征提取结果为特征图I11。采用定义13中的传统softmax操作方法,将特征图I11进行softmax操作,得到softmax运算输出结果,记为特征图I12。将特征图I12与特征图I相乘,得到特征图相乘结果,记为特征图I2。
采用定义9中的传统卷积核操作方法,对特征图I2用1×1卷积核进行特征提取,记特征提取结果为特征图I21。根据定义20的经典RELU激活函数,将特征图I21输入激活函数中,得到激活函数输出结果,记为特征图I22。采用定义9中的传统卷积核操作方法,对特征图I22用1×1卷积核进行特征提取,得到特征提取结果,记为特征图I23。将特征图I23和特征图I相加,得到相加结果,记为特征图IGCB。将特征图IGCB另记为特征图E3。
采用定义11中的传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P5一致的新的特征图,记为特征图E5。
采用定义11中的传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P4一致的新的特征图,记为特征图E4。
采用定义11中的传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P2一致的新的特征图,记为特征图E2。
采用定义11中的传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P1一致的新的特征图,记为特征图IGCB-1。将特征图P1与特征图IGCB-1相加,记为特征图E1。
对于特征图E1、特征图E2、特征图E3、特征图E4、特征图E5,采用定义5中的传统金字塔网络方法构建方法,得到平衡特征金字塔网络,记为Backbone。
步骤3.2、搭建感兴趣区域推荐网络
采用定义14中的传统区域推荐网络构建方法,以步骤3.1中得到的Backbone为特征提取层,构建区域推荐网络,记为区域推荐网络R。
采用定义19中的传统感兴趣区域对齐层构建方法,构建感兴趣区域对齐层,记为ROIAlign0。
由步骤3.2中得到的区域推荐网络R和感兴趣区域对齐层ROIAlign0构成感兴趣区域推荐网络,记为RPN0。将感兴趣区域推荐网络RPN0的输出记为FRPN。
步骤3.3、搭建串联交互多阶段掩膜网络
采用定义9中的传统卷积核操作方法,构建四个卷积核大小为3×3的卷积层,分别为Conv11、Conv12、Conv13、Conv14。采用定义20的传统反卷积操作方法,构建反卷积层DeConv1。采用定义22的传统空洞空间金字塔池化操作方法,建立空洞空间金字塔池化层,记为ASPP1。采用定义21的传统非局部注意力模块构建方法,建立非局部注意力模块,记为NonLocal1。将FRPN作为卷积层Conv11的输入。将卷积层Conv11的输出作为卷积层Conv12的输入,卷积层Conv12的输出作为卷积层Conv13的输入,卷积层Conv13的输出作为卷积层Conv14的输入。卷积层Conv14的输出分别作为反卷积层DeConv1和空洞空间金字塔池化层ASPP1的输入。记反卷积层DeConv1的输出为OUT1。将空洞空间金字塔池化层ASPP1的输入作为非局部注意力模块NonLocal1的输入。记非局部注意力模块NonLocal1的输出为T1。
采用定义6的传统级联操作方法,将FRPN和T1进行级联,得到级联结果,记为F1+。采用定义23的传统混洗操作方法,对F1+进行混洗操作,得到混洗结果,记为FShuffle1。采用定义24的传统卷积块注意力模块构建方法,构建卷积块注意力模块,记为CBAM1。将FShuffle1作为卷积块注意力模块CBAM1的输入,将卷积块注意力模块CBAM1的输出记为FCBAM1。
采用定义9中的传统卷积核操作方法,构建四个卷积核大小为3×3的卷积层,分别为Conv21、Conv22、Conv23、Conv24。采用定义20的传统反卷积操作,构建反卷积层DeConv2。采用定义22的传统空洞空间金字塔池化操作方法,建立空洞空间金字塔池化层,记为ASPP2。采用定义21的传统非局部注意力模块构建方法,建立非局部注意力模块,记为NonLocal2。将FCBAM1作为卷积层Conv21的输入。将卷积层Conv21的输出作为卷积层Conv22的输入,卷积层Conv22的输出作为卷积层Conv23的输入,卷积层Conv23的输出作为卷积层Conv24的输入。卷积层Conv24的输出分别作为反卷积层DeConv2和空洞空间金字塔池化层ASPP2的输入。记反卷积层DeConv2的输出为OUT2。将空洞空间金字塔池化层ASPP2的输入作为非局部注意力模块NonLocal2的输入。记非局部注意力模块NonLocal2的输出为T2。
采用定义6的传统级联操作方法,将FRPN和T2进行级联,得到级联结果,记为F2+。采用定义23的传统混洗操作方法,将F2+进行混洗操作,得到混洗结果,记为FShuffle2。采用定义24传统卷积块注意力模块构建方法,构建卷积块注意力模块,记为CBAM2。将FShuffle2作为卷积块注意力模块CBAM2的输入,将卷积块注意力模块CBAM2的输出记为FCBAM2。
采用定义9中的传统卷积核操作方法,构建四个卷积核大小为3×3的卷积层,分别为Conv31、Conv32、Conv33、Conv34;采用定义20的传统反卷积操作方法,构建反卷积层DeConv3;将FCBAM2作为卷积层Conv31的输入。将卷积层Conv31的输出作为卷积层Conv32的输入,卷积层Conv32的输出作为卷积层Conv33的输入,卷积层Conv33的输出作为卷积层Conv34的输入。卷积层Conv34的输出作为反卷积层DeConv3的输入。将反卷积层DeConv3的输出记为OUT3。
由卷积层Conv11、Conv12、Conv13、Conv14、Conv21、Conv22、Conv23、Conv24、Conv31、Conv32、Conv33、Conv34,反卷积层DeConv1、DeConv2,空洞空间金字塔池化层ASPP1、ASPP2,非局部注意力模块NonLocal1、NonLocal2,卷积块注意力模块CBAM1、CBAM2,以及级联、混洗的结果F1+、FShuffle1、F2+、FShuffle2组成串联交互多阶段掩膜网络,记为MAI0。
步骤3、训练感兴趣区域推荐网络
设置迭代参数epoch,初始化epoch值为1。
步骤3.1、对感兴趣区域推荐网络进行前向传播
将步骤1中的数据集的训练集Train作为感兴趣区域推荐网络RPN0的输入,采用定义7中的传统前向传播方法把训练集Train送入感兴趣区域推荐网络RPN0进行运算,得到感兴趣区域推荐网络RPN0的运算结果,记为Result0。
步骤3.2、对感兴趣区域推荐网络进行训练和优化
将步骤3.2中得到的结果Result0作为输入,采用定义8中的经典的Adam算法对区域推荐网络进行训练和优化。得到训练和优化之后的感兴趣区域推荐网络RPN1。
步骤4、训练串联交互多阶段掩膜网络
步骤4.1、对串联交互多阶段掩膜网络进行前向传播
将步骤1中的数据集的训练集Train作为串联交互多阶段掩膜网络MAI0的输入,采用定义7中的传统前向传播方法把训练集Train送入串联交互多阶段掩膜网络MAI0进行运算,得到串联交互多阶段掩膜网络MAI0的运算结果,记为Result1。
步骤4.2、对串联交互多阶段掩膜网络进行训练和优化
将步骤4.1中得到的串联交互多阶段掩膜网络MAI0的输出Result1作为输入,采用定义8中的经典的Adam算法对串联交互多阶段掩膜网络进行训练和优化。得到训练和优化之后的串联交互多阶段掩膜网络MAI1。
步骤5、进行交替训练
判断步骤4中设置的epoch是否等于12。
如果epoch不等于12,则令epoch=epoch+1、RPN0=RPN1、MAI0=MAI1,依次重复步骤3.1、步骤3.2、步骤4.1、步骤4.2,然后返回步骤5对epoch进行再次判断;
如果epoch等于12,则令训练后的感兴趣区域推荐网络RPN1和训练后的串联交互多阶段掩膜网络MAI1记为网络MAI-SE-Net,然后进行步骤6.
步骤6、评估方法
步骤6.1、前向传播
以步骤5中得到网络MAI-SE-Net和步骤1中得到的测试集Tests作为输入,采用定义7传统的前向传播方法,得到检测结果,记为R。
以检测结果R作为输入,采用定义15中传统的非极大值抑制方法,去除检测结果R中的冗余框,具体步骤如下:
步骤(1)首先令检测结果R中得分最高的框,记为BS;
步骤(3)从剩余框中选出得分最高的框BS;
重复上述步骤(2)中计算IoU和舍弃的过程,直到没有框可以舍弃,最后剩余的框即为最终检测结果,记为RF。
步骤6.2、计算指标
本发明的创新点在于引入了特征增强金字塔,空洞空间金字塔池化、非局部模块、串联注意块、通道混洗,从而解决现有基于深度学习的SAR船只实例分割方法中存在的模型内数据交互性能有限或者不能实现掩膜交互的问题。在SSDD数据集上,采用本方法的SAR图像船只检测AP为70.3%,超过次优SAR图像船只检测器7.3个百分点;采用本方法的SAR图像船只实例分割AP为63.0%,超过次优SAR图像船只实例分割器6个百分点;在HRSID数据集上,采用本方法的SAR图像船只检测AP为69.7%,超过次优SAR图像船只检测器5个百分点;采用本方法的SAR图像船只实例分割AP为57.8%,超过次优SAR图像船只实例分割器2.4个百分点;
本发明的优点在于能够克服现有技术存在的模型内数据交互性能有限或者不能实现掩膜交互的问题。
附图说明
图1为本发明中的基于掩膜注意交互与尺度增强网络的SAR图像船只实例分割方法的流程示意图。
图2为本发明中的基于掩膜注意交互与尺度增强网络的SAR图像船只实例分割方法中的特征增强金字塔结构示意图。
图3为本发明中的基于掩膜注意交互与尺度增强网络的SAR图像船只实例分割方法中的串联交互多阶段掩膜网络结构示意图。
图4为本发明中的基于掩膜注意交互与尺度增强网络的SAR图像船只实例分割方法的检测精度和实例分割精度。
具体实施方式
下面结合附图1、附图2、附图3、附图4对本发明的作进一步详细描述。
步骤1、初始化数据集
采用定义1中的SSDD数据集获取方法,采用随机的方法调整SSDD数据集中的SAR图像次序,得到新的SSDD数据集。采用定义2中的HRSID数据集获取方法,采用随机的方法调整HRSID数据集中的SAR图像次序,得到新的HRSID数据集。
步骤2、搭建前向传播网络
步骤2.1、搭建特征增强金字塔网络
如图1所示,采用定义4中的经典的残差网络构建方法构建网络层数为101的残差网络,记为Res-101,同时将残差网络Res-101中最后一层网络所生成的特征图,按特征图不同尺寸的由大到小分别记为特征图F1,特征图F2,特征图F3,特征图F4,特征图F5。
将特征图F5另记为特征图P5。
如图2所示,采用定义9中的卷积核操作,对特征图F4用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E4。采用定义10中的上采样方法,通过上采样将特征图P5的尺寸与特征图F4一致,得到新的特征图,记为特征图U5。采用定义6中的级联操作方法,将特征图E4和特征图U5进行叠加,得到叠加结果特征图,记为P4。
采用定义9中的卷积核操作,对特征图F3,用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E3。采用定义10中的上采样方法,通过上采样将特征图P4的尺寸与特征图F3一致,得到新的特征图,记为特征图U4。采用定义6中的级联操作方法,将特征图E3和特征图U4进行叠加,得到叠加结果特征图,记为P3。
将特征图P3另记为特征图H3。
采用定义9中的卷积核操作,对特征图F2,用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E2。采用定义10中的上采样方法,通过上采样将特征图P3的尺寸与特征图F2一致,得到新的特征图,记为特征图U3;采用定义6中的级联操作方法,将特征图E2和特征图U3进行叠加,得到叠加结果特征图,记为P2。
采用定义17中的内容感知特征重组模块构建方法,构建内容感知特征重组模块,记为CARAFE。将特征图P2作为输入,送入CARAFE,得到CARAFE的输出结果,记为P1。
采用定义10中的上采样操作方法,通过上采样将特征图P5的尺寸与特征图P3一致,得到新的特征图,记为特征图H5。
采用定义10中的上采样操作方法,通过上采样将特征图P4的尺寸与特征图P3一致,得到新的特征图,记为特征图H4。
采用定义10中的下采样操作方法,通过上采样将特征图P2的尺寸与特征图P3一致,得到新的特征图,记为特征图H2。
采用定义10中的下采样操作方法,通过上采样将特征图P1的尺寸与特征图P3一致,得到新的特征图,记为特征图H1。
采用定义9中的卷积核操作,对特征图I用1×1卷积核进行特征提取,记特征提取结果为特征图I11。采用定义13中的softmax操作,将特征图I11进行softmax操作,得到输出结果,记为特征图I12。将特征图I12与特征图I相乘,得到特征图相乘结果,记为特征图I2。
采用定义9中的卷积核操作,对特征图I2用1×1卷积核进行特征提取,记特征提取结果为特征图I21。采用定义20的RELU激活函数,将特征图I21输入激活函数中,得到激活函数输出结果,记为特征图I22。采用定义9中的卷积核操作,对特征图I22用1×1卷积核进行特征提取,得到特征提取结果,记为特征图I23。将特征图I23和特征图I相加,得到相加结果,记为特征图IGCB。将特征图IGCB另记为特征图E3。
采用定义11中的下采样操作方法,通过下采样操作将特征图IGCB的尺寸与特征图P5一致,得到新的特征图,记为特征图E5。
采用定义11中的下采样操作方法,通过下采样操作将特征图IGCB的尺寸与特征图P4一致,得到新的特征图,记为特征图E4。
采用定义11中的下采样操作方法,通过下采样操作将特征图IGCB的尺寸与特征图P2一致,得到新的特征图,记为特征图E2。
采用定义11中的下采样操作方法,通过下采样操作将特征图IGCB的尺寸与特征图P1一致,得到新的特征图,记为特征图IGCB-1。将特征图P1与特征图IGCB-1相加,记为特征图E1。
对于特征图E1、特征图E2、特征图E3、特征图E4、特征图E5,采用定义5中的金字塔网络方法构建方法,得到平衡特征金字塔网络,记为Backbone。
步骤3.2、搭建感兴趣区域推荐网络
采用定义14中的区域推荐网络构建方法,以步骤3.1中得到的Backbone为特征提取层,构建区域推荐网络,记为区域推荐网络R。
采用定义19中的感兴趣区域对齐层构建方法,构建感兴趣区域对齐层,记为ROIAlign0。
由步骤3.2中得到的区域推荐网络R和感兴趣区域对齐层ROIAlign0构成感兴趣区域推荐网络记为RPN0,将感兴趣区域推荐网络RPN0的输出记为FRPN。
步骤3.3、搭建串联交互多阶段掩膜网络
如图3所示,采用定义9中的卷积核操作,构建四个卷积核大小为3×3的卷积层,分别为Conv11、Conv12、Conv13、Conv14。采用定义20的反卷积操作,构建反卷积层DeConv1。采用定义22的空洞空间金字塔池化操作,建立空洞空间金字塔池化层,记为ASPP1。采用定义21的非局部注意力模块,建立非局部注意力模块,记为NonLocal1。将FRPN作为卷积层Conv11的输入。将卷积层Conv11的输出作为卷积层Conv12的输入,卷积层Conv12的输出作为卷积层Conv13的输入,卷积层Conv13的输出作为卷积层Conv14的输入。卷积层Conv14的输出分别作为反卷积层DeConv1和空洞空间金字塔池化层ASPP1的输入。记反卷积层DeConv1的输出为OUT1。将空洞空间金字塔池化层ASPP1的输入作为非局部注意力模块NonLocal1的输入。记非局部注意力模块NonLocal1的输出为T1。
采用定义6的级联操作方法,将FRPN和T1进行级联,得到级联结果,记为F1+。采用定义23的混洗操作方法,对F1+进行混洗操作,得到混洗结果,记为FShuffle1。采用定义24的卷积块注意力模块构建方法,构建卷积块注意力模块,记为CBAM1。将FShuffle1作为卷积块注意力模块CBAM1的输入,将卷积块注意力模块CBAM1的输出记为FCBAM1。
采用定义9中的卷积核操作,构建四个卷积核大小为3×3的卷积层,分别为Conv21、Conv22、Conv23、Conv24。采用定义20的反卷积操作,构建反卷积层DeConv2。采用定义22的空洞空间金字塔池化操作,建立空洞空间金字塔池化层,记为ASPP2。采用定义21的非局部注意力模块,建立非局部注意力模块,记为NonLocal2。将FCBAM1作为卷积层Conv21的输入。将卷积层Conv21的输出作为卷积层Conv22的输入,卷积层Conv22的输出作为卷积层Conv23的输入,卷积层Conv23的输出作为卷积层Conv24的输入。卷积层Conv24的输出分别作为反卷积层DeConv2和空洞空间金字塔池化层ASPP2的输入。记反卷积层DeConv2的输出为OUT2。将空洞空间金字塔池化层ASPP2的输入作为非局部注意力模块NonLocal2的输入。记非局部注意力模块NonLocal2的输出为T2。
采用定义6的级联操作方法,将FRPN和T2进行级联,得到级联结果,记为F2+。采用定义23的混洗操作方法,将F2+进行混洗操作,得到混洗结果,记为FShuffle2。采用定义24的卷积块注意力模块构建方法,构建卷积块注意力模块,记为CBAM2。将FShuffle2作为卷积块注意力模块CBAM2的输入,将卷积块注意力模块CBAM2的输出记为FCBAM2。
采用定义9中的卷积核操作,构建四个卷积核大小为3×3的卷积层,分别为Conv31、Conv32、Conv33、Conv34;采用定义20的反卷积操作,构建反卷积层DeConv3;将FCBAM2作为卷积层Conv31的输入。将卷积层Conv31的输出作为卷积层Conv32的输入,卷积层Conv32的输出作为卷积层Conv33的输入,卷积层Conv33的输出作为卷积层Conv34的输入。卷积层Conv34的输出作为反卷积层DeConv3的输入。将反卷积层DeConv3的输出记为OUT3。
由卷积层Conv11、Conv12、Conv13、Conv14、Conv21、Conv22、Conv23、Conv24、Conv31、Conv32、Conv33、Conv34,反卷积层DeConv1、DeConv2,空洞空间金字塔池化层ASPP1、ASPP2,非局部注意力模块NonLocal1、NonLocal2,卷积块注意力模块CBAM1、CBAM2,以及级联、混洗的结果F1+、FShuffle1、F2+、FShuffle2组成串联交互多阶段掩膜网络,记为MAI0。
步骤3、训练感兴趣区域推荐网络
设置迭代参数epoch,初始化epoch值为1。
步骤3.1、对感兴趣区域推荐网络进行前向传播
将步骤1中的数据集的训练集Train作为感兴趣区域推荐网络RPN0的输入,采用定义7中的前向传播方法把训练集Train送入感兴趣区域推荐网络RPN0进行运算,得到感兴趣区域推荐网络RPN0的运算结果,记为Result0。
步骤3.2、对感兴趣区域推荐网络进行训练和优化
将步骤3.2中得到的结果Result0作为输入,采用定义8中的经典的Adam算法对区域推荐网络进行训练和优化。得到训练和优化之后的感兴趣区域推荐网络RPN1。
步骤4、训练串联交互多阶段掩膜网络
步骤4.1、对串联交互多阶段掩膜网络进行前向传播
将步骤1中的数据集的训练集Train作为串联交互多阶段掩膜网络MAI0的输入,采用定义7中的前向传播方法把训练集Train送入串联交互多阶段掩膜网络MAI0进行运算,得到串联交互多阶段掩膜网络MAI0的运算结果,记为Result1。
步骤4.2、对串联交互多阶段掩膜网络进行训练和优化
将步骤4.1中得到的串联交互多阶段掩膜网络MAI0的输出Result1作为输入,采用定义8中的经典的Adam算法对串联交互多阶段掩膜网络进行训练和优化。得到训练和优化之后的串联交互多阶段掩膜网络MAI1。
步骤5、进行交替训练
判断步骤4中设置的epoch是否等于12。如果epoch不等于12,则令epoch=epoch+1、RPN0=RPN1、MAI0=MAI1,依次重复步骤3.1、步骤3.2、步骤4.1、步骤4.2,然后返回步骤5对epoch进行再次判断;如果epoch等于12,则令训练后的感兴趣区域推荐网络RPN1和训练后的串联交互多阶段掩膜网络MAI1记为网络MAI-SE-Net,然后进行步骤6.
步骤6、评估方法
步骤6.1、前向传播
以步骤5中得到网络MAI-SE-Net和步骤1中得到的测试集Tests作为输入,采用定义7传统的前向传播方法,得到检测结果,记为R。
以检测结果R作为输入,采用定义15中传统的非极大值抑制方法,去除检测结果R中的冗余框,具体步骤如下:
步骤(1)首先令检测结果R中得分最高的框,记为BS;
步骤(3)从剩余框中选出得分最高的框BS;
重复上述步骤(2)中计算IoU和舍弃的过程,直到没有框可以舍弃,最后剩余的框即为最终检测结果,记为RF。
步骤6.2、计算指标
Claims (1)
1.一种基于掩膜注意交互的SAR图像舰船实例分割方法,其特征是它包括以下步骤:
步骤1、初始化数据集
采用传统SSDD数据集获取方法获取SSDD数据集,采用随机的方法调整SSDD数据集中的SAR图像次序,得到新的SSDD数据集;
采用传统HRSID数据集获取方法获取HRSID数据集,采用随机的方法调整HRSID数据集中的SAR图像次序,得到新的HRSID数据集;
步骤2、搭建前向传播网络
步骤2.1、搭建特征增强金字塔网络
采用经典的残差网络构建方法构建网络层数为101的残差网络,记为Res-101,同时将残差网络Res-101中最后一层网络所生成的特征图,按特征图不同尺寸的由大到小分别记为特征图F1,特征图F2,特征图F3,特征图F4,特征图F5;
将特征图F5另记为特征图P5;
采用传统卷积核操作方法,对特征图F4用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E4;采用传统上采样方法,通过上采样得到特征图P5的尺寸与特征图F4一致的新的特征图,记为特征图U5;采用传统级联操作方法,将特征图E4和特征图U5进行叠加,得到叠加结果特征图,记为P4;
采用传统卷积核操作方法,对特征图F3,用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E3;采用传统上采样方法,通过上采样得到特征图P4的尺寸与特征图F3一致的新的特征图,记为特征图U4;采用传统级联操作方法,将特征图E3和特征图U4进行叠加,得到叠加结果特征图,记为P3;
将特征图P3另记为特征图H3;
采用传统卷积核操作方法,对特征图F2,用1×1卷积核进行特征提取,得到特征提取结果,记为特征图E2;采用传统上采样方法,通过上采样得到特征图P3的尺寸与特征图F2一致的新的特征图,记为特征图U3;采用传统级联操作方法,将特征图E2和特征图U3进行叠加,得到叠加结果特征图,记为P2;
采用传统内容感知特征重组模块构建方法,构建内容感知特征重组模块,记为CARAFE;将特征图P2作为输入,送入CARAFE,得到CARAFE的输出结果,记为P1;
采用传统上采样操作方法,通过上采样得到特征图P5的尺寸与特征图P3一致的新的特征图,记为特征图H5;
采用传统上采样操作方法,通过上采样得到特征图P4的尺寸与特征图P3一致的新的特征图,记为特征图H4;
采用传统下采样操作方法,通过上采样得到特征图P2的尺寸与特征图P3一致的新的特征图,记为特征图H2;
采用传统下采样操作方法,通过上采样得到特征图P1的尺寸与特征图P3一致的新的特征图,记为特征图H1;
采用传统卷积核操作,对特征图I用1×1卷积核进行特征提取,记特征提取结果为特征图I11;采用传统softmax操作方法,将特征图I11进行softmax操作,得到softmax运算输出结果,记为特征图I12;将特征图I12与特征图I相乘,得到特征图相乘结果,记为特征图I2;
采用传统卷积核操作方法,对特征图I2用1×1卷积核进行特征提取,记特征提取结果为特征图I21;根据经典RELU激活函数,将特征图I21输入激活函数中,得到激活函数输出结果,记为特征图I22;采用传统卷积核操作方法,对特征图I22用1×1卷积核进行特征提取,得到特征提取结果,记为特征图I23;将特征图I23和特征图I相加,得到相加结果,记为特征图IGCB;将特征图IGCB另记为特征图E3;
采用传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P5一致的新的特征图,记为特征图E5;
采用传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P4一致的新的特征图,记为特征图E4;
采用传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P2一致的新的特征图,记为特征图E2;
采用传统下采样操作方法,通过下采样操作得到特征图IGCB的尺寸与特征图P1一致的新的特征图,记为特征图IGCB-1;将特征图P1与特征图IGCB-1相加,记为特征图E1;
对于特征图E1、特征图E2、特征图E3、特征图E4、特征图E5,采用传统金字塔网络方法构建方法,得到平衡特征金字塔网络,记为Backbone;
步骤3.2、搭建感兴趣区域推荐网络
采用传统区域推荐网络构建方法,以步骤3.1中得到的Backbone为特征提取层,构建区域推荐网络,记为区域推荐网络R;
采用传统感兴趣区域对齐层构建方法,构建感兴趣区域对齐层,记为ROIAlign0;
由步骤3.2中得到的区域推荐网络R和感兴趣区域对齐层ROIAlign0构成感兴趣区域推荐网络,记为RPN0;将感兴趣区域推荐网络RPN0的输出记为FRPN;
步骤3.3、搭建串联交互多阶段掩膜网络
采用传统卷积核操作方法,构建四个卷积核大小为3×3的卷积层,分别为Conv11、Conv12、Conv13、Conv14;采用传统反卷积操作方法,构建反卷积层DeConv1;采用传统空洞空间金字塔池化操作方法,建立空洞空间金字塔池化层,记为ASPP1;采用传统非局部注意力模块构建方法,建立非局部注意力模块,记为NonLocal1;将FRPN作为卷积层Conv11的输入;将卷积层Conv11的输出作为卷积层Conv12的输入,卷积层Conv12的输出作为卷积层Conv13的输入,卷积层Conv13的输出作为卷积层Conv14的输入;卷积层Conv14的输出分别作为反卷积层DeConv1和空洞空间金字塔池化层ASPP1的输入;记反卷积层DeConv1的输出为OUT1;将空洞空间金字塔池化层ASPP1的输入作为非局部注意力模块NonLocal1的输入;记非局部注意力模块NonLocal1的输出为T1;
采用传统级联操作方法,将FRPN和T1进行级联,得到级联结果,记为F1+;采用传统混洗操作方法,对F1+进行混洗操作,得到混洗结果,记为FShuffle1;采用传统卷积块注意力模块构建方法,构建卷积块注意力模块,记为CBAM1;将FShuffle1作为卷积块注意力模块CBAM1的输入,将卷积块注意力模块CBAM1的输出记为FCBAM1;
采用传统卷积核操作方法,构建四个卷积核大小为3×3的卷积层,分别为Conv21、Conv22、Conv23、Conv24;采用传统反卷积操作,构建反卷积层DeConv2;采用传统空洞空间金字塔池化操作方法,建立空洞空间金字塔池化层,记为ASPP2;采用传统非局部注意力模块构建方法,建立非局部注意力模块,记为NonLocal2;将FCBAM1作为卷积层Conv21的输入;将卷积层Conv21的输出作为卷积层Conv22的输入,卷积层Conv22的输出作为卷积层Conv23的输入,卷积层Conv23的输出作为卷积层Conv24的输入;卷积层Conv24的输出分别作为反卷积层DeConv2和空洞空间金字塔池化层ASPP2的输入;记反卷积层DeConv2的输出为OUT2;将空洞空间金字塔池化层ASPP2的输入作为非局部注意力模块NonLocal2的输入;记非局部注意力模块NonLocal2的输出为T2;
采用传统级联操作方法,将FRPN和T2进行级联,得到级联结果,记为F2+;采用传统混洗操作方法,将F2+进行混洗操作,得到混洗结果,记为FShuffle2;采用传统卷积块注意力模块构建方法,构建卷积块注意力模块,记为CBAM2;将FShuffle2作为卷积块注意力模块CBAM2的输入,将卷积块注意力模块CBAM2的输出记为FCBAM2;
采用传统卷积核操作方法,构建四个卷积核大小为3×3的卷积层,分别为Conv31、Conv32、Conv33、Conv34;采用传统反卷积操作方法,构建反卷积层DeConv3;将FCBAM2作为卷积层Conv31的输入;将卷积层Conv31的输出作为卷积层Conv32的输入,卷积层Conv32的输出作为卷积层Conv33的输入,卷积层Conv33的输出作为卷积层Conv34的输入;卷积层Conv34的输出作为反卷积层DeConv3的输入;将反卷积层DeConv3的输出记为OUT3;
由卷积层Conv11、Conv12、Conv13、Conv14、Conv21、Conv22、Conv23、Conv24、Conv31、Conv32、Conv33、Conv34,反卷积层DeConv1、DeConv2,空洞空间金字塔池化层ASPP1、ASPP2,非局部注意力模块NonLocal1、NonLocal2,卷积块注意力模块CBAM1、CBAM2,以及级联、混洗的结果F1+、FShuffle1、F2+、FShuffle2组成串联交互多阶段掩膜网络,记为MAI0;
步骤3、训练感兴趣区域推荐网络
设置迭代参数epoch,初始化epoch值为1;
步骤3.1、对感兴趣区域推荐网络进行前向传播
将步骤1中的数据集的训练集Train作为感兴趣区域推荐网络RPN0的输入,采用传统前向传播方法把训练集Train送入感兴趣区域推荐网络RPN0进行运算,得到感兴趣区域推荐网络RPN0的运算结果,记为Result0;
步骤3.2、对感兴趣区域推荐网络进行训练和优化
将步骤3.2中得到的结果Result0作为输入,采用经典的Adam算法对区域推荐网络进行训练和优化;得到训练和优化之后的感兴趣区域推荐网络RPN1;
步骤4、训练串联交互多阶段掩膜网络
步骤4.1、对串联交互多阶段掩膜网络进行前向传播
将步骤1中的数据集的训练集Train作为串联交互多阶段掩膜网络MAI0的输入,采用传统前向传播方法把训练集Train送入串联交互多阶段掩膜网络MAI0进行运算,得到串联交互多阶段掩膜网络MAI0的运算结果,记为Result1;
步骤4.2、对串联交互多阶段掩膜网络进行训练和优化
将步骤4.1中得到的串联交互多阶段掩膜网络MAI0的输出Result1作为输入,采用经典的Adam算法对串联交互多阶段掩膜网络进行训练和优化;得到训练和优化之后的串联交互多阶段掩膜网络MAI1;
步骤5、进行交替训练
判断步骤4中设置的epoch是否等于12;
如果epoch不等于12,则令epoch=epoch+1、RPN0=RPN1、MAI0=MAI1,依次重复步骤3.1、步骤3.2、步骤4.1、步骤4.2,然后返回步骤5对epoch进行再次判断;
如果epoch等于12,则令训练后的感兴趣区域推荐网络RPN1和训练后的串联交互多阶段掩膜网络MAI1记为网络MAI-SE-Net,然后进行步骤6.
步骤6、评估方法
步骤6.1、前向传播
以步骤5中得到网络MAI-SE-Net和步骤1中得到的测试集Tests作为输入,采用传统的前向传播方法,得到检测结果,记为R;
以检测结果R作为输入,采用传统的非极大值抑制方法,去除检测结果R中的冗余框,具体步骤如下:
步骤(1)首先令检测结果R中得分最高的框,记为BS;
步骤(3)从剩余框中选出得分最高的框BS;
重复上述步骤(2)中计算IoU和舍弃的过程,直到没有框可以舍弃,最后剩余的框即为最终检测结果,记为RF;
步骤6.2、计算指标
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210806482.4A CN115272670A (zh) | 2022-07-08 | 2022-07-08 | 一种基于掩膜注意交互的sar图像舰船实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210806482.4A CN115272670A (zh) | 2022-07-08 | 2022-07-08 | 一种基于掩膜注意交互的sar图像舰船实例分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272670A true CN115272670A (zh) | 2022-11-01 |
Family
ID=83765949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210806482.4A Pending CN115272670A (zh) | 2022-07-08 | 2022-07-08 | 一种基于掩膜注意交互的sar图像舰船实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272670A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402999A (zh) * | 2023-06-05 | 2023-07-07 | 电子科技大学 | 一种联合量子随机数与深度学习sar实例分割方法 |
WO2024112579A1 (en) * | 2022-11-23 | 2024-05-30 | Subtle Medical, Inc. | Systems and methods for mri contrast synthesis under light-weighted framework |
-
2022
- 2022-07-08 CN CN202210806482.4A patent/CN115272670A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024112579A1 (en) * | 2022-11-23 | 2024-05-30 | Subtle Medical, Inc. | Systems and methods for mri contrast synthesis under light-weighted framework |
CN116402999A (zh) * | 2023-06-05 | 2023-07-07 | 电子科技大学 | 一种联合量子随机数与深度学习sar实例分割方法 |
CN116402999B (zh) * | 2023-06-05 | 2023-09-15 | 电子科技大学 | 一种联合量子随机数与深度学习sar实例分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
CN108596248B (zh) | 一种基于改进深度卷积神经网络的遥感影像分类方法 | |
CN111738329B (zh) | 一种面向时间序列遥感影像的土地利用分类方法 | |
CN109949255B (zh) | 图像重建方法及设备 | |
CN114565860B (zh) | 一种多维度增强学习合成孔径雷达图像目标检测方法 | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111798469A (zh) | 基于深度卷积神经网络的数字图像小数据集语义分割方法 | |
CN110084181B (zh) | 一种基于稀疏MobileNetV2网络的遥感图像舰船目标检测方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN117576402B (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN115761393B (zh) | 一种基于模板在线学习的无锚目标跟踪方法 | |
CN110866938A (zh) | 一种全自动视频运动目标分割方法 | |
CN113989672B (zh) | 一种基于平衡学习的sar图像船只检测方法 | |
CN115272842A (zh) | 一种基于全局语义边界注意网络的sar图像船只实例分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN116109689A (zh) | 基于引导优化聚合的边缘保持立体匹配方法 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN118154971A (zh) | 一种基于全卷积-动态图网络的sar图像分类方法 | |
CN111860668B (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、系统 | |
Jiang et al. | Semantic segmentation network combined with edge detection for building extraction in remote sensing images | |
CN117765175A (zh) | 一种基于特征聚合Transformer的多视图立体重建系统 | |
CN117593187A (zh) | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 | |
CN111967292A (zh) | 一种轻量级的sar图像船只检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |