CN113095479A - 一种基于多尺度注意力机制的冰下层结构提取方法 - Google Patents
一种基于多尺度注意力机制的冰下层结构提取方法 Download PDFInfo
- Publication number
- CN113095479A CN113095479A CN202110303215.0A CN202110303215A CN113095479A CN 113095479 A CN113095479 A CN 113095479A CN 202110303215 A CN202110303215 A CN 202110303215A CN 113095479 A CN113095479 A CN 113095479A
- Authority
- CN
- China
- Prior art keywords
- multiplied
- size
- input
- ice
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 title claims description 32
- 238000000605 extraction Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000010410 layer Substances 0.000 claims description 114
- 230000006870 function Effects 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 16
- 239000011435 rock Substances 0.000 claims description 16
- 239000002344 surface layer Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000007634 remodeling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000005457 ice water Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
一种基于多尺度注意力机制的冰下层结构提取方法,涉及使用计算机视觉领域。本发明提出了一种新型的MsANet网络,该网络以双分支卷积网络作为骨干网络,不仅融合了多尺度特征,且使用了3D注意力机制,以进一步对3D雷达拓扑序列中不同冰层独有的特征进行额外的特征建模,实现了对不同冰层空间关系的细化处理。3D注意力机制和多尺度模块形成的注意力多尺度模块,使得检测到的重要冰层特征可以通过利用多尺度模块得到更丰富的尺度特征,进一步加强对关键冰层特征的建模能力。本发明同时检测多个冰层位置作为不同任务,利用两分支结构分别学习不同位置冰层的独有特征,最终实现了快速、高精度的基于MsANet网络的冰下层结构提取算法。
Description
技术领域
本发明属于计算机视觉、模式识别与极地冰川学领域,设计一种基于MsANet网络的冰下层结构提取方法。
背景技术
随着人民生活水平的提高与技术的发展,对智能分析、制造的期望和需求愈加强烈。其中主要涉及到的大数据分析与人工智能受到了广泛关注。现在,人工智能与不同领域的结合是一个正在不断探索的、具有重要意义的方向。极地冰川学作为一项地理观测和建模演绎的复杂学科,对人类的生产生活、全球气候研究具有极大的意义。为进一步促进对极地冰川的研究,可以从自动化处理冰盖雷达拓扑序列中开始着手。由于手工处理的冰盖雷达图效率低,且手工设计特征的方法过程复杂、效率差,并不适合处理大型数据集。因此,将对极地冰盖雷达图的分析与人工智能相交融具有非常重要的应用意义,诸多国内外极地研究机构都对此方向贡献出诸多的研究投入。在这其中,机器学习是将人工智能变为现实的重要方法,运用机器学习的算法,将收集到的数据加以分析与整理,并建立对应的模型,从而实现自动的分析过程。如果,构建一些能够辅助冰川学家进行冰盖雷达图的分析的系统,实现对冰盖雷达图的自动冰川提取和简单的常规分析,那么在极大方便冰川学家利用提取的极地冰盖数据进行进一步的研究同时,也可以一定程度上避免对极地冰盖下冰层的错误提取的现象。
极地冰盖下冰层提取主要为极地冰盖的分析、冰川模型的建模进行数据准备。可从提取的冰下层结构直接推导出冰层厚度,再结合之前的冰厚数据,可以进行对冰盖质量变化的估计。利用提取的冰层数据建立的冰川建模可以进一步观测气候变化等与人类生活息息相关的因素。对极地冰盖分析通常通过冰盖雷达图进行,在冰盖雷达图上通常会存在大量的噪声等因素的干扰,尤其是在跨轨方向的雷达拓扑切片受噪声干扰更为严重。而跨轨方向上的冰盖雷达图能更全面、更准确的描述冰盖下地形特征。因此,对冰盖雷达拓扑切片的分析任务更具有挑战和意义。为此,我们设计了本自动分析、提取冰下层结构的提取方法,以希望帮助极地冰盖研究者能快速、准确的提取冰下层结构,实现对冰盖雷达图的初步分析。
发明内容
目前,在此领域的利用深度学习进行的相关工作还相对较少,为此,本发明提出了一个轻量、高精度的基于多尺度注意力机制(MsANet)的冰下层结构提取算法。在3D卷积网络中加入多尺度模块与注意力模块,这种结构不仅可以增强网络对输入数据的多尺度特征的表达能力,同时又可以通过注意力模块增强对输入的冰盖雷达拓扑切片的重要冰层结构特征的建模能力。本发明提出的MsANet网络对冰盖雷达拓扑序列这类具有一定的空间-序列特征的数据具有良好的建模作用,可以较为快速、准确的从中提取出冰表面层和冰基岩层。
本发明提出的一种轻量、高精度的基于MsANet的冰下层结构提取算法,总体思路是对几帧连续的雷达拓扑切片作为一组输入,以包含一定的空间-序列关系,然后将数据输入到设计的网络中进行训练,期望建立一个能够良好捕获冰层空间和序列间关系的模型;在测试时,网络利用已经建立的冰盖地形的空间-序列特征的特征关系,会直接输出对输入的测试数据的冰层结构的提取结果。方法主要包括以下特征:
(1)新设计的MsANet网络
具体提出的网络搭建结构如下:
MsANet由三个部分组成:低级特征提取阶段,高级特征提取阶段和分类阶段。低级特征提取阶段的特征在于通过一个卷积层结构和多尺度模块完成对输入冰下层结构的通用低级特征的多尺度表示,以供为后续提取冰层结构的高级特征做准备;高级特征提取阶段利用含有卷积层、注意力模块和多尺度模块的两路分支结构以分别学习冰表面层和冰基岩层独有的可区别特征;分类阶段利用上述提取到的高级特征进行组合分类,以对目标冰层结构的位置进行准确预测提取。在特征提取阶段,除第一个块外,均引入了多尺度模块,以进行对冰层特征的多尺度表示,增强网络对冰层特征的表示能力。在高级特征提取阶段,在卷积层之后引入的注意力多尺度模块,先利用注意力机制捕获冰下层结构的重要特征,然后再送入多尺度模块,增强对重要的冰层特征的多尺度表示,提高对冰下层结构的空间-序列关系的建模能力。综上所述,我们设计的MsANet是一个能够对多尺度特征进行捕获并加强对序列特征的提取和融合的网络结构。
其中多尺度模块由三条支路组成,三条支路上分别存在一个不同尺度大小的卷积滤波器,其中卷积核大于3的卷积滤波器进行分解,以减少网络参数量。紧接着,三条支路输出的多尺度特征被级联在一起,以最大程度保留学习的多尺度特征。然后,依次送入瓶颈单元和池化层分别得到对通道间和空间特征的下采样。
其中注意力模块分为两个子模块,分别为3D位置注意力模块和3D通道注意力模块。3D位置注意力模块着重关注于冰层特征的空间位置关系,在全局空间中的整合相似特征,而3D通道注意力模块着重关注于冰层特征通道之间的关联,以增强通道下特定语义响应能力。通过3D位置注意力模块和3D通道注意力模块从不同角度对冰下层结构的特征进行建模和融合,以达到对冰下层结构特征更准确的建模。(3)使用MsANet网络实现冰下层结构提取的过程
训练时的特征:
我们输入到MsANet的数据是连续的T帧的雷达拓扑图;以实际的第个拓扑切片作为地面真值,将地面真值与网络提取得到的冰层位置输入到损失函数中进行网络参数的优化,并使用了指数型变化的学习率以更好的匹配网络的学习速度,从而进一步优化预测过程,提高检测结果。
提取时的特征:
测试集也采用同样的T帧连续的雷达拓扑切片作为一组输入送入到已经训练好的网络中,最终得到每一帧的预测图片。
检测提取的特征:
将预测冰层位置与原始拓扑切片的地面真值输入到使用的平均像素误差评价指标上,以判断提取的冰层位置与实际标注的结果的平均差值。
有益效果
1、本发明利用MsANet网络实现了冰下层结构提取
据我们所知,这是现有的第一项将深度学习技术中的多尺度方法和注意力机制用于冰下层结构的提取的发明。本发明提出利用MsANet网络实现从雷达拓扑切片中的冰下层结构的提取,进一步实现了对冰盖雷达图的初步简单分析。
2、本发明对从雷达拓扑切片中提取冰下层结构首次引入了多尺度模块以增强网络的特征提取能力
由于雷达拓扑切片中存在较大的噪声干扰,冰表面层和冰基岩层的位置不易于直接提取,需要通过两冰层间的空间信息和序列信息的结合以进行精确的判断。为充分提取冰层结构的空间特征和序列特征,需要充分考虑帧内不同位置的空间信息和帧间的序列信息。为此,引入了多尺度模块增强网络的基本特征提取能力,丰富了冰盖雷达图的多尺度特征表示。并且,多尺度模块同时考虑了特征的空间特征和序列特征,使两方面特征相结合从而提高提取算法的准确性。
3、本发明对雷达拓扑切片中提取冰下层结构首次引入了注意力模块以增强网络的特征提取能力
由于雷达拓扑切片中不仅噪声干扰大、层模糊而不易直接提取,而且在冰盖雷达图的边缘部分缺少有用信息使得网络对边缘位置冰层结构的判断、提取难度加大。为进一步细化边缘位置的特征,同时增强对冰层间的空间信息和序列信息的表示能力,引入了注意力模块分别从特征的空间关系和特征的通道间关系来对有用的边缘信息分配更多的权重,从而抑制无用的背景噪声信息,实现对重要特征的冰层特征达到细化处理的目的,进而增强对冰层位置的精确提取。
3、本发明提出了一种MsANet网络
普通的3D卷积网络仅使用单一的卷积滤波器和全连接层的组合实现对目标的分类预测,但这种方法没有考虑到特殊数据的特点。对此,我们将其3D卷积网络根据雷达拓扑序列的特点进行改进,以更好的捕获空间序列关系和保持冰层特征的空间相对性。同时,在3D卷积网络中引入了多尺度模块和注意力模块,以进一步增强网络对重要特征的多尺度表示。不仅提高了网络的特征表达能力,而且对序列关系建立更加良好的序列关系,使得MsANet更适合处理该类问题。
附图说明:
图1为本发明的MsANet网络图。
图2为本发明中的多尺度模块结构图。
图3为本发明中的注意力模块结构图。
图4为本发明利用MsANet实现冰下层结构提取的训练流程。
图5为本发明的测试流程图。
具体实施方式
下面结合附图对本发明的具体实施方法进行详细说明。
1、输入数据处理
将连续的T帧的雷达拓扑序列按顺序排列,这里T取5,得到形如1×5×64×64大小(通道数×切片数×雷达切片图的高×雷达切片图的宽)的数据准备输入网络中。
2、构建MsANet网络
如图1所示。本发明所构造的MsANet网络的各层具体参数如下:
①块1:3D卷积单元、3D批归一化层、Relu激活函数和混合池化层依次按顺序排列。3D卷积单元:输入尺寸为5×64×64,输入通道数为1,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×64×64,输出通道数为16。混合池化层结合了最大池化层和平均池化层的优点,混合池化层的结果为这两个池化层结果之和。混合池化层:输入尺寸5×64×64,输入通道数为16,池化核为1×2×2,边缘填充方式为“零填充”,输出尺寸为5×32×32,输出通道数为16。
②块2:3D卷积单元、3D批归一化层、Relu激活函数和多尺度模块依次按顺序排列。3D卷积单元:输入尺寸为5×32×32,输入通道数为16,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×32×32,输出通道数为32。多尺度模块:输入尺寸为5×32×32,输入通道数为32,池化核为1×2×2,经过三个支路的多尺度学习和下采样后,输出尺寸为5×16×16,输出通道数为32。
③块3a、块3b:从块3开始,分为两个支路a、b以分别学习冰表面层和冰基岩层的特征。在块3中,三组3D卷积操作、注意力模块和多尺度模块依次按顺序排列。3D卷积单元、3D批归一化层、Relu激活函数为一组3D卷积操作。第一组3D卷积操作中的3D卷积单元:输入尺寸为5×16×16,输入通道数为32,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×16×16,输出通道数为64。第二、三组3D卷积操作中的3D卷积单元:输入尺寸为5×16×16,输入通道数为64,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×16×16,输出通道数为64。注意力模块:输入尺寸为5×16×16,输入通道数为64,经过3D位置注意力模块和3D通道注意力模块后通过融合,输出尺寸为5×16×16,输出通道数为64。多尺度模块:输入尺寸为5×16×16,输入通道数为64,池化核为1×2×2,经过三个支路的多尺度学习和下采样后,输出尺寸为5×8×8,输出通道数为64。
④块4a、块4b:在块4中,三组3D卷积操作、注意力模块和多尺度模块依次按顺序排列。3D卷积单元、3D批归一化层、Relu激活函数为一组3D卷积操作。第一组3D卷积操作中的3D卷积单元:输入尺寸为5×8×8,输入通道数为64,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×8×8,输出通道数为128。第二、三组3D卷积操作中的3D卷积单元:输入尺寸为5×8×8,输入通道数为128,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×8×8,输出通道数为128。注意力模块:输入尺寸为5×8×8,输入通道数为128,经过3D位置注意力模块和3D通道注意力模块后通过融合,输出尺寸为5×8×8,输出通道数为128。多尺度模块:输入尺寸为5×8×8,输入通道数为128,池化核为5×2×2,经过三个支路的多尺度学习和下采样后,输出尺寸为1×4×4,输出通道数为128。
⑤块5a、块5b:3D卷积单元、Relu激活函数、维度重塑和全连接层依次使用。3D卷积单元:输入尺寸为1×4×4,输入通道数为128,卷积核为1×4×4,步长为1,无边缘填充,输出尺寸为1×1×1,输出通道数为256。维度重塑:输入尺寸为1×1×1,通道数256,将此4维数据将至1维,得到输出尺寸为256。全连接层:输入尺寸为256,输出尺寸为64。
3、多尺度模块构建
如图2所示。本发明所构造的多尺度模块结构的各层具体参数如下:
①I1支路:由1个3D卷积单元、3D批归一化层和Relu激活函数组成,输入尺寸为D×H×W,输入通道数为C,卷积核为1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C。
②I2支路:由1个3D卷积单元、3D批归一化层和Relu激活函数组成,输入尺寸为D×H×W,输入通道数为C,卷积核为3×3×3,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输出通道数C。
③I3支路:由两组1个3D卷积单元、3D批归一化层和Relu激活函数组成。第一组3D卷积核:输入尺寸为D×H×W,输入通道数为C,卷积核分3×3×3,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输出通道数C。第二组3D卷积核:输入尺寸为D×H×W,输入通道数为C,卷积核为3×1×1,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输出通道数C。
④级联操作:输入特征经过三路分进行多尺度特征的学习后,进行按通道级联,输入为三组尺寸大小为D×H×W,输入通道数为C的特征图,输出为尺寸大小为D×H×W,输出通道数为3×C。
⑤瓶颈单元:利用一个卷积单元来减少通道间特征的冗余。输入尺寸为D×H×W,输入通道数为3×C,卷积核分1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C。
4、注意力模块构建
如图3所示。本发明所构造的注意力模块结构的各层具体参数如下:
①瓶颈单元C1、C2、C6、C7进行特征变换,增强特征的多样性表示。每个瓶颈单元均由3D卷积单元、3D批归一化单元和Relu激活函数组成。3D卷积单元:输入尺寸大小为D×H×W,输入通道数为C,卷积核为3×3×3,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输入通道数为C。
②3D位置注意力模块:通过3个3D卷积单元C3、C4、C5来学习不同的特征K、Q、V。3D卷积单元C3、C4的输入尺寸为D×H×W,输入通道数为C,卷积核为1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C/4。3D卷积单元C5的输入尺寸为D×H×W,输入通道数为C,卷积核为1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C。然后,尺寸为D×H×W、通道数为C/4的特征K,进行尺度维度重塑操作将其降维至1维(D×H×W→(D×H×W)),通道数为C/4,其维度尺寸为C×(D×H×W)(通道×重塑后的尺寸),然后将通道数维度和重塑后尺寸维度进行交换,得到K′,其维度尺寸为(D×H×W)×C。然后,K′与重塑为C×(D×H×W)大小的Q进行矩阵乘法,得到E,其维度尺寸为(D×H×W)×(D×H×W)。然后,将特征V的维度尺寸变换为C×(D×H×W),与E进行元素乘法后,再进行softmax操作,得到的输出维度尺寸为C×(D×H×W)的空间注意力矩阵,然后在通过特征的维度变换,还原成原来的4维特征尺寸C×D×H×W,即通道×深度×高度×宽度。最后将还原到4维尺寸的特征与维度尺寸为C×D×H×W输入特征相加,得到3D位置注意力特征图,尺寸大小为D×H×W,通道数为C。
②3D通道注意力模块:将输入维度尺寸为C×D×H×W的特征进行维度变换和转置,得到特征维度为(D×H×W)×C的特征M。将维度尺寸为C×D×H×W的输入特征进行维度变换得到特征维度为C×(D×H×W)的N、O。然后,将M和N相乘的得到形如C×C结果,再进行softmax,得到的输出维度尺寸为C×C的通道注意力矩阵E′。然后将维度尺寸为C×C通道注意力矩阵E′与维度尺寸为C×(D×H×W)的O相乘,得到维度尺寸为C×(D×H×W)的结果。然后,将此结果进行维度变换,得到尺寸为C×D×H×W的通道注意力图。再与尺寸为C×D×H×W输入特征相加,得到最终尺寸为C×D×H×W通道注意力特征。
5、基于MsANet网络的冰下层结构提取算法的训练流程
如图4所示,本发明利用MsANet网络实现冰下层结构提取算法具体训练过程如下:
①将训练集中的每一张的冰盖雷达拓扑切片前后的连续每5帧作为一组输入,随机选择准备送入MsANet网络。
②将5帧拓扑切片输入到MsANet网络中,首先对拓扑切片序列进行低级特征的提取,然后送入两分支路分别学习冰表面层和冰基岩层独有的高级特征。最后,在分类阶段,根据并冰面层和冰基岩层的高级特征的分类组合,来对冰下层结构的位置进行判断,以得到最终的冰表面层和冰基岩层的提取位置。
③比较网络提取的冰表面层和冰基岩层的位置与地面真值的位置结果之间的差异进行网络优化。由于本网络同时提取多个冰层结构,所以对冰表面层和冰基岩层的提取结果分别计算损失函数,并将两个损失函数之和最为整个网络的损失函数L。本发明采用L1函数并在训练过程中通过Adam算法最小化全局损失函数对网络参数进行调整。具体计算公式如下:(这里的Fair和Fbed为真值实际冰层位置,fair和fbed为网络提取预测的冰层位置)
Lair(Fair,fair)=||Fair-fair||
Lbed(Fbed,fbed)=||Fbed-fbed||
L=Lair+Lbed
6、基于MsANet网络的冰下层结构提取算法的测试过程
如图5所示,本发明利用MsANet网络实现冰下层结构提取算法具体测试过程如下:
①将测试集中的每一张的冰盖雷达拓扑切片前后的连续每5帧作为一组输入,随机选择准备送入MsANet网络。
②将待测试的5帧拓扑切片输入到MsANet网络中,经过提取低级特征、高级特征,并根据特征进行分类,得到网络预测的提取结果后与地面真值进行比较。观察网络提取结果与地面真值的平均像素误差,误差越小代表网络提取结果越接近实际地形。
Claims (6)
1.一种基于多尺度注意力机制的冰下层结构提取方法,其特征在于,提出的网络搭建结构如下:
MsANet由三个部分组成:低级特征提取阶段,高级特征提取阶段和分类阶段;低级特征提取阶段的特征在于通过一个卷积层结构和多尺度模块完成对输入冰下层结构的通用低级特征的多尺度表示,以供为后续提取冰层结构的高级特征做准备;高级特征提取阶段利用含有卷积层、注意力模块和多尺度模块的两路分支结构以分别学习冰表面层和冰基岩层独有的可区别特征;分类阶段利用上述提取到的高级特征进行组合分类,以对目标冰层结构的位置进行准确预测提取;
在特征提取阶段,除第一个块外,均引入了多尺度模块,以进行对冰层特征的多尺度表示,增强网络对冰层特征的表示能力;在高级特征提取阶段,在卷积层之后引入的注意力多尺度模块,先利用注意力机制捕获冰下层结构的重要特征,然后再送入多尺度模块,增强对重要的冰层特征的多尺度表示,提高对冰下层结构的空间-序列关系的建模能力;
其中多尺度模块由三条支路组成,三条支路上分别存在一个不同尺度大小的卷积滤波器,其中卷积核大于3的卷积滤波器进行分解,以减少网络参数量;紧接着,三条支路输出的多尺度特征被级联在一起,以最大程度保留学习的多尺度特征;然后,依次送入瓶颈单元和池化层分别得到对通道间和空间特征的下采样;
其中注意力模块分为两个子模块,分别为3D位置注意力模块和3D通道注意力模块;3D位置注意力模块着重关注于冰层特征的空间位置关系,在全局空间中的整合相似特征,而3D通道注意力模块着重关注于冰层特征通道之间的关联,以增强通道下特定语义响应能力;
使用MsANet网络实现冰下层结构提取的过程
训练时的特征:
2.根据权利要求1所述的方法,其特征在于,输入数据处理具体为:
将连续的T帧的雷达拓扑序列按顺序排列,这里T取5,得到形如1×5×64×64大小,即通道数×切片数×雷达切片图的高×雷达切片图的宽的数据准备输入网络中。
3.根据权利要求1所述的方法,其特征在于,构建MsANet网络具体为:
所构造的MsANet网络的各层具体参数如下:
①块1:3D卷积单元、3D批归一化层、Relu激活函数和混合池化层依次按顺序排列;3D卷积单元:输入尺寸为5×64×64,输入通道数为1,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×64×64,输出通道数为16;混合池化层结合了最大池化层和平均池化层,混合池化层的结果为这两个池化层结果之和;混合池化层:输入尺寸5×64×64,输入通道数为16,池化核为1×2×2,边缘填充方式为“零填充”,输出尺寸为5×32×32,输出通道数为16;
②块2:3D卷积单元、3D批归一化层、Relu激活函数和多尺度模块依次按顺序排列;3D卷积单元:输入尺寸为5×32×32,输入通道数为16,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×32×32,输出通道数为32;多尺度模块:输入尺寸为5×32×32,输入通道数为32,池化核为1×2×2,经过三个支路的多尺度学习和下采样后,输出尺寸为5×16×16,输出通道数为32;
③块3a、块3b:从块3开始,分为两个支路a、b以分别学习冰表面层和冰基岩层的特征;在块3中,三组3D卷积操作、注意力模块和多尺度模块依次按顺序排列;3D卷积单元、3D批归一化层、Relu激活函数为一组3D卷积操作;第一组3D卷积操作中的3D卷积单元:输入尺寸为5×16×16,输入通道数为32,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×16×16,输出通道数为64;第二、三组3D卷积操作中的3D卷积单元:输入尺寸为5×16×16,输入通道数为64,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×16×16,输出通道数为64;注意力模块:输入尺寸为5×16×16,输入通道数为64,经过3D位置注意力模块和3D通道注意力模块后通过融合,输出尺寸为5×16×16,输出通道数为64;多尺度模块:输入尺寸为5×16×16,输入通道数为64,池化核为1×2×2,经过三个支路的多尺度学习和下采样后,输出尺寸为5×8×8,输出通道数为64;
④块4a、块4b:在块4中,三组3D卷积操作、注意力模块和多尺度模块依次按顺序排列;3D卷积单元、3D批归一化层、Relu激活函数为一组3D卷积操作;第一组3D卷积操作中的3D卷积单元:输入尺寸为5×8×8,输入通道数为64,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×8×8,输出通道数为128;第二、三组3D卷积操作中的3D卷积单元:输入尺寸为5×8×8,输入通道数为128,卷积核为3×5×3,步长为1,边缘填充方式为“零填充”,输出尺寸为5×8×8,输出通道数为128;注意力模块:输入尺寸为5×8×8,输入通道数为128,经过3D位置注意力模块和3D通道注意力模块后通过融合,输出尺寸为5×8×8,输出通道数为128;多尺度模块:输入尺寸为5×8×8,输入通道数为128,池化核为5×2×2,经过三个支路的多尺度学习和下采样后,输出尺寸为1×4×4,输出通道数为128;
⑤块5a、块5b:3D卷积单元、Relu激活函数、维度重塑和全连接层依次使用;3D卷积单元:输入尺寸为1×4×4,输入通道数为128,卷积核为1×4×4,步长为1,无边缘填充,输出尺寸为1×1×1,输出通道数为256;维度重塑:输入尺寸为1×1×1,通道数256,将此4维数据将至1维,得到输出尺寸为256;全连接层:输入尺寸为256,输出尺寸为64。
4.根据权利要求1所述的方法,其特征在于,所构造的多尺度模块结构的各层具体参数如下:
①I1支路:由1个3D卷积单元、3D批归一化层和Relu激活函数组成,输入尺寸为D×H×W,输入通道数为C,卷积核为1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C;
②I2支路:由1个3D卷积单元、3D批归一化层和Relu激活函数组成,输入尺寸为D×H×W,输入通道数为C,卷积核为3×3×3,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输出通道数C;
③I3支路:由两组1个3D卷积单元、3D批归一化层和Relu激活函数组成;第一组3D卷积核:输入尺寸为D×H×W,输入通道数为C,卷积核分3×3×3,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输出通道数C;第二组3D卷积核:输入尺寸为D×H×W,输入通道数为C,卷积核为3×1×1,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输出通道数C;
④级联操作:输入特征经过三路分进行多尺度特征的学习后,进行按通道级联,输入为三组尺寸大小为D×H×W,输入通道数为C的特征图,输出为尺寸大小为D×H×W,输出通道数为3×C;
⑤瓶颈单元:利用一个卷积单元来减少通道间特征的冗余;输入尺寸为D×H×W,输入通道数为3×C,卷积核分1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C;
5.根据权利要求1所述的方法,其特征在于,所构造的注意力模块结构的各层具体参数如下:
①瓶颈单元C1、C2、C6、C7进行特征变换,增强特征的多样性表示;每个瓶颈单元均由3D卷积单元、3D批归一化单元和Relu激活函数组成;3D卷积单元:输入尺寸大小为D×H×W,输入通道数为C,卷积核为3×3×3,步长为1,边缘填充方式为“零填充”,输出尺寸为D×H×W,输入通道数为C;
②3D位置注意力模块:通过3个3D卷积单元C3、C4、C5来学习不同的特征K、Q、V;3D卷积单元C3、C4的输入尺寸为D×H×W,输入通道数为C,卷积核为1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C/4;3D卷积单元C5的输入尺寸为D×H×W,输入通道数为C,卷积核为1×1×1,步长为1,无边缘填充,输出尺寸为D×H×W,输出通道数C;然后,尺寸为D×H×W、通道数为C/4的特征K,进行尺度维度重塑操作将其降维至1维(D×H×W→(D×H×W)),通道数为C/4,其维度尺寸为C×(D×H×W)(通道×重塑后的尺寸),然后将通道数维度和重塑后尺寸维度进行交换,得到K',其维度尺寸为(D×H×W)×C;然后,K′与重塑为C×(D×H×W)大小的Q进行矩阵乘法,得到E,其维度尺寸为(D×H×W)×(D×H×W);然后,将特征V的维度尺寸变换为C×(D×H×W),与E进行元素乘法后,再进行softmax操作,得到的输出维度尺寸为C×(D×H×W)的空间注意力矩阵,然后在通过特征的维度变换,还原成原来的4维特征尺寸C×D×H×W,即通道×深度×高度×宽度;最后将还原到4维尺寸的特征与维度尺寸为C×D×H×W输入特征相加,得到3D位置注意力特征图,尺寸大小为D×H×W,通道数为C;
②3D通道注意力模块:将输入维度尺寸为C×D×H×W的特征进行维度变换和转置,得到特征维度为(D×H×W)×C的特征M;将维度尺寸为C×D×H×W的输入特征进行维度变换得到特征维度为C×(D×H×W)的N、O;然后,将M和N相乘的得到形如C×C结果,再进行softmax,得到的输出维度尺寸为C×C的通道注意力矩阵E′;然后将维度尺寸为C×C通道注意力矩阵E′与维度尺寸为C×(D×H×W)的O相乘,得到维度尺寸为C×(D×H×W)的结果;然后,将此结果进行维度变换,得到尺寸为C×D×H×W的通道注意力图;再与尺寸为C×D×H×W输入特征相加,得到最终尺寸为C×D×H×W通道注意力特征。
6.根据权利要求1所述的方法,其特征在于,基于MsANet网络的冰下层结构提取算法的训练流程如下:
①将训练集中的每一张的冰盖雷达拓扑切片前后的连续每5帧作为一组输入,随机选择准备送入MsANet网络;
②将5帧拓扑切片输入到MsANet网络中,首先对拓扑切片序列进行低级特征的提取,然后送入两分支路分别学习冰表面层和冰基岩层独有的高级特征;最后,在分类阶段,根据并冰面层和冰基岩层的高级特征的分类组合,来对冰下层结构的位置进行判断,以得到最终的冰表面层和冰基岩层的提取位置;
③比较网络提取的冰表面层和冰基岩层的位置与地面真值的位置结果之间的差异进行网络优化;由于本网络同时提取多个冰层结构,所以对冰表面层和冰基岩层的提取结果分别计算损失函数,并将两个损失函数之和最为整个网络的损失函数L;采用L1函数并在训练过程中通过Adam算法最小化全局损失函数对网络参数进行调整;具体计算公式如下,的Fair和Fbed为真值实际冰层位置,fair和fbed为网络提取预测的冰层位置;
Lair(Fair,fair)=||Fair-fair||
Lbed(Fbed,fbed)=||Fbed-fbed||
L=Lair+Lbed。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303215.0A CN113095479B (zh) | 2021-03-22 | 2021-03-22 | 一种基于多尺度注意力机制的冰下层结构提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303215.0A CN113095479B (zh) | 2021-03-22 | 2021-03-22 | 一种基于多尺度注意力机制的冰下层结构提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095479A true CN113095479A (zh) | 2021-07-09 |
CN113095479B CN113095479B (zh) | 2024-03-12 |
Family
ID=76669160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110303215.0A Active CN113095479B (zh) | 2021-03-22 | 2021-03-22 | 一种基于多尺度注意力机制的冰下层结构提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095479B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219817A (zh) * | 2022-02-22 | 2022-03-22 | 湖南师范大学 | 新冠肺炎ct图像分割方法及终端设备 |
CN114511515A (zh) * | 2022-01-17 | 2022-05-17 | 山东高速路桥国际工程有限公司 | 一种基于BoltCorrDetNet网络的螺栓腐蚀检测系统和检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
US20210056351A1 (en) * | 2018-06-04 | 2021-02-25 | Jiangnan University | Multi-scale aware pedestrian detection method based on improved full convolutional network |
-
2021
- 2021-03-22 CN CN202110303215.0A patent/CN113095479B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210056351A1 (en) * | 2018-06-04 | 2021-02-25 | Jiangnan University | Multi-scale aware pedestrian detection method based on improved full convolutional network |
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511515A (zh) * | 2022-01-17 | 2022-05-17 | 山东高速路桥国际工程有限公司 | 一种基于BoltCorrDetNet网络的螺栓腐蚀检测系统和检测方法 |
CN114511515B (zh) * | 2022-01-17 | 2022-08-12 | 山东高速路桥国际工程有限公司 | 一种基于BoltCorrDetNet网络的螺栓腐蚀检测系统和检测方法 |
CN114219817A (zh) * | 2022-02-22 | 2022-03-22 | 湖南师范大学 | 新冠肺炎ct图像分割方法及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113095479B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | RSOD: Real-time small object detection algorithm in UAV-based traffic monitoring | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111582316B (zh) | 一种rgb-d显著性目标检测方法 | |
CN111178316A (zh) | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 | |
CN110517482B (zh) | 一种基于3d卷积神经网络的短时交通流预测方法 | |
CN111985325B (zh) | 特高压环境评价中的航拍小目标快速识别方法 | |
CN112232328A (zh) | 基于卷积神经网络的遥感影像建筑区提取方法、装置 | |
CN113095479A (zh) | 一种基于多尺度注意力机制的冰下层结构提取方法 | |
US20220212339A1 (en) | Active data learning selection method for robot grasp | |
CN115937774A (zh) | 一种基于特征融合和语义交互的安检违禁品检测方法 | |
CN117237559B (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN112766378A (zh) | 一种专注细粒度识别的跨域小样本图像分类模型方法 | |
CN113989261A (zh) | 基于Unet改进的无人机视角下红外图像光伏板边界分割方法 | |
CN112861931A (zh) | 一种基于差异注意力神经网络的多级别变化检测方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN113870160A (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
Huang et al. | Efficient attention network: Accelerate attention by searching where to plug | |
CN111832479B (zh) | 基于改进的自适应锚点r-cnn的视频目标检测方法 | |
CN117496179A (zh) | 多尺度双重注意力引导融合网络模型的碳排放分析方法 | |
CN117113054A (zh) | 一种基于图神经网络和Transformer的多元时间序列预测方法 | |
CN116935226A (zh) | 一种基于HRNet的改进型遥感图像道路提取方法、系统、设备及介质 | |
CN116453108A (zh) | 基于非对称并行Transformer网络的三维点云理解处理方法 | |
CN116386042A (zh) | 一种基于三维池化空间注意力机制的点云语义分割模型 | |
CN114049609B (zh) | 基于神经架构搜索的多级聚合行人重识别方法 | |
CN115880660A (zh) | 一种基于结构表征和全局注意力机制的轨道线检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |