CN114913436A - 基于多尺度注意力机制的地物分类方法、装置、电子设备及介质 - Google Patents
基于多尺度注意力机制的地物分类方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN114913436A CN114913436A CN202210675121.0A CN202210675121A CN114913436A CN 114913436 A CN114913436 A CN 114913436A CN 202210675121 A CN202210675121 A CN 202210675121A CN 114913436 A CN114913436 A CN 114913436A
- Authority
- CN
- China
- Prior art keywords
- feature map
- module
- generate
- attention
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像处理的领域,尤其是涉及一种基于多尺度注意力机制的地物分类方法、装置、电子设备及介质。方法包括:获取输入图像;将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征;将所述高级语义特征输入至空洞金字塔化模块,生成特征图;将所述低级语义特征输入至第二双注意力机制模块,生成特征图;基于所述特征图和所述特征图生成预测图像;其中,所述第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。本申请具有通过双注意力机制的第二双注意力机制模块能够对充分提取低级语义特征中的特征信息,提升网络分割精度。
Description
技术领域
本申请涉及图像处理的领域,尤其是涉及基于多尺度注意力机制的地物分类方法、装置、电子设备及介质。
背景技术
遥感影像地物分类作为遥感影像解译的基石,在土地数据更新、地物观测、变化检测等领域都有着十分重要的作用。遥感影像地物分类的目的是对影像中的每个像素点进行类别归属,即把影像中所包含的每个类别都准确地从原图中标记出来。
得益于计算机图像领域深度学习的发展,遥感图像地表覆盖分类从传统的人工设计特征方法逐渐提升为自动学习的深度特征提取方法;深度学习网络以层次化的方式从遥感图像中提取区分性的高级语义特征,用于地物识别,取得了比传统方法更优的分类精度。
但是,由于遥感影像的背景复杂、目标多样且大小不一致、幅宽大等特点,使得现有语义分割网络在遥感影像上呈现出拟合速度慢,边缘目标分割不精确,大尺度目标分割类内不一致、存在孔洞等缺陷,给遥感目标检测带来巨大挑战。
发明内容
为了提升对遥感影像地物分类的准确性,本申请提供基于多尺度注意力机制的地物分类方法、装置、电子设备及介质。
第一方面,本申请提供一种基于多尺度注意力机制的地物分类方法,采用如下的技术方案:
一种基于多尺度注意力机制的地物分类方法,包括:
获取输入图像;
将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征;
将所述高级语义特征输入至空洞金字塔池化模块,生成特征图;
将所述低级语义特征输入至第二双注意力机制模块,生成特征图;
基于所述特征图和所述特征图生成预测图像;
其中,所述第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。
通过采用上述技术方案,深度卷积神经网络用于特征信息提取,低级特征图具有丰富的空间信息和细粒度细节,第二空间注意力模块能够模拟出丰富的全局特征间的上下文关系,从而使不同位置同类特征相互增强,提高语义分割能力;第二通道注意力模块能够提取的不同通道的高层语义特征图是某个特定类别的预测,且不同类别的语义之间具有特定的联系,通过利用不同通道特征图之间的相互联系,可以突出相互联系的特征图并且使特定的语义特征得到促进,通道注意力模块可以模拟出不同特征图之间的长期语义依赖,加强特征表示,通过双注意力机制的第二双注意力机制模块能够对充分提取低级语义特征中的特征信息,提升网络分割精度。
在一种可能的实现方式中,将所述低级语义特征输入至第二双注意力机制模块,生成特征图,包括:
将低级语义特征进行1×1卷积后生成低级特征图;
将低级特征图进行1×1卷积生成特征图;
将特征图输入至第二空间注意力模块,通过第二空间注意力模块对特征图经过3×3卷积、激活函数后生成特征图,将特征图经过两个堆叠的3×3卷积、激活函数后生成特征图;将特征图经过三个堆叠的3×3卷积、激活函数后生成特征图;将特征图、特征图、特征图融合后,经激活函数、1×1卷积生成特征图;
将特征图经过全局池化层、全连接层、激活函数、全连接层以及激活函数后,生成特图;
将特征图、特征图以及低级特征图相乘后,生成特征图;
将特征图与低级特征图相加,融合生成特征图。
在一种可能的实现方式中,基于所述特征图和所述特征图生成预测图像,包括:
将特征图经过上采样后与特征图融合,生成特征图;
将特征图经过3×3卷积,生成特征图;
将特征图输入至第三双注意力机制模块,生成特征图;
特征图经过上采样生成预测图像。
在一种可能的实现方式中,将特征图输入至第三双注意力机制模块,生成特征图,包括:
将特征图经过1×1卷积后生成特征图;
将特征图输入至第三空间注意力模块,通过第三空间注意力模块对特征图输入分别经过多个扩张率不同的3×3卷积进行卷积,生成多个不同的特征图(每个i与每个扩张率对应);将多个特征图融合后、经过激活函数、1×1卷积后生成特征图;
将特征图输入至第三SEnet网络模型,通过第三SEnet网络模型对特征图进行全局池化、全连接、激活函数、全连接后、归一化后,生成特征图;
将特征图、特征图以及特征图相乘,生成特征图;
将特征图与特征图逐元素相加后,生成特征图。
在一种可能的实现方式中,将所述高级语义特征输入至空洞金字塔池化模块,生成特征图,包括:
将高级语义特征输入至第一空间注意力模块10,通过第一空间注意力模块10对高级语义特征进行1×1卷积、3×3卷积、1×7卷积、7×1卷积、最大值池化后,生成第一空间注意力特征;
将高级语义特征的输入至第一通道注意力模块11,通过第一通道注意力模块11将高级语义特征的维度降低到输入的 1/16,然后经过 ReLu 激活后、再通过一个全连接层升回到原来的维度,生成第一通道注意力特征;
基于高级语义特征、第一通道注意力特征、第一空间注意力特征生成特征图;
将特征图输入至金字塔池化模块,生成特征图。
第二方面,本申请提供一种基于多尺度注意力机制的地物分类装置,采用如下的技术方案:
一种基于多尺度注意力机制的地物分类装置,包括:
获取模块,用于获取输入图像;
特征提取模块,用于将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征;
多尺度提取模块,用于将所述高级语义特征输入至空洞金字塔池化模块,生成特征图;
解码模块,用于将所述低级语义特征输入至第二双注意力机制模块,生成特征图;
生成模块,用于基于所述特征图和所述特征图生成预测图像;
其中,所述第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。
在一种可能的实现方式中,解码模块在将所述低级语义特征输入至第二双注意力机制模块,生成特征图时,具体用于:
将低级语义特征进行1×1卷积后生成低级特征图;
将低级特征图进行1×1卷积生成特征图;
将特征图输入至第二空间注意力模块,通过第二空间注意力模块对特征图经过3×3卷积、激活函数后生成特征图,将特征图经过两个堆叠的3×3卷积、激活函数后生成特征图;将特征图经过三个堆叠的3×3卷积、激活函数后生成特征图;将特征图、特征图、特征图融合后,经激活函数、1×1卷积生成特征图;
将特征图经过全局池化层、全连接层、激活函数、全连接层以及激活函数后,生成特图;
将特征图、特征图以及低级特征图相乘后,生成特征图;
将特征图与低级特征图相加,融合生成特征图。
在一种可能的实现方式中,所述生成模块在基于所述特征图和所述特征图生成预测图像时,具体用于:
将特征图经过上采样后与特征图融合,生成特征图;
将特征图经过3×3卷积,生成特征图;
将特征图输入至第三双注意力机制模块,生成特征图;
特征图经过上采样生成预测图像。
在一种可能的实现方式中,所述生成模块在将特征图输入至第三双注意力机制模块,生成特征图时,具体用于:
将特征图经过1×1卷积后生成特征图;
将特征图输入至第三空间注意力模块,通过第三空间注意力模块对特征图输入分别经过多个扩张率不同的3×3卷积进行卷积,生成多个不同的特征图(每个i与每个扩张率对应);将多个特征图融合后、经过激活函数、1×1卷积后生成特征图;
将特征图输入至第三SEnet网络模型,通过第三SEnet网络模型对特征图进行全局池化、全连接、激活函数、全连接后、归一化后,生成特征图;
将特征图、特征图以及特征图相乘,生成特征图;
将特征图与特征图逐元素相加后,生成特征图。
在一种可能的实现方式中,多尺度提取模块在将所述高级语义特征输入至空洞金字塔池化模块,生成特征图时,具体用于:
将高级语义特征输入至第一空间注意力模块10,通过第一空间注意力模块10对高级语义特征进行1×1卷积、3×3卷积、1×7卷积、7×1卷积、最大值池化后,生成第一空间注意力特征;
将高级语义特征的输入至第一通道注意力模块11,通过第一通道注意力模块11将高级语义特征的维度降低到输入的 1/16,然后经过 ReLu 激活后、再通过一个全连接层升回到原来的维度,生成第一通道注意力特征;
基于高级语义特征、第一通道注意力特征、第一空间注意力特征生成特征图;
将特征图输入至金字塔池化模块,生成特征图。
在一种可能的实现方式中,所述XX模块在时,具体用于:
第三方面,本申请提供一种电子设备,采用如下的技术方案:
一种电子设备,该电子设备包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行上述基于多尺度注意力机制的地物分类方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,包括:存储有能够被处理器加载并执行上述基于多尺度注意力机制的地物分类方法的计算机程序。
附图说明
图1是本申请实施例基于多尺度注意力机制的遥感地物分类网络模型的示意图;
图2是本申请实施例基于多尺度注意力机制的遥感地物分类方法的流程示意图;
图3是本申请实施例第一双注意力机制模块的示意图;
图4是本申请实施例第一空间注意力模块的示意图;
图5是本申请实施例第一通道注意力模块的示意图;
图6是本申请实施例第一通道注意力模块的示意图;
图7是本申请实施例第二双注意力机制模块的示意图;
图8是本申请实施例第三双注意力机制模块的示意图;
图9是本申请实施例基于多尺度注意力机制的遥感地物分类装置的方框示意图;
图10是本申请实施例电子设备的示意图。
附图标记:
10、第一空间注意力模块;11、第一通道注意力模块。
具体实施方式
以下结合附图1-10对本申请作进一步详细说明。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了方便理解本申请提出的技术方案,首先在此介绍本申请描述中会引入的几个要素。应理解的是,以下介绍仅方便理解这些要素,以期理解本申请实施例的内容,并非一定涵盖所有可能的情况。
(1)图像的低级语义特征:轮廓、边缘、颜色、纹理和形状特征,其中,边缘和轮廓能反映图像内容,图像的低级特征语义信息比较少,但是目标位置准确。
(2)图像的高级语义特征:图像的高级语义特征值得是人所能看的东西,比如对一张人脸提取低级语义特征我们可以提取到脸的轮廓、鼻子、眼睛之类的,那么高级的特征就显示为一张人脸;高级的特征语义信息比较丰富,但是目标位置比较粗略。
(3)扩张卷积:扩张卷积与普通的卷积相比,除了卷积核的大小以外,还有一个扩张率(dilation rate)参数,主要用来表示扩张的大小,扩张卷积与普通卷积的相同点在于,卷积核的大小是一样的,在神经网络中即参数数量不变,区别在于扩张卷积具有更大的感受野,其中,感受野是卷积核在图像上看到的大小,例如3×3卷积核的感受野大小为9。
(4)空间注意力模块:空间注意力模块用来学习图像的空间层面的特征,对于每个特征图C*H*W来说,空间域注意力是在每个通道C上拥有相同的权重,而在平面维度H*W上学习不同的注意力权重,空间注意力主要关注的是物体“在哪里”。
(5)通道注意力模块:通道注意力模块用来学习图像的通道层面的特征,对于每个特征图C*H*W来说,通道注意力机制是在每个通道维度C上会学习到不同的注意力权重,但是在平面维度H*W上的权重不变,通道注意力关注的是“是什么”的问题。
(6)图像的下采样:对于一幅图像I尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像,当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值。
(7)图像的上采样:图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
相关技术中的DeepLabv3+网络采用编码-解码结构:在编码部分,利用深度卷积神经网络 (Deep Convolutional Neural Network, DCNN)提取图像的高级语义特征和低级语义特征。然后,将高级语义特征输入至空洞金字塔池化模块(ASPP网络),将输入特征图分别进行1×1卷积,扩张率为6、12、18的3×3卷积以及全局平均池化操作后,将特征图融合并进行1×1卷积将通道数压缩为256个,最终ASPP能够完成不同尺度目标特征信息的提取和区分,很好地实现多尺度目标的分割。在保证减少下采样操作和不增加网络参数的基础上增加网络感受野,使特征图尽可能不丢失分割目标边界特征信息,从而提升分割效果。
在解码部分,首先将特征融合、1×1卷积后的高级语义特征图F1进行上采样;将低级语义特征进行1×1卷积后与上采用后的高级语义特征图F1进进行特征融合;而后,将特征融合后的特征图经过3×3卷积、上采样后,生成预测图像。在特征图恢复过程中融合低层特征,恢复目标部分边界信息,特征图恢复采用线性插值方法,最终提高了网络分割的精度。
本申请实施例提供了基于多尺度注意力机制的遥感地物分类网络模型,该分类网络模型以DeepLabv3+网络模型为基础,是对DeepLabv3+网络模型的进一步优化。
参照图1,基于多尺度注意力机制的遥感地物分类网络模型在DeepLabv3+网络模型中加入第一双注意力机制模块、第二双注意力机制模块以及第三双注意力机制模块,双注意力机制模块包括空间注意力模块和通道注意力模块。
具体地,基于多尺度注意力机制的遥感地物分类网络模型的编码部分包括:利用深度卷积神经网络 (Deep Convolutional Neural Network, DCNN)提取图像的高级语义特征和低级语义特征,然后将高级语义特征输入至第一双注意力机制模块,第一双注意力机制模块通过通道注意力模块在高级特征图的每个通道维度C上会学习到不同的注意力权重生成第一通道注意力特征,通过空间注意力模块在高级特征图的平面维度H*W上学习不同的注意力权重,生成第一空间注意力特征;基于第一空间注意力特征、第一通道注意力特征以及高级特征图,生成特征图,将特征图输入至金字塔池化模块(ASPP网络),将特征图分别进行1×1卷积,扩张率为6、12、18的3×3卷积以及全局平均池化操作后,将特征图融合并进行1×1卷积将通道数压缩为256个,生成特征图。
具体地,基于多尺度注意力机制的遥感地物分类网络模型的解码部分包括:将特征图进行4倍上采样;
将低级语义特征进行1×1卷积后生成低级特征图,第二双注意力机制模块中的,第二双注意力机制模块通过通道注意力模块在低级特征图的每个通道维度C上会学习到不同的注意力权重生成第二通道注意力特征,通过空间注意力模块在低级特征图的平面维度H*W上学习不同的注意力权重,生成第二空间注意力特征;基于第二空间注意力特征、第二通道注意力特征以及低级特征图,生成特征图;
将特征图和上采样后的特征图融合,生成融合特征,将融合特征进行3×3卷积后生成融合特征图;
将融合特征图输入至第三双注意力机制模块中的,第三双注意力机制模块通过通道注意力模块在低级特征图的每个通道维度C上会学习到不同的注意力权重生成第三通道注意力特征,通过空间注意力模块在低级特征图的平面维度H*W上学习不同的注意力权重,生成第三空间注意力特征;基于第三空间注意力特征、第三通道注意力特征以及低级特征图,生成特征图;
将特征图经过4倍上采样,生成预测图像。
参照图2,根据基于多尺度注意力机制的遥感地物分类网络模型,本申请实施例提供了一种基于多尺度注意力机制的地物分类方法,由电子设备执行,包括:
步骤S101、获取输入图像。
步骤S102、将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征。
步骤S103、将高级语义特征输入至空洞金字塔池化模块,生成特征图。
步骤S104、将低级语义特征输入至第二双注意力机制模块,生成特征图。
其中,第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。
步骤S105、基于特征图和特征图生成预测图像。
通过该第二双注意力机制模块学习,重新标定低级语义特征,加强像素与像素之间,局部与全局之间的联系,以此达到提高分割精度的目的。
在一个具体的实施例中,步骤S103,将高级语义特征输入至空洞金字塔池化模块,生成特征图,包括:
参照图3和图4,步骤S13a(图中未示出)、将高级语义特征输入至第一空间注意力模块10,通过第一空间注意力模块10对高级语义特征进行1×1卷积、3×3卷积、1×7卷积、7×1卷积、最大值池化后,生成第一空间注意力特征。
参照图5和图6,步骤S13b(图中未示出)、将高级语义特征的输入至第一通道注意力模块11,通过第一通道注意力模块11将高级语义特征的维度降低到输入的 1/16,然后经过 ReLu 激活后、再通过一个全连接层升回到原来的维度,生成第一通道注意力特征。
参照图3,步骤S13c(图中未示出)、基于高级语义特征、第一通道注意力特征、第一空间注意力特征生成特征图。
参照图1,步骤S13d(图中未示出)、将特征图输入至金字塔池化模块,生成特征图。
其中,SE模块是在通道维度上做attention或者gating操作,这种注意力机制让模型可以更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。首先使用全局平均池化作为 Squeeze 操作。紧接着两个全连接层组成一个 Bottleneck 结构去建模通道间的相关性,并输出和输入特征同样数目的权重。
参照图1和图7,在一个具体的实施例中,步骤S104、将低级语义特征输入至第二双注意力机制模块,生成特征图,包括:
步骤S14a(图中未出)、将低级语义特征进行1×1卷积后生成低级特征图,将低级特征图进行1×1卷积生成特征图;
步骤S14b(图中未出)、将特征图输入至第二空间注意力模块,通过第二空间注意力模块对特征图经过3×3卷积、激活函数后生成特征图,将特征图经过两个堆叠的3×3卷积、激活函数后生成特征图;将特征图经过三个堆叠的3×3卷积、激活函数后生成特征图;将特征图、特征图、特征图融合后,经激活函数、1×1卷积生成特征图。
具体地,利用不同大小的卷积核来获取不同尺度下的特征,以便网络能够捕捉到更加丰富的语义信息;在第二空间注意力模块中,采用的卷积核大小选取3×3,5×5,7×7三种不同尺度的卷积核;由于一个5×5的卷积核之后,输出的feature map与经过两个3×3卷积核之后输出的feature map的大小是一致的,因此2个3×3卷积核的表现力不输5×5,为了减少网络的参数和计算量,我们将5×5卷积替换为堆叠2次3×3卷积。
对于参数量来说,2个3×3的参数量为2×3×3×input_channel×output_channel,5×5的参数量为:5×5×input_channel×output_channel,对比起来,5×5的卷积核是2个3×3卷积核的参数量的1.39倍,因此选择2个3×3卷积核能够降低参数量,提高计算效率。
此外还有就是两个3×3的卷积核跟着两个activation,可以有更强的非线性能力,从而对于特征的学习能力更强。
同样的,我们将7×7的卷积替换为3个3×3的卷积的叠加。将通过上述方式获取的多尺度特征连接起来,再通过1×1的卷积减少特征通道数目,即可得到融合不同区域、不同尺度的语义信息的特征。
步骤S14c(图中未出)、将特征图经过全局池化层、全连接层、激活函数、全连接层以及激活函数后,生成特图;
具体地,通道注意力利用的是SENet。SE模块首先对卷积得到的特征图进行Squeeze操作,得到通道级的全局特征,然后对全局特征进行Excitation操作,学习各个通道间的关系,也得到不同通道的权重,最后乘以原来的特征图得到最终特征。本质上,SE模块是在通道维度上做attention或者gating操作,这种注意力机制让模型可以更加关注信息量最大的通道特征,而抑制那些不重要的通道特征。首先使用全局平均池化作为Squeeze 操作。紧接着两个全连接层组成一个 Bottleneck 结构去建模通道间的相关性,并输出和输入特征同样数目的权重。我们首先将特征维度降低到输入的1/16,然后经过ReLu 激活后再通过一个全连接层升回到原来的维度。
步骤S14d(图中未出)、将特征图、特征图以及特征图相乘后,生成特征图;
步骤S14a(图中未出)、将特征图与低级特征图相加,融合生成特征图。
参照图1和图8,在一个具体的实施例中,步骤S105、基于特征图和特征图生成预测图像,具体包括:
步骤S15a(图中未出)、将特征图经过上采样后与特征图融合,生成特征图;
步骤S15b(图中未出)、将特征图经过3×3卷积,生成特征图;
步骤S15c(图中未出)、将特征图输入至第三双注意力机制模块,生成特征图;
步骤S15d(图中未出)、特征图经过上采样生成预测图像。
在一个具体的实施例中,步骤S15c、将特征图输入至第三双注意力机制模块,生成特征图,包括:
步骤S15c1(图中未示出)、将特征图经过1×1卷积后生成特征图;
步骤S15c2(图中未示出)、将特征图输入至第三空间注意力模块,通过第三空间注意力模块对特征图输入分别经过多个扩张率不同的3×3卷积进行卷积,生成多个不同的特征图,其中,每个i与每个扩张率对应;
步骤S15c3(图中未示出)、将多个特征图融合后、经过激活函数、1×1卷积后生成特征图;
步骤S15c4(图中未示出)、将特征图输入至第三SEnet网络模型,通过第三SEnet网络模型对特征图进行全局池化、全连接、激活函数、全连接后、归一化后,生成特征图;
步骤S15c5(图中未示出)、将特征图、特征图以及特征图相乘,生成特征图;
步骤S15c6(图中未示出)、将特征图与特征图逐元素相加后,生成特征图。
其中,使用不同扩张率(dilation rate)的空洞卷积来构建第三空间注意力模块,在深度网络中为了增加感受野且降低计算量的同时不丢失分辨率,这在分割任务非常有用。
一方面感受野大了可以分割大目标,另一方面分辨率高了可以精确定位目标,在特征图相同情况下,空洞卷积可以得到更大的感受野,从而获得更加密集的数据,并且更大的感受野可以提高在语义分割的任务中的小物体分割的的效果,使用空洞卷积可以很好的保留图像的空间特征,也不会损失图像信息,在不增加参数数目的情况下扩展卷积核的感知域。
另一个方面,空洞卷积可以设置扩张率(dilation rate),具体含义就是在卷积核中填充dilation rate-1个0,因此,当设置不同扩张率(dilation rate)时,感受野就会不一样,也即获取了多尺度信息。由于叠加卷积的扩张率(dilation rate)不能有大于1的公约数,否则会出现网格效应。因此我们将扩张率(dilation rate)设计成[1, 2, 5],卷积核为3×3。这样的方案可以比较好的来同时满足小物体大物体的分割要求,小扩张率(dilation rate)来关心近距离信息,大扩张率(dilation rate)来关心远距离信息。
基于多尺度注意力机制的遥感地物分类网络模型构建完成后,对实际识别效果进行验证时,数据集采用deepglobe land cover classification challenge,是一个公共数据集,提供高分辨率亚米卫星图像,重点是农村地区。由于土地覆盖类型的多样性和注释的高密度,该数据集很具挑战性。该数据集共包含10146幅卫星图像,大小为20448×20448像素,分为训练/验证/测试集,每组图像为803/171/172幅(对应70%/15%/15%)。采用Tensorflow框架, GPU为NVIDIA 2080Ti。优化器选取使用MOMENTUM动量优化器,系数设置为0.9。初始学习率设置为0.0001。
参照图9,上述实施例从方法流程的角度介绍一种基于多尺度注意力机制的地物分类方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种基于多尺度注意力机制的地物分类装置,具体详见下述实施例。
一种基于多尺度注意力机制的地物分类装置,包括:
获取模块1001,用于获取输入图像;
特征提取模块1002,用于将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征;
多尺度提取模块1003,用于将高级语义特征输入至空洞金字塔池化模块,生成特征图;
解码模块1004,用于将低级语义特征输入至第二双注意力机制模块,生成特征图;
生成模块1005,用于基于特征图和特征图生成预测图像;
其中,第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。
在一种可能的实现方式中,解码模块1004在将低级语义特征输入至第二双注意力机制模块,生成特征图时,具体用于:
将低级语义特征进行1×1卷积后生成低级特征图;
将低级特征图进行1×1卷积生成特征图;
将特征图输入至第二空间注意力模块,通过第二空间注意力模块对特征图经过3×3卷积、激活函数后生成特征图,将特征图经过两个堆叠的3×3卷积、激活函数后生成特征图;将特征图经过三个堆叠的3×3卷积、激活函数后生成特征图;将特征图、特征图、特征图融合后,经激活函数、1×1卷积生成特征图;
将特征图经过全局池化层、全连接层、激活函数、全连接层以及激活函数后,生成特图;
将特征图、特征图以及低级特征图相乘后,生成特征图;
将特征图与低级特征图相加,融合生成特征图。
在一种可能的实现方式中,生成模块1005在基于特征图和特征图生成预测图像时,具体用于:
将特征图经过上采样后与特征图融合,生成特征图;
将特征图经过3×3卷积,生成特征图;
将特征图输入至第三双注意力机制模块,生成特征图;
特征图经过上采样生成预测图像。
在一种可能的实现方式中,生成模块1005在将特征图输入至第三双注意力机制模块,生成特征图时,具体用于:
将特征图经过1×1卷积后生成特征图;
将特征图输入至第三空间注意力模块,通过第三空间注意力模块对特征图输入分别经过多个扩张率不同的3×3卷积进行卷积,生成多个不同的特征图(每个i与每个扩张率对应);将多个特征图融合后、经过激活函数、1×1卷积后生成特征图;
将特征图输入至第三SEnet网络模型,通过第三SEnet网络模型对特征图进行全局池化、全连接、激活函数、全连接后、归一化后,生成特征图;
将特征图、特征图以及特征图相乘,生成特征图;
将特征图与特征图逐元素相加后,生成特征图。
在一种可能的实现方式中,多尺度提取模块1003在将高级语义特征输入至空洞金字塔池化模块,生成特征图时,具体用于:
将高级语义特征输入至第一空间注意力模块10,通过第一空间注意力模块10对高级语义特征进行1×1卷积、3×3卷积、1×7卷积、7×1卷积、最大值池化后,生成第一空间注意力特征;
将高级语义特征的输入至第一通道注意力模块11,通过第一通道注意力模块11将高级语义特征的维度降低到输入的 1/16,然后经过 ReLu 激活后、再通过一个全连接层升回到原来的维度,生成第一通道注意力特征;
基于高级语义特征、第一通道注意力特征、第一空间注意力特征生成特征图;
将特征图输入至金字塔池化模块,生成特征图。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还从实体装置的角度介绍了一种电子设备,如图10所示,图10所示的电子设备1100包括:处理器1101和存储器1103。其中,处理器1101和存储器1103相连,如通过总线1102相连。可选地,电子设备1100还可以包括收发器1104。需要说明的是,实际应用中收发器1104不限于一个,该电子设备1100的结构并不构成对本申请实施例的限定。
处理器1101可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器1101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线1102可包括一通路,在上述组件之间传送信息。总线1102可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线1102可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1103可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器1103用于存储执行本申请方案的应用程序代码,并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图10示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种基于多尺度注意力机制的地物分类方法,其特征在于,包括:
获取输入图像;
将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征;
将所述高级语义特征输入至空洞金字塔池化模块,生成特征图;
将所述低级语义特征输入至第二双注意力机制模块,生成特征图;
基于所述特征图和所述特征图生成预测图像;
其中,所述第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。
2.根据权利要求1所述的方法,其特征在于,将所述低级语义特征输入至第二双注意力机制模块,生成特征图,包括:
将低级语义特征进行1×1卷积后生成低级特征图;
将低级特征图进行1×1卷积生成特征图;
将特征图输入至第二空间注意力模块,通过第二空间注意力模块对特征图经过3×3卷积、激活函数后生成特征图,将特征图经过两个堆叠的3×3卷积、激活函数后生成特征图;将特征图经过三个堆叠的3×3卷积、激活函数后生成特征图;将特征图、特征图、特征图融合后,经激活函数、1×1卷积生成特征图;
将特征图经过全局池化层、全连接层、激活函数、全连接层以及激活函数后,生成特图;
将特征图、特征图以及低级特征图相乘后,生成特征图;
将特征图与低级特征图相加,融合生成特征图。
3.根据权利要求1所述的方法,其特征在于,基于所述特征图和所述特征图生成预测图像,包括:
将特征图经过上采样后与特征图融合,生成特征图;
将特征图经过3×3卷积,生成特征图;
将特征图输入至第三双注意力机制模块,生成特征图;
特征图经过上采样生成预测图像。
4.根据权利要求2所述的方法,其特征在于,将特征图输入至第三双注意力机制模块,生成特征图,包括:
将特征图经过1×1卷积后生成特征图;
将特征图输入至第三空间注意力模块,通过第三空间注意力模块对特征图输入分别经过多个扩张率不同的3×3卷积进行卷积,生成多个不同的特征图,其中,每个i与每个扩张率对应;将多个特征图融合后、经过激活函数、1×1卷积后生成特征图;
将特征图输入至第三SEnet网络模型,通过第三SEnet网络模型对特征图进行全局池化、全连接、激活函数、全连接后、归一化后,生成特征图;
将特征图、特征图以及特征图相乘,生成特征图;
将特征图与特征图逐元素相加后,生成特征图。
5.根据权利要求1所述的方法,其特征在于,将所述高级语义特征输入至空洞金字塔池化模块,生成特征图,包括:
将高级语义特征输入至第一空间注意力模块(10),通过第一空间注意力模块(10)对高级语义特征进行1×1卷积、3×3卷积、1×7卷积、7×1卷积、最大值池化后,生成第一空间注意力特征;
将高级语义特征的输入至第一通道注意力模块(11),通过第一通道注意力模块(11)将高级语义特征的维度降低到输入的 1/16,然后经过 ReLu 激活后、再通过一个全连接层升回到原来的维度,生成第一通道注意力特征;
基于高级语义特征、第一通道注意力特征、第一空间注意力特征生成特征图;
将特征图输入至金字塔池化模块,生成特征图。
6.一种基于多尺度注意力机制的地物分类装置,其特征在于,包括:
获取模块,用于获取输入图像;
特征提取模块,用于将输入图像输入至深度卷积神经网络,生成高级语义特征和低级语义特征;
多尺度提取模块,用于将所述高级语义特征输入至空洞金字塔池化模块,生成特征图;
解码模块,用于将所述低级语义特征输入至第二双注意力机制模块,生成特征图;
生成模块,用于基于所述特征图和所述特征图生成预测图像;
其中,所述第二双注意力机制模块包括第二空间注意力模块和第二通道注意力模块。
7.根据权利要求6所述的基于多尺度注意力机制的地物分类装置,其特征在于,解码模块在将所述低级语义特征输入至第二双注意力机制模块,生成特征图,具体用于:
将低级语义特征进行1×1卷积后生成低级特征图;
将低级特征图进行1×1卷积生成特征图;
将特征图输入至第二空间注意力模块,通过第二空间注意力模块对特征图经过3×3卷积、激活函数后生成特征图,将特征图经过两个堆叠的3×3卷积、激活函数后生成特征图;将特征图经过三个堆叠的3×3卷积、激活函数后生成特征图;将特征图、特征图、特征图融合后,经激活函数、1×1卷积生成特征图;
将特征图经过全局池化层、全连接层、激活函数、全连接层以及激活函数后,生成特图;
将特征图、特征图以及低级特征图相乘后,生成特征图;
将特征图与低级特征图相加,融合生成特征图。
8.一种电子设备,其特征在于,该电子设备包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行权利要求1~5任一项所述的基于多尺度注意力机制的地物分类方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1~5任一项所述的基于多尺度注意力机制的地物分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210675121.0A CN114913436A (zh) | 2022-06-15 | 2022-06-15 | 基于多尺度注意力机制的地物分类方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210675121.0A CN114913436A (zh) | 2022-06-15 | 2022-06-15 | 基于多尺度注意力机制的地物分类方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913436A true CN114913436A (zh) | 2022-08-16 |
Family
ID=82770081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210675121.0A Withdrawn CN114913436A (zh) | 2022-06-15 | 2022-06-15 | 基于多尺度注意力机制的地物分类方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913436A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671357A (zh) * | 2023-12-01 | 2024-03-08 | 广东技术师范大学 | 基于金字塔算法的前列腺癌超声视频分类方法及系统 |
CN118429335A (zh) * | 2024-07-02 | 2024-08-02 | 新疆胜新复合材料有限公司 | 碳纤维抽油杆的在线缺陷检测系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421268A (zh) * | 2021-06-08 | 2021-09-21 | 南京邮电大学 | 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法 |
-
2022
- 2022-06-15 CN CN202210675121.0A patent/CN114913436A/zh not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421268A (zh) * | 2021-06-08 | 2021-09-21 | 南京邮电大学 | 一种基于多层级通道注意力机制deeplabv3+网络的语义分割方法 |
Non-Patent Citations (2)
Title |
---|
NIKHIL KUMAR TOMAR ET AL.: "Automatic Polyp Segmentation with Multiple Kernel Dilated Convolution Network", 《ARXIV:2206.06264V1》 * |
XIAOLU ZHANG ET AL.: "A Remote Sensing Land Cover Classification Algorithm Based on Attention Mechanism", 《CANADIAN JOURNAL OF REMOTE SENSING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117671357A (zh) * | 2023-12-01 | 2024-03-08 | 广东技术师范大学 | 基于金字塔算法的前列腺癌超声视频分类方法及系统 |
CN118429335A (zh) * | 2024-07-02 | 2024-08-02 | 新疆胜新复合材料有限公司 | 碳纤维抽油杆的在线缺陷检测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553406B (zh) | 基于改进yolo-v3的目标检测系统、方法及终端 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN114913436A (zh) | 基于多尺度注意力机制的地物分类方法、装置、电子设备及介质 | |
CN112016569B (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN113743422B (zh) | 多特征信息融合的人群密度估计方法、设备及存储介质 | |
CN112989085A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN116012626B (zh) | 建筑立面图像的素材匹配方法、装置、设备和存储介质 | |
CN114898357B (zh) | 缺陷识别方法、装置、电子设备及计算机可读存储介质 | |
CN113989287A (zh) | 城市道路遥感图像分割方法、装置、电子设备和存储介质 | |
CN115457492A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
Li et al. | GeoImageNet: a multi-source natural feature benchmark dataset for GeoAI and supervised machine learning | |
CN113919444B (zh) | 目标检测网络的训练方法、目标检测方法及装置 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN114972947A (zh) | 一种基于模糊语义建模的深度场景文本检测方法和装置 | |
CN114240949A (zh) | 宫颈细胞分割网络训练方法、宫颈细胞分割方法、装置 | |
CN114332484A (zh) | 关键点检测方法、装置、计算机设备和存储介质 | |
CN112749576B (zh) | 图像识别方法和装置、计算设备以及计算机存储介质 | |
CN112634174B (zh) | 一种图像表示学习方法及系统 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
CN115222947B (zh) | 基于全局自注意力变换网络的岩石节理分割方法和装置 | |
CN116630302A (zh) | 细胞图像分割方法、装置以及电子设备 | |
CN115345917A (zh) | 低显存占用的多阶段稠密重建方法及装置 | |
CN114549174A (zh) | 用户行为预测方法、装置、计算机设备和存储介质 | |
CN112660161B (zh) | 一种基于视觉时序推理的自动驾驶方法及系统 | |
CN117314756B (zh) | 基于遥感图像的验保方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220816 |
|
WW01 | Invention patent application withdrawn after publication |