CN114511452B - 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 - Google Patents
融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 Download PDFInfo
- Publication number
- CN114511452B CN114511452B CN202111480268.6A CN202111480268A CN114511452B CN 114511452 B CN114511452 B CN 114511452B CN 202111480268 A CN202111480268 A CN 202111480268A CN 114511452 B CN114511452 B CN 114511452B
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- convolution
- attention
- module
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000009499 grossing Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 28
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000007796 conventional method Methods 0.000 description 6
- 238000007430 reference method Methods 0.000 description 6
- 208000037586 Congenital muscular dystrophy, Ullrich type Diseases 0.000 description 5
- 201000006814 Ullrich congenital muscular dystrophy Diseases 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了融合多尺度空洞卷积和三元组注意力的遥感图像检索方法,包括如下步骤:A)构建基于残差结构的基准网络;B)将残差结构中的卷积模块替换为多尺度空洞卷积模块,对图像特征进行增强;C)在采用多尺度空洞卷积模块构成的残差结构中嵌入三元组注意力模块,三元组注意力模块被嵌入在残差结构的每个残差块的最后一个卷积层后;D)构造在线标签平滑损失函数,将遥感图像数据输入残差结构中进行训练,并在训练过程中动态生成平滑权重矩阵;E)提取遥感图像的特征向量;(F)将遥感图像的特征与数据库图像特征进行匹配,检索最相似图像。本发明可以提取遥感图像的显著语义特征,能够有效提高检索精度。
Description
技术领域
本发明涉及图像检索方法,具体地涉及融合多尺度空洞卷积和三元组注意力的遥感图像检索方法。
背景技术
遥感图像检索是根据某种相似性指标从遥感图像(库)中查询用户感兴趣场景或目标的过程,其是促进海量遥感图像共享和高效挖掘的关键技术之一。
但是受到海量遥感图像标注费时耗力且标注文本无法准确表达图像内容等问题的影响,以图像特征为相似性计算依据的基于内容的遥感图像检索(即“以图搜图”)成为了主流方法。近年来,以卷积神经网络为代表的深度学习方法能够从大量数据中提取图像的全局特征,大幅度提高了遥感图像检索的效果。
针对于此,虽然采用深度特征进行检索可以有效检索出所需图像,但受限于遥感图像目标丰富、背景复杂、尺度不一等特点,导致CNN提取的全局特征在部分场景中失效,从而使得检索精度有所降低。
发明内容
本发明所要解决的技术问题是提供融合多尺度空洞卷积和三元组注意力的遥感图像检索方法,其能够有效提高检索精度。
为了解决上述技术问题,本发明提供了融合多尺度空洞卷积和三元组注意力的遥感图像检索方法,包括如下步骤:
A)构建基于残差结构的基准模型;
B)将所述残差结构中的卷积模块替换为多尺度空洞卷积模块;
C)在采用所述多尺度空洞卷积模块构成的所述残差结构中嵌入三元组注意力模块,所述三元组注意力模块被嵌入在所述残差结构的每个残差块的最后一个卷积层后;
D)构造在线标签平滑损失函数,将遥感图像数据输入残差结构进行训练,并在训练过程中动态生成平滑权重矩阵;
E)提取遥感图像的特征向量;
F)将遥感图像的特征与数据库图像特征进行匹配,检索最相似图像。
优选地,在步骤B)中,将所述残差结构中的卷积模块替换为多尺度空洞卷积模块的方法为:
B1)将残差结构中的3×3卷积模块设置为空洞卷积模块;
B2)将上述空洞卷积模块的扩张率分别设置为[1,2,5,9],形成多尺度空洞卷积模块。
进一步优选地,在步骤C)中,所述三元组注意力模块通过通道维度和空间维度之间的跨通道交互分别建模通道注意和空间注意。
优选地,所述三元组注意力模块的交互步骤如下:
C1)设定输入的特征图X∈RH×W×C,该特征图的大小为H×W×C;
C2)分别对所述三元组注意力模块的三个分支的信息数据进行计算;
C3)将各分支所提取的信息进行平均池化聚合特征输出。
进一步优选地,所述三元组注意力模块的第一分支为空间注意力计算分支,通过将特征值输入后,经过通道池化和空洞卷积后,由Sigmoid激活函数生成空间注意力权重。
优选地,所述三元组注意力模块的第二分支为通道C和空间W维度交互捕获分支,将输入的特征X首先经过转置变为H×C×W的维度特征,在将维度特征在H维度上进行池化,并经过卷积和Sigmoid激活函数,最后转置为C×H×W的特征。
进一步优选地,所述三元组注意力模块的第三分支为通道C和空间H维度交互捕获分支,将输入的特征X首先经过转置变为W×H×C的维度特征,在将维度特征在W维度上进行池化,并经过卷积和Sigmoid激活函数,最后转置为C×H×W的特征。
优选地,在步骤D)中,利用所述平滑权重矩阵对不同类别的图像进行差异性距离约束,所述平滑权重矩阵的具体公式如下所示,
q(k=yi∣xi)=1,q(k≠yi∣xi)=0
其中,Lhard为交叉熵损失,xi表示输入图像,yi表示输入图像的真实类别,k为输入图像的预测类别,K为图像类别总数,p(k∣xi)表示输入图像xi预测为类别k的概率,q表示yi的分布,Lsoft为在线标签平滑损失,t为训练迭代次数,为标签平滑阈值,并且/>在训练过程中不断迭代调整。
进一步优选地,在步骤F)中,所述在线标签损失函数的训练方法中所采用的计算模型损失以及标准化后产生的阈值为:
为计算模型损失后,根据基准网络模型预测概率更新后的阈值,通过对/>进行标准化,得到训练迭代次数为t+1时的平滑阈值/>
优选地,采用交叉熵损失函数和在线标签平滑损失函数共同对所述基准网络模型进行训练,经过训练后的总损失为:
L=αLhard+(1-α)Lsoft
其中,L为经过训练后形成的训练总损失,α为平衡系数,用于平衡交叉熵损失函数和在线标签平滑损失函数。
通过上述技术方案,本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法,通过采用多尺度空洞卷积模块提取不同尺度地物的特征,并在该残差特征结构模型中加入三元组注意力模块,对遥感图像特征进行增强,通过三元组注意力模块与多尺度空洞卷积模块的配合,保证了提取的图像特征的准确性,并且针对遥感图像的复杂程度,采用在线标签平滑损失训练的方法对不同类别的图像进行约束,从而能够使得检索得到的图像更加精准。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
图1是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的流程图;
图2是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的总体原理图;
图3是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的第一残差结构和第二残差结构的原理图;
图4是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的第三残差结构和第四残差结构的原理图;
图5是本发明与传统方法在飞机遥感图像特征可视化效果的对比图;
图6是本发明与传统方法在港口图像特征可视化效果的对比图;
图7本发明与传统方法在高尔夫球场图像特征可视化效果的对比图;
图8本发明与传统方法在停车场图像特征可视化效果的对比图;
图9本发明与传统方法在储罐图像特征可视化效果的对比图;
图10是本发明与传统方法在相似图像特征可视化效果的对比图。
附图标记
1 遥感图像 2 第一卷积层
3 第一残差结构 4 第二残差结构
5 第三残差结构 6 第四残差结构
7 全连接层 8 在线标签平滑
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1至图4所示,在本发明所提供的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的一种实施例中,该方法包括如下步骤:
A)构建基于残差结构的基准网络;
B)将所述残差结构中的卷积模块替换为多尺度空洞卷积模块;
C)在采用所述多尺度空洞卷积模块构成的所述残差结构中嵌入三元组注意力模块,所述三元组注意力模块被嵌入在所述残差结构的每个残差块的最后一个卷积层后;
D)构造在线标签平滑8损失函数,将遥感图像1数据输入残差网络中进行训练,并在训练过程中动态生成平滑权重矩阵;
E)提取遥感图像1的特征向量;
F)将遥感图像1的特征与数据库图像特征进行匹配,检索最相似图像。
如图2所示,在基于ResNet50基准网络的残差特征结构中,通过融入多尺度空洞卷积模块和三元组注意力模块形成的基准网络模型,能够有效提高遥感图像检索的精度。在采用的基准网络模型中,将拍摄得到的遥感图像1作为模型输入数据输入第一卷积层2中,将第一卷积层2进行多重卷积形成第一残差结构3和第二残差结构4,然后将第一残差结构3和第二残差结构4中的卷积模块替换为多尺度空洞卷积模块,采用多尺度空洞卷积来提取不同感受野下的特征;将无参数的三元组注意力模块嵌入至每个残差结构的最后一个卷积层后形成第三残差结构5和第四残差结构6,通过空间与通道的跨维度交互自适应学习注意力权重矩阵,从而能够聚焦于图像的重要特征,全连接层7被用于对经过残差结构提取的图像进行分类,最后,采用在线标签平滑8损失函数进行端到端的训练,以便缩小类内差异和增强类间可分性,最终在公开的遥感图像1数据集上进行验证,通过验证数据表明本发明能够有效提高遥感图像1的检索精度。
具体地,相较于自然图像,遥感图像1背景更为复杂,也容易造成更大的类内差异,不同类别的图像之间也容易存在较高的相似性,这就导致经过训练后的深度特征存在类内差距较大和类间边界不清晰等问题,这就需要在在训练过程中增大类间可分性和类内紧致性,使得相似的图像划分为更加紧凑的聚类簇,而动态生成的平滑权重矩阵对不同类别的图像进行差异性距离约束,以收缩类内间距并扩大类间差异,该平滑权重矩阵的具体公式如下所示,
q(k=yi∣xi)=1,q(k≠yi∣xi)=0
其中,Lhard为交叉熵损失,xi表示输入图像,yi表示输入图像的真实类别,k为输入图像的预测类别,K为图像类别总数,p(k∣xi)表示输入图像xi预测为类别k的概率,q表示yi的分布,Lsoft为在线标签平滑8损失,t为训练迭代次数,为标签平滑阈值,并且/>在训练过程中不断迭代调整。
具体地,在线标签损失函数的训练方法中所采用的计算模型损失以及标准化后产生的阈值为:
为计算模型损失后,根据基准网络模型预测概率更新后的阈值,通过对/>进行标准化,得到训练迭代次数为t+1时的平滑阈值/>
随后采用交叉熵损失函数和在线标签平滑8损失函数共同对所述基准网络模型进行训练,得到经过训练后的总损失为:
L=αLhard+(1-α)Lsoft
其中,L为经过训练后形成的训练总损失,α为平衡系数,用于平衡交叉熵损失函数和在线标签平滑8损失函数。
本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的一个实施例中,步骤B具体包括设置扩张率为[1,2,5,9]的多尺度空洞卷积嵌入至所述残差结构内。
具体地,由于空洞卷积可以不引入额外参数的情况下拥有更大的感受野,同时可以捕获多尺度上下文信息,并应用于图像分隔和目标检测,当对遥感图像1不同尺度的特征进行捕捉时,在基准网络模型中我们设计了多尺度空洞卷积模块,以此来实现对遥感图像1信息的不同尺度的特征提取。
具体地,在不引入外部参数的前提下,捕获更大范围的特征信息。空洞卷积的扩张率定义了卷积核处理数据时各值的间距。对于大小为k×k的卷积核,在扩张率为r时,由公式(1)得到扩张卷积核的大小为kd×kd:kd=kd+(k-1)·(r-1)。
空洞卷积在增大信息感受野的同时,卷积空间是不连续的,因此会带来远距离信息不相关的问题,对于背景复杂的遥感图像1,会造成小目标的信息丢失,而本申请所采用的多尺度空洞卷积模块保证了图像信息的连续性。我们设定叠加空洞卷积的扩张率不能有1和自身外的公约数,将其进行池化操作后,其扩张率的分配遵循一种锯齿状的启发式结构,例如对于k=3的卷积核,设定扩张率为[1,2,5,9]的上升组,自适应提取不同大小的地物信息,其中,扩张率较小的卷积用于捕捉近距离地物信息,扩张率较大的卷积用于捕获远距离信息,从而能够在不破坏卷积区域连续性的前提下,从更大范围的空间获取信息。
本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的一个实施例中,三元组注意力模块的交互步骤如下:
C1)设定输入的特征图X∈RH×W×C,该特征图的大小为H×W×C;
C2)分别对所述三元组注意力模块的三个分支的信息数据进行计算;
C3)将各分支所提取的信息进行平均池化聚合特征输出。
具体地,视觉注意力机制通过快速扫描全局图像,获得需要重点关注的目标区域,而后对这一区域投入更多注意力资源,获取更多所需要关注目标的细节信息,并抑制其他无用信息。在应用于遥感图像1中,由于遥感图像1中包含了大量的背景信息,对深度特征判别具有很大的影响,我们将几乎无参数的三元组注意力模块嵌入残差特征结构模型中,三元组注意力模块的两个分支分别用来捕获通道维度和空间维度的跨通道交互,一个分支进行空间注意力权重计算,并分别建模通道注意和空间注意。其中,第一个分支为通道注意力计算分支,输入特征首先经过通道池化和7*7卷积后,由Sigmoid激活函数生成空间注意力权重;第二个分支为通道C和空间W维度交互捕获分支,输入特征X先经过转置变为H×C×W的维度特征,接着在H维度上进行池化,经过7*7卷积和Sigmoid激活函数,最后转置为C×H×W的特征。第三个分支为通道C和空间H维度交互捕获分支,将输入的特征X首先经过转置变为W×H×C的维度特征,在将维度特征在W维度上进行池化,并经过卷积和Sigmoid激活函数,最后转置为C×H×W的特征。最后,对各分支提取的信息进行平均池化聚合特征输出。
为了验证本检索方法的准确性,我们采用搭载英特尔3.7GHz i9-10900K处理器和NVIDIA GeForce GTX3090显卡的Ubuntu 20系统上进行。在训练阶段,设置训练批次为40epoch,优化器为Adam,初始学习率为3e-4,权重衰减为3e-4。在所有实验中,输入图像的大小已调整为224×224像素。并为了做对比,我们将四个公开的遥感图像1数据集作为验证数据集,四个数据集分别为:
1)UCMD:UCMD数据集包含来自美国地质调查局(USGS)的2100幅遥感图像1,包含飞机、建筑物、河流等21个不同类别的遥感图像1,每个类别包含100个图像,图像尺寸为256*256像素。
2)NWPU:NWPU数据集包含了45个类别的图像,每个类别包含700张图像,共31500张图像,图像尺寸为256*256像素。
3)PatternNet:PatternNet数据集由38个类别组成,每个类别包含800幅图像采集自Google Earth的256×256像素的图像。图像地面分辨率为0.6-4.7米。
4)VArcGIS:VArcGIS大规模遥感数据集由采集自ArcGIS World Imagery的38类图像组成,每个类别包含1504-1904张图像,共计59071张图像,图像尺寸为256*256像素。
对于使用的基准数据集,我们对每个类别的图像按8:2比例随机划分训练集、测试集,训练集被重新划分为两部分,80%图像用于训练,剩余20%图像用于验证。在测试过程中,模型去掉全连接层7的输出作为图像特征,欧氏距离被用来衡量特征的相似性。查询图像的视觉特征与其他图像之间的距离越近,这些图像越相似,在进行对比评价时,采用平均归一化修正检索秩(ANMRR)、平均检索精度(mAP)、k处精度这三种标准检索度量来评价结果,我们将k值设置为5、10、20、50、100和1000,其中,ANMRR值越低,mAP和Pk值越高,则检索精度越好。
通过在该四个数据集上进行实验,形成的具体结果如表1和表2所示,表1:四个基准数据集上的检索精度
表2:UCMD数据集上不同方法的检索精度
在表1中,mAP和Pk越大越好,ANMRR越小越好,通过表1可以看出,本发明所建立的基准模型与ResNet50基准网络模型相比,在目标明确的PatternNet和VArcGIS数据集上平均检索精度分别提高了6.17%和9.67%,在背景复杂的UCMD和NWPU数据集上平均检索精度分别提高了24.46%和33.84%,通过表2可以看出,采用本发明的方法与其他算法进行对比可以看出,本发明所采用的方法在背景复杂的UCMD数据集上得到的ANMRR值最小,mAP值最大,从而得到的检索精度最高。通过上述对比结果,可以明显看出背景复杂的图像对特征提取能力要求更高,通过本发明的基准网络模型,从遥感图像1中提取图像的多尺度特征和重点区域特征,因此在场景丰富、背景复杂的数据集上取得了更大的性能提升。
另外为了检验多尺度特征提取模块和注意力模块的有效性,我们采用Grad-CAM++工具来对模型输出的特征热图进行可视化对比,以此来对模型的图像表征能力进行对比,如图5至图10所示,颜色越偏向红色说明模型对该处像素值较敏感,即关注度越高。通过将基准方法与本发明所采用的遥感图像1检测方法进行对比,基准方法的热图位置普遍不准确,例如,如图5所示,图5(a)为拍摄得到的遥感图像1,图5(b)为采用常规的基准方法进行定位的特征热图的空间定位出现了偏差,热图焦点位于飞机右下的空白区域,而采用本文方法进行定位的图5(c)中可以明显看出,特征热图的空间定位正好定位在飞机上,并没有产生偏差;在图6中,图6(a)为基础遥感图像1,图6(b)采用了基准方法对港湾进行定位,特征热图明显偏离两个港湾,处于两个港湾中间位置,图6(c)采用了本文方法进行定位得到的特征热图精准的处于两个港湾位置上并没有发生任何偏差;同样的在图7至图10中,图7(b)至图10(b)采用基准方法进行特征热图的空间定位或多或少会产生一定的偏差,其中,这个现象在图10中尤为明显,在图(10)中,图10(b)采用基准方法的特征热图的定位位置错误,覆盖在了无关区域,而图10(c)中采用本文方法进行定位的特征热图的空间定位则准确的对目标对象特征进行捕捉,通过对上述各组图片的对比可以看出,基准模型捕捉图像显著特征的能力较弱。相比之下,本发明所采用的方法能够准确的对目标对象进行捕捉,且形成的特征热图能够对目标对象进行覆盖,并且采用本文方法形成的特征热图不仅覆盖位置更为合理且精细度较高,例如,在第四列的停车场图像中,本发明方法生成的特征热图不仅覆盖范围精准,且热图焦点更好地覆盖在了细节层次更高的地物目标上,通过两者对比,本发明的遥感图像1检索方法具有更强的图像特征提取能力,可以更好捕捉遥感图像1的多尺度特征和显著判别特征,有效提高检索精度。
在本发明的描述中,参考术语“一个实施例”、“一些实施例”、“一种实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本发明中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于此。在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,包括各个具体技术特征以任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。但这些简单变型和组合同样应当视为本发明所公开的内容,均属于本发明的保护范围。
Claims (9)
1.融合多尺度空洞卷积和三元组注意力的遥感图像检索方法,其特征在于,包括如下步骤:
A)构建基于残差结构的基准网络;
其中,所述基准网络包括第一卷积层,所述第一卷积层通过多重卷积形成所述残差结构,所述残差结构包括第一残差结构和第二残差结构;
B)将所述残差结构中的卷积模块替换为多尺度空洞卷积模块;
C)在采用所述多尺度空洞卷积模块构成的所述残差结构中嵌入三元组注意力模块,所述三元组注意力模块被嵌入在所述残差结构的每个残差块的最后一个卷积层后;
其中,所述三元组注意力模块的第一分支为空间注意力计算分支,所述三元组注意力模块的第二分支为通道C和空间W维度交互捕获分支,所述三元组注意力模块的第三分支为通道C和空间H维度交互捕获分支,所述三元组注意力模块通过通道维度和空间维度之间的跨通道交互分别建模通道注意和空间注意;
D)构造在线标签平滑损失函数,将遥感图像数据输入残差结构中进行训练,并在训练过程中动态生成平滑权重矩阵;
E)提取遥感图像的特征向量;
F)将遥感图像的特征与数据库图像特征进行匹配,检索最相似图像。
2.根据权利要求1所述的方法,其特征在于,在步骤B)中,将所述残差结构中的卷积模块替换为多尺度空洞卷积模块的方法为:
B1)将残差结构中的3×3卷积模块设置为空洞卷积模块;
B2)将上述空洞卷积模块的扩张率分别设置为[1,2,5,9],形成多尺度空洞卷积模块。
3.根据权利要求1所述的方法,其特征在于,所述三元组注意力模块的交互步骤如下:
C1)设定输入的特征图X∈RH×W×C,该特征图的大小为H×W×C;
C2)分别对所述三元组注意力模块的三个分支的信息数据进行计算;
C3)将各分支所提取的信息进行平均池化聚合特征输出。
4.根据权利要求1所述的方法,其特征在于,所述空间注意力计算分支,通过将特征值输入后,经过通道池化和空洞卷积后,由Sigmoid激活函数生成空间注意力权重。
5.根据权利要求1所述的方法,其特征在于,所述通道C和空间W维度交互捕获分支,将输入的特征X首先经过转置变为H×C×W的维度特征,在将维度特征在H维度上进行池化,并经过卷积和Sigmoid激活函数,最后转置为C×H×W的特征。
6.根据权利要求1所述的方法,其特征在于,所述通道C和空间H维度交互捕获分支,将输入的特征X首先经过转置变为W×H×C的维度特征,在将维度特征在W维度上进行池化,并经过卷积和Sigmoid激活函数,最后转置为C×H×W的特征。
7.根据权利要求1所述的方法,其特征在于,在步骤D)中,利用所述平滑权重矩阵对不同类别的图像进行差异性距离约束,所述平滑权重矩阵的具体公式如下所示,
q(k=yi∣xi)=1,q(k≠yi∣xi)=0
其中,Lhard为交叉熵损失,xi表示输入图像,yi表示输入图像的真实类别,k为输入图像的预测类别,K为图像类别总数,p(k∣xi)表示输入图像xi预测为类别k的概率,q表示yi的分布,Lsoft为在线标签平滑损失,t为训练迭代次数,为标签平滑阈值,并且/>在训练过程中不断迭代调整。
8.根据权利要求7所述的方法,其特征在于,在步骤D)中,所述在线标签损失函数的训练方法中所采用的计算模型损失以及标准化后产生的阈值为:
为计算模型损失后,根据基准网络模型预测概率更新后的阈值,通过对/>进行标准化,得到训练迭代次数为t+1时的平滑阈值/>
9.根据权利要求7所述的方法,其特征在于,采用交叉熵损失函数和在线标签平滑损失函数共同对所述基准网络模型进行训练,经过训练后的总损失为:
L=αLhard+(1-α)Lsoft
其中,L为经过训练后形成的训练总损失,α为平衡系数,用于平衡交叉熵损失函数和在线标签平滑损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111480268.6A CN114511452B (zh) | 2021-12-06 | 2021-12-06 | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111480268.6A CN114511452B (zh) | 2021-12-06 | 2021-12-06 | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114511452A CN114511452A (zh) | 2022-05-17 |
CN114511452B true CN114511452B (zh) | 2024-03-19 |
Family
ID=81548234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111480268.6A Active CN114511452B (zh) | 2021-12-06 | 2021-12-06 | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511452B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618098B (zh) * | 2022-09-08 | 2023-07-04 | 淮阴工学院 | 基于知识增强与空洞卷积的冷链物流推荐方法及装置 |
CN115309927B (zh) * | 2022-10-09 | 2023-02-03 | 中国海洋大学 | 多标签引导和多视图度量的海洋遥感图像检索方法及系统 |
CN117073848A (zh) * | 2023-10-13 | 2023-11-17 | 中国移动紫金(江苏)创新研究院有限公司 | 测温方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110578A (zh) * | 2019-02-21 | 2019-08-09 | 北京工业大学 | 一种室内场景语义标注方法 |
WO2019210737A1 (zh) * | 2018-05-04 | 2019-11-07 | 上海商汤智能科技有限公司 | 对象预测方法及装置、电子设备和存储介质 |
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111079649A (zh) * | 2019-12-17 | 2020-04-28 | 西安电子科技大学 | 基于轻量化语义分割网络的遥感图像地物分类方法 |
WO2020215984A1 (zh) * | 2019-04-22 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 基于深度学习的医学图像检测方法及相关设备 |
CN112101190A (zh) * | 2020-09-11 | 2020-12-18 | 西安电子科技大学 | 一种遥感图像分类方法、存储介质及计算设备 |
CN112183414A (zh) * | 2020-09-29 | 2021-01-05 | 南京信息工程大学 | 一种基于混合空洞卷积的弱监督遥感目标检测方法 |
CN112669323A (zh) * | 2020-12-29 | 2021-04-16 | 深圳云天励飞技术股份有限公司 | 图像处理方法及相关设备 |
-
2021
- 2021-12-06 CN CN202111480268.6A patent/CN114511452B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019210737A1 (zh) * | 2018-05-04 | 2019-11-07 | 上海商汤智能科技有限公司 | 对象预测方法及装置、电子设备和存储介质 |
CN110110578A (zh) * | 2019-02-21 | 2019-08-09 | 北京工业大学 | 一种室内场景语义标注方法 |
WO2020215984A1 (zh) * | 2019-04-22 | 2020-10-29 | 腾讯科技(深圳)有限公司 | 基于深度学习的医学图像检测方法及相关设备 |
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111079649A (zh) * | 2019-12-17 | 2020-04-28 | 西安电子科技大学 | 基于轻量化语义分割网络的遥感图像地物分类方法 |
CN112101190A (zh) * | 2020-09-11 | 2020-12-18 | 西安电子科技大学 | 一种遥感图像分类方法、存储介质及计算设备 |
CN112183414A (zh) * | 2020-09-29 | 2021-01-05 | 南京信息工程大学 | 一种基于混合空洞卷积的弱监督遥感目标检测方法 |
CN112669323A (zh) * | 2020-12-29 | 2021-04-16 | 深圳云天励飞技术股份有限公司 | 图像处理方法及相关设备 |
Non-Patent Citations (4)
Title |
---|
An Attention-Enhanced End-to-End Discriminative Network With Multiscale Feature Learning for Remote Sensing Image Retrieval;dongyang hou等;《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》;第15卷;8245 - 8255 * |
MS-VSCN:用于影像匹配的多尺度视觉相似度比较网络;彭锦超等;《测绘科学技术学报》;第38卷(第1期);56-63 * |
Remote Sensing Scene Classification via Multi-Branch Local Attention Network;Si-Bao Chen等;《IEEE Transactions on Image Processing 》;第31卷;99-109 * |
多尺度特征融合空洞卷积 ResNet遥感图像建筑物分割;徐胜军等;《光学精密工程》(第07期);179-190 * |
Also Published As
Publication number | Publication date |
---|---|
CN114511452A (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114511452B (zh) | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 | |
Chen et al. | DASNet: Dual attentive fully convolutional Siamese networks for change detection in high-resolution satellite images | |
Chaudhuri et al. | Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method | |
CN110929607B (zh) | 一种城市建筑物施工进度的遥感识别方法和系统 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN108108732A (zh) | 字符辨识系统及其字符辨识方法 | |
Miao et al. | A method for accurate road centerline extraction from a classified image | |
CN113360701B (zh) | 一种基于知识蒸馏的素描图处理方法及其系统 | |
CN114758362B (zh) | 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法 | |
CN106021603A (zh) | 一种基于分割和特征匹配的服装图像检索方法 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
Pang et al. | Deep feature aggregation and image re-ranking with heat diffusion for image retrieval | |
CN113033520A (zh) | 一种基于深度学习的树木线虫病害木识别方法及系统 | |
CN109034213B (zh) | 基于相关熵原则的高光谱图像分类方法和系统 | |
CN109241813A (zh) | 用于非约束人脸识别的判别稀疏保持嵌入方法 | |
Lei et al. | Boundary extraction constrained siamese network for remote sensing image change detection | |
CN110751027A (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN105654122A (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN104699781B (zh) | 基于双层锚图散列的sar图像检索方法 | |
Shao et al. | Land use classification using high-resolution remote sensing images based on structural topic model | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
CN113032613A (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
Zhang et al. | Semisupervised center loss for remote sensing image scene classification | |
CN105447869A (zh) | 基于粒子群优化算法的摄像机自标定方法及装置 | |
Huh et al. | Identification of multi-scale corresponding object-set pairs between two polygon datasets with hierarchical co-clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |