CN114511452B

CN114511452B - 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法

Info

Publication number: CN114511452B
Application number: CN202111480268.6A
Authority: CN
Inventors: 侯东阳; 王思远
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2024-03-19
Anticipated expiration: 2041-12-06
Also published as: CN114511452A

Abstract

本发明公开了融合多尺度空洞卷积和三元组注意力的遥感图像检索方法，包括如下步骤：A)构建基于残差结构的基准网络；B)将残差结构中的卷积模块替换为多尺度空洞卷积模块，对图像特征进行增强；C)在采用多尺度空洞卷积模块构成的残差结构中嵌入三元组注意力模块，三元组注意力模块被嵌入在残差结构的每个残差块的最后一个卷积层后；D)构造在线标签平滑损失函数，将遥感图像数据输入残差结构中进行训练，并在训练过程中动态生成平滑权重矩阵；E)提取遥感图像的特征向量；(F)将遥感图像的特征与数据库图像特征进行匹配，检索最相似图像。本发明可以提取遥感图像的显著语义特征，能够有效提高检索精度。

Description

融合多尺度空洞卷积和三元组注意力的遥感图像检索方法

技术领域

本发明涉及图像检索方法，具体地涉及融合多尺度空洞卷积和三元组注意力的遥感图像检索方法。

背景技术

遥感图像检索是根据某种相似性指标从遥感图像(库)中查询用户感兴趣场景或目标的过程，其是促进海量遥感图像共享和高效挖掘的关键技术之一。

但是受到海量遥感图像标注费时耗力且标注文本无法准确表达图像内容等问题的影响，以图像特征为相似性计算依据的基于内容的遥感图像检索(即“以图搜图”)成为了主流方法。近年来，以卷积神经网络为代表的深度学习方法能够从大量数据中提取图像的全局特征，大幅度提高了遥感图像检索的效果。

针对于此，虽然采用深度特征进行检索可以有效检索出所需图像，但受限于遥感图像目标丰富、背景复杂、尺度不一等特点，导致CNN提取的全局特征在部分场景中失效，从而使得检索精度有所降低。

发明内容

本发明所要解决的技术问题是提供融合多尺度空洞卷积和三元组注意力的遥感图像检索方法，其能够有效提高检索精度。

为了解决上述技术问题，本发明提供了融合多尺度空洞卷积和三元组注意力的遥感图像检索方法，包括如下步骤：

A)构建基于残差结构的基准模型；

B)将所述残差结构中的卷积模块替换为多尺度空洞卷积模块；

C)在采用所述多尺度空洞卷积模块构成的所述残差结构中嵌入三元组注意力模块，所述三元组注意力模块被嵌入在所述残差结构的每个残差块的最后一个卷积层后；

D)构造在线标签平滑损失函数，将遥感图像数据输入残差结构进行训练，并在训练过程中动态生成平滑权重矩阵；

E)提取遥感图像的特征向量；

F)将遥感图像的特征与数据库图像特征进行匹配，检索最相似图像。

优选地，在步骤B)中，将所述残差结构中的卷积模块替换为多尺度空洞卷积模块的方法为：

B1)将残差结构中的3×3卷积模块设置为空洞卷积模块；

B2)将上述空洞卷积模块的扩张率分别设置为[1,2,5,9]，形成多尺度空洞卷积模块。

进一步优选地，在步骤C)中，所述三元组注意力模块通过通道维度和空间维度之间的跨通道交互分别建模通道注意和空间注意。

优选地，所述三元组注意力模块的交互步骤如下：

C1)设定输入的特征图X∈R^H×W×C，该特征图的大小为H×W×C；

C2)分别对所述三元组注意力模块的三个分支的信息数据进行计算；

C3)将各分支所提取的信息进行平均池化聚合特征输出。

进一步优选地，所述三元组注意力模块的第一分支为空间注意力计算分支，通过将特征值输入后，经过通道池化和空洞卷积后，由Sigmoid激活函数生成空间注意力权重。

优选地，所述三元组注意力模块的第二分支为通道C和空间W维度交互捕获分支，将输入的特征X首先经过转置变为H×C×W的维度特征，在将维度特征在H维度上进行池化，并经过卷积和Sigmoid激活函数，最后转置为C×H×W的特征。

进一步优选地，所述三元组注意力模块的第三分支为通道C和空间H维度交互捕获分支，将输入的特征X首先经过转置变为W×H×C的维度特征，在将维度特征在W维度上进行池化，并经过卷积和Sigmoid激活函数，最后转置为C×H×W的特征。

优选地，在步骤D)中，利用所述平滑权重矩阵对不同类别的图像进行差异性距离约束，所述平滑权重矩阵的具体公式如下所示，

q(k＝y_i∣x_i)＝1，q(k≠y_i∣x_i)＝0

其中，L_hard为交叉熵损失，x_i表示输入图像，y_i表示输入图像的真实类别，k为输入图像的预测类别，K为图像类别总数，p(k∣x_i)表示输入图像x_i预测为类别k的概率，q表示y_i的分布，L_soft为在线标签平滑损失，t为训练迭代次数，为标签平滑阈值，并且/>在训练过程中不断迭代调整。

进一步优选地，在步骤F)中，所述在线标签损失函数的训练方法中所采用的计算模型损失以及标准化后产生的阈值为：

为计算模型损失后，根据基准网络模型预测概率更新后的阈值，通过对/>进行标准化，得到训练迭代次数为t+1时的平滑阈值/>

优选地，采用交叉熵损失函数和在线标签平滑损失函数共同对所述基准网络模型进行训练，经过训练后的总损失为：

L＝αL_hard+(1-α)L_soft

其中，L为经过训练后形成的训练总损失，α为平衡系数，用于平衡交叉熵损失函数和在线标签平滑损失函数。

通过上述技术方案，本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法，通过采用多尺度空洞卷积模块提取不同尺度地物的特征，并在该残差特征结构模型中加入三元组注意力模块，对遥感图像特征进行增强，通过三元组注意力模块与多尺度空洞卷积模块的配合，保证了提取的图像特征的准确性，并且针对遥感图像的复杂程度，采用在线标签平滑损失训练的方法对不同类别的图像进行约束，从而能够使得检索得到的图像更加精准。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

图1是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的流程图；

图2是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的总体原理图；

图3是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的第一残差结构和第二残差结构的原理图；

图4是本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的第三残差结构和第四残差结构的原理图；

图5是本发明与传统方法在飞机遥感图像特征可视化效果的对比图；

图6是本发明与传统方法在港口图像特征可视化效果的对比图；

图7本发明与传统方法在高尔夫球场图像特征可视化效果的对比图；

图8本发明与传统方法在停车场图像特征可视化效果的对比图；

图9本发明与传统方法在储罐图像特征可视化效果的对比图；

图10是本发明与传统方法在相似图像特征可视化效果的对比图。

附图标记

1 遥感图像 2 第一卷积层

3 第一残差结构 4 第二残差结构

5 第三残差结构 6 第四残差结构

7 全连接层 8 在线标签平滑

具体实施方式

下面结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1至图4所示，在本发明所提供的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的一种实施例中，该方法包括如下步骤：

A)构建基于残差结构的基准网络；

D)构造在线标签平滑8损失函数，将遥感图像1数据输入残差网络中进行训练，并在训练过程中动态生成平滑权重矩阵；

E)提取遥感图像1的特征向量；

F)将遥感图像1的特征与数据库图像特征进行匹配，检索最相似图像。

如图2所示，在基于ResNet50基准网络的残差特征结构中，通过融入多尺度空洞卷积模块和三元组注意力模块形成的基准网络模型，能够有效提高遥感图像检索的精度。在采用的基准网络模型中，将拍摄得到的遥感图像1作为模型输入数据输入第一卷积层2中，将第一卷积层2进行多重卷积形成第一残差结构3和第二残差结构4，然后将第一残差结构3和第二残差结构4中的卷积模块替换为多尺度空洞卷积模块，采用多尺度空洞卷积来提取不同感受野下的特征；将无参数的三元组注意力模块嵌入至每个残差结构的最后一个卷积层后形成第三残差结构5和第四残差结构6，通过空间与通道的跨维度交互自适应学习注意力权重矩阵，从而能够聚焦于图像的重要特征，全连接层7被用于对经过残差结构提取的图像进行分类，最后，采用在线标签平滑8损失函数进行端到端的训练，以便缩小类内差异和增强类间可分性，最终在公开的遥感图像1数据集上进行验证，通过验证数据表明本发明能够有效提高遥感图像1的检索精度。

具体地，相较于自然图像，遥感图像1背景更为复杂，也容易造成更大的类内差异，不同类别的图像之间也容易存在较高的相似性，这就导致经过训练后的深度特征存在类内差距较大和类间边界不清晰等问题，这就需要在在训练过程中增大类间可分性和类内紧致性，使得相似的图像划分为更加紧凑的聚类簇，而动态生成的平滑权重矩阵对不同类别的图像进行差异性距离约束，以收缩类内间距并扩大类间差异，该平滑权重矩阵的具体公式如下所示，

q(k＝y_i∣x_i)＝1，q(k≠y_i∣x_i)＝0

其中，L_hard为交叉熵损失，x_i表示输入图像，y_i表示输入图像的真实类别，k为输入图像的预测类别，K为图像类别总数，p(k∣x_i)表示输入图像x_i预测为类别k的概率，q表示y_i的分布，L_soft为在线标签平滑8损失，t为训练迭代次数，为标签平滑阈值，并且/>在训练过程中不断迭代调整。

具体地，在线标签损失函数的训练方法中所采用的计算模型损失以及标准化后产生的阈值为：

随后采用交叉熵损失函数和在线标签平滑8损失函数共同对所述基准网络模型进行训练，得到经过训练后的总损失为：

L＝αL_hard+(1-α)L_soft

其中，L为经过训练后形成的训练总损失，α为平衡系数，用于平衡交叉熵损失函数和在线标签平滑8损失函数。

本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的一个实施例中，步骤B具体包括设置扩张率为[1,2,5,9]的多尺度空洞卷积嵌入至所述残差结构内。

具体地，由于空洞卷积可以不引入额外参数的情况下拥有更大的感受野，同时可以捕获多尺度上下文信息，并应用于图像分隔和目标检测，当对遥感图像1不同尺度的特征进行捕捉时，在基准网络模型中我们设计了多尺度空洞卷积模块，以此来实现对遥感图像1信息的不同尺度的特征提取。

具体地，在不引入外部参数的前提下，捕获更大范围的特征信息。空洞卷积的扩张率定义了卷积核处理数据时各值的间距。对于大小为k×k的卷积核，在扩张率为r时，由公式(1)得到扩张卷积核的大小为k_d×k_d：k_d＝k_d+(k-1)·(r-1)。

空洞卷积在增大信息感受野的同时，卷积空间是不连续的，因此会带来远距离信息不相关的问题，对于背景复杂的遥感图像1，会造成小目标的信息丢失，而本申请所采用的多尺度空洞卷积模块保证了图像信息的连续性。我们设定叠加空洞卷积的扩张率不能有1和自身外的公约数，将其进行池化操作后，其扩张率的分配遵循一种锯齿状的启发式结构，例如对于k＝3的卷积核，设定扩张率为[1,2,5,9]的上升组，自适应提取不同大小的地物信息，其中，扩张率较小的卷积用于捕捉近距离地物信息，扩张率较大的卷积用于捕获远距离信息，从而能够在不破坏卷积区域连续性的前提下，从更大范围的空间获取信息。

本发明的融合多尺度空洞卷积和三元组注意力的遥感图像检索方法的一个实施例中，三元组注意力模块的交互步骤如下：

C1)设定输入的特征图X∈R^H×W×C，该特征图的大小为H×W×C；

C3)将各分支所提取的信息进行平均池化聚合特征输出。

具体地，视觉注意力机制通过快速扫描全局图像，获得需要重点关注的目标区域，而后对这一区域投入更多注意力资源，获取更多所需要关注目标的细节信息，并抑制其他无用信息。在应用于遥感图像1中，由于遥感图像1中包含了大量的背景信息，对深度特征判别具有很大的影响，我们将几乎无参数的三元组注意力模块嵌入残差特征结构模型中，三元组注意力模块的两个分支分别用来捕获通道维度和空间维度的跨通道交互，一个分支进行空间注意力权重计算，并分别建模通道注意和空间注意。其中，第一个分支为通道注意力计算分支，输入特征首先经过通道池化和7*7卷积后，由Sigmoid激活函数生成空间注意力权重；第二个分支为通道C和空间W维度交互捕获分支，输入特征X先经过转置变为H×C×W的维度特征，接着在H维度上进行池化，经过7*7卷积和Sigmoid激活函数，最后转置为C×H×W的特征。第三个分支为通道C和空间H维度交互捕获分支，将输入的特征X首先经过转置变为W×H×C的维度特征，在将维度特征在W维度上进行池化，并经过卷积和Sigmoid激活函数，最后转置为C×H×W的特征。最后，对各分支提取的信息进行平均池化聚合特征输出。

为了验证本检索方法的准确性，我们采用搭载英特尔3.7GHz i9-10900K处理器和NVIDIA GeForce GTX3090显卡的Ubuntu 20系统上进行。在训练阶段，设置训练批次为40epoch,优化器为Adam,初始学习率为3e-4,权重衰减为3e-4。在所有实验中，输入图像的大小已调整为224×224像素。并为了做对比，我们将四个公开的遥感图像1数据集作为验证数据集，四个数据集分别为：

1)UCMD：UCMD数据集包含来自美国地质调查局(USGS)的2100幅遥感图像1，包含飞机、建筑物、河流等21个不同类别的遥感图像1，每个类别包含100个图像,图像尺寸为256*256像素。

2)NWPU:NWPU数据集包含了45个类别的图像，每个类别包含700张图像，共31500张图像，图像尺寸为256*256像素。

3)PatternNet:PatternNet数据集由38个类别组成，每个类别包含800幅图像采集自Google Earth的256×256像素的图像。图像地面分辨率为0.6-4.7米。

4)VArcGIS：VArcGIS大规模遥感数据集由采集自ArcGIS World Imagery的38类图像组成，每个类别包含1504-1904张图像，共计59071张图像，图像尺寸为256*256像素。

对于使用的基准数据集，我们对每个类别的图像按8:2比例随机划分训练集、测试集，训练集被重新划分为两部分，80％图像用于训练，剩余20％图像用于验证。在测试过程中，模型去掉全连接层7的输出作为图像特征，欧氏距离被用来衡量特征的相似性。查询图像的视觉特征与其他图像之间的距离越近，这些图像越相似，在进行对比评价时，采用平均归一化修正检索秩(ANMRR)、平均检索精度(mAP)、k处精度这三种标准检索度量来评价结果，我们将k值设置为5、10、20、50、100和1000，其中，ANMRR值越低，mAP和Pk值越高，则检索精度越好。

通过在该四个数据集上进行实验，形成的具体结果如表1和表2所示，表1：四个基准数据集上的检索精度

表2：UCMD数据集上不同方法的检索精度

在表1中，mAP和Pk越大越好，ANMRR越小越好，通过表1可以看出，本发明所建立的基准模型与ResNet50基准网络模型相比，在目标明确的PatternNet和VArcGIS数据集上平均检索精度分别提高了6.17％和9.67％，在背景复杂的UCMD和NWPU数据集上平均检索精度分别提高了24.46％和33.84％，通过表2可以看出，采用本发明的方法与其他算法进行对比可以看出，本发明所采用的方法在背景复杂的UCMD数据集上得到的ANMRR值最小，mAP值最大，从而得到的检索精度最高。通过上述对比结果，可以明显看出背景复杂的图像对特征提取能力要求更高，通过本发明的基准网络模型，从遥感图像1中提取图像的多尺度特征和重点区域特征，因此在场景丰富、背景复杂的数据集上取得了更大的性能提升。

另外为了检验多尺度特征提取模块和注意力模块的有效性，我们采用Grad-CAM++工具来对模型输出的特征热图进行可视化对比，以此来对模型的图像表征能力进行对比，如图5至图10所示，颜色越偏向红色说明模型对该处像素值较敏感，即关注度越高。通过将基准方法与本发明所采用的遥感图像1检测方法进行对比，基准方法的热图位置普遍不准确，例如，如图5所示，图5(a)为拍摄得到的遥感图像1，图5(b)为采用常规的基准方法进行定位的特征热图的空间定位出现了偏差，热图焦点位于飞机右下的空白区域，而采用本文方法进行定位的图5(c)中可以明显看出，特征热图的空间定位正好定位在飞机上，并没有产生偏差；在图6中，图6(a)为基础遥感图像1，图6(b)采用了基准方法对港湾进行定位，特征热图明显偏离两个港湾，处于两个港湾中间位置，图6(c)采用了本文方法进行定位得到的特征热图精准的处于两个港湾位置上并没有发生任何偏差；同样的在图7至图10中，图7(b)至图10(b)采用基准方法进行特征热图的空间定位或多或少会产生一定的偏差，其中，这个现象在图10中尤为明显，在图(10)中，图10(b)采用基准方法的特征热图的定位位置错误，覆盖在了无关区域，而图10(c)中采用本文方法进行定位的特征热图的空间定位则准确的对目标对象特征进行捕捉，通过对上述各组图片的对比可以看出，基准模型捕捉图像显著特征的能力较弱。相比之下，本发明所采用的方法能够准确的对目标对象进行捕捉，且形成的特征热图能够对目标对象进行覆盖，并且采用本文方法形成的特征热图不仅覆盖位置更为合理且精细度较高，例如，在第四列的停车场图像中，本发明方法生成的特征热图不仅覆盖范围精准，且热图焦点更好地覆盖在了细节层次更高的地物目标上，通过两者对比，本发明的遥感图像1检索方法具有更强的图像特征提取能力，可以更好捕捉遥感图像1的多尺度特征和显著判别特征，有效提高检索精度。

在本发明的描述中，参考术语“一个实施例”、“一些实施例”、“一种实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本发明中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于此。在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，包括各个具体技术特征以任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。但这些简单变型和组合同样应当视为本发明所公开的内容，均属于本发明的保护范围。

Claims

1.融合多尺度空洞卷积和三元组注意力的遥感图像检索方法，其特征在于，包括如下步骤：

A)构建基于残差结构的基准网络；

其中，所述基准网络包括第一卷积层，所述第一卷积层通过多重卷积形成所述残差结构，所述残差结构包括第一残差结构和第二残差结构；

其中，所述三元组注意力模块的第一分支为空间注意力计算分支，所述三元组注意力模块的第二分支为通道C和空间W维度交互捕获分支，所述三元组注意力模块的第三分支为通道C和空间H维度交互捕获分支，所述三元组注意力模块通过通道维度和空间维度之间的跨通道交互分别建模通道注意和空间注意；

D)构造在线标签平滑损失函数，将遥感图像数据输入残差结构中进行训练，并在训练过程中动态生成平滑权重矩阵；

E)提取遥感图像的特征向量；

2.根据权利要求1所述的方法，其特征在于，在步骤B)中，将所述残差结构中的卷积模块替换为多尺度空洞卷积模块的方法为：

B1)将残差结构中的3×3卷积模块设置为空洞卷积模块；

3.根据权利要求1所述的方法，其特征在于，所述三元组注意力模块的交互步骤如下：

C1)设定输入的特征图X∈R^H×W×C，该特征图的大小为H×W×C；

C3)将各分支所提取的信息进行平均池化聚合特征输出。

4.根据权利要求1所述的方法，其特征在于，所述空间注意力计算分支，通过将特征值输入后，经过通道池化和空洞卷积后，由Sigmoid激活函数生成空间注意力权重。

5.根据权利要求1所述的方法，其特征在于，所述通道C和空间W维度交互捕获分支，将输入的特征X首先经过转置变为H×C×W的维度特征，在将维度特征在H维度上进行池化，并经过卷积和Sigmoid激活函数，最后转置为C×H×W的特征。

6.根据权利要求1所述的方法，其特征在于，所述通道C和空间H维度交互捕获分支，将输入的特征X首先经过转置变为W×H×C的维度特征，在将维度特征在W维度上进行池化，并经过卷积和Sigmoid激活函数，最后转置为C×H×W的特征。

7.根据权利要求1所述的方法，其特征在于，在步骤D)中，利用所述平滑权重矩阵对不同类别的图像进行差异性距离约束，所述平滑权重矩阵的具体公式如下所示，

q(k＝y_i∣x_i)＝1，q(k≠y_i∣x_i)＝0

8.根据权利要求7所述的方法，其特征在于，在步骤D)中，所述在线标签损失函数的训练方法中所采用的计算模型损失以及标准化后产生的阈值为：

9.根据权利要求7所述的方法，其特征在于，采用交叉熵损失函数和在线标签平滑损失函数共同对所述基准网络模型进行训练，经过训练后的总损失为：

L＝αL_hard+(1-α)L_soft