CN113220915A

CN113220915A - 一种基于残差注意力的遥感图像检索方法及装置

Info

Publication number: CN113220915A
Application number: CN202110477016.1A
Authority: CN
Inventors: 程起敏; 甘德樵; 李丹; 周玉琢; 黄海燕; 黄小松
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113220915B

Abstract

本发明提供了一种基于残差注意力的遥感图像检索方法及装置，属于图像处理领域，方法包括：将待检索遥感图像输入至训练完毕的深度神经网络，根据正样本排名为正样本对应的三元组分配不同的惩罚权重；将各单元中的惩罚权重与正样本的检索分数相乘后求和，输出检索结果；训练深度神经网络的方法为：通过深度神经网络提取高层语义特征；通过残差注意力机制为局部特征分配注意力分数后，将全局特征和带有注意力分数的局部特征通过残差映射，获取更新后的特征集合；将更新后的特征集合通过特征描述符池化；将输出特征分划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络。本发明有效提高了图像检索装置的性能。

Description

一种基于残差注意力的遥感图像检索方法及装置

技术领域

本发明属于图像处理领域，更具体地，涉及一种基于残差注意力的遥感图像检索方法及装置。

背景技术

近来，随着遥感数据急速增加，有效的遥感数据处理技术显得越来越重要。当前，遥感图像处理中的基本任务包括对象/实例检测，分类，检索，目标表面分析和分割等。在这些任务中，从海量的遥感图像中查询感兴趣的目标显得极具挑战性，并且受到了遥感界的关注。遥感图像检索系统旨在检索遥感数据集中与查询图像最相似的图像，并由特征提取和相似性度量两部分组成。遥感图像包含更加丰富的地理位置、拍摄视点、时差和高分辨率信息，因此，提取更具语义性的特征表示成为当前遥感图像检索领域的研究热点。目前，遥感图像检索方法主要分为基于人工特征(低、中层特征)和基于深度特征(高层特征)的方法。

传统的遥感图像检索系统，通过图像本身的特征(又称底层特征，例如图像的颜色、形状和纹理)或者聚合特征(又称中层特征，例如词袋、局部聚集描述符和钓鱼向量)来表征图像内容，从而进行图像间的相似性匹配。然而，设计人工特征存在主观性差异和难以逾越的“语义鸿沟”问题，并且在庞大的遥感图像数据中制作人工特征耗时耗力。而基于深度度量学习的图像检索方法则可以有效地解决这些问题。基于深度度量学习的方法通过训练卷积神经网络，自动将数据中的信息抽象为特征向量，并映射到度量空间中，随后通过距离度量函数计算特征间的距离。该方法的主要目的是学习一种新的度量，以最小化同一类样本的间距，最大化不同样本的间距，从而精准衡量图像之间的相似度。

深度度量学习技术可以从数据中提取高层语义信息，并且通过相似性度量算法(例如欧几里得距离)直接计算被测图像之间的语义相似性。因此，深度度量学习技术有助于解决低、中层特征与高层特征之间的语义鸿沟问题，并且能有效连通特征提取和相似性度量两个部分，以降低模型的多部分带来的不确定性。但是，现有的大多数基于深度度量学习的图像检索方法都只能简单地将图像特征映射到一个公共的潜在嵌入空间当中，平等地、无差别地对待不同类型的图像区域，然后在这个空间中进行相似性计算。上述这个方案很难捕捉到图像间细微的语义差别，因此在一定程度上限制了遥感图像检索系统的性能。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于残差注意力的遥感图像检索方法及装置，旨在解决现有的大多数基于深度度量学习的图像检索方法将图像特征映射到一个公共的潜在嵌入空间当中，平等地、无差别地对待不同类型的图像区域，然后在空间中进行相似性计算，很难捕捉到图像间细微的语义差别，导致在一定程度上限制了遥感图像检索系统的性能的问题。

为实现上述目的，一方面，本发明提供了一种基于残差注意力的遥感图像检索方法，包括以下步骤：

将待检索遥感图像输入至训练完毕的深度神经网络，根据正样本排名为正样本对应的三元组分配不同的惩罚权重；

以单个待检索遥感图像为单元，将各单元中的惩罚权重与正样本的检索分数相乘后求和，获取各待检索遥感图像对应的综合分数，输出检索结果；

其中，训练深度神经网络的方法，包括以下步骤：

通过深度神经网络提取训练集中遥感图像的高层语义特征；其中，高层语义特征包括局部特征和全局特征；

通过残差注意力机制为局部特征分配注意力分数后，将训练集中遥感图像的全局特征和带有注意力分数的局部特征通过残差映射，获取更新后的特征集合；

将更新后的特征集合通过特征描述符进行池化，获取输出特征；

将输出特征分划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络。

优选地，深度神经网络为AlexNet网络、VGG网络、GoogleNet网络、Inception网络和ResNet网络中的任意一种。

优选地，残差注意力机制中的注意力激活函数为混合注意力。

优选地，池化函数为总和池化SPoC、最大池化MAC和混合池化GeM中的一种或多种组合。

优选地，三元组损失函数为：

其中，D为欧氏距离函数；y_a是锚点标签；y_p是正样本标签；y_n是负样本标签；m是两个欧氏距离中的最小间隔；i是锚点和正样本编号；j是负样本编号。

优选地，通过残差注意力机制为局部特征分配注意力分数的方法为：

采用余弦相似度函数计算局部特征的相似度矩阵；

对相似度矩阵进行归一化处理，归一化后的分数作为局部特征的注意力分数。

另一方面，本发明提供了一种基于残差注意力的遥感图像检索装置，包括特征提取模块和相似性度量模块；

特征提取模块用于对提取的局部特征分配注意力分数后，结合全局特征通过残差映射，获取更新后的特征集合；再对更新后的特征集合通过特征描述符进行池化，获取输出特征；

相似性度量模块用于将输出特征划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络；且根据正样本排名为正样本对应的三元组分配不同的惩罚权重；以单个待检索遥感图像为单元，将各单元中的惩罚权重与正样本的检索分数相乘后求和，获取各待检索遥感图像对应的综合分数，输出检索结果。

优选地，特征提取模块包括：图像特征提取单元、残差注意力单元和特征描述符单元；

图像特征提取单元用于提取训练集中和待检索的遥感图像的全局特征和局部特征；

残差注意力单元用于利用残差注意力掩膜，为局部特征分配不同的注意力分数；将训练集中遥感图像的全局特征和带有注意力分数的局部特征通过残差映射，获取更新后的特征集合；

特征描述符单元用于对更新后的特征集合通过特征描述符进行池化，获取输出特征。

优选地，相似性度量模块包括网络训练单元、分配单元和检索单元；

网络训练单元用于将输出特征分划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络；

分配单元用于根据正样本排名为正样本对应的三元组分配不同的惩罚权重；

检索单元用于以单个待检索遥感图像为单元，将各单元中的惩罚权重与正样本的检索分数相乘后求和，获取各待检索遥感图像对应的综合分数，输出检索结果。

优选地，三元组损失函数为：

采用余弦相似度函数计算局部特征的相似度矩阵；

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明通过深度神经网络获取遥感图像的全局特征和局部特征以构建高层语义特征，并通过残差注意力机制不仅保留了原始信息，还快速筛选出有价值的信息，以获取更加精确的特征表达。同时，为了充分挖掘与利用图像之间的相关关系，通过采用动态加权机制，根据真实匹配的正样本在返回结果中的排名，给每个三元组分配不同的惩罚权重，用以训练检索系统，衡量结果与查询图像的相似性，从而有效提高图像检索装置的性能。

附图说明

图1是本发明实施例提供的基于残差注意力的遥感图像检索方法流程示意图；

图2是本发明实施例提供的基于残差注意力的遥感图像检索装置的结构示意图；

图3是本发明实施例提供的基于残差注意力的遥感图像检索方法获取的检索结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一方面，本发明实施例提供的基于残差注意力的遥感图像检索方法示意图，包括以下步骤：

S101：通过深度神经网络，获取遥感图像的高层语义特征；

具体地，用来获取图像高层语义特征的深度神经网络为：AlexNet网络、VGG网络、GoogleNet网络、Inception网络和ResNet网络中的任意一种；

进一步地，本发明实施例用来获取图像高层语义特征的深度神经网络为ResNet50网络。

具体地，用卷积神经网络提取的每一幅遥感图像的高层语义特征为全局特征和多个局部区域特征的集合；

ResNet50网络是由前向传播的“shortcut连接”以实现，即有选择地略过一些神经网络层。这种连接方式的参数数量不变并且计算成本也不变，可以简单理解为恒等映射，shortcut的输出直接叠加在堆叠层的输出上；ResNet50在ResNet34的基础上进行了优化，在更深的三层网络中的卷积核分别为1×1、3×3和1×1的卷积核；ResNet50隐藏层的特征数量仅为输出的特征数量的1/4，可以用来提取更具有区分性的特征，同时减少了计算量；

S102：通过残差注意力机制为局部特征分配注意力分数，重新整合全局特征和局部特征，得到更新后的特征集合；

假设遥感图像的特征集合为X＝{x₁，...，x_i，...，x_m}，x_i为第i张遥感图像的特征向量，m为遥感图像的总数；将原始遥感图像输入至ResNet50网络后，取网络中最后一个bottleneck的输出作为遥感图像的全局特征和局部特征集合M(x_i)；

进一步地，利用残差注意力H(x_i)为提取的局部特征分配注意力分数，重新整合局部特征A(x_i)'＝H(x_i)·A(x_i)；

详细介绍如下：

用来分配局部特征权重的注意力激活函数，可以是空间注意力H₁、通道注意力H₂和混合注意力H₃；

进一步地，本发明实施例用来分配局部特征权重的注意力激活函数为混合注意力H₃，公式表达如下：

其中，c为局部特征的特征标签；mean_c为以c为特征标签的局部特征的均值向量；std_c为以c为特征标签的局部特征的标准差；

进一步地，将保留的全局特征和整合后的局部特征作为更新后的特征集合M(x_i)'＝(1+H₃(x_i))·A(x_i)；

S103：将更新后的特征集合通过特征描述符进行池化；

更新后的特征集合通过特征描述符池化，池化函数可以是总和池化SPoC、最大池化MAC和混合池化GeM，也可以是三种中任意两种的组合；

本发明实施例中，池化函数是总和池化SPoC和混合池化GeM的组合，记为SG，表示为：F(SPoC)+F(GeM)；

F(SPoC)表示为：

其中，X^k为特征映射的二维激活函数集合；x为遥感图像的特征向量；p_k为池化层参数；

F(GeM)表示为：

在池化层之后的网络顶部添加全连接层，并且采用Adam优化器，优化更新神经网络的权重；不同于一般的随机梯度下降，Adam不仅可以以自适应的学习速率学习每一个参数，而且可以随着学习的展开独立做相应调整，得到输出特征Z；

S104：采用三元组损失训练深度神经网络，基于经过训练完毕的深度神经网络，根据正样本的排名分配三元组的惩罚权重，获取最优的检索结果；

具体地，将遥感图像中所有和锚点同类的正样本

分别与锚点

组成正样本对；与锚点不同类的负样本

与锚点组成负样本对；三元组为

正样本对表示为

负样本对表示为

用三元组损失函数

进行参数训练，通过以下公式确定：

其中，D为欧氏距离函数；y_a是锚点对应的标签；y_p是正样本对应的标签；y_n是负样本对应的标签；m是两个欧氏距离中的最小间隔；

该步骤采用三元组损失函数表征正样本和负样本分类的精准性，三元组损失函数的值越小，说明当前区别正样本和负样本的标准更合理；不断调整正样本和负样本的区别标准，当三元组损失函数最小时，完成深度神经网络的训练；

更为具体地，为了提高训练过程的效率，将最后的特征集合分为多个批次(mini-batch)进行训练深度神经网络；

详细地，R_p表示当前特征在对应遥感图像的所有输出特征得分中的排名：

其中，p代表排名的编号；p∈{1,…,N}；N为当前遥感图像的输出特征总数；

为当前图像对应的拉普拉斯算子，v_p是初始得分，v＝{v₁,…,v_N}将排序分数归一化到0到1的范围内；对各个输出特征的检索分数进行加权求和得到当前遥感图像的综合分数；η为输出特征的期望；

对遥感图像的综合分数进行排序，筛选出得分最高的遥感图像作为最终的检索结果。

特征提取模块包括：图像特征提取单元、特征描述符单元和残差注意力单元；

图像特征提取单元，以端到端的方式用训练集中遥感图像的标签，对ResNet50网络的参数进行微调，用于确定遥感图像的全局特征和局部特征集合；其中，端到端的网络训练方式为直接连通特征提取和相似性度量两部分进行训练。

残差注意力单元用于将遥感图像的局部特征映射到公共的嵌入空间中，利用残差注意力掩膜，为局部特征分配不同的注意力分数；将遥感图像中多个局部特征通过注意力分数整合，获取更新后的局部特征；基于残差注意力机制中包含的恒等映射，保留遥感图像的全局特征；将遥感图像的局部特征和全局特征整合为更新后的特征集合；

特征描述符单元用于对更新后的特征集合通过特征描述符进行池化，获取输出特征；

相似性度量模块用于采用动态加权机制，根据真实匹配的正样本在返回结果中的排名，为每个三元组分配不同的惩罚权重，用来训练检索系统，衡量结果与查询遥感图像的相似性，最后得到最优的检索结果。

实施例

本实验用Aerial Image Dataset(AID)数据集进行性能测试。AID数据集由10000张图像组成，分为30个语义类别，如：农田、商业、密集住宅区和高架桥等。每个类包含220到420张图像，每幅图像的大小为600×600像素。与其他现有的遥感数据集相比，该数据集包含更多的数据、更丰富的图像变化以及更高的类内多样性和类间相似性；不仅包含了每个类别的不同视角、平移、物体姿态、外观、空间分辨率、光照、背景和遮挡等方面的变化，并在不同的成像条件下在不同的时间和季节提取，增加了数据的分类多样性。

测试本发明的性能与其他图像检索方法的性能进行对比。本实验的图像数据如表1所示。

表1

评价指标：top-1召回率R@1、top-2召回率R@2、top-4召回率R@4和top-8召回率R@8；

具体地，在本实验中，将以图像检索任务为例，从图像的角度出发进行评价。其中，基于图像的top-K召回率表示根据数据集中图像匹配查询图像时的top-K召回率，记为R@K-i；

首先，对于一幅查询图像，在测试集中通过相似性度量匹配得到K张与之最近邻的图像；

如果返回的K张图像中至少有一幅图像与查询图像真实匹配，则该次匹配的score值记为1，否则记为0；此时，top-K召回率R@K表示测试集中所有查询图片score值的平均：

其中，b表示匹配次数；

本实验所采用的CNN模型是未训练完的ResNet50网络，在对CNN模型进行预训练时，学习率设置为0.0001，mini-batch设置为128，最小间隔m设置为0.1。所提取的高层特征的维度设置为1536维。

首先，本实施例进行了两组消融实验以验证遥感图像检索装置各单元的有效性，主要包括以下几个单元：一是残差注意力单元，对比不同的注意力激活函数，用于验证提取的特征是否更具有区分性，实验结果如表2所示；二是特征描述符单元，对比七种配置的特征描述符，用于验证获得的图像特征包含的语义信息是否丰富，是否具有区分性，实验结果如表3所示。其中，加粗的数据对应的是表现最好的函数。

表2

表3

表2的实验结果表明，混合注意力保留了更全面的通道和空间信息，同时具备空间注意力和通道注意力的优点，使得提取的特征更具有判别性，进而提升了图像检索装置的性能；表3中，S代表SPoC、M代表MAC、G代表GeM。其中，两种描述符的组合表示为两个字母的缩写，例如SG表示SPoC(768维)和GeM(768维)相结合，组合的特征描述符的特征维数与单个特征描述符的相同。实验结果表明，组合的特征描述符SG提取的特征所包含的语义信息更加全面，特征也更具有区分性，提升了图像检索系统的性能。

为了证明本发明所提出装置的有效性，和近年来一些比较经典的基于深度网络的图像检索模型进行了对比。对比的方法包括：(1)BIER方法，该方法主要特点在于通过集成嵌入空间的方法利用多个学习者同时提取图像特征，提高特征的区分性；(2)A-BIER方法，该方法在BIER方法的基础上，加入了对抗损失函数用以约束多个学习者，进一步提高所提取特征的多样性；(3)DCES方法，该方法的主要思想在于，通过随机分配K个学生者同时学习K组互不相同类别的图像，以提高图像特征的区分性降低学习者所学内容的相关性；(4)ABE方法，该方法的主要思想在于，将图像分成K个区域并分配K个学习者添加注意力机制后学习各个区域，得到较为精确的图像特征，然后在公共的嵌入子空间中利用三元组损失函数度量数据集中图像和查询图像之间的相似性。在AID数据集上的5中方法的检索结果对比如表4所示；

表4

如表4所示，可以看出本发明提供的基于残差注意力的遥感图像检索方法，和其他比较典型的基于深度度量学习的图像检索方法相比，具有一定的优势。也证明了本发明利用深度神经网络所获取的图像的高层特征是有效的，同时，利用残差注意力机制对特征进行优化和更新时可行的。本发明所采用方法的一些匹配示例如图3所示。其中，对于一些背景比较杂乱的图像，本发明的方法也可以在排名靠前的图像中返回正确的结果。

综上所述，本发明与典型的基于深度度量学习的图像检索方法相比，具有一定的优势。本发明通过深度神经网络获取遥感图像的全局特征和局部特征以构建高层语义特征，并通过残差注意力机制不仅保留了原始信息，还快速筛选出有价值的信息，以获取更加精确的特征表达。同时，为了充分挖掘与利用图像之间的相关关系，通过采用动态加权机制，根据真实匹配的正样本在返回结果中的排名，给每个三元组分配不同的惩罚权重，用以训练检索系统，衡量结果与查询图像的相似性，从而有效提高图像检索装置的性能。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于残差注意力的遥感图像检索方法，其特征在于，包括以下步骤：

将待检索遥感图像输入至训练完毕的深度神经网络，根据正样本排名为所述正样本对应的三元组分配不同的惩罚权重；

以单个所述待检索遥感图像为单元，将各单元中的所述惩罚权重与正样本的检索分数相乘后求和，获取各所述待检索遥感图像对应的综合分数，输出检索结果；

其中，训练所述深度神经网络的方法，包括以下步骤：

通过所述深度神经网络提取训练集中遥感图像的高层语义特征；其中，高层语义特征包括局部特征和全局特征；

通过残差注意力机制为所述局部特征分配注意力分数后，将训练集中遥感图像的全局特征和带有注意力分数的局部特征通过残差映射，获取更新后的特征集合；

将所述更新后的特征集合通过特征描述符进行池化，获取输出特征；

将所述输出特征分划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络。

2.根据权利要求1所述的遥感图像检索方法，其特征在于，所述深度神经网络为AlexNet网络、VGG网络、GoogleNet网络、Inception网络和ResNet网络中的任意一种。

3.根据权利要求1所述的遥感图像检索方法，其特征在于，所述残差注意力机制中的注意力激活函数为混合注意力。

4.根据权利要求1至3任一所述的遥感图像检索方法，其特征在于，所述池化函数为总和池化SPoC、最大池化MAC和混合池化GeM中的一种或多种组合。

5.根据权利要求1至3任一所述的遥感图像检索方法，其特征在于，通过残差注意力机制为局部特征分配注意力分数的方法为：

采用余弦相似度函数计算局部特征的相似度矩阵；

6.一种基于残差注意力的遥感图像检索装置，其特征在于，包括特征提取模块和相似性度量模块；

所述特征提取模块用于对提取的局部特征分配注意力分数后，结合全局特征通过残差映射，获取更新后的特征集合；再对更新后的特征集合通过特征描述符进行池化，获取输出特征；

所述相似性度量模块用于将输出特征划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络；且根据正样本排名为正样本对应的三元组分配不同的惩罚权重；以单个待检索遥感图像为单元，将各单元中的惩罚权重与正样本的检索分数相乘后求和，获取各待检索遥感图像对应的综合分数，输出检索结果。

7.根据权利要求6所述的遥感图像检索装置，其特征在于，所述特征提取模块包括：图像特征提取单元、残差注意力单元和特征描述符单元；

所述图像特征提取单元用于提取训练集中和待检索的遥感图像的全局特征和局部特征；

所述残差注意力单元用于利用残差注意力掩膜，为局部特征分配不同的注意力分数；将训练集中遥感图像的全局特征和带有注意力分数的局部特征通过残差映射，获取更新后的特征集合；

所述特征描述符单元用于对更新后的特征集合通过特征描述符进行池化，获取输出特征。

8.根据权利要求6或7所述的遥感图像检索装置，其特征在于，所述相似性度量模块包括网络训练单元、分配单元和检索单元；

所述网络训练单元用于将输出特征分划分为正样本和负样本后，采用动态加权机制，结合三元组损失函数训练深度神经网络；

所述分配单元用于根据正样本排名为正样本对应的三元组分配不同的惩罚权重；

所述检索单元用于以单个待检索遥感图像为单元，将各单元中的惩罚权重与正样本的检索分数相乘后求和，获取各待检索遥感图像对应的综合分数，输出检索结果。

9.根据权利要求6或7所述的遥感图像检索装置，其特征在于，所述残差注意力机制中的注意力激活函数为混合注意力。

10.根据权利要求6或7所述的遥感图像检索装置，其特征在于，所述池化函数为总和池化SPoC、最大池化MAC和混合池化GeM中的一种或多种组合。