CN115309927B

CN115309927B - 多标签引导和多视图度量的海洋遥感图像检索方法及系统

Info

Publication number: CN115309927B
Application number: CN202211223857.0A
Authority: CN
Inventors: 聂婕; 郑程予; 赵恩源; 左子杰; 刘安安; 宋丹; 李文辉; 孙正雅; 张文生
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-02-03
Anticipated expiration: 2042-10-09
Also published as: CN115309927A

Abstract

本发明属于遥感图像处理技术领域，公开了多标签引导和多视图度量的海洋遥感图像检索方法及系统，首先提取海洋遥感图像的多尺度图像特征、标签特征和文本特征，然后通过使用类相关交叉引导算法进行多尺度图像特征和标签特征之间的双重交叉引导以实现语义解耦，同时实现类别相关的特征挖掘和图像分类，最后将图像和文本两种模态的特征表示解耦为多个视角，除了通过多视角测量模块设置传统的文本特征与图像特征的相似度匹配外，还将多分类语义特征与文本特征相匹配，以消除图像和文本之间的差异。

Description

多标签引导和多视图度量的海洋遥感图像检索方法及系统

技术领域

本发明属于遥感图像处理技术领域，特别涉及多标签引导和多视图度量的海洋遥感图像检索方法及系统。

背景技术

遥感图像文本检索利用跨模态检索算法，分析大量卫星遥感图像并自动检索出大量准确描述该图像的文本数据，以达到解决文本数据缺失和文本数据描述不准确的目的。遥感图像文本检索包括两个关键过程，其一，分别对文本数据和图像数据开展特征工程，提取相应的文本特征和图像特征；其二，进行文本特征和图像特征对齐工作，之后进行两特征间的相似度计算，将相似度最高的文本特征作为该图像的最佳检索文本。针对过程一，目前主要采用深度神经网络表征模型抽取图像特征，例如：深度残差网络等，以及采用文本编码器表征模型抽取文本特征，例如：词向量嵌入模型等。针对过程二，目前主要采用余弦相似度计算方法，将图像特征向量和文本特征向量间的余弦距离作为相似度得分。目前传统方法主要面临的问题是提取有效图像特征困难，这是由于海洋遥感图像中目标的空间分布较为分散，且图像中的有效目标少，在全局信息的融合过程中会稀释掉有效目标的信息，影响后续的数据挖掘。因此，前沿海洋遥感图文检索倾向于多模态的检索，有学者提出了一种新颖的细粒度多模态特征匹配网络，该方法得到不同尺度下的图像特征并提取出关键特征，可以得到更丰富的语义信息，从而检索出更准确的文本信息。

但是，现有方法仍存在以下问题：第一，海洋遥感数据的图文检索大多采用图文特征空间的直接对齐，由于图文特征空间包含的语义信息驳杂（如颜色，几何，纹理等特征），直接对齐会引入高维特征的匹配偏差，因此还需要其他维度的信息（语义）进行补偿。现有图像包含的语义标签（语义信息）能够缓解多模态特征交互过程中的语义对齐问题。多标签信息常作为语义空间的一致性约束来进行消歧，但其高级语义信息和低级语义信息的利用率亟待提升。第二，在多模态匹配过程中大多采用单一视图的度量空间，由于单一视图的度量圈层较为片面，导致在度量过程中容易忽略异种视图的有效信息。

发明内容

针对现有技术存在的不足，本发明提供一种多标签引导和多视图度量的海洋遥感图像检索方法及系统，通过使用类相关交叉引导算法进行多尺度图像特征和标签特征之间的双重交叉引导以实现语义解耦，同时实现类别相关的特征挖掘和图像分类，最后将图像和文本两种模态的特征表示解耦为多个视角，除了通过多视角测量模块设置传统的文本特征与图像特征的相似度匹配外，还将多分类语义特征与文本特征相匹配，以消除图像和文本之间的差异。

为解决上述技术问题，本发明采用的技术方案是：

多标签引导和多视图度量的海洋遥感图像检索方法，包括以下步骤：

步骤1、提取多尺度图像特征：对于一个待查询海洋遥感图像，首先由深度残差网络进行图像的特征嵌入操作，将得到的图像基础特征以不同采样率的空洞卷积进行采样，得到多尺度图像特征X；

步骤2、提取标签特征：把预先标注得到的多分类标签进行词嵌入得到独热表示，得到多分类标签特征P；

步骤3、提取文本特征：利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取，得到文本特征T；

步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦，同时实现类别相关的特征挖掘和图像分类；具体是：利用双Transformer的解码器构建类相关交叉引导模块，包括视觉类引导单元和类视觉引导单元两个单元，

首先进行视觉类引导，对图像进行多分类并产生多分类语义特征，用于后续类视觉引导和多视角测量：将步骤1得到的多尺度图像特征X作为多尺度视觉信息，将步骤2得到多分类标签特征P作为多分类标签信息，把多尺度视觉信息与多分类标签信息进行结合，在视觉类引导单元中，多尺度视觉信息作为Transformer中的K&V，多分类标签信息作为Transformer中的Q，以弱训练方式实现图像特征指导网络的训练过程，并得到图像引导的类信息

，其中QKV的计算过程遵循以下公式：

（1）

其中Q、K和V分别表示查询、键和值的矩阵，

为比例因子；

然后进行类视觉引导，实现分类特征指导图像特征，获取与类别相关的图像特征和图像分类：在类视觉引导单元中，多尺度视觉信息作为Transformer中的Q，图像引导的类信息

作为Transformer中的K&V，实现分类特征指导图像特征的自适应训练过程，得到类别引导的视觉信息

；其中QKV的计算过程遵循公式同公式（1）；

最后将类别引导的视觉信息

和多尺度视觉信息X 通过contat方式拼接串联到一起得到视觉终特征F，公式如下：

其中，contat表示特征拼接操作；

步骤5、将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角，将多分类语义特征与文本特征T相匹配，消除图像和文本之间的差异，具体是使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息

和文本特征T之间的相似度；

步骤6、迭代步骤1-步骤5，反向传播至模型收敛，直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。

进一步的，步骤5在计算相似度时，损失函数包括双向三元组损失和交叉熵损失两部分，双向三元组损失公式如下：

其中

表示间隔参数，

，

代表图像特征和文本特征的相似度，公式中第一个求和是考虑给定图像I的所有否定句子

，第二个求和考虑给定句子T的所有否定图像

，间隔参数

的作用是拉大图像与正文本对和图像与负文本对之间的差距，n为样本数量；

交叉熵损失公式如下：

其中Y是海洋遥感图像的多分类预测结果，

是对应的多标签，N是指训练样本的数量；

最后，将三元组损失函数和交叉熵损失函数加权融合得到联合损失函数，公式如下：

其中

为超参数。

本发明还提供一种多标签引导和多视图度量的海洋遥感图像检索系统，实现如前所述的多标签引导和多视图度量的海洋遥感图像检索方法，包括：输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块，

所述输入模块，用于输入待查询的海洋遥感图像；

所述多尺度图像特征提取模块，用于提取多尺度图像特征；

所述标签特征提取模块，用于获取标签特征；

所述文本特征提取模块，用于提取文本特征；

所述类相关交叉引导模块，包括视觉类引导单元和类视觉引导单元，视觉类引导单元实现图像特征指导分类网络进行图像分类，类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息；

所述多视角测量模块，用于将图像和文本两种模态特征表示解耦为多个视角，将多分类语义特征与文本特征相匹配，消除图像和文本之间的差异；

所述输出模块，用于输出检索结果，得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。

与现有技术相比，本发明优点在于：

（1）消除/缓解了尺度噪声的干扰。本发明通过类相关交叉引导模提前引入标签信息实现图像特征和分类特征之间的双重交叉引导以实现语义解耦，实现了有效类信息的传递与挖掘。通过类引导的语义解耦，从语义的维度出发，不但削弱了尺度维度上的噪声冗余，同时避免稀释掉海洋有效目标的信息。

（2）弥合了多模态信息的语义鸿沟，对语义空间的偏差进行消除。本发明通过多标签（语义信息）从语义的角度来弥合海洋遥感图像中目标的尺度差别大带来的损失，通过提前引入的有效类信息来缓解多模态特征交互过程中的语义偏差问题。同时，多视图测量模块消除了图像和文本之间的差异，测量图像和文本特征之间相似度的同时，还匹配分类和文本特征之间的相似度，以多视图度量来缓解跨模态差异问题。

（3）缓解特征相似性匹配过程中跨模态数据的差异。由于单一视图的度量尺度较为片面，导致度量过程中容易忽略尺度跨越的有效信息。例如，视觉类引导单元指导类信息和文本信息做对齐，类视觉引导单元类指导图像信息和文本信息做对齐，可以使样本空间的分布更趋平滑。语义解耦的知识通过级联映射到视觉样本空间内。类别属性作为两种模态信息的桥梁，在对齐多模态知识的同时，又为模型提供了外部知识，从而帮助模型快速提取有效特征，挖掘出遥感图像中的有效对象。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的系统架构图；

图3为本发明的类相关交叉引导模块结构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

实施例1

结合图1-图3，本实施例提供一种多标签引导和多视图度量的海洋遥感图像检索方法，是一种实例级图像检索，目标是给定一个查询图像，在一个非常大的图像数据库中检索包含与查询图像有着相同对象实例的所有图像。

具体包括以下步骤：

步骤1、提取多尺度图像特征：对于一个待查询海洋遥感图像，首先由深度残差网络（例如ResNet）进行图像的特征嵌入操作，将得到的图像基础特征以不同采样率的空洞卷积（ASPP）进行采样，得到多尺度图像特征X。

步骤2、提取标签特征：首先通过预训练模型标注，把预先标注得到的多分类标签进行词嵌入得到独热（One-hot）表示。通过提取标注的特征标签，得到多分类标签特征P。

步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦，同时实现类别相关的特征挖掘和图像分类；具体是：利用双Transformer的解码器构建类相关交叉引导模块，包括视觉类引导单元和类视觉引导单元两个单元。

如图3所示，Transformer解码器用多头注意力机制增强了类相关交叉引导模块中的两个单元，将特征表示解耦为多个视角。通过语义解耦，实现了有效类信息的传递与挖掘，其中本例把步骤2标注得到的多分类标签的词嵌入作为弱分类监督信息，作为多分类标签信息。

下面分别介绍类相关交叉引导模块的两个单元。

首先进行视觉类引导，对图像进行多分类并产生多分类语义特征，为类视觉引导单元和多视角测量模块奠定基础：将步骤1得到的多尺度图像特征X作为多尺度视觉信息，将步骤2得到多分类标签特征P作为多分类标签信息，把多尺度视觉信息与多分类标签信息进行结合，在视觉类引导单元中，多尺度视觉信息作为Transformer中的K&V，多分类信息作为Transformer中的Q，以弱训练方式实现图像特征指导网络的训练过程，并得到图像引导的类信息

，其中QKV的计算过程遵循以下公式：

（1）

其中Q、K和V分别表示查询、键和值的矩阵，

为比例因子；

然后进行类视觉引导，实现分类特征指导图像特征，获取与类别相关的图像特征和图像分类：在类视觉引导单元中，多尺度视觉信息X作为Transformer中的Q，图像引导的类信息

；其中QKV的计算过程遵循公式同公式（1）；

最后将类别引导的视觉信息

其中，contat表示特征拼接操作；

本发明设计了类相关交叉引导模块，首先视觉类引导单元，对图像进行多分类，产生多分类特征，为类视觉引导单元和多视角测量模块奠定基础。随后，类视觉引导单元探索与类别相关的图像特征。值得注意的是，两者都通过多头注意力机制进行了增强，将特征表示解耦为多个视角和部分。

步骤5、为了消除图像和文本之间的差异，本发明提出了多视角测量模块。将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角，将多分类语义特征与文本特征T相匹配，消除图像和文本之间的差异。考虑到视觉类引导单元生成的分类特征与文本具有相同的数据类型，因此，除了测量图像和文本特征之间的相似度外（单视角），本实施例还匹配分类和文本特征之间的相似度，合理利用了度量过程中容易忽略的模态跨越的有效信息。

具体是，使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息

和文本特征T之间的相似度。

步骤6、迭代步骤1-步骤5，通过预测图文相似度和真实图文相似度的差异反向传播至模型收敛，直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。

步骤5在计算相似度时，损失函数包括双向三元组损失和交叉熵损失两部分，双向三元组损失公式如下：

其中

表示间隔参数，

，

，第二个求和考虑给定句子T的所有否定图像

，间隔参数

交叉熵损失公式如下：

其中Y是海洋遥感图像的多分类预测结果，

是对应的多标签，N是指训练样本的数量；

其中

为超参数。

本发明先数据预处理，然后通过第一个Transformer解码器结构进行视觉引导类别操作，得到图像引导的类信息

，然后通过第二个Transformer解码器结构进行类别引导视觉，得到类别引导的视觉信息

，最后通过三元组损失函数，训练模型收敛，训练完成。

实施例2

本实施例提供一种多标签引导和多视图度量的海洋遥感图像检索系统，包括：输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块。

所述输入模块，用于输入待查询的海洋遥感图像；

所述多尺度图像特征提取模块，用于提取多尺度图像特征。由深度残差网络和空洞空间卷积池化金字塔两算法共同组成。首先由深度残差网络进行图像的特征嵌入工作，将得到的图像基础特征以不同采样率的空洞卷积进行采样，得到不同尺度下的图像特征，即多尺度图像特征。

所述标签特征提取模块，用于获取标签特征。首先通过预训练模型进行标注，把标注得到的多分类标签进行词嵌入得到One-hot表示，最终得到多分类标签特征P。

所述文本特征提取模块，利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取，前述几个模块功能的实现可采用现有技术，此处不过多赘述。

本发明的创新点一在于设计了类相关交叉引导模块，利用双Transformer的解码器构建类相关交叉引导模块，来实现图像特征和分类特征之间的双重交叉引导，可以自适应地探索有效信息，同时实现类别相关的特征挖掘和图像分类。具体来说，包括视觉类引导单元和类视觉引导单元，视觉类引导单元实现图像特征指导分类网络进行图像分类，类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息。

该模块使用多分类特征（语义标签）来指导检索网络进行主导语义挖掘，语义标签既能参与后续遥感信息的尺度解耦，又能通过参与多视角测量的匹配缓解多模态特征交互过程中的语义对齐问题。语义标签具备的有效类信息和后续产生的视觉终特征也可通过多视角的测量来提高多模态表征的相似性。

本发明的创新点二在于设计了多视角测量模块，所述多视角测量模块，用于将图像和文本两种模态特征表示解耦为多个视角，将多分类语义特征与文本特征相匹配，消除图像和文本之间的差异。

该系统用于实现如实施例1的多标签引导和多视图度量的海洋遥感图像检索方法，各模块功能与方法的实现可参见实施例1，此处不再赘述。

综上所述，本发明增设了类相关交叉引导模块，该模块提前引入了多类特征（语义标签），又利用标签的有效类信息通过Transformer的双向解码器结构在图像特征提取和图像多分类分支上同时实现类别相关的特征挖掘和语义解耦。本发明还提出了多视图测量模块，利用类别语义标签来监督网络以强调与类别相关的特征。提出的经典三重损失倾向于匹配同一类别中的跨模态数据，用模块来计算图像-文本特征和标签多分类-文本特征的相似度。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。