CN113192030A

CN113192030A - 一种遥感图像描述生成方法及系统

Info

Publication number: CN113192030A
Application number: CN202110475173.9A
Authority: CN
Inventors: 程起敏; 许圆; 邵丽媛; 李丹; 周玉琢; 甘德樵; 黄海燕; 黄小松
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-30
Anticipated expiration: 2041-04-29
Also published as: CN113192030B

Abstract

本发明提供一种遥感图像描述生成方法及系统，包括：利用深度学习技术提取待描述遥感图像的多层次视觉特征；基于待描述遥感图像的多层次视觉特征，利用空间注意力机制和通道注意力机制得到待描述遥感图像的多级特征；基于待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到待描述遥感图像的上下文特征；基于待描述遥感图像的多级特征和上下文特征，利用视觉哨兵自适应机制得到待描述遥感图像的高级语义特征；将待描述遥感图像的高级语义特征输入到训练好的语言模型，得到待描述遥感图像的描述语句。本发明能够获得具有尺度、位置、上下文信息的视觉特征表达，从而提高遥感图像描述生成模型的准确性。

Description

一种遥感图像描述生成方法及系统

技术领域

本发明属于遥感图像理解领域，更具体地，涉及一种遥感图像描述生成方法及系统。

背景技术

随着对地观测技术的发展，可获取的遥感数据呈爆发式增长，人类已进入遥感大数据时代。高分辨率遥感图像作为最重要的遥感数据源类型，呈现出多样性、复杂性和海量性特点；而传统的数据处理和分析方法难以满足遥感大数据处理和分析的高精度、实时性及多样化需求。如何利用新兴的科学技术和手段，从具有时空复杂性和海量多样性特点的遥感大数据中智能、准确、高效地检索和挖掘出隐藏的信息和知识，实现从数据到知识的转化，是遥感大数据处理和分析面临的挑战，也是遥感图像处理领域亟待解决的科学问题。

遥感图像描述生成就是让计算机试图理解遥感图像并生成符合遥感图像语义内容的自然语言描述的过程，涵盖计算机视觉和自然语言处理两大研究方向，已经成为人工智能领域的研究热点，可应用于生物、医学、商业、军事、教育、数字图书馆等众多领域，如人机交互、早期教育、辅助视障人士阅读、视频智能过滤等，其中最典型的应用之一就是搜索引擎中的遥感图像检索。

尽管在过去的几十年里，特别是近几年，很多计算机视觉任务如自动标注、目标检测和识别、语义分割、场景分类等都取得了显著的成果。然而，让计算机模拟人类的视觉和认知、并且用符合人类规范的自然语言描述一幅遥感图像所包含的丰富语义信息，从而为用户提供有价值的信息，仍是极富挑战性的工作。这是因为遥感图像描述生成与以上计算机视觉任务相比，其目标是要产生准确自然、新颖灵活、词汇丰富的综合性描述语句，而不仅仅是预测一个或多个标签；综合性描述语句中除了包含遥感图像的目标及其所属的语义类别，还应该包含目标的属性信息以及目标之间的相互关系，并根据遥感图像所包含目标之间的相关性具备一定的推理功能。而遥感图像数据的尺度模糊性、类别模糊性和旋转歧义性等特点，更是增加了这一工作的难度。

传统遥感图像描述生成的两种主要方法有：基于模板的方法和基于检索的方法。其中基于模板的方法是根据遥感图像提取的对象、属性以及关系等填入由人为规定的一系列句法模板中留白的部分。这种方法可以确保语句在语义和语法上的正确性，但这种固定语句模式的方式不能产生多样化的输出，并且计算效率较低。基于检索的方法是将图像的描述语句放置在一个集合中，然后通过对比待描述的遥感图像与集合中的参考语句(人工标注)之间的相似度得到一组候选句集，再根据相关排序策略选择最佳的描述语句。该方法确保了语句在语法上的正确性，但是不能确保语义上的正确性，而且其性能主要依赖于检索结果，无法产生新的描述语句以及不能准确地描述新的遥感图像。

随着深度学习技术在遥感图像领域的蓬勃，很多研究人员将其应用于遥感图像描述生成中。基于深度学习的遥感图像描述生成方法的工作原理：首先将输入遥感图像通过卷积神经网络(Convolutional Neural Networks，CNN)进行特征提取，然后将提取的图像特征向量作为输入传递到语言模型，循环神经网络(Recurrent Neural Network，RNN)或长短期记忆网络(Long Short-Term Memory，LSTM)，来生成丰富的描述语句。但由于遥感图像自身存在的大场景成像、背景复杂多样、多尺度、旋转特性以及语义歧义问题，加大了遥感图像描述生成的难度。基本的编解码架构难以捉到遥感图像中细粒度的视觉特征，另外难以学习图文之间的复杂对应关系，在一定程度上限制了图像描述生成模型的性能。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种遥感图像描述生成方法及系统，旨在解决复杂场景下遥感图像的语义难描述的问题。

为实现上述目的，第一方面，本发明提供了一种遥感图像描述生成方法，包括如下步骤：

利用深度学习技术提取待描述遥感图像的多层次视觉特征；

基于所述待描述遥感图像的多层次视觉特征，利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征；

基于所述待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到所述待描述遥感图像的上下文特征；

基于所述待描述遥感图像的多级特征和上下文特征，利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征；

将所述待描述遥感图像的高级语义特征输入到训练好的语言模型，得到所述待描述遥感图像的描述语句；所述语言模型基于遥感图像的高级语义特征生成遥感图像的描述语句。

在一个可选的示例中，所述利用深度学习技术提取待描述遥感图像的多层次视觉特征，具体为：

利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型；所述图像视觉特征提取网络模型用于提取输入遥感图像的多层次视觉特征；

基于遥感图像数据集对所述图像视觉特征提取模型进行训练；所述遥感图像数据集包括：用于模型训练的遥感图像和其对应的多层次视觉特征；

基于训练好的图像视觉特征提取模型提取所述待描述遥感图像的多层次视觉特征；计算方法如下：

F_c＝CNN_fc(I)

F_L1＝CNN_conv4(I)

F_L2＝CNN_conv5(I)

V_ml＝concat(F_L1,upsample(F_L2))

其中，I为输入图像，F_c是CNN全连接层的特征，F_L1和F_L2分别表示CNN的卷积层4和卷积层5的视觉特征，concat表示连接函数，upsample表示上采样，V_ml是所述待描述遥感图像的多层次视觉特征。

在一个可选的示例中，所述基于所述待描述遥感图像的多层次视觉特征，利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征，具体为：

利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征；利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征；计算方法如下：

其中，V_ml是所述待描述遥感图像的多层次视觉特征，α和β分别对应空间注意力权重和通道注意力权重，W_s、

W_hs、

W_i、

是将CNN卷积层的特征图和所述语言模型的长短期记忆网络LSTM的隐藏状态h转换为同一维度的矩阵，b_i、b′_i、b_s、b_c是权重偏置，

是第i个区域和t时刻的空间注意力权重，

是待描述遥感图像的多层次视觉特征的第i个区域，F_ml是所述待描述遥感图像的多级特征。

在一个可选的示例中，所述基于所述待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到所述待描述遥感图像的上下文特征，具体为：

e_ij＝a(s_i-1,W_shconcat(V_ml,W_cF_c))

其中，e_ij为中间变量，s_i-1为第i-1个的标签语句对应的单词，a(·)为对齐模型，F_c为CNN网络的全连接层，W_sh为维度调整因子，W_c为上下文的权重，权重α_ij可根据所述待描述遥感图像的第j个区域与生成的句子中第i-1个单词的关联性计算得到，h_j为LSTM的隐藏状态，F_con为所述待描述遥感图像的上下文特征。

在一个可选的示例中，所述利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征，具体为：

z_t＝W_htanh(W_stV_ml+W_hth_t)

β_t＝softmax(concat(z_t,W_htanh(W_sts_t+W_hth_t)))

F_s＝β_ts_t-1+(1-β_t)z_t

其中，W_h、W_st和W_ht是可学习的权重，β_t代表对应于遥感图像区域特征向量的注意力权重，h_t为LSTM的t时刻隐藏状态，z_t为中间变量，s_t为t时刻的标签语句对应的单词，F_s为所述待描述遥感图像的高级语义特征。

在一个可选的示例中，所述遥感图像描述生成方法的所有步骤可以通过遥感图像描述生成模型实现；其中，所述图像视觉特征提取网络模型和语言模型属于遥感图像描述生成模型中的一个组成部分，其他各个步骤可通过相应的模型实现；

采用以下损失函数训练所述遥感图像描述生成模型：

s_t＝softmax(W_sh_t)

其中，W_s为学习的权重，h_t为LSTM的t时刻隐藏状态，p_θ为时刻t模型预测的单词概率，s_t为t时刻语言模型预测的单词概率，

为长度为l的标签语句对应的单词，l＝1,2…L。

第二方面，本发明提供了一种遥感图像描述生成系统，包括：遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块；

所述遥感图像特征提取模块，用于利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型，以提取待描述遥感图像的多层次视觉特征；

所述多级注意力模块，用于基于所述待描述遥感图像的多层次视觉特征，利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征；

所述上下文注意力模块，用于基于所述待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到所述待描述遥感图像的上下文特征；

所述视觉自适应模块，用于基于所述待描述遥感图像的多级特征和上下文特征，利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征；

所述语言模型模块，用于基于所述待描述遥感图像的高级语义特征生成待描述遥感图像的描述语句。

在一个可选的示例中，所述多级注意力模块利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征；利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征；计算方法如下：

W_hs、

W_i、

是第i个区域和t时刻的空间注意力权重，

在一个可选的示例中，所述上下文注意力模块基于所述待描述遥感图像的多层次视觉特征，利上下文注意力模块得到所述待描述遥感图像的上下文特征，具体为：

具体为：

e_ij＝a(s_i-1,W_shconcat(V_ml,W_cF_c))

在一个可选的示例中，所述视觉自适应模块利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征，具体为：

z_t＝W_htanh(W_stV_ml+W_hth_t)

β_t＝softmax(concat(z_t,W_htanh(W_sts_t+W_hth_t)))

F_s＝β_ts_t-1+(1-β_t)z_t

可以理解的是，本发明可以将遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块归总为遥感图像描述生成模型，上述各个模块属于遥感图像描述生成模型中的一部分。且其中可将遥感图像特征提取模块、多级注意力模块和上下文注意力模块归纳到图像编码端，将视觉自适应模块和语言模型模块归纳到文本解码端；而图像编码端和文本解码端共同组成遥感图像描述生成模型。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种遥感图像描述生成方法及系统，在图像编码端首先通过深度学习技术提取遥感图像的多层次视觉特征；然后利用多级注意力机制和上下文注意力机制提取具有尺度和位置信息的多级特征和具有全局上下文信息的上下文特征。通过注意力机制实现局部特征和全局特征之间的信息互补，从而得到更鲁棒的遥感图像视觉特征。本发明能够获得具有尺度、位置、上下文信息的视觉特征表达，从而提高遥感图像描述生成模型的准确性。

本发明提供一种遥感图像描述生成方法及系统，在文本解码端，为了学习图文之间的对应关系，通过将引入视觉哨兵机制对提取的高级视觉特征进行进一步的调整，以尽可能多地过滤掉不必要的信息，保留语义丰富的部分，最终获得具有足够通用语义和判别力的高级语义特征，从而提高遥感图像描述生成模型的性能和描述语句的多样性。

附图说明

图1是本发明实施例提供的遥感图像描述生成方法流程图；

图2为本发明实施例提供的遥感图像描述生成系统架构图；

图3为本发明实施例提供的复杂场景遥感图像。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

针对现有技术的以上缺陷或改进需求，本发明提供了一种遥感图像描述生成方法和系统，其目的在于提高遥感图像描述生成模型的性能。

为实现上述目的，图1是本发明实施例提供的遥感图像描述生成方法流程图，如图1所示，包括如下步骤：

S101，利用深度学习技术提取待描述遥感图像的多层次视觉特征；

F_c＝CNN_fc(I)

F_L1＝CNN_conv4(I)

F_L2＝CNN_conv5(I)

V_ml＝concat(F_L1,upsample(F_L2))

S102，基于所述待描述遥感图像的多层次视觉特征，利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征；

W_hs、

W_i、

是第i个区域和t时刻的空间注意力权重，

S103，基于所述待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到所述待描述遥感图像的上下文特征；

在一个可选的示例中，所述基于所述待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到所述待描述遥感图像的上下文特征，利用一维卷积来整合不同方向的所述待描述遥感图像的多层次视觉特征得到所述待描述遥感图像的上下文特征。具体为：

e_ij＝a(s_i-1,W_shconcat(V_ml,W_cF_c))

S104，基于所述待描述遥感图像的多级特征和上下文特征，利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征；

在一个可选的示例中，利用视觉哨兵机制对遥感图像区域特征或文本单词特征分配不同的注意力权重，具体为：

利用视觉哨兵门β_t表示网络对遥感图像特性的“关注程度”，其计算公式如下：

z_t＝W_htanh(W_stV_ml+W_hth_t)

β_t＝softmax(concat(z_t,W_htanh(W_sts_t+W_hth_t)))

F_s＝β_ts_t-1+(1-β_t)z_t

S105，将所述待描述遥感图像的高级语义特征输入到训练好的语言模型，得到所述待描述遥感图像的描述语句；所述语言模型基于遥感图像的高级语义特征生成遥感图像的描述语句。

具体地，对语言模型进行训练时，向语言模型输入图像数据集和对应的标签描述集作为训练集，训练语言模型；其中，图像数据集中的图像为已标注标签语句的遥感图像，标签描述集包括所述图像数据集对应的描述语句标签。所述语言模型用于根据遥感图像的高级语义特征和待描述遥感图像的标签描述集生成所述待描述遥感图像的描述单词预测概率值。

图2为本发明实施例提供的遥感图像描述生成系统架构图；如图2所示，该系统包括：遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块；

具体地，将图2中的遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块归总为遥感图像描述生成模型，上述各个模块属于遥感图像描述生成模型中的一部分。且其中可将遥感图像特征提取模块、多级注意力模块和上下文注意力模块归纳到图像编码端，将视觉自适应模块和语言模型模块归纳到文本解码端；而图像编码端和文本解码端共同组成遥感图像描述生成模型。

其中，图2中各个模块的具体功能实现可参照前述方法实施例中的介绍，在此不做赘述。

需要说明的是，本发明采用以下损失函数训练所述遥感图像描述生成模型：

s_t＝softmax(W_sh_t)

为长度为l的标签语句对应的单词，l＝1,2…L。

本发明提供了一种遥感图像描述生成方法和系统，其整体思路在于：首先通过深度学习技术提取遥感图像的多层次视觉特征；然后通过注意力机制分别提取遥感图像的多级特征和上下文特征；并通过视觉哨兵机制对所述的遥感图像的多级特征和上下文特征进一步优化得到优化的高级语义特征；根据优化的高级语义特征和遥感图像数据集对应的标签描述集输入到语言模型进行遥感图像的自动描述生成。

综上所述，本发明通过多级注意力机制和上下文注意力机制快速筛选出有价值的信息，以获取更加精确的且具有尺度和位置信息的更强健、有效的高级语义特征表达。同时，为了使不同模态之间的对应关系更加显著，通过将引入视觉哨兵机制对提取的高级视觉特征进行进一步的调整，以尽可能多地过滤掉不必要的信息，保留语义丰富的部分，最终获得具有足够通用语义和准确注意力的高级语义特征，从而有效地提高遥感图像描述生成模型的性能和描述语句的准确性。

利用带有45个类别NWPU-Captions遥感图像数据集进行遥感图像描述生成性能测试，NWPU-Captions遥感图像数据集是现有标准遥感图像描述生成数据集中最大的数据集，其各项参数如表1所示：

表1 NWPU-Captions遥感图像数据集的各项参数

现有的比较经典的基于深度网络的遥感图像描述生成模型包括：(1)CSMLF，采用度量学习进行潜在语义嵌入；(2)多模态方法Multimodal method，采用的基本的编码器-解码器的方法，其中CNN编码器用于提取遥感图像特征，LSTM语言解码器生成给定遥感图像的描述语句；(3)基于注意力的方法Attention-based method(soft/hard)；(4)基于属性的方法Attribute-attention method(FC-ATT+LSTM/SM-ATT+LSTM)。

利用NWPU-Captions遥感图像数据集，将本发明所提供的遥感图像描述生成方法与利用上述四种遥感图像描述生成模型进行遥感图像描述的方法进行对比分析，评价指标包括：BLEU(评估双语翻译质量的辅助工具)、METEOR(具有明确顺序的翻译评估指标)、ROUGE(面向召回评估的主旨学习)、CIDEr(基于一致性的遥感图像描述评估)和SPICE(语义命题遥感图像描述评估)用于遥感图像描述生成方法的性能评估，其评估指标的分数越高，则表明算法生成的描述语句与人工标注的参考语句越相似，从而说明生成的描述语句质量越好。

对比分析的结果如表2所示：

表2对比分析结果

表2所示的结果显示，本发明所提供的遥感图像描述生成方法，其各项评价指标数均高于现有模型指标分数；由此可知，本发明所提供的遥感图像描述生成方法通过注意力机制提取遥感图像的多级特征和上下文特征；根据所述遥感图像的标签描述集和利用视觉哨兵机制得到优化的高级语义特征利用语言模型生成遥感图像的描述语句，能够有效提升遥感图像描述生成的多样性、准确度以及描述的性能。

对于如图3所示复杂场景的遥感图像，本发明所采用方法的遥感图像描述示例如表3所示，可以看到，本发明的方法能生成准确的描述语句。

表3结果示例

本发明公开了一种遥感图像描述生成方法和系统，融合了计算机视觉和自然语言处理两个领域。本发明在图像编码端利用深度学习技术提取所述待描述遥感图像的多层次视觉特征；根据所述待描述遥感图像的多层次视觉特征，利用多级注意力模块得到所述待描述遥感图像的多级特征；根据所述待描述遥感图像的多层次视觉特征，利用上下文注意力模块得到所述待描述遥感图像的上下文特征；本发明的图像编码端通过注意力机制来实现局部特征和全局特征之间的信息互补，得到更鲁棒的遥感图像特征表达。本发明在文本编码端根据所述待描述遥感图像的多级特征和上下文特征，利用视觉哨兵机制得到所述待描述遥感图像优化的高级语义特征；根据所述待描述遥感图像优化的高级语义特征和所述待描述遥感图像的标签描述集，利用语言模型生成所述待描述遥感图像的描述语句；本发明的文本解码端通过视觉哨兵机制来实现对视觉信息和上下文信息的自适应选择，生成更多样的遥感图像描述语句。本发明能够建立低层和高层的视觉特征与语义描述之间的联系，从而提升遥感图像描述生成的准确性和多样性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。