CN111860235A

CN111860235A - 高低层特征融合的注意力遥感图像描述的生成方法及系统

Info

Publication number: CN111860235A
Application number: CN202010643170.7A
Authority: CN
Inventors: 张文凯; 孙显; 许光銮; 张政远; 李轩; 汪勇; 刘文杰
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-30
Anticipated expiration: 2040-07-06
Also published as: CN111860235B

Abstract

一种高低层特征融合的注意力遥感图像描述的生成方法及系统，包括：获取待测遥感图像；基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述；其中，所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。本发明提供的技术方案充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息，给予了传统的注意力机制全局和局部双意识，从而更准确理解图像所表达的语义内容，以及该语义内容与自然语言句子之间的相互关系，进而为遥感图像生成内容准确的自然语言句子描述。

Description

高低层特征融合的注意力遥感图像描述的生成方法及系统

技术领域

本发明涉及一种图像描述领域，具体讲涉及一种高低层特征融合的注意力遥感图像描述的生成方法及系统。

背景技术

遥感图像描述生成(Remote Sensing Description Generation,RSDG)是遥感图像领域的一个重要组成部分，要解决的主要问题是理解遥感图像的语义内容，然后为遥感图像生成自然语言句子描述。因此遥感图像描述生成要解决的一个首要问题是遥感图像语义的理解，这有助于机器理解人类视觉捕获图像特征的方式；其次，相对于遥感图像领域的其他问题，例如场景分类(Scene Classification)，目标检测(Object Detection)、语义分割(Semantic Segmentation)等任务都需要理解图像的内容，其中场景分类需要对遥感图像的场景进行分类，目标检测需要定位遥感目标的位置并识别该目标的种类，语义分割需要区分前景背景的像素类别。而遥感图像描述生成不仅需要理解遥感图像的语义内容，还需要生成自然语言句子描述，该描述不仅要说明该遥感图像的场景类别，还需要对场景中所包含的目标类别以及目标与场景背景之间的相互关系进行描述。因此，遥感图像描述生成一直是遥感图像领域探索的一个重要研究方向。目前，关于遥感图像描述生成的方法主要有以下方法：

1)基于句子模板的方法

基于句子模板的方法主要是通过人为预先设计的句子模板，把从图像中把遥感目标及其属性和状态识别出来并用单词形式表示，然后填充到句子模板中去，作为输入遥感图像的自然语言句子描述。

2)基于句子检索的方法

基于句子检索的方法，它先是选出一些与输入的遥感图像最相似图像，然后从这些相似图像的句子描述中选出最能够很好的描述输入图像句子，作为该输入遥感图像的自然语言描述。

3)基于句子生成的方法

基于句子生成的方法，它采用了经典的编解码结构(Encoder-Decoder)，利用卷积神经网络(Convolutional Neural Network)作为编码器来对遥感图像特征进行提取，然后利用循环递归网络(Recurrent Neural Network)。

上述遥感图像描述生成方法都是采用现成的句子或者预先定义的句子模板，而在实际条件下，同一张图像可以用不同的自然语言句子来描述。这些方法都不能够描述输入遥感图像本身特有的细节信息，而且得到的自然语言句子描述的多样性受限，因此这些方法生成的描述不能够很好的描述输入遥感图像。

发明内容

为解决现有技术中存在的不能够很好的描述输入遥感图像的问题，本发明提供了一种高低层特征融合的注意力遥感图像描述的生成方法，包括：

获取待测遥感图像；

基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述；

其中，所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。

优选的，基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述，包括：

基于预先训练好的编码器对所述待测遥感图像进行特征提取，由高层网络得到所述待测遥感图像的全局语义特征，由底层网络得到所述待测遥感图像的局部细节特征，以及每个特征对应的语义表示；

利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注，得到显著图像特征；

利用预先训练好的解码器，对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。

优选的，所述编码器的训练包括：

获取遥感图像的图像数据以及对应的自然语言句子描述数据；

将所述遥感图像数据进行切割得到图像切片数据；

由所述图像切片数据以及对应的自然语言句子描述数据分别构建遥感图像数据集和对应的自然语言句子描述数据集；

将所述遥感图像数据集和对应的自然语言句子描述数据集按照设定比例划分为训练集、检测集和测试集；

基于训练集中的所述遥感图像数据及对应的自然语言句子描述数据对所述编码器进行训练；

并基于所述检测集和测试集对所述编码器进行检测和测试得到训练好的编码器。

优选的，所述编码器采用深度网络模型或残差网络模型。

优选的，所述利用高低层特征融合的注意力对各特征的语义表示进行不同程度的关注，得到显著图像特征，包括：

基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重；

基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。

优选的，所述注意力权重计算公式如下式所示：

α_t＝h_tW₁[I_middle；W₂I_high]

式中，α_t：注意力权重；W₁和W₂是权重大小；I_high遥感图像的全局特征；I_middle遥感图像的局部特征；h_t解码器在上一时刻隐藏状态的输出。

优选的，所述解码器的训练包括：

将遥感图像对应的自然语言句子描述数据转换为由单词组成的句子序列；由所述解码器的embedding层将所述句子序列中的单词进行词嵌入处理，得到词嵌入向量；

将所述词嵌入向量和所述显著图像特征进行拼接作为所述解码器的输入；所述解码器根据上一时刻隐藏状态向量预测下一个时刻的隐藏状态，然后将所述隐藏状态通过变换矩阵映射到与字典维度相同的空间里；

通过SoftMax函数预测下一个时刻输出的单词的概率分布；

根据所述预测下一个时刻输出的单词的概率分布采用贪婪算法选取最大概率分布对应的单词作为当前时刻预测得到的单词；

把当前时刻所有预测得到的单词进行拼接操作，组成完整的句子作为所述解码器的输出。

优选的，所述利用预先训练好的解码器，对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述，包括：

基于训练好的所述解码器上一时刻隐藏状态特征向量预测下一时刻隐藏状态特征向量；

将所述待测遥感图像的显著图像特征与预测下一时刻所述隐藏状态特征进行拼接，得到当前时刻解码器的输入量；

由所述预先训练好的解码器对所述待测遥感图像进行解码生成所述待测遥感图像的自然语言句子描述。

优选的，所述将所述遥感图像数据进行切割得到图像切片数据，之前还包括：

对所述遥感图像数据集和所述对应的自然语言句子描述数据集进行筛选处理，并对筛选后的图像切片进行场景类别分类处理。

一种高低层特征融合的注意力遥感图像描述的生成系统，包括：

数据获取模块，用于获取待测遥感图像；

语言生成模块，基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述；

其中，所述图像描述模型的训练包括：基于遥感图像和所述遥感图像对应的自然语言句子描述信息对所述编码器以及解码器进行训练。

与现有技术相比，本发明的有益效果为：

1、一种高低层特征融合的注意力遥感图像描述的生成方法及系统，包括：获取待测遥感图像；基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述；其中，所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成；本发明为遥感图像生成内容准确的自然语言句子描述。

2、本发明提供的技术方案充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息，给予了传统的注意力机制全局和局部双意识，从而更准确理解图像所表达的语义内容。

附图说明

图1为本发明的注意力遥感图像描述的生成方法流程图；

图2为本发明的注意力遥感图像描述的生成方法具体应用流程图。

具体实施方式

本发明公开了一种高低层特征融合的注意力遥感图像描述生成方法，该方法针对遥感图像的自然语言句子对，利用编解码结构和注意力机制进行建模，充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息，给予了传统的注意力机制全局和局部双意识，从而更准确理解图像所表达的语义内容，以及该语义内容与自然语言句子之间的相互关系，进而为遥感图像生成内容准确的自然语言句子描述。

实施例1：一种高低层特征融合的注意力遥感图像描述生成方法，如图1所示：包括：

步骤1：获取待测遥感图像；

步骤2：基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述；

步骤2：基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述：

本发明实施例提供一种高低层特征融合的注意力遥感图像描述生成方法，如图2所示，其主要包括：

步骤11、获取遥感图像的图像数据以及对应的自然语言句子描述数据

本发明实施例中，每一条样例的遥感图像句子描述数据包括：遥感图像以及对应的自然语言描述句子；其中的遥感图像由航拍或者卫星拍摄得到，自然语言句子描述由专家标注。具体地数据集制作过程如下所示：

制作遥感图像数据集：收集遥感图像数据对其进行切割，收集得到一组图像切片数据，然后进行筛选，剔除语义不明的切片数据，然后对所有图像切片进行场景类别的分类，可以分为机场、港口、停车场、居民区、操场、立交桥等具有明显场景语义的类别。

制作遥感图像数据的自然语言句子描述数据集：对收集得到的遥感图像数据分发给数据专家进行数据标注，针对每张图像切片，补充对应的语义句子描述。最终实现为每张图像切片添加5句不同的自然语言句子描述。

遥感图像描述数据集Json格式文件制作：首先按照80％、10％和10％的比例对所有的遥感图像切片进行训练集、测试集和验证集的划分。然后使用Json包把已有的图像切片数据的位置路径和对应的自然语言句子描述记录到Json格式的文件中去，作为遥感图像切片数据的额外标注文件。

步骤12、根据遥感图像数据的结构特点，利用卷积网络构建编码器对输入的遥感图像数据进行特征提取，获取遥感图像的语义表示信息

由于遥感图像描述生成任务是需要在理解图像内容的基础上生成遥感图像的内容描述，所以需要充分提取出遥感图像的特征，故采用现有的分类网络VGG16作为提取图像特征的编码器。

本步骤优选实施方式如下：

使用统一的数学形式表示遥感图像和对应的自然语言描述：使用I表示输入的遥感图像，它是一个像素大小是C*H*W的三通道特征图，其中C代表通道数，H、W分别代表输入图像的长和宽，并且其中的每一个像素点都是在0到255之间的浮点数；

对于图像表示，可以利用现有的模型，例如深度网络模型VGG或者残差网络模型ResNet进行特征提取，因为这些模型能够有效地抽取图像的特征，一般的方法是把模型的最后一层卷积层特征抽取出来当作图像的特征表示，这些浅层的图像特征包含了图像的纹理细节等信息的特征，但是这些方法都忽略了模型的顶层全连接层的图像特征，而顶层特征包含了目标的全局特征，忽略使用模型的顶层图像特征会使得模型丢失图像的全局信息。因此，我们不仅在模型的中间层提取出图像的顶层特征，还在模型的高层提取出图像的全局特征。由如下公式表示：

I_middle＝CNN_middle(I)

I_high＝CNN_high(I)

再完成图像特征的抽取之后，其中的I_high用于后续的注意力机制运算，而I_middle用于生成遥感图像的句子描述。此时的I_middle图像特征图的尺寸大小是c*k*k，而I_high图像特征图的尺寸大小是c₂*k₂*k₂。

步骤13、利用高低层特征融合的注意力对遥感图像的语义表示进行不同程度的关注，使得图像特征中感兴趣目标区域更加显著

注意力机制因其能够对图像中的不同位置分配不同大小的权重，可以自动地调节各个位置重要性的强弱，所以在遥感图像生成描述任务扮演着重要的角色。在传统的注意力机制中，注意力权重的计算是由上一时刻解码器输出的隐藏状态向量决定的，该隐藏状态里并未包含图像的全局信息，也就不能够使得模型具有全局的意识来自寻找遥感目标来生成句子描述。故引入模型顶层网络的图像特征来辅助现有的注意力权重的计算过程。

本步骤优选实施方式如下

使用统一的数学形式表示遥感图像的图像特征和以及其他相关向量：这里沿用上面的顶层图像特征表示形式I_high和中间层图像特征表示形式I_middle。解码器LSTM在上一时刻的输出是h_t，为了引入高层图像特征使得模型具有全局和局部双意识，这里对传统的注意力权重计算公式进行的改进，具体公式如下所示：

α_t＝h_tW₁[I_middle；W₂I_high]

这里的α_t就是我们的注意力权重，它能够对遥感图像特征的各个区域的重要性进行调整，W₁和W₂是权重大小，其中，W₂的作用就是进行维度变换，把I_high的维度变换到和I_middle大小一致。

在得到注意力权重之后，对图像的中间层特征进行加权求和。

这里的c_t就是我们的图像特征的上下文特征向量，它包含了遥感图像中各个区域经过重要性调整之后的整体信息，j表示图像特征图上的第j个图像区域，N表示该遥感图像所包含的区域数量，此时的N数量等于k*k。

再得到遥感图像的上下文特征向量之后，可以利用解码器对图像的上下文特征向量进行解析以生成遥感图像的句子描述。

步骤14、根据遥感图像对应的自然语言描述的结构特点，利用循环递归网络构建解码器，高低层特征融合的注意力机制得到的显著的图像特征通过解码器以生成该输入遥感图像的自然语言句子描述

一般的解码器利用图像的上下文特征向量以生成遥感图像的句子描述。但是传统注意力机制作用得到的图像上下文特征向量只包含了模型的中间层特征，缺乏顶层全局信息的指导，不能够精准地关注图像中的遥感目标，而这里的遥感图像的上下文特征向量不仅融合了模型的中间层特征，还引入了模型的顶层特征，有了全局信息的引导，模型的注意力层就能够对遥感图像中的可能遥感目标进行定位和生成对应目标的句子描述。

本步骤优选实施方式如下：

使用统一的数学形式表示遥感图像所对应的自然语言描述，S＝(s₁,s₂,...,s_n)表示其由n个单词组成的句子序列。其中s_n表示一个单词，再经过embedding层词嵌入之后，句子序列可以表示为w＝(w₁,w₂,...,w_n)。然后通过把单词的词嵌入向量和图像的上下文特征向量进行拼接，就可以得到当前时刻解码器的输入x_t，并且根据上一时刻的隐藏状态向量h_t-1，通过解码器就可以预测下一个时刻的隐藏状态h_t，然后把隐藏状态h_t通过变换矩阵W_o将其映射到与字典维度相同的空间里，通过SoftMax函数就可以预测下一个时刻输出的单词的概率分布p(w_t)。根据预测单词概率的分布，可以采用贪婪算法，选取最大概率对应的单词当作输出，具体公式如下所示：

x_t＝W₃[c_t；W₄·w_t]

h_t＝LSTM(x_t,h_t-1)

p(w_t)＝softmax(W_o·h_t)

这里采用LSTM当作模型网络的解码器，而LSTM的具体迭代过程如下所示：

i_t＝σ(W_xix_t+W_hih_t-1)

f_t＝σ(W_xfx_t+W_hfh_t-1)

o_t＝σ(W_xox_t+W_hoh_t-1)

s_t＝tanh(W_xcx_t+W_hch_t-1)

这里的i_t，f_t，o_t，c_t分别代表输入门，遗忘门，输出门，和cell memory，σ表示激活函数，s_t表示输入到LSTM中的信息，

表示矩阵与门限数值的乘法。

最后根据每一个时刻模型所预测得到的单词编码位置去检索对应的单词，然后把所有预测得到的单词进行拼接操作，组成完整的句子进行输出和显示，即可完成了遥感图像描述的任务。

本发明实施例提供的上述方案，针对遥感图像的自然语言句子对，利用编解码结构和注意力机制进行建模，充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息，给予了传统的注意力机制全局和局部双意识，从而更准确理解图像所表达的语义内容，以及该语义内容与自然语言句子之间的相互关系，进而为遥感图像生成内容准确的自然语言句子描述。

实施例2

基于同一发明构思的本发明还提供了一种高低层特征融合的注意力遥感图像描述的生成系统，包括：

数据获取模块，用于获取待测遥感图像；

优选的，所述语言生成模块包括：

特征提取子模块，基于预先训练好的编码器对所述待测遥感图像进行特征提取，由高层网络得到所述待测遥感图像的全局语义特征，由底层网络得到所述待测遥感图像的局部细节特征，以及每个特征对应的语义表示；

注意力关注子模块，利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注，得到显著图像特征；

解码子模块，利用预先训练好的解码器，对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。

优选的，所述编码器的训练包括：

将所述遥感图像数据进行切割得到图像切片数据；

优选的，所述编码器采用深度网络模型或残差网络模型。

优选的，注意力关注子模块包括：

权重计算单元，基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重；

加权处理单元，基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。

优选的，述注意力权重计算公式如下式所示：

α_t＝h_tW₁[I_middle；W₂I_high]

所述解码器的训练包括：

通过SoftMax函数预测下一个时刻输出的单词的概率分布；

优选的，所述解码子模块：基于训练好的所述解码器上一时刻隐藏状态特征向量预测下一时刻隐藏状态特征向量；

一种高低层特征融合的注意力遥感图像描述的生成系统，还包括：筛选处理模块，用于对所述遥感图像数据集和所述对应的自然语言句子描述数据集进行筛选处理，并对筛选后的图像切片进行场景类别分类处理。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种高低层特征融合的注意力遥感图像描述的生成方法，其特征在于，包括：

获取待测遥感图像；

2.如权利要求1所述的注意力遥感图像描述的生成方法，其特征在于，基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述，包括：

3.如权利要求2所述的注意力遥感图像描述的生成方法，其特征在于，所述编码器的训练包括：

将所述遥感图像数据进行切割得到图像切片数据；

4.如权利要求3所述的注意力遥感图像描述的生成方法，其特征在于，所述编码器采用深度网络模型或残差网络模型。

5.如权利要求2所述的注意力遥感图像描述的生成方法，其特征在于，所述利用高低层特征融合的注意力对各特征的语义表示进行不同程度的关注，得到显著图像特征，包括：

6.如权利要求5所述的注意力遥感图像描述的生成方法，其特征在于，所述注意力权重计算公式如下式所示：

α_t＝h_tW₁[I_middle；W₂I_high]

7.如权利要求5所述的注意力遥感图像描述的生成方法，其特征在于，所述解码器的训练包括：

通过SoftMax函数预测下一个时刻输出的单词的概率分布；

8.如权利要求7所述的注意力遥感图像描述的生成方法，其特征在于，所述利用预先训练好的解码器，对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述，包括：

9.如权利要求3所述的注意力遥感图像描述的生成方法，其特征在于，所述将所述遥感图像数据进行切割得到图像切片数据，之前还包括：

10.一种高低层特征融合的注意力遥感图像描述的生成系统，其特征在于，包括：数据获取模块，用于获取待测遥感图像；