CN108764303A

CN108764303A - 一种基于注意力机制的遥感图像自然语言生成方法

Info

Publication number: CN108764303A
Application number: CN201810441978.XA
Authority: CN
Inventors: 郭菲; 郭一菲; 高建彬
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-11-06

Abstract

本发明公开一种基于注意力机制的遥感图像自然语言生成方法，属于计算机视觉技术领域。CNN部分包括：普通卷积池化层、C‑S层和全连接层；RNN部分结构包括：多层模型单元、GRU单元和注意力单元；将同地区不同时刻的遥感图像输入初始化后的CNN部分获得特征向量；特征向量分别输入进GRU单元和注意力单元，注意力单元还接收来自GRU单元的隐层状态，注意力单元将特征向量和隐层状态二者映射到低维进一步压缩归一化得到加权平均后的特征向量；加权平均后的特征向量和GRU单元的隐层状态经过多层模型单元整合，之后经过一个隐层和一个归一化层，进行最大似然，得到整型数序列；本发明解决了目前遥感图像生成自然语言的结果不理想的问题。

Description

一种基于注意力机制的遥感图像自然语言生成方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于注意力机制的遥感图像自然语言生成方法。

背景技术

随着人工智能的发展及普及，图像标注作为计算机视觉领域与自然语言处理领域的融合，其重要地位日渐凸显，在许多重要领域如图像检索，儿童教育和视力受损人士的生活辅助等方面等都有着重要的应用。一种将深度卷积神经网络和循环神经网络结合起来的方法在图像标注问题上取得了显著的进步。然而，计算机视觉领域的成果在遥感图像一些领域，图像标注没有很好地发挥其潜力。对于遥感图像来说，计算机视觉领域经典的CNN与RNN结合框架有一个重大的缺点：由于遥感图像区别于自然图像，包含了大量的无关信息，具有尺度模糊，分类歧义和旋转歧义的特性，常规RNN往往无法针对有效信息给做出句子生成。所以，最终生成的句子会出现缺乏灵活性以及极具相似性的现象，这也使得生成的句子变得无意义。除此之外，遥感图像自然语言描述还面临着缺少较大数据集以及随之而来的训练后的过拟合问题。

在解决上述第一个问题的方法中，大致可归于以下两类，一是手动分类：这是指使用传统的方法对于遥感图像的目标物进行分类，将分类结果输入RNN网络中生成描述语言，这样最后生成的语句会保留有关信息，且不容易被遥感图像的旋转歧义和分类歧义误导。二是基于注意力机制的分类:这是指RNN不再使用统一的语义特征，而让RNN在输入序列中自由选取需要的特征能，接着进行推断来得到模型参数，这种方法迫使RNN产生一个“注意力范围”表示接下来输出的时候要重点关注图像特征中的哪些部分，根据关注的区域来产生下一个输出，这种方法可以产生更灵活的句子，更加知道如何关注相关信息。

对于数据集以及过拟合问题，目前普遍方法是采用迁移学习的思想在较大数据集上进行预训练后在小数据集上进行模型微调。然而，这对于目前数据集有限且数据集内的内容并不丰富的遥感图像来说效果没有在自然图像的处理时非常理想。

总体说来，遥感图像描述生成还存在以下问题：

(1)遥感图像和自然图像不同，包含了大量的无关信息，具有尺度模糊，分类歧义和旋转歧义以及低密度的特性；

(2)遥感图像的数据集有限且训练后的模型容易过拟合；

(3)忽视了遥感图像自身的低密度的特性以及同一地区不同时刻会有多张图像的特性。

发明内容

本发明的目的在于：为解决如下问题：(1)遥感图像和自然图像不同，包含了大量的无关信息，具有尺度模糊，分类歧义和旋转歧义以及低密度的特性，可能导致遥感图像中的地物在不同尺度下表现出不同的语义，并且很难描述遥感图像中的融合区域，易导致分类产生歧义；(2)遥感图像的数据集有限且训练后的模型容易过拟合；(3)忽视了遥感图像自身的特性低密度的特性以及同一地区不同时刻会有多张图像的特性，可能导致很大的遥感图像内只有很小的区域含有很小的有效区域，使得模型无法充分描述有效信息；本发明提供一种基于注意力机制的自然语言生成方法。

为解决技术问题，本发明所采用的技术方案是：

一种基于注意力机制的遥感图像自然语言生成方法，发明内容主要包括：遥感图像字幕的流程框架，预训练模型和对应的自然语言描述，使用了C-S模型层，将它和卷积神经网络结合，构建出新的目标检测框架，以及对于GRU代替原本LSTM的新的框架的提出。具体如下：

一种基于注意力的遥感图像自然语言生成方法，包括如下步骤：

步骤1：将RSICD遥感图像对应的自然语言切片成字符并编号，建立编号与字符相互对应的词典空间；

步骤2：构建系统模型，系统模型包括：CNN部分、RNN部分和句子生成部分；其中，CNN部分结构包括：普通卷积池化层、C-S层和全连接层；RNN部分结构包括：多层模型单元、GRU单元和注意力单元；

步骤3：将CNN部分在ImageNet上预训练来初始化参数；

步骤4：将同地区不同时刻的遥感图像先后输入初始化后的CNN部分获得特征向量；

步骤5：将步骤4得到的特征向量输入RNN部分，特征向量分别输入进GRU单元和注意力单元，注意力单元还接收来自GRU单元的隐层状态，通过注意力单元将特征向量和隐层状态二者映射到低维进一步压缩归一化得到加权平均后的特征向量；加权平均后的特征向量和GRU单元的隐层状态经过多层模型单元整合，经过一个隐层和一个归一化层，进行最大似然，得到整型数序列；

步骤6：对步骤5得到的整型数序列映射至字典空间，通过句子生成部分获得完整句子，采用CIDEr方法对句子打分，输出句子及其分数。

具体地，所述步骤2中的C-S层是由基于空间注意力和基于逐个信道注意力结合而成，其公式定义如下：

X＝f(V,α,β) (1)

其中V是来自上一卷积层的特征向量，这里把单个的α^l统一表示成

α，α代表空间注意部分的权重，把单个的β^l统一表示成β，β是信道注意部分的权重，f

是调整函数，α和β由以下公式定义：

β＝φ_c(V,h_t-1)

α＝φ_s(h_t-1,f_c(V,β)) (2)

φ_c代表信道部分函数，φ_s代表空间部分函数，f_c(,)是特征向量及其权重的乘法，h_t-1代表来自RNN部分的隐层状态。

具体地，所述RNN部分中，所述注意力单元定义如下：

是注意力分数，代表了将v_m和h^t-1进行降维并压缩成标量，将v_m是特征向量，h^t-1是 GRU上一时刻的隐层状态，则是对权重进行归一化，使得u^t是加权后的结果。对于多个通道，多模型层定义如下：

其中代表了图像不同通道加权后的特征向量，h^t是来自GRU的隐层状态，m^t代表将不同来源的信息整合到一起；最后再对进行最大似然生成单词。

本发明中，将卷积池化采样的特征图交由一个空间和通道结合注意力模型判定赋予权重，判定网络将较大的权重赋予信息丰富的区域，并且尤其每个通道的权重互不相同，让生成的特征向量针对于输入图像特定通道的特定的“注意范围”，经过RNN解码从而可以生成更加精确灵活的语言描述。

由于本发明将多幅同地区的遥感图像输入进改进后的CNN中，不仅使得遥感图像自身的多图像特性得到充分利用使网络可以学习到不同时刻的信息，而且还“迫使”网络更加“关注”特定通道特定范围的信息，实现了注意力机制在遥感图像上的有效应用，针对遥感图像小数据低密度，多通道的特性，解决了无法生成准确描述的难题；同时，采用迁移学习的方法预训练CNN，避免了复杂的参数初始化过程且防止由于初始参数不适合导致网络性能下降，使得网络其他部分参数可以使用随机初始化的方法。

综上所述，与现有技术相比，本发明具有以下有益效果：

(1)本发明的CNN部分不同于经典的CNN，加入了C-S层，使得每个通道信息都可以有不同权重，对于多波段且每个波段信息相差很大的遥感图像具有重要意义。

(2)利用同地区多个时刻的遥感图像，可以学习到更丰富的图像信息，且很好的应对了遥感图像的分类歧义性，生成更加准确的熙然语言描述。

(3)利用GRU替换了传统的LSTM网络，网络学习的参数会比LSTM少，适用于数据量比较小遥感图像数据集，不容易产生过拟合。

(4)利用将自然语言描述切片的方法，构成一个字典空间对整型的映射，使得生成单词变成了生成整型数字，有效的提高了运算速度。

附图说明

图1是本发明一实施实例的示意图。

图2是本发明的注意力机制RNN部分原理图。

图3是GRU的内部结构。

具体实施方式

下面结合实施例对本发明作进一步的描述，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例，都属于本发明的保护范围。

一种基于注意力机制的遥感图像自然语言生成方法，包括如下步骤：

步骤1：将RSICD遥感图像对应的自然语言切片成字符并编号，编号的类型是整型，建立编号与字符相互对应的词典空间；即在整型数字和字典之间建立一个映射关系，在生成自然语言时调用。

步骤2：构建系统模型，如图1所示，系统模型包括：CNN部分、RNN部分和句子生成部分；其中，CNN部分结构包括：普通卷积池化层、C-S层和全连接层，图1中，为了方便图片表述，将普通卷积池化层的最后一层卷积层conv5-3单独放出；RNN部分结构包括：多层模型单元、GRU单元和注意力单元；

本实施例中，CNN模型采用VGG-19结构，由16个3×3的卷积层，和嵌入其中的5个 2×2最大池化层以及2个全连接层组成。把最后的卷积层替换为C-S模型，C-S模型分为两个部分，分别为信道注意和空间注意。

其中，C-S层是由基于空间注意力和基于逐个信道注意力结合而成，其公式定义如下：

X＝f(V,α,β) (1)

是调整函数，α和β由以下公式定义：

β＝φ_c(V,h_t-1)

α＝φ_s(h_t-1,f_c(V,β)) (2)

φ_c代表信道部分函数，φ_s代表空间部分函数，f_c(,)是特征向量和权重的乘法，h_t-1代表来自RNN部分的隐层状态。

所述RNN部分中，所述注意力单元定义如下：

步骤3：将CNN部分在ImageNet上预训练来初始化参数；

步骤4：将同地区不同时刻的遥感图像先后输入至卷积层，卷积层运算提取输入的不同特征向下传递，卷积后的特征图经过池化层，池化层的目的是减小特征图大小，池化层对每个深度切片，规模为2×2，对模板内的4个点取最大值，称为最大池化操作。具体过程如下：

步骤4.1：最后的卷积层收到来自上一个卷积层的特征图V，用V进行初始化该卷积层；然后使用逐个信道模型Φ_c计算逐个信道注意权重β，具体过程如下：

对于逐个通道注意模型，:先把V改造成U(扁平化)

U＝{u₁,u₂,u₃,u₄…u_C},u_i∈R^W×H (4.1-1)

其中u_i∈R^W×H代表特征图V的第i个通道，然后对每个通道用一个平均池化层来得到通

道特征V：

V＝{v₁,v₂,v₃,v₄…v_C},V∈R^C (4.1-2)

标量v_i是向量u_i的平均，代表了第i个通道特征。逐个信道模型Φ_c定义为：

β＝softmax(W_i′b+b_i′) (4.1-4)

其中W_c∈R^k,W_hc∈R^k×d,W_i′∈R^k是变换矩阵，代表向量乘积，b_c∈R^k,b_i∈R¹是偏

差项。

步骤4.2：计算得到β，通过一个β和V的线性组合得到了一个信道加权特征图。然

后把信道加权特征图输入到空间注意模型Φ_S中，获得权重α。Φ_S定义如下：

α＝softmax(W_ib+b_i) (4.2-2)

其中，V＝{v₁,v₂,v₃,v₄…v_m},v_i∈R^C,m＝W·H.v_i是扁平化，即映射到低维过后的V，

代表第i个位置的视觉特征；其中W_s∈R^k×C,W_hs∈R^k×d,W_i∈R^k是变换矩阵，是映射图

像特征向量和隐藏层状态到一个维度的变换矩阵；是一个矩阵和一个向量的加法，

b_s∈R^k,b_i∈R¹是模型偏差。

步骤4.3：获得权重α后，把V,β，α输入到调制函数f中计算调制过后的特征图X

β＝Φ_c(h_t-1，V) (4.3-1),

α＝Φ_S(h_t-1，f_c(V,β)) (4.3-2),

X＝f(V,α,β) (4.3-3).

f_c(·)是一个信道和信道权重的乘法。

随后X进入全连接层，提取最后一个全连接层得到的特征结果。

如图3所示，具体过程如下：

对于每个遥感图像，把步骤4生成的特征向量表示为：

V＝{v₁,v₂,v₃,v₄…v_KM},v_i∈R^D (5.0-1)

其中，每个图像提取M个向量，有K个遥感图像，共KM个向量，每个部分对应的向量维度是D。

对于每个时间步骤t计算这些特征对应的权重{β₁,β₂,β₃,β₄…β_KM}且给定前一时刻隐藏状态h^t-1情况下计算每个m图片的分数

w、W_q、U_q、b_q是共享的参数目的是将特征向量与状态与隐藏层状态映射到低维并压缩到一起，φ设置为stanh函数：之后我们通过一个序列softmax层获得权重：

通过加权平均获得一个单独特征向量：

对于多个通道，多模型层定义如下：

其中代表了图像不同通道加权后的特征向量，h^t是来自GRU的隐层状态，m^t代表将不同来源的信息整合到一起。

之前生成的词向量为y＝{y₁,y₂…y_t-1}，通常下一个词向量y_t，p(y_j|y_1:j-1,V)的概率计算如下：

其中T是句子中单词的个数，y_1:j-1是之前生成的词向量。

GRU的内部结构定义如下参见图3：

r,z分别是重置门和更新门，h_t-1是上一时刻的状态，当前节点的输入为

h′_t-1＝h_t-1⊙r (4.1-3)

这里的h′主要是包含了当前输入的数据。有针对性地对h′添加到当前的隐藏状态，相当于LSTM的选择记忆阶段。然后进行更新记忆阶段：

h_t＝z⊙h_t-1+(1-z)⊙h′ (4.1-5)

这里的z的范围为0～1,越接近1，代表“记忆”下来的数据越多；而越接近0则代表“遗忘”的越多。z⊙h_t-1代表对上一时刻的隐藏状态的选择性遗忘；(1-z)⊙h^′代表对当前节点信息选择性“记忆”，最终生成整数序列。

步骤6：将生成的整数序列映射至字典空间获得完整的句子y＝{y₁,…,y_L},y_i∈R^K每个单词y使用k中取1的向量的序列描述，K是词典的大小，而当其中包含第K个词的时候此处值为1，L是句子序列长度。对自然语言描述进行打分，自然语言描述输入至遥感图像的打分模型，目前较为优秀的评价模型为包括CIDEr，Smoothed BLEU和METEOR，其中CIDEr是专门为图像标注问题设计的较为优秀的评分模型。

本实施例中采用CIDEr进行评价，它是通过对每个n元组进行Term FrequencyInverse Document Frequency(TF-IDF)权重计算，来衡量图像标注的一致性的一个n元组w_k在出现在参考句子s_ij中的次数被记为h_k(s_ij)，如果出现在待评价句子中，则被记为h_k(c_i)。CIDEr 为每个n元组w_k都计算TF-IDF权重gk(s_ij)：

其中是所有Ω是n元组的词汇表，I是数据集中所有图像的集合。

计算基于高斯惩罚的CIDEr-D_n：

其中，gⁿ(c_i)是一个由g_k(c_i)生成的向量，对应的是所有长度为n的n元组，||gⁿ(c_i)||是向量的大小，而gⁿ(s_ij)同理，l(c_i)和l(s_ij)分别表示的是待评价句子和参考句子的长度，σ＝6，分子为10是为了让得分和其他标准比较相似。不同长度的n元组的得分计算如下：

标准权重ω_n＝1/N,N＝4比较常用。最终评分在0到1之间，1表示完全与人工翻译一致。

Claims

1.一种基于注意力机制的遥感图像自然语言生成方法，其特征在于，包括如下步骤：

步骤3：将CNN部分在ImageNet上预训练来初始化参数；

步骤6：对步骤5得到的整型数序列映射至字典空间，通过句子生成部分获得完整句子，然后对句子打分，输出句子及其分数。

2.根据权利要求1所述的一种基于注意力机制的遥感图像自然语言生成方法，其特征在于，所述步骤2中的C-S层是由基于空间注意力和基于逐个信道注意力结合而成，其公式定义如下：

X＝f(V，α，β) (1)

其中V是来自上一卷积层的特征向量，这里把单个的α^l统一表示成α，α代表空间注意部分的权重，把单个的β^l统一表示成β，β是信道注意部分的权重，f是调整函数，α和β由以下公式定义：

β＝φ_c(V，h_t-1)

α＝φ_s(h_t-1，f_c(V，β)) (2)

φ_c代表信道部分函数，φ_s代表空间部分函数，f_c(，)是特征向量和权重的乘法，h_t-1代表来自RNN部分的隐层状态。

3.根据权利要求1所述的一种基于注意力机制的遥感图像自然语言生成方法，其特征在于，所述RNN部分中，所述注意力单元定义如下：

是注意力分数，代表了将v_m和h^t-1进行降维并压缩成标量，将v_m是特征向量，h^t-1是GRU上一时刻的隐层状态，则是对权重进行归一化，使得u^t是加权后的结果。对于多个通道，多模型层定义如下：