CN110619313B

CN110619313B - 遥感图像判别性描述生成方法

Info

Publication number: CN110619313B
Application number: CN201910893945.3A
Authority: CN
Inventors: 王爽; 谷裕; 孟芸; 张磊; 叶秀眺; 田敬贤; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2023-09-12
Anticipated expiration: 2039-09-20
Also published as: CN110619313A

Abstract

本发明公开了一种遥感图像判别性描述生成方法，对前文已生成序列添加注意力的方法更加适合遥感图像描述场景中对象关系较为固定、描述句子较为简单的情况，这一改进方法适用于各种语言生成模型，可以是语言模型对遥感图像生成更加准确流畅的描述；本发明还提出了一种新颖的基于间隔性损失的训练目标，通过最小化这一损失可以鼓励语言模型对遥感图像生成更加具有判别性的描述。本发明针对遥感图像的特点，提出了两种改进方法，使模型的性能得到了显著的提高。

Description

遥感图像判别性描述生成方法

技术领域

本发明属于遥感图像理解技术领域，具体涉及一种遥感图像判别性描述生成方法。

背景技术

现代航天遥感技术随着卫星技术的发展，对地观测能力大幅提升，通过获取到的遥感数据，可以在军用和民用上都发挥重要的作用。为了更加充分利用这些遥感数据并且减少人力物力的耗费，设计网络自动地理解遥感图像并且在语义层面上将遥感图像的内容准确流畅地描述出来成为一个十分有意义的工作。然而在高分辨遥感领域主要的关注点还是集中在目标检测，地物分类，语义分割等方面，这些研究可以识别图片中的物体但无法给出图片中物体之间的关系，而遥感图像描述自动生成的句子可以大体反映图片内容并且给出更多的对象关系等细节信息。

在自然图像描述生成的方法中，基于神经网络的方法是目前最主流的方法，这种方法大多数基于编码器-解码器的模型框架，编码器一般是一个CNN网络用于提取图片特征，解码器是一个循环神经网络(RNN或LSTM)，它将图片特征作为输入产生图片的句子描述。受启发于自然图像领域描述生成的发展，遥感图像的描述生成也借鉴了自然图像中的方法提高生成句子的准确性和流畅度。

遥感图像是采取自上而下的拍摄方式捕捉的地面物体的图像，传感器的的位置不同时，对于相同对象会呈现出不同的大小和相对位置。而且在采集遥感图像过程中容易受到光照、遮挡、距离等周围环境的影响，会造成目标遥感图像特征模糊，这使得遥感图像的语义层次的理解变得更加困难。针对遥感图像描述生成的难点，在语言模型中预测单词时使用对已生成前文序列的注意力机制可以更加有效地利用图像中对象和环境的关系，生成更加流畅且符合图片内容的描述。

另外一个各方面，在遥感图像的描述生成中，有一个十分常见的现象是对于两个场景内容差不多的遥感图像，语言模型可能会给出一摸一样的描述而无视他们的细节和差别，相对的，我们人类则能够很好的察觉的他们之间的不同，给出具有判别性的描述。为了减小模型生成的句子和我们人类之间给出的描述之间的判别性差距，并且提高模型对于特定遥感图像生成句子的判别性和独特性，在训练损失中引入了一个直接与句子判别性相关的部分，通过最小化这个训练损失部分可以有效的极高模型生成句子的判别性。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种遥感图像判别性描述生成方法，通过卷积神经网络提取图像特征，结合利用注意力机制和一种新颖的基于相似度差距的训练损失来提高提高语言模型生成句子的准确性和判别性。

本发明采用以下技术方案：

一种遥感图像判别性描述生成方法，包括以下步骤：

S1、利用卷积神经网络提取遥感图片的卷积特征，得到遥感图像的局部特征；

S2、在每个时刻，通过注意力机制计算不同局部特征的标准化注意力权重，对局部区域加权得到加权局部特征；

S3、在每个时刻，通过注意力机制计算前文已生成序列的每个单词的标准化注意力权重加权得到加权前文特征；

S4、将步骤S2和S3得到的加权局部特征和加权前文特征，以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量，获得当前时刻的隐藏态；

S5、基于当前的隐藏态，输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布；

S6、利用最大似然估计方法训练图像描述生成模型，得到模型中需要学习的参数，训练目标是最小化交叉熵损失；

S7、预训练一个检索模型，利用检索模型计算图像描述生成模型生成的句子与图片的相似度；

S8、引入基于图文相似度间隔的训练损失部分，最小化这一部分损失，鼓励语言模型生成具有判别性的句子；

S9、利用强化学习算法继续训练语言生成模型，在这一过程中的奖励回报由两个部分组成，分别是CIDEr得分和检索模型回报；

S10、在测试阶段仅保留语言生成模型，从生成起始符“<BOS>”开始，由上一个时刻的隐藏态引导下一个时刻单词的生成，每个时刻生成一个单词，直到生成停止符“<EOS>”，句子生成结束。

具体的，步骤S1中，采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet卷积神经网络对遥感图像提取卷积特征，得到特征图，将特征图的形状进行重塑，接全连接层，降低特征图的维度。

具体的，步骤S2具体为：

S201、根据LSTM单元前一时刻的隐藏态h_t-1经过一个注意力模块可以产生对所有的局部区域特征的标准化的注意力权重，计算过程为：

β_t＝softmax(b_t)

其中，b_i,t是β_t的第i个元素，是学习的参数，β_t表示标准化的区域注意力分布，它的第i个元素b_i,t是区域特征v_i的注意力概率值；

S202、通过分配给所有的局部区域由S202步骤得到的不同注意力权重，加上注意力后局部区域特征为：

。

具体的，步骤S3具体为：

S301、根据LSTM单元前一时刻的隐藏态h_t-1经过一个注意力模块可以对所有的前文已生成序列的m个词向量s_i计算出一个标准化的注意力权重，计算过程为：

α_t＝softmax(a_t)

其中，a_i,t是a_t的第i个元素，以及/>是学习的参数，α_t表示标准化的前文注意力分布，它的第i个元素α_i,t是前文单词向量s_i的注意力权重值；

S302、由步骤S301得到的权重，对前文已生成的词向量加权的的前文特征为：

其中，m表示语言模型已生成的序列中包含m个单词。

具体的，步骤S4中，在每个时刻t，把当前时刻输入的单词向量w_t，利用注意力机制加权后的局部区域特征利用注意力机制加权后的前文已生成序列特征/>以及LSTM单元的前一时刻的隐藏态h_t-1作为当前时刻解码器模块的输入x_t，得到当前时刻的隐藏态输出h_t；具体为：

当前时刻输入的单词向量w_t通过词向量表示模型GloVe作为嵌入工具表示得到；

当前时刻的隐藏态的计算过程为：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

g_t＝σ(W_gx_t+U_gh_t-1+b_g)

m_t＝f⊙m_t-1+i_t⊙g_t

h_t＝o_t⊙φ(m_t)

基本的LSTM更新过程简化为：

h_t＝LSTM(x_t，h_t-1)。

具体的，步骤S5具体为：

S501、根据h_t通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果，根据概率分布结果抽样得到预测的单词，计算公式表示为：

其中，是要学习的权重参数，d是隐藏态的数量，v词汇表的大小；

把数据集中所有的图片描述转为小写，去掉在整个数据集中出现次数少于5次的单词，建立了一个包含了个单词的词汇表；

S502、整个遥感图像描述句子的条件分布表示为：

。

具体的，步骤S6中，交叉熵损失表示为：

其中，θ是模型中要学习的参数，是当前遥感图片的人工描述语句。

具体的，步骤S7具体为：

S701、把图片和文本映射到同一个语义空间，对于图片，利用CNN网络作为编码器提取图片特征φ(I)；对于句子，利用基于RNN的文本编码器编码文本信息，得到通过两个编码器将图片特征和文本特征映射到同一个语义空间后，计算图文之间的相似度；

S702、在同一个嵌入空间中，遥感图片和生成的描述之间的相似度通过余弦相似度s(I,y)计算如下：

。

具体的，步骤S8具体为：

定义损失部分如下：

(x)₊＝max(x,0)

其中，Y_i是语言模型对于当前输入图片I_i生成的句子，{I₁,I₂,…,I_n}是一个batch中所有的图片，y_ij可取的值为1或者-1，s_ij表示Y_i与I_j的图文相似度，β是一个变量可以决定匹配的和不匹配的图文对之间相似度的界限，α控制着相似度的分隔距离。

具体的，步骤S9具体为：

S901、在利用强化学习算法训练模型时，目标是最小化采样得到的句子描述的负的期望奖励：

其中，是根据单词的概率分布抽样得到的预测句子，r表示该句子所得到的奖励，θ是模型学习到的参数，它能够决定下一个单词的预测结果；

S902、使用带有基线的强化学习算法，期望奖励的梯度近似计算为：

其中，b是取的贪婪解码得到的句子描述的回报；

S903、在模型中，对于每个抽样得到的句子描述奖励由两个部分组成的：这个句子的CIDEr得分和S6步骤中的检索奖励，具体关系表示为：

其中，λ是用来平衡两个奖励的权重，是相似性间隔损失。

与现有技术相比，本发明至少具有以下有益效果：

本发明针对遥感图像场景中对象关系较为固定，人工标注描述句子较为简单的特点，设计使用了对语言模型已生成前文序列添加注意力的策略，这可以鼓励语言模型利用前文已生成序列中更加重要的单词参与预测当前单词，这有效地提高了生成描述的准确性和流畅性；针对遥感图像描述生成中对于两幅相似的图片会生成相同描述的问题，在训练目标中引入了一个基于相似性的判别损失部分。通过最小化这一部分损失可以有效提高生成句子的判别性，将特定图片生成的描述与其他图片的描述区分开来。

进一步的，在步骤S1中利用卷积神经网络能够捕捉图片在不同尺度上的特征，提取到丰富的图片信息。

进一步的，步骤S2中利用attention模块为不同的区域分配权重，得到加权图片特征，将加权图像特征作为单词预测的指导信息。模型根据权值的不同，在生成单词时选择性地关注当前应当关注的图片区域，提高预测单词与图片区域的对应关系，提高语句的准确度。

进一步的，步骤S3中对前文已生成的各个单词产生不同的注意力权重，利用前文信息对于当前生成单词的指导作用，丰富了引导单词生成的信息来源，提高预测单词的准确性。

进一步的，在步骤S4中，加权图像特征、加权前文特征、当前时刻输入的单词向量以及前一时刻的隐藏态共同作为LSTM单元的输入，获得当前时刻的隐藏态，当前时刻的隐藏态作为指导信息，预测当前时刻生成的单词。

进一步的，在步骤S5中，当前时刻的隐藏态作为指导信息送入softmax层，得到在整的词汇表上的概率分布，取概率最大的单词作为当前时刻的预测结果。

进一步的，步骤S6中，利用交叉熵损失训练当前的模型，得到一个基本的描述生成模型，以这个初始模型作为基础，进行第二阶段判别性描述生成的训练。

进一步的，步骤S7中预训练了一个检索模型，利用这个检索模型可以计算生成的句子和图片之间的相似性。

进一步的，步骤S8中引入了一个基于图文相似度间隔的训练损失部分，这一训练损失与生成的句子的判别性直接相关。其中损失中的两个参数α，β可以灵活地调节，通过最小化这一损失，可以选择合适的样本对模型进行训练，引导模型生成更加具有判别性的描述。直观上来看，这一损失部分希望匹配的图文之间的相似度大于α+β，不匹配的图文对之间的相似度小于α-β。

进一步的，步骤S9中将模型生成的句子CIEDr得分和步骤S8中的基于图文相似度间隔的训练损失作为强化学习中奖励的两个组成部分，其中CIDEr得分可以保证生成的句子的准确性，基于图文相似度间隔的训练损失部分可以提高句子的判别性。

综上所述，本发明基于对前文的注意力机制和相似性间隔可以对遥感图像生成判别性更高的图像描述。其中对前文的注意力机制利用了语句中前后文的关系，将前文已经生成的单词作为当前的预测单词的指导信息，提高生成的语句的流畅程度和准确性。另外，我们引入了一个基于相似度间隔的损失作为训练损失的一部分，最小化这一损失，生成的句子可以突出地描述两张相似图片的独特之处，提高描述的判别性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的总流程图；

图2为本发明中提出的对已生成前文序列添加使用注意力机制示意图；

图3为本发明方法生成的判别性示意图，其中，(a)为海水旁有沙滩，(b)为海浪拍打沙滩，(c)为一个操场被绿树环绕，(d)为有一个很大的操场，操场周围停着很多车。

具体实施方式

本发明提供了一种基于前文注意力和相似性间隔损失的遥感图像判别性描述生成方法，对前文已生成序列添加注意力的方法更加适合遥感图像描述场景中对象关系较为固定、描述句子较为简单的情况，这一改进方法适用于各种语言生成模型，可以是语言模型对遥感图像生成更加准确流畅的描述；本发明还提出了一种新颖的基于间隔性损失的训练目标，通过最小化这一损失可以鼓励语言模型对遥感图像生成更加具有判别性的描述。本发明针对遥感图像的特点，提出了两种改进方法，使模型的性能得到了显著的提高。

请参阅图1，本发明一种遥感图像判别性描述生成方法，包括以下步骤：

采用ResNet101网络对遥感图像提取卷积特征，得到形状为14*14*2048的特征图。将特征图的形状重塑为196*2048，接全连接层，将特征图的维度由2048降至512，得到196*512的特征图，每个512维的向量表示图像一个局部区域的特征，记录为v₁,v₂,v₃…v₁₉₆；卷积神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet；

β_t＝softmax(b_t)

。

α_t＝softmax(a_t)

其中，a_i,t是a_t的第i个元素，是学习的参数，α_t表示标准化的前文注意力分布，它的第i个元素α_i,t是前文单词向量s_i的注意力权重值；

其中，m表示语言模型已生成的序列中包含m个单词；

在每个时刻t，把当前时刻输入的单词向量w_t，利用注意力机制加权后的局部区域特征利用注意力机制加权后的前文已生成序列特征/>以及LSTM单元的前一时刻的隐藏态h_t-1作为当前时刻解码器模块的输入x_t，得到当前时刻的隐藏态输出h_t；

S401、当前时刻输入的单词向量w_t通过词向量表示模型GloVe作为嵌入工具表示得到的；

S402、当前时刻的隐藏态的计算过程为：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

g_t＝σ(W_gx_t+U_gh_t-1+b_g)

m_t＝f⊙m_t-1+i_t⊙g_t

h_t＝o_t⊙φ(m_t)

为了简化表示，把基本的LSTM更新过程写作：

h_t＝LSTM(x_t，h_t-1)

S5、基于当前到的隐藏态，将其输入到一个softmax层得到当前时刻预测单词在整个词汇表上的概率分布；

S501、根据得到的h_t通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果，根据这个概率分布结果抽样得到预测的单词，计算公式表示为：

词汇表的建立：把数据集中所有的图片描述转为小写，去掉在整个数据集中出现次数少于5次的单词，建立了一个包含了个单词的词汇表；

S502、整个遥感图像描述句子的条件分布可以表示为：

S6、先利用传统的最大似然估计的方法训练图像描述生成模型，得到模型中需要学习的参数，训练目标是最小化交叉熵损失，交叉熵损失表示为：

其中，θ是模型中要学习的参数，是当前遥感图片的人工描述语句(GroundTruth)；

S7、预训练一个检索模型，利用检索模型可以计算图像描述生成模型生成的句子与图片的相似度；

S701、首先要把图片和文本映射到同一个语义空间。对于图片，利用CNN网络作为编码器提取图片特征φ(I)。对于句子，利用基于RNN的文本编码器编码文本信息，得到通过这样两个编码器可以将图片特征和文本特征映射到同一个语义空间后即可计算图文之间的相似度；

S702、在同一个嵌入空间中，遥感图片和生成的描述之间的相似度可以通过余弦相似度来计算，计算公式如下：

S8、引入一个基于图文相似度间隔的训练损失部分，最小化这一部分损失可以鼓励语言模型生成更加具有判别性的句子；

S801、损失部分定义如下：

(x)₊＝max(x,0)

其中，Y_i是语言模型对于当前输入图片I_i生成的句子，{I₁,I₂,…,I_n}是一个batch中所有的图片，y_ij可取的值为1或者-1(当取值为1是，表示匹配的文图对即为I_i与Y_i；当取值为-1，表示的是不匹配的文图对即为Y_i与batch中的其他图片)，s_ij表示Y_i与I_j的图文相似度，β是一个变量可以决定匹配的和不匹配的图文对之间相似度的界限，α控制着相似度的分隔距离；

S802、通过最小化这一训练损失部分可以使得检索模型给匹配的图文对的相似度得分更高而对于不匹配的图文对的得分更低，通过加上这样的控制可以鼓励语言模型生成与当前图片更加匹配的句子，并且可以与其他图片区分开；

S9、利用强化学习算法继续训练语言生成模型，在这一过程中的奖励回报由两个部分组成，分别是CIDEr得分和检索模型回报。对于每张输入的遥感图片，语言模型会基于一个概率分布采样得到句子中的每个单词，由于这个采样的过程是不可以微分的，我们不能直接使用梯度下降的方法进行反向传播来最小化损失函数，因此接下来利用强化学习的算法来继续训练我们的描述生成模型；

S901、在利用强化学习算法训练模型时，我们的目标是最小化采样的得到的句子描述的负的期望奖励：

S902、使用带有基线的强化学习算法，那么这个期望奖励的梯度可以近似计算表示为：

其中，b是取的贪婪解码得到的句子描述的回报；

S903、在模型中，对于每个抽样得到的句子描述它的奖励都是由两个部分组成的：这个句子的CIDEr得分和S6步骤中的检索奖励。它们之间的关系表示为：

其中，λ是用来平衡两个奖励的权重，是相似性间隔损失。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1.仿真条件

本发明仿真实验的硬件平台是：戴尔计算机Intel(R)Core5处理器，主频3.20GHz，内存64GB；仿真软件平台是：Python3.5，pytorch 0.4平台。

2.仿真内容

在RSICD数据集上，完成本发明的方法。RSICD数据集的划分标准为90％训练，10％测试。为了证明本发明的有效性，选用Attention to in模型作为基本模型，并在这个模型的基础上使用了本发明提出的方法，得到改进后的实验结果如下表所示。

使用的评价标准是是针对图像描述算法公认的评价指标，包括BLEU-1、BLEU-4、METEOR、ROUGE_L、CIDEr、SPICE。在六个评价指标中，得分越高表示句子描述效果越好，实验结果如下表：

从表中可以看出，本发明中的网络相比于使用图片注意力SCST:Att2in的方法，在各种直接标上都获得了更高的分数，因而表现更好，能够生成更精确的图像描述。

请参阅图2和图3，随机从测试集上选取了两组仿真结果，其中，图3(a)、(b)和(c)、(d)分别相似，生成的结果表明，本发明的方法生成的图像描述较为流畅准确，而且能够很好地区分两张相似的图片，具有较高判别性。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.遥感图像判别性描述生成方法，其特征在于，包括以下步骤：

S1、利用VGG16、VGG19、AlexNet、GoogLeNet或ResNet卷积神经网络提取遥感图片的卷积特征，得到遥感图像的局部特征，将局部特征的形状进行重塑，接全连接层；

S2、在每个时刻，通过注意力机制计算不同局部特征的标准化注意力权重，对局部区域加权得到加权局部特征，具体为：

S201、根据LSTM单元前一时刻的隐藏态h_t-1经过一个注意力模块产生对所有的局部区域特征的标准化的注意力权重，计算过程为：

β_t＝softmax(b_t)

S202、通过分配给所有的局部区域由步骤S201得到的不同注意力权重，加上注意力后局部区域特征为：

；

S3、在每个时刻，通过注意力机制计算前文已生成序列的每个单词的标准化注意力权重加权得到加权前文特征，具体为：

α_t＝softmax(a_t)

S302、由步骤S301得到的权重，对前文已生成的词向量加权的前文特征为：

其中，m表示语言模型已生成的序列中包含m个单词；

S4、将步骤S2和S3得到的加权局部特征和加权前文特征，以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量，获得当前时刻的隐藏态，在每个时刻t，把当前时刻输入的单词向量w_t，利用注意力机制加权后的局部区域特征利用注意力机制加权后的前文已生成序列特征/>以及LSTM单元的前一时刻的隐藏态h_t-1作为当前时刻解码器模块的输入x_t，得到当前时刻的隐藏态输出h_t；具体为：

当前时刻的隐藏态的计算过程为：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

g_t＝σ(W_gx_t+U_gh_t-1+b_g)

m_t＝f_t⊙m_t-1+i_t⊙g_t

h_t＝o_t⊙φ(m_t)

基本的LSTM更新过程简化为：

h_t＝LSTM(x_t,h_t-1)；

S5、基于当前的隐藏态，输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布，步骤S5具体为：

S502、整个遥感图像描述句子的条件分布表示为：

；

S6、利用最大似然估计方法训练图像描述生成模型，得到模型中需要学习的参数，训练目标是最小化交叉熵损失，交叉熵损失表示为：

其中，θ是模型中要学习的参数，是当前遥感图片的人工描述语句；

S7、预训练一个检索模型，利用检索模型计算图像描述生成模型生成的句子与图片的相似度，具体为：

；

S8、引入基于图文相似度间隔的训练损失部分，最小化这一部分损失，鼓励语言模型生成具有判别性的句子，定义损失部分如下：

l^margin(Y_i,{I₁,I₂,…,I_n})＝(α-y_ij(s_ij-β))₊

(x)₊＝max(x,0)

其中，Y_i是语言模型对于当前输入图片I_i生成的句子，{I₁,I₂,…,I_n}是一个batch中所有的图片，y_ij可取的值为1或者-1，s_ij表示Y_i与I_j的图文相似度，β是一个变量可以决定匹配的和不匹配的图文对之间相似度的界限，α控制着相似度的分隔距离；

S9、利用强化学习算法继续训练语言生成模型，在这一过程中的奖励回报由两个部分组成，分别是CIDEr得分和检索模型回报，具体为：

其中，b是取的贪婪解码得到的句子描述的回报；

S903、在模型中，对于每个抽样得到的预测句子奖励由两个部分组成的：这个句子的CIDEr得分和检索模型的奖励回报，具体关系表示为：

其中，λ是用来平衡两个奖励的权重，l^margin是相似性间隔损失；