CN110321864A

CN110321864A - 基于多尺度裁剪机制的遥感图像文字说明生成方法

Info

Publication number: CN110321864A
Application number: CN201910615120.5A
Authority: CN
Inventors: 李学龙; 王�琦; 张雪婷
Original assignee: Northwest University of Technology
Current assignee: Northwestern Polytechnical University; Northwest University of Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-11

Abstract

本发明公开了一种基于多尺度裁剪机制的遥感图像文字说明生成方法，用于解决现有遥感图像文字说明生成方法存在过拟合现象的技术问题。技术方案是在数据集中的遥感图像输入CNN之前，对原始遥感图像按照多个不同的尺度裁剪为大小不一的图像块，再将裁剪后的图像块重新缩放到统一尺寸大小，输入到编码器‑解码器模型中，从而使数据集得到扩充，同时使得CNN能更好地提取图像中的全局特征与局部特征，有效地减少因数据集中图像数量有限所造成的过拟合现象，进一步提高遥感图像文字说明生成任务的准确度。同时，通过裁剪多个尺度图像块进行训练，显著提高了模型的泛化能力。

Description

基于多尺度裁剪机制的遥感图像文字说明生成方法

技术领域

本发明涉及一种遥感图像文字说明生成方法，特别涉及一种基于多尺度裁剪机制的遥感图像文字说明生成方法。

背景技术

文献“B.Qu,X.Li,D.Tao,and X.Lu,Deep Semantic Understanding of HighResolution Remote Sensing Image.International Conference on Computer,Information and Telecommunication Systems,124-128,2016”提出了一种基于深度多模态神经网络模型的高分辨率遥感图像文字说明生成方法。该方法基于编码器-解码器模型分为两个阶段：图像理解阶段和文字说明生成阶段。图像理解阶段首先通过卷积神经网络(Convolutional Neural Network)CNN对遥感图像的视觉特征进行深度提取，将提取到的特征编码为一个固定长度的特征向量，然后在文字说明生成阶段分别通过序列模型中的循环神经网络(Recurrent Neural Network)RNN和长短期记忆网络(Long Short-TermMemory)LSTM，对图像理解阶段提取到的图像特征进行解码，从而生成简明而有意义的文字序列。遥感图像的文字说明生成任务极具挑战性，尤其是遥感数据集中图像数量的不足，使得这种基于深度学习的方法存在着严重的过拟合问题，也造成了该种方法的泛化能力不足。

发明内容

为了克服现有遥感图像文字说明生成方法存在过拟合现象的不足，本发明提供一种基于多尺度裁剪机制的遥感图像文字说明生成方法。该方法在数据集中的遥感图像输入CNN之前，对原始遥感图像按照多个不同的尺度裁剪为大小不一的图像块，再将裁剪后的图像块重新缩放到统一尺寸大小，输入到编码器-解码器模型中，从而使数据集得到扩充，同时使得CNN能更好地提取图像中的全局特征与局部特征，有效地减少因数据集中图像数量有限所造成的过拟合现象，进一步提高遥感图像文字说明生成任务的准确度。同时，通过裁剪多个尺度图像块进行训练，显著提高了模型的泛化能力。

本发明解决其技术问题所采用的技术方案：一种基于多尺度裁剪机制的遥感图像文字说明生成方法，其特点是包括以下步骤：

步骤一、定义缩放尺度比例值列表S。

S＝[s₁,s₂,...,s_n] (1)

式中，s_i(i＝1,2,...,n)表示列表中定义的一个比例值，n表示列表中比例值的总数。

步骤二、对输入图像进行处理，将输入图像缩放为固定尺寸大小d×d，从列表S中选取一个比例值s_i，将缩放为固定尺寸大小的图像根据所选取比例值进行裁剪。

d'＝d×s_i (2)

式中，d'表示裁剪后的图像块尺寸大小。

步骤三、利用卷积神经网络CNN对裁剪后的图像块进行特征提取。

v₀＝CNN(P_i) (3)

式中，P_i表示裁剪后的图像块，CNN(·)表示卷积神经网络过程，v₀表示一个固定长度的特征向量。

步骤四、利用长短期记忆网络LSTM生成相应的文字说明语句。

y＝{ω₁,ω₂,...,ω_t,...,ω_N},t∈{0,...,N} (4)

h_t＝g(h_t-1,v₀,ω_t-1) (5)

p_t＝softmax(h_t) (6)

式中，h_t表示t时刻LSTM的隐藏状态，ω_t表示一句文字说明语句y中对应的每一个单词，g(·)表示LSTM的过程，p_t表示h_t经过softmax函数后的下一个单词出现的概率。然后最小化目标句子的负似然函数Loss损失函数。

式中，ω_t表示一句文字说明语句y中对应的每一个单词，p_t表示下一个单词出现的概率。

本发明的有益效果是：该方法在数据集中的遥感图像输入CNN之前，对原始遥感图像按照多个不同的尺度裁剪为大小不一的图像块，再将裁剪后的图像块重新缩放到统一尺寸大小，输入到编码器-解码器模型中，从而使数据集得到扩充，同时使得CNN能更好地提取图像中的全局特征与局部特征，有效地减少因数据集中图像数量有限所造成的过拟合现象，进一步提高遥感图像文字说明生成任务的准确度。同时，通过裁剪多个尺度图像块进行训练，显著提高了模型的泛化能力。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于多尺度裁剪机制的遥感图像文字说明生成方法的流程图。

具体实施方式

参照图1。本发明基于多尺度裁剪机制的遥感图像文字说明生成方法具体步骤如下：

步骤一、定义缩放尺度比例值列表S：

S＝[s₁,s₂,...,s_n] (1)

式中，s_i(i＝1,2,...,n)表示列表中定义的一个比例值，取值范围是0～1，n表示列表中比例值的总数，实验中取S＝[1.0,0.875,0.66]。

步骤二、输入图像的多尺度裁剪。

对输入图像进行处理，将输入图像缩放为固定尺寸大小，从列表中选取一个比例值，将缩放为固定尺寸大小的图像根据所选取比例值进行裁剪。

d'＝d×s_i (2)

式中，d'表示裁剪后的图像块尺寸大小。d设置为224，因此，d'的取值为256、224和169。模型每次将从缩放比例值列表中随机选取一个比例值s_i，每幅图像将会根据该比例值被裁剪出十个图像块(分别是图像的中心，左上角，右上角，左下角和右下角，以及这五个图像块的竖直翻转图像块)。然后这些根据不同尺度随机剪裁出的大小不同的图像块将被重新放缩为统一尺寸大小，此处的重置大小设置为224×224。

v₀＝CNN(P_i) (3)

此处的卷积神经网络CNN是一种前馈神经网络，它由一个或多个卷积层和顶端的全连接层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。它能自动抽取出一些高级特征，缩短了特征提取的时间，具有很强的表达能力。本发明中所采用的CNN是提前在ImageNet数据集上进行预训练的，将最后一个全连接层进行替换后，用于将图像特征提取为固定长度的特征向量。通过将放缩处理后的图像块送入编码器模型中，能使得卷积神经网络(CNN)更好地同时提取到不同的全局特征和局部特征，从而增强模型的泛化能力，有效降低数据集过小带来的过拟合问题。

步骤四、生成文字说明语句。

利用长短期记忆网络LSTM生成相应的文字说明语句。

y＝{ω₁,ω₂,...,ω_t,...,ω_N},t∈{0,...,N} (4)

h_t＝g(h_t-1,v₀,ω_t-1) (5)

p_t＝softmax(h_t) (6)

式中，h_t表示t时刻LSTM的隐藏状态，ω_t表示一句文字说明语句y中对应的每一个单词，g(·)表示LSTM的过程，p_t表示h_t经过softmax函数后的下一个单词出现的概率。在t＝1时刻，特征向量v₀将作为LSTM的输入，逐个输出预测单词，最后最小化损失函数Loss函数，得到输入图像的文字说明语句，公式如下：

本发明的效果通过以下实验做进一步的说明。

1.实验条件。

本实验是在中央处理器为i5-3470 3.2GHz CPU、内存4G、Ubuntu 16.04操作系统上，采用Pytorch 1.0框架使用一块GPU进行实验。

实验使用两个用于遥感图像文字说明生成任务的专用数据集UCM-captions和Sydney-captions，这两个数据集由Qu等人在文献“B.Qu,X.Li,D.Tao,and X.Lu,DeepSemantic Understanding of High Resolution Remote Sensing Image.InternationalConference on Computer,Information and Telecommunication Systems,124-128,2016”中提出，其中UCM-captions包含21个种类的图像，每个种类有100幅图像，Sydney-captions数据集共有包含7个类别的2329幅图像，两个数据集中的每幅图像都有相对应的5句文字说明语句。该实验采用文字说明生成任务的一种常用评价标准BLEU，该评价标准是由Papineni等人在文献“K.Papineni,S.Roukos,T.Ward,and W.J.Zhu,Bleu:A Method forAutomatic Evaluation of Machine Translation.Association for ComputationalLinguistics,311-318,2002”中提出。

2.实验内容。

首先，分别在一个尺度，两个尺度，三个尺度下进行遥感图像的文字说明生成实验，通过对比采用不同尺度下实验的BLEU得分，证明该发明的有效性。同时，为了证明本方法的泛化能力，采用三个不同的CNN模型作为编码器提取图像特征进行实验。UCM-captions数据集实验结果参照表1，Sydney-captions数据集实验结果参照表2。

表1

表2

实验结果证明，本发明所采用的多尺度裁剪机制可以对数据集进行扩充，有效降低遥感图像数据集较小带来的过拟合问题，显著提高生成的文字说明语句得分。在三个不同CNN上的对比实验都表明了该发明的有效性，从而证明了该发明在不同模型上的良好泛化能力。

Claims

1.一种基于多尺度裁剪机制的遥感图像文字说明生成方法，其特征在于包括以下步骤：

步骤一、定义缩放尺度比例值列表S；

S＝[s₁,s₂,...,s_n] (1)

式中，s_i(i＝1,2,...,n)表示列表中定义的一个比例值，n表示列表中比例值的总数；

步骤二、对输入图像进行处理，将输入图像缩放为固定尺寸大小d×d，从列表S中选取一个比例值s_i，将缩放为固定尺寸大小的图像根据所选取比例值进行裁剪；

d'＝d×s_i (2)

式中，d'表示裁剪后的图像块尺寸大小；

步骤三、利用卷积神经网络CNN对裁剪后的图像块进行特征提取；

v₀＝CNN(P_i) (3)

式中，P_i表示裁剪后的图像块，CNN(·)表示卷积神经网络过程，v₀表示一个固定长度的特征向量；

步骤四、利用长短期记忆网络LSTM生成相应的文字说明语句；

y＝{ω₁,ω₂,...,ω_t,...,ω_N},t∈{0,...,N} (4)

h_t＝g(h_t-1,v₀,ω_t-1) (5)

p_t＝soft max(h_t) (6)

式中，h_t表示t时刻LSTM的隐藏状态，ω_t表示一句文字说明语句y中对应的每一个单词，g(·)表示LSTM的过程，p_t表示h_t经过soft max函数后的下一个单词出现的概率；然后最小化目标句子的负似然函数Loss损失函数；