CN110991284B

CN110991284B - 一种基于场景预分类的光学遥感图像语句描述生成方法

Info

Publication number: CN110991284B
Application number: CN201911155068.6A
Authority: CN
Inventors: 史振威; 马小锋; 赵睿; 陈科研; 张宁; 韩传钊; 章泉源; 朱新忠; 张瑞珏
Original assignee: Beihang University; Shanghai Spaceflight Electronic and Communication Equipment Research Institute
Current assignee: Beihang University; Shanghai Spaceflight Electronic and Communication Equipment Research Institute
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2022-10-18
Anticipated expiration: 2039-11-22
Also published as: CN110991284A

Abstract

本发明公开一种基于场景预分类的光学遥感图像语句描述生成方法，技术核心是将语句描述生成任务与场景预分类任务进行联合优化，从而提升模型的数据域适应性。该方法包含四个步骤：步骤一：制作数据集；步骤二：搭建网络模型；步骤三：分步训练网络模型；步骤四：遥感图像语句描述生成。本发明克服了现有技术的不足，很好地解决了遥感图像语句描述模型与遥感数据域的适应性问题，自动化程度和语句描述内容准确度均较高，具有广阔的应用前景和巨大的使用价值。

Description

一种基于场景预分类的光学遥感图像语句描述生成方法

技术领域

本发明涉及一种基于场景预分类的光学遥感图像语句描述生成方法，属于光学遥感图像语句描述自动生成技术领域。

背景技术

遥感(remote sensing)可以分为主动遥感和被动遥感，前者通过发射和回收信号来成像，而后者通过接收地物反射的太阳光来成像，光学遥感(optical remote sensing)一般指后者，指在紫外波段和红外波段的范围内，通过探测仪器远距离获取地物信息的技术。目前，光学遥感技术一般依靠星载和机载传感器来探测地物目标，受拍摄设备高度、拍摄角度以及传感器精度的影响，获取到的图像数据在分辨率、覆盖地物尺度等多个方面表现出不同于自然图像的特点，对相关处理技术有着更高的要求。光学遥感图像在民事和军事应用中均具有重要的作用，民事上主要用于气象预报、土地普查以及灾害评估等方面，军事上主要用于导弹预警、战场监测等方面。

图像语句描述生成(image caption)是指计算机通过分析输入图像的语义内容，包括场景、目标以及目标之间的关系，之后自动生成一句描述图像内容的语句的技术。相比于目标检测、图像分割等传统图像处理技术，该技术可以实现图像到描述语句的映射，功能上更接近人类的行为表现，具有更加广阔的应用场景，包括图像检索，智能交互以及情报自动生成等多个方面。其技术实现在数据集构建、模型搭建以及训练和测试等多个方面面临更大的困难和挑战。

卷积神经网络(convolutional neural network)是近年来发展非常迅速的神经网络模型之一，该网络在处理图像数据时具有天然的优势，解决了网络庞大臃肿、难以训练以及泛化能力差等诸多问题，在图像分类比赛中屡创佳绩，以ImageNet数据集分类任务为例，人类的Top5 error分类精度大致在5％到10％之间，自从2015年深度残差网络(residual neural network)提出之后，计算机的分类精度已经超越人类。在图像语句描述生成任务中，如何使用卷积神经网络提取高质的图像语义表示，仍是目前研究面临的一大难点。

循环神经网络(recurrent neural network)是处理序列数据最有效的神经网络模型，在语句生成任务中应用广泛。由于该模型在训练时存在梯度消失的问题，后经改进，变身为长短时记忆模型(long short-term memory，LSTM)，LSTM通过设计遗忘门、输入门以及输出门解决了梯度消失问题。目前在图像语句描述生成模型中，一般采用LSTM或其变体来生成描述图像的语句结果。

注意力机制(attention mechanism)是指人脑通过注意力聚焦来重点关注某一部分信息的机制，基于该机制构建的注意力模块在图像语句描述生成模型中扮演着重要的角色，该模块可以帮助模型在生成语句的单词时与图像进行语义对齐，从而得到更准确的描述结果。现有的注意力模块主要包括空间注意力模块、自适应注意力模块两种，本发明在此基础上提出了一种3D注意力结构，这种设计更适用于处理尺度不一的光学遥感图像数据。

场景分类(scene classification)技术是指计算机根据输入的图像判定图像所属场景类别的技术。由于光学遥感图像与自然图像相比，通常一张遥感图像只包含一种地物场景，如港口、山区等，对其进行场景分类有助于图像语句描述生成模型获取更加准确的语义信息，从而减轻语句生成部分的学习压力，进而得到一种更适合于光学遥感图像语句生成的模型。本发明就是基于这种思想，将场景分类任务与语句描述生成任务进行多任务联合，搭建了一种基于场景预分类的光学遥感图像语句描述生成模型，与领域内其它模型相比，该模型具有出色的性能表现。

发明内容

本发明的目的在于提供一种基于场景预分类的光学遥感图像语句描述生成方法，该方法从光学遥感图像的数据特点出发，结合场景分类技术，设计了一种更适用于光学遥感图像数据的语句描述生成方法，旨在通过赋予模型场景识别能力的同时提升模型对遥感数据域的适应能力。

本发明是通过以下技术方案实现的：

本发明是一种基于场景预分类的光学遥感图像语句描述生成方法，是一种针对光学遥感图像数据的语句描述自动生成方法。该方法的具体步骤如下：

步骤一：制作数据集。

首先准备图像语句描述数据集，数据集的图像数据大小为400×400～1000×1000(像素)之间，数据来源包括谷歌地球图像数据、高分一号及二号融合图像数据以及其他光学遥感数据源数据，数据包括三个通道，每张图像对应标注一句或一句以上的英文描述作为语句标签。之后对图像进行场景分类，以数字表示其场景类别。最后将这些信息统一记录在标注文件内。

步骤二：搭建网络模型。

该模型总共包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块等共计5个模块。数据输入模块主要包括数据预处理、搭建数据流等两个功能类；语义特征提取模块采用参数共享的方式，将输入图像映射成大小为49×2048的特征矩阵；场景分类模块主要包括分类预测层、交叉熵损失函数以及优化器等三个部分，用于训练场景分类任务；3D注意力模块是在空间注意力的基础上，增加了模型对不同尺度特征的应用能力；语句描述生成模块主要由LSTM和解码网络构成，用于预测生成的单词，其中，该模块还包含有一个用于测试阶段生成语句结果的功能函数，称为集束搜索函数，用于搜索得到最优的描述语句。

搭建整个网络模型的具体步骤如下：

S21、编写数据输入类：class DataSet()；

S22、构建特征提取网络：def build_feat()；

S23、构建场景分类分支：以步骤S22中的输出为输入，构建场景分类分支；

S24、3D注意力模块：该模块用于计算分配注意力的系数矢量；初始时间步采用步骤S22的输出和“<start>”常向量作为输入，在迭代过程中采用步骤S22和步骤S25的输出作为该模块的输入；

S5、构建语句描述生成分支：将步骤S22、S24的输出向量进行点乘作为当前步骤的图像内容输入，用于下一个时间步的迭代。

步骤三：训练整个模型。考虑到图像场景识别任务与语句描述任务是两个强相关的时序任务，因此，本发明先用数据集对场景分类分支进行预训练，在得到稳定的模型后，再对语句描述生成分支进行训练，最后对二者进行联合调优。特别的，在训练语句描述生成分支时，本发明将场景分类任务的结果用于其损失函数设计，对模型识别错误的数据对应的损失进行抑制，从而避免场景识别错误的数据给语句生成模块带来数据噪声干扰。

具体的，训练整个模型的过程如下：

S31、场景分类分支优化方法选择动量优化器；

S32、采用迁移模型图像语义特征提取网络的权重进行初始化；

S33、输入训练数据并通过前向传播得到场景分类结果；

S34、计算神经网络输出和标签之间的交叉熵损失；

S35、通过反向传播误差调整神经网络中的权重和偏置；重复步骤S32、S33、S34，直到迭代次数达到最大迭代次数，此时停止优化并保存网络模型参数；

S36、训练语句生成分支网络；

S37、计算计算预测单词的交叉熵损失；

S38、通过反向传播误差调整神经网络中的权重和偏置；

S39、重复步骤S36、S37、S38，直到迭代次数达到最大迭代次数，此时停止优化并保存网络模型参数；

S30、对模型所有参数进行微调优化并保存网络模型参数。

步骤四：光学遥感图像语句描述生成。本发明是一个端到端的模型，只需将要处理的图像的地址提供给模型接口，模型便可通过集束搜索的方式生成描述图像内容的语句。

本发明是一种基于场景预分类的光学遥感图像语句描述生成方法。本发明的优点是：通过采用3D注意力模块设计，可以实现多尺度下语义信息对齐，从而可以更加准确地描述图像内容；通过场景预分类的方式，可以使用遥感图像数据集对图像特征提取网络进行充分训练，从而提升模型对遥感图像数据域的适应性；通过增加场景分类分支，赋予模型场景识别能力，相比于只生成语句描述来讲，模型的可解释性更强；此外，遥感图像语句描述生成属于较新的研究领域，相比于传统的图像处理任务来讲，具有更广阔的应用空间。

附图说明

图1基于场景预分类的光学遥感图像语句描述生成模型结构图。

图2基于空间和通道注意力的场景分类特征处理流程图。

图3 3D注意力模块结构示意图。

图4基于场景预分类的光学遥感图像语句描述生成方法工作流程图。

图5a～5d光学遥感图像语句生成结果。

表1本发明图像语义特征提取网络参数设置。

表2本发明语句生成分支参数设置。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图对本发明的实施方式作进一步阐述：

本发明所依赖的系统环境是Windows 10，硬件配置主要有7700K 4核8线程CPU、GTX1080(显存11GB)GPU以及64GB内存；软件配置主要有深度学习框架TensorFlow，编程语言Python，编译器PyCharm，在该环境下可以高效地对神经网络进行训练和测试。具体的，首先进行数据接口、模型、训练函数、测试函数的编写，之后构建训练数据流，按照设定好的宏参进行模型训练和保存，之后便可以重新加载训练好的模型来生成图像的描述语句。

本发明所提出的基于场景预分类的光学遥感图像语句描述生成方法的整体模型结构如图1所示，3D注意力模块的结构如图2所示，场景预分类分支的特征处理模块如图3所示，整个模型的工作流程如图4所示。在训练时，首先采用ImageNet上训练好的模型参数对图像特征提取网络进行参数初始化，其他参数采用随机初始化方式；之后，根据数据的分类标签进行图像特征提取模块和场景分类分支的参数进行训练，训练完成后固定图像特征提取模块的参数，根据语句描述标签对语句生成模块进行参数训练；最后降低学习率，根据语句描述标签对图像特征提取模块和语句生成模块的所有参数进行微调，得到最终的模型。

本发明的一种基于场景预分类的光学遥感图像语句描述生成方法，包括如下步骤：

步骤一：制作数据集。本发明所需的输入数据包括大小为400×400～1000×1000(像素)之间由图像数据切片文件和记录场景分类编号、对应语句描述的标注文件。在制作过程中，为保证数据的全面性，需要从谷歌地球、高分1号、高分2号等多个数据源进行数据搜集，之后按照场景进行切片，场景类型不限；之后对图像进行语句标注，将图像数据分配给不同的人进行语句描述，最后将搜集的语句进行挑选，同一张图像的标注语句在1～5句之间，单词数为15个左右。

步骤二：搭建网络模型。首先进行数据接口的编写，之后编写模型文件，最后编写训练测试函数。

数据接口编写具体包括数据预处理和生成训练数据流两个功能函数，数据预处理包括图像随机增扩(包括加噪声、调整对比度、反转三种方式)、图像裁切和缩放(处理后图像大小为224×224像素)、规范化(在减去训练数据集的平均值后归一化)，生成训练数据流包括根据不同的训练任务按照批次返回图像数据和任务标签数据，支持随机打乱、迭代生成功能。

模型文件的编写主要是实现图1所示的模型。具体地，图像语义特征提取模块为去掉全连接层的ResNet50，其结构及各层输出如表1所示。图像场景分类分支包括一个基于空间和通道注意力的特征处理模块(图2)和一个Softmax层。语句描述生成分支由LSTM序列生成网络和一个包含两层隐含层的单词预测网络组成，采用自主设计的3D注意力模型结构，其具体结构如图3所示，参数设置如表2所示。对于3D注意力模块来讲，计算过程如下：

对于单个尺度的注意力模块，其计算过程如下：

其中，

为空间注意力系数，k＝1，2，3表示尺度编码，t表示时间步，

表示尺度k下的图像特征立方体，

表示LSTM在上一时间步的输出向量，

表示归一化后的注意力系数，L^k表示该尺度下的特征向量数，则该尺度下的图像特征为：

对于单词预测网络(Rst-Decoder)来讲，其输入主要来自两个方面，一个是t时间步时LSTM的输出向量，另一个是该时间步时图像的编码向量，计算方式如下：

则t时刻的预测输出为：

logits＝W_d1(W_d1cont_t+b_d1)+b_d2

P(w_t|I，w₀，w₁，...，w_t-1)＝Softmax(logits)

训练及测试函数的编写主要包括设置迭代次数、学习率、优化器等，负责将数据送入模型并进行计算。

表1

表2

步骤三：训练整个模型。根据步骤一中制作的数据集和步骤二中搭建的网络模型，可以利用TensorFlow深度学习框架对该神经网络进行训练，工作流程如图4所示。具体方法如下：

1、创建优化器。具体的，场景分类分支对应的优化器为动量优化器，初始学习率为0.05，学习率衰减步长为150，学习率衰减率为0.9，动量系数为0.9；语句描述分支优化器为均方根优化器(RMSProp)，初始学习率为0.01。

2、采用ImageNet训练好的模型参数初始化图像语义特征提取模块的参数，其他参数采用均匀分布对神经网络的权重进行初始化。对于每一个卷积层，其均值设置为0，方差设置为卷积核个数的倒数。

3、预先训练分类分支网络：训练输入训练数据并通过前向传播得到场景分类的预测结果。主要的运算包括三种，分别是卷积运算、池化运算和激活运算。池化运算即对输入的特征图像进行降采样操作。卷积运算和激活运算的计算公式如下(x^l表示第l层输入的特征图，w^l代表第l层的卷积核参数)：

卷积运算：x^l+1＝w^l*x^l

激活运算：

4、计算神经网络输出和标签之间的损失函数。本发明中使用交叉熵作为损失函数来指征神经网络输出的优劣，计算公式如下(p代表神经网络预测每一类的概率，

代表真实类别的概率，网络输出包含N个类别)：

5、通过反向传播误差调整神经网络中的权重和偏置。误差反向传播是链式法则的典型应用，实际计算时，只需要计算每一层的输入误差对权重和偏置的导数，再计算输入误差对输出误差的导数，即可逐层计算出权重和偏置的更新量。以上述第4步中损失函数为例，其反向传播时的计算公式如下：

重复2、3、4步，直到迭代次数达到最大迭代次数，此时停止优化并保存神经网络参数。

6、训练语句生成分支网络。加载步骤3到5训练好的场景分类分支网络参数并固定，训练数据并通过前向计算得到每个样本逐个单词的预测结果。

7、在预测完每个单词时计算预测单词的交叉熵损失，在每个句子最后一个单词预测完成后，将所有的预测损失进行加和作为单个样本的损失，假设语句的长度为L，则损失函数可以表示为以下形式：

其中，

为指示函数，定义如下：

即当场景预测正确时，样本的损失函数才会计入模型损失，否则当作数据噪声加以抑制。

8、通过反向传播更新模型参数，更新方式同步骤5一致。

9、重复6、7、8步，直到迭代次数达到最大迭代次数，此时停止优化并保存神经网络参数。

10、不再固定分类分支参数，降低学习率，微调模型所有参数。

步骤四：光学遥感图像语句描述生成。利用步骤三中训练好的网络模型对测试集中的图像语句描述生成。具体方法如下：1、将步骤三中网络模型参数载入TensorFlow深度学习框架。2、将测试数据输入神经网络中。3、数据前向传播得到语句描述生成结果。

实验结果：本发明使用了8000个带标注的遥感图像对作为训练数据，另外2000个未标注遥感影像对作为测试数据，测试结果样例如图5a～5d所示，从实验结果来看，本发明很好地解决了遥感图像的多尺度语义信息提取以及模型与数据域的适应性问题，可以生成准确描述图像内容的语句。

Claims

1.一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：该方法的具体步骤如下：

步骤一：制作数据集；

步骤二：搭建网络模型；该模型包括数据输入模块、语义特征提取模块、场景分类模块、3D注意力模块、语句描述生成模块；数据输入模块包括数据预处理、搭建数据流两个功能类；语义特征提取模块采用参数共享的方式，将输入图像映射成大小为49×2048的特征矩阵；场景分类模块包括分类预测层、交叉熵损失函数以及优化器，用于训练场景分类任务；3D注意力模块是在空间注意力的基础上，增加了模型对不同尺度特征的应用能力；语句描述生成模块由LSTM和解码网络构成，用于预测生成的单词；

步骤三：训练整个模型；先用数据集对场景分类分支进行预训练，在得到稳定的模型后，再对语句描述生成分支进行训练，最后对二者进行联合调优；在训练语句描述生成分支时，将场景分类任务的结果用于损失函数设计，对模型识别错误的数据对应的损失进行抑制，避免场景识别错误的数据给语句生成模块带来数据噪声干扰；

步骤四：光学遥感图像语句描述生成；模型通过集束搜索的方式生成描述图像内容的语句。

2.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：所述的语句描述生成模块，还包含有一个用于测试阶段生成语句结果的功能函数，称为集束搜索函数，用于搜索得到最优的描述语句。

3.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：所述步骤二搭建整个网络模型的具体步骤如下：

S21、编写数据输入类：class DataSet()；

S22、构建特征提取网络：defbuild_feat()；

S25 、构建语句描述生成分支：将步骤S22、S24的输出向量进行点乘作为当前步骤的图像内容输入，用于下一个时间步的迭代。

4.根据权利要求1所述的一种基于场景预分类的光学遥感图像语句描述生成方法，其特征在于：所述步骤三训练整个模型的过程如下：

S31、场景分类分支优化方法选择动量优化器；

S33、输入训练数据并通过前向传播得到场景分类结果；

S34、计算神经网络输出和标签之间的交叉熵损失；

S36、训练语句生成分支网络；

S37、计算预测单词的交叉熵损失；

S38、通过反向传播误差调整神经网络中的权重和偏置；

S40 、对模型所有参数进行微调优化并保存网络模型参数。