CN113792617B

CN113792617B - 一种结合图像信息和文本信息的图像解译方法

Info

Publication number: CN113792617B
Application number: CN202110988198.9A
Authority: CN
Inventors: 高辉; 王乾坤; 吕守业; 郑美; 吴正升; 王永刚; 崔晓杰
Original assignee: University of Electronic Science and Technology of China; Beijing Institute of Remote Sensing Information
Current assignee: University of Electronic Science and Technology of China; Beijing Institute of Remote Sensing Information
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2023-04-18
Anticipated expiration: 2041-08-26
Also published as: CN113792617A

Abstract

本发明公开了一种结合图像信息和文本信息的图像解译方法，将遥感图像分别进行空间信息与文本信息的提取，然后对提取到的空间特征和文本特征基于注意力机制的空间注意力模块和文本注意力模块进行信息加强；最后通过LSTM模型对加强后的空间信息和文本信息进行图像解译，这样实现了对图像信息和文本信息的充分利用，提高了遥感图像的解译效果。

Description

一种结合图像信息和文本信息的图像解译方法

技术领域

本发明属于图像处理技术领域，更为具体地讲，涉及一种结合图像信息和文本信息的图像解译方法。

背景技术

遥感图像包含丰富的信息，广泛应用于石油开采、水体保护、铁路建设、森林火灾检测等领域。

遥感图像是利用遥感卫星对地面场景进行拍摄得到的，因此其拍摄角度与一般图像具有明显不同，遥感图像主要时平面信息，人眼很难从图像中提取有效信息；另外，遥感图像还具有如下一些特点，少数的目标占据了遥感图像的绝大部分区域，使得其中较小目标信息难以提取，无法提取多种尺度下的图像信息；缺乏空间信息时很难在图片中分辨出具有平面相似性的目标。

除了内容上的区别，遥感图像的描述内容与公开数据集也存在很大差异，在遥感图像上侧重于描述图像中主要内容，而在公开数据集上更侧重于描述目标间的行为关系。

现有应用在高分辨率遥感图像的技术，更多是针对目标检测、场景分类等任务上，此类任务仅仅关注遥感图像特征层面的信息，而忽略了其在语义层面包含的丰富信息。采用现有遥感图像介意方法存在以下问题：不能获取图像的不同尺度下目标信息，也忽视了结合文本信息和空间信息。

发明内容

本发明的目的在于克服现有技术的不足，提供一种结合图像信息和文本信息的图像解译方法，通过全面利用图像信息和文本信息获取图像在不同尺度下的目标信息。

为实现上述发明目的，本发明一种结合图像信息和文本信息的图像解译方法，其特征在于，包括以下步骤：

(1)、对遥感图像预处理

下载带有图像标注的遥感图像集合，再对标注内容中的词汇错误和语法错误进行修正，修正完成后再对每一张遥感图像进行随机裁剪，裁剪后的图像调整为统一大小；

(2)、构造多标签数据集

(2.1)、为遥感图像集合设置一张词汇表W₀，初始化为空集；

(2.2)、对第i张遥感图像的标注内容进行分词处理，并通过词性分类工具进行词性分析，只保留其中的名词、动词、形容词，得到第i张图像的词汇集合w_i；最后将所有遥感图像的词汇集合汇并一起，得到词汇表W₀，

(2.3)、在词汇表W₀中，删去出现次数小于阈值的单词，在剩余的单词中将重复的单词只保留一个，从而得到只包含名词，动词，形容词且无重复词的词汇表，记为W；

(2.4)、基于词汇表W，构造一个只含有名词的词汇表子集，记为多标签集合L，满足

且L由W中全部的名词构成；

(2.5)、为每一张遥感图像设置多标签集合，其中，第i张感图像设置的多标签集合记为L_i，初始化为空；

依次判断w_i中的每个单词是否存在于多标签集合L，如果存在，则将该单词加入到该图像对应的多标签集合L_i中；

(3)、基于多尺度池化特征融合

利用神经网络VGG16对预处理后的遥感图像进行特征提取，得到维度为H×W×C的空间特征，记为V，其中，H为空间特征的高度，W为空间特征的宽度，C为空间特征的通道数；

对空间特征V从全局信息和多尺度空间信息进行不同尺度信息提取，在与原空间特征V进行拼接，得到融合后的多尺度池化特征，记为V_融；

其中，多尺度空间包括：尺度1、尺度2、尺度3和尺度4四个尺度空间；尺度1采用全局池化，将维度为H×W×C的空间特征转化为维度为1×1×C的空间特征；尺度2、尺度3、尺度4分别采用不同的池化滑动窗口，分别得到2×2×C、3×3×C和4×4×C维度的池化特征；

(4)、基于多标签分类器获取遥感图像的类别标签

对特征V_融进行全局平均池化操作，获取全局特征v₀，其中，全局特征v₀的第k个分量的计算方法为：

其中，V_融(i,j,k)表示空间特征在(i,j,k)位置的标量值

全局特征v₀经过全连接层后，得到特征v₁，v₁＝Wv₀+b，其中，W、b分别代表全连接层的权重参数和偏置项；

采用Sigmoid函数将全连接层的输出v₁进行归一化处理，得到每张遥感图像中每个标签属于当前图像的概率集合v₂，其中，第i个标签属于当前图像的概率为v₂(i)，最终得到遥感图像的多标签分类后的类别标签；

(5)、基于多标签分类器进行图像标签特征提取

设置概率阈值p；对概率集合v₂中每个概率值v₂(i)进行降序排列，选择概率大于p的对应标签作为图像标签特征；

(6)、结合空间注意力和文本注意力提取图像信息

对于每一张遥感图像，将多标签集合L_i中的单词按照词汇表W中出现的顺序构成文本，然后再对文本进行词嵌入，得到词向量矩阵T；

将词向量矩阵T通过文本注意力模块Tatt计算出基于注意力机制的文本特征w_t；

w_t＝Tatt(h_t-1,T)

其中，h_t-1代表前一时刻长短期记忆网络LSTM的隐藏层状态；

将图像空间特征V_融通过空间注意力模块Satt计算出基于注意力机制的空间特征z_t；

z_t＝Satt(h_t-1,V_融)

将基于注意力机制的空间特征z_t与文本特征w_t以及上一个时刻输出的单词E(y_t-1)一起作为当前时刻LSTM的输入，从而输出当前时刻的隐藏层单元的状态h_t；

x_t＝W_vz_t+W_tw_t+W_yE(y_t-1)

h_t＝LSTM(x_t,h_t-1)

其中，W_v,W_t,W_y分别代表LSTM中应用于空间特征的权值参数、文本特征的权值参数和上一时刻输出的权值参数；

最后，将w_t、z_t、h_t按照如下公式进行拼接，并计算当前时刻的解译单词的概率，其中，概率最大的单词即为解译结果；

P(y_t)＝softmax(W_o(W_ozz_t+W_oww_t+W_ohh_t+b_o))

其中，W_oz,W_ow,W_oh分别代表全连接层之前应用于z_t,w_t,h_t的权值参数，W_o、b_o分别代表全连接层的权值参数和偏置项。

本发明的发明目的是这样实现的：

本发明一种结合图像信息和文本信息的图像解译方法，将遥感图像分别进行空间信息与文本信息的提取，然后对提取到的空间特征和文本特征基于注意力机制的空间注意力模块和文本注意力模块进行信息加强；最后通过LSTM模型对加强后的空间信息和文本信息进行图像解译，这样实现了对图像信息和文本信息的充分利用，提高了遥感图像的解译效果。

同时，本发明一种结合图像信息和文本信息的图像解译方法还具有以下有益效果：

(1)、本发明在图像空间特征提取后加入了多尺度池化提取空间特征的不同尺度下的信息，再将多尺度空间特征与原特征进行特征融合，增强了空间特征在不同尺度的表达能力。

(2)、本发明通过空间注意力计算经过特征融合之后的图像空间信息，通过文本注意力计算出图像标注中提取到的多标签中的文本信息，兼顾图像空间信息和文本信息，提高了遥感图像解译的解译效果。

(3)、本发明对现有图像解译算法在编码阶段丢失大量图像细节信息，导致生成的解译内容不全面、语义信息利用率不高的问题，提出一种利用多标签分类任务提取遥感图像信息的编码方式，解决了基于单分类任务预训练的深度卷积网络在提取遥感图像特征时存在的问题。

(4)、本发明提出了一种结合空间注意力和文本注意力的多重注意力机制，采用了基于多尺度池化的特征融合方法，从不同层面提取遥感图像的全局信息、多尺度信息及通道信息，将多标签分类任务得到的多标签信息进行整合，作为与图像内容相关的文本信息，并结合图像空间特征信息与文本信息对整个解译过程进行指导，实现了对图像信息和文本信息的充分利用，在评价指标和解译效果上都得到提升。

附图说明

图1是本发明一种结合图像信息和文本信息的图像解译方法流程图；

图2是四幅遥感图像样例。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种结合图像信息和文本信息的图像解译方法流程图。

在本实施例中，如图1所示，本发明一种结合图像信息和文本信息的图像解译方法，包括以下步骤：

S1、对遥感图像预处理

目前用于图像解译的主要的开源数据集有UCM-Captions数据集、Sydney-Captions数据集与RSICD数据集。由于相较前两个数据集，RSICD的容量以及图像的类别数量，都更加更丰富。并且在构造文本数据时，参照了MSCOCO数据集的构造规则，所以本实施例中采用数据集RSICD。数据的预处理主要包括两个方面：为了确保解译效果不受错误的标注信息影响，对标注内容中的词汇错误和语法错误进行修正。为了增强内容多样性提升对小尺度目标的关注，对遥感图像进行随机裁剪；具体的来说，对于尺寸d×d的一张图像，裁剪系数s的取值在s＝[1.0,0.875,0.66]中随机挑选，裁剪之后的图像d'×d'其中，d'＝d×s，确定需要的d'之后，从原图像的左上、左下、右上、右下、中心区域依次拆建出大小为d'×d'的裁剪图像，然后再进行水平翻转或竖直翻转。为了方便，上述裁剪过程采用随机的方式进行，即随机挑选裁剪系数、区域以及翻转方式。为了统一图像的输入编码的尺寸，最终输入尺寸都调整为224×224。

S2、构造多标签数据集

图像的多标签信息需要具备与图像内容直接相关并且在标注的解释与剧中频繁出现的特点，在本实施例中，给定图像集，每张图像对应5条人工标注的解译语句，将5条解译语句按照如下方法进行处理，从而构建多标签图像数据集：

S2.1、为遥感图像集合设置一张词汇表W₀，初始化为空集；

S2.2、对第i张遥感图像的标注内容进行分词处理，并通过词性分类工具进行词性分析，只保留其中的名词、动词、形容词，得到第i张图像的词汇集合w_i；最后将所有遥感图像的词汇集合汇并一起，得到词汇表W₀，

S2.3、在词汇表W₀中，删去出现次数小于阈值5的单词，在剩余的单词中将重复的单词只保留一个，从而得到只包含名词，动词，形容词且无重复词的词汇表，记为W；

S2.4、基于词汇表W，构造一个只含有名词的词汇表子集，记为多标签集合L，满足

且L由W中全部的名词构成；

S2.5、为每一张遥感图像设置多标签集合，其中，第i张感图像设置的多标签集合记为L_i，初始化为空；

S3、基于多尺度池化特征融合

现有的多数图像解译算法通常直接将卷积神经网络提取到的特征作为图像的编码结果，但由于遥感图像的目标尺度不固定问题会导致忽视图像的多尺度信息。

在本实施例中，利用神经网络VGG16对预处理后的遥感图像进行特征提取，得到维度为H×W×C的空间特征，记为V，其中，H为空间特征的高度，W为空间特征的宽度，C为空间特征的通道数；

其中，多尺度空间包括：尺度1、尺度2、尺度3和尺度4四个尺度空间；尺度1采用全局池化，将维度为H×W×C的空间特征转化为维度为1×1×C的空间特征；尺度2、尺度3、尺度4分别采用不同的池化滑动窗口，分别得到2×2×C、3×3×C和4×4×C维度的池化特征；具体来说是从四个尺度上对空间特征进行平均池化，并将平均池化后的特征进行1×1卷积，对各尺度特征的通道数降维，降至原本尺度的四分之一。再通过双线性插值上采样将特征图转化为原大小然后将个尺度与原空间特征拼接，得到大小不变通道数加倍的多尺度特征融合后的增强空间特征，再通过1×1卷积，将通道数变换为原有通道数。

在本实施例中，采用VGG16的卷积层提取遥感图像空间特征，并使用NWPU-RESISC45数据集对VGG16进行微调，使之更适用于遥感图像。该数据集是西北工业大学遥感图像场景分类公开数据集。微调结束后，使用遥感图像解译数据集对微调后的模型进行进一步参数调整。通过四个尺度的多尺度池化特征融合加强图像特征，在训练图像解译模型阶段，对于输入的大小为224×224的遥感图像，VGG6提取的图像特征大小为14×14×512，多尺度池化分为四个尺度分支，尺度一通过全局平均池化得到特征为1×1×512，尺度二对应的池化滑动窗口为13×13×512，获得特征为2×2×512。尺度三的池化滑动窗口为12×12×512，获得池化特征维度为3×3×512，尺度四池化窗口大小为11×11×512获得特征为4×4×512，然后通过1×1卷积操作将四个尺度的池化特征通道数压缩为原本的四分之一，即通道数都降为128；再通过最近邻上采样方法和双线性插值上采样将四个尺度的特征图都转换为原空间特征大小，即14×14×128，将四个尺度的池化特征图与原本空间特征拼接得到14×14×1024，最后通过1×1池化，将拼接后的特征图通道数压缩到14×14×512，和原空间特征大小相同。

S4、基于多标签分类器获取遥感图像的类别标签

其中，V_融(i,j,k)表示空间特征在(i,j,k)位置的标量值

S5、基于多标签分类器进行图像标签特征提取

在本实施例中，基于多标签任务对图像进行特征提取，采用分离式训练来降低联合训练多标签分类任务与图像解译任务，依据多标签分类任务对VGG16进行微调，训练好之后作为多标签提取器和图像解译算法中的图像特征提取器。多标签分类器参数不再发生改变，图像特征提取器的参数随图像解译过程进行优化。仍然以表示经过特征融合和形状变换操作后的图像空间特征，用V_融表示提取的多标签信息，为了降低计算复杂度以及规范化的长度，对于每张图像，选择与图像最相关的k个标签作为图像的多标签结果，用T＝{t₁,t₂,…,t_k}表示将标签转换为词向量的结果。

对概率集合v₂中每个概率值v₂(i)进行降序排列，其每个分量的值都在[0,1]区间内，以0.8作为阈值，选择概率大于0.8的固定数量k个标签作为图像标签特征；

S6、结合空间注意力和文本注意力提取图像信息

w_t＝Tatt(h_t-1,T)

其中，h_t-1代表前一时刻长短期记忆网络LSTM的隐藏层状态；

z_t＝Satt(h_t-1,V_融)

x_t＝W_vz_t+W_tw_t+W_yE(y_t-1)

h_t＝LSTM(x_t,h_t-1)

P(y_t)＝softmax(W_o(W_ozz_t+W_oww_t+W_ohh_t+b_o))

实例

在本实施例中，采样图2所示的遥感图像样例，构造出表1所示的图像多标签，通过训练模型生成图像解译，其解译如表2所示。具体的操作过程为：在微调VGG16阶段，所有输入图像的尺寸被调整为224×224。分类过程中采用自适应学习率算法，初始学习率为0.01。训练过程中假如验证集上的损失在2个周期内没有下降，将学习率减半。采用早停方法来避免过拟合，当验证集上的分类准确率经过10个周期依旧没有上升时停止模型的训练。为了避免全程同时训练分类和解译模型带来的过拟合，取训练周期的前4/5部分对解码器参数进行优化，在后1/5部分再微调CNN的参数。LSTM内部特征维度为512，词向量采用在解译文本上训练的512维word2vec向量。训练过程采用自适应学习率算法(RMSProp)作为优化方法，初始学习设置为0.02，训练中每迭代16个epoch学习率降为原来的0.5倍。通过设置dropout来降低过拟合概率，CNN中和LSTM中的dropout分别设为0.15、0.3，clip gradient设置为5。mini batch设置为32，最大迭代次数设置为训练数据集容量的80倍。语句生成采用集束搜索(Beam Search)而非贪婪搜索的策略。Beam Search在生成每个单词时，保留前N个最好的结果，N设置为3，然后在后续的时间步重复该过程，最终得到3解译结果，选择其中概率最高的句子作为解译结果。

表1是图像多标签

表2是图像解译结果

图像	解译结果
		(a)	学校里的一些建筑和一个大操场。
(b)	道路上有许多汽车，路旁的教堂周围有一些绿色的树。
		(c)	有很多绿色的树的公园里停放着一些汽车。
(d)	一个水边的港口里有很多船。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种结合图像信息和文本信息的图像解译方法，其特征在于，包括以下步骤：

(1)、对遥感图像预处理

(2)、构造多标签数据集

(2.1)、为遥感图像集合设置一张词汇表W₀，初始化为空集；

(2.4)、基于词汇表W，构造一个只含有名词的词汇表子集，记为多标签集合L，满足且L由W中全部的名词构成；

(2.5)、为每一张遥感图像设置多标签集合，其中，第i张遥感图像设置的多标签集合记为L_i，初始化为空；

(3)、基于多尺度池化特征融合

对空间特征V从全局信息和多尺度空间信息进行不同尺度信息提取，再与原空间特征V进行拼接，得到融合后的多尺度池化特征，记为V_融；

(4)、基于多标签分类器获取遥感图像的类别标签

其中，V_融(i,j,k)表示空间特征在(i,j,k)位置的标量值

(5)、基于多标签分类器进行图像标签特征提取

(6)、结合空间注意力和文本注意力提取图像信息

w_t＝Tatt(h_t-1,T)

其中，h_t-1代表前一时刻长短期记忆网络LSTM的隐藏层状态；

z_t＝Satt(h_t-1,V_融)

x_t＝W_vz_t+W_tw_t+W_yE(y_t-1)

h_t＝LSTM(x_t,h_t-1)

P(y_t)＝softmax(W_o(W_ozz_t+W_oww_t+W_ohh_t+b_o))

2.根据权利要求1所述的一种结合图像信息和文本信息的图像解译方法，其特征在于，所述多尺度空间包括：尺度1、尺度2、尺度3和尺度4四个尺度空间；尺度1采用全局池化，将维度为H×W×C的空间特征转化为维度为1×1×C的空间特征；尺度2、尺度3、尺度4分别采用不同的池化滑动窗口，分别得到2×2×C、3×3×C和4×4×C维度的池化特征。