CN114220096A

CN114220096A - 一种基于图像描述的遥感图像语义理解方法

Info

Publication number: CN114220096A
Application number: CN202111551378.7A
Authority: CN
Inventors: 王俊; 李玉琳; 周焕来; 张洋; 钱孝伟; 刘博文; 李家伟; 贾海涛
Original assignee: Yituo Communications Group Co ltd
Current assignee: Yituo Communications Group Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-22

Abstract

本发明提出了一种基于图像描述的遥感图像语义理解方法。遥感图像含有丰富的地物信息，场景复杂繁多，且数据集难以制作，因而遥感图像的图像描述准确性低。对于遥感图像的分辨率高及目标尺度变化大的问题，在卷积神经网络中加入了通道注意力机制，通道注意力机制提升了局部相邻通道之间的信息交互；针对遥感图像数据集少的问题，通过连续词袋CBOW模型将描述信息中的单词转换为向量映射到同一个向量空间，从而获得描述信息的语义特征；由于传统的RNN循环神经网络在处理长短不一的文本时存在缺陷，采用GRU作为RNN的神经元节点，通过GRU模型进行遥感图像内容描述。基于图像描述的遥感图像语义理解方法对于遥感图像能够取得较好的描述效果。

Description

一种基于图像描述的遥感图像语义理解方法

技术领域

本发明涉及深度学习图像描述领域，尤其涉及一种基于图像描述的遥感图像语义理解方法。

背景技术

图像描述(image caption)是以图像为输出，通过模型和计算来生成对图像内容的自然语言描述，包括两个子任务：理解图像，正确获取图像相关信息；基于对图像的理解生成语言描述，属于计算机视觉和自然语言处理的交叉领域。

受机器翻译编码器-解码器(Encoder-Decoder)模型结构启发，图像描述采用深度学习方法。目前主流的深度学习模型采用端到端的方法训练，普遍使用多层卷积神经网络CNN作为编码器对图像中的目标特征提取并编码，使用循环神经网络RNN作为解码器对编码信息进行解码为语言描述，把图像描述任务视为一个从图像语言到自然语言的“翻译”任务。

图像描述具有深远的意义，在基于内容的图像检索、医疗图像分析、遥感图像分析等方面发挥了重大的作用。但目前仅能对图像进行基础的描述，生成的语句存在着语句不通顺或是逻辑性等问题。

随着航天科技、计算机科技、传感器技术、空间定位技术等相关技术的发展，现代遥感技术日益完善，它检测规模大，具有快速成像，高速传输，快速处理、迅速收集信息和实时检测等重要性质。遥感影像应用范围涵盖土地普查、地质调查、水利建设、石油勘探、地图测绘、环境检测、地震预报、铁路及公路选址、考古研究等诸多应用场景。

遥感影像往往通过机载或者星载传感器获取，单幅遥感影像含有及其丰富的地物信息，场景复杂繁多。它不仅包含单一的人造建筑物，如房屋、道路，也包含大面积的自然景物，如树木、农田、草地等。一幅遥感影像也可能包含这些地物中的一种或多种，因此在对其进行合理的语义描述时，首先需要对遥感影像进行高效的目标检测，而后对提取的图像特征进行合理的语言描述。目前的方法由于遥感图像信息量远超普通图像，数据集构建困难，从而导致图像的内容不能被语义信息准确描述。

因此，本发明设计了一种基于图像描述的遥感图像语义理解方法，通过卷积神经网络提取高分辨率遥感图像的视觉特征，通过CBOW模型进行语义特征提取，通过循环神经网络实现对高分辨遥感图像的描述。以此来解决遥感图像的重要内容难以准确进行描述的问题。

发明内容

本发明主要针对遥感图像在图像描述过程得到描述不准确的问题，提出一种基于图像描述的遥感图像语义理解方法。通过卷积神经网络提取高分辨率遥感图像的视觉特征，通过连续词袋模型(CBOW)进行语义特征提取，通过GRU循环神经网络实现对高分辨遥感图像的描述。基于图像描述的遥感图像语义理解方法主要包含三个步骤：图像全局特征提取、语义特征提取、图像语义描述。

本发明所采用的技术方案是：

步骤1：利用基于通道注意力机制的特征提取网络(ChannelAttention Network，CAN)进行图像的特征提取，CAN采用ResNet50作为主干网络，主要包含卷积层、池化层以及通道级注意力模块(ChannelAttention Module，CAM)；

步骤2：将描述信息中的每个单词表示为one-hot形式的向量，然后采用连续词袋CBOW模型将这些向量映射到同一个向量空间中，以获得图像描述信息的语义特征；

步骤3：将图像特征以及语义特征输入GRU循环神经网络，采用GRU作为循环神经网络的神经元节点，将特征转换为描述性语句的过程，得出最后的图像描述结果；

与现有技术相比，本发明的有益效果是：

(1)在遥感图像上，图像描述能够达到更高的准确精度；

(2)对于遥感图像数据集不足的缺陷，能够利用语义特征生成图像描述。

附表说明

图1为本发明的整体流程图。

图2为本发明的CAN特征提取结构图。

图3为本发明的CAM的结构图。

图4为本发明的连续词袋CBOW的结构图。

图5为本发明的GRU循环神经网络结构图。

图5为本发明的GRU结构图。

具体实施方式

下面将结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

如图1所示，本发明主要针对遥感图像描述生成不准确的问题，提出了基于图像描述的遥感图像语义理解方法。采用CAN卷积神经网络进行图像特征提取；采用CBOW模型进行语义的特征提取；利用GRU网络生成遥感图像的图像描述。具体实体方式如下：

步骤一：利用CAN进行图像特征提取

由于遥感图像的分辨率高及目标尺度变化大等特点，模型无法将自然场景下的编码器直接应用于遥感图像描述生成任务中。因此，本发明提出将CAN作为图像描述生成任务的编码器。

CAN采用ResNet50作为主干网络，主要包含卷积层、池化层以及通道级注意力模块(Channel Attention Module，CAM)。CAN的主要结构如图2所示。

经过训练的CNN分类器中的高层级卷积通道与语义相关，并且通常具有类别选择性。本发明希望显式地表示通道之间的相互依赖性，使其自适应地调整通道之间的特征响应。因此考虑到局部相邻通道之间的信息交流提出CAM，其结构如图3所示。

其中，X_i为ResNet50每个阶段输出的张量(i∈[1,4])，尺寸为C_i×H_i×W_i，H_i、W_i代表张量每个通道的高和宽，C_i代表张量的通道数，GAP与GMIP分别代表全局均值池化及全局最大值池化。将全局均值池化及全局最大值池化的输出加和得到特征f_i，在建立每个通道与类别之间联系的同时，增加对局部特征的响应。将特征f_i输入到1×1的卷积层中，经过sigmoid函数处理得到尺寸为1×1×C_i的注意力权重ω_i：

ω_i＝σ(conv(f_i)) (1)

其中，conv为1×1卷积运算，σ为sigmoid函数。ω_i与特征X_i的每个通道相乘，计算得到CAM的输出X_i-ATT：

X_i-ATT＝ω_i⊙X_i (2)

其中，⊙为逐元素乘积。

步骤二：利用CBOW模型进行语义特征提取

为了能将高分辨率遥感图像及其对应的语义描述信息共同输入到描述生成模型中，需要提取图像的语义特征。首先将描述信息中的每个单词表示为one-hot形式的向量，然后采用连续词袋CBOW模型将这些向量映射到同一个向量空间中，以获得图像描述信息的语义特征。

基于神经网络生成的词表示一般称为词向量、词嵌入(word embedding)，狭义上，与分布表示(distributional representation)相对，也称为分布式表示(distributedrepresentation)。该表示将词从高维空间分布式地映射到一个低维、稠密的实数向量上，向量的每一维代表单词的潜在特征，经过一定的训练算法后词义相近的词被投影到了相似的点空间，通过在这个空间中计算向量间的距离就可以判断它们在词义和语义上的相似性，是一种简单高效的文本语义特征表示方法。本发明采用word2vec提供的CBOW模型提取图像描述文本的语义特征，模型结构如图4所示。

假设S＝{w₁,w₂,...,w_N}是图像I对应的描述文本，其中，w_i表示S中的第i个词，N表示描述文本的长度。词向量训练的任务是预测w_i出现的概率p(w_i∣Content(w_i))，其中，Context(w_i)表示w_i的上下文词，训练目标是使p(w_i∣Content(w_i))的值最大化。取p(w_i∣Content(w_i))定义在整个语料库上的对数似然函数作为模型的目标函数：

其中，Context(w_i)_2c由w_i前后各c个词构成，p(w_i∣Context(w_i)_2c)代表w_i前后各c个词出现的概率。在CBOW模型的输入层中，w_i表示当前词，w_i-c,x_i-(c-1),...,x_i+(c-1),x_i+c表示当前词的上下文词，SUM表示上下文词的累加和；在投影层中，E∈R^N×K表示投影层向量矩阵，其中K表示词向量的维数；在输出层中，通过构建霍夫曼(Huffiman)树，并采用随机梯度上升算法对投影层向量E的结果进行预测，使得L_CBOW最大化，此时的E就是S的词向量矩阵，矩阵E的第i行e_i对应S中相应词w_i的词向量。最终可得图像I的描述文本语义特征：

Y＝{e₁,e₂,...,e_N},e_i∈R^K (4)

步骤三：利用GRU循环神经网络构建图像描述

利用GRU模型进行高分辨率遥感图像内容描述的过程是一种解码器的过程。编码器是将图像映射为向量表示的过程，而解码器为根据图像的特征，将特征转换为描述性语句的过程。GRU模型的网络结构如图5所示。

由于传统的RNN在处理长短不一的文本时存在缺陷，因此本发明采用GRU作为RNN的神经元节点。GRU在隐藏层节点之间加入连接，并用一个门循环单元来控制隐藏节点的输出，可以有效建模时间序列上的变化。通过这些门域的控制，GRU对长文本具有很好的学习能力，GRU的内部结构图如图4所示。

图6中，虚线表示t-1刻的隐藏节点的激活值，实心箭头表示这条连线上有乘以一个权重。其中，

表示当前隐藏节点的候选值，h_t表示当前隐藏节点输出的激活值。r_t表示重置门(Reset)，z_t表示更新门(Update)，在时刻，输入GRU网络中的序列元素x_t的状态可以通过式(5)-(8)计算：

z_t＝σ(U^zX_t+W²h_t-1) (5)

r_t＝σ(U^rX_t+W^vh_t-1) (6)

其中，σ表示sigmoid函数，U^z,W^z,U^r,W^r,U^h,W^h表示分别为更新门、重置门、状态单元的参数矩阵。符号

表示向量对应元素相乘的运算。从式(5)可以看出，重置门控制前一个节点信息h_t-1被保存的量，最后输出状态h_t由当前候选的隐藏状态

和前一个节点输出状态h_t-1，通过更新门z_t进行加权得到；从式(4)可以看出，当重置门r_t接近0时，表示忽略之前隐藏节点的信息，只将当前时刻的输入作为输入。这个机制可以使模型丢弃一些无用信息；从式(3)可以看出，更新门z_t会控制之前时刻的信息被带入到当前隐藏状态的程度，z_t越大，之前时刻隐藏节点提供的信息越多。每个隐藏单元都会有一个独立的重置门和更新门，每个隐藏单元都会自动学习到不同时间范围的依赖关系。一般来说，学习到短距离依赖关系隐藏节点的重置门会比较活跃，而学习到长距离依赖关系隐藏节点的更新门会更活跃。

本发明通过以上步骤，获取到了遥感图像的图像描述。

以上所述，仅为本发明的具体实施方式，本说明中所公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征或/和步骤外，均可以任何方式组合。

Claims

1.一种基于图像描述的遥感图像语义理解方法，其特征在于，包括以下步骤：

步骤1：利用基于通道注意力机制的特征提取网络(ChannelAttentionNetwork，CAN)进行图像的特征提取，CAN采用ResNet50作为主干网络，主要包含卷积层、池化层以及通道级注意力模块(ChannelAttentionModule，CAM)；

步骤3：将图像特征以及语义特征输入GRU循环神经网络，采用GRU作为RNN的神经元节点，将特征转换为描述性语句的过程，得出最后的图像描述结果。

2.如权利要求1所述方法，其特征在于，步骤1中的通道级注意力模块。

3.如权利要求1所述方法，其特征在于，步骤2中的利用CBOW模型进行语义特征提取方法。

4.如权利要求1所述方法，其特征在于，步骤3中的采用GRU作为RNN的神经元节点。