CN114220096A - 一种基于图像描述的遥感图像语义理解方法 - Google Patents

一种基于图像描述的遥感图像语义理解方法 Download PDF

Info

Publication number
CN114220096A
CN114220096A CN202111551378.7A CN202111551378A CN114220096A CN 114220096 A CN114220096 A CN 114220096A CN 202111551378 A CN202111551378 A CN 202111551378A CN 114220096 A CN114220096 A CN 114220096A
Authority
CN
China
Prior art keywords
image
remote sensing
description
sensing image
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111551378.7A
Other languages
English (en)
Inventor
王俊
李玉琳
周焕来
张洋
钱孝伟
刘博文
李家伟
贾海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yituo Communications Group Co ltd
Original Assignee
Yituo Communications Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yituo Communications Group Co ltd filed Critical Yituo Communications Group Co ltd
Priority to CN202111551378.7A priority Critical patent/CN114220096A/zh
Publication of CN114220096A publication Critical patent/CN114220096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于图像描述的遥感图像语义理解方法。遥感图像含有丰富的地物信息,场景复杂繁多,且数据集难以制作,因而遥感图像的图像描述准确性低。对于遥感图像的分辨率高及目标尺度变化大的问题,在卷积神经网络中加入了通道注意力机制,通道注意力机制提升了局部相邻通道之间的信息交互;针对遥感图像数据集少的问题,通过连续词袋CBOW模型将描述信息中的单词转换为向量映射到同一个向量空间,从而获得描述信息的语义特征;由于传统的RNN循环神经网络在处理长短不一的文本时存在缺陷,采用GRU作为RNN的神经元节点,通过GRU模型进行遥感图像内容描述。基于图像描述的遥感图像语义理解方法对于遥感图像能够取得较好的描述效果。

Description

一种基于图像描述的遥感图像语义理解方法
技术领域
本发明涉及深度学习图像描述领域,尤其涉及一种基于图像描述的遥感图像语义理解方法。
背景技术
图像描述(image caption)是以图像为输出,通过模型和计算来生成对图像内容的自然语言描述,包括两个子任务:理解图像,正确获取图像相关信息;基于对图像的理解生成语言描述,属于计算机视觉和自然语言处理的交叉领域。
受机器翻译编码器-解码器(Encoder-Decoder)模型结构启发,图像描述采用深度学习方法。目前主流的深度学习模型采用端到端的方法训练,普遍使用多层卷积神经网络CNN作为编码器对图像中的目标特征提取并编码,使用循环神经网络RNN作为解码器对编码信息进行解码为语言描述,把图像描述任务视为一个从图像语言到自然语言的“翻译”任务。
图像描述具有深远的意义,在基于内容的图像检索、医疗图像分析、遥感图像分析等方面发挥了重大的作用。但目前仅能对图像进行基础的描述,生成的语句存在着语句不通顺或是逻辑性等问题。
随着航天科技、计算机科技、传感器技术、空间定位技术等相关技术的发展,现代遥感技术日益完善,它检测规模大,具有快速成像,高速传输,快速处理、迅速收集信息和实时检测等重要性质。遥感影像应用范围涵盖土地普查、地质调查、水利建设、石油勘探、地图测绘、环境检测、地震预报、铁路及公路选址、考古研究等诸多应用场景。
遥感影像往往通过机载或者星载传感器获取,单幅遥感影像含有及其丰富的地物信息,场景复杂繁多。它不仅包含单一的人造建筑物,如房屋、道路,也包含大面积的自然景物,如树木、农田、草地等。一幅遥感影像也可能包含这些地物中的一种或多种,因此在对其进行合理的语义描述时,首先需要对遥感影像进行高效的目标检测,而后对提取的图像特征进行合理的语言描述。目前的方法由于遥感图像信息量远超普通图像,数据集构建困难,从而导致图像的内容不能被语义信息准确描述。
因此,本发明设计了一种基于图像描述的遥感图像语义理解方法,通过卷积神经网络提取高分辨率遥感图像的视觉特征,通过CBOW模型进行语义特征提取,通过循环神经网络实现对高分辨遥感图像的描述。以此来解决遥感图像的重要内容难以准确进行描述的问题。
发明内容
本发明主要针对遥感图像在图像描述过程得到描述不准确的问题,提出一种基于图像描述的遥感图像语义理解方法。通过卷积神经网络提取高分辨率遥感图像的视觉特征,通过连续词袋模型(CBOW)进行语义特征提取,通过GRU循环神经网络实现对高分辨遥感图像的描述。基于图像描述的遥感图像语义理解方法主要包含三个步骤:图像全局特征提取、语义特征提取、图像语义描述。
本发明所采用的技术方案是:
步骤1:利用基于通道注意力机制的特征提取网络(ChannelAttention Network,CAN)进行图像的特征提取,CAN采用ResNet50作为主干网络,主要包含卷积层、池化层以及通道级注意力模块(ChannelAttention Module,CAM);
步骤2:将描述信息中的每个单词表示为one-hot形式的向量,然后采用连续词袋CBOW模型将这些向量映射到同一个向量空间中,以获得图像描述信息的语义特征;
步骤3:将图像特征以及语义特征输入GRU循环神经网络,采用GRU作为循环神经网络的神经元节点,将特征转换为描述性语句的过程,得出最后的图像描述结果;
与现有技术相比,本发明的有益效果是:
(1)在遥感图像上,图像描述能够达到更高的准确精度;
(2)对于遥感图像数据集不足的缺陷,能够利用语义特征生成图像描述。
附表说明
图1为本发明的整体流程图。
图2为本发明的CAN特征提取结构图。
图3为本发明的CAM的结构图。
图4为本发明的连续词袋CBOW的结构图。
图5为本发明的GRU循环神经网络结构图。
图5为本发明的GRU结构图。
具体实施方式
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
如图1所示,本发明主要针对遥感图像描述生成不准确的问题,提出了基于图像描述的遥感图像语义理解方法。采用CAN卷积神经网络进行图像特征提取;采用CBOW模型进行语义的特征提取;利用GRU网络生成遥感图像的图像描述。具体实体方式如下:
步骤一:利用CAN进行图像特征提取
由于遥感图像的分辨率高及目标尺度变化大等特点,模型无法将自然场景下的编码器直接应用于遥感图像描述生成任务中。因此,本发明提出将CAN作为图像描述生成任务的编码器。
CAN采用ResNet50作为主干网络,主要包含卷积层、池化层以及通道级注意力模块(Channel Attention Module,CAM)。CAN的主要结构如图2所示。
经过训练的CNN分类器中的高层级卷积通道与语义相关,并且通常具有类别选择性。本发明希望显式地表示通道之间的相互依赖性,使其自适应地调整通道之间的特征响应。因此考虑到局部相邻通道之间的信息交流提出CAM,其结构如图3所示。
其中,Xi为ResNet50每个阶段输出的张量(i∈[1,4]),尺寸为Ci×Hi×Wi,Hi、Wi代表张量每个通道的高和宽,Ci代表张量的通道数,GAP与GMIP分别代表全局均值池化及全局最大值池化。将全局均值池化及全局最大值池化的输出加和得到特征fi,在建立每个通道与类别之间联系的同时,增加对局部特征的响应。将特征fi输入到1×1的卷积层中,经过sigmoid函数处理得到尺寸为1×1×Ci的注意力权重ωi
ωi=σ(conv(fi)) (1)
其中,conv为1×1卷积运算,σ为sigmoid函数。ωi与特征Xi的每个通道相乘,计算得到CAM的输出Xi-ATT
Xi-ATT=ωi⊙Xi (2)
其中,⊙为逐元素乘积。
步骤二:利用CBOW模型进行语义特征提取
为了能将高分辨率遥感图像及其对应的语义描述信息共同输入到描述生成模型中,需要提取图像的语义特征。首先将描述信息中的每个单词表示为one-hot形式的向量,然后采用连续词袋CBOW模型将这些向量映射到同一个向量空间中,以获得图像描述信息的语义特征。
基于神经网络生成的词表示一般称为词向量、词嵌入(word embedding),狭义上,与分布表示(distributional representation)相对,也称为分布式表示(distributedrepresentation)。该表示将词从高维空间分布式地映射到一个低维、稠密的实数向量上,向量的每一维代表单词的潜在特征,经过一定的训练算法后词义相近的词被投影到了相似的点空间,通过在这个空间中计算向量间的距离就可以判断它们在词义和语义上的相似性,是一种简单高效的文本语义特征表示方法。本发明采用word2vec提供的CBOW模型提取图像描述文本的语义特征,模型结构如图4所示。
假设S={w1,w2,...,wN}是图像I对应的描述文本,其中,wi表示S中的第i个词,N表示描述文本的长度。词向量训练的任务是预测wi出现的概率p(wi∣Content(wi)),其中,Context(wi)表示wi的上下文词,训练目标是使p(wi∣Content(wi))的值最大化。取p(wi∣Content(wi))定义在整个语料库上的对数似然函数作为模型的目标函数:
Figure BDA0003422663160000041
其中,Context(wi)2c由wi前后各c个词构成,p(wi∣Context(wi)2c)代表wi前后各c个词出现的概率。在CBOW模型的输入层中,wi表示当前词,wi-c,xi-(c-1),...,xi+(c-1),xi+c表示当前词的上下文词,SUM表示上下文词的累加和;在投影层中,E∈RN×K表示投影层向量矩阵,其中K表示词向量的维数;在输出层中,通过构建霍夫曼(Huffiman)树,并采用随机梯度上升算法对投影层向量E的结果进行预测,使得LCBOW最大化,此时的E就是S的词向量矩阵,矩阵E的第i行ei对应S中相应词wi的词向量。最终可得图像I的描述文本语义特征:
Y={e1,e2,...,eN},ei∈RK (4)
步骤三:利用GRU循环神经网络构建图像描述
利用GRU模型进行高分辨率遥感图像内容描述的过程是一种解码器的过程。编码器是将图像映射为向量表示的过程,而解码器为根据图像的特征,将特征转换为描述性语句的过程。GRU模型的网络结构如图5所示。
由于传统的RNN在处理长短不一的文本时存在缺陷,因此本发明采用GRU作为RNN的神经元节点。GRU在隐藏层节点之间加入连接,并用一个门循环单元来控制隐藏节点的输出,可以有效建模时间序列上的变化。通过这些门域的控制,GRU对长文本具有很好的学习能力,GRU的内部结构图如图4所示。
图6中,虚线表示t-1刻的隐藏节点的激活值,实心箭头表示这条连线上有乘以一个权重。其中,
Figure BDA0003422663160000051
表示当前隐藏节点的候选值,ht表示当前隐藏节点输出的激活值。rt表示重置门(Reset),zt表示更新门(Update),在时刻,输入GRU网络中的序列元素xt的状态可以通过式(5)-(8)计算:
zt=σ(UzXt+W2ht-1) (5)
rt=σ(UrXt+Wvht-1) (6)
Figure BDA0003422663160000052
Figure BDA0003422663160000053
其中,σ表示sigmoid函数,Uz,Wz,Ur,Wr,Uh,Wh表示分别为更新门、重置门、状态单元的参数矩阵。符号
Figure BDA0003422663160000054
表示向量对应元素相乘的运算。从式(5)可以看出,重置门控制前一个节点信息ht-1被保存的量,最后输出状态ht由当前候选的隐藏状态
Figure BDA0003422663160000055
和前一个节点输出状态ht-1,通过更新门zt进行加权得到;从式(4)可以看出,当重置门rt接近0时,表示忽略之前隐藏节点的信息,只将当前时刻的输入作为输入。这个机制可以使模型丢弃一些无用信息;从式(3)可以看出,更新门zt会控制之前时刻的信息被带入到当前隐藏状态的程度,zt越大,之前时刻隐藏节点提供的信息越多。每个隐藏单元都会有一个独立的重置门和更新门,每个隐藏单元都会自动学习到不同时间范围的依赖关系。一般来说,学习到短距离依赖关系隐藏节点的重置门会比较活跃,而学习到长距离依赖关系隐藏节点的更新门会更活跃。
本发明通过以上步骤,获取到了遥感图像的图像描述。
以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。

Claims (4)

1.一种基于图像描述的遥感图像语义理解方法,其特征在于,包括以下步骤:
步骤1:利用基于通道注意力机制的特征提取网络(ChannelAttentionNetwork,CAN)进行图像的特征提取,CAN采用ResNet50作为主干网络,主要包含卷积层、池化层以及通道级注意力模块(ChannelAttentionModule,CAM);
步骤2:将描述信息中的每个单词表示为one-hot形式的向量,然后采用连续词袋CBOW模型将这些向量映射到同一个向量空间中,以获得图像描述信息的语义特征;
步骤3:将图像特征以及语义特征输入GRU循环神经网络,采用GRU作为RNN的神经元节点,将特征转换为描述性语句的过程,得出最后的图像描述结果。
2.如权利要求1所述方法,其特征在于,步骤1中的通道级注意力模块。
3.如权利要求1所述方法,其特征在于,步骤2中的利用CBOW模型进行语义特征提取方法。
4.如权利要求1所述方法,其特征在于,步骤3中的采用GRU作为RNN的神经元节点。
CN202111551378.7A 2021-12-21 2021-12-21 一种基于图像描述的遥感图像语义理解方法 Pending CN114220096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111551378.7A CN114220096A (zh) 2021-12-21 2021-12-21 一种基于图像描述的遥感图像语义理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111551378.7A CN114220096A (zh) 2021-12-21 2021-12-21 一种基于图像描述的遥感图像语义理解方法

Publications (1)

Publication Number Publication Date
CN114220096A true CN114220096A (zh) 2022-03-22

Family

ID=80703558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111551378.7A Pending CN114220096A (zh) 2021-12-21 2021-12-21 一种基于图像描述的遥感图像语义理解方法

Country Status (1)

Country Link
CN (1) CN114220096A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563313A (zh) * 2023-07-11 2023-08-08 安徽大学 基于门控融合注意力的遥感影像大豆种植区域分割方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563313A (zh) * 2023-07-11 2023-08-08 安徽大学 基于门控融合注意力的遥感影像大豆种植区域分割方法
CN116563313B (zh) * 2023-07-11 2023-09-19 安徽大学 基于门控融合注意力的遥感影像大豆种植区域分割方法

Similar Documents

Publication Publication Date Title
CN111612066B (zh) 基于深度融合的卷积神经网络的遥感图像分类方法
CN111612243B (zh) 交通速度预测方法、系统及存储介质
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN114092832B (zh) 一种基于并联混合卷积网络的高分辨率遥感影像分类方法
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN113535904A (zh) 一种基于图神经网络的方面级情感分析方法
CN111339407B (zh) 一种信息抽取云平台的实现方法
CN111723660A (zh) 一种用于长形地面目标检测网络的检测方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN115376317A (zh) 一种基于动态图卷积和时序卷积网络的交通流预测方法
Zheng et al. Dynamically Route Hierarchical Structure Representation to Attentive Capsule for Text Classification.
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN114220096A (zh) 一种基于图像描述的遥感图像语义理解方法
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
CN114511787A (zh) 一种基于神经网络的遥感图像地物信息生成方法及其系统
CN114821337B (zh) 基于时相一致性伪标签的半监督sar图像建筑区提取方法
CN114511813B (zh) 视频语义描述方法及装置
CN116258504A (zh) 银行客户关系管理系统及其方法
Tian et al. Scene graph generation by multi-level semantic tasks
CN112598065B (zh) 一种基于记忆的门控卷积神经网络语义处理系统及方法
CN114970519A (zh) 一种基于数据分词的车流量数据处理方法
CN112396099A (zh) 一种基于深度学习和信息融合的点击率预估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination