CN113192030A - 一种遥感图像描述生成方法及系统 - Google Patents

一种遥感图像描述生成方法及系统 Download PDF

Info

Publication number
CN113192030A
CN113192030A CN202110475173.9A CN202110475173A CN113192030A CN 113192030 A CN113192030 A CN 113192030A CN 202110475173 A CN202110475173 A CN 202110475173A CN 113192030 A CN113192030 A CN 113192030A
Authority
CN
China
Prior art keywords
remote sensing
sensing image
level
visual
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110475173.9A
Other languages
English (en)
Other versions
CN113192030B (zh
Inventor
程起敏
许圆
邵丽媛
李丹
周玉琢
甘德樵
黄海燕
黄小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110475173.9A priority Critical patent/CN113192030B/zh
Publication of CN113192030A publication Critical patent/CN113192030A/zh
Application granted granted Critical
Publication of CN113192030B publication Critical patent/CN113192030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种遥感图像描述生成方法及系统,包括:利用深度学习技术提取待描述遥感图像的多层次视觉特征;基于待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到待描述遥感图像的多级特征;基于待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到待描述遥感图像的上下文特征;基于待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到待描述遥感图像的高级语义特征;将待描述遥感图像的高级语义特征输入到训练好的语言模型,得到待描述遥感图像的描述语句。本发明能够获得具有尺度、位置、上下文信息的视觉特征表达,从而提高遥感图像描述生成模型的准确性。

Description

一种遥感图像描述生成方法及系统
技术领域
本发明属于遥感图像理解领域,更具体地,涉及一种遥感图像描述生成方法及系统。
背景技术
随着对地观测技术的发展,可获取的遥感数据呈爆发式增长,人类已进入遥感大数据时代。高分辨率遥感图像作为最重要的遥感数据源类型,呈现出多样性、复杂性和海量性特点;而传统的数据处理和分析方法难以满足遥感大数据处理和分析的高精度、实时性及多样化需求。如何利用新兴的科学技术和手段,从具有时空复杂性和海量多样性特点的遥感大数据中智能、准确、高效地检索和挖掘出隐藏的信息和知识,实现从数据到知识的转化,是遥感大数据处理和分析面临的挑战,也是遥感图像处理领域亟待解决的科学问题。
遥感图像描述生成就是让计算机试图理解遥感图像并生成符合遥感图像语义内容的自然语言描述的过程,涵盖计算机视觉和自然语言处理两大研究方向,已经成为人工智能领域的研究热点,可应用于生物、医学、商业、军事、教育、数字图书馆等众多领域,如人机交互、早期教育、辅助视障人士阅读、视频智能过滤等,其中最典型的应用之一就是搜索引擎中的遥感图像检索。
尽管在过去的几十年里,特别是近几年,很多计算机视觉任务如自动标注、目标检测和识别、语义分割、场景分类等都取得了显著的成果。然而,让计算机模拟人类的视觉和认知、并且用符合人类规范的自然语言描述一幅遥感图像所包含的丰富语义信息,从而为用户提供有价值的信息,仍是极富挑战性的工作。这是因为遥感图像描述生成与以上计算机视觉任务相比,其目标是要产生准确自然、新颖灵活、词汇丰富的综合性描述语句,而不仅仅是预测一个或多个标签;综合性描述语句中除了包含遥感图像的目标及其所属的语义类别,还应该包含目标的属性信息以及目标之间的相互关系,并根据遥感图像所包含目标之间的相关性具备一定的推理功能。而遥感图像数据的尺度模糊性、类别模糊性和旋转歧义性等特点,更是增加了这一工作的难度。
传统遥感图像描述生成的两种主要方法有:基于模板的方法和基于检索的方法。其中基于模板的方法是根据遥感图像提取的对象、属性以及关系等填入由人为规定的一系列句法模板中留白的部分。这种方法可以确保语句在语义和语法上的正确性,但这种固定语句模式的方式不能产生多样化的输出,并且计算效率较低。基于检索的方法是将图像的描述语句放置在一个集合中,然后通过对比待描述的遥感图像与集合中的参考语句(人工标注)之间的相似度得到一组候选句集,再根据相关排序策略选择最佳的描述语句。该方法确保了语句在语法上的正确性,但是不能确保语义上的正确性,而且其性能主要依赖于检索结果,无法产生新的描述语句以及不能准确地描述新的遥感图像。
随着深度学习技术在遥感图像领域的蓬勃,很多研究人员将其应用于遥感图像描述生成中。基于深度学习的遥感图像描述生成方法的工作原理:首先将输入遥感图像通过卷积神经网络(Convolutional Neural Networks,CNN)进行特征提取,然后将提取的图像特征向量作为输入传递到语言模型,循环神经网络(Recurrent Neural Network,RNN)或长短期记忆网络(Long Short-Term Memory,LSTM),来生成丰富的描述语句。但由于遥感图像自身存在的大场景成像、背景复杂多样、多尺度、旋转特性以及语义歧义问题,加大了遥感图像描述生成的难度。基本的编解码架构难以捉到遥感图像中细粒度的视觉特征,另外难以学习图文之间的复杂对应关系,在一定程度上限制了图像描述生成模型的性能。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种遥感图像描述生成方法及系统,旨在解决复杂场景下遥感图像的语义难描述的问题。
为实现上述目的,第一方面,本发明提供了一种遥感图像描述生成方法,包括如下步骤:
利用深度学习技术提取待描述遥感图像的多层次视觉特征;
基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征;
基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;
基于所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征;
将所述待描述遥感图像的高级语义特征输入到训练好的语言模型,得到所述待描述遥感图像的描述语句;所述语言模型基于遥感图像的高级语义特征生成遥感图像的描述语句。
在一个可选的示例中,所述利用深度学习技术提取待描述遥感图像的多层次视觉特征,具体为:
利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型;所述图像视觉特征提取网络模型用于提取输入遥感图像的多层次视觉特征;
基于遥感图像数据集对所述图像视觉特征提取模型进行训练;所述遥感图像数据集包括:用于模型训练的遥感图像和其对应的多层次视觉特征;
基于训练好的图像视觉特征提取模型提取所述待描述遥感图像的多层次视觉特征;计算方法如下:
Fc=CNNfc(I)
FL1=CNNconv4(I)
FL2=CNNconv5(I)
Vml=concat(FL1,upsample(FL2))
其中,I为输入图像,Fc是CNN全连接层的特征,FL1和FL2分别表示CNN的卷积层4和卷积层5的视觉特征,concat表示连接函数,upsample表示上采样,Vml是所述待描述遥感图像的多层次视觉特征。
在一个可选的示例中,所述基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征,具体为:
利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征;利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征;计算方法如下:
Figure BDA0003046727610000041
Figure BDA0003046727610000042
Figure BDA0003046727610000043
其中,Vml是所述待描述遥感图像的多层次视觉特征,α和β分别对应空间注意力权重和通道注意力权重,Ws
Figure BDA0003046727610000044
Whs
Figure BDA0003046727610000045
Wi
Figure BDA0003046727610000046
是将CNN卷积层的特征图和所述语言模型的长短期记忆网络LSTM的隐藏状态h转换为同一维度的矩阵,bi、b′i、bs、bc是权重偏置,
Figure BDA0003046727610000047
是第i个区域和t时刻的空间注意力权重,
Figure BDA0003046727610000048
是待描述遥感图像的多层次视觉特征的第i个区域,Fml是所述待描述遥感图像的多级特征。
在一个可选的示例中,所述基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征,具体为:
eij=a(si-1,Wshconcat(Vml,WcFc))
Figure BDA0003046727610000051
Figure BDA0003046727610000052
其中,eij为中间变量,si-1为第i-1个的标签语句对应的单词,a(·)为对齐模型,Fc为CNN网络的全连接层,Wsh为维度调整因子,Wc为上下文的权重,权重αij可根据所述待描述遥感图像的第j个区域与生成的句子中第i-1个单词的关联性计算得到,hj为LSTM的隐藏状态,Fcon为所述待描述遥感图像的上下文特征。
在一个可选的示例中,所述利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征,具体为:
zt=Whtanh(WstVml+Whtht)
βt=softmax(concat(zt,Whtanh(Wstst+Whtht)))
Fs=βtst-1+(1-βt)zt
其中,Wh、Wst和Wht是可学习的权重,βt代表对应于遥感图像区域特征向量的注意力权重,ht为LSTM的t时刻隐藏状态,zt为中间变量,st为t时刻的标签语句对应的单词,Fs为所述待描述遥感图像的高级语义特征。
在一个可选的示例中,所述遥感图像描述生成方法的所有步骤可以通过遥感图像描述生成模型实现;其中,所述图像视觉特征提取网络模型和语言模型属于遥感图像描述生成模型中的一个组成部分,其他各个步骤可通过相应的模型实现;
采用以下损失函数训练所述遥感图像描述生成模型:
st=softmax(Wsht)
Figure BDA0003046727610000061
其中,Ws为学习的权重,ht为LSTM的t时刻隐藏状态,pθ为时刻t模型预测的单词概率,st为t时刻语言模型预测的单词概率,
Figure BDA0003046727610000062
为长度为l的标签语句对应的单词,l=1,2…L。
第二方面,本发明提供了一种遥感图像描述生成系统,包括:遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块;
所述遥感图像特征提取模块,用于利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型,以提取待描述遥感图像的多层次视觉特征;
所述多级注意力模块,用于基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征;
所述上下文注意力模块,用于基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;
所述视觉自适应模块,用于基于所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征;
所述语言模型模块,用于基于所述待描述遥感图像的高级语义特征生成待描述遥感图像的描述语句。
在一个可选的示例中,所述多级注意力模块利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征;利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征;计算方法如下:
Figure BDA0003046727610000071
Figure BDA0003046727610000072
Figure BDA0003046727610000073
其中,Vml是所述待描述遥感图像的多层次视觉特征,α和β分别对应空间注意力权重和通道注意力权重,Ws
Figure BDA0003046727610000074
Whs
Figure BDA0003046727610000075
Wi
Figure BDA0003046727610000076
是将CNN卷积层的特征图和所述语言模型的长短期记忆网络LSTM的隐藏状态h转换为同一维度的矩阵,bi、b′i、bs、bc是权重偏置,
Figure BDA0003046727610000077
是第i个区域和t时刻的空间注意力权重,
Figure BDA0003046727610000078
是待描述遥感图像的多层次视觉特征的第i个区域,Fml是所述待描述遥感图像的多级特征。
在一个可选的示例中,所述上下文注意力模块基于所述待描述遥感图像的多层次视觉特征,利上下文注意力模块得到所述待描述遥感图像的上下文特征,具体为:
具体为:
eij=a(si-1,Wshconcat(Vml,WcFc))
Figure BDA0003046727610000079
Figure BDA00030467276100000710
其中,eij为中间变量,si-1为第i-1个的标签语句对应的单词,a(·)为对齐模型,Fc为CNN网络的全连接层,Wsh为维度调整因子,Wc为上下文的权重,权重αij可根据所述待描述遥感图像的第j个区域与生成的句子中第i-1个单词的关联性计算得到,hj为LSTM的隐藏状态,Fcon为所述待描述遥感图像的上下文特征。
在一个可选的示例中,所述视觉自适应模块利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征,具体为:
zt=Whtanh(WstVml+Whtht)
βt=softmax(concat(zt,Whtanh(Wstst+Whtht)))
Fs=βtst-1+(1-βt)zt
其中,Wh、Wst和Wht是可学习的权重,βt代表对应于遥感图像区域特征向量的注意力权重,ht为LSTM的t时刻隐藏状态,zt为中间变量,st为t时刻的标签语句对应的单词,Fs为所述待描述遥感图像的高级语义特征。
可以理解的是,本发明可以将遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块归总为遥感图像描述生成模型,上述各个模块属于遥感图像描述生成模型中的一部分。且其中可将遥感图像特征提取模块、多级注意力模块和上下文注意力模块归纳到图像编码端,将视觉自适应模块和语言模型模块归纳到文本解码端;而图像编码端和文本解码端共同组成遥感图像描述生成模型。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种遥感图像描述生成方法及系统,在图像编码端首先通过深度学习技术提取遥感图像的多层次视觉特征;然后利用多级注意力机制和上下文注意力机制提取具有尺度和位置信息的多级特征和具有全局上下文信息的上下文特征。通过注意力机制实现局部特征和全局特征之间的信息互补,从而得到更鲁棒的遥感图像视觉特征。本发明能够获得具有尺度、位置、上下文信息的视觉特征表达,从而提高遥感图像描述生成模型的准确性。
本发明提供一种遥感图像描述生成方法及系统,在文本解码端,为了学习图文之间的对应关系,通过将引入视觉哨兵机制对提取的高级视觉特征进行进一步的调整,以尽可能多地过滤掉不必要的信息,保留语义丰富的部分,最终获得具有足够通用语义和判别力的高级语义特征,从而提高遥感图像描述生成模型的性能和描述语句的多样性。
附图说明
图1是本发明实施例提供的遥感图像描述生成方法流程图;
图2为本发明实施例提供的遥感图像描述生成系统架构图;
图3为本发明实施例提供的复杂场景遥感图像。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
针对现有技术的以上缺陷或改进需求,本发明提供了一种遥感图像描述生成方法和系统,其目的在于提高遥感图像描述生成模型的性能。
为实现上述目的,图1是本发明实施例提供的遥感图像描述生成方法流程图,如图1所示,包括如下步骤:
S101,利用深度学习技术提取待描述遥感图像的多层次视觉特征;
在一个可选的示例中,所述利用深度学习技术提取待描述遥感图像的多层次视觉特征,具体为:
利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型;所述图像视觉特征提取网络模型用于提取输入遥感图像的多层次视觉特征;
基于遥感图像数据集对所述图像视觉特征提取模型进行训练;所述遥感图像数据集包括:用于模型训练的遥感图像和其对应的多层次视觉特征;
基于训练好的图像视觉特征提取模型提取所述待描述遥感图像的多层次视觉特征;计算方法如下:
Fc=CNNfc(I)
FL1=CNNconv4(I)
FL2=CNNconv5(I)
Vml=concat(FL1,upsample(FL2))
其中,I为输入图像,Fc是CNN全连接层的特征,FL1和FL2分别表示CNN的卷积层4和卷积层5的视觉特征,concat表示连接函数,upsample表示上采样,Vml是所述待描述遥感图像的多层次视觉特征。
S102,基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征;
在一个可选的示例中,所述基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征,具体为:
利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征;利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征;计算方法如下:
Figure BDA0003046727610000101
Figure BDA0003046727610000102
Figure BDA0003046727610000103
其中,Vml是所述待描述遥感图像的多层次视觉特征,α和β分别对应空间注意力权重和通道注意力权重,Ws
Figure BDA0003046727610000104
Whs
Figure BDA0003046727610000105
Wi
Figure BDA0003046727610000106
是将CNN卷积层的特征图和所述语言模型的长短期记忆网络LSTM的隐藏状态h转换为同一维度的矩阵,bi、b′i、bs、bc是权重偏置,
Figure BDA0003046727610000107
是第i个区域和t时刻的空间注意力权重,
Figure BDA0003046727610000108
是待描述遥感图像的多层次视觉特征的第i个区域,Fml是所述待描述遥感图像的多级特征。
S103,基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;
在一个可选的示例中,所述基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征,利用一维卷积来整合不同方向的所述待描述遥感图像的多层次视觉特征得到所述待描述遥感图像的上下文特征。具体为:
eij=a(si-1,Wshconcat(Vml,WcFc))
Figure BDA0003046727610000111
Figure BDA0003046727610000112
其中,eij为中间变量,si-1为第i-1个的标签语句对应的单词,a(·)为对齐模型,Fc为CNN网络的全连接层,Wsh为维度调整因子,Wc为上下文的权重,权重αij可根据所述待描述遥感图像的第j个区域与生成的句子中第i-1个单词的关联性计算得到,hj为LSTM的隐藏状态,Fcon为所述待描述遥感图像的上下文特征。
S104,基于所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征;
在一个可选的示例中,利用视觉哨兵机制对遥感图像区域特征或文本单词特征分配不同的注意力权重,具体为:
利用视觉哨兵门βt表示网络对遥感图像特性的“关注程度”,其计算公式如下:
zt=Whtanh(WstVml+Whtht)
βt=softmax(concat(zt,Whtanh(Wstst+Whtht)))
Fs=βtst-1+(1-βt)zt
其中,Wh、Wst和Wht是可学习的权重,βt代表对应于遥感图像区域特征向量的注意力权重,ht为LSTM的t时刻隐藏状态,zt为中间变量,st为t时刻的标签语句对应的单词,Fs为所述待描述遥感图像的高级语义特征。
S105,将所述待描述遥感图像的高级语义特征输入到训练好的语言模型,得到所述待描述遥感图像的描述语句;所述语言模型基于遥感图像的高级语义特征生成遥感图像的描述语句。
具体地,对语言模型进行训练时,向语言模型输入图像数据集和对应的标签描述集作为训练集,训练语言模型;其中,图像数据集中的图像为已标注标签语句的遥感图像,标签描述集包括所述图像数据集对应的描述语句标签。所述语言模型用于根据遥感图像的高级语义特征和待描述遥感图像的标签描述集生成所述待描述遥感图像的描述单词预测概率值。
图2为本发明实施例提供的遥感图像描述生成系统架构图;如图2所示,该系统包括:遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块;
所述遥感图像特征提取模块,用于利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型,以提取待描述遥感图像的多层次视觉特征;
所述多级注意力模块,用于基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征;
所述上下文注意力模块,用于基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;
所述视觉自适应模块,用于基于所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征;
所述语言模型模块,用于基于所述待描述遥感图像的高级语义特征生成待描述遥感图像的描述语句。
具体地,将图2中的遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块归总为遥感图像描述生成模型,上述各个模块属于遥感图像描述生成模型中的一部分。且其中可将遥感图像特征提取模块、多级注意力模块和上下文注意力模块归纳到图像编码端,将视觉自适应模块和语言模型模块归纳到文本解码端;而图像编码端和文本解码端共同组成遥感图像描述生成模型。
其中,图2中各个模块的具体功能实现可参照前述方法实施例中的介绍,在此不做赘述。
需要说明的是,本发明采用以下损失函数训练所述遥感图像描述生成模型:
st=softmax(Wsht)
Figure BDA0003046727610000131
其中,Ws为学习的权重,ht为LSTM的t时刻隐藏状态,pθ为时刻t模型预测的单词概率,st为t时刻语言模型预测的单词概率,
Figure BDA0003046727610000132
为长度为l的标签语句对应的单词,l=1,2…L。
本发明提供了一种遥感图像描述生成方法和系统,其整体思路在于:首先通过深度学习技术提取遥感图像的多层次视觉特征;然后通过注意力机制分别提取遥感图像的多级特征和上下文特征;并通过视觉哨兵机制对所述的遥感图像的多级特征和上下文特征进一步优化得到优化的高级语义特征;根据优化的高级语义特征和遥感图像数据集对应的标签描述集输入到语言模型进行遥感图像的自动描述生成。
综上所述,本发明通过多级注意力机制和上下文注意力机制快速筛选出有价值的信息,以获取更加精确的且具有尺度和位置信息的更强健、有效的高级语义特征表达。同时,为了使不同模态之间的对应关系更加显著,通过将引入视觉哨兵机制对提取的高级视觉特征进行进一步的调整,以尽可能多地过滤掉不必要的信息,保留语义丰富的部分,最终获得具有足够通用语义和准确注意力的高级语义特征,从而有效地提高遥感图像描述生成模型的性能和描述语句的准确性。
利用带有45个类别NWPU-Captions遥感图像数据集进行遥感图像描述生成性能测试,NWPU-Captions遥感图像数据集是现有标准遥感图像描述生成数据集中最大的数据集,其各项参数如表1所示:
表1 NWPU-Captions遥感图像数据集的各项参数
Figure BDA0003046727610000141
现有的比较经典的基于深度网络的遥感图像描述生成模型包括:(1)CSMLF,采用度量学习进行潜在语义嵌入;(2)多模态方法Multimodal method,采用的基本的编码器-解码器的方法,其中CNN编码器用于提取遥感图像特征,LSTM语言解码器生成给定遥感图像的描述语句;(3)基于注意力的方法Attention-based method(soft/hard);(4)基于属性的方法Attribute-attention method(FC-ATT+LSTM/SM-ATT+LSTM)。
利用NWPU-Captions遥感图像数据集,将本发明所提供的遥感图像描述生成方法与利用上述四种遥感图像描述生成模型进行遥感图像描述的方法进行对比分析,评价指标包括:BLEU(评估双语翻译质量的辅助工具)、METEOR(具有明确顺序的翻译评估指标)、ROUGE(面向召回评估的主旨学习)、CIDEr(基于一致性的遥感图像描述评估)和SPICE(语义命题遥感图像描述评估)用于遥感图像描述生成方法的性能评估,其评估指标的分数越高,则表明算法生成的描述语句与人工标注的参考语句越相似,从而说明生成的描述语句质量越好。
对比分析的结果如表2所示:
表2对比分析结果
Figure BDA0003046727610000151
表2所示的结果显示,本发明所提供的遥感图像描述生成方法,其各项评价指标数均高于现有模型指标分数;由此可知,本发明所提供的遥感图像描述生成方法通过注意力机制提取遥感图像的多级特征和上下文特征;根据所述遥感图像的标签描述集和利用视觉哨兵机制得到优化的高级语义特征利用语言模型生成遥感图像的描述语句,能够有效提升遥感图像描述生成的多样性、准确度以及描述的性能。
对于如图3所示复杂场景的遥感图像,本发明所采用方法的遥感图像描述示例如表3所示,可以看到,本发明的方法能生成准确的描述语句。
表3结果示例
Figure BDA0003046727610000152
本发明公开了一种遥感图像描述生成方法和系统,融合了计算机视觉和自然语言处理两个领域。本发明在图像编码端利用深度学习技术提取所述待描述遥感图像的多层次视觉特征;根据所述待描述遥感图像的多层次视觉特征,利用多级注意力模块得到所述待描述遥感图像的多级特征;根据所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;本发明的图像编码端通过注意力机制来实现局部特征和全局特征之间的信息互补,得到更鲁棒的遥感图像特征表达。本发明在文本编码端根据所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵机制得到所述待描述遥感图像优化的高级语义特征;根据所述待描述遥感图像优化的高级语义特征和所述待描述遥感图像的标签描述集,利用语言模型生成所述待描述遥感图像的描述语句;本发明的文本解码端通过视觉哨兵机制来实现对视觉信息和上下文信息的自适应选择,生成更多样的遥感图像描述语句。本发明能够建立低层和高层的视觉特征与语义描述之间的联系,从而提升遥感图像描述生成的准确性和多样性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种遥感图像描述生成方法,其特征在于,包括如下步骤:
利用深度学习技术提取待描述遥感图像的多层次视觉特征;
基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征;
基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;
基于所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征;
将所述待描述遥感图像的高级语义特征输入到训练好的语言模型,得到所述待描述遥感图像的描述语句;所述语言模型基于遥感图像的高级语义特征生成遥感图像的描述语句。
2.根据权利要求1所述的遥感图像描述生成方法,其特征在于,所述利用深度学习技术提取待描述遥感图像的多层次视觉特征,具体为:
利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型;所述图像视觉特征提取网络模型用于提取输入遥感图像的多层次视觉特征;
基于遥感图像数据集对所述图像视觉特征提取模型进行训练;所述遥感图像数据集包括:用于模型训练的遥感图像和其对应的多层次视觉特征;
基于训练好的图像视觉特征提取模型提取所述待描述遥感图像的多层次视觉特征;计算方法如下:
Fc=CNNfc(I)
FL1=CNNconv4(I)
FL2=CNNconv5(I)
Vml=concat(FL1,upsample(FL2))
其中,I为输入图像,Fc是CNN全连接层的特征,FL1和FL2分别表示CNN的卷积层4和卷积层5的视觉特征,concat表示连接函数,upsample表示上采样,Vml是所述待描述遥感图像的多层次视觉特征。
3.根据权利要求2所述的遥感图像描述生成方法,其特征在于,所述基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征,具体为:
利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征;利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征;计算方法如下:
Figure FDA0003046727600000021
Figure FDA0003046727600000022
Figure FDA0003046727600000023
其中,Vml是所述待描述遥感图像的多层次视觉特征,α和β分别对应空间注意力权重和通道注意力权重,Ws
Figure FDA0003046727600000024
Whs
Figure FDA0003046727600000025
Wi
Figure FDA0003046727600000026
是将CNN卷积层的特征图和所述语言模型的长短期记忆网络LSTM的隐藏状态h转换为同一维度的矩阵,bi、b′i、bs、bc是权重偏置,
Figure FDA0003046727600000027
是第i个区域和t时刻的空间注意力权重,
Figure FDA0003046727600000028
是待描述遥感图像的多层次视觉特征的第i个区域,Fml是所述待描述遥感图像的多级特征。
4.根据权利要求3所述的遥感图像描述生成方法,其特征在于,所述基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征,具体为:
eij=a(si-1,Wshconcat(Vml,WcFc))
Figure FDA0003046727600000029
Figure FDA0003046727600000031
其中,eij为中间变量,si-1为第i-1个的标签语句对应的单词,a(·)为对齐模型,Fc为CNN网络的全连接层,Wsh为维度调整因子,Wc为上下文的权重,权重αij可根据所述待描述遥感图像的第j个区域与生成的句子中第i-1个单词的关联性计算得到,hj为LSTM的隐藏状态,Fcon为所述待描述遥感图像的上下文特征。
5.根据权利要求4所述的遥感图像描述生成方法,其特征在于,所述利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征,具体为:
zt=Whtanh(WstVml+Whtht)
βt=softmax(concat(zt,Whtanh(Wstst+Whtht)))
Fs=βtst-1+(1-βt)zt
其中,Wh、Wst和Wht是可学习的权重,βt代表对应于遥感图像区域特征向量的注意力权重,ht为LSTM的t时刻隐藏状态,zt为中间变量,st为t时刻的标签语句对应的单词,Fs为所述待描述遥感图像的高级语义特征。
6.根据权利要求1至5任一项所述的遥感图像描述生成方法,其特征在于,所述遥感图像描述生成方法的所有步骤可以通过遥感图像描述生成模型实现;其中,所述图像视觉特征提取网络模型和语言模型属于遥感图像描述生成模型中的一个组成部分,其他各个步骤可通过相应的模型实现;
采用以下损失函数训练所述遥感图像描述生成模型:
st=softmax(Wsht)
Figure FDA0003046727600000032
其中,Ws为学习的权重,ht为LSTM的t时刻隐藏状态,pθ为时刻t模型预测的单词概率,st为t时刻语言模型预测的单词概率,
Figure FDA0003046727600000041
为长度为l的标签语句对应的单词,l=1,2…L。
7.一种遥感图像描述生成系统,其特征在于,包括:遥感图像特征提取模块、多级注意力模块、上下文注意力模块、视觉自适应模块以及语言模型模块;
所述遥感图像特征提取模块,用于利用深度学习技术构建基于卷积神经网络CNN的图像视觉特征提取网络模型,以提取待描述遥感图像的多层次视觉特征;
所述多级注意力模块,用于基于所述待描述遥感图像的多层次视觉特征,利用空间注意力机制和通道注意力机制得到所述待描述遥感图像的多级特征;
所述上下文注意力模块,用于基于所述待描述遥感图像的多层次视觉特征,利用上下文注意力模块得到所述待描述遥感图像的上下文特征;
所述视觉自适应模块,用于基于所述待描述遥感图像的多级特征和上下文特征,利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征;
所述语言模型模块,用于基于所述待描述遥感图像的高级语义特征生成待描述遥感图像的描述语句。
8.根据权利要求7所述的遥感图像描述语句系统,其特征在于,所述多级注意力模块利用通道注意力机制提取所述待描述遥感图像的不同尺度信息的视觉特征;利用空间注意力机制提取所述待描述遥感图像的不同位置信息的视觉特征;计算方法如下:
Figure FDA0003046727600000042
Figure FDA0003046727600000043
Figure FDA0003046727600000044
其中,Vml是所述待描述遥感图像的多层次视觉特征,α和β分别对应空间注意力权重和通道注意力权重,Ws
Figure FDA0003046727600000051
Whs
Figure FDA0003046727600000052
Wi
Figure FDA0003046727600000053
是将CNN卷积层的特征图和所述语言模型的长短期记忆网络LSTM的隐藏状态h转换为同一维度的矩阵,bi、b′i、bs、bc是权重偏置,
Figure FDA0003046727600000054
是第i个区域和t时刻的空间注意力权重,
Figure FDA0003046727600000055
是待描述遥感图像的多层次视觉特征的第i个区域,Fml是所述待描述遥感图像的多级特征。
9.根据权利要求8所述的遥感图像描述生成系统,其特征在于,所述上下文注意力模块基于所述待描述遥感图像的多层次视觉特征,利上下文注意力模块得到所述待描述遥感图像的上下文特征,具体为:
具体为:
eij=a(si-1,Wshconcat(Vml,WcFc))
Figure FDA0003046727600000056
Figure FDA0003046727600000057
其中,eij为中间变量,si-1为第i-1个的标签语句对应的单词,a(·)为对齐模型,Fc为CNN网络的全连接层,Wsh为维度调整因子,Wc为上下文的权重,权重αij可根据所述待描述遥感图像的第j个区域与生成的句子中第i-1个单词的关联性计算得到,hj为LSTM的隐藏状态,Fcon为所述待描述遥感图像的上下文特征。
10.根据权利要求9所述的遥感图像描述生成系统,其特征在于,所述视觉自适应模块利用视觉哨兵自适应机制得到所述待描述遥感图像的高级语义特征,具体为:
zt=Whtanh(WstVml+Whtht)
βt=softmax(concat(zt,Whtanh(Wstst+Whtht)))
Fs=βtst-1+(1-βt)zt
其中,Wh、Wst和Wht是可学习的权重,βt代表对应于遥感图像区域特征向量的注意力权重,ht为LSTM的t时刻隐藏状态,zt为中间变量,st为t时刻的标签语句对应的单词,Fs为所述待描述遥感图像的高级语义特征。
CN202110475173.9A 2021-04-29 2021-04-29 一种遥感图像描述生成方法及系统 Active CN113192030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475173.9A CN113192030B (zh) 2021-04-29 2021-04-29 一种遥感图像描述生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475173.9A CN113192030B (zh) 2021-04-29 2021-04-29 一种遥感图像描述生成方法及系统

Publications (2)

Publication Number Publication Date
CN113192030A true CN113192030A (zh) 2021-07-30
CN113192030B CN113192030B (zh) 2022-05-13

Family

ID=76980872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475173.9A Active CN113192030B (zh) 2021-04-29 2021-04-29 一种遥感图像描述生成方法及系统

Country Status (1)

Country Link
CN (1) CN113192030B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035304A (zh) * 2022-05-31 2022-09-09 中国科学院计算技术研究所 一种基于课程学习的图像描述生成方法及系统
CN118279803A (zh) * 2024-05-08 2024-07-02 珠海澳大科技研究院 一种基于语义消歧结构化编码的视频描述方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130095864A1 (en) * 2010-11-16 2013-04-18 Jack L. Marovets System, method, and apparatus for storing, transmitting, receiving, and using structured data using un-structured text message bodies
CN111860235A (zh) * 2020-07-06 2020-10-30 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130095864A1 (en) * 2010-11-16 2013-04-18 Jack L. Marovets System, method, and apparatus for storing, transmitting, receiving, and using structured data using un-structured text message bodies
CN111860235A (zh) * 2020-07-06 2020-10-30 中国科学院空天信息创新研究院 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
CN112418176A (zh) * 2020-12-09 2021-02-26 江西师范大学 一种基于金字塔池化多级特征融合网络的遥感图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIANGRONG ZHANG等: "《Description Generation for Remote Sensing Images Using Attribute Attention Mechanism》", 《REMOTE SENSING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035304A (zh) * 2022-05-31 2022-09-09 中国科学院计算技术研究所 一种基于课程学习的图像描述生成方法及系统
CN118279803A (zh) * 2024-05-08 2024-07-02 珠海澳大科技研究院 一种基于语义消歧结构化编码的视频描述方法

Also Published As

Publication number Publication date
CN113192030B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
Niu et al. A review on the attention mechanism of deep learning
CN111488739B (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN108733792B (zh) 一种实体关系抽取方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
Bae et al. Flower classification with modified multimodal convolutional neural networks
CN113192030B (zh) 一种遥感图像描述生成方法及系统
Kass et al. AttentionHTR: Handwritten text recognition based on attention encoder-decoder networks
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111339407B (zh) 一种信息抽取云平台的实现方法
Chen et al. A few-shot transfer learning approach using text-label embedding with legal attributes for law article prediction
CN111881292B (zh) 一种文本分类方法及装置
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN116432019A (zh) 一种数据处理方法及相关设备
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
Sun et al. Study on medical image report generation based on improved encoding-decoding method
CN115718815A (zh) 一种跨模态检索方法和系统
CN111242059B (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
Yu et al. Chinese character recognition with radical-structured stroke trees

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant