CN111860235A - 高低层特征融合的注意力遥感图像描述的生成方法及系统 - Google Patents

高低层特征融合的注意力遥感图像描述的生成方法及系统 Download PDF

Info

Publication number
CN111860235A
CN111860235A CN202010643170.7A CN202010643170A CN111860235A CN 111860235 A CN111860235 A CN 111860235A CN 202010643170 A CN202010643170 A CN 202010643170A CN 111860235 A CN111860235 A CN 111860235A
Authority
CN
China
Prior art keywords
remote sensing
sensing image
image
description
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010643170.7A
Other languages
English (en)
Other versions
CN111860235B (zh
Inventor
张文凯
孙显
许光銮
张政远
李轩
汪勇
刘文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202010643170.7A priority Critical patent/CN111860235B/zh
Publication of CN111860235A publication Critical patent/CN111860235A/zh
Application granted granted Critical
Publication of CN111860235B publication Critical patent/CN111860235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

一种高低层特征融合的注意力遥感图像描述的生成方法及系统,包括:获取待测遥感图像;基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。本发明提供的技术方案充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息,给予了传统的注意力机制全局和局部双意识,从而更准确理解图像所表达的语义内容,以及该语义内容与自然语言句子之间的相互关系,进而为遥感图像生成内容准确的自然语言句子描述。

Description

高低层特征融合的注意力遥感图像描述的生成方法及系统
技术领域
本发明涉及一种图像描述领域,具体讲涉及一种高低层特征融合的注意力遥感图像描述的生成方法及系统。
背景技术
遥感图像描述生成(Remote Sensing Description Generation,RSDG)是遥感图像领域的一个重要组成部分,要解决的主要问题是理解遥感图像的语义内容,然后为遥感图像生成自然语言句子描述。因此遥感图像描述生成要解决的一个首要问题是遥感图像语义的理解,这有助于机器理解人类视觉捕获图像特征的方式;其次,相对于遥感图像领域的其他问题,例如场景分类(Scene Classification),目标检测(Object Detection)、语义分割(Semantic Segmentation)等任务都需要理解图像的内容,其中场景分类需要对遥感图像的场景进行分类,目标检测需要定位遥感目标的位置并识别该目标的种类,语义分割需要区分前景背景的像素类别。而遥感图像描述生成不仅需要理解遥感图像的语义内容,还需要生成自然语言句子描述,该描述不仅要说明该遥感图像的场景类别,还需要对场景中所包含的目标类别以及目标与场景背景之间的相互关系进行描述。因此,遥感图像描述生成一直是遥感图像领域探索的一个重要研究方向。目前,关于遥感图像描述生成的方法主要有以下方法:
1)基于句子模板的方法
基于句子模板的方法主要是通过人为预先设计的句子模板,把从图像中把遥感目标及其属性和状态识别出来并用单词形式表示,然后填充到句子模板中去,作为输入遥感图像的自然语言句子描述。
2)基于句子检索的方法
基于句子检索的方法,它先是选出一些与输入的遥感图像最相似图像,然后从这些相似图像的句子描述中选出最能够很好的描述输入图像句子,作为该输入遥感图像的自然语言描述。
3)基于句子生成的方法
基于句子生成的方法,它采用了经典的编解码结构(Encoder-Decoder),利用卷积神经网络(Convolutional Neural Network)作为编码器来对遥感图像特征进行提取,然后利用循环递归网络(Recurrent Neural Network)。
上述遥感图像描述生成方法都是采用现成的句子或者预先定义的句子模板,而在实际条件下,同一张图像可以用不同的自然语言句子来描述。这些方法都不能够描述输入遥感图像本身特有的细节信息,而且得到的自然语言句子描述的多样性受限,因此这些方法生成的描述不能够很好的描述输入遥感图像。
发明内容
为解决现有技术中存在的不能够很好的描述输入遥感图像的问题,本发明提供了一种高低层特征融合的注意力遥感图像描述的生成方法,包括:
获取待测遥感图像;
基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。
优选的,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述,包括:
基于预先训练好的编码器对所述待测遥感图像进行特征提取,由高层网络得到所述待测遥感图像的全局语义特征,由底层网络得到所述待测遥感图像的局部细节特征,以及每个特征对应的语义表示;
利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注,得到显著图像特征;
利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。
优选的,所述编码器的训练包括:
获取遥感图像的图像数据以及对应的自然语言句子描述数据;
将所述遥感图像数据进行切割得到图像切片数据;
由所述图像切片数据以及对应的自然语言句子描述数据分别构建遥感图像数据集和对应的自然语言句子描述数据集;
将所述遥感图像数据集和对应的自然语言句子描述数据集按照设定比例划分为训练集、检测集和测试集;
基于训练集中的所述遥感图像数据及对应的自然语言句子描述数据对所述编码器进行训练;
并基于所述检测集和测试集对所述编码器进行检测和测试得到训练好的编码器。
优选的,所述编码器采用深度网络模型或残差网络模型。
优选的,所述利用高低层特征融合的注意力对各特征的语义表示进行不同程度的关注,得到显著图像特征,包括:
基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重;
基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。
优选的,所述注意力权重计算公式如下式所示:
αt=htW1[Imiddle;W2Ihigh]
式中,αt:注意力权重;W1和W2是权重大小;Ihigh遥感图像的全局特征;Imiddle遥感图像的局部特征;ht解码器在上一时刻隐藏状态的输出。
优选的,所述解码器的训练包括:
将遥感图像对应的自然语言句子描述数据转换为由单词组成的句子序列;由所述解码器的embedding层将所述句子序列中的单词进行词嵌入处理,得到词嵌入向量;
将所述词嵌入向量和所述显著图像特征进行拼接作为所述解码器的输入;所述解码器根据上一时刻隐藏状态向量预测下一个时刻的隐藏状态,然后将所述隐藏状态通过变换矩阵映射到与字典维度相同的空间里;
通过SoftMax函数预测下一个时刻输出的单词的概率分布;
根据所述预测下一个时刻输出的单词的概率分布采用贪婪算法选取最大概率分布对应的单词作为当前时刻预测得到的单词;
把当前时刻所有预测得到的单词进行拼接操作,组成完整的句子作为所述解码器的输出。
优选的,所述利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述,包括:
基于训练好的所述解码器上一时刻隐藏状态特征向量预测下一时刻隐藏状态特征向量;
将所述待测遥感图像的显著图像特征与预测下一时刻所述隐藏状态特征进行拼接,得到当前时刻解码器的输入量;
由所述预先训练好的解码器对所述待测遥感图像进行解码生成所述待测遥感图像的自然语言句子描述。
优选的,所述将所述遥感图像数据进行切割得到图像切片数据,之前还包括:
对所述遥感图像数据集和所述对应的自然语言句子描述数据集进行筛选处理,并对筛选后的图像切片进行场景类别分类处理。
一种高低层特征融合的注意力遥感图像描述的生成系统,包括:
数据获取模块,用于获取待测遥感图像;
语言生成模块,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型的训练包括:基于遥感图像和所述遥感图像对应的自然语言句子描述信息对所述编码器以及解码器进行训练。
与现有技术相比,本发明的有益效果为:
1、一种高低层特征融合的注意力遥感图像描述的生成方法及系统,包括:获取待测遥感图像;基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成;本发明为遥感图像生成内容准确的自然语言句子描述。
2、本发明提供的技术方案充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息,给予了传统的注意力机制全局和局部双意识,从而更准确理解图像所表达的语义内容。
附图说明
图1为本发明的注意力遥感图像描述的生成方法流程图;
图2为本发明的注意力遥感图像描述的生成方法具体应用流程图。
具体实施方式
本发明公开了一种高低层特征融合的注意力遥感图像描述生成方法,该方法针对遥感图像的自然语言句子对,利用编解码结构和注意力机制进行建模,充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息,给予了传统的注意力机制全局和局部双意识,从而更准确理解图像所表达的语义内容,以及该语义内容与自然语言句子之间的相互关系,进而为遥感图像生成内容准确的自然语言句子描述。
实施例1:一种高低层特征融合的注意力遥感图像描述生成方法,如图1所示:包括:
步骤1:获取待测遥感图像;
步骤2:基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。
步骤2:基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述:
本发明实施例提供一种高低层特征融合的注意力遥感图像描述生成方法,如图2所示,其主要包括:
步骤11、获取遥感图像的图像数据以及对应的自然语言句子描述数据
本发明实施例中,每一条样例的遥感图像句子描述数据包括:遥感图像以及对应的自然语言描述句子;其中的遥感图像由航拍或者卫星拍摄得到,自然语言句子描述由专家标注。具体地数据集制作过程如下所示:
制作遥感图像数据集:收集遥感图像数据对其进行切割,收集得到一组图像切片数据,然后进行筛选,剔除语义不明的切片数据,然后对所有图像切片进行场景类别的分类,可以分为机场、港口、停车场、居民区、操场、立交桥等具有明显场景语义的类别。
制作遥感图像数据的自然语言句子描述数据集:对收集得到的遥感图像数据分发给数据专家进行数据标注,针对每张图像切片,补充对应的语义句子描述。最终实现为每张图像切片添加5句不同的自然语言句子描述。
遥感图像描述数据集Json格式文件制作:首先按照80%、10%和10%的比例对所有的遥感图像切片进行训练集、测试集和验证集的划分。然后使用Json包把已有的图像切片数据的位置路径和对应的自然语言句子描述记录到Json格式的文件中去,作为遥感图像切片数据的额外标注文件。
步骤12、根据遥感图像数据的结构特点,利用卷积网络构建编码器对输入的遥感图像数据进行特征提取,获取遥感图像的语义表示信息
由于遥感图像描述生成任务是需要在理解图像内容的基础上生成遥感图像的内容描述,所以需要充分提取出遥感图像的特征,故采用现有的分类网络VGG16作为提取图像特征的编码器。
本步骤优选实施方式如下:
使用统一的数学形式表示遥感图像和对应的自然语言描述:使用I表示输入的遥感图像,它是一个像素大小是C*H*W的三通道特征图,其中C代表通道数,H、W分别代表输入图像的长和宽,并且其中的每一个像素点都是在0到255之间的浮点数;
对于图像表示,可以利用现有的模型,例如深度网络模型VGG或者残差网络模型ResNet进行特征提取,因为这些模型能够有效地抽取图像的特征,一般的方法是把模型的最后一层卷积层特征抽取出来当作图像的特征表示,这些浅层的图像特征包含了图像的纹理细节等信息的特征,但是这些方法都忽略了模型的顶层全连接层的图像特征,而顶层特征包含了目标的全局特征,忽略使用模型的顶层图像特征会使得模型丢失图像的全局信息。因此,我们不仅在模型的中间层提取出图像的顶层特征,还在模型的高层提取出图像的全局特征。由如下公式表示:
Imiddle=CNNmiddle(I)
Ihigh=CNNhigh(I)
再完成图像特征的抽取之后,其中的Ihigh用于后续的注意力机制运算,而Imiddle用于生成遥感图像的句子描述。此时的Imiddle图像特征图的尺寸大小是c*k*k,而Ihigh图像特征图的尺寸大小是c2*k2*k2
步骤13、利用高低层特征融合的注意力对遥感图像的语义表示进行不同程度的关注,使得图像特征中感兴趣目标区域更加显著
注意力机制因其能够对图像中的不同位置分配不同大小的权重,可以自动地调节各个位置重要性的强弱,所以在遥感图像生成描述任务扮演着重要的角色。在传统的注意力机制中,注意力权重的计算是由上一时刻解码器输出的隐藏状态向量决定的,该隐藏状态里并未包含图像的全局信息,也就不能够使得模型具有全局的意识来自寻找遥感目标来生成句子描述。故引入模型顶层网络的图像特征来辅助现有的注意力权重的计算过程。
本步骤优选实施方式如下
使用统一的数学形式表示遥感图像的图像特征和以及其他相关向量:这里沿用上面的顶层图像特征表示形式Ihigh和中间层图像特征表示形式Imiddle。解码器LSTM在上一时刻的输出是ht,为了引入高层图像特征使得模型具有全局和局部双意识,这里对传统的注意力权重计算公式进行的改进,具体公式如下所示:
αt=htW1[Imiddle;W2Ihigh]
这里的αt就是我们的注意力权重,它能够对遥感图像特征的各个区域的重要性进行调整,W1和W2是权重大小,其中,W2的作用就是进行维度变换,把Ihigh的维度变换到和Imiddle大小一致。
在得到注意力权重之后,对图像的中间层特征进行加权求和。
Figure BDA0002570393810000071
这里的ct就是我们的图像特征的上下文特征向量,它包含了遥感图像中各个区域经过重要性调整之后的整体信息,j表示图像特征图上的第j个图像区域,N表示该遥感图像所包含的区域数量,此时的N数量等于k*k。
再得到遥感图像的上下文特征向量之后,可以利用解码器对图像的上下文特征向量进行解析以生成遥感图像的句子描述。
步骤14、根据遥感图像对应的自然语言描述的结构特点,利用循环递归网络构建解码器,高低层特征融合的注意力机制得到的显著的图像特征通过解码器以生成该输入遥感图像的自然语言句子描述
一般的解码器利用图像的上下文特征向量以生成遥感图像的句子描述。但是传统注意力机制作用得到的图像上下文特征向量只包含了模型的中间层特征,缺乏顶层全局信息的指导,不能够精准地关注图像中的遥感目标,而这里的遥感图像的上下文特征向量不仅融合了模型的中间层特征,还引入了模型的顶层特征,有了全局信息的引导,模型的注意力层就能够对遥感图像中的可能遥感目标进行定位和生成对应目标的句子描述。
本步骤优选实施方式如下:
使用统一的数学形式表示遥感图像所对应的自然语言描述,S=(s1,s2,...,sn)表示其由n个单词组成的句子序列。其中sn表示一个单词,再经过embedding层词嵌入之后,句子序列可以表示为w=(w1,w2,...,wn)。然后通过把单词的词嵌入向量和图像的上下文特征向量进行拼接,就可以得到当前时刻解码器的输入xt,并且根据上一时刻的隐藏状态向量ht-1,通过解码器就可以预测下一个时刻的隐藏状态ht,然后把隐藏状态ht通过变换矩阵Wo将其映射到与字典维度相同的空间里,通过SoftMax函数就可以预测下一个时刻输出的单词的概率分布p(wt)。根据预测单词概率的分布,可以采用贪婪算法,选取最大概率对应的单词当作输出,具体公式如下所示:
xt=W3[ct;W4·wt]
ht=LSTM(xt,ht-1)
p(wt)=softmax(Wo·ht)
这里采用LSTM当作模型网络的解码器,而LSTM的具体迭代过程如下所示:
it=σ(Wxixt+Whiht-1)
ft=σ(Wxfxt+Whfht-1)
ot=σ(Wxoxt+Whoht-1)
st=tanh(Wxcxt+Whcht-1)
Figure BDA0002570393810000091
Figure BDA0002570393810000092
这里的it,ft,ot,ct分别代表输入门,遗忘门,输出门,和cell memory,σ表示激活函数,st表示输入到LSTM中的信息,
Figure BDA0002570393810000093
表示矩阵与门限数值的乘法。
最后根据每一个时刻模型所预测得到的单词编码位置去检索对应的单词,然后把所有预测得到的单词进行拼接操作,组成完整的句子进行输出和显示,即可完成了遥感图像描述的任务。
本发明实施例提供的上述方案,针对遥感图像的自然语言句子对,利用编解码结构和注意力机制进行建模,充分利用了图像浅层特征的局部细节信息和高层特征的全局语义信息,给予了传统的注意力机制全局和局部双意识,从而更准确理解图像所表达的语义内容,以及该语义内容与自然语言句子之间的相互关系,进而为遥感图像生成内容准确的自然语言句子描述。
实施例2
基于同一发明构思的本发明还提供了一种高低层特征融合的注意力遥感图像描述的生成系统,包括:
数据获取模块,用于获取待测遥感图像;
语言生成模块,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型的训练包括:基于遥感图像和所述遥感图像对应的自然语言句子描述信息对所述编码器以及解码器进行训练。
优选的,所述语言生成模块包括:
特征提取子模块,基于预先训练好的编码器对所述待测遥感图像进行特征提取,由高层网络得到所述待测遥感图像的全局语义特征,由底层网络得到所述待测遥感图像的局部细节特征,以及每个特征对应的语义表示;
注意力关注子模块,利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注,得到显著图像特征;
解码子模块,利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。
优选的,所述编码器的训练包括:
获取遥感图像的图像数据以及对应的自然语言句子描述数据;
将所述遥感图像数据进行切割得到图像切片数据;
由所述图像切片数据以及对应的自然语言句子描述数据分别构建遥感图像数据集和对应的自然语言句子描述数据集;
将所述遥感图像数据集和对应的自然语言句子描述数据集按照设定比例划分为训练集、检测集和测试集;
基于训练集中的所述遥感图像数据及对应的自然语言句子描述数据对所述编码器进行训练;
并基于所述检测集和测试集对所述编码器进行检测和测试得到训练好的编码器。
优选的,所述编码器采用深度网络模型或残差网络模型。
优选的,注意力关注子模块包括:
权重计算单元,基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重;
加权处理单元,基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。
优选的,述注意力权重计算公式如下式所示:
αt=htW1[Imiddle;W2Ihigh]
式中,αt:注意力权重;W1和W2是权重大小;Ihigh遥感图像的全局特征;Imiddle遥感图像的局部特征;ht解码器在上一时刻隐藏状态的输出。
所述解码器的训练包括:
将遥感图像对应的自然语言句子描述数据转换为由单词组成的句子序列;由所述解码器的embedding层将所述句子序列中的单词进行词嵌入处理,得到词嵌入向量;
将所述词嵌入向量和所述显著图像特征进行拼接作为所述解码器的输入;所述解码器根据上一时刻隐藏状态向量预测下一个时刻的隐藏状态,然后将所述隐藏状态通过变换矩阵映射到与字典维度相同的空间里;
通过SoftMax函数预测下一个时刻输出的单词的概率分布;
根据所述预测下一个时刻输出的单词的概率分布采用贪婪算法选取最大概率分布对应的单词作为当前时刻预测得到的单词;
把当前时刻所有预测得到的单词进行拼接操作,组成完整的句子作为所述解码器的输出。
优选的,所述解码子模块:基于训练好的所述解码器上一时刻隐藏状态特征向量预测下一时刻隐藏状态特征向量;
将所述待测遥感图像的显著图像特征与预测下一时刻所述隐藏状态特征进行拼接,得到当前时刻解码器的输入量;
由所述预先训练好的解码器对所述待测遥感图像进行解码生成所述待测遥感图像的自然语言句子描述。
一种高低层特征融合的注意力遥感图像描述的生成系统,还包括:筛选处理模块,用于对所述遥感图像数据集和所述对应的自然语言句子描述数据集进行筛选处理,并对筛选后的图像切片进行场景类别分类处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种高低层特征融合的注意力遥感图像描述的生成方法,其特征在于,包括:
获取待测遥感图像;
基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型由利用卷积网络构建的编码器、高低层特征融合的注意力以及利用循环递归网络构建的解码器构建而成。
2.如权利要求1所述的注意力遥感图像描述的生成方法,其特征在于,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述,包括:
基于预先训练好的编码器对所述待测遥感图像进行特征提取,由高层网络得到所述待测遥感图像的全局语义特征,由底层网络得到所述待测遥感图像的局部细节特征,以及每个特征对应的语义表示;
利用高低层特征融合的注意力对待测遥感图像的全局语义特征和局部细节特征的语义表示进行不同程度的关注,得到显著图像特征;
利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述。
3.如权利要求2所述的注意力遥感图像描述的生成方法,其特征在于,所述编码器的训练包括:
获取遥感图像的图像数据以及对应的自然语言句子描述数据;
将所述遥感图像数据进行切割得到图像切片数据;
由所述图像切片数据以及对应的自然语言句子描述数据分别构建遥感图像数据集和对应的自然语言句子描述数据集;
将所述遥感图像数据集和对应的自然语言句子描述数据集按照设定比例划分为训练集、检测集和测试集;
基于训练集中的所述遥感图像数据及对应的自然语言句子描述数据对所述编码器进行训练;
并基于所述检测集和测试集对所述编码器进行检测和测试得到训练好的编码器。
4.如权利要求3所述的注意力遥感图像描述的生成方法,其特征在于,所述编码器采用深度网络模型或残差网络模型。
5.如权利要求2所述的注意力遥感图像描述的生成方法,其特征在于,所述利用高低层特征融合的注意力对各特征的语义表示进行不同程度的关注,得到显著图像特征,包括:
基于所述全局特征采用注意力权重计算公式计算所述待测遥感图像的局部特征的注意力权重;
基于所述局部特征和所述注意力权重得到所述待测遥感图像的显著图像特征。
6.如权利要求5所述的注意力遥感图像描述的生成方法,其特征在于,所述注意力权重计算公式如下式所示:
αt=htW1[Imiddle;W2Ihigh]
式中,αt:注意力权重;W1和W2是权重大小;Ihigh遥感图像的全局特征;Imiddle遥感图像的局部特征;ht解码器在上一时刻隐藏状态的输出。
7.如权利要求5所述的注意力遥感图像描述的生成方法,其特征在于,所述解码器的训练包括:
将遥感图像对应的自然语言句子描述数据转换为由单词组成的句子序列;由所述解码器的embedding层将所述句子序列中的单词进行词嵌入处理,得到词嵌入向量;
将所述词嵌入向量和所述显著图像特征进行拼接作为所述解码器的输入;所述解码器根据上一时刻隐藏状态向量预测下一个时刻的隐藏状态,然后将所述隐藏状态通过变换矩阵映射到与字典维度相同的空间里;
通过SoftMax函数预测下一个时刻输出的单词的概率分布;
根据所述预测下一个时刻输出的单词的概率分布采用贪婪算法选取最大概率分布对应的单词作为当前时刻预测得到的单词;
把当前时刻所有预测得到的单词进行拼接操作,组成完整的句子作为所述解码器的输出。
8.如权利要求7所述的注意力遥感图像描述的生成方法,其特征在于,所述利用预先训练好的解码器,对所述显著图像特征进行解码生成所述待测遥感图像的自然语言句子描述,包括:
基于训练好的所述解码器上一时刻隐藏状态特征向量预测下一时刻隐藏状态特征向量;
将所述待测遥感图像的显著图像特征与预测下一时刻所述隐藏状态特征进行拼接,得到当前时刻解码器的输入量;
由所述预先训练好的解码器对所述待测遥感图像进行解码生成所述待测遥感图像的自然语言句子描述。
9.如权利要求3所述的注意力遥感图像描述的生成方法,其特征在于,所述将所述遥感图像数据进行切割得到图像切片数据,之前还包括:
对所述遥感图像数据集和所述对应的自然语言句子描述数据集进行筛选处理,并对筛选后的图像切片进行场景类别分类处理。
10.一种高低层特征融合的注意力遥感图像描述的生成系统,其特征在于,包括:数据获取模块,用于获取待测遥感图像;
语言生成模块,基于所述待测遥感图像和预先训练好的图像描述模型得到所述待测遥感图像的自然语言句子描述;
其中,所述图像描述模型的训练包括:基于遥感图像和所述遥感图像对应的自然语言句子描述信息对所述编码器以及解码器进行训练。
CN202010643170.7A 2020-07-06 2020-07-06 高低层特征融合的注意力遥感图像描述的生成方法及系统 Active CN111860235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010643170.7A CN111860235B (zh) 2020-07-06 2020-07-06 高低层特征融合的注意力遥感图像描述的生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010643170.7A CN111860235B (zh) 2020-07-06 2020-07-06 高低层特征融合的注意力遥感图像描述的生成方法及系统

Publications (2)

Publication Number Publication Date
CN111860235A true CN111860235A (zh) 2020-10-30
CN111860235B CN111860235B (zh) 2021-08-06

Family

ID=73151918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010643170.7A Active CN111860235B (zh) 2020-07-06 2020-07-06 高低层特征融合的注意力遥感图像描述的生成方法及系统

Country Status (1)

Country Link
CN (1) CN111860235B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200268A (zh) * 2020-11-04 2021-01-08 福州大学 一种基于编码器-解码器框架的图像描述方法
CN112365540A (zh) * 2020-11-18 2021-02-12 北京观微科技有限公司 一种适用于多种尺度的舰船目标定位检测方法与系统
CN113033538A (zh) * 2021-03-25 2021-06-25 北京搜狗科技发展有限公司 一种公式识别方法及装置
CN113076956A (zh) * 2021-04-15 2021-07-06 齐鲁工业大学 一种图像描述生成方法、系统、介质及电子设备
CN113192030A (zh) * 2021-04-29 2021-07-30 华中科技大学 一种遥感图像描述生成方法及系统
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置
CN113569068A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113610025A (zh) * 2021-08-13 2021-11-05 天津大学 一种多模型综合的遥感影像场景描述方法
CN113673535A (zh) * 2021-05-24 2021-11-19 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113792617A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN115292530A (zh) * 2022-09-30 2022-11-04 北京数慧时空信息技术有限公司 一种遥感影像统筹管理系统
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN115861824A (zh) * 2023-02-23 2023-03-28 汕头大学 基于改进Transformer的遥感图像识别方法
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
US10168141B2 (en) * 2015-12-24 2019-01-01 University Of Electronic Science And Technology Of China Method for identifying air pollution sources based on aerosol retrieval and glowworm swarm algorithm
US20190005069A1 (en) * 2017-06-28 2019-01-03 Google Inc. Image Retrieval with Deep Local Feature Descriptors and Attention-Based Keypoint Descriptors
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110287800A (zh) * 2019-05-29 2019-09-27 河海大学 一种基于sgse-gan的遥感图像场景分类方法
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110619313A (zh) * 2019-09-20 2019-12-27 西安电子科技大学 遥感图像判别性描述生成方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN111209918A (zh) * 2020-01-06 2020-05-29 河北工业大学 一种图像显著性目标检测方法
WO2020112808A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10168141B2 (en) * 2015-12-24 2019-01-01 University Of Electronic Science And Technology Of China Method for identifying air pollution sources based on aerosol retrieval and glowworm swarm algorithm
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
US20180144248A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. SENTINEL LONG SHORT-TERM MEMORY (Sn-LSTM)
US20190005069A1 (en) * 2017-06-28 2019-01-03 Google Inc. Image Retrieval with Deep Local Feature Descriptors and Attention-Based Keypoint Descriptors
WO2020112808A1 (en) * 2018-11-30 2020-06-04 Sony Interactive Entertainment Inc. System and method for converting image data into a natural language description
CN110084250A (zh) * 2019-04-26 2019-08-02 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
CN110287800A (zh) * 2019-05-29 2019-09-27 河海大学 一种基于sgse-gan的遥感图像场景分类方法
CN111160467A (zh) * 2019-05-31 2020-05-15 北京理工大学 一种基于条件随机场和内部语义注意力的图像描述方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110390363A (zh) * 2019-07-29 2019-10-29 上海海事大学 一种图像描述方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110619313A (zh) * 2019-09-20 2019-12-27 西安电子科技大学 遥感图像判别性描述生成方法
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111209918A (zh) * 2020-01-06 2020-05-29 河北工业大学 一种图像显著性目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG WANG等: "Encoder- and Decoder-Based Networks Using Multiscale Feature Fusion and Nonlocal Block for Remote Sensing Image Semantic Segmentation", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS ( EARLY ACCESS )》 *
李翔: "基于深度学习的遥感图像语义描述", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *
王洁然: "基于高低层特征融合与卷积注意力机制的视频动作识别方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200268A (zh) * 2020-11-04 2021-01-08 福州大学 一种基于编码器-解码器框架的图像描述方法
CN112365540A (zh) * 2020-11-18 2021-02-12 北京观微科技有限公司 一种适用于多种尺度的舰船目标定位检测方法与系统
CN113569068A (zh) * 2021-01-19 2021-10-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113569068B (zh) * 2021-01-19 2023-09-29 腾讯科技(深圳)有限公司 描述内容生成方法、视觉内容的编码、解码方法、装置
CN113033538A (zh) * 2021-03-25 2021-06-25 北京搜狗科技发展有限公司 一种公式识别方法及装置
CN113033538B (zh) * 2021-03-25 2024-05-10 北京搜狗科技发展有限公司 一种公式识别方法及装置
CN113076956B (zh) * 2021-04-15 2023-02-24 齐鲁工业大学 一种图像描述生成方法、系统、介质及电子设备
CN113076956A (zh) * 2021-04-15 2021-07-06 齐鲁工业大学 一种图像描述生成方法、系统、介质及电子设备
CN113191263A (zh) * 2021-04-29 2021-07-30 桂林电子科技大学 一种视频描述方法及装置
CN113192030B (zh) * 2021-04-29 2022-05-13 华中科技大学 一种遥感图像描述生成方法及系统
CN113192030A (zh) * 2021-04-29 2021-07-30 华中科技大学 一种遥感图像描述生成方法及系统
CN113673535B (zh) * 2021-05-24 2023-01-10 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113673535A (zh) * 2021-05-24 2021-11-19 重庆师范大学 一种多模态特征融合网络的图像描述生成方法
CN113610025A (zh) * 2021-08-13 2021-11-05 天津大学 一种多模型综合的遥感影像场景描述方法
CN113610025B (zh) * 2021-08-13 2022-08-09 天津大学 一种多模型综合的遥感影像场景描述方法
CN113792617A (zh) * 2021-08-26 2021-12-14 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN115292530A (zh) * 2022-09-30 2022-11-04 北京数慧时空信息技术有限公司 一种遥感影像统筹管理系统
CN115861824A (zh) * 2023-02-23 2023-03-28 汕头大学 基于改进Transformer的遥感图像识别方法
CN116152623B (zh) * 2023-04-04 2023-07-18 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统
CN116152623A (zh) * 2023-04-04 2023-05-23 江西财经大学 基于多粒度特征融合的全景图像描述方法与系统

Also Published As

Publication number Publication date
CN111860235B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN111860235B (zh) 高低层特征融合的注意力遥感图像描述的生成方法及系统
CN109784283B (zh) 基于场景识别任务下的遥感图像目标提取方法
CN108986186B (zh) 文字转化视频的方法和系统
Abdollahi et al. Improving road semantic segmentation using generative adversarial network
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN111079658B (zh) 基于视频的多目标连续行为分析方法、系统、装置
CN110796199B (zh) 一种图像处理方法、装置以及电子医疗设备
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
US20240257423A1 (en) Image processing method and apparatus, and computer readable storage medium
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN114998220A (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN117079163A (zh) 一种基于改进yolox-s的航拍图像小目标检测方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
US20230281843A1 (en) Generating depth images for image data
US12033372B2 (en) Attributing generated visual content to training examples
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing
CN112634174B (zh) 一种图像表示学习方法及系统
CN117911697A (zh) 基于大模型分割的高光谱目标跟踪方法、系统、介质和设备
CN117765432A (zh) 一种基于动作边界预测的中学理化生实验动作检测方法
CN117437555A (zh) 一种基于深度学习的遥感影像目标提取处理方法及装置
CN112560925A (zh) 一种复杂场景目标检测数据集构建方法及系统
CN111986259A (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant