CN111832501B - 一种面向卫星在轨应用的遥感影像文本智能描述方法 - Google Patents

一种面向卫星在轨应用的遥感影像文本智能描述方法 Download PDF

Info

Publication number
CN111832501B
CN111832501B CN202010698092.0A CN202010698092A CN111832501B CN 111832501 B CN111832501 B CN 111832501B CN 202010698092 A CN202010698092 A CN 202010698092A CN 111832501 B CN111832501 B CN 111832501B
Authority
CN
China
Prior art keywords
model
lstm
remote sensing
training
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010698092.0A
Other languages
English (en)
Other versions
CN111832501A (zh
Inventor
夏鲁瑞
董正宏
林郁
李森
王俊锋
薛武
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN202010698092.0A priority Critical patent/CN111832501B/zh
Publication of CN111832501A publication Critical patent/CN111832501A/zh
Application granted granted Critical
Publication of CN111832501B publication Critical patent/CN111832501B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向卫星在轨应用的遥感影像文本智能描述方法,包括以下步骤:S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;S200、输入Encoder模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;S300、输入Decoder模型处理:在基于LSTM模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果;S500、输出遥感图像文本描述结果。本发明引入残差网络结构、两层LSTM模型、自下而上和自上而下相结合的注意力机制及强化学习中自临界序列训练方法,针对遥感图像可迅速准确生成文本语义描述。

Description

一种面向卫星在轨应用的遥感影像文本智能描述方法
技术领域
本发明属于遥感技术领域,具体涉及一种面向卫星在轨应用的遥感影像文本智能描述方法。
背景技术
遥感技术的飞速发展为地球表面信息获取提供了大量的数据积累,同时促进了以此为基础的遥感图像分析与处理、高分辨率数据集的建立、空间数据分析以及网络共享等相关技术的快速进步。此前,针对高分辨率遥感图像解译领域的处理方法基本完成了从面向像元分类到面向对象分类方法的转变,但解译层次尚停留在地物类别层,没有对场景进行推理和理解,无法解决分类结果和高层场景语义之间的“语义鸿沟”问题。因此,如何针对大量数据,从不同层次、不同角度对高分辨率遥感图像进行智能化解译已成为遥感领域最具挑战性的科学前沿之一。
随着深度学习中神经网络和自然语言处理理论和技术的不断成熟,对于多模态、时序性目标的处理提供了新思路,尤其是最近几年image caption(图像描述)技术的日益完善,在自然场景领域取得了比传统方式更理想的结果。因此,深度学习作为可能跨越低层语义和高层语义之间“语义鸿沟”的重要技术,成为解决该问题的首选方法之一。
发明内容
本发明的目的在于避免现有技术中的不足而提供一种面向卫星在轨应用的遥感影像文本智能描述方法,能够在不额外输入文本信息的情况下,针对遥感影像中的典型目标,快速准确地生成目标和场景之间的文本语义描述。
本发明的目的通过以下技术方案实现:提供一种面向卫星在轨应用的遥感影像文本智能描述方法,包括以下步骤:
S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;
S200、输入Encoder模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;
S300、输入Decoder模型处理:在基于LSTM模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;
S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果;
S500、输出遥感图像文本描述结果。
作为进一步的改进,所述步骤S200中模型参数的训练过程如下:
S201、数据预处理:输入遥感图像训练数据集并进行缩放,将训练数据集中每幅图像对应的多个文本描述标签转化为序列号,且将该序列号与图像建立映射关系,完成图像和序列的匹配;
S202、构建Encoder模型:所述Encoder模型以VGG网络为框架,加入残差网络结构优化模型性能,通过加载预训练的VGG网络,并通过定义函数实现网络的重用,将VGG网络的输出作为原始图片的特征图表示;
S203、构建Decoder模型:以LSTM模型为基础,在初始化权重、定义超参数和输出占位符后,经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段,实现词嵌入与特征映射;
S204、模型训练:引入注意力机制,并通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛;
S205、输出训练好的模型参数。
作为进一步的改进,所述VGG网络使用五组卷积层和三组全连接层,且其卷积核的大小为3*3和1*1。
作为进一步的改进,所述LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o:存储单元C用于对每个时间步骤的数据编码,其运行取决于门控单元,如果门的值为1,代表保留门控层中的值,如果门的值为0,则舍弃门控层中的值;遗忘门f决定是否忘记当前单元格值;输入门i决定是否应该读取其输入;输出门o决定是否输出新的单元格值;且门控单元的更新和输出遵循下列公式:
it=σ(Wixxt+Wimmt-1) (1)
ft=σ(Wfxxt+Wfmmt-1) (2)
ot=σ(Woxxt+Wommt-1) (3)
式中,it表示输入门参数,σ代表非线性函数Sigmoid,xt表示t时刻数据的输入,mt-1表示t-1时刻反馈给SoftMax损失函数的值,Wix矩阵表示输入门的训练参数,Wim矩阵表示输入门对应m值的训练参数,ft表示遗忘门参数,Wfx矩阵表示遗忘门的训练参数,Wfm矩阵表示遗忘门对应m值的训练参数,ot表示输出门参数,Wox矩阵表示输出门的训练矩阵,Wom矩阵表示输出门对应m值的训练参数;
单元格值的更新和输出遵循如下公式:
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (4)
mt=ot⊙ct (5)
pt+1=Softmax(mt) (6)
式中,ct表示一个LSTM存储单元t时刻的值,ct-1表示该单元t-1时刻的值,⊙表示具有门值的乘积,Wcx矩阵表示一个LSTM存储单元的训练参数,Wcm矩阵表示一个LSTM存储单元对应m值的训练参数,mt表示t时刻反馈给SoftMax损失函数的值,h代表双曲正切tanh函数,pt+1表示将mt通过SoftMax损失函数生成概率分布pt
作为进一步的改进,所述注意力机制选用自下而上和自上而下相结合的注意力机制:自下而上的注意力机制用于获得一组具有显著性的图像区域,每个区域由汇集的卷积特征向量表示;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征的加权平均,从而更好地提取出并使用特征图的特征信息。
作为进一步的改进,所述自下而上的注意力机制,针对遥感图像的卷积神经网络,在提取特征图的特征信息过程中,具体表现为:
第一步、通过卷积核在图像上滑动,在每个空间位置预测出类别,对多种比例目标的边界框进行细化,并使用交并比阈值对每个对象类别执行非极大值抑制;
第二步、将提取出的显著区域合并进行批量处理,输入至卷积神经网络最后一层,并且将每个选择的区域的卷积特征与真实特征串联,馈送到定义类别属性的SoftMax层中,最终获得了更为精准的预选区域。
作为进一步的改进,所述自上而下的视觉注意力机制具有两层的LSTM模型,第一层用于实现自上而下的注意力,第二层用于实现语言模型,且所述自上而下的视觉注意力机制遵循以下公式:
ht=LSTM(xt,ht-1) (7)
式中,xt和ht分别是LSTM的输入向量和输出向量,ht-1表示上一时刻LSTM的输出向量,则第一层LSTM模型公式如下:
αt=softmax(at) (10)
式中,表示第一层LSTM的输入向量,根据LSTM模型、特征图向量和词嵌入计算得到,/>表示特征图的平均池化卷积特征值,We是词嵌入矩阵,Πt是时间t内输入词的one-hot编码,ai,t是特征图中的关注度权重,Wva、Wha、/>分别表示学习参数,vi表示第i个区域特征图的池化卷积特征值,αt表示vi对应注意力权重经SoftMax损失函数计算输出的值,/>表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值,第一层的输出和图像特征共同组成了第二层的输出:
式中,表示t时刻第二层LSTM模型即语言生成模型LSTM模块的输入向量,/>表示t时刻第一层LSTM模型的输出向量,y1:T指代单词序列(y1,...,yt),p(yt|y1:t-1)指代每个时间步骤t可能输出的条件分布,p(y1:T)指完整的条件分布,Wp和bp分别是学习的权重和偏差。
作为进一步的改进,所述步骤S204中通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛具体表现为:生成序列的LSTM看作一个智能体,单词和图像特征看作环境,网络参数θ定义为策略pθ,推测动作则是预测的下一个单词,每经历一个动作,智能体更新内部状态,每正确生成一个单词序列,智能体得到一个正向激励,并且通过greedy decoding得到奖励的基线,从而提高模型的训练效果,促使参数向期望值收敛。
本发明在Encoder模型中以VGG网络为框架,引入残差网络结构来提高特征图质量;在Decoder模型中以LSTM模型为基础,加入自下而上和自上而下相结合的注意力机制以提高目标描述的准确性,同时为提高训练质量,引入强化学习中自临界序列训练方法,有效加速了训练模型参数的收敛速度,针对遥感图像可迅速确定典型目标,进而生成准确的文本语义描述。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明一种面向卫星在轨应用的遥感影像文本智能描述方法的流程图。
图2是本发明模型参数训练过程的流程图。
图3是本发明LSTM模型的网络结构图。
图4是本发明自上而下的视觉注意力机制的网络结构图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施例对本发明作进一步详细的描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
如图1所示,本发明实施例提供的一种面向卫星在轨应用的遥感影像文本智能描述方法,包括以下步骤:
S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;
S200、输入Encoder(编码器)模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;
S300、输入Decoder(解码器)模型处理:在基于LSTM(长短期记忆,Long Short-Term Memory)模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;
S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法(SCST)的约束下生成遥感图像语义文本描述结果;需要说明的是,该过程依次通过调用损失函数、引入注意力机制和经优化器计算实现;
S500、输出遥感图像文本描述结果。
参见图2,作为进一步优选的实施方式,步骤S200中模型参数的训练过程具体如下:
S201、数据预处理
在数据预处理部分,首先输入遥感图像训练数据集,并以图像中心为基准进行缩放,此步目的是将图像转化为统一大小,便于后续批量卷积操作和特征图提取;其次,获取标签中的所有单词,加入具有序列性的特殊词构成模型训练所需的单词库;接着,由于训练集中每幅图像对应了多个文本描述标签,这些标签分别以图像中不同物体作为主体进行描述,为便于训练,将标签转化为序列号并与图像建立映射关系,完成图像和序列的匹配。理论上图像对应的标签越丰富,训练的效果就越好,但实际情况中受限于模型框架,每幅图像对应的标签约有5条,每个标签不超过25个单词,因为标签内容过于丰富将超过模型的匹配能力,导致生成的描述质量下降。最后将匹配完毕的图像和标签序列输入至Encoder模型中。
S202、构建Encoder模型
Encoder模型的主要功能是通过卷积神经网络(CNN)提取图像的特征图,本发明中Encoder模型以VGG网络为框架,加入残差网络结构优化模型性能,通过加载预训练的VGG网络,并通过定义函数实现网络的重用,将VGG网络的输出作为原始图片的特征图表示;需要说明的是,上述VGG网络优选使用五组卷积层和三组全连接层,且其卷积核的大小为3*3和1*1。通过该设置,VGG网络结构清晰工整,便于优化改进,且使得模型拥有更多非线性变换,增加特征学习能力并降低计算量,同时,VGG网络具有预训练模型,在此基础上继续训练能够加快收敛速度。
鉴于卷积神经网络中网络层数越多,能够提取到的特征越丰富,且提取出的特征更具有语义信息,但是如果简单地增加深度,会导致梯度弥散或梯度爆炸现象,传统解决方法是加入正则初始化或正则化层,但是不可避免的会出现模型退化现象,究其原因,是求解器难以利用多层网络来拟合参数,故此,为防止出现上述问题,本发明采用了残差网络结构的思想,残差网络结构的模型参照现有技术,此处不以一一展开论述。
此处,Encoder模型以VGG网络为框架,加入残差网络结构,构成本发明Encoder部分的残差神经网络,预处理后的图像经过该网络,能够输出充分表示原始图像的特征图,作为Decoder模型的输入生成文本描述。
S203、构建Decoder模型
Decoder模型以LSTM模型为基础,在初始化权重、定义超参数和输出占位符后,经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段,实现词嵌入与特征映射。需要说明的是,初始化权重、定义超参数和输出占位符参照LSTM模型在人工智能自然语言处理领域的基本处理方法实现。LSTM模型的网络结构图参见图3,该LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o,存储单元C是模型的核心,它可以对每个时间步骤的数据编码,其运行取决于门控单元,如果门的值为1,代表保留门控层中的值,如果门的值为0,则舍弃门控层中的值;遗忘门f决定是否忘记当前单元格值;输入门i决定是否应该读取其输入;输出门o决定是否输出新的单元格值;且门控单元的更新和输出遵循下列公式:
it=σ(Wixxt+Wimmt-1) (1)
ft=σ(Wfxxt+Wfmmt-1) (2)
ot=σ(Woxxt+Wommt-1) (3)
式中,it表示输入门参数,σ代表非线性函数Sigmoid,xt表示t时刻数据的输入,mt-1表示t-1时刻反馈给SoftMax损失函数的值,Wix矩阵表示输入门的训练参数,Wim矩阵表示输入门对应m值的训练参数,ft表示遗忘门参数,Wfx矩阵表示遗忘门的训练参数,Wfm矩阵表示遗忘门对应m值的训练参数,ot表示输出门参数,Wox矩阵表示输出门的训练矩阵,Wom矩阵表示输出门对应m值的训练参数;
单元格值的更新和输出遵循如下公式:
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (4)
mt=ot⊙ct (5)
pt+1=Softmax(mt) (6)
式中,ct表示一个LSTM存储单元t时刻的值,ct-1表示该单元t-1时刻的值,⊙表示具有门值的乘积,Wcx矩阵表示一个LSTM存储单元的训练参数,Wcm矩阵表示一个LSTM存储单元对应m值的训练参数,mt表示t时刻反馈给SoftMax损失函数的值,h代表双曲正切tanh函数,pt+1表示将mt通过SoftMax损失函数生成概率分布pt
S204、模型训练
鉴于现有遥感影像处理中存在干扰噪声多、目标背景复杂和目标特点不丰富等问题,本发明引入注意力机制和强化学习中自临界序列训练法,该注意力机制选用自下而上和自上而下相结合的注意力机制:自下而上的注意力机制用于获得一组具有显著性的图像区域,每个区域由汇集的卷积特征向量表示;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征的加权平均,从而更好地提取出并使用特征图的特征信息。
对于给定的图像,本发明可以将图像特征变成特征集合作为输入,使得每个图像特征表征图像的显著区域。通过采用的自下而上的注意力机制,针对遥感图像的卷积神经网络,在提取特征图的过程中,第一步通过卷积核在图像上滑动,在每个空间位置预测出类别,对多种比例目标的边界框进行细化,并使用交并比(IOU,Intersection Over Union)阈值对每个对象类别执行非极大值抑制;第二步将提取出的显著区域合并进行批量处理,输入至卷积神经网络最后一层,并且将每个选择的区域的卷积特征与真实特征串联,馈送到定义类别属性的SoftMax层中,最终获得了更为精准的预选区域。
本发明自上而下的视觉注意力机制具有两层的LSTM模型,第一层用于实现自上而下的注意力,第二层用于实现语言模型,网络结构参见图4所示,该自上而下的视觉注意力机制遵循以下公式:
ht=LSTM(xt,ht-1) (7)
式中,xt和ht分别是LSTM的输入向量和输出向量,ht-1表示上一时刻LSTM的输出向量,则第一层LSTM模型公式如下:
αt=softmax(at) (10)
式中,表示第一层LSTM的输入向量,根据LSTM模型、特征图向量和词嵌入计算得到,/>表示特征图的平均池化卷积特征值,We是词嵌入矩阵,Πt是时间t内输入词的one-hot编码(一位有效编码),ai,t是特征图中的关注度权重,Wva、Wha、/>分别表示学习参数,vi表示第i个区域特征图的池化卷积特征值,αt表示vi对应注意力权重经SoftMax损失函数计算输出的值,/>表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值,第一层的输出和图像特征共同组成了第二层的输出:
式中,表示t时刻第二层LSTM模型即语言生成模型LSTM模块的输入向量,/>表示t时刻第一层LSTM模型的输出向量,y1:T指代单词序列(y1,...,yt),p(yt|y1:t-1)指代每个时间步骤t可能输出的条件分布,p(y1:T)指完整的条件分布,Wp和bp分别是学习的权重和偏差。
通过该设置,基于自下而上的视觉注意力机制获取到图像感兴趣区域并提取图像实现特征编码,基于自上而下的视觉注意力机制用于学习调整特征权重,实现对图像目标的准确关注。
进一步地,本发明采用强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛,具体内容如下:
生成序列的LSTM看作一个智能体(人工智能术语,agent),单词和图像特征看作环境,网络参数θ定义为策略pθ,推测动作则是预测的下一个单词,每经历一个动作,agent更新内部状态,每正确生成一个单词序列,agent得到一个正向激励,并且通过greedydecoding(贪婪解码,强化学习在自然语言处理领域中求基线的一种处理方法)得到奖励的基线,从而提高模型的训练效果,促使参数向期望值收敛:
式中,L(θ)表示强化学习在序列生成问题中的期望值,此处的训练目标是最小化负奖励期望, 表示t时刻从模型采样的单词,r(ws)表示t时刻采样单词的奖励值,/>表示在策略pθ下对t时刻采样单词的奖励值求期望值,实际应用中,
L(θ)≈-r(ws),ws~pθ (16)
使用强化算法计算上述目标函数的梯度,则有:
式中,表示以强化算法对目标函数求梯度,pθ(ws)表示t时刻从模型采样的单词对应模型参数θ的策略值。
在实践中,期望梯度可以通过使用单个蒙特卡洛抽样从pθ中抽样ws近似,对于minibatch(迷你批处理)中每个训练样例:
强化算法给出的策略可以推广计算每个动作值对于参考值或基线b的奖励:
这里的基线b可以是不依赖于动作ws的任意函数,因为在这种情况下,基线b不改变期望梯度,同时可以减少梯度估计的方差。对于每个训练样例,采用单个采样ws~pθ近似估计期望梯度:
根据链式法则和编码过程中注意力参数模型pθ
其中,st是注意力模型中SoftMax损失函数的输入,使用带有基线b的强化算法,
式中,pθ(wt|ht)表示参数模型在内部表示(ht)下的近似表示,是单词的one-hot向量表示;
SCST的思想是用当前模型在测试阶段生成词的奖励作为基线b,这样梯度可以改写为:
其中,即在测试阶段使用greedy decoding取概率最大的词来生成句子。使用此方法,在生成句子过程中,比基线b好的句子能够获得正向权重,反之则会被抑制,从而提高模型的训练效果,促使参数向期望值收敛。
S205、输出训练好的模型参数。
通过上述过程,本发明在自然场景图像标题生成技术image caption的基础上,对Encoder和Decoder做出优化调整,通过在Encoder特征提取网络中引入残差网络结果来提高特征图质量,在Decoder中加入注意力机制以提高目标描述的准确性,同时为提高训练质量,引入强化学习中自临界序列训练方法,有效加速了训练模型参数的收敛速度。
综上所述本发明具有如下优点:
1)本发明充分考虑遥感图像目标复杂、种类繁多的特征,以VGG模型为基础,引入残差网络结构,用于高分辨率遥感影像的特征图提取;根据特征图设计编码器(Encoder)和解码器(Decoder),构建两层LSTM模型实现对影像的描述,该方法充分考虑了遥感影像地物信息丰富,场景复杂多样的特点,能够快速准确地生成目标和场景之间的文本语义描述。
2)本发明采用自下而上和自上而下相结合的注意力机制:在典型目标和其他显著图像区域的基础上进行计算,由自下而上的注意力机制获得一组具有显著性的图像区域,由汇集的卷积特征向量进行表示,将卷积特征与真实特征串联实现特征编码,能够获得更为准确的预选区域;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征,能够更好地提取并使用目标的特征信息,生成更准确的描述。
3)本发明所采用的自上而下视觉注意模型中包括两层LSTM模型:第一层通过计算特征编码和词嵌入矩阵实现自上而下的注意力,第二层结合第一层的输出和图像特征实现语言模型,进而快速准确的生成文本语义描述。
4)采用强化学习中自临界序列训练法SCST加速模型收敛:将生成序列的LSTM看作一个智能体agent,每生成一个正确的单词描述赋予网络一个正向权重,并且通过greedydecoding得到奖励的基线,避免了单独对强化学习模型进行训练,因此可以在不额外增加大量网络参数的条件下,加速网络的收敛,进而提高生成描述的质量。
上面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,不能理解为对本发明保护范围的限制。
总之,本发明虽然列举了上述优选实施方式,但是应该说明,虽然本领域的技术人员可以进行各种变化和改型,除非这样的变化和改型偏离了本发明的范围,否则都应该包括在本发明的保护范围内。

Claims (5)

1.一种面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,包括以下步骤:
S100、数据缩放裁剪:获取用于测试的遥感图像,并对遥感图像进行缩放裁剪;
S200、输入Encoder模型处理:导入训练好的模型参数,重用模型以保证其有效性,经过多层卷积神经网络后输出特征图;
S300、输入Decoder模型处理:在基于LSTM模型的Decoder模型中,通过LSTM模型实现图像的特征映射和词嵌入;
S400、生成文本描述:在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果;
S500、输出遥感图像文本描述结果;
所述注意力机制选用自下而上和自上而下相结合的注意力机制:自下而上的注意力机制用于获得一组具有显著性的图像区域,每个区域由汇集的卷积特征向量表示;自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布,然后将附属特征向量计算为所有区域上的图像特征的加权平均,从而更好地提取出并使用特征图的特征信息;
所述自下而上的注意力机制,针对遥感图像的卷积神经网络,在提取特征图的特征信息过程中,具体表现为:
第一步、通过卷积核在图像上滑动,在每个空间位置预测出类别,对多种比例目标的边界框进行细化,并使用交并比阈值对每个对象类别执行非极大值抑制;
第二步、将提取出的显著区域合并进行批量处理,输入至卷积神经网络最后一层,并且将每个选择的区域的卷积特征与真实特征串联,馈送到定义类别属性的SoftMax层中,最终获得了更为精准的预选区域;
所述自上而下的视觉注意力机制具有两层的LSTM模型,第一层用于实现自上而下的注意力,第二层用于实现语言模型,且所述自上而下的视觉注意力机制遵循以下公式:
ht=LSTM(xt,ht-1) (7)
式中,xt和ht分别是LSTM的输入向量和输出向量,ht-1表示上一时刻LSTM的输出向量,则第一层LSTM模型公式如下:
αt=softmax(at) (10)
式中,表示第一层LSTM的输入向量,根据LSTM模型、特征图向量和词嵌入计算得到,表示特征图的平均池化卷积特征值,We是词嵌入矩阵,Πt是时间t内输入词的one-hot编码,ai,t是特征图中的关注度权重,Wva、Wha、/>分别表示学习参数,vi表示第i个区域特征图的池化卷积特征值,αt表示vi对应注意力权重经SoftMax损失函数计算输出的值,/>表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值,第一层的输出和图像特征共同组成了第二层的输出:
式中,表示t时刻第二层LSTM模型即语言生成模型LSTM模块的输入向量,/>表示t时刻第一层LSTM模型的输出向量,y1:T指代单词序列(y1,...,yt),p(yt|y1:t-1)指代每个时间步骤t可能输出的条件分布,p(y1:T)指完整的条件分布,Wp和bp分别是学习的权重和偏差。
2.根据权利要求1所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述步骤S200中模型参数的训练过程如下:
S201、数据预处理:输入遥感图像训练数据集并进行缩放,将训练数据集中每幅图像对应的多个文本描述标签转化为序列号,且将该序列号与图像建立映射关系,完成图像和序列的匹配;
S202、构建Encoder模型:所述Encoder模型以VGG网络为框架,加入残差网络结构优化模型性能,通过加载预训练的VGG网络,并通过定义函数实现网络的重用,将VGG网络的输出作为原始图片的特征图表示;
S203、构建Decoder模型:以LSTM模型为基础,在初始化权重、定义超参数和输出占位符后,经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段,实现词嵌入与特征映射;
S204、模型训练:引入注意力机制,并通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛;
S205、输出训练好的模型参数。
3.根据权利要求2所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述VGG网络使用五组卷积层和三组全连接层,且其卷积核的大小为3*3和1*1。
4.根据权利要求3所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o:存储单元C用于对每个时间步骤的数据编码,其运行取决于门控单元,如果门的值为1,代表保留门控层中的值,如果门的值为0,则舍弃门控层中的值;遗忘门f决定是否忘记当前单元格值;输入门i决定是否应该读取其输入;输出门o决定是否输出新的单元格值;且门控单元的更新和输出遵循下列公式:
it=σ(Wixxt+Wimmt-1) (1)
ft=σ(Wfxxt+Wfmmt-1) (2)
ot=σ(Woxxt+Wommt-1) (3)
式中,it表示输入门参数,σ代表非线性函数Sigmoid,xt表示t时刻数据的输入,mt-1表示t-1时刻反馈给SoftMax损失函数的值,Wix矩阵表示输入门的训练参数,Wim矩阵表示输入门对应m值的训练参数,ft表示遗忘门参数,Wfx矩阵表示遗忘门的训练参数,Wfm矩阵表示遗忘门对应m值的训练参数,ot表示输出门参数,Wox矩阵表示输出门的训练矩阵,Wom矩阵表示输出门对应m值的训练参数;
单元格值的更新和输出遵循如下公式:
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (4)
mt=ot⊙ct (5)
pt+1=Softmax(mt) (6)
式中,ct表示一个LSTM存储单元t时刻的值,ct-1表示该单元t-1时刻的值,⊙表示具有门值的乘积,Ecx矩阵表示一个LSTM存储单元的训练参数,Wcm矩阵表示一个LSTM存储单元对应m值的训练参数,mt表示t时刻反馈给SoftMax损失函数的值,h代表双曲正切tanh函数,pt+1表示将mt通过SoftMax损失函数生成概率分布pt
5.根据权利要求4所述的面向卫星在轨应用的遥感影像文本智能描述方法,其特征在于,所述步骤S204中通过强化学习中自临界序列训练法进行优化训练,促使参数向期望值收敛具体表现为:生成序列的LSTM看作一个智能体,单词和图像特征看作环境,网络参数θ定义为策略pθ,推测动作则是预测的下一个单词,每经历一个动作,智能体更新内部状态,每正确生成一个单词序列,智能体得到一个正向激励,并且通过greedy decoding得到奖励的基线,从而提高模型的训练效果,促使参数向期望值收敛。
CN202010698092.0A 2020-07-20 2020-07-20 一种面向卫星在轨应用的遥感影像文本智能描述方法 Active CN111832501B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010698092.0A CN111832501B (zh) 2020-07-20 2020-07-20 一种面向卫星在轨应用的遥感影像文本智能描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010698092.0A CN111832501B (zh) 2020-07-20 2020-07-20 一种面向卫星在轨应用的遥感影像文本智能描述方法

Publications (2)

Publication Number Publication Date
CN111832501A CN111832501A (zh) 2020-10-27
CN111832501B true CN111832501B (zh) 2023-09-29

Family

ID=72924131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010698092.0A Active CN111832501B (zh) 2020-07-20 2020-07-20 一种面向卫星在轨应用的遥感影像文本智能描述方法

Country Status (1)

Country Link
CN (1) CN111832501B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508096B (zh) * 2020-12-08 2022-03-25 电子科技大学 一种基于几何自注意力机制的图像自动标注方法
CN112948604A (zh) * 2021-02-01 2021-06-11 西北工业大学 具备多语义层级注意能力的遥感影像文本描述生成方法
CN112949711B (zh) * 2021-02-26 2023-10-27 中国科学院软件研究所 面向软件定义卫星的神经网络模型可复用训练方法、装置
CN113139644B (zh) * 2021-03-24 2024-02-09 北京科技大学顺德研究生院 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
CN113140023B (zh) * 2021-04-29 2023-09-15 南京邮电大学 一种基于空间注意力的文本到图像生成方法及系统
CN112926729B (zh) * 2021-05-06 2021-08-03 中国科学院自动化研究所 人机对抗智能体策略制定方法
CN113239886B (zh) * 2021-06-04 2024-03-19 合肥工业大学智能制造技术研究院 基于跨语言图像变化描述的井下管道泄漏描述方法及装置
CN113297855B (zh) * 2021-06-25 2023-08-18 中国人民解放军战略支援部队航天工程大学 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法
CN113312925B (zh) * 2021-06-25 2022-10-28 中国人民解放军战略支援部队航天工程大学 一种基于自强化学习的遥感影像文本生成及优化方法
CN113420680B (zh) * 2021-06-25 2022-10-28 中国人民解放军战略支援部队航天工程大学 一种基于gru注意力的遥感影像区域关注与文本生成方法
CN113627424B (zh) * 2021-07-14 2023-09-12 重庆师范大学 一种协同门控循环融合lstm图像标注方法
CN113743515B (zh) * 2021-09-08 2022-03-11 感知天下(北京)信息科技有限公司 基于自监督自学习特征点的遥感影像特征匹配方法
CN114882488A (zh) * 2022-05-18 2022-08-09 北京理工大学 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN116912851A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 图像处理方法、装置、电子设备和可读存储介质
CN117197701B (zh) * 2023-11-07 2024-02-13 广州天地林业有限公司 基于图像分析的保护区环境空间特征分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619313A (zh) * 2019-09-20 2019-12-27 西安电子科技大学 遥感图像判别性描述生成方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619313A (zh) * 2019-09-20 2019-12-27 西安电子科技大学 遥感图像判别性描述生成方法
CN111126282A (zh) * 2019-12-25 2020-05-08 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多尺度特征的图像描述生成模型;周星光;靳华中;徐雨东;李晴晴;胡满;;湖北工业大学学报(02);全文 *
基于深度学习的结构化图像标注研究;姚义;王诗珂;陈希豪;林宇翩;;电脑知识与技术(33);全文 *

Also Published As

Publication number Publication date
CN111832501A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111832501B (zh) 一种面向卫星在轨应用的遥感影像文本智能描述方法
Zheng et al. A full stage data augmentation method in deep convolutional neural network for natural image classification
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN110929610B (zh) 基于cnn模型和迁移学习的植物病害识别方法及系统
CN108805157B (zh) 基于部分随机监督离散式哈希的遥感图像分类方法
CN110245364B (zh) 零平行语料多模态神经机器翻译方法
CN111859978A (zh) 一种基于深度学习的情感文本生成方法
CN111741330A (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN110083702B (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN117475038B (zh) 一种图像生成方法、装置、设备及计算机可读存储介质
CN113994341A (zh) 面部行为分析
CN114494718A (zh) 一种图像分类方法、装置、存储介质及终端
CN111046178B (zh) 一种文本序列生成方法及其系统
CN113626589A (zh) 一种基于混合注意力机制的多标签文本分类方法
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
Zhu et al. Multi-scale temporal network for continuous sign language recognition
Ak et al. Incorporating reinforced adversarial learning in autoregressive image generation
Yu et al. Diffusion-based data augmentation for nuclei image segmentation
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN113869005A (zh) 一种基于语句相似度的预训练模型方法和系统
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN116957921A (zh) 图像渲染方法、装置、设备及存储介质
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
Zia et al. Text-to-image generation with attention based recurrent neural networks
CN116543289A (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant