CN110619313B - 遥感图像判别性描述生成方法 - Google Patents
遥感图像判别性描述生成方法 Download PDFInfo
- Publication number
- CN110619313B CN110619313B CN201910893945.3A CN201910893945A CN110619313B CN 110619313 B CN110619313 B CN 110619313B CN 201910893945 A CN201910893945 A CN 201910893945A CN 110619313 B CN110619313 B CN 110619313B
- Authority
- CN
- China
- Prior art keywords
- model
- remote sensing
- attention
- sentence
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000002787 reinforcement Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 235000019987 cider Nutrition 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 239000003999 initiator Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种遥感图像判别性描述生成方法,对前文已生成序列添加注意力的方法更加适合遥感图像描述场景中对象关系较为固定、描述句子较为简单的情况,这一改进方法适用于各种语言生成模型,可以是语言模型对遥感图像生成更加准确流畅的描述;本发明还提出了一种新颖的基于间隔性损失的训练目标,通过最小化这一损失可以鼓励语言模型对遥感图像生成更加具有判别性的描述。本发明针对遥感图像的特点,提出了两种改进方法,使模型的性能得到了显著的提高。
Description
技术领域
本发明属于遥感图像理解技术领域,具体涉及一种遥感图像判别性描述生成方法。
背景技术
现代航天遥感技术随着卫星技术的发展,对地观测能力大幅提升,通过获取到的遥感数据,可以在军用和民用上都发挥重要的作用。为了更加充分利用这些遥感数据并且减少人力物力的耗费,设计网络自动地理解遥感图像并且在语义层面上将遥感图像的内容准确流畅地描述出来成为一个十分有意义的工作。然而在高分辨遥感领域主要的关注点还是集中在目标检测,地物分类,语义分割等方面,这些研究可以识别图片中的物体但无法给出图片中物体之间的关系,而遥感图像描述自动生成的句子可以大体反映图片内容并且给出更多的对象关系等细节信息。
在自然图像描述生成的方法中,基于神经网络的方法是目前最主流的方法,这种方法大多数基于编码器-解码器的模型框架,编码器一般是一个CNN网络用于提取图片特征,解码器是一个循环神经网络(RNN或LSTM),它将图片特征作为输入产生图片的句子描述。受启发于自然图像领域描述生成的发展,遥感图像的描述生成也借鉴了自然图像中的方法提高生成句子的准确性和流畅度。
遥感图像是采取自上而下的拍摄方式捕捉的地面物体的图像,传感器的的位置不同时,对于相同对象会呈现出不同的大小和相对位置。而且在采集遥感图像过程中容易受到光照、遮挡、距离等周围环境的影响,会造成目标遥感图像特征模糊,这使得遥感图像的语义层次的理解变得更加困难。针对遥感图像描述生成的难点,在语言模型中预测单词时使用对已生成前文序列的注意力机制可以更加有效地利用图像中对象和环境的关系,生成更加流畅且符合图片内容的描述。
另外一个各方面,在遥感图像的描述生成中,有一个十分常见的现象是对于两个场景内容差不多的遥感图像,语言模型可能会给出一摸一样的描述而无视他们的细节和差别,相对的,我们人类则能够很好的察觉的他们之间的不同,给出具有判别性的描述。为了减小模型生成的句子和我们人类之间给出的描述之间的判别性差距,并且提高模型对于特定遥感图像生成句子的判别性和独特性,在训练损失中引入了一个直接与句子判别性相关的部分,通过最小化这个训练损失部分可以有效的极高模型生成句子的判别性。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种遥感图像判别性描述生成方法,通过卷积神经网络提取图像特征,结合利用注意力机制和一种新颖的基于相似度差距的训练损失来提高提高语言模型生成句子的准确性和判别性。
本发明采用以下技术方案:
一种遥感图像判别性描述生成方法,包括以下步骤:
S1、利用卷积神经网络提取遥感图片的卷积特征,得到遥感图像的局部特征;
S2、在每个时刻,通过注意力机制计算不同局部特征的标准化注意力权重,对局部区域加权得到加权局部特征;
S3、在每个时刻,通过注意力机制计算前文已生成序列的每个单词的标准化注意力权重加权得到加权前文特征;
S4、将步骤S2和S3得到的加权局部特征和加权前文特征,以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量,获得当前时刻的隐藏态;
S5、基于当前的隐藏态,输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布;
S6、利用最大似然估计方法训练图像描述生成模型,得到模型中需要学习的参数,训练目标是最小化交叉熵损失;
S7、预训练一个检索模型,利用检索模型计算图像描述生成模型生成的句子与图片的相似度;
S8、引入基于图文相似度间隔的训练损失部分,最小化这一部分损失,鼓励语言模型生成具有判别性的句子;
S9、利用强化学习算法继续训练语言生成模型,在这一过程中的奖励回报由两个部分组成,分别是CIDEr得分和检索模型回报;
S10、在测试阶段仅保留语言生成模型,从生成起始符“<BOS>”开始,由上一个时刻的隐藏态引导下一个时刻单词的生成,每个时刻生成一个单词,直到生成停止符“<EOS>”,句子生成结束。
具体的,步骤S1中,采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet卷积神经网络对遥感图像提取卷积特征,得到特征图,将特征图的形状进行重塑,接全连接层,降低特征图的维度。
具体的,步骤S2具体为:
S201、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块可以产生对所有的局部区域特征的标准化的注意力权重,计算过程为:
βt=softmax(bt)
其中,bi,t是βt的第i个元素,是学习的参数,βt表示标准化的区域注意力分布,它的第i个元素bi,t是区域特征vi的注意力概率值;
S202、通过分配给所有的局部区域由S202步骤得到的不同注意力权重,加上注意力后局部区域特征为:
。
具体的,步骤S3具体为:
S301、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块可以对所有的前文已生成序列的m个词向量si计算出一个标准化的注意力权重,计算过程为:
αt=softmax(at)
其中,ai,t是at的第i个元素,以及/>是学习的参数,αt表示标准化的前文注意力分布,它的第i个元素αi,t是前文单词向量si的注意力权重值;
S302、由步骤S301得到的权重,对前文已生成的词向量加权的的前文特征为:
其中,m表示语言模型已生成的序列中包含m个单词。
具体的,步骤S4中,在每个时刻t,把当前时刻输入的单词向量wt,利用注意力机制加权后的局部区域特征利用注意力机制加权后的前文已生成序列特征/>以及LSTM单元的前一时刻的隐藏态ht-1作为当前时刻解码器模块的输入xt,得到当前时刻的隐藏态输出ht;具体为:
当前时刻输入的单词向量wt通过词向量表示模型GloVe作为嵌入工具表示得到;
当前时刻的隐藏态的计算过程为:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
gt=σ(Wgxt+Ught-1+bg)
mt=f⊙mt-1+it⊙gt
ht=ot⊙φ(mt)
基本的LSTM更新过程简化为:
ht=LSTM(xt,ht-1)。
具体的,步骤S5具体为:
S501、根据ht通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果,根据概率分布结果抽样得到预测的单词,计算公式表示为:
其中,是要学习的权重参数,d是隐藏态的数量,v词汇表的大小;
把数据集中所有的图片描述转为小写,去掉在整个数据集中出现次数少于5次的单词,建立了一个包含了个单词的词汇表;
S502、整个遥感图像描述句子的条件分布表示为:
。
具体的,步骤S6中,交叉熵损失表示为:
其中,θ是模型中要学习的参数,是当前遥感图片的人工描述语句。
具体的,步骤S7具体为:
S701、把图片和文本映射到同一个语义空间,对于图片,利用CNN网络作为编码器提取图片特征φ(I);对于句子,利用基于RNN的文本编码器编码文本信息,得到通过两个编码器将图片特征和文本特征映射到同一个语义空间后,计算图文之间的相似度;
S702、在同一个嵌入空间中,遥感图片和生成的描述之间的相似度通过余弦相似度s(I,y)计算如下:
。
具体的,步骤S8具体为:
定义损失部分如下:
(x)+=max(x,0)
其中,Yi是语言模型对于当前输入图片Ii生成的句子,{I1,I2,…,In}是一个batch中所有的图片,yij可取的值为1或者-1,sij表示Yi与Ij的图文相似度,β是一个变量可以决定匹配的和不匹配的图文对之间相似度的界限,α控制着相似度的分隔距离。
具体的,步骤S9具体为:
S901、在利用强化学习算法训练模型时,目标是最小化采样得到的句子描述的负的期望奖励:
其中,是根据单词的概率分布抽样得到的预测句子,r表示该句子所得到的奖励,θ是模型学习到的参数,它能够决定下一个单词的预测结果;
S902、使用带有基线的强化学习算法,期望奖励的梯度近似计算为:
其中,b是取的贪婪解码得到的句子描述的回报;
S903、在模型中,对于每个抽样得到的句子描述奖励由两个部分组成的:这个句子的CIDEr得分和S6步骤中的检索奖励,具体关系表示为:
其中,λ是用来平衡两个奖励的权重,是相似性间隔损失。
与现有技术相比,本发明至少具有以下有益效果:
本发明针对遥感图像场景中对象关系较为固定,人工标注描述句子较为简单的特点,设计使用了对语言模型已生成前文序列添加注意力的策略,这可以鼓励语言模型利用前文已生成序列中更加重要的单词参与预测当前单词,这有效地提高了生成描述的准确性和流畅性;针对遥感图像描述生成中对于两幅相似的图片会生成相同描述的问题,在训练目标中引入了一个基于相似性的判别损失部分。通过最小化这一部分损失可以有效提高生成句子的判别性,将特定图片生成的描述与其他图片的描述区分开来。
进一步的,在步骤S1中利用卷积神经网络能够捕捉图片在不同尺度上的特征,提取到丰富的图片信息。
进一步的,步骤S2中利用attention模块为不同的区域分配权重,得到加权图片特征,将加权图像特征作为单词预测的指导信息。模型根据权值的不同,在生成单词时选择性地关注当前应当关注的图片区域,提高预测单词与图片区域的对应关系,提高语句的准确度。
进一步的,步骤S3中对前文已生成的各个单词产生不同的注意力权重,利用前文信息对于当前生成单词的指导作用,丰富了引导单词生成的信息来源,提高预测单词的准确性。
进一步的,在步骤S4中,加权图像特征、加权前文特征、当前时刻输入的单词向量以及前一时刻的隐藏态共同作为LSTM单元的输入,获得当前时刻的隐藏态,当前时刻的隐藏态作为指导信息,预测当前时刻生成的单词。
进一步的,在步骤S5中,当前时刻的隐藏态作为指导信息送入softmax层,得到在整的词汇表上的概率分布,取概率最大的单词作为当前时刻的预测结果。
进一步的,步骤S6中,利用交叉熵损失训练当前的模型,得到一个基本的描述生成模型,以这个初始模型作为基础,进行第二阶段判别性描述生成的训练。
进一步的,步骤S7中预训练了一个检索模型,利用这个检索模型可以计算生成的句子和图片之间的相似性。
进一步的,步骤S8中引入了一个基于图文相似度间隔的训练损失部分,这一训练损失与生成的句子的判别性直接相关。其中损失中的两个参数α,β可以灵活地调节,通过最小化这一损失,可以选择合适的样本对模型进行训练,引导模型生成更加具有判别性的描述。直观上来看,这一损失部分希望匹配的图文之间的相似度大于α+β,不匹配的图文对之间的相似度小于α-β。
进一步的,步骤S9中将模型生成的句子CIEDr得分和步骤S8中的基于图文相似度间隔的训练损失作为强化学习中奖励的两个组成部分,其中CIDEr得分可以保证生成的句子的准确性,基于图文相似度间隔的训练损失部分可以提高句子的判别性。
综上所述,本发明基于对前文的注意力机制和相似性间隔可以对遥感图像生成判别性更高的图像描述。其中对前文的注意力机制利用了语句中前后文的关系,将前文已经生成的单词作为当前的预测单词的指导信息,提高生成的语句的流畅程度和准确性。另外,我们引入了一个基于相似度间隔的损失作为训练损失的一部分,最小化这一损失,生成的句子可以突出地描述两张相似图片的独特之处,提高描述的判别性。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的总流程图;
图2为本发明中提出的对已生成前文序列添加使用注意力机制示意图;
图3为本发明方法生成的判别性示意图,其中,(a)为海水旁有沙滩,(b)为海浪拍打沙滩,(c)为一个操场被绿树环绕,(d)为有一个很大的操场,操场周围停着很多车。
具体实施方式
本发明提供了一种基于前文注意力和相似性间隔损失的遥感图像判别性描述生成方法,对前文已生成序列添加注意力的方法更加适合遥感图像描述场景中对象关系较为固定、描述句子较为简单的情况,这一改进方法适用于各种语言生成模型,可以是语言模型对遥感图像生成更加准确流畅的描述;本发明还提出了一种新颖的基于间隔性损失的训练目标,通过最小化这一损失可以鼓励语言模型对遥感图像生成更加具有判别性的描述。本发明针对遥感图像的特点,提出了两种改进方法,使模型的性能得到了显著的提高。
请参阅图1,本发明一种遥感图像判别性描述生成方法,包括以下步骤:
S1、利用卷积神经网络提取遥感图片的卷积特征,得到遥感图像的局部特征;
采用ResNet101网络对遥感图像提取卷积特征,得到形状为14*14*2048的特征图。将特征图的形状重塑为196*2048,接全连接层,将特征图的维度由2048降至512,得到196*512的特征图,每个512维的向量表示图像一个局部区域的特征,记录为v1,v2,v3…v196;卷积神经网络采用VGG16、VGG19、AlexNet、GoogLeNet或ResNet;
S2、在每个时刻,通过注意力机制计算不同局部特征的标准化注意力权重,对局部区域加权得到加权局部特征;
S201、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块可以产生对所有的局部区域特征的标准化的注意力权重,计算过程为:
βt=softmax(bt)
其中,bi,t是βt的第i个元素,是学习的参数,βt表示标准化的区域注意力分布,它的第i个元素bi,t是区域特征vi的注意力概率值;
S202、通过分配给所有的局部区域由S202步骤得到的不同注意力权重,加上注意力后局部区域特征为:
。
S3、在每个时刻,通过注意力机制计算前文已生成序列的每个单词的标准化注意力权重加权得到加权前文特征;
S301、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块可以对所有的前文已生成序列的m个词向量si计算出一个标准化的注意力权重,计算过程为:
αt=softmax(at)
其中,ai,t是at的第i个元素,是学习的参数,αt表示标准化的前文注意力分布,它的第i个元素αi,t是前文单词向量si的注意力权重值;
S302、由步骤S301得到的权重,对前文已生成的词向量加权的的前文特征为:
其中,m表示语言模型已生成的序列中包含m个单词;
S4、将步骤S2和S3得到的加权局部特征和加权前文特征,以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量,获得当前时刻的隐藏态;
在每个时刻t,把当前时刻输入的单词向量wt,利用注意力机制加权后的局部区域特征利用注意力机制加权后的前文已生成序列特征/>以及LSTM单元的前一时刻的隐藏态ht-1作为当前时刻解码器模块的输入xt,得到当前时刻的隐藏态输出ht;
S401、当前时刻输入的单词向量wt通过词向量表示模型GloVe作为嵌入工具表示得到的;
S402、当前时刻的隐藏态的计算过程为:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
gt=σ(Wgxt+Ught-1+bg)
mt=f⊙mt-1+it⊙gt
ht=ot⊙φ(mt)
为了简化表示,把基本的LSTM更新过程写作:
ht=LSTM(xt,ht-1)
S5、基于当前到的隐藏态,将其输入到一个softmax层得到当前时刻预测单词在整个词汇表上的概率分布;
S501、根据得到的ht通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果,根据这个概率分布结果抽样得到预测的单词,计算公式表示为:
其中,是要学习的权重参数,d是隐藏态的数量,v词汇表的大小;
词汇表的建立:把数据集中所有的图片描述转为小写,去掉在整个数据集中出现次数少于5次的单词,建立了一个包含了个单词的词汇表;
S502、整个遥感图像描述句子的条件分布可以表示为:
S6、先利用传统的最大似然估计的方法训练图像描述生成模型,得到模型中需要学习的参数,训练目标是最小化交叉熵损失,交叉熵损失表示为:
其中,θ是模型中要学习的参数,是当前遥感图片的人工描述语句(GroundTruth);
S7、预训练一个检索模型,利用检索模型可以计算图像描述生成模型生成的句子与图片的相似度;
S701、首先要把图片和文本映射到同一个语义空间。对于图片,利用CNN网络作为编码器提取图片特征φ(I)。对于句子,利用基于RNN的文本编码器编码文本信息,得到通过这样两个编码器可以将图片特征和文本特征映射到同一个语义空间后即可计算图文之间的相似度;
S702、在同一个嵌入空间中,遥感图片和生成的描述之间的相似度可以通过余弦相似度来计算,计算公式如下:
S8、引入一个基于图文相似度间隔的训练损失部分,最小化这一部分损失可以鼓励语言模型生成更加具有判别性的句子;
S801、损失部分定义如下:
(x)+=max(x,0)
其中,Yi是语言模型对于当前输入图片Ii生成的句子,{I1,I2,…,In}是一个batch中所有的图片,yij可取的值为1或者-1(当取值为1是,表示匹配的文图对即为Ii与Yi;当取值为-1,表示的是不匹配的文图对即为Yi与batch中的其他图片),sij表示Yi与Ij的图文相似度,β是一个变量可以决定匹配的和不匹配的图文对之间相似度的界限,α控制着相似度的分隔距离;
S802、通过最小化这一训练损失部分可以使得检索模型给匹配的图文对的相似度得分更高而对于不匹配的图文对的得分更低,通过加上这样的控制可以鼓励语言模型生成与当前图片更加匹配的句子,并且可以与其他图片区分开;
S9、利用强化学习算法继续训练语言生成模型,在这一过程中的奖励回报由两个部分组成,分别是CIDEr得分和检索模型回报。对于每张输入的遥感图片,语言模型会基于一个概率分布采样得到句子中的每个单词,由于这个采样的过程是不可以微分的,我们不能直接使用梯度下降的方法进行反向传播来最小化损失函数,因此接下来利用强化学习的算法来继续训练我们的描述生成模型;
S901、在利用强化学习算法训练模型时,我们的目标是最小化采样的得到的句子描述的负的期望奖励:
其中,是根据单词的概率分布抽样得到的预测句子,r表示该句子所得到的奖励,θ是模型学习到的参数,它能够决定下一个单词的预测结果;
S902、使用带有基线的强化学习算法,那么这个期望奖励的梯度可以近似计算表示为:
其中,b是取的贪婪解码得到的句子描述的回报;
S903、在模型中,对于每个抽样得到的句子描述它的奖励都是由两个部分组成的:这个句子的CIDEr得分和S6步骤中的检索奖励。它们之间的关系表示为:
其中,λ是用来平衡两个奖励的权重,是相似性间隔损失。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
1.仿真条件
本发明仿真实验的硬件平台是:戴尔计算机Intel(R)Core5处理器,主频3.20GHz,内存64GB;仿真软件平台是:Python3.5,pytorch 0.4平台。
2.仿真内容
在RSICD数据集上,完成本发明的方法。RSICD数据集的划分标准为90%训练,10%测试。为了证明本发明的有效性,选用Attention to in模型作为基本模型,并在这个模型的基础上使用了本发明提出的方法,得到改进后的实验结果如下表所示。
使用的评价标准是是针对图像描述算法公认的评价指标,包括BLEU-1、BLEU-4、METEOR、ROUGE_L、CIDEr、SPICE。在六个评价指标中,得分越高表示句子描述效果越好,实验结果如下表:
从表中可以看出,本发明中的网络相比于使用图片注意力SCST:Att2in的方法,在各种直接标上都获得了更高的分数,因而表现更好,能够生成更精确的图像描述。
请参阅图2和图3,随机从测试集上选取了两组仿真结果,其中,图3(a)、(b)和(c)、(d)分别相似,生成的结果表明,本发明的方法生成的图像描述较为流畅准确,而且能够很好地区分两张相似的图片,具有较高判别性。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (1)
1.遥感图像判别性描述生成方法,其特征在于,包括以下步骤:
S1、利用VGG16、VGG19、AlexNet、GoogLeNet或ResNet卷积神经网络提取遥感图片的卷积特征,得到遥感图像的局部特征,将局部特征的形状进行重塑,接全连接层;
S2、在每个时刻,通过注意力机制计算不同局部特征的标准化注意力权重,对局部区域加权得到加权局部特征,具体为:
S201、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块产生对所有的局部区域特征的标准化的注意力权重,计算过程为:
βt=softmax(bt)
其中,bi,t是βt的第i个元素,是学习的参数,βt表示标准化的区域注意力分布,它的第i个元素bi,t是区域特征vi的注意力概率值;
S202、通过分配给所有的局部区域由步骤S201得到的不同注意力权重,加上注意力后局部区域特征为:
;
S3、在每个时刻,通过注意力机制计算前文已生成序列的每个单词的标准化注意力权重加权得到加权前文特征,具体为:
S301、根据LSTM单元前一时刻的隐藏态ht-1经过一个注意力模块可以对所有的前文已生成序列的m个词向量si计算出一个标准化的注意力权重,计算过程为:
αt=softmax(at)
其中,ai,t是at的第i个元素,以及/>是学习的参数,αt表示标准化的前文注意力分布,它的第i个元素αi,t是前文单词向量si的注意力权重值;
S302、由步骤S301得到的权重,对前文已生成的词向量加权的前文特征为:
其中,m表示语言模型已生成的序列中包含m个单词;
S4、将步骤S2和S3得到的加权局部特征和加权前文特征,以及当前时刻输入的单词向量和前一个时刻的LSTM的隐藏态作为LSTM单元的输入向量,获得当前时刻的隐藏态,在每个时刻t,把当前时刻输入的单词向量wt,利用注意力机制加权后的局部区域特征利用注意力机制加权后的前文已生成序列特征/>以及LSTM单元的前一时刻的隐藏态ht-1作为当前时刻解码器模块的输入xt,得到当前时刻的隐藏态输出ht;具体为:
当前时刻输入的单词向量wt通过词向量表示模型GloVe作为嵌入工具表示得到;
当前时刻的隐藏态的计算过程为:
it=σ(Wixt+Uiht-1+bi)
ft=σ(Wfxt+Ufht-1+bf)
ot=σ(Woxt+Uoht-1+bo)
gt=σ(Wgxt+Ught-1+bg)
mt=ft⊙mt-1+it⊙gt
ht=ot⊙φ(mt)
基本的LSTM更新过程简化为:
ht=LSTM(xt,ht-1);
S5、基于当前的隐藏态,输入至softmax层得到当前时刻预测单词在整个词汇表上的概率分布,步骤S5具体为:
S501、根据ht通过一个softmax层计算这一时刻在整个词汇表上所有单词上的概率分布结果,根据概率分布结果抽样得到预测的单词,计算公式表示为:
其中,是要学习的权重参数,d是隐藏态的数量,V词汇表的大小;
把数据集中所有的图片描述转为小写,去掉在整个数据集中出现次数少于5次的单词,建立了一个包含了个单词的词汇表;
S502、整个遥感图像描述句子的条件分布表示为:
;
S6、利用最大似然估计方法训练图像描述生成模型,得到模型中需要学习的参数,训练目标是最小化交叉熵损失,交叉熵损失表示为:
其中,θ是模型中要学习的参数,是当前遥感图片的人工描述语句;
S7、预训练一个检索模型,利用检索模型计算图像描述生成模型生成的句子与图片的相似度,具体为:
S701、把图片和文本映射到同一个语义空间,对于图片,利用CNN网络作为编码器提取图片特征φ(I);对于句子,利用基于RNN的文本编码器编码文本信息,得到通过两个编码器将图片特征和文本特征映射到同一个语义空间后,计算图文之间的相似度;
S702、在同一个嵌入空间中,遥感图片和生成的描述之间的相似度通过余弦相似度s(I,y)计算如下:
;
S8、引入基于图文相似度间隔的训练损失部分,最小化这一部分损失,鼓励语言模型生成具有判别性的句子,定义损失部分如下:
lmargin(Yi,{I1,I2,…,In})=(α-yij(sij-β))+
(x)+=max(x,0)
其中,Yi是语言模型对于当前输入图片Ii生成的句子,{I1,I2,…,In}是一个batch中所有的图片,yij可取的值为1或者-1,sij表示Yi与Ij的图文相似度,β是一个变量可以决定匹配的和不匹配的图文对之间相似度的界限,α控制着相似度的分隔距离;
S9、利用强化学习算法继续训练语言生成模型,在这一过程中的奖励回报由两个部分组成,分别是CIDEr得分和检索模型回报,具体为:
S901、在利用强化学习算法训练模型时,目标是最小化采样得到的句子描述的负的期望奖励:
其中,是根据单词的概率分布抽样得到的预测句子,r表示该句子所得到的奖励,θ是模型学习到的参数,它能够决定下一个单词的预测结果;
S902、使用带有基线的强化学习算法,期望奖励的梯度近似计算为:
其中,b是取的贪婪解码得到的句子描述的回报;
S903、在模型中,对于每个抽样得到的预测句子奖励由两个部分组成的:这个句子的CIDEr得分和检索模型的奖励回报,具体关系表示为:
其中,λ是用来平衡两个奖励的权重,lmargin是相似性间隔损失;
S10、在测试阶段仅保留语言生成模型,从生成起始符“<BOS>”开始,由上一个时刻的隐藏态引导下一个时刻单词的生成,每个时刻生成一个单词,直到生成停止符“<EOS>”,句子生成结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893945.3A CN110619313B (zh) | 2019-09-20 | 2019-09-20 | 遥感图像判别性描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910893945.3A CN110619313B (zh) | 2019-09-20 | 2019-09-20 | 遥感图像判别性描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619313A CN110619313A (zh) | 2019-12-27 |
CN110619313B true CN110619313B (zh) | 2023-09-12 |
Family
ID=68923760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910893945.3A Active CN110619313B (zh) | 2019-09-20 | 2019-09-20 | 遥感图像判别性描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619313B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860235B (zh) * | 2020-07-06 | 2021-08-06 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
CN111832501B (zh) * | 2020-07-20 | 2023-09-29 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的遥感影像文本智能描述方法 |
CN112037239B (zh) * | 2020-08-28 | 2022-09-13 | 大连理工大学 | 基于多层次显式关系选择的文本指导图像分割方法 |
CN112070069A (zh) * | 2020-11-10 | 2020-12-11 | 支付宝(杭州)信息技术有限公司 | 遥感图像的识别方法和装置 |
CN113312925B (zh) * | 2021-06-25 | 2022-10-28 | 中国人民解放军战略支援部队航天工程大学 | 一种基于自强化学习的遥感影像文本生成及优化方法 |
CN113297855B (zh) * | 2021-06-25 | 2023-08-18 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1045314A2 (en) * | 1999-04-15 | 2000-10-18 | Canon Kabushiki Kaisha | Search engine user interface |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
WO2018170671A1 (en) * | 2017-03-20 | 2018-09-27 | Intel Corporation | Topic-guided model for image captioning system |
CN109885796A (zh) * | 2019-01-25 | 2019-06-14 | 内蒙古工业大学 | 一种基于深度学习的网络新闻配图匹配性检测方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110135567A (zh) * | 2019-05-27 | 2019-08-16 | 中国石油大学(华东) | 基于多注意力生成对抗网络的图像字幕生成方法 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10504010B2 (en) * | 2015-10-02 | 2019-12-10 | Baidu Usa Llc | Systems and methods for fast novel visual concept learning from sentence descriptions of images |
-
2019
- 2019-09-20 CN CN201910893945.3A patent/CN110619313B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1045314A2 (en) * | 1999-04-15 | 2000-10-18 | Canon Kabushiki Kaisha | Search engine user interface |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
WO2018170671A1 (en) * | 2017-03-20 | 2018-09-27 | Intel Corporation | Topic-guided model for image captioning system |
CN107066973A (zh) * | 2017-04-17 | 2017-08-18 | 杭州电子科技大学 | 一种利用时空注意力模型的视频内容描述方法 |
CN109885796A (zh) * | 2019-01-25 | 2019-06-14 | 内蒙古工业大学 | 一种基于深度学习的网络新闻配图匹配性检测方法 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110135567A (zh) * | 2019-05-27 | 2019-08-16 | 中国石油大学(华东) | 基于多注意力生成对抗网络的图像字幕生成方法 |
CN110210499A (zh) * | 2019-06-03 | 2019-09-06 | 中国矿业大学 | 一种图像语义描述的自适应生成系统 |
Non-Patent Citations (1)
Title |
---|
Self-critical Sequence Training for Image Captioning;Steven J. Rennie等;《IEEE Conference on Computer Vision and Pattern Recognition》;20171116;第1-16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110619313A (zh) | 2019-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619313B (zh) | 遥感图像判别性描述生成方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110147457B (zh) | 图文匹配方法、装置、存储介质及设备 | |
Su et al. | Learning chinese word representations from glyphs of characters | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN110929640B (zh) | 一种基于目标检测的宽幅遥感描述生成方法 | |
CN110083710B (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN107480132A (zh) | 一种基于图像内容的古诗词生成方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
Li et al. | Recurrent attention and semantic gate for remote sensing image captioning | |
CN110288665A (zh) | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 | |
CN112966135B (zh) | 一种基于注意力机制和门控机制的图文检索方法和系统 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN111144483A (zh) | 一种图像特征点过滤方法以及终端 | |
Zhao et al. | Depth-distilled multi-focus image fusion | |
CN109961041A (zh) | 一种视频识别方法、装置及存储介质 | |
CN111126221B (zh) | 一种融合双向视觉注意力机制的数学公式识别方法及装置 | |
CN113204675B (zh) | 一种基于跨模态物体推理网络的跨模态视频时刻检索方法 | |
CN113837229B (zh) | 一种知识驱动型的文本到图像生成方法 | |
Roy et al. | Tips: Text-induced pose synthesis | |
CN112801092B (zh) | 一种自然场景图像中字符元素检测方法 | |
CN112949628B (zh) | 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法 | |
CN113658690A (zh) | 一种智能导医方法、装置、存储介质以及电子设备 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |