CN116434058A - 基于视觉文本对齐的影像描述生成方法及系统 - Google Patents

基于视觉文本对齐的影像描述生成方法及系统 Download PDF

Info

Publication number
CN116434058A
CN116434058A CN202310220287.8A CN202310220287A CN116434058A CN 116434058 A CN116434058 A CN 116434058A CN 202310220287 A CN202310220287 A CN 202310220287A CN 116434058 A CN116434058 A CN 116434058A
Authority
CN
China
Prior art keywords
image
remote sensing
description generation
lstm
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310220287.8A
Other languages
English (en)
Inventor
邵振峰
黄海燕
高济远
张镇宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310220287.8A priority Critical patent/CN116434058A/zh
Publication of CN116434058A publication Critical patent/CN116434058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供一种基于视觉文本对齐的影像描述生成方法及系统,建立遥感影像描述生成模型,该模型进行遥感影像高级语义特征提取、多尺度特征融合,以及具有门控机制的自适应解码,包括提取遥感影像的多尺度特征信息,对提取的多尺度特征信息进行自适应融合,引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐;训练遥感影像描述生成模型,将待描述的遥感影像输入到训练好的影像描述生成模型中,得到相应的影像描述语句结果。本发明提供的遥感影像自动化描述生成方案,能够用于海量多源异构的遥感数据,提高影像分类、目标检测等任务的精度。

Description

基于视觉文本对齐的影像描述生成方法及系统
技术领域
本发明属于影像描述生成领域,更具体地,设计一种基于视觉文本对齐的影像描述生成方法及系统。
背景技术
随着遥感技术的快速发展,可获得的各类遥感数据越来越多,种类越来越丰富,分辨率也越来越高,人类迎来了大数据时代。如何高效利用海量多源的遥感数据,是遥感领域的重大应用需求。海量多源异构的遥感数据为各类重大应用提供了丰富数据源,但也对提取和挖掘隐藏在遥感大数据背后的各种信息和知识提出了更大的挑战。此外尽管目前遥感影像领域许多任务,例如影像分类、目标检测等取得了一定的研究进展,但遥感影像的描述生成不仅需要计算机模拟人的视觉识别影像语义内容,还需要将对影像的理解自动转化为准确、自然的描述语句,仍然是一项具有很大挑战性的工作。
传统的影像描述生成方法包括基于模板填充的影像描述生成以及基于检索方式的影像描述生成方法。基于模板的方法采用传统的机器学习算法提取影像特征,然后将提取到的特征填入到预定义好的模板中,从而生成影像的描述。其生成的描述语句能保证语法的准确性以及语义的流畅性,但是局限性在于采用固定的模板使句式单一,并且生成的句子缺乏多样性及新颖性。基于检索的方法采用相似性度量的方法在数据集中检索出待描述影像的相似影像,然后基于相似性影像的描述来获取待描述影像的描述。与基于模板的方法相比其生成的描述在句式方面相对灵活,但描述结果的好坏与检索性能相关联,当查询影像与数据集中的影像不相似时,不能保证语义方面是否正确。
随着深度学习技术的快速发展,以编解码结构为代表的模型在遥感影像描述生成领域得到了广泛应用。其中,由于卷积神经网络对于影像特征优秀的提取能力,使用在大规模数据集上预训练的CNN进行影像特征的提取,然后再将固定维度的特征向量送到循环神经网络、长短期记忆网络、门控循环单元中进行生成句子描述,是遥感影像描述生成任务中的有效方法,同时这种方法目前在语法正确性、语义流畅性以及语句多样性方面获得了最好的性能。但是,如何准确描述复杂场景遥感影像的视觉特征,并在影像区域和视觉词汇之间最大程度上消除语义歧义,仍然是制约目前遥感影像描述生成精度的主要因素。
专利文献CN113420680A提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法包括如下步骤:步骤S1、在编码器部分提取遥感影像特征信息,输出特征图;步骤S2、特征图和训练集中的文本信息共同作为解码器的输入;所述解码器中,包括GRU注意力网络及LSTM语言网络,所述GRU注意力网络在输入的特征图的单词生成前,对特征图的特征向量和特征图生成文本信息的单词计算权重系数,增加对重点区域的选择和关注度,最终输出单词和状态。该发明能够更为准确地在到遥感影像的预选区域中判断出重点区域,以生成更为准确的描述。
但是,上述专利没有考虑遥感图像的多尺度以及背景复杂性特性,此外,在解码过程中,没有考虑生成的注意力结果与查询之间的关联性,当预测比如“and”、“in”、“of”等介词时,这时可以通过语言模型对描述词进行预测。
发明内容
针对此问题,本发明提出了一种基于多尺度特征和视觉-文本对齐的遥感影像描述生成模型和系统,其目的在于提高遥感影像描述生成模型的性能。
本发明提供一种基于视觉文本对齐的影像描述生成方法,进行以下处理,
建立遥感影像描述生成模型,该模型进行遥感影像高级语义特征提取、多尺度特征融合,以及具有门控机制的自适应解码;
遥感影像高级语义特征提取,包括提取遥感影像的多尺度特征信息;
多尺度特征融合,包括对提取的多尺度特征信息进行自适应融合;
门控机制的自适应文本生成解码,包括引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐;
训练遥感影像描述生成模型,将待描述的遥感影像输入到训练好的影像描述生成模型中,得到相应的影像描述语句结果。
而且,通过利用在数据集ImageNet上预训练的模型来获取输入影像的视觉特征。
而且,利用VGG16提取遥感影像的视觉特征。
而且,所述遥感影像高级语义特征提取的实现方式为,首先在空间关系建模模块中通过不同大小的卷积核提取不同尺度的影像特征,接着,通道关系建模模块采用前一组经空间关系建模模块输出的特征向量和当前组经过卷积的特征向量的输出作为输入,实现过滤冗余信息,得到优化后的影像特征表示。
而且,所述多尺度特征融合的实现方式为,输入多层感知机MLP进行学习,然后利用Sigmoid激活函数对多个尺度上的特征进行注意力加权,来自适应地对提取到的不同尺度的影像特征信息进行融合,进而提高模型对遥感影像特征的理解能力。
而且,所述门控机制的自适应文本生成解码实现方式为,利用自适应的双层LSTM影像文本对齐模块对影像特征进行解码,其中第一个LSTM为门控注意力LSTM,记为Attention LSTM;第二个LSTM为自适应语言LSTM,记为language LSTM;将提取得到的影像多尺度上下文特征送到解码端第一个LSTM中进行解码,生成影像的描述语句;每个时间步t输入到Attention LSTM的输入向量是当前单词的嵌入向量,图像的平均池化特征,以及第二个LSTM的先前隐藏状态;然后,根据注意力机制引导LSTM多尺度特征的具体位置,通过门控机制优化注意力向量,接下来通过语义门向量实现解码过程视觉特征和描述语句文本信息的自适应对齐,最后,将通过门控注意力生成的上下文向量和Attention LSTM隐藏状态输入到language LSTM中,生成描述语句。
而且,使用在每个时间步中生成正确描述单词的负对数似然的和来训练遥感影像描述生成模型。
另一方面,本发明提供一种基于视觉文本对齐的影像描述生成系统,用于实现如上所述的一种基于视觉文本对齐的影像描述生成方法。
而且,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于视觉文本对齐的影像描述生成方法。
或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于视觉文本对齐的影像描述生成方法。
本发明通过在编码端通过多尺度特征提取模块提取遥感影像的多尺度信息,进一步通过多尺度特征融合模块对多尺度影像特征进行自适应融合来自适应地融合不同尺度的影像特征,在解码端利用门控机制的自适应文本模型引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐,最终通过利用交叉熵损失对模型进行训练,从而生成语法正确、语义流畅的描述语句,进而提高影像描述生成模型的性能。本发明提供的遥感影像自动化描述生成方案,能够用于海量多源异构的遥感数据,提高影像分类、目标检测等应用的精度。
附图说明
图1为本发明实施例提供的基于多尺度特征和视觉文本对齐的影像描述生成模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明克服了现有遥感影像描述生成方法泛化能力较差这一问题,通过设计多尺度特征提取模块和视觉文本对齐模块,从而生成更加精确的遥感影像描述语句,包括:
建立遥感影像描述生成模型,该模型进行遥感影像高级语义特征提取、多尺度特征融合,以及具有门控机制的自适应解码;
遥感影像高级语义特征提取,包括提取遥感影像的多尺度特征信息;
多尺度特征融合,包括对提取的多尺度特征信息进行自适应融合;
门控机制的自适应文本生成解码,包括引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐。
利用大规模影像-文本的样本库作为模型的训练集,训练本发明所提的遥感影像描述生成模型;
将待描述的遥感影像输入到训练好的影像描述生成模型中,得到相应的影像描述语句结果。
参见图1下面结合具体流程介绍本发明实施例提供的一种基于多尺度特征和视觉-文本对齐的遥感影像描述生成方法,包括以下步骤:
步骤S1,首先建立遥感影像描述生成模型,包括遥感影像高级语义特征提取模块、多尺度特征融合模块、具有门控机制的自适应解码模块;
遥感影像高级语义特征提取模块,用来提取遥感影像的多尺度特征信息;
多尺度特征融合模块,用来对提取的多尺度特征信息进行自适应融合;
门控机制的自适应文本生成解码模块,用来引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐。
实施例中S1具体通过步骤a和步骤b实现。
步骤a,多尺度特征表达和聚合的复杂遥感影像语义描述模块的构建。
1)基础深度卷积网络及多尺度特征提取:
本发明进一步提出,利用基础深度卷积网络实现遥感影像高级语义特征提取模块,用来提取遥感影像的多尺度特征信息。
具体实施时,可以选取在大规模样本库ImageNet上预训练的任一种模型(如AlexNet、VGG、GoogleNet等)来进行影像特征的提取。
实施例的基础深度卷积网络优选采用预训练的卷积神经网络VGG16来提取影像的特征,然后进入多尺度特征提取模块。多尺度特征提取模块中,首先在空间关系建模模块中将输入特征沿着通道维度均匀地分成四组,对于每一组向量,用1×1、3×3卷积块进行卷积计算,具体来说,对于第一组输入特征向量,通过1×1的卷积直接得到输出的的征,对于第二、三、四组输入特征向量,其分别与上一组的输出一起通过3×3的卷积得到输出的特征。接着,通道关系建模模块采用前一组经空间关系建模模块输出的特征向量和当前组经过卷积的特征向量的输出作为输入,实现过滤冗余信息,得到优化后的影像特征表示。
具体地,多尺度特征提取模块实现方式下:
(一)首先设置空间关系建模模块,包括将输入的遥感影像特征图X∈RH×W×C分为四组,每一组表示为
Figure BDA0004116321340000051
i∈{1,2,3,4},H,W,Ci分别为各组通道的高度、宽度和数量。在多尺度模块的分支中,第一组输入的Xi用1×1的卷积核进行操作,其余每组输入的Xi后面用3×3卷积进行卷积操作可以获得更大的感受野(分别为1×1、3×3、5×5、7×7)。
计算公式为:
X=VGG(I) (1.1)
Figure BDA0004116321340000052
Figure BDA0004116321340000053
其中,I表示输入的遥感影像特征,VGG()表示输入的遥感影像通过预训练的VGG网络提取特征,
Figure BDA0004116321340000054
表示每一组特征向量相对应的卷积操作,Fi表示第i组相对应的输出。利用多尺度的空间特征,模型可以获得更具竞争性的特征表示。
(二)由于遥感影像背景复杂,有冗余的背景信息,通过通道关系建模模块增强模型对不同的通道影像特征的辨识度,过滤冗余的影像特征。所述通道关系建模模块的实现方式如下,
首先使用2个1×1的卷积整合当前组的特征向量和优化后的特征向量,第i组整合的特征如下:
Figure BDA0004116321340000055
其中,
Figure BDA0004116321340000056
WSS分别表示模块中2个1×1卷积的参数,/>
Figure BDA0004116321340000057
表示第i-1组相对应的特征向量输出。
接着,通过使用全局平均池化来生成通道级的信息:
Figure BDA0004116321340000058
其中,Fgp(uic)表示全局平均池化,uic(m,n)表示沿通道维度第i组的图像特征输出,m,n表示图像的高度和宽度。
为了充分利用全局平均池操作中聚合的信息,本发明采用了全连接层和激活函数来提取有用的通道信息,第i组注意输出用αi表示,W表示全连接层的权重,公式如1.6所示:
αi=(zi,W)=σ(Wzi) (1.6)
其中,zi表示通道级的特征信息,Wzi表示权重,σ()表示激活函数。
最终得到Fi的空间多尺度特征输出:
Figure BDA0004116321340000061
其中,αisc表示权重,Fic表示通道维度的特征,Fweighted()表示加权运算。
将每一组优化的特征F*沿通道维度拼接在一起:
Figure BDA0004116321340000062
其中,
Figure BDA0004116321340000063
其中,
Figure BDA0004116321340000064
表示4个尺度的图像特征,concat()表示拼接,/>
Figure BDA0004116321340000065
表示第i组沿通道维度的特征,C表示通道的数量。
综上,本发明的多尺度特征提取模块首先在空间关系建模模块通过不同大小的卷积核提取不同尺度的影像特征,然后通过通道关系建模模块增强模型对不同通道特征的辨识度,去除冗余信息,至此最终得到影像的多尺度特征。
2)紧接着通过设计的多尺度特征聚合模块对所提特征进行聚合,具体地,输入多层感知机MLP进行学习,然后利用Sigmoid激活函数对四个尺度上的特征进行注意力加权,来自适应地对提取到的不同尺度的影像特征信息进行融合,进而提高模型对遥感影像特征的理解能力。具体地,首先,通过对提取到的多尺度遥感影像特征进行拼接,得到S。接下来将拼接的影像特征通过FC层进行降维,通过MLP学习多尺度特征之间的关联性,利用Sigmoid激活函数对降维的影像特征计算得分scores,进而得到一个得分权重矩阵W。然后,将影像不同尺度的特征图与得分权重矩阵相乘,获得加权的影像特征。其中,Wi为权重系数,Sfinal表示通过注意力后加权获得的影像特征。
实施例中相应具体实现如以下公式:
首先将拼接的影像特征通过FC层进行降维,通过MLP学习多尺度特征之间的关联性,利用Sigmoid激活函数对降维的影像特征计算得分scores,进而得到一个得分权重矩阵W。
W=Sigmoid(MLP(F*)) (1.9)
其中,Sigmoid()表示Sigmoid激活函数,MLP()表示多层感知机,F*表示拼接的图像特征。
然后,将影像不同尺度的特征图与得分权重矩阵相乘,获得加权的影像特征。
其中,Wi为权重系数,Sfinal表示通过注意力后加权获得的影像特征。
Sfinal=FC(F*)+FC(F*)*W (1.10)
其中,FC()表示FC层,*表示像素相乘。
步骤b,带有门控机制的自适应文本模型的构建。本步骤实现具有门控机制的自适应解码模块。
具体地,在本发明的方法中,其中第一个LSTM为门控注意力LSTM(记为AttentionLSTM),第二个LSTM为自适应语言LSTM(记为language LSTM),同时考虑了语言模型的信息。本发明将通过编码网络提取得到的影像多尺度上下文特征送到解码端第一个LSTM(即Attention LSTM)中进行解码,生成影像的描述语句。每个时间步t输入到Attention LSTM的输入向量是当前单词的嵌入向量,图像的平均池化特征,以及第二个LSTM的先前隐藏状态。然后,根据注意力机制引导LSTM多尺度特征的具体位置,通过门控机制优化注意力向量,接下来通过语义门向量实现解码过程视觉特征和描述语句文本信息的自适应对齐,最后,将通过门控注意力生成的上下文向量和Attention LSTM隐藏状态h输入到languageLSTM中,生成描述语句。
实施例中,利用自适应的双层LSTM影像文本对齐模块对影像特征进行解码。其公式为:
Figure BDA0004116321340000071
Figure BDA0004116321340000072
At=sofmtax(at) (1.13)
Figure BDA0004116321340000073
其中,
Figure BDA0004116321340000074
表示t时刻Attention LSTM的隐藏层状态,LSTM1()表示Attention LSTM,
Figure BDA0004116321340000075
表示t-1时刻language LSTM的隐藏层状态,/>
Figure BDA0004116321340000076
表示t-1时刻Attention LSTM的隐藏层状态,/>
Figure BDA00041163213400000710
表示全局平均特征,We为词嵌入矩阵,xt为t时刻输入词的one-hot编码,aj,t表示特征向量,j表示图像区域,Wva、Wha、/>
Figure BDA0004116321340000077
为可学习的参数,αt指H×W个区域特征向量所分别对应的H×W个注意力权重所构成的向量,At=softmax(at)表示概率值。/>
Figure BDA0004116321340000078
表示视觉注意力向量,Vi表示特征向量。
注意力机制引导解码过程在每个时间步生成加权平均的特征向量,影像描述生成的结果十分取决于注意力的结果,本发明首先对注意力向量进行优化,对现有的注意力机制进行拓展,结合门控机制,在解码过程中使解码器保留有用的注意力信息,得到优化后的注意力向量
Figure BDA0004116321340000079
Figure BDA0004116321340000081
Figure BDA0004116321340000082
Figure BDA0004116321340000083
其中,
Figure BDA0004116321340000084
表示优化后的向量,g、i表示中间计算结果,/>
Figure BDA0004116321340000085
bi,bg指可学习的参数,/>
Figure BDA0004116321340000086
表示权重,⊙表示逐元素相乘。
为了有效地调整视觉信息或句子上下文信息的选择来生成标题,本发明引入了语义门βt
Figure BDA0004116321340000087
Figure BDA0004116321340000088
Figure BDA0004116321340000089
其中,gt表示,
Figure BDA00041163213400000810
表示权重,/>
Figure BDA00041163213400000811
表第t个时间步LSTM的输出,/>
Figure BDA00041163213400000812
表示权重,/>
Figure BDA00041163213400000813
表示t-1时刻Attention LSTM的隐藏层状态,/>
Figure BDA00041163213400000814
表示内存单元,St表示视觉向量,βt的数值为1的时候为模型生成单词的过程利用句子上下文信息,数值为0的时候为利用输入的影像信息。此时,c’t为生成的上下文向量。
为了计算βt,本发明在解码模型中额外地增加了元素St,其表示模型对句子上下文的关注程度,其中βt的计算公式如下:
Figure BDA00041163213400000815
Figure BDA00041163213400000816
其中,zt表示中间向量,wh表示权重,V表示影像的特征向量,ws和Wh是模型可学习的权重参数,
Figure BDA00041163213400000817
表示t时刻Attention LSTM的隐藏层状态。
接下来,将上下文向量c’t送入language LSTM中,最后经过sofmax层得到输出的描述语句。
Figure BDA00041163213400000818
Figure BDA00041163213400000819
其中,
Figure BDA00041163213400000820
表示t时刻language LSTM的隐藏层状态,LSTM2()表示language LSTM,W0表示权重,b0表示偏置。
步骤c,以大规模遥感影像-语句数据集作为模型的训练集来对本发明所提的影像描述生成模型进行训练。
本发明使用最大似然估计MLE损失训练模型,目标是最小化MLE损失。在每个训练步骤中,输入xt和先前的隐藏状态ht-1被组合以获得此时的隐藏状态ht。然后通过softmax函数来进行计算语句生成过程中单词的概率分布,选择概率最高的单词作为预测单词。然后预测的单词是下一个时间步的输入。模型训练的损失函数为在每个时间步中生成正确描述单词的负对数似然的和:
Figure BDA0004116321340000091
其中,θ是需要学习的参数,L(θ)表示损失函数,
Figure BDA0004116321340000092
表示生成的描述语句,pθ()表示概率值,log()表示对数函数,t表示解码的时间步,T表示生成最后一个单词的时间步。
步骤d,将待描述的图片输入到训练好的影像描述生成模型中,进而得到影像描述语句生成的结果。
综上所述,本发明首先通过在编码端通过多尺度特征提取模块提取遥感影像的多尺度信息,进一步通过多尺度特征融合模块对多尺度影像特征进行局部和全局建模,在解码端利用门控机制的自适应文本模型引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐,从而生成语法准确、语义流畅的描述语句。
和专利文献CN113420680A相比:本发明在编码端设计了多尺度特征提取模块,其分别通过使用不同大小的卷积核获得不同的感受野实现遥感图像多尺度特征的提取,进一步本发明提出了特征聚合模块对多尺度特征进行自适应融合,实现特征优化。本发明在解码端提出了一个基于视觉文本对齐的解码网络,实现解码过程中实现视觉区域和描述词汇的对齐,通过门控机制增强注意力结果,然后引入上下文向量自适应地选择视觉特征和语句信息来生成优化的描述语句。因此,本发明更能准确表达遥感图像特征以及实现不同模态视觉区域特征和描述词汇的自适应对齐,自动生成句法准确和语义流畅的描述语句。
以下通过利用NWPU-Captions数据集来验证本发明的有效性:
NWPU-Captions数据集是基于NWPU-RESISC45数据集进行标注的,该数据集包括45个类别,31500张影像,每张影像的像素值是256*256,分辨率大小是0.228米,该数据集每张影像的五个描述语句完全由不同的具有专业背景的志愿者标注,志愿者来自武汉大学和华中科技大学,保证了句子的多样性。此外,与其他公开的数据集相比,NWPU-Captions数据集规模更大,包含的地物种类更多,更能体现遥感影像丰富的影像变化以及类内多样性高和类间相似性高。NWPU-Captions数据集的相关信息如表1所示:
表1 NWPU-Captions数据集的相关信息
Figure BDA0004116321340000093
Figure BDA0004116321340000101
评价指标:BLEU、ROGUE、METEOR、CIDEr以及SPICE。具体地,BLEU和ROUGE的计算方法相对简单,侧重于评估文字的流畅性,而MRTEOR和CIDEr对生成的语句从语法和准确性方面进行了综合评估,与人类的判断相关性比较高,SPICE侧重于考虑描述语句的属性和目标对象之间的关系。
本发明所有模型的特征提取网络统一采用vgg16为backbone模型,使用深度学习Pytorch框架来搭建网络模型,Pytorch作为一个开源的机器学习框架,其优势在于灵活性高,可以构造动态模型图,在模型执行时对数据操作。使用Adam作为优化器,编码器和解码器的初始化学习率分别为1e-4和5e-4,batchsize设为64,将单词嵌入的维数设为512,将beam search设置为5。
首先,通过消融实验验证了多尺度特征提取模块和多尺度融合模块的对模型性能的影响。消融实验结果如表2所示,通过添加各个子模块均获得了比Baseline模型更好的结果,同时添加了多尺度特征提取模块(MS)和多尺度特征融合模块(TR)获得了最佳的影像描述精度。
表2在NWPU-Captions数据集上各模块消融实验结果展示
方法 BLEU1 METEOR ROUGE_L CIDEr SPICE
Baseline 0.731 0.334 0.581 1.092 0.274
Baseline+MS 0.738 0.344 0.596 1.125 0.286
Basline+TR 0.737 0.336 0.594 1.122 0.284
本发明的方法 0.741 0.626 0.611 1.159 0.289
实验还将本发明所提影像描述生成方法与其他方法进行对比,对比的方法有:,(1)CSMLF是基于检索的方法,应用度量学习的方法学习语义嵌入,将影像特征和句子表示投影到一个公共的空间中,计算测试影像和描述语句间的距离,以最近邻的句子作为测试影像的描述语句。(2)Multimodal是典型的编解码结构,以CNN为编码器,以LSTM为解码器来生成描述语句。(3)SAT是第一次将注意力机制引入到编解码框架中解码器中,用于在每个时间步给影像的各个不同的区域赋予不同的权重,引导模型动态地关注影像的区域。(4)FC-ATT是一种基于属性注意力机制的模型,使用全连接层中提取的高级属性特征引导注意力机制来应用遥感影像的高级特征。各方法的影像描述结果如表3所示:
表3 NWPU-Captions数据集上的影像描述结果展示
方法 BLEU1 METEOR ROUGE_L CIDEr SPICE
CSMLF 0.715 0.318 0.576 1.063 0.263
Multimodal 0.726 0.339 0.589 1.078 0.281
SAT 0.734 0.337 0.601 1.109 0.284
FC-ATT 0.738 0.469 0.595 1.137 0.279
本发明的方法 0.741 0.626 0.611 1.159 0.289
从表3中可以看出,与其他影像描述生成模型性相比,本发明所提方法在五个不同的指标上有极具竞争力的表现,这也证明了本发明利用多尺度特征自适应融合的方式提取遥感影像特征是由有效的,同时,利用自适应的文本模型进行解码是可行的。具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种基于视觉文本对齐的影像描述生成系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于视觉文本对齐的影像描述生成方法。
在一些可能的实施例中,提供一种基于视觉文本对齐的影像描述生成系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于视觉文本对齐的影像描述生成方法。
本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种基于视觉文本对齐的影像描述生成方法,其特征在于:进行以下处理,
建立遥感影像描述生成模型,该模型进行遥感影像高级语义特征提取、多尺度特征融合,以及具有门控机制的自适应解码;
遥感影像高级语义特征提取,包括提取遥感影像的多尺度特征信息;
多尺度特征融合,包括对提取的多尺度特征信息进行自适应融合;
门控机制的自适应文本生成解码,包括引导模型关注相关的信息,实现影像的视觉特征与描述语句词汇的对齐;
训练遥感影像描述生成模型,将待描述的遥感影像输入到训练好的影像描述生成模型中,得到相应的影像描述语句结果。
2.根据权利要求1所述的一种基于视觉文本对齐的影像描述生成方法,其特征在于:通过利用在数据集ImageNet上预训练的模型来获取输入影像的视觉特征。
3.根据权利要求2所述的一种基于视觉文本对齐的影像描述生成方法,其特征在于:利用VGG16提取遥感影像的视觉特征。
4.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法,其特征在于:所述遥感影像高级语义特征提取的实现方式为,首先在空间关系建模模块中通过不同大小的卷积核提取不同尺度的影像特征,接着,通道关系建模模块采用前一组经空间关系建模模块输出的特征向量和当前组经过卷积的特征向量的输出作为输入,实现过滤冗余信息,得到优化后的影像特征表示。
5.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法,其特征在于:所述多尺度特征融合的实现方式为,输入多层感知机MLP进行学习,然后利用Sigmoid激活函数对多个尺度上的特征进行注意力加权,来自适应地对提取到的不同尺度的影像特征信息进行融合,进而提高模型对遥感影像特征的理解能力。
6.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法,其特征在于:所述门控机制的自适应文本生成解码实现方式为,利用自适应的双层LSTM影像文本对齐模块对影像特征进行解码,其中第一个LSTM为门控注意力LSTM,记为Attention LSTM;第二个LSTM为自适应语言LSTM,记为language LSTM;将提取得到的影像多尺度上下文特征送到解码端第一个LSTM中进行解码,生成影像的描述语句;每个时间步t输入到AttentionLSTM的输入向量是当前单词的嵌入向量,图像的平均池化特征,以及第二个LSTM的先前隐藏状态;然后,根据注意力机制引导LSTM多尺度特征的具体位置,通过门控机制优化注意力向量,接下来通过语义门向量实现解码过程视觉特征和描述语句文本信息的自适应对齐,最后,将通过门控注意力生成的上下文向量和Attention LSTM隐藏状态输入到languageLSTM中,生成描述语句。
7.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法,其特征在于:使用在每个时间步中生成正确描述单词的负对数似然的和来训练遥感影像描述生成模型。
8.一种基于视觉文本对齐的影像描述生成系统,其特征在于:用于实现如权利要求1-7任一项所述的一种基于视觉文本对齐的影像描述生成方法。
9.根据权利要求8所述基于视觉文本对齐的影像描述生成系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-7任一项所述的一种基于视觉文本对齐的影像描述生成方法。
10.根据权利要求8所述基于视觉文本对齐的影像描述生成系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-7任一项所述的一种基于视觉文本对齐的影像描述生成方法。
CN202310220287.8A 2023-03-09 2023-03-09 基于视觉文本对齐的影像描述生成方法及系统 Pending CN116434058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310220287.8A CN116434058A (zh) 2023-03-09 2023-03-09 基于视觉文本对齐的影像描述生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310220287.8A CN116434058A (zh) 2023-03-09 2023-03-09 基于视觉文本对齐的影像描述生成方法及系统

Publications (1)

Publication Number Publication Date
CN116434058A true CN116434058A (zh) 2023-07-14

Family

ID=87080476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310220287.8A Pending CN116434058A (zh) 2023-03-09 2023-03-09 基于视觉文本对齐的影像描述生成方法及系统

Country Status (1)

Country Link
CN (1) CN116434058A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036967A (zh) * 2023-10-08 2023-11-10 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法
CN117036967B (zh) * 2023-10-08 2024-01-19 江西师范大学 一种非视觉感知区域通道注意力的遥感图像描述方法

Similar Documents

Publication Publication Date Title
CN110147457B (zh) 图文匹配方法、装置、存储介质及设备
Li et al. Truncation cross entropy loss for remote sensing image captioning
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN112905827B (zh) 跨模态图文匹配的方法、装置及计算机可读存储介质
CN110288665B (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN113657124B (zh) 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN110390363A (zh) 一种图像描述方法
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
CN111598183A (zh) 一种多特征融合图像描述方法
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
Cui et al. Representation and correlation enhanced encoder-decoder framework for scene text recognition
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN116434058A (zh) 基于视觉文本对齐的影像描述生成方法及系统
Xia et al. Boosting image caption generation with feature fusion module
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN114048290A (zh) 一种文本分类方法及装置
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN112269892A (zh) 一种基于多模态多层次统一交互的短语定位识别方法
CN115222998B (zh) 一种图像分类方法
Yuan et al. FFGS: Feature fusion with gating structure for image caption generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination