CN116434058A

CN116434058A - 基于视觉文本对齐的影像描述生成方法及系统

Info

Publication number: CN116434058A
Application number: CN202310220287.8A
Authority: CN
Inventors: 邵振峰; 黄海燕; 高济远; 张镇宇
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-07-14

Abstract

本发明提供一种基于视觉文本对齐的影像描述生成方法及系统，建立遥感影像描述生成模型，该模型进行遥感影像高级语义特征提取、多尺度特征融合，以及具有门控机制的自适应解码，包括提取遥感影像的多尺度特征信息，对提取的多尺度特征信息进行自适应融合，引导模型关注相关的信息，实现影像的视觉特征与描述语句词汇的对齐；训练遥感影像描述生成模型，将待描述的遥感影像输入到训练好的影像描述生成模型中，得到相应的影像描述语句结果。本发明提供的遥感影像自动化描述生成方案，能够用于海量多源异构的遥感数据，提高影像分类、目标检测等任务的精度。

Description

基于视觉文本对齐的影像描述生成方法及系统

技术领域

本发明属于影像描述生成领域，更具体地，设计一种基于视觉文本对齐的影像描述生成方法及系统。

背景技术

随着遥感技术的快速发展，可获得的各类遥感数据越来越多，种类越来越丰富，分辨率也越来越高，人类迎来了大数据时代。如何高效利用海量多源的遥感数据，是遥感领域的重大应用需求。海量多源异构的遥感数据为各类重大应用提供了丰富数据源，但也对提取和挖掘隐藏在遥感大数据背后的各种信息和知识提出了更大的挑战。此外尽管目前遥感影像领域许多任务，例如影像分类、目标检测等取得了一定的研究进展，但遥感影像的描述生成不仅需要计算机模拟人的视觉识别影像语义内容，还需要将对影像的理解自动转化为准确、自然的描述语句，仍然是一项具有很大挑战性的工作。

传统的影像描述生成方法包括基于模板填充的影像描述生成以及基于检索方式的影像描述生成方法。基于模板的方法采用传统的机器学习算法提取影像特征，然后将提取到的特征填入到预定义好的模板中，从而生成影像的描述。其生成的描述语句能保证语法的准确性以及语义的流畅性，但是局限性在于采用固定的模板使句式单一，并且生成的句子缺乏多样性及新颖性。基于检索的方法采用相似性度量的方法在数据集中检索出待描述影像的相似影像，然后基于相似性影像的描述来获取待描述影像的描述。与基于模板的方法相比其生成的描述在句式方面相对灵活，但描述结果的好坏与检索性能相关联，当查询影像与数据集中的影像不相似时，不能保证语义方面是否正确。

随着深度学习技术的快速发展，以编解码结构为代表的模型在遥感影像描述生成领域得到了广泛应用。其中，由于卷积神经网络对于影像特征优秀的提取能力，使用在大规模数据集上预训练的CNN进行影像特征的提取，然后再将固定维度的特征向量送到循环神经网络、长短期记忆网络、门控循环单元中进行生成句子描述，是遥感影像描述生成任务中的有效方法，同时这种方法目前在语法正确性、语义流畅性以及语句多样性方面获得了最好的性能。但是，如何准确描述复杂场景遥感影像的视觉特征，并在影像区域和视觉词汇之间最大程度上消除语义歧义，仍然是制约目前遥感影像描述生成精度的主要因素。

专利文献CN113420680A提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法包括如下步骤：步骤S1、在编码器部分提取遥感影像特征信息，输出特征图；步骤S2、特征图和训练集中的文本信息共同作为解码器的输入；所述解码器中，包括GRU注意力网络及LSTM语言网络，所述GRU注意力网络在输入的特征图的单词生成前，对特征图的特征向量和特征图生成文本信息的单词计算权重系数，增加对重点区域的选择和关注度，最终输出单词和状态。该发明能够更为准确地在到遥感影像的预选区域中判断出重点区域，以生成更为准确的描述。

但是，上述专利没有考虑遥感图像的多尺度以及背景复杂性特性，此外，在解码过程中，没有考虑生成的注意力结果与查询之间的关联性，当预测比如“and”、“in”、“of”等介词时，这时可以通过语言模型对描述词进行预测。

发明内容

针对此问题，本发明提出了一种基于多尺度特征和视觉-文本对齐的遥感影像描述生成模型和系统，其目的在于提高遥感影像描述生成模型的性能。

本发明提供一种基于视觉文本对齐的影像描述生成方法，进行以下处理，

建立遥感影像描述生成模型，该模型进行遥感影像高级语义特征提取、多尺度特征融合，以及具有门控机制的自适应解码；

遥感影像高级语义特征提取，包括提取遥感影像的多尺度特征信息；

多尺度特征融合，包括对提取的多尺度特征信息进行自适应融合；

门控机制的自适应文本生成解码，包括引导模型关注相关的信息，实现影像的视觉特征与描述语句词汇的对齐；

训练遥感影像描述生成模型，将待描述的遥感影像输入到训练好的影像描述生成模型中，得到相应的影像描述语句结果。

而且，通过利用在数据集ImageNet上预训练的模型来获取输入影像的视觉特征。

而且，利用VGG16提取遥感影像的视觉特征。

而且，所述遥感影像高级语义特征提取的实现方式为，首先在空间关系建模模块中通过不同大小的卷积核提取不同尺度的影像特征，接着，通道关系建模模块采用前一组经空间关系建模模块输出的特征向量和当前组经过卷积的特征向量的输出作为输入，实现过滤冗余信息，得到优化后的影像特征表示。

而且，所述多尺度特征融合的实现方式为，输入多层感知机MLP进行学习，然后利用Sigmoid激活函数对多个尺度上的特征进行注意力加权，来自适应地对提取到的不同尺度的影像特征信息进行融合，进而提高模型对遥感影像特征的理解能力。

而且，所述门控机制的自适应文本生成解码实现方式为，利用自适应的双层LSTM影像文本对齐模块对影像特征进行解码，其中第一个LSTM为门控注意力LSTM，记为Attention LSTM；第二个LSTM为自适应语言LSTM，记为language LSTM；将提取得到的影像多尺度上下文特征送到解码端第一个LSTM中进行解码，生成影像的描述语句；每个时间步t输入到Attention LSTM的输入向量是当前单词的嵌入向量，图像的平均池化特征，以及第二个LSTM的先前隐藏状态；然后，根据注意力机制引导LSTM多尺度特征的具体位置，通过门控机制优化注意力向量，接下来通过语义门向量实现解码过程视觉特征和描述语句文本信息的自适应对齐，最后，将通过门控注意力生成的上下文向量和Attention LSTM隐藏状态输入到language LSTM中，生成描述语句。

而且，使用在每个时间步中生成正确描述单词的负对数似然的和来训练遥感影像描述生成模型。

另一方面，本发明提供一种基于视觉文本对齐的影像描述生成系统，用于实现如上所述的一种基于视觉文本对齐的影像描述生成方法。

而且，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于视觉文本对齐的影像描述生成方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于视觉文本对齐的影像描述生成方法。

本发明通过在编码端通过多尺度特征提取模块提取遥感影像的多尺度信息，进一步通过多尺度特征融合模块对多尺度影像特征进行自适应融合来自适应地融合不同尺度的影像特征，在解码端利用门控机制的自适应文本模型引导模型关注相关的信息，实现影像的视觉特征与描述语句词汇的对齐，最终通过利用交叉熵损失对模型进行训练，从而生成语法正确、语义流畅的描述语句，进而提高影像描述生成模型的性能。本发明提供的遥感影像自动化描述生成方案，能够用于海量多源异构的遥感数据，提高影像分类、目标检测等应用的精度。

附图说明

图1为本发明实施例提供的基于多尺度特征和视觉文本对齐的影像描述生成模型结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明克服了现有遥感影像描述生成方法泛化能力较差这一问题，通过设计多尺度特征提取模块和视觉文本对齐模块，从而生成更加精确的遥感影像描述语句，包括：

门控机制的自适应文本生成解码，包括引导模型关注相关的信息，实现影像的视觉特征与描述语句词汇的对齐。

利用大规模影像-文本的样本库作为模型的训练集，训练本发明所提的遥感影像描述生成模型；

将待描述的遥感影像输入到训练好的影像描述生成模型中，得到相应的影像描述语句结果。

参见图1下面结合具体流程介绍本发明实施例提供的一种基于多尺度特征和视觉-文本对齐的遥感影像描述生成方法，包括以下步骤：

步骤S1，首先建立遥感影像描述生成模型，包括遥感影像高级语义特征提取模块、多尺度特征融合模块、具有门控机制的自适应解码模块；

遥感影像高级语义特征提取模块，用来提取遥感影像的多尺度特征信息；

多尺度特征融合模块，用来对提取的多尺度特征信息进行自适应融合；

门控机制的自适应文本生成解码模块，用来引导模型关注相关的信息，实现影像的视觉特征与描述语句词汇的对齐。

实施例中S1具体通过步骤a和步骤b实现。

步骤a，多尺度特征表达和聚合的复杂遥感影像语义描述模块的构建。

1)基础深度卷积网络及多尺度特征提取：

本发明进一步提出，利用基础深度卷积网络实现遥感影像高级语义特征提取模块，用来提取遥感影像的多尺度特征信息。

具体实施时，可以选取在大规模样本库ImageNet上预训练的任一种模型(如AlexNet、VGG、GoogleNet等)来进行影像特征的提取。

实施例的基础深度卷积网络优选采用预训练的卷积神经网络VGG16来提取影像的特征，然后进入多尺度特征提取模块。多尺度特征提取模块中，首先在空间关系建模模块中将输入特征沿着通道维度均匀地分成四组，对于每一组向量，用1×1、3×3卷积块进行卷积计算，具体来说，对于第一组输入特征向量，通过1×1的卷积直接得到输出的的征，对于第二、三、四组输入特征向量，其分别与上一组的输出一起通过3×3的卷积得到输出的特征。接着，通道关系建模模块采用前一组经空间关系建模模块输出的特征向量和当前组经过卷积的特征向量的输出作为输入，实现过滤冗余信息，得到优化后的影像特征表示。

具体地，多尺度特征提取模块实现方式下：

(一)首先设置空间关系建模模块，包括将输入的遥感影像特征图X∈R^H×W×C分为四组，每一组表示为

i∈{1,2,3,4},H，W，C_i分别为各组通道的高度、宽度和数量。在多尺度模块的分支中，第一组输入的X_i用1×1的卷积核进行操作，其余每组输入的X_i后面用3×3卷积进行卷积操作可以获得更大的感受野(分别为1×1、3×3、5×5、7×7)。

计算公式为：

X＝VGG(I) (1.1)

其中，I表示输入的遥感影像特征，VGG()表示输入的遥感影像通过预训练的VGG网络提取特征，

表示每一组特征向量相对应的卷积操作，F_i表示第i组相对应的输出。利用多尺度的空间特征，模型可以获得更具竞争性的特征表示。

(二)由于遥感影像背景复杂，有冗余的背景信息，通过通道关系建模模块增强模型对不同的通道影像特征的辨识度，过滤冗余的影像特征。所述通道关系建模模块的实现方式如下，

首先使用2个1×1的卷积整合当前组的特征向量和优化后的特征向量，第i组整合的特征如下：

其中，

W_SS分别表示模块中2个1×1卷积的参数，/>

表示第i-1组相对应的特征向量输出。

接着，通过使用全局平均池化来生成通道级的信息：

其中，F_gp(u_ic)表示全局平均池化，u_ic(m,n)表示沿通道维度第i组的图像特征输出，m,n表示图像的高度和宽度。

为了充分利用全局平均池操作中聚合的信息，本发明采用了全连接层和激活函数来提取有用的通道信息，第i组注意输出用α_i表示，W表示全连接层的权重，公式如1.6所示：

α_i＝(z_i,W)＝σ(Wz_i) (1.6)

其中，z_i表示通道级的特征信息，Wz_i表示权重，σ()表示激活函数。

最终得到F_i的空间多尺度特征输出：

其中，α_isc表示权重，F_ic表示通道维度的特征，F_weighted()表示加权运算。

将每一组优化的特征F^*沿通道维度拼接在一起：

其中，

其中，

表示4个尺度的图像特征，concat()表示拼接，/>

表示第i组沿通道维度的特征，C表示通道的数量。

综上，本发明的多尺度特征提取模块首先在空间关系建模模块通过不同大小的卷积核提取不同尺度的影像特征，然后通过通道关系建模模块增强模型对不同通道特征的辨识度，去除冗余信息，至此最终得到影像的多尺度特征。

2)紧接着通过设计的多尺度特征聚合模块对所提特征进行聚合，具体地，输入多层感知机MLP进行学习，然后利用Sigmoid激活函数对四个尺度上的特征进行注意力加权，来自适应地对提取到的不同尺度的影像特征信息进行融合，进而提高模型对遥感影像特征的理解能力。具体地，首先，通过对提取到的多尺度遥感影像特征进行拼接，得到S。接下来将拼接的影像特征通过FC层进行降维，通过MLP学习多尺度特征之间的关联性，利用Sigmoid激活函数对降维的影像特征计算得分scores，进而得到一个得分权重矩阵W。然后，将影像不同尺度的特征图与得分权重矩阵相乘，获得加权的影像特征。其中，W_i为权重系数，S_final表示通过注意力后加权获得的影像特征。

实施例中相应具体实现如以下公式：

首先将拼接的影像特征通过FC层进行降维，通过MLP学习多尺度特征之间的关联性，利用Sigmoid激活函数对降维的影像特征计算得分scores，进而得到一个得分权重矩阵W。

W＝Sigmoid(MLP(F^*)) (1.9)

其中，Sigmoid()表示Sigmoid激活函数，MLP()表示多层感知机，F^*表示拼接的图像特征。

然后，将影像不同尺度的特征图与得分权重矩阵相乘，获得加权的影像特征。

其中，W_i为权重系数，S_final表示通过注意力后加权获得的影像特征。

S_final＝FC(F^*)+FC(F^*)*W (1.10)

其中，FC()表示FC层，*表示像素相乘。

步骤b，带有门控机制的自适应文本模型的构建。本步骤实现具有门控机制的自适应解码模块。

具体地，在本发明的方法中，其中第一个LSTM为门控注意力LSTM(记为AttentionLSTM)，第二个LSTM为自适应语言LSTM(记为language LSTM)，同时考虑了语言模型的信息。本发明将通过编码网络提取得到的影像多尺度上下文特征送到解码端第一个LSTM(即Attention LSTM)中进行解码，生成影像的描述语句。每个时间步t输入到Attention LSTM的输入向量是当前单词的嵌入向量，图像的平均池化特征，以及第二个LSTM的先前隐藏状态。然后，根据注意力机制引导LSTM多尺度特征的具体位置，通过门控机制优化注意力向量，接下来通过语义门向量实现解码过程视觉特征和描述语句文本信息的自适应对齐，最后，将通过门控注意力生成的上下文向量和Attention LSTM隐藏状态h输入到languageLSTM中，生成描述语句。

实施例中，利用自适应的双层LSTM影像文本对齐模块对影像特征进行解码。其公式为:

A_t＝sofmtax(a_t) (1.13)

其中，

表示t时刻Attention LSTM的隐藏层状态，LSTM₁()表示Attention LSTM，

表示t-1时刻language LSTM的隐藏层状态，/>

表示t-1时刻Attention LSTM的隐藏层状态，/>

表示全局平均特征，W_e为词嵌入矩阵，x_t为t时刻输入词的one-hot编码，a_j,t表示特征向量，j表示图像区域，W_va、W_ha、/>

为可学习的参数，α_t指H×W个区域特征向量所分别对应的H×W个注意力权重所构成的向量，A_t＝softmax(a_t)表示概率值。/>

表示视觉注意力向量，V_i表示特征向量。

注意力机制引导解码过程在每个时间步生成加权平均的特征向量，影像描述生成的结果十分取决于注意力的结果，本发明首先对注意力向量进行优化，对现有的注意力机制进行拓展，结合门控机制，在解码过程中使解码器保留有用的注意力信息，得到优化后的注意力向量

其中，

表示优化后的向量，g、i表示中间计算结果，/>

bⁱ，b^g指可学习的参数，/>

表示权重，⊙表示逐元素相乘。

为了有效地调整视觉信息或句子上下文信息的选择来生成标题，本发明引入了语义门β_t：

其中，g_t表示，

表示权重，/>

表第t个时间步LSTM的输出，/>

表示权重，/>

表示t-1时刻Attention LSTM的隐藏层状态，/>

表示内存单元，S_t表示视觉向量，β_t的数值为1的时候为模型生成单词的过程利用句子上下文信息，数值为0的时候为利用输入的影像信息。此时，c’_t为生成的上下文向量。

为了计算β_t，本发明在解码模型中额外地增加了元素S_t，其表示模型对句子上下文的关注程度，其中β_t的计算公式如下：

其中，z_t表示中间向量，w_h表示权重，V表示影像的特征向量，w_s和W_h是模型可学习的权重参数，

表示t时刻Attention LSTM的隐藏层状态。

接下来，将上下文向量c’_t送入language LSTM中，最后经过sofmax层得到输出的描述语句。

其中，

表示t时刻language LSTM的隐藏层状态，LSTM₂()表示language LSTM，W₀表示权重，b₀表示偏置。

步骤c，以大规模遥感影像-语句数据集作为模型的训练集来对本发明所提的影像描述生成模型进行训练。

本发明使用最大似然估计MLE损失训练模型，目标是最小化MLE损失。在每个训练步骤中，输入x_t和先前的隐藏状态h_t-1被组合以获得此时的隐藏状态h_t。然后通过softmax函数来进行计算语句生成过程中单词的概率分布，选择概率最高的单词作为预测单词。然后预测的单词是下一个时间步的输入。模型训练的损失函数为在每个时间步中生成正确描述单词的负对数似然的和：

其中，θ是需要学习的参数，L(θ)表示损失函数，

表示生成的描述语句，p_θ()表示概率值，log()表示对数函数，t表示解码的时间步，T表示生成最后一个单词的时间步。

步骤d，将待描述的图片输入到训练好的影像描述生成模型中，进而得到影像描述语句生成的结果。

综上所述，本发明首先通过在编码端通过多尺度特征提取模块提取遥感影像的多尺度信息，进一步通过多尺度特征融合模块对多尺度影像特征进行局部和全局建模，在解码端利用门控机制的自适应文本模型引导模型关注相关的信息，实现影像的视觉特征与描述语句词汇的对齐，从而生成语法准确、语义流畅的描述语句。

和专利文献CN113420680A相比：本发明在编码端设计了多尺度特征提取模块，其分别通过使用不同大小的卷积核获得不同的感受野实现遥感图像多尺度特征的提取，进一步本发明提出了特征聚合模块对多尺度特征进行自适应融合，实现特征优化。本发明在解码端提出了一个基于视觉文本对齐的解码网络，实现解码过程中实现视觉区域和描述词汇的对齐，通过门控机制增强注意力结果，然后引入上下文向量自适应地选择视觉特征和语句信息来生成优化的描述语句。因此，本发明更能准确表达遥感图像特征以及实现不同模态视觉区域特征和描述词汇的自适应对齐，自动生成句法准确和语义流畅的描述语句。

以下通过利用NWPU-Captions数据集来验证本发明的有效性：

NWPU-Captions数据集是基于NWPU-RESISC45数据集进行标注的，该数据集包括45个类别，31500张影像，每张影像的像素值是256*256，分辨率大小是0.228米，该数据集每张影像的五个描述语句完全由不同的具有专业背景的志愿者标注，志愿者来自武汉大学和华中科技大学，保证了句子的多样性。此外，与其他公开的数据集相比，NWPU-Captions数据集规模更大，包含的地物种类更多，更能体现遥感影像丰富的影像变化以及类内多样性高和类间相似性高。NWPU-Captions数据集的相关信息如表1所示：

表1 NWPU-Captions数据集的相关信息

评价指标：BLEU、ROGUE、METEOR、CIDEr以及SPICE。具体地，BLEU和ROUGE的计算方法相对简单，侧重于评估文字的流畅性，而MRTEOR和CIDEr对生成的语句从语法和准确性方面进行了综合评估，与人类的判断相关性比较高，SPICE侧重于考虑描述语句的属性和目标对象之间的关系。

本发明所有模型的特征提取网络统一采用vgg16为backbone模型，使用深度学习Pytorch框架来搭建网络模型，Pytorch作为一个开源的机器学习框架，其优势在于灵活性高，可以构造动态模型图，在模型执行时对数据操作。使用Adam作为优化器，编码器和解码器的初始化学习率分别为1e-4和5e-4，batchsize设为64，将单词嵌入的维数设为512，将beam search设置为5。

首先，通过消融实验验证了多尺度特征提取模块和多尺度融合模块的对模型性能的影响。消融实验结果如表2所示，通过添加各个子模块均获得了比Baseline模型更好的结果，同时添加了多尺度特征提取模块(MS)和多尺度特征融合模块(TR)获得了最佳的影像描述精度。

表2在NWPU-Captions数据集上各模块消融实验结果展示

方法	BLEU1	METEOR	ROUGE_L	CIDEr	SPICE
						Baseline	0.731	0.334	0.581	1.092	0.274
Baseline+MS	0.738	0.344	0.596	1.125	0.286
						Basline+TR	0.737	0.336	0.594	1.122	0.284
本发明的方法	0.741	0.626	0.611	1.159	0.289

实验还将本发明所提影像描述生成方法与其他方法进行对比，对比的方法有：，(1)CSMLF是基于检索的方法，应用度量学习的方法学习语义嵌入，将影像特征和句子表示投影到一个公共的空间中，计算测试影像和描述语句间的距离，以最近邻的句子作为测试影像的描述语句。(2)Multimodal是典型的编解码结构，以CNN为编码器，以LSTM为解码器来生成描述语句。(3)SAT是第一次将注意力机制引入到编解码框架中解码器中，用于在每个时间步给影像的各个不同的区域赋予不同的权重，引导模型动态地关注影像的区域。(4)FC-ATT是一种基于属性注意力机制的模型，使用全连接层中提取的高级属性特征引导注意力机制来应用遥感影像的高级特征。各方法的影像描述结果如表3所示：

表3 NWPU-Captions数据集上的影像描述结果展示

方法	BLEU1	METEOR	ROUGE_L	CIDEr	SPICE
						CSMLF	0.715	0.318	0.576	1.063	0.263
Multimodal	0.726	0.339	0.589	1.078	0.281
						SAT	0.734	0.337	0.601	1.109	0.284
FC-ATT	0.738	0.469	0.595	1.137	0.279
						本发明的方法	0.741	0.626	0.611	1.159	0.289

从表3中可以看出，与其他影像描述生成模型性相比，本发明所提方法在五个不同的指标上有极具竞争力的表现，这也证明了本发明利用多尺度特征自适应融合的方式提取遥感影像特征是由有效的，同时，利用自适应的文本模型进行解码是可行的。具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种基于视觉文本对齐的影像描述生成系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于视觉文本对齐的影像描述生成方法。

在一些可能的实施例中，提供一种基于视觉文本对齐的影像描述生成系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于视觉文本对齐的影像描述生成方法。

本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于视觉文本对齐的影像描述生成方法，其特征在于：进行以下处理，

2.根据权利要求1所述的一种基于视觉文本对齐的影像描述生成方法，其特征在于：通过利用在数据集ImageNet上预训练的模型来获取输入影像的视觉特征。

3.根据权利要求2所述的一种基于视觉文本对齐的影像描述生成方法，其特征在于：利用VGG16提取遥感影像的视觉特征。

4.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法，其特征在于：所述遥感影像高级语义特征提取的实现方式为，首先在空间关系建模模块中通过不同大小的卷积核提取不同尺度的影像特征，接着，通道关系建模模块采用前一组经空间关系建模模块输出的特征向量和当前组经过卷积的特征向量的输出作为输入，实现过滤冗余信息，得到优化后的影像特征表示。

5.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法，其特征在于：所述多尺度特征融合的实现方式为，输入多层感知机MLP进行学习，然后利用Sigmoid激活函数对多个尺度上的特征进行注意力加权，来自适应地对提取到的不同尺度的影像特征信息进行融合，进而提高模型对遥感影像特征的理解能力。

6.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法，其特征在于：所述门控机制的自适应文本生成解码实现方式为，利用自适应的双层LSTM影像文本对齐模块对影像特征进行解码，其中第一个LSTM为门控注意力LSTM，记为Attention LSTM；第二个LSTM为自适应语言LSTM，记为language LSTM；将提取得到的影像多尺度上下文特征送到解码端第一个LSTM中进行解码，生成影像的描述语句；每个时间步t输入到AttentionLSTM的输入向量是当前单词的嵌入向量，图像的平均池化特征，以及第二个LSTM的先前隐藏状态；然后，根据注意力机制引导LSTM多尺度特征的具体位置，通过门控机制优化注意力向量，接下来通过语义门向量实现解码过程视觉特征和描述语句文本信息的自适应对齐，最后，将通过门控注意力生成的上下文向量和Attention LSTM隐藏状态输入到languageLSTM中，生成描述语句。

7.根据权利要求1或2或3所述的一种基于视觉文本对齐的影像描述生成方法，其特征在于：使用在每个时间步中生成正确描述单词的负对数似然的和来训练遥感影像描述生成模型。

8.一种基于视觉文本对齐的影像描述生成系统，其特征在于：用于实现如权利要求1-7任一项所述的一种基于视觉文本对齐的影像描述生成方法。

9.根据权利要求8所述基于视觉文本对齐的影像描述生成系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-7任一项所述的一种基于视觉文本对齐的影像描述生成方法。

10.根据权利要求8所述基于视觉文本对齐的影像描述生成系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-7任一项所述的一种基于视觉文本对齐的影像描述生成方法。