CN114882488A

CN114882488A - 基于深度学习与注意力机制的多源遥感图像信息处理方法

Info

Publication number: CN114882488A
Application number: CN202210547679.0A
Authority: CN
Inventors: 党迎旭; 王树良; 李燈杰; 王奕; 李明; 袁汉宁; 耿晶; 潘新宇
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-09
Anticipated expiration: 2042-05-18
Also published as: CN114882488B

Abstract

本发明提出一种基于深度学习与注意力机制的多源遥感图像信息处理方法，包括：步骤1，构建图像描述生成器，所述图像描述生成器基于自上而下图像描述模型构建而成；该自上而下图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型；步骤2：采用融入词性特征的文本图像匹配的POS‑SCAN模型对图形描述生成器进行训练，得到所述图形描述生成器的损失函数；步骤3：将所述图像描述生成器进行自序列训练后，将所述多源遥感图像进行区域特征提取，并将区域特征提取结果输入所述图像描述生成器，得到所述图像对应的文字标签；步骤4：将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块，得到相似度评分结果。

Description

基于深度学习与注意力机制的多源遥感图像信息处理方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于深度学习与注意力机制的多源遥感图像信息处理方法。

背景技术

从遥感图像中提取文字信息属于一种典型的场景理解技术，在提取图像中视觉特征、空间特征、语义特征的基础上，利用自然语言生成流畅而有意义的描述来概括图像的内容。目前，实现遥感图像信息提取任务的方法分为传统图像描述方法和基于深度学习的图像描述方法。

传统图像描述算法分为基于模板的方法和基于检索的方法。基于模板的方法首先通过Faster-RCNN等图像识别算法检测出图像中的目标，并通过特定的语句模板或者语法规则连接这些目标并生成描述性语句。而基于检索的方法则是在预先定义的语句集中检索出与给定的输入图像相似度最大的一个语句或者一组语句来描述图像。

深度学习的突破导致了人工智能和机器学习的范式转变，并在包括图像描述在内的计算机视觉领域取得了巨大成功。而应用注意力机制、图卷积神经网络以及强化学习等方法能够有效提高基于深度学习的图像描述算法的性能。因为CNN(卷积神经网络)在计算机视觉领域的广泛应用和RNN(循环神经网络)在机器翻译领域的成功，CNN+RNN的编码-解码模型在图像描述领域被广泛研究，解决了图像描述中的跨模态交互问题，但是该模型在处理长序列数据时存在梯度消失的问题。而基于LSTM(长短期记忆网络)的UP-DOWN模型可以利用门控机制增添删除信息，将特征信息有选择性的传递下去，适合处理长序列数据，被广泛应用于图像描述领域。由于注意力机制可以关注重要信息，忽略次要信息，因此被广泛应用于图像描述模型的解码阶段，帮助解码器有选择的关注图像中的语义特征。但是多数引入注意力机制的图像描述模型使用交叉熵损失函数进行训练，而利用交叉熵函数训练存在以下问题：模型训练和测试阶段存在曝光误差，交叉熵损失函数无法直接对不可微分的评价标准进行微分运算。为解决这一弊端，有研究者提出了利用强化学习来直接优化不可微分的评价标准。但是，这些方法都只关注于图像对象和文本对象特征和客观性评分，未能考虑特征之间的联系。而图神经网络能够有效获取图像中目标对象间的关系特征，构建出更丰富的图像语义特征，使图像描述模型生成的语句更具充分性和多样性。

发明内容

有鉴于此，本发明提供了一种基于深度学习与注意力机制的多源遥感图像信息处理方法，包括：

步骤1，构建图像描述生成器，所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成；

该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型；

步骤2：采用融入词性特征的文本图像匹配的POS-SCAN模型对图形描述生成器进行训练，得到所述图形描述生成器的损失函数；

步骤3：将所述图像描述生成器进行自序列训练后，将所述多源遥感图像进行区域特征提取，并将区域特征提取结果输入所述图像描述生成器，得到所述图像对应的文字标签；

步骤4：将所述区域特征提取结果、所述文字标签及候选语句输入相似性评分模块，得到相似度评分结果，所述相似度评分模块包括：

图像文本对象特征相似性评分，图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标评分等三个部分。

特别地，所述步骤2具体包括：所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度；所述KL散度的计算过程具体包括：从POS-SCAN模型中提取注意权重α_t作为真实分布，并提取自上而下(UP-DOWN)图像描述模型的注意权重β_t作为模拟分布，将β_t拟合α_t时产生的信息损耗即KL散度。

特别地，所述步骤3包括：使用Faster R-CNN模型提取的图像区域特征，具体包括：使用具有注意力机制的区域建议网络(RPN)提取候选建议区域；随后基于所述候选建议区域的Faster R-CNN模型的检测器识别目标。

特别地，所述步骤4中图像文本对象特征相似性评分，其是将图像与文本对象特征进行注意力融合，计算图像文本对象特征相似性评分，具体包括：对输入的图像区域特征进行编码，得到图像区域特征的图像对象特征；对文字标签及候选语句中的语句进行编码，使用双向门控循环单元(GRU)模型对标签语句和候选语句中的单词进行词嵌入操作；

对于每个所述图像对象特征，计算出每个标签语句中的所有文本对象特征对其的关注度；计算出所有标签语句在描述图像中任一对象特征所提供的关注信息；利用双向门控循环单元(GRU)模型中的融合层将关注信息集合中的信息向量融合为关注文本融合信息；再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征；

对于描述语句中的每一个文本对象特征，选取和其相似度最高的融合对象特征来计算两者的余弦相似性，将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。

特别地，所述步骤4中图像文本对象间关系特征相似性评分，是将图像与文本对象关系特征相似性评分作为自临界序列训练中的目标奖励函数的一部分，具体包括：

对输入的图像区域特征进行编码，得到图像区域特征的图像对象特征；

对于图像中的任一图像对象特征，基于空间结构的图卷积网络(GCN)提取图像中对象间关系特征；对所述文字标签及候选语句进行文本对象关系提取，其中通过文本图解析器建立文本对象关系知识图谱；并建立语义三元组；利用双向门控循环单元(GRU)模型对每个语义三元组进行编码，并计算文本对象间关系特征；

对于图像对象关系特征，首先计算出每个标签语句中的所有对象关系特征对其的关注度；计算出所有标签语句描述图像中任一对象关系特征时提供的关注信息；利用双向门控循环单元(GRU)模型中的融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息；通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征；对于描述语句中的每一个文本对象关系特征，选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性；将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象间关系特征相似性评分。

特别地，所述步骤3具体包括：将所述图像描述生成器进行自序列训练时，将每一个标题采样获取描述语句时，将剩余样本平均得分的新基线来进行自临界序列训练。

有益效果：

1、本发明将图像识别的技术应用在遥感数据的图像处理过程中，增加了遥感数据图像处理的速度和精确性；

2、本发明引入图像文本对象间关系特征相似性评分作为自临界训练目标得分函数的一部分，解决图像描述模型对图像中对象关系描述不充分的弊端；

3、本发明将标签文本对象特征融入到图像文本对象特征相似性评分机制；

4、本发明引入一种除取样样本外剩余样本平均得分的新基线来进行自临界序列训练来提升自临界序列训练的有效性。

附图说明

图1为图像描述生成器的工作流程示意图；

图2为自序列训练阶段的训练框架的工作流程示意图；

图3为图像文本对象特征相似性评分的工作流程示意图；

图4为图像文本对象特征相似性评分中图像与文本对象特征注意力融合的工作流程示意图；

图5为图像文本对象关系特征相似性评分的工作流程示意图；

图6为图像文本对象关系特征相似性评分中图像与文本对象关系特征注意力融合的工作流程示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明为了解决多源遥感图像数据到文本信息的自动提取的问题，提出了一种基于深度学习与注意力机制的多源遥感图像信息融合提取方法。

步骤1，构建图像描述生成器，所述图像描述生成器基于自上而下(UP-DOWN)图像描述模型构建而成；该自上而下(UP-DOWN)图像描述模型包括顺序连接的注意力LSTM模型和语句生成LSTM模型；

如图1所示，第一阶段以UP-DOWN模型为图像描述生成器，该生成器包括一个注意力LSTM和语句生成LSTM，输入为使用Faster R-CNN方法提取的图像特征，输出为图像描述语句。

本方法中采用的UP-DOWN图像描述生成器模型，主要由两个LSTM模型组成，第一层注意力LSTM利用注意力机制引导在生成单词时关注正确的图像区域，第二层语句生成LSTM根据注意力LSTM生成注意力权重向量

和当前时间节点生成单词的上下文特征值

生成图像特征对应的单词。

该模型的输入是经过Faster R-CNN模型的提取的图像区域特征F＝{f₁,f₂,f₃,…,f_k}，首先将图像中的每个区域特征f_i转化为图像对象特征

计算方式如下:

其中W_u和b_u是可训练参数。

在第t个时间节点，注意力LSTM将t-1时间节点的语句生成LSTM的隐藏变量输出

t-1时间节点的单词的词嵌入向量

和图像对象特征的平均值

作为输入，得到注意力LSTM的最后隐藏层输出

计算方式如下：

其中[；]表示向量拼接，对于给定的

在t时间节点生成当前单词的上下文特征值

为：

β_t＝softmax(z_t)#

其中上下文特征值

指的是当前时刻生成单词时关注的图像特征，β_t代表注意力机制门控权重决定那个图像区域更适合当前单词的生成，z_i,t是注意力机制门控权重的中间表示，

W_va，W_ha为训练的权重矩阵。

语句生成LSTM将生成当前词语关注的图像特征

和注意力LSTM的输出

作为输入，得到在时间节点t可能输出的单词的条件分布如下：

其中y_1…t-1表示(y₁,y₂,y₃,…,y_t-1)3，p(y_t|y_1…t-1)表示在已经生成前t-1个单词的条件下第t个时间节点可能生成的单词的分布情况，

为t时间节点语句生成LSTM的隐藏变量输出，而W_o和b_o是可训练的权重矩阵和偏移值。

Faster R-CNN模型提取图像特征分为两个阶段，第一阶段使用具有注意力机制的区域建议网络(RPN)提出候选建议区域，第二阶段使用基于区域建议的Faster R-CNN检测器识别目标。

第一阶段区域建议网络将任意大小的图像作为输入并输出一组矩形的候选建议区域及建议分数。为了生成候选建议区域，该模型使用一个滑动窗口在CNN网络最后一层输出的特征图上滑动，并在每一个空间位置预测出多个大小候选建议区域框，并利用回归层计算这些框是对象或者非对象的概率。在训练RPN网络时计算一个锚框与真实的锚框之间的交并比(IoU),将与其中一个真实锚框具有最高的交并比的锚框和与任意真实锚框的交并比都在0.7以上的锚框视为正样本，将与所有真实锚框的交并比都小于0.3的锚框视为负样本。

第二阶段将第一阶段输出的候选建议区域作为输入，并在每一个候选建议区域提取一个特征图，然后将这些特征图作为CNN网络最后一层的输入，该模型的最后输出为每一个图像特征的类标签的softmax分布和图像区域特征f_i,其中图像区域特征包括2048维的特征向量序列和4维的边界框坐标。

本方法利用Faster R-CNN提取图像特征，对于给定的图像I，获取其k个图像区域特征F＝{f₁,f₂,f₃,…,f_k}作为UP-DOWN图像描述模型的输入。

本发明中训练中得到图形描述器的损失函数前，首先需要对预训练模型，即POS-SCAN模型的损失函数进行训练；在数据集上预训练POS-SCAN模型，然后固定其参数不变。

本方法中的融合词性特征的文本图像匹配模式POS-SCAN、图像文本对象特征相似性评分器和图像文本对象间关系特征相似性评分器均采用三元组损失进行训练，公式如下：

l^*泛指l^pos,l^o,l^r，S^*则分别对应融入词性特征的文本图像匹配模式评分S^pos，图像文本对象特征相似性评分S^o,图像文本对象关系特征相似性评分S^r。该三元组损失函数由两个对称项组成，第一项表示对于给定图像I，统计所有非正确描述语句的损失，S^*(I,T)表示当前候选图像与其对应的标签语句的得分，

表示当前候选语句和非其对象标签语句的得分。第二项表示对于给定的图像描述语句T，统计所有非正确的图像的损失，

表示当前标签语句和非其对应的候选图像的得分。m为边缘系数，[*]₊等价于max(*,0)。可以看出当给出图像及其标签语句的情况下可以获得更高的分数。

随后，在POS-SCAN模型的监督下训练UP-DOWN模型，具体做法是，在计算损失函数时除了优化交叉熵cross-entropy，还需优化所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度，注意到这里也只考虑名词，而非名词不参与计算；即图形描述生成器的损失函数包括：标准化交叉熵和KL散度。通过KL散度从融入词性特征的文本图像匹配模式POS-SCAN中提取注意权重α_t，对UP-DOWN图像描述模型的注意权重β_t进行正则化,使注意力LSTM将生成的单词与注意区域正确关联。

所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度，具体包括：

在第一阶段，通常使用最小化标准交叉熵损失的方法训练图像描述生成器。为了使生成描述性单词时注意力LSTM将生成的单词与注意区域正确关联，本方法将从POS-SCAN模型中提取注意权重α_t作为真实分布，并提取UP-DOWN图像描述模型的注意权重β_t作为模拟分布，将β_t拟合α_t时产生的信息损耗即KL散度也作为第一阶段熵训练损失函数的一部分，故熵训练阶段的联合损失函数为：

其中前一项为标准交叉熵损失，其中θ为网络需要学习的参数，

表示生成描述语句的第t个单词，该项的含义是学习最佳的网络参数θ使该网络最大化在给定图像下生成正确的单词的概率。第二项是KL散度损失，其中λ₁为超参数，

表示当

为名词时该公式为1，否则为0。KL(α_t||β_t)表示α_t和β_t两个注意力权重分布的信息熵的差值。

步骤3：将所述图像描述生成器进行自序列训练后，将所述多源遥感图像进行区域特征提取，并将区域特征提取结果输入所述图像描述生成器，得到所述图像对应的文字标签。

如图2所示，第二阶段自序列训练阶段的训练框架分为两部分，包括UP-DOWN为基础的生成器模型和相似性评分机制，其中第二阶段自临界序列训练引用了蒙特卡罗目标变分推理基线来提升训练效果。

在第二阶段通过强化学习方法即自临界序列训练进一步训练图像描述生成模型，其学习目的是最小化负目标奖励函数回报，而目标奖励函数由图像文本对象特征相似性评分，图像文本对象关系特征相似性评分和CIDEr评分三部分组成；负目标奖励函数如下：

其中r(y₁......_n)表示当前语句y的目标奖励得分。

按照自临界序列训练(SCST)的策略梯度方法，该损失的近似梯度为：

其中y_1:n是抽样的一个候选描述语句，而b是一个基线，且必须和y_1:n无关，但是该模型忽略了图像与文本中的对象特征对齐对模型性能的影响，因此Zhou等人提出了将SCAN得分作为SCST中目标奖励函数的一部分：

r(y_1：n)＝CIDEr(y_1：n)+λ₂SCAN（I，y_1：n)#

其中λ₂为超参数，SCAN指文本图像匹配模式得分。

但是该目标奖励函数忽略了图像和文本中对象间关系特征相似性，因此本方法进一步包括：

图像文本对象特征相似性评分，图像文本对象间关系特征相似性评分和基于共识的图像描述评估指标(CIDEr)评分等三个部分。该相似性评分机制的输入为Faster R-CNN提取的图像区域特征、其对应的标签语句{R₁,R₂,…,R₅}，候选语句C，输出为相似性评分。

其中，将图像和文本中对象间关系特征的相似性评分作为SCST中目标奖励函数的一部分，并利用注意力融合机制优化过的图像文本对象特征相似性评分机制代替文本图像匹配模式：

r′(y_1：n)＝CIDEr(y_1：n)+λ₃S^o(I，y_1：n)+λ₄S^r(I，y_1：n)#

其中λ₃，λ₄为超参数，S^o(I,y_1:n)为图像文本对象特征相似性评分，S^r(I,y_1:n)为图像文本对象关系特征相似性评分。

(1)图像文本对象特征相似性评分方法

其使用经过注意力融合机制优化的图像文本匹配模式，即图像文本对象特征相似性评分机制作为自临界序列训练中的目标奖励函数的一部分。

如图3所示，对于一个图像I，图像文本对象特征相似性评分机制的输入为FasterR-CNN提取的图像区域特征，图像对应的标签语句{R₁,R₂,…,R₅}，候选语句C，输出为图像文本对象特征相似性评分。具体流程如下：

首先对输入的图像区域特征和语句分别进行编码，公式如下：

其中W′_u和b′_u是可训练参数，f_i为Faster R-CNN提取的图像区域特征，

为图像对象特征。

其次，实现文本语句词嵌入，使用双向GRU(门控循环单元)模型对标签语句{R₁,R₂,…,R₅}和候选语句C中的单词进行词嵌入操作，公式如下：

其中W_e是嵌入矩阵，x_k为词语的one-hot编码向量表示。最终该单词的文本对象特征向量表示为

为向前隐藏状态

和向后隐藏状态

的平均值，公式如下：

再次，实现图像与文本对象特征注意力融合，流程如图4所示：

为了获得充分的参考信息来反映人类对图像的主要感知，本方法通过注意机制融合图像中的对象特征和标签语句中的文本对象特征。如图4所示，给定一个图像对象特征

首先计算出每个标签语句中的所有文本对象特征

对其的关注度：

表示第j个标签语句中的第k个文本对象特征

对图像中第i个对象特征

的关注度，W_a为可训练参数。

然后计算出所有标签语句在描述图像中任一对象特征

所提供的关注信息：

表示第j个标签语句在描述图像中第i个对象特征

时应关注的文本对象特征。

标签语句集合{R₁,R₂,…,R₅}描述图像中对象特征

时的关注信息集合为

为了充分利用所有标签语句中文本对象特征对于图像文本对象特征相似性计算的作用，利用GRU融合层将关注信息集合中的信息向量融合为关注文本融合信息

(描述第i个对象特征

时关注的关注文本融合信息),再通过一个全连接层将融合关注文本融合信息和其对应的图像对象特征融合为对象融合特征

其中高度包含了图像对象特征信息和其对应的标签语句中文本对象关注度信息。

最后，本方法将描述语句文本对象特征和图像对象特征的全局相似性评分S^o(I,T)定义为：

S^o(Z,T)为对象融合特征和描述语句文本对象特征的相似性得分，与描述语句文本对象特征和图像对象特征的全局相似性评分S^o(I,T)一致，

为描述语句T中的第k个文本对象特征，

表示在描述第i个图像特征时，融合对象特征和其对应的描述语句中的第k个文本对象特征之间的余弦相似性。此相似性评分表示对于描述语句中的每一个文本对象特征

都会选取和其相似度最高的融合对象特征来计算两者的余弦相似性，最后将描述语句中的所有文本对象特征与其对应的图像对象特征的余弦相似性得分的平均值作为图像文本对象特征相似性评分。

(2)图像与文本对象关系特征相似性评分

除图像文本对象相似性评分机制和CIDEr评分以外，本方法将图像与文本对象关系特征相似性评分也作为自临界序列训练中的目标奖励函数的一部分。与图像文本对象特征相似性评分机制类似，图像文本对象关系特征相似性评分机制的输入为Faster R-CNN提取的图像区域特征，图像对应的标签语句{R₁,R₂,…,R₅}，候选语句C，输出为图像文本对象关系特征相似性评分。其具体流程如图5所示。

首先实现图像对象关系特征提取，在将输入的图像区域特征f_i转化为图像对象特征

的基础上，利用GCN网络提取图像中对象间关系特征

本方法使用的GCN网络是基于空间结构的图卷积网络，对于图像I中的任一目标对象特征

其余对象特征对目标对象特征对应的描述语句的生成的影响权重是不同的，因此本方法使用两个识别对象的锚框之间的偏移量作为关注权重，并采用加权平均法更新GCN网络中的节点的特征值，将目标对象

和其它任一邻接对象

的关系权值γ_ij定义为两者锚框的偏移量和目标对象与其所有邻接对象的锚框的偏移量的和的比值,因此目标对象特征

和其所有的邻接节点的对象关系特征

为：

其中N_i表示目标对象的所有邻接对象，Δb_ik表示目标对象特征

与其某一邻接节点

的锚框之间的偏移量，W_△,W_r为可训练参数，tanh为双曲正切函数，用作激活函数。

其次，实现文本对象关系特征提取。文本对象关系特征提取分为提取文本对象关系知识图谱和语义三元组编码两部分。

在文本对象关系知识图谱语义三元组提取过程中，对于给定的标签语句{R₁,R₂,…,R₅}和候选语句C，本方法使用SPICE作为文本图解析器将其解析为文本知识图谱，给定一组对象类Φ，一组关系类γ，一组属性类A，和一个描述语句x，本文将其解析为一个知识图谱：

G(x)＝<O(x),E(x),D(x)>

其中

是语句x中包含的对象，即知识图谱中的节点，

是对象之间的关系短语，即知识图谱中的边，

是语句中对象相关的属性集。

在语义三元组编码过程中，语义三元组编码将文本关系图中的语义三元组，记作t_k，作为输入，然后使用双向GRU对每个三元组进行编码，

其中t_k表示文本关系图中的第k个语义三元组，

为双向GRU的最后一个向后隐藏状态，

为双向GRU的最后一个向前隐藏状态。

最后，我们将每个三元组的最后一个向前隐藏状态特征

和最后一个向后隐藏状态特征,

的平均值作为文本对象间关系特征

再次，图像文本对象关系特征注意力融合机制与图像文本对象关系特征相似性评分机制类似。本方法通过注意机制融合图像中对象关系特征和标签语句中对象关系特征，如图6所示。

给定一个图像对象关系特征

首先计算出每个标签语句中的所有对象关系特征

对其的关注度：

表示第j个标签语句中的第k个文本对象关系特征

对图像中第i个对象关系特征

的关注度。

然后计算出所有标签语句描述图像中任一对象关系特征

时提供的关注信息：

表示第j个标签语句对于图像中第i个对象关系特征

的应关注的文本对象关系特征。

标签语句集合{R₁,R₂,…,R₅}描述图像中对象关系特征

时的关注信息集合为

为了充分利用所有标签语句中文本对象关系特征对于图像文本对象关系特征相似性计算的作用，本方法利用GRU融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息

(描述第i个对象关系特征

时关注的关注文本关系融合信息),再通过一个全连接层将关注文本关系融合信息

和其对应的图像对象关系特征

融合为对象关系融合特征

其中高度包含了图像对象关系特征信息和其对应的标签语句中文本对象关系特征关注度信息。

最后，描述语句文本对象关系特征和图像对象关系特征的全局相似性评分S^r(I,T)为：

S^r(Z,T)为对象关系融合特征和语句文本对象关系特征的相似性得分，与语句文本对象关系特征和图像对象关系特征的全局相似性评分S^r(I,T)一致，

是描述语句T中的第k个文本对象关系特征，

表示在描述第i个图像特征时，对象关系融合特征和其对应的描述语句中的第k个文本对象关系特征之间的余弦相似性。此相似性评分表示对于描述语句中的每一个文本对象关系特征

都会选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性，最后将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象关系特征相似性评分。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本发明实施例不限于上述示范性实施例的细节，而且在不背离本发明实施例的精神或基本特征的情况下，能够以其他的具体形式实现本发明实施例。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明实施例的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统、装置或终端权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施方式仅用以说明本发明实施例的技术方案而非限制，尽管参照以上较佳实施方式对本发明实施例进行了详细说明，本领域的普通技术人员应当理解，可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims

1.一种基于深度学习与注意力机制的多源遥感图像信息处理方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习与注意力机制的多源遥感图像信息处理方法，其特征在于：所述步骤2具体包括：所述损失函数包括交叉熵函数和所述图形描述生成器中所述注意力LSTM模型和所述POS-SCAN模型之间的KL散度；所述KL散度的计算过程具体包括：从POS-SCAN模型中提取注意权重α_t作为真实分布，并提取自上而下(UP-DOWN)图像描述模型的注意权重β_t作为模拟分布，将β_t拟合α_t时产生的信息损耗即KL散度。

3.根据权利要求1或2所述的基于深度学习与注意力机制的多源遥感图像信息处理方法，其特征在于：所述步骤3包括：使用Faster R-CNN模型提取的图像区域特征，具体包括：使用具有注意力机制的区域建议网络(RPN)提取候选建议区域；随后基于所述候选建议区域的Faster R-CNN模型的检测器识别目标。

4.根据权利要求1-3任意一项所述的基于深度学习与注意力机制的多源遥感图像信息处理方法，其特征在于：所述步骤4中图像文本对象特征相似性评分，其是将图像与文本对象特征进行注意力融合，计算图像文本对象特征相似性评分，具体包括：对输入的图像区域特征进行编码，得到图像区域特征的图像对象特征；对文字标签及候选语句中的语句进行编码，使用双向门控循环单元(GRU)模型对标签语句和候选语句中的单词进行词嵌入操作；

5.根据权利要求1-3任意一项所述的基于深度学习与注意力机制的多源遥感图像信息处理方法，其特征在于：所述步骤4中图像文本对象间关系特征相似性评分，是将图像与文本对象关系特征相似性评分作为自临界序列训练中的目标奖励函数的一部分，具体包括：

对于图像对象关系特征，首先计算出每个标签语句中的所有对象关系特征对其的关注度；计算出所有标签语句描述图像中任一对象关系特征时提供的关注信息；利用双向门控循环单元(GRU)模型中的融合层将对象关系特征关注信息集合中的信息向量融合为关注文本关系融合信息；通过一个全连接层将关注文本关系融合信息和其对应的图像对象关系特征融合为对象关系融合特征；

对于描述语句中的每一个文本对象关系特征，选取和其相似度最高的对象关系融合特征来计算两者的余弦相似性；将描述语句中的所有文本对象关系特征与其对应的图像对象关系特征的余弦相似性得分的平均值作为图像文本对象间关系特征相似性评分。

6.根据权利要求1所述的基于深度学习与注意力机制的多源遥感图像信息处理方法，其特征在于：所述步骤3具体包括：将所述图像描述生成器进行自序列训练时，将每一个标题采样获取描述语句时，将剩余样本平均得分的新基线来进行自临界序列训练。