CN117036967A

CN117036967A - 一种非视觉感知区域通道注意力的遥感图像描述方法

Info

Publication number: CN117036967A
Application number: CN202311290173.7A
Authority: CN
Inventors: 易玉根; 黄龙军; 张宁毅; 陈勇; 周唯
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2023-11-10
Anticipated expiration: 2043-10-08
Also published as: CN117036967B

Abstract

本申请涉及一种非视觉感知区域通道注意力的遥感图像描述方法，它包括如下步骤：构建用于遥感图像描述的数据集和基于区域通道注意力的遥感图像描述模型，所述基于区域通道注意力的遥感图像描述模型包括编码器、区域‑通道注意力模块和双层分离LSTM解码器；对所述基于区域通道注意力的遥感图像描述模型进行训练，采用时间步累积的交叉熵损失和随机注意力正则化损失的组合作为模型的损失函数；使用训练好的基于区域通道注意力的遥感图像描述模型进行遥感图像描述。本发明可解决现有方法在遥感图像描述任务中忽略自上而下可调的注意力机制协同作用、通道维度的视觉属性信息重要性以及非视觉意义的单词与图像中的视觉语义信息对齐问题。

Description

一种非视觉感知区域通道注意力的遥感图像描述方法

技术领域

本发明涉及计算机科学中的多模态遥感图像与文本处理技术领域，具体涉及一种非视觉感知区域通道注意力的遥感图像描述方法。

背景技术

遥感图像描述RSIC是计算机视觉和自然语言处理中的一项具有挑战性的任务。遥感图像描述旨在通过计算机视觉和自然语言处理技术为遥感图像生成与图像内容相符的文字描述。该任务能够增强对图像内容的理解和解释能力，在图像检索等领域具有广泛的应用价值。

在现有的遥感图像描述方法中，基于编码器-解码器架构的视觉注意力是一类主流方法。这种方法根据预测单词的要求，有选择性地关注感兴趣的区域。例如，当想要预测“棒球”这个单词时，则需要主动调控注意力关注相关的视觉信息作为线索，如平整的草地、棒球场的边界和轮廓、以及球场标志等。这种方式类似于人类通过意识和认知控制的自上而下的注意力机制。与自上而下的注意力相对应的是自下而上的注意力机制，自下而上的注意力是由外部刺激引发，例如颜色和强度等底层特征。这些底层特征经过初步处理和筛选后，生成一组表现出新颖或重要的显著图。

传统的遥感图像描述方法并未明确构建自下而上的注意力，而是通过卷积神经网络等深度学习特征提取方法获得宽泛而无重点的全局视觉线索。这种方式获得的视觉线索存在冗余，导致难以在后续的自上而下可调的注意力机制中发挥作用。此外，图像描述任务是以文本为驱动自上而下地从图像端寻找相关性最大的视觉线索，并且现有方法往往注重于空间上的最大相关性，缺忽略了通道维度的视觉属性信息重要性。然而在深度网络中，通道级别的特征意味着不同的视觉属性，可以提供一种新的信息参考维度。另一方面，图像描述任务是一个完整序列预测任务，除了考虑单词的准确性，还需要考虑单词的顺序合理性，即要求生成的句子具有完整的语法结构，但是仅仅依靠视觉信号难以实现非视觉意义的单词与图像中的视觉语义信息对齐。实际上，在预测完整单词序列时，除了依赖于视觉信号，还需要借助已经生成的单词上下文来进行指导以生成准确且符合语法的句子。

发明内容

本发明的目的在于，提供一种非视觉感知区域通道注意力的遥感图像描述方法，解决现有方法在遥感图像描述任务中忽略自上而下可调的注意力机制协同作用、通道维度的视觉属性信息重要性以及非视觉意义的单词与图像中的视觉语义信息对齐问题。

本发明采取的技术方案是：一种非视觉感知区域通道注意力的遥感图像描述方法，包括如下步骤：

S1：构建用于遥感图像描述的数据集，将所述数据集划分为训练集、测试集和验证集；

S2：构建基于区域通道注意力的遥感图像描述模型，所述基于区域通道注意力的遥感图像描述模型包括编码器、区域-通道注意力模块和双层分离LSTM解码器；

所述编码器用于提取输入图像的视觉特征；

所述区域-通道注意力模块用于结合视觉特征生成区域特征/>，并对区域特征的通道加权构建全局区域特征/>；

所述双层分离LSTM解码器包括自适应注意力模块以及与所述自适应注意力模块连接的非视觉感知LSTM模块和文本生成LSTM模块；所述非视觉感知LSTM模块用于生成非视觉感知向量；所述自适应注意力模块用于生成非视觉感知向量/>和区域特征/>的权重并与非视觉感知向量/>和区域特征/>加权生成加权后的上下文特征向量/>；所述文本生成LSTM模块用于通过加权后的上下文特征向量/>生成当前时刻下属于字典范围内每个单词的概率；依据每个时刻下最大的单词概率生成索引表，并根据索引表在词库中提取对应的单词，组成输入图像的描述语句；

S3：使用训练集对所述基于区域通道注意力的遥感图像描述模型进行训练，使用验证集调整模型参数，判断是否过拟合，采用时间步累积的交叉熵损失L_s和随机注意力正则化损失的组合作为模型的损失函数/>，完成基于区域通道注意力的遥感图像描述模型的训练；使用测试集测试基于区域通道注意力的遥感图像描述模型的网络性能；

S4：采用训练好的基于区域通道注意力的遥感图像描述模型进行遥感图像描述。

进一步地，所述区域-通道注意力模块使用选择性搜索算法，生成一组类无关的分割区域，并通过K-Means算法进行聚类，得到固定数量的区域掩码/>，对区域掩码/>与视觉特征/>进行上采样操作，使区域掩码/>与视觉特征/>具有相同的空间分辨率；随后对区域掩码/>与视觉特征/>进行逐元素乘积，并执行全局平均池化操作，生成区域特征/>，完成对视觉特征/>的区域注意力加权操作；区域特征/>的表达式如下：

；

其中，表示区域特征/>中的第/>个特征，/>；/>表示全局平均池化操作，/>表示逐元素乘积操作，/>表示第/>个区域掩码；

以双层分离LSTM解码器产生的隐藏状态为指导，为不同的区域特征通道分配不同的权重，将通道注意力应用于区域注意力加权操作后生成的区域特征，通过对区域特征通道加权构建全局区域特征/>；全局区域特征/>的表达式如下：

；

其中，表示多类别分类中常用的概率分布函数，/>表示/>的转置，/>表示输出维度为1且元素全为1的第一可学习向量，用于生成单通道的注意力向量；/>表示将输入映射到[-1, 1]区间的双曲正切函数，/>表示通道注意力，/>表示第一可学习参数，/>表示第二可学习参数，/>表示双层分离LSTM解码器/>时刻的隐藏状态。

进一步地，所述区域-通道注意力模块在生成区域特征后，还通过区域尺寸归一化方法，根据区域掩码/>的区域大小调整输入图像中不同区域的权重，对区域特征/>进行处理，生成归一化后的区域特征/>，具体处理方式如下：

；

其中，表示区域特征/>中的第/>个特征归一化后的区域特征，/>表示第/>个区域掩码/>中第/>行第/>列的值，/>，/>；/>表示图像高度，/>表示图像宽度，/>为常数极小值。

进一步地，所述非视觉感知LSTM模块将文本生成LSTM模块前一时刻的隐藏层输出、全局区域特征/>以及当前时刻的词嵌入向量/>的组合作为当前时刻的输入/>；结合非视觉感知LSTM模块前一时刻的隐藏层输出/>、非视觉感知LSTM模块前一时刻的记忆单元值/>、非视觉感知LSTM模块当前时刻的单元记忆值/>以及文本生成LSTM模块前一时刻的记忆单元值/>，输出当前时刻的非视觉感知向量/>、非视觉感知LSTM模块当前时刻的隐藏层输出/>和非视觉感知LSTM模块当前时刻的单元记忆值/>，具体表达式如下：

；

其中，表示门控值；/>表示Sigmoid激活函数；/>表示第三可学习参数，/>表示第四可学习参数；/>表示非视觉感知LSTM模块；

所述自适应注意力模块对当前时刻的非视觉感知向量、区域特征/>以及非视觉感知LSTM模块当前时刻的隐藏层输出/>的投影执行系列非线性变化和激活，投影到共同的潜在空间，生成当前时刻下的一组注意力特征（/>，/>，/>），其中，/>表示来自区域特征的注意力特征，/>表示当前时刻来自非视觉感知向量的注意力特征，/>表示当前时刻来自隐藏层注意力特征，并使用这组注意力特征生成区域特征/>与当前时刻的非视觉感知向量/>在当前时刻下的组合权重/>，组合权重/>中的最后一个元素值为当前时刻的非视觉感知向量/>的权重，其余元素值为区域特征/>的权重，根据加权后的区域特征/>与当前时刻加权后的非视觉感知向量/>以及非视觉感知LSTM模块当前时刻的隐藏层输出/>的投影，生成当前时刻加权后的上下文特征向量/>，具体计算过程如下：

；

其中，表示将区域特征/>投影到潜在空间的可学习参数，/>表示将当前时刻的非视觉感知向量/>投影到潜在空间的可学习参数，/>表示非视觉感知LSTM模块当前时刻的隐藏层输出/>投影到潜在空间的可学习参数，/>表示一种控制输出大于0的激活函数，/>表示/>的转置，/>表示输出维度为1且元素全为1的第二可学习向量，用于调整组合权重/>的通道数为1；

所述文本生成LSTM模块以非视觉感知LSTM模块当前时刻的隐藏层输出和当前时刻加权后的上下文特征向量/>作为当前时刻的输入/>，结合文本生成LSTM模块前一时刻的隐藏层输出/>和文本生成LSTM模块前一时刻的记忆单元值/>生成当前时刻下属于字典范围内每个单词的概率/>，具体表达式如下：

；

其中，表示文本生成LSTM模块，/>表示第五可学习参数。

进一步地，所述时间步累积的交叉熵损失、随机注意力正则化损失/>和模型的损失函数/>的计算公式如下：

；

其中，表示总时刻，/>表示当前时刻的真实单词。

本发明的有益效果在于：

（1）本发明设置的区域-通道注意力模块以及自适应注意力模块分别对应于人类的自下而上注意力以及自上而下注意力机制，将两种注意力机制的协同作用运用于遥感图像描述，有效提升了模型性能和描述效果；

（2）本发明在区域-通道注意力模块运用区域归一化方法用于平衡模型对不同大小区域的关注程度，并构建了融入通道维度的视觉属性信息的全局区域特征，有助于模型生成更具有辨别性的文本描述；

（3）本发明构建的双层分离LSTM解码器通过非视觉感知LSTM模块、自适应注意力模块和文本生成LSTM模块分别执行非视觉意义单词捕获、自上而下的注意力构建以及文本描述预测任务，能够有效克服现有技术中难以实现非视觉意义的单词与图像中的视觉语义信息对齐的缺陷，生成更加准确的描述语句。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例中双层分离LSTM解码器的结构示意图；

图3为不同注意力模块下对遥感图像描述的可视化描述结果。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样， “一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。 “连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。 “上”、 “下”、 “左”、 “右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

如图1所示，一种非视觉感知区域通道注意力的遥感图像描述方法，包括如下步骤：

S1：构建用于遥感图像描述的数据集，将所述数据集划分为训练集、测试集和验证集。本发明实施例使用的是四个在遥感图像描述领域广泛使用的数据集，分别为NWPU-Captions数据集，RSICD数据集，UCM-Captions数据集和Sydney-Captions数据集，并将四个数据按照8：1：1的比例划分为训练集、测试集和验证集。

NWPU-Captions数据集包含了31500张尺寸为256×256的遥感图像，覆盖45个不同的场景类别。每张图像标注了5个不同的句子，总词汇量为3149个单词。相比于其他三个数据集，NWPU-Captions数据集具有最大规模的数据量和场景类别。

RSICD数据集包含了10921张尺寸为224×224的遥感图像，覆盖30个不同的场景类别。每张图像原始标注了1~5个不同的句子，少于5个句子标注的推向最终被随机复制扩展到了5个句子，总词汇量为3072个单词。与UCM-Captions数据集和Sydney-Captions数据集相比，RSICD数据集具有更丰富的场景类别和更大规模的图像描述数据，但是由于其五分之三的文本描述通过随机复制原始标注得到，可能导致词汇和句子缺乏多样性和丰富性。

UCM-Captions数据集包含了2100张尺寸为500×500的遥感图像，涉及21个不同类型的场景，包括建筑物、密集住宅、森林和高速公路等。每张图像标注了5个不同的句子，总词汇量为368个单词。与Sydney-Captions数据集相比，标注句子较为简单和单调。

Sydney-Captions包含了613张尺寸为256×256的遥感图像，涉及七个不同类型的场景，包括住宅、机场、草甸、河流、海洋、工厂和跑道。每张图像标注了5个不同的句子，总词汇量为237个。与UCM-Captions数据相比，Sydney-Captions数据集中的描述语句更长且词汇更丰富，但是场景类别不平衡，如大多是住宅，数据集规模更小，是该数据集的缺点。

S2：构建基于区域通道注意力的遥感图像描述模型，所述基于区域通道注意力的遥感图像描述模型包括编码器、区域-通道注意力模块和双层分离LSTM解码器。

所述编码器用于提取输入图像的视觉特征。

所述区域-通道注意力模块用于结合视觉特征生成区域特征/>，并对区域特征的通道加权构建全局区域特征/>。在本发明实施例中，所述区域-通道注意力模块使用选择性搜索算法，例如Selective Search算法，通过初始分割、区域合并、区域评估和候选区域生成这几个步骤，基于颜色和纹理等低级特征，生成一组类无关的分割区域，并通过K-Means算法进行聚类，得到固定数量K的区域掩码Masks。

在执行分割前，使用guided filter算法对原始图像去噪。具体来说，首先对输入图像使用大小为8×8的滤波核执行均值滤波，生成模糊图像。接着将模糊图像转为灰度图后执行归一化将像素值范围映射到0~1之间，生成一个基于原始图像经过去噪变换后的导向图。然后，再使用导向图作为指导，对原始输入图执行guided filter算法，生成去噪后的输入图。在Selective Search算法中，可选参数scale、sigma和min_size分别控制分割的粗细程度、颜色相似性的权重以及指定分割出的最小区域的大小，本发明实施例中分别将三个参数的值设置为100、0.8和100。Selective Search算法进一步使用K-Means算法生成固定类数量的分割区域，在本发明实施例中，聚类的簇数与区域掩码的数量相同，均为5。

对区域掩码与视觉特征/>进行上采样操作，使区域掩码/>与视觉特征/>具有相同的空间分辨率；随后对区域掩码/>与视觉特征/>进行逐元素乘积，并执行全局平均池化操作，生成区域特征/>，完成对视觉特征/>的区域注意力加权操作；区域特征/>的表达式如下：

；

其中，表示区域特征/>中的第/>个特征，/>；/>表示全局平均池化操作，/>表示逐元素乘积操作，/>表示第/>个区域掩码。

本发明实施例使用区域掩码在空间维度对视觉特征/>计算加权表示并生成区域特征/>，这相当于一种空间硬注意力。然而，在生成全局区域特征/>时，这种空间硬注意力仍然存在一定的限制，例如缺乏平滑性和信息丢失等问题。因此，本发明实施例引入了通道软注意力/>，以双层分离LSTM解码器产生的隐藏状态为指导，为不同的区域特征通道分配不同的权重，将通道注意力应用于区域注意力加权操作后生成的区域特征/>，通过对区域特征通道加权构建全局区域特征/>；全局区域特征/>的表达式如下：

；

针对大范围遥感图像，通常存在小型且显著的目标，例如建筑、车辆、船只和行人。虽然这些遥感图像通常具有高分辨率，但小目标的尺寸可能非常小，有些甚至只有几个像素。由于尺寸较小的限制，小目标缺乏明确的边界和纹理信息，这导致难以在解码过程中集中注意小而重要的目标区域。同时，即使背景区域与预测单词无关，其丰富的像素信息往往会覆盖预测单词的真实对齐区域，导致错误的预测。为解决这一问题，本发明实施例在生成区域特征后，还通过区域尺寸归一化方法，根据区域掩码/>的区域大小调整输入图像中不同区域的权重，对区域特征/>进行处理，将区域特征/>除以其对应的区域掩码/>的尺寸，以缩小大区域和小区域之间的尺度差异，使得小区域的特征值更大，并生成归一化后的区域特征/>。具体计算公式如下：

；

在解码器端，对于输入的归一化后的区域特征以及全局区域特征/>，需要在预测每个时刻的单词时，使得模型自动关注到不同的区域特征/>。然而，并非所有待预测的单词都具有实际视觉意义，例如用于构成语法结构的连词等，或是固定的词组搭配。通过LSTM模块中记忆单元的长序列记忆能力，可判断当前预测单词是否具有实际视觉意义，并作为权重参与上下文特征的生成。

本发明实施例使用的解码器为双层分离LSTM解码器，具体结构如图2所示，图2中“”表示上一时刻下属于字典范围内每个单词的概率，“/>” 表示下一时刻下属于字典范围内每个单词的概率，“/>”表示Sigmoid激活函数，“/>”表示Tanh双曲正切函数，“”表示元素相乘，“/>”表示线性变换，“/>”表示元素相加，“A”表示文本生成LSTM模块，“B”表示自适应注意力模块，“C”表示非视觉感知LSTM模块。所述双层分离LSTM解码器包括自适应注意力模块以及与所述自适应注意力模块连接的非视觉感知LSTM模块和文本生成LSTM模块；所述非视觉感知LSTM模块用于生成非视觉感知向量/>；所述自适应注意力模块用于生成非视觉感知向量/>和区域特征/>的权重并与非视觉感知向量/>和区域特征/>加权生成加权后的上下文特征向量/>；所述文本生成LSTM模块用于通过加权后的上下文特征向量/>生成当前时刻下属于字典范围内每个单词的概率。依据每个时刻下最大的单词概率生成索引表，并根据索引表在词库中提取对应的单词，组成输入图像的描述语句。

所述非视觉感知LSTM模块的记忆单元存储了关于过去输入序列的信息，能够允许网络在处理时间序列数据时有效地捕捉和记住长期依赖关系。所述非视觉感知LSTM模块将文本生成LSTM模块前一时刻的隐藏层输出、全局区域特征/>以及当前时刻的词嵌入向量/>的组合作为当前时刻的输入/>；结合非视觉感知LSTM模块前一时刻的隐藏层输出、非视觉感知LSTM模块前一时刻的记忆单元值/>、非视觉感知LSTM模块当前时刻的单元记忆值/>以及文本生成LSTM模块前一时刻的记忆单元值/>，输出当前时刻的非视觉感知向量/>、非视觉感知LSTM模块当前时刻的隐藏层输出/>和非视觉感知LSTM模块当前时刻的单元记忆值/>，具体表达式如下：

；

其中，表示门控值，用于控制当前解码单词所依赖的文本生成LSTM的记忆单元的信息流动量，/>越大意味着当前解码单词越依赖于过去已生成的文本上下文信息，反之则意味着当前解码单词依赖于视觉线索；/>表示Sigmoid激活函数；/>表示第三可学习参数，/>表示第四可学习参数；/>表示非视觉感知LSTM模块。

；

其中，表示将区域特征/>投影至来自区域特征的注意力特征/>的可学习参数， />表示将当前时刻的非视觉感知向量/>投影至当前时刻来自非视觉感知向量的注意力特征/>的可学习参数，/>表示将非视觉感知LSTM模块当前时刻的隐藏层输出/>投影至当前时刻来自隐藏层的注意力特征/>的可学习参数，/>表示/>的转置，/>表示的转置，/>表示/>的转置，/>表示将区域特征/>投影到潜在空间的可学习参数，/>表示将当前时刻的非视觉感知向量/>投影到潜在空间的可学习参数，/>表示非视觉感知LSTM模块当前时刻的隐藏层输出/>投影到潜在空间的可学习参数，/>表示一种控制输出大于0的激活函数，/>表示/>的转置，/>表示输出维度为1且元素全为1的第二可学习向量，用于调整组合权重/>的通道数为1。

为了分离关注点和提升解码器的灵活性和可拓展性，本发明实施例使用文本生成LSTM模块用于文本预测。为了增加表征传播能力，所述文本生成LSTM模块以非视觉感知LSTM模块当前时刻的隐藏层输出和当前时刻加权后的上下文特征向量/>作为当前时刻的输入/>。当前时刻文本生成LSTM模块的记忆单元值/>将传递给下一时刻的非视觉感知LSTM模块，用于计算下一时刻的非视觉感知向量/>。这种方式可以将/>时刻前的所有文本上下文信息自适应的传递给/>时刻的文本解码过程，从而判断/>时刻解码的单词是否依赖视觉线索或是先前生成的文本上下文。

当前时刻的输入结合文本生成LSTM模块前一时刻的隐藏层输出/>和文本生成LSTM模块前一时刻的记忆单元值/>，通过一个全连接计算成当前时刻下属于字典范围内每个单词的概率/>，具体表达式如下：

；

其中，表示文本生成LSTM模块，/>表示第五可学习参数。

S3：使用训练集对所述基于区域通道注意力的遥感图像描述模型进行训练，使用验证集调整模型参数，判断是否过拟合，采用时间步累积的交叉熵损失和随机注意力正则化损失/>的组合作为模型的损失函数/>，完成基于区域通道注意力的遥感图像描述模型的训练；使用测试集测试基于区域通道注意力的遥感图像描述模型的网络性能。

本发明实施例在训练过程中，对所有图片和区域掩码执行随机翻转和随机裁剪的数据增强操作，之后将所有图片调整大小到224×224，并将所有数据集文本映射到一个字典中，总长度为4543个单词。每张图片对应的文本句子最大长度设置为62，少于62使用<pad>填充，大于62的部分将被裁剪。基于区域通道注意力的遥感图像描述模型中区域-通道注意力隐藏层维度、嵌入层维度和LSTM隐藏层维度均为512，Dropout=0.5。训练过程中使用除了学习率外的默认参数的Adma优化器，即betas=（0.9, 0.999），eps=1e-8，学习率还采用warmup策略，编码器和解码器的初始学习率都为1e-6，在10个迭代周期内分别增加到1e-5和5e-5，之后按照余弦退火方式衰减至0。总共执行50个迭代周期，样本批次大小设置为64。

在遥感图像描述任务中，首先需要在每个时刻正确预测当前单词，同时还需要保证预测的完整序列顺序和标签一致，因此，本发明实施例采用时间步累积的交叉熵损失L_s约束生成的序列与真实数据一致。在生成图像描述的过程中，本发明实施例使用了自适应的注意力机制来对图像的不同区域以及基于非视觉感知向量进行区分和加权处理。为了使得生成的描述更加关注图像的重要区域以及非视觉信号，从而减少描述的重复或者无用信息，需要根据随机注意力正则化机制对注意力权重进行约束和规范化。具体来说是给定一个注意力矩阵，要求序列内所有区域权重和接近1。

所述时间步累积的交叉熵损失、随机注意力正则化损失/>和模型的损失函数的计算公式如下：

；

其中，表示总时刻，/>表示当前时刻的真实单词。

下面结合具体实验数据说明本发明实施例的技术效果：

实验中采用五个常用的图像描述评估指标对模型的性能进行评估，分别为双语评估辅助工具BLEU、具有显式排序的翻译评估度量METEOR、面向召回的总体评估辅助工具、基于共识的图像描述评估/>和语义命题图像字幕评估/>。评价指标的细节描述如下：

（1）双语评估辅助工具BLEU最初是设计用于评估机器翻译模型的性能，现在也广泛用于序列生成任务中，包括图像描述生成。双语评估辅助工具BLEU的核心思想是计算候选句子和参考句子之间连续单词n-gram的共现，BLEU中的B-1表示对翻译结果中单个词汇的匹配精确度的评估分数，B-2表示对翻译结果中连续的两个词汇的匹配精确度的评估分数，B-3表示对翻译结果中连续三个词汇的匹配精确度的评估分数，B-4表示对翻译结果中的四个词汇的匹配精确度的评估分数。为了解决短句子得到更高BLEU分数的问题，引入了短语惩罚系数BP，用于惩罚候选句子比参考句子更短的情况。双语评估辅助工具BLEU的计算公式如下所示：

；

其中，表示n-gram的数目，通常取/>= 4，/>为第/>个n-gram的权重系数，/>为第个n-gram的匹配概率。

（2）具有显式排序的翻译评估度量METEOR用于衡量自动生成的自然语言描述和参考描述之间相似程度。它采用复杂的匹配策略，同时考虑多个因素的影响，以更加准确地评估算法的性能，计算公式如下：

；

其中，为精确度，/>为召回率，/>表示惩罚项，用于计算预测与原文之间的词汇不匹配数量，惩罚过长的描述，/>为精确率及召回率之间的权重系数，/>为惩罚项的权重系数，最终通过加权平均得到METEOR得分。

（3）面向召回的总体评估辅助工具通过比较生成的遥感图像文本和参考文本的最长公共子序列来衡量模型的性能，计算公式如下：

；

其中，为生成的文本，/>为参考文本，/>表示生成的文本与参考文本之间长度为/>的最长公共子序列，/>表示生成的文本的长度，/>表示参考文本的长度。面向召回的总体评估辅助工具/>的取值范围为0到1，越接近1则代表生成的文本与参考文本越相似。

（4）基于共识的图像描述评估首先将标题转换为词频逆文档频率向量TF-IDF的形式，计算参考标题和模型生成的标题的余弦相似度来衡量预测与真值之间的相似性，计算公式如下：

；

其中，表示计算生成文本与参考文本的相似性，/>表示生成文本的数量。/>

（5）语义命题图像字幕评估SPICE通过计算编码字幕语义命题内容的场景图之间的相似度来衡量生成的文本和参考文本/>之间的相似度，计算公式如下：

；

其中，表示基于对象、属性和关系计算的精确率，/>分别表示基于对象、属性和关系计算的召回率。

为了验证区域-通道注意力模块的有效性，本次实验在UCM-Captions数据集上评估了不同的注意力模块，实验结果如表1所示。表1中第一行表示软注意力模块的实验数据，第二行表示硬注意力模块的实验数据，第三行表示通道注意力模块的实验数据，第四行表示区域注意力模块的实验数据，第五行表示本发明实施例所述的区域-通道注意力模块的实验数据。其中，软注意力模块、硬注意力模块和通道注意力模块使用的是基于离散像素网格表示的视觉特征，但通道注意力模块是在软注意力模块的基础上，引入通道维度指导信息引导模型关注额外的属性信息。区域注意力模块和区域-通道注意力模块使用的是基于区域表示的视觉特征。

表1 不同注意力模块以及组合模块在UCM-Captions数据集上的各项性能指标值

表1的实验结果表明，第三行的实验评估结果显著优于前两行，证明通道注意力的引入能够有效提升软注意力模块的性能。第四行的实验评估结果相较于前三行对照组又提升了一个层次的性能，第五行的实验评估结果则在所有对照组中达到了最优的性能。证明了自下而上注意力构建的区域特征能够代替像素特征作为用于构建自适应注意力的更加高效的视觉特征基底，而它们的组合能够进一步提高模型的性能。

为了直观的展示不同注意力模块给模型带来的增益，将通道注意力模块、区域注意力模块和区域-通道注意力模块在图3所示的第一个样本a、第二个样本b、第三个样本c和第四个样本d上的图像描述结果进行可视化，得到如表2所示的实验结果。表2中CA表示通道注意力模块的描述结果，RA表示区域注意力模块的描述结果，RCA表示区域-通道注意力模块的描述结果；黑色加粗单词表示错误的预测单词，黑色加粗下划线单词表示描述新增发现的地物或者更具辨别性的单词。

表2 通道注意力模块、区域注意力模块和区域-通道注意力模块在四个样本上的图像描述结果

从表2可以看出，通道注意力模块在第一个样本a和第三个样本c的描述结果上存在重复的描述（例如机场和河流）或错误的表达（例如不存在的公路），这是因为通道注意力模块无法关注到更加具体的区域，从而导致模型无法发现更加具体的地物描述。而区域-通道注意力模块相较于另外两个实验组，能够发现更具体的地物（例如深绿色河流，橘色屋顶，集装箱），以及更具辨别性的表达（例如散布着某物）。

为了平衡计算量和性能，找到性能最佳的候选区域数量，实验中设置了聚类中心数量分别为3、4、5、6的四组实验，在UCM-Captions数据集上评估这些实验组的模型性能，实验结果如表3所示。从表3中可以看出，随着聚类中心数量的增加，模型性能呈现上升趋势，但过高的候选区域数量则可能影响模型的性能，这与软注意力模块性能受限的原因类似，过多的候选视觉特征造成的信息宽泛和冗余，可能导致性能下降。实验表明在四个对照组中，在聚类中心数量为5时模型具有最佳性能。

表3 区域-通道注意力模块在不同聚类中心数量下在UCM-Captions数据集上的各项性能指标

区域注意力首先基于自下而上的注意力生成的一组区域掩码Masks，随后区域掩码Masks被采样至与编码器输出视觉特征一样的分辨率用于加权视觉特征。所以视觉特征的尺寸的大小意味着信息含量的大小。实验中设置了编码器输出特征尺寸分别为16、18、20、22、24、26的六组实验，在UCM-Captions数据集上评估这些实验组的模型性能，实验结果如表4所示。从表4可以看出，过分的上采样会导致信息偏差，过大的编码器输出尺寸也可能损害模型的性能，当编码器输出特征尺寸为22时，模型具有最佳性能。

表4 区域-通道注意力模块在不同编码器输出特征尺寸下在UCM-Captions数据集上的性能指标

为了证明本发明实施例的有效性和泛化性，在四个常用的数据集上，将本发明实施例与现有的遥感图像描述方法进行评估和对比。得到如表5~表8所示的实验结果。

表5 本发明实施例与其他方法在NWPU-Captions数据集上的各项性能指标结果

表6 本发明实施例与其他方法在RSICD数据集上的各项性能指标结果

/>

表7 本发明实施例与其他方法在UCM-Captions数据集上的各项性能指标结果

表8 本发明实施例与其他方法在Sydney-Captions数据集上的各项性能指标结果

进行对比的方法包括：MultiModal方法、Soft Attention方法、CSMLF方法、Attribute Attention方法、Label Attention方法、Scene Attention方法、MLCA-Net方法、GLCM方法、SVM-D方法和GVFGA+LSGA方法。各个方法的细节描述如下：

（1）MultiModal方法基于编码器-解码器架构，使用CNN提取深层特征和RNN/LSTM生成对应的图像描述。

（2）Soft Attention方法在MultiModal方法基础上引入了变化的注意力机制，使得预测不同单词时能够关注图像的不同空间位置。

（3）CSMLF方法是一种基于检索的遥感图像描述方法，具有生成的描述几乎没有语法错误的优势。

（4）Attribute Attention方法结合较浅卷积层提取的空间信息和较深的FC层提取的高层语义信息，从而生成多尺度的注意力。

（5）Label Attention方法设计了一个额外的多分类任务用于检测RSIs中的对象，并生成相应的标签，之后结合标签和视觉特征用于构建有标签指导的注意力。

（6）Scene Attention方法设计了一种具有残差结构，且使用当前时刻隐藏状态构建的注意力图，能够增强构建的注意力的稳定性。

（7）MLCA-Net方法使用多级注意力模块自适应地聚合特定空间区域和尺度的图像特征，并引入上下文注意力模块探索隐藏在遥感图像中的潜在上下文。

（8）GLCM方法是一种基于注意力融合全局和局部信息的遥感图像描述方法，该方法同时考虑了提供全局视觉相关性的全局特征，以及能够强调单词单独区分性的局部特征。

（9）SVM-D方法是一种基于支持向量机SVM的新型解码器的遥感图像描述方法，该方法使用SVM代替RNN，避免了RNN解码器需要大量标注样本以及昂贵的计算能力的问题。

（10）GVFGA+LSGA方法提出了两种注意力，分别为全局视觉特征指导注意力GVFGA以及语言状态指导注意力LSGA，有效提升了视觉和语言的交互。

从表5~表8可以看出，本发明实施例提出的区域-通道注意力表现出了不错的性能，在NWPU-Captions数据集，RSICD数据集和UCM-Captions数据集的八个评估指标均取得了超越其他对比方法的性能，在Sydney-Captions数据集的五个评估指标取得了超越其他对照方法的性能，在具有显式排序的翻译评估度量MERTEOR等三个评估指标取得了相当的成绩。这可能的原因是其数据集图像样本的特殊性导致，在Sydney-Captions数据集上，属于密集住宅类的图片样本大概占据所有图像的55%左右，而这类样本的复杂背景容易导致粗糙的分割候选区域，从而降低其性能。反之，在样本较为平衡的其他三个数据集上，尽管依旧存在复杂背景的类样本，但是更具多样性的场景类别和更多的图像样本能够很好增强区域-通道注意力的构建以及提升模型的泛化性。因此，本发明实施例在具有更多场景类别和更大的数据量的数据集下，其性能优势可以进一步提升。如RSICD数据集上的提升表现综合要优于UCM-Captions数据集。而在具有最多场景类别和最大数据量的NWPU-Captions数据集上，方法取得了最大的表现提升，比第二名综合提升了15%左右的性能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种非视觉感知区域通道注意力的遥感图像描述方法，其特征在于，包括如下步骤：

所述编码器用于提取输入图像的视觉特征；

2.根据权利要求1所述的一种非视觉感知区域通道注意力的遥感图像描述方法，其特征在于，所述区域-通道注意力模块使用选择性搜索算法，生成一组类无关的分割区域，并通过K-Means算法进行聚类，得到固定数量的区域掩码/>，对区域掩码/>与视觉特征/>进行上采样操作，使区域掩码/>与视觉特征/>具有相同的空间分辨率；随后对区域掩码/>与视觉特征/>进行逐元素乘积，并执行全局平均池化操作，生成区域特征/>，完成对视觉特征/>的区域注意力加权操作；区域特征/>的表达式如下：

；

其中，表示区域特征/>中的第/>个特征，/>；/>表示全局平均池化操作，表示逐元素乘积操作，/>表示第/>个区域掩码；

；

其中，表示多类别分类中常用的概率分布函数，/>表示/>的转置，/>表示输出维度为1且元素全为1的第一可学习向量，用于生成单通道的注意力向量；/>表示将输入映射到[-1, 1]区间的双曲正切函数，/>表示通道注意力，/>表示第一可学习参数，表示第二可学习参数，/>表示双层分离LSTM解码器/>时刻的隐藏状态。

3.根据权利要求2所述的一种非视觉感知区域通道注意力的遥感图像描述方法，其特征在于，所述区域-通道注意力模块在生成区域特征后，还通过区域尺寸归一化方法，根据区域掩码/>的区域大小调整输入图像中不同区域的权重，对区域特征/>进行处理，生成归一化后的区域特征/>，具体处理方式如下：

；

4.根据权利要求1所述的一种非视觉感知区域通道注意力的遥感图像描述方法，其特征在于，所述非视觉感知LSTM模块将文本生成LSTM模块前一时刻的隐藏层输出、全局区域特征/>以及当前时刻的词嵌入向量/>的组合作为当前时刻的输入/>；结合非视觉感知LSTM模块前一时刻的隐藏层输出/>、非视觉感知LSTM模块前一时刻的记忆单元值/>、非视觉感知LSTM模块当前时刻的单元记忆值/>以及文本生成LSTM模块前一时刻的记忆单元值/>，输出当前时刻的非视觉感知向量/>、非视觉感知LSTM模块当前时刻的隐藏层输出/>和非视觉感知LSTM模块当前时刻的单元记忆值/>，具体表达式如下：

；

其中，表示将区域特征/>投影到潜在空间的可学习参数，/>表示将当前时刻的非视觉感知向量/>投影到潜在空间的可学习参数，/>表示非视觉感知LSTM模块当前时刻的隐藏层输出/>投影到潜在空间的可学习参数，/>表示一种控制输出大于0的激活函数，表示/>的转置，/>表示输出维度为1且元素全为1的第二可学习向量，用于调整组合权重/>的通道数为1；

；

其中，表示文本生成LSTM模块，/>表示第五可学习参数。

5.根据权利要求1所述的一种非视觉感知区域通道注意力的遥感图像描述方法，其特征在于，所述时间步累积的交叉熵损失、随机注意力正则化损失/>和模型的损失函数的计算公式如下：

；

其中，表示总时刻，/>表示当前时刻的真实单词。