CN114782698A

CN114782698A - 基于位置引导Transformer的图像描述生成方法、装置和计算机设备

Info

Publication number: CN114782698A
Application number: CN202210550930.9A
Authority: CN
Inventors: 杨有; 胡峻滔; 姚露; 安永志; 潘龙越; 郝子娴
Original assignee: Chongqing Normal University
Current assignee: Chongqing Normal University
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-07-22

Abstract

本发明涉及计算机视觉和自然语言处理技术领域，公开了一种基于位置引导Transformer的图像描述生成方法，包括：提取图像的网格特征并进行扁平化处理得到输入向量；计算相对位置编码和绝对位置编码；将上述向量和编码输入预设的位置引导Transformer模型，得到描述图像的语句；位置引导Transformer模型包括编码器和解码器，其均由多个堆叠的注意力块组成，编码器的每个注意力块包括双位置注意力层和前馈神经网络，解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。本发明提供的基于位置引导Transformer的图像描述生成方法、装置和计算机设备，将绝对位置编码和相对位置编码同时引入自注意力模块，并在其内部对图像特征进行组归一化，提高了模型的表现力。

Description

基于位置引导Transformer的图像描述生成方法、装置和计算机设备

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，特别涉及一种基于位置引导Transformer的图像描述生成方法、装置和计算机设备。

背景技术

图像描述生成是一个多模态任务，旨在自动生成图像中视觉内容的自然语言描述。它不仅要求了模型对视觉和语言的理解，而且还要有能力对齐跨模态表示。图像描述生成模型广泛地使用了编码器-解码器范式,其中卷积神经网络(Convolutional NeuralNetwork,CNN)被用来编码视觉特征，而循环神经网络(Recurrent Neural Network,RNN)被用来将CNN的输出解码为自然句子。此外，基于注意力的方法探索了视觉表征和自然句子之间的互动，并关注突出的信息。具体来说，注意力机制通过生成每个输入图像的空间投影来指导每个单词的解码，以此提高性能。随着Transformer的发展,在图像描述生成模型中，自注意力模块在探索视觉特征和文字之间的相关性方面发挥了重要作用。

然而，传统的基于Transformer的框架在图像描述生成中考虑图像中视觉内容之间的几何关系方面有一定困难，不能防止自我注意中每层输入的分布变化，同时也很难捕捉到视觉元素之间的相互位置信息的交互，这限制了图像描述生成任务的表达能力。

发明内容

本发明提供了一种基于位置引导Transformer的图像描述生成方法、装置和计算机设备，将绝对位置编码和相对位置编码同时引入自注意力模块，并在其内部对图像特征进行组归一化，提高了模型的有效性。

本发明提供了一种基于位置引导Transformer的图像描述生成方法，包括：

获取图像，并提取所述图像的网格特征；

将所述网格特征进行扁平化处理，得到输入向量；

根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码；

将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句；其中，所述预设的位置引导Transformer模型包括编码器和解码器，所述编码器和解码器均由多个堆叠的注意力块组成，所述编码器的每个注意力块包括双位置注意力层和前馈神经网络，所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。

进一步地，所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤，包括：

采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码；其中，计算公式包括：

其中，APE(i，j)表示绝对位置编码，i，j是一个网格特征的行嵌入和列嵌入，[PE_i；PE_j]表示拼接，p表示行或列的位置，m表示p的维度，d_model表示所述位置引导Transformer模型的维度；

计算所述网格特征的平滑相对位置编码；其中，计算公式包括：

其中，

表示平滑相对位置编码，

表示符号函数，cx和cy表示网格特征的中心坐标，w表示网格特征的宽度，h表示网格特征的高度；

将所述平滑相对位置编码投影到

其中，公式为：

其中，FC(·)表示全连接层对应的映射函数，Emb表示原始Tansformer模型中对应的嵌入函数，σ为ReLU激活函数。

进一步地，所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句的步骤，包括：

将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果；

将所述编码结果输入所述解码器中，并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后，得到描述所述图像的语句。

进一步地，所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果的步骤中，对于第(l+1)层：

将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算，得到第一计算结果；其中，计算公式为：

MHBPA(F^l，F^l，F^l，APE，RPE)＝Concat(head₁，…，head_h)W^o

head_i＝BPA(F^l，F^l，F^l，APE，RPE)

其中，

表示输入向量，

表示网格特征的绝对位置编码，RPE∈R^N×N表示网格特征的相对位置编码，MHBPA(F^l，F^l，F^l，APE，RPE)表示第一计算结果H^l+1；

将所述第一计算结果H^l+1进行层归一化得到注意力结果

其中，计算公式为：

H^l+1＝MHBPA(F^l，F^l，F^l，APB，RPE)

将所述注意力结果输入所述编码器的前馈神经网络进行计算，得到第二计算结果F^l+1；其中，计算公式为：

将第二计算结果F^l+1输入第(l+2)层进行计算，以此类推，直到所有双位置注意力层均计算后，完成多级编码。

进一步地，所述将所述第一计算结果H^l+1进行层归一化得到注意力结果

的步骤中，注意力结果Z_BPA为经过组归一化后的注意力结果；其中，组归一化方法包括：

其中，X、Y代表输入和输出，

Var[x]是x的均值和方差，∈是常数，γ、β是可学习的仿射参数；

Q_n＝GN(Q)

其中，Q、Q_n对应X、Y，分别代表输入和输出；

E_BPA＝S′_n+log(Ω)

Z_BPA＝BPA(Q，K，V，APB，RPE)＝softmax(E_BPA)·(V+P_V)

其中，P_Q，P_K分别为q和k的绝对位置编码，

为查询依赖偏置，

为关键值依赖偏置，S′_n代表缩放分数，Ω为

进一步地，将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句的步骤之后，还包括：

采用交叉熵损失函数训练所述位置引导Transformer模型；其公式为：

其中，P_θ为位置引导Transformer模型给定的概率分布；

采用自批评序列训练使负期望奖赏L_RL(θ)最小化：

其中，r(y_1：T)为奖赏函数，即CIDEr分数的计算，k为波束尺寸，

为第i个句子，b为被采样序列获得奖励的平均值计算而来的基线。

进一步地，所述采用自批评序列训练使负的预期奖赏L_RL(θ)最小化的步骤中，对所述位置引导Transformer模型训练设定次数，选取所述设定次数中CIDEr分数最高的一次的位置引导Transformer模型作为初始模型，对所述初始模型采用自批评序列训练进行调整。

本发明还提供了一种基于位置引导Transformer的图像描述生成装置，包括：

获取模块，用于获取图像，并提取所述图像的网格特征；

处理模块，用于将所述网格特征进行扁平化处理，得到输入向量；

编码模块，用于根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码；

输入模块，用于将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句；其中，所述预设的位置引导Transformer模型包括编码器和解码器，所述编码器和解码器均由多个堆叠的注意力块组成，所述编码器的每个注意力块包括双位置注意力层和前馈神经网络，所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的有益效果为：

1、将绝对位置编码和相对位置编码同时引入自注意力模块，形成了双位置注意力模块，结合绝对和相对位置编码来衡量视觉特征和其内部位置信息之间的贡献。

2、使用组归一化方法，它利用多头注意力内部的通道级依赖性来减轻注意力模块中分布的偏移。

3、将双位置注意力模块和组归一化方法应用到位置引导Transformer模型中，为图像描述生成任务探索更准确的位置表示；在MSCOCO数据集上进行验证时，本发明中的位置引导Transformer模型在离线和在线测试中取得与非预训练的最先进方法相竞争的性能，证明了模型的有效性。

附图说明

图1为本发明中位置引导Transformer模型的结构示意图。

图2为本发明一实施例的方法流程示意图。

图3为本发明中相对位置编码的函数图像示意图。

图4为本发明一实施例的装置结构示意图。

图5为本发明一实施例的计算机设备内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1-2所示，本发明提供了一种基于位置引导Transformer的图像描述生成方法，包括：

S1、获取图像，并提取所述图像的网格特征；

S2、将所述网格特征进行扁平化处理，得到输入向量；

S3、根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码；

S4、将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句；其中，所述预设的位置引导Transformer模型包括编码器和解码器，所述编码器和解码器均由多个堆叠的注意力块组成，所述编码器的每个注意力块包括双位置注意力层和前馈神经网络，所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。

如上述步骤S1-S4所述，图像描述生成是一个多模态任务，旨在自动生成图像中视觉内容的自然语言描述。其不仅要求了模型对视觉和语言的理解，而且还要有能力对齐跨模态表示。图像描述生成模型广泛地使用了编码器-解码器范式，其中卷积神经网络(Convolutional Neural Network,CNN)被用来编码视觉特征，而循环神经网络(RecurrentNeural Network,RNN)被用来将CNN的输出解码为自然句子，此外，注意力机制通过生成每个输入图像的空间投影来指导每个单词的解码，以此提高性能。

如图2所示，获取一张图像，采用Faster R-CNN模型得到该图像的网格特征，卷积神经网络(Convolutional Neural Network,CNN)用于对图像内容进行向量化处理，并使用(Recurrent Neural Network,RNN)将向量解码成句子。得到图片的网格特征后，根据网格特征得到网格特征的相对位置编码和绝对位置编码；同时，将网格特征进行扁平化处理，得到输入向量，记录为

最后将这些向量和相对位置编码、绝对位置编码送入预设的位置引导Transformer模型，得到描述所述图像的语句。预设的位置引导Transformer模型，即PGT(Position-Guided Transformer)。在整体架构中采用了编码器-解码器范式，位置引导Transformer模型由一个图像特征编码器和一个描述句子解码器组成，两者都由L个堆叠的注意力块组成，每个注意力块包括多头注意力层和前馈神经网络，块内还有几个子层，他们都带有残差连接和层归一化。在编码器中，双位置注意力(BPA)模块用于捕捉全面的位置信息并学习复杂的几何表示，使用编码之后的特征，解码器可以逐词地生成描述。

传统的自注意力模块很难捕捉到视觉元素之间的相互位置信息的交互，限制了图像描述生成任务的表达能力。对于绝对位置编码(Absolute Position Encoding,APE)而言，尽管可以使用正弦嵌入来获取位置信息，但使用相对位置编码(Relative PositionEncoding,RPE)会获得更好的性能。然而，RPE缺乏固定的位置信息。例如，图像中不同物体之间的相对顺序或距离。为了解决上述问题，本发明提出双位置注意力(Bi-PositionalAttention,BPA)模块学习一个更全面的位置嵌入，增强图像中物体间的空间相关性，将BPA模块和GN方法都应用到位置引导Transformer模型(Position-Guided Transformer,PGT)中，即，将原始Transformer的自注意力模块替换为BPA模块，并在其内部对图像特征施以组归一化，然后将其用于图像描述生成任务，其中使用的视觉特征是网格特征，BPA可以建模更复杂的空间关系。采用了组归一化(Group Normalization,GN)方法来提取多头注意中更丰富的通道级特征，GN使模型能够灵活地捕捉每组的不同分布。

基于Transformer的框架在考虑图像中视觉内容之间的几何关系方面是很困难的，同时也不能防止自我注意中每层输入的分布变化。因此，本发明提出了一个双位置注意力(Bi-Positional Attention,BPA)模块，其结合了绝对和相对位置编码，以精确探索图像中的物体及其几何信息之间的内部关系。此外，还在BPA内部使用了组归一化(GroupNormalization,GN)方法，以缓解分布的偏移，并更好地利用视觉特征的通道依赖性。本发明将BPA和GN应用到原始的Transformer中，构成了位置引导Transformer(Position-Guided Transformer,PGT)网络，其学习了更全面的位置表征，以增强图像描述生成任务中物体间的空间互动。与非预训练的最先进方法相比，在MSCOCO基准数据集上的实验结果表明，本发明的PGT取得了有竞争力的性能，在Karpathy分割上用单个模型达到了134.2％的CIDEr分数，在官方测试服务器上使用集成模型设置达到了136.2％的CIDEr分数。

在一个实施例中，所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤，包括：

S31、采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码；其中，计算公式包括：

S32、计算所述网格特征的平滑相对位置编码；其中，计算公式包括：

其中，

表示平滑相对位置编码，

S33、将所述平滑相对位置编码投影到

其中，公式为：

如上述步骤S31-S33所述，位置表征在捕捉单词的位置方面起着重要作用，位置表征能指导模型区分物体的位置，或整合物体间的相对位置信息。故，需要根据网格特征得到网格特征的相对位置编码和绝对位置编码。

绝对位置编码(Absolute Position Encoding,APE)：

绝对位置编码(Absolute Position Encoding,APE)用于探索Transformer模型的序列顺序，APE为输入标记的每个位置建立一个单独的映射。此外，在自注意力中引入两个输入序列间的相对位置编码(Relative Position Encoding,RPE)，进一步利用RPE来增强视觉任务中的相对位置表征。

每个位置所对应的独一无二的表示都是通过APE获得的，采用正弦波位置编码的拼接和扁平化处理来获取每个图像中可用的APE，整个操作的定义如下：

APE(i,j)＝[PE_i；PE_j]

其中，i，j是一个网格的行嵌入和列嵌入，[·；·]代表拼接操作。

可以被定义为:

其中p可以是行或者列的位置，m是p的维度，d_model代表模型的维度。

相对位置编码(Relative Position Encoding,RPE)：

APE传达了一些位置信息，但其很难捕捉到图像中物体之间的几何关系。因此，需要计算网格特征的RPE。

给定一组网格特征，每个网格可以表示为(cx,cy,w,h)，其中cx和cy代表网格的中心坐标，w和h代表其宽度和高度。两个网格i和j之间的几何关系被定义为一个4维向量

将该向量命名为中心坐标相对位置编码(center-coordinaterelative position encoding,CRPE)：

然后

会被投影到一个更高维的特征

其中Emb表示原始Tansformer模型中对应的嵌入函数，FC(·)表示全连接层对应的映射函数，σ是ReLU激活函数。

这被称为平滑相对位置编码(Smooth RelativePosition Encoding,SRPE)。如图3所示，图3示出了两个函数的图像，展示了两种方法之间的差异。通过使用SRPE，计算相对坐标的结果变化更加平滑，从而提高了相对位置信息的表现力，因此，采用如下公式计算SRPE：

其中

代表符号函数，而其输入是对应的中心坐标cx或cy。

同样会被投影到一个更高维的特征

如公式：

在一个实施例中，所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句的步骤，包括：

S41、将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果；

S42、将所述编码结果输入所述解码器中，并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后，得到描述所述图像的语句。

如上述步骤S41-S42所述，在多级编码时，第L个块的输出会被送入到第(L+1)个块中作为第(L+1)个块的输入，第(L+1)个块的输出又会被送入到第(L+2)个块中，以此类推。PGT，即本发明的位置引导Transformer模型的解码器与原始Transformer的解码器保持一致，由一个捕捉词级交互的掩码多头注意力、一个探索视觉和文本特征关系的交叉多头注意力以及一个前馈神经网络组成。将编码结果输入所述解码器中，并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后，得到描述所述图像的语句；解码器没有使用BPA(Bi-Positional Attention，双位置注意力)模块，因为解码器中的单词输入的长度是可变的，来自图像特征的位置表示可能会对单词的位置嵌入造成扰动。

在一个实施例中，所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果的步骤中，对于第(l+1)层：

S411、将所述相对位置编码、绝对位置编码、输入向量输入双位置注意力层进行计算，得到第一计算结果；其中，计算公式为：

MHBPA(F^l，F^l，F^l，APE，RPE)＝Concat(head₁，…，head_h)W^o

head_i＝BPA(F^l，F^l，F^l，APE，RPE)

其中，

表示输入向量，

表示网格特征的绝对位置编码，RPE∈R^N×N表示网格特征的相对位置编码，MHBPA(F^l，F^l，F^l，APE，RPE)表示第一计算结果F^l+1；

S412、将所述第一计算结果H^l+1进行层归一化得到注意力结果

其中，计算公式为：

H^l+1＝MHBPA(F^l，F^l，F^l，APB，RPE)

S413、将所述注意力结果输入所述编码器的前馈神经网络进行计算，得到第二计算结果F^l+1；其中，计算公式为：

S414、将第二计算结果F^l+1输入第(l+2)层进行计算，以此类推，直到所有双位置注意力层均计算后，完成多级编码。

如上述步骤S411-S414所述，将网格特征进行扁平化处理，得到输入向量

后，将其送入PGT的编码器，具体地，对于第(l+1)层，模型的输入

首先会被送入多头BPA模块(Multi＝Head BPA，MHBPA)

MHBPA(F^l，F^l，F^l，APE，RPE)＝Concat(head₁，…，head_h)W^o

head_i＝BPA(F^l，F^l，F^l，APE，RPE)

其中，

和RPE∈R^N×N分别是网格特征的绝对和相对位置编码。MHBPA的输出H^l+1会经过一个残差连接以及层归一化：

H^l+1＝MHBPA(F^l，F^l，F^l，APB，RPE)

其中，

是注意力结果。然后

会被送入一个前馈神经网络(feed-forwardneural network，FFN)，它也是带有一个残差连接和一个层归一化的：

最终，在多级编码之后，第L层得到的输出F^L将进入解码层中。

在一个实施例中，所述将所述第一计算结果H^l+1进行层归一化得到注意力结果

其中，X、Y代表输入和输出，

Q_n＝GN(Q)

其中，Q、Q_n对应X、Y，分别代表输入和输出；

E_BPA＝S′_n+log(Ω)

Z_BPA＝BPA(Q，K，V，APB，RPE)＝softmax(E_BPA)·(V+P_V)

其中，P_Q，P_K分别为q和k的绝对位置编码，

为查询依赖偏置，

为关键值依赖偏置，S′_n代表缩放分数，Ω为

如上所述，传统的Transformer模型，对于自注意力层：自注意力层聚合了整个输入的信息。给定从输入中提取的特征X，注意力函数能够捕捉到X内部的相互作用。矩阵Q、K和V是通过将输入特征X线性投影在三个可学习的权重矩阵，即W_q，W_k和W_v上得到的，其公式如下：

S＝QK^T

Z＝Attention(Q，K，V)＝softmax(S_n)·V

其中

d_model是特征的维度，N是每个图像中的网格数，S是通过两个不同的输入矩阵计算出的分数，S_n是softmax函数中为了梯度稳定的缩放分数，

代表缩放因子，Z是计算后所得的矩阵。

为了使自注意层捕获到更丰富的表征，Transformer采用了多头注意力机制，其中维度为d_model的Q，K，V会分别被线型地投影h次，使其维度分别变为d_k，d_k和d_v，即d_k＝d_v＝d_model/h.该操作的定义如下：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中

是参数矩阵。

对于前馈神经网络：

每个编码器和解码器中多头注意力层的输出H会被送入一个前馈神经网络，该网络由两个带有ReLU激活函数的线性变换组成，其表示为如下公式：

FFN(H)＝ReLU(HW₁+b₁)W₂+b₂

其中W₁，W₂，b₁，b₂是可学习的参数。隐藏层的维度d_h is set是大于d_model的。

对于残差连接和归一化：

子层(Sublayer)的输入H_in和输出H_out通过一个残差块和层归一化进行连接，表示为：

H_out＝LayerNorm(H_in+Sublayer(H_in))

其中，Sublayer(·)表示一个网络模块对应的映射函数，该网络模块可以是BPA模型中的注意力层，也可以是BPA模型中的前馈神经网络。

在发明中的BPA模块中，首先将绝对位置编码(Absolute Position Encoding，APE)引入位置引导Transformer模型，APE有助于模型准确区分物体的位置。将Q和K相乘形成基于内容的注意，将APE分别与Q和K相乘，形成位置引导的注意并引导模型关注相对重要的位置信息，将三个注意力结果相加，得到BPA中的注意力得分，其公式为：

其中P_Q，P_K分别为q和k的APE，位置引导的注意力结果

和

被分别命名为查询依赖偏置和关键值依赖偏置，S′_n代表缩放分数。

除此之外，采用RPE来调整比例得分，它能更好地将相对位置信息聚合到自注意力中。其表达式如下：

E_BPA＝S′_n+log(Ω)

其中Ω可以是上述的

或者

E_BPA是BPA的最终注意力分数。

注意到V在前述传统Transformer模型的公式Z＝Attention(Q，K，V)＝softmax(S_n)·V中不涉及任何位置信息。因此，引入了V的绝对位置编码，即值依赖偏置P_V：

Z_BPA＝BPA(Q，K，V，APB，RPE)＝softmax(E_BPA)·(V+P_V)

其中Z_BPA是BPA的输出，前述三个偏置将其统一命名为绝对位置偏置(AbsolutePositional Bias，APB)。

本发明中，为了缓解内部协变量偏移，稳定自注意力模块的训练，早期在图像描述生成中使用了实例归一化(Instance Normalization，IN)。然而，IN只是依靠空间维度来计算均值和方差，没有利用通道级的依赖性，而这个依赖性这对于图像描述生成模型捕捉不同的表征是至关重要的。为了解决这个问题，本发明在多头注意力中使用了组归一化的方法(GN)以学习更灵活和多样化的分布，从而提高探索物体间几何关系的能力。GN进行以下计算：

其中x，y代表输入和输出，

Var[x]是x的均值和方差，∈是一个很小的常数，γ，βare是可学习的仿射参数，上述等式可以被表示为y＝GN(x)。

在多头注意力的

上实施归一化。H代表头指数，即要进行归一化的那个通道。将H通道分为H/2组，该操作定义为：

Q_n＝GN(Q)

其中Q_n代表已经被归一化的Q，因此，BPA中的分数计算表示如下：

与前述相同的是，得到的结果S′_BPA经过计算，最终得到的注意力结果Z_BPA将被送入编码器的下一个阶段。其中，采用上述的公式为：

E_BPA＝S′_n+log(Ω)

Z_BPA＝BPA(Q，K，V，APB，RPE)＝softmax(E_BPA)·(V+P_V)

其中，P_Q，P_K分别为q和k的绝对位置编码，

为查询依赖偏置，

为关键值依赖偏置，S′_n代表缩放分数，Ω为

在一个实施例中，所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句的步骤之后，还包括：

S5、采用交叉熵损失函数训练所述位置引导Transformer模型；其公式为：

其中，P_θ为位置引导Transformer模型给定的概率分布；

S6、采用自批评序列训练使负期望奖赏L_RL(θ)最小化：

如上所述，使用交叉熵损失来预先训练优化位置引导Transformer模型模型。给定一个真实标签

一个来自真实标签句子中第t个时间步的单词

以及一个带参数θ的图像描述生成模型，目标是使交叉熵损失函数L_XE(θ)最小化，其定义如下：

其中P_θ由模型给定的概率分布。

然后，采用自批评序列训练(Self-Critical Sequence Training,SCST)来微调不可微的指标。SCST可以克服暴露偏差的问题，明显提高图像描述生成系统的性能。SCST的目标是使负的预期奖赏L_RL(θ)最小化：

其中r(·)奖赏函数，也就是CIDEr评分的计算。用一个样本的预期奖赏函数的梯度

可以被近似表达为：

其中k是波束尺寸，

第i个句子，b是由被采样序列获得奖励的平均值计算而来的基线。

在一个实施例中，所述采用自批评序列训练使负的预期奖赏L_RL(θ)最小化的步骤中，对所述位置引导Transformer模型训练设定次数，选取所述设定次数中CIDEr分数最高的一次的位置引导Transformer模型作为初始模型，对所述初始模型采用自批评序列训练进行调整。

如上述所，在具体实验中，所有实验都是在MSCOCO数据集上进行的，其是一个标准的用于图像描述生成任务的数据集。如，该数据集共有123287张图片，其中有82783张和40504张分别用于训练和验证。每张图片都标注有5个不同的句子，遵循Karpathy划分，其是一个在离线测试中应用最广泛的划分数据集的方法。该划分方法中包含了113287张带有5个标注句子的训练集图像，5000张验证集图像，以及5000张测试集图像。本发明采用了五个标准的评价指标，即BLEU、METEOR、ROUGE-L、CIDEr、和SPICE来评价生成句子的质量。BLEU和METEOR都是为机器翻译设计的。ROUGE-L是一个用于文本摘要的召回导向的评价指标。值得注意的是，CIDEr和SPICE是专门针对图像描述生成任务提出的评价指标，也是本发明主要考量的指标。

使用已经在ImageNet上预训练完成的带有ResNeXt-101骨干网络的Faster R-CNN来提取图像的网格特征。网格尺寸设置为7×7，输入特征的维度设置为2048，编码器和解码器的堆叠数为4。编码器和解码器的维度为512，注意力头数为4，前馈神经网络的内层维度为2048，神经网络的丢弃比率为0.1。使用Adam优化器来训练模型，在交叉熵训练阶段，为模型热身3轮，其中的学习率会线型地增加到1×10^-4，在第4～10轮，将学习率设置到1×10^-4；在第11～12轮，学习率设置到2×10^-5；在第13～15轮，学习率设置到4×10^-6，在第16～20轮，学习率设置到8×10^-7。随后的30轮训练使用自批评序列训练，其中的学习率设置为5×10^-6并且每10轮训练就退火0.2，批次大小设置为40，束搜索的尺寸设置为5。首先使用交叉熵损失进行训练，然后选择在验证集上达到最高CIDEr分数的那个模型作为初始模型，再使用自批评序列训练对其进行微调。

如图4所示，本发明还提供了一种基于位置引导Transformer的图像描述生成装置，包括：

获取模块1，用于获取图像，并提取所述图像的网格特征；

处理模块2，用于将所述网格特征进行扁平化处理，得到输入向量；

编码模块3，用于根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码；

输入模块4，用于将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句；其中，所述预设的位置引导Transformer模型包括编码器和解码器，所述编码器和解码器均由多个堆叠的注意力块组成，所述编码器的每个注意力块包括双位置注意力层和前馈神经网络，所述解码器的每个注意力块包括掩码注意力层、交叉注意力层和前馈神经网络。

在一个实施例中，编码模块3，包括：

第一计算单元，用于采用正弦波位置编码的拼接和扁平化处理计算所述网格特征的绝对位置编码；其中，计算公式包括：

第二计算单元，用于计算所述网格特征的平滑相对位置编码；其中，计算公式包括：

其中，

表示平滑相对位置编码，

投影单元，用于将所述平滑相对位置编码投影到

其中，公式为：

在一个实施例中，输入模块4，包括：

多级编码单元，用于将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果；

输入单元，用于将所述编码结果输入所述解码器中，并在所述解码器中依次经过掩码注意力层、交叉注意力层和前馈神经网络后，得到描述所述图像的语句。

在一个实施例中，多级编码单元中，对于第(l+1)层：

MHBPA(F^l，F^l，F^l，APE，RPE)＝Concat(head₁，…，head_h)W^o

head_i＝BPA(F^l，F^l，F^l，APE，RPE)

其中，

表示输入向量，

将所述第一计算结果H^l+1进行层归一化得到注意力结果

其中，计算公式为：

H^l+1＝MHBPA(F^l，F^l，F^l，APB，RPE)

其中，X、Y代表输入和输出，

Q_n＝GN(Q)

其中，Q、Q_n对应X、Y，分别代表输入和输出；

E_BPA＝S′_n+log(Ω)

Z_BPA＝BPA(Q，K，V，APB，RPE)＝softmax(E_BPA)·(V+P_V)

其中，P_Q，P_K分别为q和k的绝对位置编码，

为查询依赖偏置，

为关键值依赖偏置，S′_n代表缩放分数，Ω为

在一个实施例中，还包括：

训练模块，用于采用交叉熵损失函数训练所述位置引导Transformer模型；其公式为：

其中，P_θ为位置引导Transformer模型给定的概率分布；

自批评序列训练模块，用于采用自批评序列训练使负期望奖赏L_RL(θ)最小化：

在一个实施例中，自批评序列训练模块中，对所述位置引导Transformer模型训练设定次数，选取所述设定次数中CIDEr分数最高的一次的位置引导Transformer模型作为初始模型，对所述初始模型采用自批评序列训练进行调整。

上述各模块、单元均是用于对应执行上述基于位置引导Transformer的图像描述生成方法中的各个步骤，其具体实现方式参照上述方法实施例所述，在此不再进行赘述。

如图5所示，本发明还提供了一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于位置引导Transformer的图像描述生成方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于位置引导Transformer的图像描述生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一个基于位置引导Transformer的图像描述生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于位置引导Transformer的图像描述生成方法，其特征在于，包括：

获取图像，并提取所述图像的网格特征；

将所述网格特征进行扁平化处理，得到输入向量；

2.根据权利要求1所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述根据所述网格特征得到所述网格特征的相对位置编码和绝对位置编码的步骤，包括：

其中，

表示平滑相对位置编码，

将所述平滑相对位置编码投影到

其中，公式为：

3.根据权利要求2所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句的步骤，包括：

4.根据权利要求3所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述将所述相对位置编码、绝对位置编码、输入向量输入所述编码器中进行多级编码，得到编码结果的步骤中，对于第(l+1)层：

MHBPA(F^l，F^l，F^l，APE，RPE)＝Concat(head₁，…，head_h)W^O

head_i＝BPA(F^l，F^l，F^l，APE，RPE)

其中，

表示输入向量，

将所述第一计算结果H^l+1进行层归一化得到注意力结果

其中，计算公式为：

H^l+1＝MHBPA(F^l，F^l，F^l，APB，RPE)

5.根据权利要求4所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述将所述第一计算结果H^l+1进行层归一化得到注意力结果

其中，X、Y代表输入和输出，

Q_n＝GN(Q)

其中，Q、Q_n对应X、Y，分别代表输入和输出；

E_BPA＝S′_n+log(Ω)

Z_BPA＝BPA(Q，K，V，APB，RPE)＝softmax(E_BPA)·(V+P_V)

其中，P_Q,P_K分别为q和k的绝对位置编码，

为查询依赖偏置，

为关键值依赖偏置，S′_n代表缩放分数，Ω为

6.根据权利要求1所述的基于位置引导Transformer的图像描述生成方法，其特征在于，将所述相对位置编码、绝对位置编码、输入向量输入预设的位置引导Transformer模型，得到描述所述图像的语句的步骤之后，还包括：

其中，P_θ为位置引导Transformer模型给定的概率分布；

采用自批评序列训练使负期望奖赏L_RL(θ)最小化：

7.根据权利要求6所述的基于位置引导Transformer的图像描述生成方法，其特征在于，所述采用自批评序列训练使负的预期奖赏L_RL(θ)最小化的步骤中，对所述位置引导Transformer模型训练设定次数，选取所述设定次数中CIDEr分数最高的一次的位置引导Transformer模型作为初始模型，对所述初始模型采用自批评序列训练进行调整。

8.一种基于位置引导Transformer的图像描述生成装置，其特征在于，包括：

获取模块，用于获取图像，并提取所述图像的网格特征；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。