CN114494813A

CN114494813A - 一种基于密集交叉注意力的指称表达生成方法

Info

Publication number: CN114494813A
Application number: CN202111601881.9A
Authority: CN
Inventors: 王鹏; 孙梦阳; 索伟; 雷笑语
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-13
Anticipated expiration: 2041-12-24
Also published as: CN114494813B

Abstract

本发明公开了一种基于密集交叉注意力的指称表达生成方法，首先构建特征提取模块，从给定图像中提取目标特征；然后构建对象上下文注意模块，通过对象上下文注意模块得到目标的最终特征；然后将最终特征进行平均池化获得最终的视觉特征，使用LSTM作为生成模块，在每个时间步，将单词特征、视觉特征和隐藏状态连接，并将其作为LSTM模型的输入，LSTM模型的输出即为最终结果；损失函数采用生成损失和三元组损失组合。本发明可以对多模态数据进行建模并学习细粒度的特征表示，并能够在没有实例级注释的情况下生成无歧义的表达式。

Description

一种基于密集交叉注意力的指称表达生成方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种指称表达生成方法。

背景技术

指称表达式生成(Referring expression generation，REG)任务是计算机视觉推理中重要的任务之一，是许多视觉和语言任务(例如视觉问答或视觉对话)的必要步骤。与图像描述(Image caption)任务不同，REG需要模型关注特定区域，为目标对象而不是整张图片生成描述。其次，REG要求生成的句子是无歧义的，并包括便于区分对象的属性信息(如颜色、姿态、形状)。对于REG任务来说，当前主流的解决方案是基于两阶段的方法，该方法需要依赖大量额外注释或现成的目标检测器去生成区域建议框(bounding boxes)，进而计算得到视觉差异性特征。虽然上述方法已经取得了较好的效果，但这种策略会不可避免的导致错误积累，同时也会影响模型的泛化能力，致使生成描述的质量较差。

发明内容

为了克服现有技术的不足，本发明提供了一种基于密集交叉注意力的指称表达生成方法，首先构建特征提取模块，从给定图像中提取目标特征；然后构建对象上下文注意模块，通过对象上下文注意模块得到目标的最终特征；然后将最终特征进行平均池化获得最终的视觉特征，使用LSTM作为生成模块，在每个时间步，将单词特征、视觉特征和隐藏状态连接，并将其作为LSTM模型的输入，LSTM模型的输出即为最终结果；损失函数采用生成损失和三元组损失组合。本发明可以对多模态数据进行建模并学习细粒度的特征表示，并能够在没有实例级注释的情况下生成无歧义的表达式。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：构建特征提取模块；

步骤1-1：对于给定的图像I和目标物体O，将目标物体O的位置定义为：b_O＝(x₁，y₁，x₂，y₂)，其中(x₁，y₁)和(x₂，y₂)分别是目标物体O边界框左上角和右下角坐标；

步骤1-2：使用Resnet-152网络从输入图像中提取视觉特征；

将图像调整至3×W×H的大小，并采用Resnet-152网络提取特征图：

其中i代表样本，j代表特征序号，w和h分别是特征图的宽度和高度，特征维度为d维；

步骤1-3：选择目标边界框内的特征作为对象特征

其余的特征向量作为上下文特征

其中w₀和h₀是目标边界框经缩放后的宽度和高度，表示如下：

w₀＝(int(x₂/scale_x)-int(x₁/scale_x)) (1)

h₀＝(int(y₂/scale_y)-int(y₁/scale_y)) (2)

其中

int(·)表示该操作将分数舍入到最接近的整数；

步骤2：构建对象上下文注意模块；

所述对象上下文注意模块由上下文对象交互注意模块和融合模块构成；

上下文对象交互注意模块分为上下文引导CGO子模块和对象引导OGC子模块；每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成；

在OGC子模块中，首先将空间位置编码添加到O_i和C_i中，然后将C_i的每个特征作为查询，以此计算所有上下文网格的注意力权重

其中，Q代表查询向量，K、V分别表示键和值，

m表示自注意力的头数；OGC子模块输出目标对象引导的关键上下文信息；

对于CGO子模块，将上下文特征编码为查询，而对象特征用于键和值。

在CGO子模块中，首先添加与OGC模块中一致的空间位置编码，然后将C_i的每个特征作为查询，以此计算所有目标网格的注意力权重

CGO子模块输出上下文信息引导的目标对象；

将OGC子模块和CGO子模块得到的特征进行concat操作，并通过K层自注意力层构成的融合模块进行融合；将融合后最后一层的目标对象部分作为最终的特征表示；

步骤3：对步骤2输出的最终特征进行平均池化获得最终的视觉特征v_i；使用LSTM作为生成模块，在每个时间步，将单词特征x_t、视觉特征v_i和隐藏状态h_t连接，并将其作为LSTM模型的输入，表述为：

h_t＝LSTM([x_t；v_i；h_t-1]) (4)

prob_t＝Softmax(W_ph_t+b_p) (5)

其中W_p和b_p是可训练参数，[；]表示连接操作，prob_t是输出单词标记的概率，i表示样本，t表示时间步；

生成损失函数通过最小化负对数似然定义：

其中θ表示LSTM的参数，S_i表示目标句子，

表示t-1时间步的目标单词，

表示第一个时间步的目标单词；

利用三元组损失来增加从对象的网格特征生成句子S_i的概率，而降低从其他对象特征生成句子S_i的概率；具体而言，给定一个正对(S_i，v_i)，在同一图像中随机采样P个负对(S_i，v_n)和(S_n，v_i)，其中S_n和v_n分别是其他表达式和对象，三元组损失函数表示为：

其中P为采样数，M为超参数，λ₁、λ₂为权重；

最后整体损失是生成损失和三元组损失的总和：

L_REG(θ)＝L₁(θ)+L₂(θ) (8)

优选地，所述LSTM的时间长度和隐状态大小分别设置为20和768。

优选地，所述P＝3，M＝3，λ₁、λ₂都为0.1。

本发明的有益效果如下：

本发明通过一种一阶段方法来解决指称表达生成任务，可以对多模态数据进行建模并学习细粒度的特征表示；其次，本发明可以在没有实例级注释的情况下生成无歧义的表达式。

附图说明

图1为本发明方法的网络结构示意图。

图2为采用本发明方法在指称表达式数据集上的目标区域描述生成结果。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提供了一种基于密集交叉注意力的指称表达生成方法。该方法采用一阶段框架，不需要提取区域建议框或额外的注释信息，只需要通过密集交互注意力和自注意力方法获取上下文细粒度信息，就可以直接生成无歧义的描述。该方法采用端到端的训练方式，无需任何实例级的注释，为指称表达生成提供了一种新的解决思路。

一种基于密集交叉注意力的指称表达生成方法，包括如下步骤：

步骤1：构建特征提取模块；

步骤1-2：使用Resnet-152网络从输入图像中提取视觉特征；

步骤1-3：选择目标边界框内的特征作为对象特征

其余的特征向量作为上下文特征

w₀＝(int(x₂/scale_x)-int(x₁/scale_x)) (1)

h₀＝(int(y₂/scale_y)-int(y₁/scale_y)) (2)

其中

ibt(·)表示该操作将分数舍入到最接近的整数；

步骤2：构建对象上下文注意模块；

上下文对象交互注意模块分为上下文引导(Contexts Guide Objects，CGO)子模块和对象引导(Objects Guide Contexts，OGC)子模块；每个CGO子模块和OGC子模块都由N个相同的交互注意力层组成；

其中，Q代表查询向量，K、V分别表示键和值，

CGO子模块输出上下文信息引导的目标对象；

h_t＝LSTM([x_t；v_i；h_t-1]) (4)

prob_t＝Softmax(W_ph_t+b_p) (5)

其中W_p和b_p是可训练参数，[；]表示连接操作，prob_t是输出单词标记的概率；

生成损失函数通过最小化负对数似然定义：

其中θ表示LSTM的参数；

其中P为采样数，M为超参数，λ₁、λ₂为权重；

最后整体损失是生成损失和三元组损失的总和：

L_REG(θ)＝L₁(θ)+L₂(θ) (8)

具体实施例：

1、特征提取

给定一张自然场景中的图像和目标边界框，首先通过线性插值的方法将输入图像调整到512×512×3，边缘区域采用像素值0补全。然后通过主干网络Resnet-152得到16×16×2048维的特征，并选取目标边界框内的特征向量作为目标对象特征，将其余向量作为上下文信息。

2、对象上下文特征交互

为了提取丰富的上下文线索，将从主干网络提取的目标对象特征和上下文特征送入到对象上下文注意模块中。并分别输入到OGC和CGO子模块，以此学习对象特征和上下文特征之间的信息交互来得到线索特征。为整合这些线索特征，本实施例将它们送入到多层(Transformer)构成的融合模块，并基于最后一层提取768维的对象特征表示。

3、指称表达生成

将对象上下文注意模块得到的768维对象特征表示和开始标记单词同时输入到长短时记忆网络中，每一个时间步生成一个单词，最终得到对图像指代区域的自然语言描述。

4、模型训练

该实验选择在ImageNet数据集上预训练的Resnet-152作为主干网络，训练时采用Adam优化器，并设置初始学习率为5×10^-5，每10轮减少为原学习率的十分之一。模型训练周期为50，batch size设置为8，LSTM的隐状态大小为768。

5、模型应用

通过上面的训练过程，选取损失函数值最小的模型用于测试。将模型参数固定，输入图像和相应的指代区域框，经过特征提取，对象上下文特征交互、生成操作后可以直接得到对目标区域的自然语言描述。本实验在RefcCOCO，RefCOCO+和RefCOCOg上分别进行了测试，生成结果如图2所示。图像中的长方形框是需要描述的对象，GT/Ours分别表示人工标注的句子和本发明生成的描述。结果表明，即使不使用额外的注释信息，该方法依然可以通过学习目标和上下文之间的细粒度交互来生成明确的表达。