CN112308081A

CN112308081A - 一种基于注意力机制的图像目标预测方法

Info

Publication number: CN112308081A
Application number: CN202011222985.4A
Authority: CN
Inventors: 许金泉; 王振宁; 王溢; 蔡碧颖
Original assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Current assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-02
Anticipated expiration: 2040-11-05
Also published as: CN112308081B

Abstract

本发明公开一种基于注意力机制的图像目标预测方法，用于在RGB图像中获取描述语言针对的物体的掩膜；包括如下步骤：提取RGB图像三个尺度的视觉特征；提取描述语言的语言特征；将视觉特征和语言特征进行多模态融合；基于多模态特征以及语言特征，计算四个映射矩阵；然后，通过矩阵运算以及激活函数得到两个注意力图；接着，通过注意力变换计算得到注意力矩阵：最后，将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵：叠加分组注意力模块，然后通过1x1的卷积神经网络，即得到预测的掩膜。此种方法通过引入受监督的注意力机制，能够增强复杂场景下的推理能力，从而提高检测的精度。

Description

一种基于注意力机制的图像目标预测方法

技术领域

本发明属于图像目标检测技术领域，涉及一种指向性视觉分割方法，特别涉及一种基于多步推理的级联分组注意力机制的建模方法。

背景技术

指向性视觉分割是基于视觉和语言的多模态任务。如图1所示，给定关于图像中的某个物体的描述，指向性视觉分割需要将图像中的对应物体的掩膜计算出来。指向性视觉分割的优势在于它不仅限于固定数量的对象类别，而且可以实现快速的语言到视觉的对齐，从而可以被广泛地使用在各种场景，例如交互式图像编辑和人机交互。

现有的大多数方法主要关注于传统的多模态融合问题，常见的指向性视觉分割框架使用卷积神经网络(CNN)(例如Deeplab ResNet)和语言编码器(例如LSTM或GRU)来同时处理输入图像和表达式。然后融合两种模态的特征，在其上应用CNN解码器以预测描述对应的物体掩码。

由于现有的方法主要关注多模态融合问题，指向性视觉分割中有两个关键问题尚待解决：第一个问题是学习细粒度的类别信息。实验结果表明，使用ImageNet预训练的模型比使用VOC预训练的模型具有更高的性能，这部分验证了在指向性视觉分割中利用细粒度类别信息的重要性。同时，指向性视觉分割的设置使模型在学习新知识方面效率低下。由于指向性视觉分割中的描述内容比传统类标签要复杂得多，并且是根据最终的分割结果来间接优化主干。因此，模型缺乏直接的监督来使语言表达与视觉区域保持一致。

另一个问题是对实例级语义差异的感知。比如，为了对“戴眼镜的女孩”进行识别，该模型除了学习语言视觉之外，还应该学习“女性”的概念，并识别不同“女性”之间的语义差异。因此，基于给定的描述，指向性视觉分割模型应该能够区分该类之内或之外的实例。

发明内容

本发明的目的，在于提供一种基于注意力机制的图像目标分割方法，通过引入受监督的注意力机制，能够增强复杂场景下的推理能力，从而提高检测的精度。

为了达成上述目的，本发明的解决方案是：

一种基于注意力机制的图像目标预测方法，用于在RGB图像中获取描述语言针对的物体的掩膜；包括如下步骤：

步骤1，设置输入的RGB图像的大小为320×320×3，描述语言的最长文本输入设置为15；

步骤2，提取RGB图像三个尺度的视觉特征：

步骤3，提取描述语言的语言特征：

步骤4，将视觉特征和语言特征进行多模态融合，得到

步骤5，基于多模态特征F_m3以及语言特征f_t，通过下式计算出四个映射矩阵Q,K_c,K_d,V：

Q＝f_tW_Q

V＝F_mW_V

其中，W_Q,

表示可学习的映射矩阵；

然后，通过矩阵运算以及激活函数得到两个注意力图

和

其过程如下：

其中，Softmax函数和Sigmoid函数分别定义为：

接着，通过注意力变换计算得到注意力矩阵

f_xol＝A_cV

F_dif＝A_d ^Tf_col

最后，将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵：

F′_m3＝F_m3+F_dif

上述变换过程表示为关于F_m,f_t以及模型参数θ的函数

步骤6，将F_m3划分成k组，得到

其中j∈[1,…,k]；则分组注意力变换表示为：

F′_m＝[F′_m1,…,F′_mk]

通过叠加三个上述的分组注意力模块，同时每个注意力模块的k的设置不同，然后通过1x1的卷积神经网络，即得到预测的掩膜O。

上述步骤2中，利用在VOC目标检测数据集上训练好的神经网络DeepLab-ResNet101提取三个尺度的视觉特征。

上述步骤3中，利用训练好的词向量Glove将描述语言转换成特征向量，然后利用LSTM作为语言编码器，从而得到语言特征。

上述步骤4的具体过程是：

步骤41，将语言特征的维度变成1×1×1024；

步骤42，将视觉特征F_v1与步骤41的结果根据下式进行融合，得到F_m1：

F_m1＝σ(F_v1W_v1)⊙σ(f_tW_t)

其中，σ为Leaky-ReLU激活函数，⊙为Hadamard积，W_v1和W_t为可学习的权重；

步骤43，根据下式进行多尺度的融合：

其中，[]表示两个矩阵在最后一个维度进行拼接，且i∈{2,3}。

上述步骤6中，1x1的卷积神经网络的损失函数为l，其计算方法是：

给定标签G，损失函数l表示为：

l＝l_seg+l_ila

其中，s表示注意力模块数量，k为每个注意力模块的分组数；

为第i个注意力模块中第j组A_d中第l个元素，g_l表示标签G中的第l个元素。

上述卷积神经网络的训练过程中采用Adam优化器，设置初始学习率和batchsize分别为0.001和20。

采用上述方案后，本发明的有益效果是：

(1)本发明提供了一种级联分组注意力网络(CGAN)，该网络旨在从语言表达中学习细粒度的类别，并通过详细的推理来感知引用对象，通过对整个图像进行逐步推理来使描述语言与视觉内容达到一致化的对齐；

(2)CGAN包含了两种创新设计，即级联分组注意(CGA)和实例级别的注意力损失函数(ILA)：CGA能够通过详细的逐步关注来感知实例级语义；ILA损失函数能够在细粒度类别学习中提高指向性视觉分割模型的效率。ILA损失函数是使用标签来直接监督指向性视觉分割模型的语言视觉对齐方式，并且可以将其集成到CGAN的每步推理过程中。这种损失函数能够帮助模型更有效地优化视觉主干，这有助于模型更好地掌握看不见的视觉概念。

附图说明

图1是本发明的流程图；

图2是级联分组注意力分组神经网络结构示意图；

图3是注意力机制示意图；

其中，(a)是单步注意力机制，(b)是分组注意力机制。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，本发明提供一种基于注意力机制的图像目标预测方法，包括如下步骤：

一、模型实施过程：

1.1模型的输入：

如图2所示，模型的输入分别为一张RGB的图像，其大小为320×320×3，以及一句对于图中某个物体的描述语言，其中模型的最长文本输入设置为15。

1.2视觉特征编码器：

对于输入的RGB图像，我们利用在VOC目标检测数据集(可参见Mark Everingham,Luc Van Gool,Christopher K IWilliams,JohnWinn,and Andrew Zisserman.The pascalvisual object classes(voc)challenge.In IJCV,2010.)上预训练好的神经网络DeepLab-ResNet101(可参见Liangchieh Chen,George Papandreou,Iasonas Kokkinos,Kevin P Murphy,and Alan L Yuille.Deeplab:Semantic image segmentation withdeep convolutional nets,atrous convolution,and fully connected crfs.In PAMI,2018.)来提取视觉特征，从而得到三个尺度的视觉特征：

1.3语言特征编码器：

对于输入的语言描述，我们首先利用预训练好的词向量Glove(可参见JeffreyPennington,Richard Socher,and Christopher Manning.Glove:Global vectors forword representation.In EMNLP,2014.)来将语言转换成特征向量，接着利用LSTM(可参见Sepp Hochreiter and Jurgen Schmidhuber.1997.Long short-term memory.NeuralComputation(1997))作为语言编码器，得到语言特征：

1.4多模态多尺度的特征编码器：

为了得到视觉和语言的联合表示，我们将两种模态的信息进行多模态融合，首先我们将语言特征的维度变成1×1×1024，接着，我们将视觉特征F_v1与其进行融合得到F_m1，其过程如下式：

F_m1＝σ(F_v1W_v1)⊙σ(f_tW_t)

其中σ为Leaky-ReLU激活函数，⊙为Hadamard积，W_v1和W_t为可学习的权重。接着，我们进行多尺度的融合，如下式所示：

其中[]表示两个矩阵在最后一个维度进行拼接，且i∈{2,3}，由此，我们得到了

来给模型进行进一步的推理。

1.5单步注意力机制：

如图3(a)所示，给定多模态特征F_m3以及语言特征f_t，我们通过以下式子来计算出四个映射矩阵Q,K_c,K_d,V：

Q＝f_tW_Q

V＝F_mW_V

其中W_Q,

表示可学习的映射矩阵。

接着，我们通过矩阵运算以及激活函数来得到两个注意力图

和

其过程如下：

其中，Softmax函数和Sigmoid函数分别定义为：

接着，我们通过注意力变换计算得到注意力矩阵

f_col＝A_cV

F_dif＝A_d ^Tf_col

最后，我们将得到的注意力矩阵与原始矩阵进行相加来更新原始矩阵：

F′_m3＝F_m3+F_dif

上述变换过程可以表示成一个关于F_m,f_t以及模型参数θ的函数

1.6级联分组注意力机制：

在上述注意力变换函数

中，实际上对特征进行了单次的变换，我们将F_m3划分成k组即可得到

其中j∈[1,…,k]。如图3(b)所示，分组注意力变换可以表示为：

F′_m＝[F′_m1,…,F′_mk]

上述过程通过特征的分组，对特征进行了多次的注意力变换。如图2所示，通过叠加三个上述的分组注意力模块，同时每个注意力模块的k的设置不同，我们设定叠加三个分组注意力模块的组数分别为2，4，8。以上过程即为级联分组注意力机制。接着我们通过一个1x1的卷积，即可得到预测的掩膜

二、模型训练过程

2.1损失函数的计算：

损失函数包含了两部分，一部分是预测结果与标签计算得到的损失函数，另一部分为实例级的损失函数，它计算了A_d与标签g之间的损失函数。具体来说，给定标签G，我们的损失函数l可以表示为：

l＝l_seg+l_ila

其中s表示注意力模块数量，我们设为3；k为每个注意力模块的分组数，最终的损失函数l，通过反向传播来优化整个注意力网络；

为A_d中的元素。

2.2模型训练参数设置：

在训练过程中，我们使用Adam优化器，并设置初始学习率和batchsize分别为0.001和20。模型总共训练40轮，在第25，30，35轮迭代时，模型的学习率下降10倍。

2.3模型的训练：

对于模型的训练，我们首先将输入的图片和语言经过步骤一得到模型的输出结果，接着我们通过步骤2.1来计算模型输出和标注好的标签之间的损失函数，最后，我们利用损失函数的梯度反向传播来更新步骤一中的模型参数，训练和迭代过程的设置如步骤2.2所描述。最终我们完成整个模型的训练。

三、模型部署过程：

在经过步骤二的模型训练后，对于训练完毕的模型，我们将输入的图片和语言经过步骤一即可得到模型的输出作为模型的预测结果，即输入一张图片和对图片中某个物体的语言描述，模型输出该物体的掩膜。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于注意力机制的图像目标预测方法，用于在RGB图像中获取描述语言针对的物体的掩膜；其特征在于包括如下步骤：

步骤2，提取RGB图像三个尺度的视觉特征：

步骤3，提取描述语言的语言特征：

步骤4，将视觉特征和语言特征进行多模态融合，得到

Q＝f_tW_Q

V＝F_mW_V

其中，

表示可学习的映射矩阵；

然后，通过矩阵运算以及激活函数得到两个注意力图

和

其过程如下：

其中，Softmax函数和Sigmoid函数分别定义为：

接着，通过注意力变换计算得到注意力矩阵

f_col＝A_cV

F_dif＝A_d ^Tf_col

F′_m3＝F_m3+F_dif

上述变换过程表示为关于F_m,f_t以及模型参数θ的函数

步骤6，将F_m3划分成k组，得到

其中j∈[1,…,k]；则分组注意力变换表示为：

F′_m＝[F′_m1,…,F′_mk]

2.如权利要求1所述的一种基于注意力机制的图像目标预测方法，其特征在于：所述步骤2中，利用在VOC目标检测数据集上训练好的神经网络DeepLab-ResNet101提取三个尺度的视觉特征。

3.如权利要求1所述的一种基于注意力机制的图像目标预测方法，其特征在于：所述步骤3中，利用训练好的词向量Glove将描述语言转换成特征向量，然后利用LSTM作为语言编码器，从而得到语言特征。

4.如权利要求1所述的一种基于注意力机制的图像目标预测方法，其特征在于：所述步骤4的具体过程是：

步骤41，将语言特征的维度变成1×1×1024；

F_m1＝σ(F_v1W_v1)⊙σ(f_tW_t)

步骤43，根据下式进行多尺度的融合：

5.如权利要求1所述的一种基于注意力机制的图像目标预测方法，其特征在于：所述步骤6中，1x1的卷积神经网络的损失函数为l，其计算方法是：

给定标签G，损失函数l表示为：

l＝l_seg+l_ila

6.如权利要求5所述的一种基于注意力机制的图像目标预测方法，其特征在于：所述卷积神经网络的训练过程中采用Adam优化器，设置初始学习率和batchsize分别为0.001和20。