CN112308080A

CN112308080A - 面向指向性视觉理解和分割的图像描述预测方法

Info

Publication number: CN112308080A
Application number: CN202011222105.3A
Authority: CN
Inventors: 王振宁; 许金泉; 王溢; 蔡碧颖
Original assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Current assignee: Nanqiang Zhishi Xiamen Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-02
Anticipated expiration: 2040-11-05
Also published as: CN112308080B

Abstract

本发明公开一种面向指向性视觉理解和分割的图像描述预测方法，用于根据RGB图像和描述语言，在RGB图像中定位描述语言指代的对象；包括如下步骤：分别获取RGB图像在三个尺度的视觉特征：F_v1，F_v2，F_v3，以及描述语言的语言特征；将语言特征与视觉特征F_v1融合，然后进行多尺度的融合，进而通过自底而下的融合，得到新的特征为{F_m1′，F_m2′，F_m3′}；利用F_m3′预测得到指向性视觉分割结果，利用F_m1′预测得到指向性视觉理解结果；给定预测得到的指向性视觉分割结果，以及指向性视觉理解结果的目标框和其对应的置信度，利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。此种预测方法可提高预测精度。

Description

面向指向性视觉理解和分割的图像描述预测方法

技术领域

本发明属于图像处理技术领域，涉及指向性视觉理解和分割，特别涉及一种面向指向性视觉理解和分割的图像描述预测方法。

背景技术

指向性视觉理解和分割，是两种基于视觉和语言的多模态任务。给定关于图像中的某个物体的描述，指向性视觉理解需要将图像中的对应目标的外接矩形计算出来，而指向性视觉分割需要将图像中的对应物体的掩膜计算出来。

在目前的方法和文献中，指向性视觉理解和分割通常被视作为两种不同的任务，从而被设计出了不同的神经网络。对于指向性视觉理解，现有的方法大多采用多阶段的神经网络。具体而言，现有的方法先利用目标检测网络提取和检测出图片中的不同物体，再通过计算指向性描述语句与物体之间的相似度，从而得到与描述最相关的物体。另外还有部分方法采用单阶段的神经网络，把语言信息嵌入到卷积神经网络中直接回归出描述物体的外接矩形。而对于指向性视觉分割，现有方法通过将语言信息与视觉神经网络进行融合，从而进一步预测出对应描述物体的掩膜。

现有的方法中，大多采用两个单任务神经网络来分别建模这两个方法，比如MMI，CMN，ParalAttn等方法用于建模指向性视觉理解，另外DMN，RRN，KWA等方法用于建模指向性视觉分割。同时少部分多任务的神经网络是基于多阶段的建模方法，比如MattNet采用基于Mask-RCNN的多任务目标检测器来同时预测出图像中所有物体的外接矩形以及掩膜，再通过语言信息与物体信息的匹配来获取与描述内容最相关的物体的外接矩形和掩膜。由于基于多阶段的网络结构极度依赖于目标检测器来提取和检测图片中的物体，这导致了它们的泛化性能较差，网络的推理时间久，同时在训练过程中两个任务之间也几乎没有起到互相促进协同的作用。

发明内容

本发明的目的，在于提供一种面向指向性视觉理解和分割的图像描述预测方法，其可提高预测精度。

为了达成上述目的，本发明的解决方案是：

一种面向指向性视觉理解和分割的图像描述预测方法，用于根据RGB图像和描述语言，在RGB图像中定位描述语言指代的对象；包括如下步骤：

步骤1，设置输入的RGB图像的大小为416×416×3，描述语言的最长文本输入设置为15；

步骤2，分别获取RGB图像在三个尺度的视觉特征：

以及描述语言的语言特征：

步骤3，将语言特征的维度变成1×1×1024，将视觉特征F_v1与其进行融合得到F_m1，然后进行多尺度的融合，得到三个尺度的多模态特征{F_m1，F_m2，F_m3}；进而通过自底而下的融合以更新多模态特征，得到新的特征为{F_m1′，F_m2′，F_m3′}；

步骤4，利用F_m3′预测得到指向性视觉分割结果

表示52×52个位置的每个位置上物体的分割结果；利用F_m1′预测得到指向性视觉理解结果

分别表示13×13个位置的每个位置上预测得到的关于对象的外接矩形的中心坐标、长宽、置信度；

步骤5，给定预测得到的指向性视觉分割结果Logit_s，以及指向性视觉理解结果的目标框记为b和其对应的置信度记为p，其中Logit_s中的每个元素o_i被更新为：

其中α_up和α_dec由下式自适应地决定：

α_up＝sin(p)*p

α_dec＝-sin(p)*p

通过上式，利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。

上述步骤2中，利用在COCO目标检测数据集上训练好的神经网络Darknet53作为视觉编码器，得到RGB图像在三个尺度的视觉特征：

上述步骤2中，利用训练好的词向量Glove将描述语言转换成特征向量，然后利用LSTM作为语言编码器，得到语言特征：

上述步骤3中，将视觉特征F_v1与语言特征进行融合得到F_m1的公式是：

F_m1＝σ(F_v1W_v1)⊙σ(f_tW_t)

其中，σ为Leaky-ReLU激活函数，⊙为Hadamard积，

和

为可学习的权重。

上述步骤3中，进行多尺度的融合，得到三个尺度的多模态特征的公式是：

其中，UpSample()表示赋值函数，σ为Leaky-ReLU激活函数，[]表示两个矩阵在最后一个维度进行拼接并且i∈{2，3}。

上述步骤4中，基于训练的神经网络进行预测，所用的损失函数的计算方法是：

步骤A，通过如下线性映射得到需要预测的结果：

Logit_s＝Sigmoid(F′_m1W_ls)

Logit_xy＝Sigmoid(F′_m3W_xy)

Logit_wh＝exp(F′_m3W_wh)

Logit_conf＝Sigmoid(F′_m3W_conf)

其中，

Logit_s为指向性视觉分割结果，与标签Label_s直接计算损失函数，如下：

而Logit_xy，Logit_wh，Logit_conf分别为预测的物体外接矩形的中心坐标、长宽、置信度：

其中BinaryCrossEntry和SmoothL1定义为：

BinaryCrossEntry(x，x′)＝x′log(x)+(1-x′)log(1-x)

步骤B，将F_m1′和F_m3′通过基于语言的注意力模块GARAN得到注意力特征

和

设计如下损失函数，通过优化两个注意力特征来最大化面向指向性视觉理解任务和面向指向性视觉分割任务的共同关注：

l_cem＝-log(E_s′T_scE_c′)

其中：

上式的

以及

表示为

和

中的一个元素；训练过程中通过最小化l_cem来优化两个任务之间的共同关注，则最终的损失函数加权相加为：

l＝0.1×l_s+l_xy+l_wh+l_conf+l_cem。

上述神经网络的训练过程中，使用Adam优化器，并设置初始学习率和batchsize分别为0.001和35。

采用上述方案后，本发明利用单阶段的神经网络来同时建模指向性视觉理解和指向性视觉分割两个任务，但是，由于利用单阶段神经网络来同时建模两个任务容易出现预测分歧的问题，即两个任务预测的物体可能会不一致，这大大影响了检测的精度。因此，本发明的改进点体现在：

(1)本发明采用一项基于协同能量最大化的损失函数来最大化两个任务之间的共同关注，并利用自适应的后处理方法解决单阶段多任务神经网络在建模这两个任务过程中预测不一致的关键问题，大大提高了两个任务的协同性；

(2)本发明采用一种基于单阶段的神经网络来建模指向性视觉理解和分割两个任务，同时这两个任务在训练过程中能够互相促进。

附图说明

图1是指向性视觉分割和理解图示；

图2是预测分歧的图示；

图3是单阶段协同多任务网络结构图示。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

本发明提供一种面向指向性视觉理解和分割的图像描述预测方法，包括如下过程：

一、模型实施过程：

1.1模型的输入：

模型的输入分别为一张RGB的图像，其大小为416×416×3，以及一句对于图中某个物体的描述语言，其中模型的最长文本输入设置为15，如图1所示。

1.2视觉特征编码器：

首先，对于输入的RGB图像，我们利用在COCO[1]目标检测数据集上预训练好的神经网络Darknet53[2]来作为视觉编码器，从而得到三个尺度的视觉特征：

1.3语言特征编码器：

接着，针对于输入的描述语言，我们首先利用预训练好的词向量Glove[3]来将语言转换成特征向量，接着利用LSTM[4]作为语言编码器，得到语言特征：

1.4多模态多尺度的特征编码器：

如图3所示，为了得到视觉和语言的联合表示，我们将两种模态的信息进行多模态融合，首先我们将语言特征的维度变成1×1×1024，接着，我们将视觉特征F_v1与其进行融合得到F_m1，其过程如下式：

F_m1＝σ(F_v1W_v1)⊙σ(f_tW_t)

其中，σ为Leaky-ReLU[2]激活函数，⊙为Hadamard积，

和

为可学习的权重。接着，我们进行多尺度的融合，如下式所示：

其中，UpSample()表示赋值函数，[]表示两个矩阵在最后一个维度进行拼接并且i∈{2，3}，由此，我们得到了三个尺度的多模态特征{F_m1，F_m2，F_m3}。为了进一步增强视觉特征，我们再通过自底而下的融合来更新多尺度多模态特征，如下式所示：

其中i∈{2，3}，得到新的特征为{F_m1′，F_m2′，F_m3′}。

1.5模型的输出：

根据上一步骤得到的特征{F_m1′，F_m2′，F_m3′}，我们利用F_m1′，F_m3′来分别计算指向性视觉理解和分割的结果，计算过程如下：

Logit_s＝Sigmoid(F′_m3W_ls)

Logit_xy＝Sigmoid(F′_m1W_xy)

Logit_wh＝exp(F′_m1W_wh)

Logit_conf＝Sigmoid(F′_m1W_conf)

其中，

为可学习的权重。

为指向性视觉分割结果，它表示为每个位置上(总共52×52个位置)物体的分割结果。

为指向性理解的结果，他们分别表示每个位置上(总共13×13个位置)预测出来关于物体的外接矩形的中心坐标，长宽以及置信度。

1.6自适应的后处理：

如图3所示，给定指向性视觉分割分支预测得到的指向性视觉分割结果Logit_s，以及指向性视觉理解预测得到的目标框记为b和其对应的置信度记为p，其中Logit_s中的每个元素o_i可以被更新为：

其中α_up和α_dec由下式自适应地决定：

α_up＝sin(p)*p

α_dec＝-sin(p)*p

通过上式，算法利用指向性视觉理解分支的预测结果来自适应地增强并重新得到指向性视觉分割分支的预测结果。其中，我们设置α_up和α_dec分别为1.5和0.5。

二、模型训练过程：

2.1损失函数的计算：

利用得到的F_m1′和F_m3′，我们分别用于建模指向性视觉理解任务和指向性视觉分割任务。我们通过线性映射得到需要预测的结果，如下式所示：

Logit_s＝Sigmoid(F′_m1W_ls)

Logit_xy＝Sigmoid(F′_m3W_xy)

Logit_wh＝exp(F′_m3W_wh)

Logit_conf＝Sigmoid(F′_m3W_conf)

其中，

而Logit_xy，Logit_wh，Logit_conf分别为预测的物体外接矩形的中心坐标，长宽以及置信度。

其中BinaryCrossEntry和SmoothL1定义为：

BinaryCrossEntry(x，x′)＝x′log(x)+(1-x′)log(1-x)

此外，如图2所示，我们提出了一种协同能量最大化的损失函数。首先我们将F_m1′和F_m3′通过一个基于语言的注意力模块GARAN[5]来得到注意力特征

和

我们设计了一项损失函数来通过优化两个注意力特征来最大化两个任务分支的共同关注。该项损失可以写成下式：

l_cem＝-log(E_s′T_scE_c′)

其中：

上式的

以及

表示为

和

中的一个元素。训练过程中通过最小化l_cem来优化两个任务之间的共同关注。最终的损失函数可以加权相加为：

l＝0.1×l_s+l_xy+l_wh+l_conf+l_cem

通过梯度下降，可优化训练模型参数。

2.2模型训练参数设置：

在训练过程中，我们使用Adam优化器，并设置初始学习率和batchsize分别为0.001和35。模型总共训练45轮，在第30，35，40轮迭代时，模型的学习率下降10倍。

2.3模型的训练：

对于模型的训练，我们首先将输入的图片和语言经过步骤一得到模型的输出结果，接着我们通过步骤2.1来计算模型输出和标注好的标签之间的损失函数，最后，我们利用损失函数的梯度反向传播来更新步骤一中的模型参数，训练和迭代过程的设置如步骤2.2所描述。最终我们完成整个模型的训练。

三、模型部署过程：

在经过步骤二的模型训练后，对于训练完毕的模型，我们将输入的图片和描述语言经过步骤一即可得到模型的输出作为模型的预测结果。

参考文献：

[1]Tsungyi Lin，Michael Maire，Serge J Belongie，James Hays，PietroPerona，Deva Ramanan，Piotr Dollar，and C Lawrence Zitnick.Microsoft coco：Commonobjects in context.In ECCV，2014.

[2]Joseph Redmon and Ali Farhadi.Yolov3：An incremental improvement.InarXiv preprint，2018.

[3]Jeffrey Pennington，Richard Socher，and Christopher Manning.Glove：Global vectors for word representation.In EMNLP，2014.

[4]Sepp Hochreiter and Jurgen Schmidhuber.1997.Long short-termmemory.Neural Computation(1997).

[5]Zhou Yiyi，Ji Rongrong，Gen Luo，Sun Xiaoshuai，Jinsong Su，Chia-WenLin，and Qi Tian.A real-time global inference network for one-stage referringexpression comprehension.In arXiv preprint，2019.

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。