CN112926662B

CN112926662B - 一种基于多尺度语言嵌入rec的目标检测方法

Info

Publication number: CN112926662B
Application number: CN202110222614.4A
Authority: CN
Inventors: 赵泰锦; 李宏亮; 邱荷茜; 孟凡满; 吴庆波; 许林峰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-05-03
Anticipated expiration: 2041-02-25
Also published as: CN112926662A

Abstract

本发明提供一种基于多尺度语言嵌入REC的目标检测方法，把语言特征转化为不同尺度的卷积核，并与视觉特征进行卷积，得到语言特征与视觉特征每个点及其周围的点的相似度，将得到的相似度谱作用回原始视觉特征上，加强与语言相关的视觉特征的表达，同时引入全局视觉语言相互作用信息及位置信息，预测被描述的目标的位置，提升了网络对于视觉上下文的利用能力，相比于基准的普通基于单阶段REC的目标检测方法，预测准确率更高。

Description

一种基于多尺度语言嵌入REC的目标检测方法

技术领域

本发明涉及单阶段指称表达理解(Referring Expression Comprehension,REC)技术，特别涉及基于REC的目标检测技术。

背景技术

常规的目标检测技术是指给定一幅输入图像，寻找出图像中所有指定类别的目标并给出它们的位置，随着人工智能技术在多个行业中的广泛应用，在许多场景中，我们需要算法根据人的需求有针对性地寻找特定目标(如：在一幅监控图中寻找一个穿着红色衣服的小女孩)，常规目标检测算法已经不能满足各种差异化的需求。表达理解算法REC是一种结合了计算机视觉和自然语言处理的多模态检测技术，它能根据一句输入的语言在输入图像中找到语言描述的目标。REC旨在解决语言和图像的对齐问题，也是多模态的基础技术之一，被应用在图文检索、视觉问答、机器导航等任务中。

目前的REC主要分为单阶段方法和双阶段算法两类，其中双阶段方法指先提取出输入图像中所有可能的候选目标，再在这些候选目标中选择出最符合描述的目标，这种方法由于需要先检测出所有目标再进行选择，计算量很大，速度也很慢；同时，需要检测的目标可能在第一阶段中没有被标注出，这将导致第二阶段的错误执行，因此双阶段方法的性能高度依赖于提取的候选目标的质量。单阶段方法是指在分别提取图像和语言特征后，对两种特征进行融合，并使用融合后的特征直接预测符合语言描述的目标在图像中的位置，该方法有着计算量更小，速度更快的特点。

在实际应用场景中，我们常常需要借助一个物体与周围物体的相对关系来对其进行描述如：打着绿色伞的男人，此种情况下，如果仅寻找目标本身，而不对其周围的视觉上下文进行考虑，网络难以正确定位目标。因此，REC任务是上下文敏感的，现有的单阶段方法没有考虑周围环境对该点的影响。

发明内容

本发明所要解决的技术问题是，提供一种通过增强单阶段REC算法中视觉上下文利用能力从而提高检测准确率的目标检测方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于多尺度语言嵌入REC的目标检测方法，包括以下步骤：

步骤1)接收输入的图像与语言，分别提取图像特征和语言特征；

步骤2)获取最终局部融合特征：

步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱，利用图像-语言响应谱加强图像特征得到局部初步融合特征；

步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱，分别利用N个局部上下文融合特征，再融合N个加强后的局部初步融合特征得到最终局部融合特征；N为大于等于2的整数；

步骤3)计算图像特征与语言特征的全局融合特征，同时添加位置信息，得到带位置信息的全局融合特征；

步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。

现有的单阶段方法在视觉特征谱空间域上每一个点独立地计算与语言的相似度，没有考虑周围环境对该点的影响。本发明把语言特征转化为不同尺度的卷积核，并与视觉特征进行卷积，得到语言特征与视觉特征每个点及其周围的点的相似度，将得到的相似度谱作用回原始视觉特征上，加强与语言相关的视觉特征的表达，同时引入全局视觉语言相互作用信息及位置信息，预测被描述的目标的位置。

本发明的有益效果是，提升了网络对于视觉上下文的利用能力，相比于基准的普通单阶段算法，预测准确率更高。

附图说明

图1为基于单阶段REC的目标检测的总体流程示意图。

图2为实施例中多尺度局部特征融合方式示意图。

图3为实施例中带位置信息的全局特征融合方式示意图。

具体实施方式

本发明的具体实施方式如图1所示：

1.获取一幅输入的图像I和一句输入的语言描述

u_t代表语言描述中的第t个字，用卷积神经网络提取图像特征

f_v＝CNN(I)

其中CNN表示卷积神经网络主干；

将语言描述转化为词向量，用双向长短期记忆人工神经网络提取前向和后向隐层语言描述特征，将前后向特征拼接起来作为最终的语言特征

e_t＝embedding(u_t)

其中embedding表示词嵌入，

和

分别表示前向和后向的长短期记忆人工神经网络，[·]表示向量的拼接操作。

2.沿着通道层用一个全连接层将语言特征的维度从C_l改变到C_v，与图像特征f_v点乘，用Softmax函数映射并乘上对应系数，得到图像-语言响应谱

将M_g与f_v求哈达玛乘积，得到局部初步融合特征f_mp；

M_g＝HW*Softmax(f_v⊙FC(f_l))

其中FC表示带偏置的全连接层，Softmax为激活函数，H和W分别表示表示图像特征f_v的长和宽，⊙表示点乘，

表示哈达玛乘。

3.沿着通道层用3个独立全连接层将语言特征的维度从C_l改变到C_v,C_v*9,C_v*25,将输出变形为

的不同尺度的卷积核，与图像特征f_v做二维卷积，得到三个不同的上下文响应谱

将f_mp分别与

点乘，得到二次融合的局部上下文融合特征

将

沿通道拼接起来，并用1*1卷积降维，得到最终局部融合特征f_mu，如图2所示；

k_i＝FC_i(f_l)

其中FC_i表示对应于卷积核k_i的参数独立的全连接层，Conv2d(a,b)表示以b为卷积核，在a上做二维卷积，Conv_1*1表示沿通道方法的1*1卷积，输入维度为3C_v，输出维度为C_v。

4.将图像特征f_v输入到一个平均池化层中，得到全局图像特征

沿着通道层用一个全连接层将语言特征的维度从C_l改变到C_v，将语言特征与f_vg求哈达玛积，得到全局融合特征f_mg；同时生成特征图的坐标谱，与复制到

的f_mg沿通道拼接，并用1*1卷积将维度改变到C_v，得到包含位置信息的全局融合特征f_pg，如图3所示；

f_vg＝AvgPool(f_v)

f_pg＝Conv_1*1([dupli(f_mg),coord])

其中AvgPool代表全局平均池化，dupli表示将一个C_v*1*1维的向量扩充成C*H*W的矩阵，coord代表坐标谱

i与j分别表示图像特征f_v的特征点的横、纵坐标；Conv_1*1的输入维度为C_v+8，输出维度为C_v。

5.将f_mu与f_pg沿通道拼接，输入检测头中，得到语言描述的目标在图像中的位置，以坐标框的形式表示；

Bbox＝DetectionHead([f_mu,f_pg])

其中DetectionHead表示检测头。

Claims

1.一种基于多尺度语言嵌入REC的目标检测方法，其特征在于，包括以下步骤：

步骤2)获取最终局部融合特征：

2.如权利要求1所述方法，其特征在于，步骤2-1)具体如下：

先使语言特征f_l的维度与图像特征f_v的维度相同；

将统一维度的语言特征f_l与图像特征f_v点乘，再用Softmax函数对点乘结果进行映射并乘上图像特征f_v的尺寸得到图像-语言响应谱M_g；

将图像-语言响应谱M_g与图像特征f_v求哈达玛积得到初步融合的局部多模态特征f_mp。

3.如权利要求2所述方法，其特征在于，通过全连接层实现语言特征f_l的维度改变，使得语言特征f_l的维度与图像特征f_v的维度相同。

4.如权利要求1所述方法，其特征在于，步骤2-2)具体如下：

将语言特征的维度改变到N种不同尺度，确定的N种不同尺度的卷积核后将N种不同尺度的语言特征分别与图像特征f_v做二维卷积，得到N个不同上下文响应谱

将f_mp分别与N个不同上下文响应谱

点乘，得到N个二次融合的局部多模态特征并进行拼接，再使拼接后的二次融合的局部多模态特征的维度与图像特征f_v的维度相同，得到最后的局部多模态特征f_mu。

5.如权利要求4所述方法，其特征在于，N＝3；使用3个独立全连接层将语言特征的维度从C_l改变到3种不同尺度C_v，C_v*9，C_v*25，C_v表示图像特征f_v的维度；将3种不同尺度的语言特征分别与图像特征f_v做二维卷积是使用的3种卷积核分别为

表示实数域。

6.如权利要求1所述方法，其特征在于，步骤3)具体如下：

得到图像特征f_v的全局图像特征f_vg；

使语言特征f_l的维度与图像特征f_v的维度相同；将统一维度的语言特征f_l与全局图像特征f_vg求哈达玛积，得到全局融合特征f_mg；再将全局融合特征f_mg扩充成C_v*H*W的矩阵；C_v表示图像特征f_v的维度，H和W分别表示图像特征f_v的长和宽；

同时，得到图像特征的坐标谱coord，

i与j分别表示图像特征f_v的特征点的横、纵坐标；

将扩充后的全局融合特征f_mg与坐标谱coord先拼接，再对拼接结果的维度改变到图像特征f_v的维度相同，得到包含位置信息的全局融合特征f_pg。

7.如权利要求6所述方法，其特征在于，利用全局平均池化得到图像特征f_v的全局图像特征f_vg。

8.如权利要求1所述方法，其特征在于，步骤1)使用卷积神经网络提取图像特征。

9.如权利要求1所述方法，其特征在于，步骤1)使用长短期记忆人工神经网络提取语言特征。