CN113657400A

CN113657400A - 基于跨模态文本检索注意力机制的文本指导图像分割方法

Info

Publication number: CN113657400A
Application number: CN202110952433.7A
Authority: CN
Inventors: 刘宇; 陈鹏; 单世民; 李新宇; 徐凯平
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-16

Abstract

一种基于跨模态文本检索注意力机制的文本指导图像分割方法，该方法将文本作为查询向量，多模态特征作为检索空间，自适应关注多模态特征空间中与文本相似区域，定位目标物体。该方法包括：特征提取、图文信息深度融合、深层次关系捕捉和多层级特征混合。采用卷积网络和长短时记忆网络提取视觉、语言特征；使用哈达玛积将视觉、语言特征信息深度融合；采用基于文本查询的注意力机制获取图片场景中与文本描述相似区域，最后将多个层级的特征混合分割目标物体。该方法能够在复杂场景下有效提高定位目标的准确度，实现区域的精确分割。

Description

基于跨模态文本检索注意力机制的文本指导图像分割方法

技术领域

本发明属于计算机视觉与自然语言处理的交叉技术领域，涉及一种基于跨模态文本检索注意力机制的文本指导图像分割方法。

背景技术

文本指导图像分割任务的目标是根据给定的自然语言定位和分割出文本所描述的物体或区域。它不仅可以识别固定类别，同时能够理解表达丰富多变的自然语言。相比于普通的图像分割任务，该任务能够建立起人类与计算机直接快速沟通的桥梁，在实际应用中更加符合直观需求，可方便应用在人机交互、图片编辑等日常生活中，具有广泛的商用价值及深远的研究意义。文本指导图像分割任务要求计算机对所观察场景下物体的认识不仅停留在“认知”的层面，同时要对物体的种类、大小、形状等属性以及与周边物体之间的相关性正确“理解”。需要将文本与图像的特征信息映射统一，根据语言中提及的物体关系对图片中多实体关系进行推理正确定位，并且需要对定位区域精确分割。

现阶段的文本指导图像分割方法大多采用将文本特征与图像视觉特征直接相加或者级联的简单方式整合多模态信息逐像素分割预测结果。然而这种简单的融合方式低估了文本与图像信息交互的重要性，忽略了文本对于图像信息的引导决策，同时缺乏模型的可解释性。很大程度影响了模型定位目标的准确性，导致模型预测出错误的物体所在区域。

发明内容

为了克服上述现有技术的缺点，本发明提供了一个基于跨模态文本检索注意力机制的文本指导图像分割方法，通过使用自然语言文本显式地检索多模态特征空间，最终指导分割结果的生成。该方法在复杂文本描述或具有多个同类别物体的场景下，能有效的提高分割结果地准确性。

为了实现上述目的，本发明采用的技术方案是：

基于跨模态文本检索注意力机制的文本指导图像分割方法，其包括步骤：

(1)特征提取：

对输入自然语言文本和RGB图片进行特征提取。

对于自然语言文本，使用one-hot方法将每个单词表示为向量，将该向量嵌入成低维向量后输入LSTM长短时记忆网络，将最终隐藏态作为整个自然语言文本的文本表示向量F_l。

对于RGB图片，采用ResNet-101卷积神经网络的Res3,Res4,Res5层提取图片特征作为视觉特征

在三层特征图使用相同处理步骤，为方便表示视觉特征统称为F_v。其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数，使用DeepLab预训练参数能有效的减少网络训练时间，提高网络的泛化能力。之后将每个视觉特征向量的位置坐标嵌入视觉特征F_v中，具体过程：对于长宽为w,h的视觉特征图，其中w＝h＝40。以视觉特征图的中心位置作为坐标原点(0,0)，特征图左上角位置坐标记为(-1,-1)，右下角位置坐标记为(+1,+1)，特征图中第i行j列的像素空间位置坐标为

最后将视觉特征F_v与文本表示向量F_l级联后映射至500维的文本图像多模态特征空间M。

(2)图文信息深度融合：

将步骤(1)中生成的文本表示向量F_l与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模，实现文本与图像信息深度融合至统一的多模态混合特征空间M′，有利于后面模块对于目标物体所在区域的正确定位。

(3)深层次关系捕捉：

将步骤(1)中生成的文本表示向量F_l作为注意力机制的查询向量，步骤(2)生成的多模态混合特征空间M′作为检索区域，使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域，生成具有定位目标物体的特征图R。

基于文本的跨模态注意力机制不同于普通的注意力机制，通过增加二次注意力机制，增强了查询向量与第一次注意力机制结果之间的相关性，以减少查询向量与多模态混合特征之间的不同信息形式的差异性。其中使用第一次注意力结果生成的信息向量I和注意力门控单元G来促进目标物体的正确定位，该方法相比于普通的级联方法能够有效抵抗冗余单词的干扰，在复杂场景下正确定位目标物体所处区域，提高模型的正确率。

(4)多层级特征混合：

步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3,Res4,Res5层级的视觉特征F_v。因此在获取方法预测的最终结果需要将三个层级的特征进行混合。

使用R⁽ⁱ⁾表示步骤(3)生成的第i层的混合信息特征图i∈{3,4,5}。由于R⁽ⁱ⁾属于不同层深层次关系捕捉模块输出的特征图，具有着不同的通道维度，因此首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数，将映射后的输出结果记为X⁽ⁱ⁾。之后对于第i个层级，使用一个记忆门单元m⁽ⁱ⁾和重置门单元

联合控制最终结果的生成，记忆门单元m⁽ⁱ⁾和重置门单元r⁽ⁱ⁾的作用类似于长短时记忆网络中的门控单元，控制着对应层中特征对于最终结果的贡献度，贡献度权重比例越高，意味着对应层语义信息提供的越多，所处特征层越重要。此外还包含一个上下文控制器C⁽ⁱ⁾，用来表示其他层流至第i层特征的信息。门控多层级混合能够有效融合来自不同层级的特征语义信息，通过学习训练的手段自动生成最佳权重比例，无需人工先验干涉，使模型结果更加准确，提高模型的分割细节精度。

与现有技术相比，本发明能够使基于文本的图像分割方法适应复杂、具有多个描述实体的自然语言情景，正确定位到描述区域。本发明的方法可以应用于人机交互，交互式图片编辑等各个领域。

附图说明

图1为本发明的整体架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

图1给出本发明的基于文本的图像分割方法框架设计，主要过程如下：

首先将所有图片大小均调整为320×320。用DeepLab预训练的特征提取网络提取视觉特征F_v。对于自然语言采用随机的方式初始化词向量，将one-hot词向量嵌入至1000维向量，通过LSTM长短时记忆网络得到句子的向量表示。LSTM文本最长单词数取20，长短时记忆网络的具体计算过程如公式所示：h_t＝LSTM(x_t,h_t-1)；

其中h_t表示LSTM输出向量，x_t表示LSTM输入向量，h_t-1表示上一层LSTM的输出隐状态。将最后一层的隐状态作为文本的向量表示F_l。

之后将视觉特征与文本特征级联混合。

M＝Φ(concat(F_v,F_l,Cord))

其中，Cord表示视觉空间位置坐标，Φ表示映射函数，M表示生成的具有文本与图像信息的多模态混合特征。

接着，采用哈达玛积融合多模态特征。

F＝M⊙f_L

根据上一步骤得到的多模态特征F采用基于文本查询的跨模态注意力机制，获取特征中与文本相似的区域。计算过程如下：

其中将文本表示特征F_l作为查询向量Q，图文多模态混合特征M′作为键向量K和值向量V。第一次采用传统的注意力机制得到具有文本辅助的决策结果记作Att。

Fusion＝concat(Att,F)

I＝CNN(Fusion)

G＝Sigmoid(CNN(Fusion))

R＝I⊙G

然后将多模态特征F与第一次注意力结果Att相连后再次进行第二次注意力过程，这里使用两个1×1卷积操作生成信息向量I和注意力门控单元G，其中两个卷积操作参数不能共享。信息向量I相当于第二次注意力的查询向量，相比于文本表示向量Q，与视觉特征间差异性更小，更适用于找出多模态特征空间中与查询向量相似的空间特征向量。注意力门控单元G用于控制第一次注意力生成结果Att和多模态语义特征F之间的贡献度，模型通过训练自动调节Att与F特征之间的权重占比，以实现生成更好的模型结果。

实施例

在本实施例中，在GTX 1080显卡上，采用深度学习框架Tensorflow。

数据集：实验评估是在标准公开数据集G-ref上进行的。该数据集包括26711张图片，104560句自然语言文本，其中文本长度平均在8.43个单词，属于基于文本的图像分割数据集中较为复杂的数据集。

为证明基于跨模态文本检索注意力机制的文本指导图像分割方法的有效性，通过在G-Ref数据集上测试IoU指标。结果如表1所示。实验证明本发明的方法能够有效提高结果的准确度。

从实验结果中可以看出，本发明相比于现有技术对复杂多实体的自然语言文本描述定位更加准确，更具有鲁棒性。

Claims

1.一种基于跨模态文本检索注意力机制的文本指导图像分割方法，其特征在于，步骤如下：

(1)特征提取：

对输入自然语言文本和RGB图片进行特征提取；

对于自然语言文本，使用one-hot方法将每个单词表示为向量，将该向量嵌入成低维向量后输入LSTM长短时记忆网络，将最终隐藏态作为整个自然语言文本的文本表示向量F_l；

对于RGB图片，采用ResNet-1O1卷积神经网络的Res3，Res4，Res5层提取图片特征作为视觉特征

在三层特征图使用相同处理步骤，视觉特征统称为F_v；其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数；之后将每个视觉特征向量的位置坐标嵌入视觉特征F_v中，具体过程如下：

对于长宽为w，h的视觉特征图，其中w＝h＝40；以视觉特征图的中心位置作为坐标原点(0，0)，特征图左上角位置坐标记为(-1，-1)，右下角位置坐标记为(+1，+1)，特征图中第i行j列的像素空间位置坐标为

最后将视觉特征F_v与文本表示向量F_l级联后映射至500维的文本图像多模态特征空间M；

(2)图文信息深度融合：

将步骤(1)中生成的文本表示向量F_l与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模，实现文本与图像信息深度融合至统一的多模态混合特征空间M′；

(3)深层次关系捕捉：

将步骤(1)中生成的文本表示向量F_l作为注意力机制的查询向量，步骤(2)生成的多模态混合特征空间M′作为检索区域，使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域，生成具有定位目标物体的特征图R；

(4)多层级特征混合：

步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3，Res4，Res5层级的视觉特征F_v；在获取方法预测的最终结果需要将三个层级的特征进行混合；

使用R⁽ⁱ⁾表示步骤(3)生成的第i层的混合信息特征图i∈{3，4，5}；由于R⁽ⁱ⁾属于不同层深层次关系捕捉模块输出的特征图，具有着不同的通道维度；首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数，将映射后的输出结果记为X⁽ⁱ⁾；之后对于第i个层级，使用一个记忆门单元m⁽ⁱ⁾和重置门单元

联合控制最终结果的生成，记忆门单元m⁽ⁱ⁾和重置门单元r⁽ⁱ⁾的作用类似于长短时记忆网络中的门控单元，控制着对应层中特征对于最终结果的贡献度，贡献度权重比例越高，意味着对应层语义信息提供的越多，所处特征层越重要；此外还包含一个上下文控制器C⁽ⁱ⁾，用来表示其他层流至第i层特征的信息；门控多层级混合能够有效融合来自不同层级的特征语义信息，通过学习训练的手段自动生成最佳权重比例，使模型结果更加准确，提高模型的分割细节精度。