CN116052040A

CN116052040A - 基于多模态查询向量和置信度的指代视频分割方法

Info

Publication number: CN116052040A
Application number: CN202211621709.4A
Authority: CN
Inventors: 刘文印; 黄可思; 梁达勇; 陈俊洪; 西木; 钟经谋; 林大润
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-05-02

Abstract

本发明提供了基于多模态查询向量和置信度的指代视频分割方法，包括：提取原始视频的视频特征和自然语言描述文本的描述文本特征；基于视频特征和描述文本特征，生成多模态查询向量；对视频特征进行编码，并生成编码器特征；对编码器特征和多模态查询向量进行解码，并生成预测类别、预测框和掩码特征；基于掩码特征和多模态查询向量，生成置信度，并计算新的掩码特征；将新的掩码特征通过掩码生成器，获取根据自然语言描述文本预测的分割掩码；根据损失函数训练模型，最终得到已训练的指代视频分割模型，完成指代视频分割任务。本发明能够让模型理解多模态数据，提高指代视频分割任务的精度，增强其在高度随机的复杂环境下的鲁棒性。

Description

基于多模态查询向量和置信度的指代视频分割方法

技术领域

本发明属于指代视频分割技术领域，尤其涉及基于多模态查询向量和置信度的指代视频分割方法。

背景技术

指代视频分割(Referring Video Segmentation)任务指的是给定的一个视频中某个对象的自然语言描述文本，按照该描述文本对视频中的目标对象进行分割，即输出视频每一帧的描述对象的分割掩码。本任务是一个新兴的多模态任务，它涉及了计算机视觉和自然语言处理两种技术，要求模型能够深刻理解描述文本与视频中对象的关系，并准确输出分割掩码。通过该技术，可以方便地通过文本找到符合的视频帧，可以应用于视频编辑和视频监控领域。相比于指代图像分割任务，视频任务要求更高，需要处理好前后帧的关系，连贯前后帧的信息。

在现有技术中，一种方法是通过早期融合多模态特征，输入到解码器进行对象分割。但过早地融合视频和描述文本的特征，会使模型无法很好地捕获关键的实例级信息，也难以考虑多个帧之间的对象关联，导致场景的变化会影响掩码的生成。另一种方法是利用实例分割模型，分割出每一帧或者关键帧的实例对象并形成候选轨迹，通过与描述文本一一比对，挑选出与之最匹配的那一帧的分割掩码。这样做的好处是大幅提高了精度，但由于过程繁琐，训练复杂度高，模型的计算开销也大幅提高。还有一种方法是在Transformer编码器-解码器结构中，解码器的查询向量采用固定数量的可学习的位置向量，每个向量用于预测一个物体。但这种做法没有对视频特征和描述文本特征进行匹配，且不能适应指代视频分割任务的高随机性。

发明内容

为解决上述技术问题，本发明提出了基于多模态查询向量和置信度的指代视频分割方法，提高任务的分割精度和分割效率。

为实现上述目的，本发明提供了基于多模态查询向量和置信度的指代视频分割方法，包括：

提取原始视频的视频特征和自然语言描述文本的描述文本特征；

基于所述视频特征和所述描述文本特征，生成多模态查询向量；

对所述视频特征进行编码，并生成编码器特征；

对所述编码器特征和所述多模态查询向量进行解码，并生成预测类别、预测框和掩码特征；

基于所述掩码特征和所述多模态查询向量，生成置信度，并计算新的掩码特征；

将所述新的掩码特征通过掩码生成器，获取根据自然语言描述文本预测的分割掩码；

根据损失函数训练模型。

可选地，生成所述多模态查询向量包括：

对所述视频特征进行预处理，获取视觉特征；

利用所述视觉特征和所述描述文本特征，获取所述多模态查询向量的注意力权重；

基于所述注意力权重，获得所述多模态查询向量。

可选地，对所述视频特征进行预处理，获取所述视觉特征包括：

通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×N_q，获得N_q个H×W大小的特征图；其中，H表示特征图的高，W表示特征图的宽，C表示特征图的通道数，N_q为多模态查询向量的个数；展开所述特征图，获得维度为N_q×(HW)的所述视觉特征，HW为特征图的高乘上特征图的宽的积。

可选地，所述第t帧多模态查询向量的注意力权重为：

其中，a^t为第t帧多模态查询向量的注意力权重，

为第t帧的第n个多模态查询向量的注意力权重，

为第t帧第i个词的第n个多模态查询向量的注意力权重，N_q为多模态查询向量的个数，N_l为描述文本的长度。

可选地，所述多模态查询向量为：

其中，

为第t帧的多模态查询向量，N_q为多模态查询向量的个数，

为第t帧的第n个多模态查询向量。

可选地，获取所述预测类别、预测框和掩码特征包括：

将所述视频特征输入Deformable-DETR编码器，获取编码器特征；

将所述编码器特征和所述多模态查询向量输入Deformable-DETR解码器，获取所述预测类别、预测框和掩码特征。

可选地，生成所述置信度包括：

将所述多模态查询向量和所述掩码特征各自经过一个不同的全连接层后，进行拼接；

将拼接结果通过另外两个全连接层生成预设大小的置信度；其中，另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。

可选地，获取所述预测类别、预测框和掩码特征后还包括：

设置损失函数，对所述Deformable-DETR解码器进行训练；

所述损失函数为：

其中，y为第t帧的真值，

为第t帧的预测值。

与现有技术相比，本发明具有如下优点和技术效果：

本发明提出基于多模态查询向量和置信度的指代视频分割方法，指代视频分割模型基于Transformer编码器-解码器结构，并加入多模态查询向量和置信度来提高任务精度。

加入多模态查询向量后，能够让描述文本特征与视觉特征进行细粒度交互，并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系，从而理解描述文本在视频中所指代的对象。

而加入置信度计算模块后，该模块可以自适应地给每个多模态查询向量分配一个置信度，该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征，以生成最符合描述文本所指代对象的掩码。

最终本发明通过加入多模态查询向量和置信度来提高模型指代视频分割任务的精度，增强模型在高度随机的复杂环境下的鲁棒性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例的指代视频分割方法流程示意图；

图2为本发明实施例的指代视频分割模型框架示意图；

图3为本发明实施例的多模态查询向量生成的流程示意图；

图4为本发明实施例的多模态查询向量生成器结构示意图；

图5为本发明实施例的相同描述文本，不同视频帧的对比示意图；其中，(a)为描述文本的侧重点是“上方”的示意图，(b)为描述文本的侧重点是“大”的示意图；

图6为本发明实施例的置信度计算模块结构示意图；

图7为本发明实施例的模型掩码生成和损失函数计算流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例

本发明提供了基于多模态查询向量和置信度的指代视频分割方法，包括：

对所述视频特征进行编码，并生成编码器特征；

将所述新的掩码特征通过掩码生成器，获取根据自然语言描述文本预测的分割掩码。

进一步地，生成所述多模态查询向量包括：

对所述视频特征进行预处理，获取视觉特征；

基于所述注意力权重，获得所述多模态查询向量。

进一步地，对所述视频特征进行预处理，获取所述视觉特征包括：

通过卷积层将所述视频特征的特征维度从H×W×C转成H×W×N_q，获得N_q个H×W大小的特征图。其中，H表示特征图的高，W表示特征图的宽，C表示特征图的通道数，N_q为多模态查询向量的个数；展开所述特征图，获得维度为N_q×(HW)的所述视觉特征，HW为特征图的高乘上特征图的宽的积。

进一步地，获取所述预测类别、预测框和掩码特征包括：

将所述视频特征输入Deformable-DETR编码器，获取编码器特征；

进一步地，生成所述置信度包括：

将拼接结果通过另外两个全连接层生成预设大小的置信度；其中，这两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。

进一步地，获取所述预测类别、预测框和掩码特征后还包括：

设置损失函数，对所述Deformable-DETR解码器进行训练；

所述损失函数为：

其中，y为第t帧的真值，

为第t帧的预测值。

本发明采用基于Transformer编码器-解码器结构的指代视频分割模型。通过加入多模态查询向量和置信度，令描述文本特征与视觉特征进行细粒度交互，并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系，从而理解描述文本在视频中所指代的对象，最终提高模型指代视频分割任务的精度，增强指代视频分割在高度随机输入的复杂环境下的鲁棒性。

如图1所示，本实施例共分为以下几个步骤：

1.利用视频骨干网络提取提取原始视频的视频特征，利用自然语言骨干网络提取自然语言描述文本的描述文本特征。

2.利用多模态查询向量生成器，通过输入的视频特征和描述文本特征生成多模态查询向量。

3.视频骨干网络最后阶段的输出作为Deformable-DETR编码器的输入。Deformable-DETR编码器特征和多模态查询向量作为Deformable-DETR解码器的输入。

4.把Deformable-DETR解码器的掩码特征和多模态查询向量输入到置信度计算模块，生成置信度，再与掩码特征进行矩阵相乘，通过掩码生成器，获取根据自然语言描述文本预测的分割掩码。

5.利用损失函数，根据Deformable-DETR解码器的预测类别、预测框和掩码特征来计算损失，并不断训练模型，最终得到已训练的指代视频分割模型。

基于多模态查询向量和置信度的指代视频分割模型框架如图2所示。

(1)提取视频特征和自然语言描述文本特征

利用视频骨干网络提取视频特征。视频骨干网络可以是二维或者三维。比如ResNet、Swin Transformer或Video Swin Transformer。

利用自然语言骨干网络提取自然语言描述文本特征。这里采用RoBERTa，它是BERT的改进版，RoBERTa相比于BERT，采用了动态掩码进行预训练，并删除了NSP任务、改进了优化函数、增加了更多训练数据和时间、采用更大的批量大小和更长的序列长度。

(2)多模态查询向量生成器

在现有的视觉Transformer工作中，Transformer解码器的查询向量通常是一组固定数量的可学习的位置向量，每个向量用于预测一个物体。实验表明，每个查询向量都有自己专门针对的物体种类或位置区域。但这个设计隐含了一个必要的假设：输入图像中的物体是按照某种统计规则分布的。这就与具有高随机性的指代视频分割任务相违背了。因为在指代视频分割任务中，描述文本的对象可以是视频中的任意实例。由于视频内容和描述文本都是不受限制的，所以目标对象及其属性的具有高随机性，对象的属性可以是位置、形态、动作、外表等多种不同属性。

为了解决上述问题，可以利用基于注意力机制的多模态查询向量来寻求突破。注意力机制会在所有元素之间建立直接的交互，这能大幅提高模型对全局语义信息的捕捉能力，以适应高随机性的指代视频分割任务。

本发明提出基于注意力机制的多模态查询向量生成器：它以自然语言描述文本为基础，借助视觉特征，产生多个具有不同权重的多模态查询向量。这些多模态查询向量代表了从不同方面、不同角度对描述文本的多样化理解。

综上所述，加入多模态查询向量生成器后，能够让描述文本特征与视觉特征进行细粒度交互，并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系，从而理解描述文本在视频中所指代的对象，最终提高模型指代视频分割任务的精度，增强模型在高度随机的复杂环境下的鲁棒性。

多模态查询向量生成的流程示意图如图3所示：假设提取的视频特征为

其中第t帧视频帧的视频特征为

为了适应T帧的视觉输入，需要把描述文本特征复制T份，分别对第t帧视频帧生成多模态查询向量

最后把一共T组的多模态查询向量输入到Deformable-DETR的解码器中。

多模态查询向量生成器结构示意图如图4所示，它用于生成视频第t帧的多模态查询向量

每个

具有N_q个多模态查询向量

首先，设描述文本特征为

其中第t帧描述文本特征为

N_l为句子长度，不足用零填充。首先将通过提取的视频特征

通过卷积层把特征维度从H×W×C转成H×W×N_q，即得到N_q个H×W大小的特征图。其中，H表示特征图的高，W表示特征图的宽，C表示特征图的通道数，N_q为多模态查询向量的个数。

每个特征图都将参与一个多模态查询向量的生成。接着利用Flatten操作展开特征图，得到维度为N_q×(HW)的视觉特征

HW为特征图的高乘上特征图的宽的积，上述操作用公式表达即为：

接着利用第t帧的视觉特征

和描述文本特征

来计算注意力权重。分别通过一个不同的全连接层后，设第t帧的视觉特征

为第t帧第n个视觉特征，N_q为多模态查询向量的个数。设第t帧描述文本特征

第i个词对应的描述文本特征为

N_l为句子长度。在第t帧，句中第i个词的第n个多模态查询向量的注意力权重

是

和

的乘积：

其中

表示视觉特征的可学习的参数和

表示描述文本特征的可学习的参数，σ是Softmax激活函数，用于归一化每个查询的所有单词。第t帧多模态查询向量的注意力权重为：

其中，a^t为第t帧多模态查询向量的注意力权重，

为第t帧的第n个多模态查询向量的注意力权重，它表示一个句子的某一个注意力权重，使得不同的多模态查询向量可以关注描述文本不同的部分，即有N_q种不同的理解方式。

最后，第t帧的多模态查询向量为：

其中，

为第t帧的多模态查询向量，N_q为多模态查询向量的个数，

为第t帧的第n个多模态查询向量。

是一个可学习的参数。每个多模态查询向量

中，视觉特征对描述文本特征起到了引导的作用。通过对描述文本中不同单词的特征投影进行加权求和，得到多模态查询向量。它会并输入到后续的Transformer解码器中，作为多模态查询向量查询视频特征。

(3)Transformer编码器-解码器

Transformer编码器-解码器模块采用Deformable-DETR。它由DETR改进得到，缓解了DETR的缓慢收敛和高复杂性的问题,结合了可变形卷积的稀疏空间采样的优点和Transformer的关系建模能力。模型的创新点是提出了可变形注意力模块，只关注参考点周围的一小部分关键采样点。该模块可以无需FPN的帮助，很自然地扩展到聚合多尺度特征。在Deformable-DETR中，利用该模块来代替Transformer注意力模块去处理特征图。可变形注意力模块只关注参考点周围的一小部分关键采样点。COCO数据集上，大量的实验表明Deformable-DETR比DETR有更好的性能，而且训练次数减少10倍，证明了该模型的有效性。

(4)置信度计算模块及生成描述对象的分割掩码

指代视频分割任务中，输入视频和自然语言描述文本都是高度随机的。这种高随机性不只体现在描述文本的对象可以是视频中的任意实例这方面，描述对象的属性也具有高随机性。对于同种类对象，其位置、形态、动作和外表等属性不是固定的，还需要结合视频内容来进行理解，对于不同视频帧，同一个描述文本可能会有不同的侧重点和理解角度。如图5中，在相同视频帧中，对于同一个描述文本“在上方的大云朵”，假设分割的对象是上方用橙色标记出来的云朵，那么对于图5中的(a)，描述文本的侧重点是“上方”，而图5中的(b)则是“大”。假如没有视频帧，那么描述文本的自注意力将会同时给予“上方”和“大”较高的权重，但结合了视频帧之后，模型可以结合实际情况，从找出实际视频帧的侧重点，如在图5中的(a)中给予“上方”更大的权重。

上述多模态查询向量帮助模型在初期解决任务的随机性问题。而在后期的掩码生成中，Deformable-DETR解码器为每一帧生成了数个多模态查询向量对应的掩码特征，即模型对描述文本所指代的对象有多个角度的理解。但每一帧最终输出的掩码只有一个，为了平衡上述多个掩码特征，帮助模型生成最符合描述文本所指代对象的掩码，本发明提出置信度计算模块。置信度计算模块可以自适应地给每个多模态查询向量分配一个置信度，该置信度反映多模态查询向量与图像全局信息的吻合程度。最终，模型通过置信度自适应地选择掩码特征，以生成最符合描述文本所指代对象的掩码。

置信度计算模块结构图如图6所示，为了精简，省略了Deformable-DETR解码器输出的预测类别和预测框。模型掩码生成和损失函数计算流程图如图7所示。从多模态查询向量生成器得到第t帧的多模态查询向量

与Deformable-DETR解码器输出的掩码特征

各自经过一个不同的全连接层后，进行拼接，再通过另外两个不同的全连接层生成大小为N_q×1的置信度值

它的每个元素表示每条多模态查询向量与它的预测背景的吻合程度，另外两个全连接层的第二个全连接层使用Sigmoid函数作为激活函数来控制输出范围。最后每个

都与相应的置信度值

相乘，得到新掩码特征

最终，通过掩码生成器，获取根据自然语言描述文本预测的分割掩码。掩码生成器包含3个卷积核为3x3的卷积层，用于解码新的掩码特征，并用1个卷积核为1x1的卷积层生成预测的分割掩码。

置信度计算模块算法为：

(5)损失函数

Deformable-DETR解码器除了每帧输出掩码特征外，还会输出其预测类别

和预测框

因此，对于T帧的视频，指代视频分割模型的预测结果为：

假设真值为

c为one-hot矩阵，视频帧中出现过的对象类别标1，否则标0。损失函数为：

其中λ_cls、λ_box和λ_mask是超参数，y为指代视频分割任务的真值，

为指代视频分割模型的预测结果。L_cls指Focal loss损失函数，用于解决数据不平衡造成的模型性能问题；L_box包括L1损失函数和GIoU损失函数；L_mask包括DICE损失函数和Focal loss损失函数。

本实施例提供一种基于多模态查询向量和置信度的指代视频分割方法。指代视频分割模型基于Transformer编码器-解码器结构，并加入多模态查询向量和置信度来提高任务精度和模型鲁棒性。

在指代视频分割方法中，提出了一个利用注意力机制的多模态查询向量生成器：它以自然语言描述文本为基础，借助视觉特征，产生多个具有不同权重的多模态查询向量。这些多模态查询向量代表了从不同方面、不同角度对描述文本的多样化理解。因此，加入多模态查询向量生成器后，能够让描述文本特征与视觉特征进行细粒度交互，并使得模型能够从多个角度学习和理解描述文本与视频之间的深层关系，从而理解描述文本在视频中所指代的对象。

此外还提出置信度计算模块，该模块可以自适应地给每个多模态查询向量分配一个置信度，该置信度反映多模态查询向量与图像全局信息的吻合程度。模型通过置信度自适应地选择掩码特征，以生成最符合描述文本所指代对象的掩码。

本实施例所提出的模型框架简洁，以Transformer编码器-解码器结构为基础，提供一种基于多模态查询向量和置信度的指代视频分割方法。通过多模态查询向量生成器和置信度计算模块，能够让描述文本特征与视觉特征进行细粒度交互，并使模型能够从多个角度学习和理解描述文本与视频之间的深层关系，从而理解描述文本在视频中所指代的对象，最终提高模型指代视频分割任务的精度，增强模型在高度随机的复杂环境下的鲁棒性。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。