CN116258990A

CN116258990A - 一种基于跨模态亲和力的小样本参考视频目标分割方法

Info

Publication number: CN116258990A
Application number: CN202310105942.5A
Authority: CN
Inventors: 刘恒; 李光辉
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-06-13

Abstract

本发明公开了一种基于跨模态亲和力的小样本参考视频目标分割方法，主要解决现有方法需要依赖大量标注数据以及无法泛化到新的场景的问题。本发明主要包括以下步骤：制作小样本参考视频目标分割数据集；构建一个跨模态亲和力网络用于模型训练；基于构建的跨模态亲和力网络和制作的数据集对网络模型进行训练；根据学习得到的模型参数，输入视频帧序列和自然语言描述，得到分割结果。本发明方法设计科学合理，通过建立跨模特亲和力关系，有效提升了小样本参考视频目标分割的泛化性和精确度，在视频编辑和人机交互中有着广泛的应用前景。

Description

一种基于跨模态亲和力的小样本参考视频目标分割方法

技术领域

本发明属于计算机视觉技术领域，进一步涉及视频目标分割技术，具体地说，涉及一种可用于视频编辑、人机交互等领域的基于跨模态亲和力的小样本参考视频目标分割方法。

背景技术

计算机视觉是一个研究领域，旨在助力计算机使用复杂算法(可以是传统算法，也可以是基于深度学习的算法)来理解数字图像和视频并提取有用的信息。计算机视觉的主要目标是，先理解视频和静止图像的内容，然后从中收集有用的信息，以便解决越来越多的问题。作为人工智能(AI)和深度学习的子领域，计算机视觉可训卷积神经网络(CNN)，以便针对各种应用场合开发仿人类视觉功能。计算机视觉包括对CNN进行特定训练，以便利用图像和视频进行数据分割、分类和检测。

视频目标分割任务是视频处理任务中的一个重要课题，其目的在于将一系列视频序列中感兴趣的目标从背景中分割出来。近年来，由于深度学习技术在计算机视觉任务(如:图像识别、目标跟踪、动作识别等)中的优秀表现，基于深度学习的视频目标分割算法已成为解决视频目标分割任务的主流方法。基于深度学习的视频目标分割算法的性能依赖于其使用的神经网络的规模，神经网络性能的发挥依赖于大量的训练数据，训练数据集规模越大，训练所得神经网络泛化性和鲁棒性越好。在有监督学习的范式下，视频目标分割训练数据集的制作过程代价高昂且费时，不仅需要在空间上对图像中的每一个像素进行标注，还需要在时间上对视频序列中的每一帧进行标注。视频目标分割模型的性能还与结构密切相关，通过对视频目标分割模型推理过程的合理优化，可以有效地减少视频目标分割过程中的错误。

参考视频目标分割旨在分割视频中具有自然语言描述的目标对象。在现实场景中，它具有广泛的应用，例如视频编辑和人机交互，因此这个新颖的任务引起了研究社区的广泛关注。不同于传统的半监督视频对象分割，因为参考视频目标分割不仅缺乏视频第一帧的正确掩码，还需要对视觉和语言的多模态信息进行交互，所以它更具有挑战性。

基于深度学习的各种任务的巨大成功得益于大量的标注数据，但是现实世界中数据属于长尾分布，而且高质量的标注数据往往需要花费极大成本才能够获得。在参考视频目标分割任务中，需要大量的视频数据和人工标注的自然语言描述，高标注的成本极大限制了模型的适用性。参考视频目标分割任务往往针对特定的单一场景，在面对新的场景时没有很好的泛化性。这是因为现实中数据集包含的场景往往过于单一，因此将模型迁移到新数据集中会存在效果较差的现象。

给定输入视频和文本，参考视频目标分割的目标是在所有视频帧上分割和关联文本参考对象。为了很好地将文本线索与视觉对象联系起来，当前的参考视频目标分割方法主要使用三种技术在多模态元素之间进行交互：动态卷积、跨模态注意力和Transformer。

动态卷积首先被应用于参考视频目标分割，其中文本特征被编码为内核以对视觉特征进行卷积。接下来有工作通过根据需要卷积的视觉上下文调制文本内核来改进这个想法，从而对视觉上相似的干扰因素带来更强的鲁棒性。

跨模态注意力是参考视频目标分割中广泛使用的技术，因为它可以在视觉和语言元素之间建立细粒度和语义的对应关系。早期的工作利用这些属性来改进视觉上下文并减少语言变化。为了更充分地利用文本，一些方案将特定的语言成分结合到基于注意力的交互中。

Transformer在自然语言处理(NLP)和计算机视觉(CV)方面的成功鼓励了多模态分析的相关应用。与上述方案不同，基于transformer的方案完全基于注意力机制实现视觉语言交互。早期的方法单独分割每个视频帧，并且仅利用变换器进行特征融合。受DETR在视频实例分割中的应用的启发，最近的工作采用类似DETR架构，其中Transformer以并行和全局的方式用于特征融合和对象定位。

然而，以上方法被特定场景的数据集所限制。如果去衡量未知场景的效果时，无法获得较好的效果。

基于以上分析，有必要提供一种能够使模型能够从少数样本中学习到新的语义信息，从而快速适应现实世界中复杂多样的场景的方法。

发明内容

为了克服上述现有技术存在的现实中现实中数据集包含的场景往往过于单一以及需要大量标注数据的问题。本发明提出了一种基于跨模态亲和力的小样本参考视频目标分割方法，跨模态亲和力模块用于计算支持集和查询集之间的多模态信息亲和力，能够从少量样本中学习到新的语义信息，从而能够快速适应现实世界中复杂多样的场景。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

一种基于跨模态亲和力的小样本参考视频目标分割方法，包括如下步骤：

S1、利用现有的参考视频目标分割数据集，构建适合小样本参考视频目标分割任务的数据集；

S2、构建一个跨模态亲和力网络用于模型训练；

S3、依据步骤S1制作的数据集来对步骤S2构建的网络进行训练，保存训练参数；

S4、将视频帧序列和自然语言描述作为网络的输入，利用步骤S3学习得到的参数得到分割结果作为输出。

进一步地，步骤S1中制作适合小样本参考视频目标分割任务的数据集的过程为：对现有的参考视频目标分割数据集中的每个视频及其对应的自然语言描述，首先挑选出包含两个不同类别的分割目标的视频，将其丢弃；然后将剩余的视频按照分割目标类别进行数量排序，将数量小于10个以及大于50个的类别视频丢弃；对数据集中所有视频进行上述处理，能够得到一个适合小样本参考视频目标分割任务的数据集，数据集包含1668个视频，分为48个类别。

进一步地，步骤S2中构建的跨模态亲和力网络，以support set和query set两个集合的数据作为输入，首先经过权重共享的特征提取网络分别提取视觉特征和文本特征，特征提取网络采用包括顺次连接的多个卷积层、多个池化层、多个残差单元模块、单个全连接层的残差网络以及基于Transformer的大规模预训练文本模型；然后使用多头跨模态注意力机制分别融合support set和query set中的视觉特征和文本特征，融合之后的多模态特征用于计算query set内部的自我亲和力，得到的自我亲和力特征与support set的多模态特征计算亲和力关系得到更鲁棒的特征；最后，为了定位最相关的目标以及逐步解码特征，将得到的跨模态亲和力特征送入掩码生成模块，得到最终的分割掩码。

进一步地，步骤S2中构建的跨模态亲和力网络分为四个模块，分别是：

多模态融合模块，将视觉特征和文本特征进行融合；

自我亲和力模块，用于计算query set中的自我亲和力特征；

跨亲和力模块，用于计算query set和support set之间的跨亲和力特征；

掩码生成模块，用于生成最终的分割结果。

进一步地，多模态融合模块中，在进行特征融合之前，需要对视觉特征进行维度映射，统一将多尺度特征的通道数变为256，具体步骤如下：首先经过三层3×3卷积层，正则化层，将多尺度特征的前3层特征通道数映射为256；然后再将多尺度特征的最后一层特征经过一层1×1卷积层，正则化层，得到最终的统一通道数的特征；

多模态融合模块中包含视觉特征和文本特征，对于视觉特征和文本特征之间的交互，具体来说，使用multi-head cross-attention(MCA)将多模态信息进行融合，得到新的多尺度特征图，具体的流程用公式(1)表示：

f′_vs＝MCA(f_s,f_i)

f′_vq＝MCA(f_q ,f_j) (1)

其中，f_s表示support的视觉特征，f_i表示support的语言特征，f_q表示query的视觉特征，f_j表示query的语言特征。

进一步地，在自我亲和力模块中，包括3×3卷积层、矩阵计算模块、归一化层、残差连接；query set中融合后的多模态特征经过3×3卷积层，得到三个不同的向量q、k、v，三个向量送入矩阵计算模块来计算自我亲和力，然后经过归一化操作以及残差连接，具体的流程用公式(2)表示：

q_s＝q+LN(Softmax(A^Q)v) (2)

其中，d_head是隐层的维度数量，A^Q是计算得出的亲和力矩阵，LN是归一化操作。

进一步地，在跨亲和力模块中，包括3×3卷积层、矩阵计算模块、归一化层、残差连接；support set中融合后的多模态特征经过3×3卷积层，得到两个不同的向量作为k_s、v_s，两个不同的向量、自我亲和力模块的输出q共同送入矩阵计算模块来计算跨亲和力，然后经过归一化操作以及残差连接，具体的流程用公式(3)表示：

其中，d_head是隐层的维度数量，LN是归一化操作。

进一步地，在掩码生成模块中，包含一个Transformer架构以及一个特征金字塔网络；Transformer架构中包含六层编码器-解码器结构；在解码器中，包含两个轻量级的辅助头，用于获得最终的目标掩码；在特征金字塔网络中，包含四层不同尺度的层次特征，使用cross-attention方式对视觉特征和语言特征进行交互，具体的流程用公式(4)表示：

其中，

是每一层次的视觉特征，f_tq表示query set对应的文本特征；最终将最后一层的特征经过一个3×3卷积层，得到最终的特征图。

进一步地，采用Adam优化算法优化网络模型，网络的损失函数包含两个部分，具体的流程用公式(5)表示：

其中，λ_cls、λ_kernel是为了平衡损失的超参数，y表示目标的真实掩码，

表示预测出的分割结果。

进一步地，步骤S4采用梯度下降法更新网络参数，用公式(6)表示如下：

其中，V_i+1表示本次的权重更新值，而V_i表示上一次的权重更新值，而μ是上一次梯度值的权重，α是学习率，

是梯度。

本发明的有益效果是：

1、本发明的一种基于跨模态亲和力的小样本参考视频目标分割方法，考虑到实际场景中依赖大量标注数据的需要，只需要少量的数据训练，就可完成对未知类别数据的分割，此方法满足了现实中需要大量数据的要求。

2、本发明的一种基于跨模态亲和力的小样本参考视频目标分割方法，提出一个跨模态亲和力模块，用于计算从支持集到查询集中多模态信息亲和力。首先分别融合支持集和查询集内部的多模态特征，然后聚合支持集和查询集之间的信息，从而有效地避免了注意力被不相关的特征偏置。

3、本发明的一种基于跨模态亲和力的小样本参考视频目标分割方法，通过利用少量数据学习到一个新的类别的语义信息，因此可以面对现实世界复杂多样化的场景。不仅提升了分割效果，而且在资源利用上远远小于现有方法，在客观定量测量方面优于目前先进的方法，在视频编辑和人机交互等领域有着广泛的应用前景。

当然，实施本发明的任一产品并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于跨模态亲和力的小样本参考视频目标分割方法流程图；

图2是本发明中小样本参考视频目标分割任务的数据集的制作流程图；

图3是本发明构建的跨模态亲和力网络的示意图；

图4是本发明掩码生成模块的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的具体实施例如下：

结合图1，本实施例提供一种基于跨模态亲和力的小样本参考视频目标分割方法，具体包括以下步骤：

S1、利用现有的参考视频目标分割数据集，如Ref-YouTube-VOS数据集制作适合小样本参考视频目标分割任务的数据集，具体步骤如图2所示，即：

从现有数据集可以直接获取的数据包含3471个视频，12913个自然语言描述，带注释的实例涵盖超过60个类别。然而，这个数据集中的一些视频每个都包含多个类别实例，因此在准备数据时，删除这些视频并只保留那些只包含一个类别实例的视频，总共获得了2387个视频。数据集中的视频数据应该是类别平衡的，每个类别的样本数量不能相差太大，以避免对任何类的过度拟合。因此，对于某一类别来说，如果视频数目过少，直接选择丢弃。如果视频数目过多，随机挑选其中视频的一部分保留下来，剩余的视频丢弃。进行上述处理，可以得到一个适合小样本参考视频目标分割任务的数据集，其中包含1668个视频，48个类别。

S2、构建一个跨模态亲和力网络用于模型训练；

2-1、构建的跨模态亲和力网络，具体结构如图3所示，由以下几个部分组成，分别是多模态融合模块，将视觉特征和文本特征进行融合；自我亲和力模块，用于计算queryset中的自我亲和力特征；跨亲和力模块，用于计算query set和support set之间的跨亲和力特征；掩码生成模块，用于生成最终的分割结果。

2-2、多模态融合模块中，在进行特征融合之前，需要对视觉特征进行维度映射，统一将多尺度特征的通道数变为256，具体步骤如下：

(1)首先经过3层3×3卷积层，正则化层，将多尺度特征的前3层特征通道数映射为256.

(2)然后再将多尺度特征的最后一层特征经过一层1×1卷积层，正则化层，得到最终的统一通道数的特征。

在多模态融合模块中，有着视觉信息和文本信息。对于视觉和文本特征之间的交互，具体来说，使用multi-head cross-attention(MCA)将多模态信息进行融合，得到新的多尺度特征图。具体的流程可以用公式(1)表示：

f′_vs＝MCA(f_s,f_i)

f′_vq＝MCA(f_q ,f_j) (1)

其中，f_s、f_q表示的是support和query的视觉特征，f_i、f_j是其对应的语言特征。MCA中的head数目为8。

2-3、在自我亲和力模块中，包括3×3卷积层、矩阵计算模块、归一化层、残差连接。将query set中融合后的多模态特征经过3×3卷积层，得到3个不同的向量作为q、k、v送入矩阵计算模块用于计算自我亲和力。然后经过归一化操作以及残差连接。具体的流程可以用公式(2)表示：

q_s＝q+LN(Softmax(A^Q)v) (2)

2-4、在跨亲和力模块中，包括3×3卷积层、矩阵计算模块、归一化层、残差连接。将support set中融合后的多模态特征经过3×3卷积层，得到2个不同的向量作为k_s、v_s以及自我亲和力模块的输出作为q送入矩阵计算模块用于计算跨亲和力。然后经过归一化操作以及残差连接。具体的流程可以用公式(3)表示：

其中，d_head是隐层的维度数量，LN是归一化操作。

2-5、在掩码生成模块中，包含一个Transformer架构以及一个特征金字塔网络，具体结构如图4所示。Transformer架构中包含6层编码器-解码器结构。在解码器中，包含两个轻量级的辅助头，用于获得最终的目标掩码。在特征金字塔网络中，包含4层不同尺度的层次特征，使用cross-attention方式对视觉特征和语言特征进行交互，具体的流程可以用公式(4)表示：

其中，

是每一层次的视觉特征，f_tq表示query set对应的文本特征。最终将最后一层的特征经过一个3×3卷积层，得到最终的特征图。

S3、依据步骤S1获得的训练集和步骤S2构建的网络，进行网络训练；

3-1、利用pytorch深度学习平台对网络进行训练，对步骤S2中构建的跨模态亲和力网络，首先采用Xavier方式初始化超分辨率网络，偏置全部初始化为0。具体过程为：

1)在跨模态亲和力网络中采用Xavier方式初始化权重W后，W满足以下高斯分布：

其中，n表示该层网络输入单元数目，即卷积层输入特征图数量。

2)在整个网络中，偏置全部初始化为0，即bi＝0。

3-2、采用Adam优化算法优化网络模型，网络的损失函数包含两个部分，具体的流程可以用公式(5)表示：

表示预测出的分割结果。

S4、训练结束后，将视频帧序列和自然语言描述作为网络的输入，利用步骤S3学习到的参数去逐步定位及解码视频帧，最终得到分割结果。

本发明的一种基于跨模态亲和力的小样本参考视频目标分割方法，通过利用少量数据学习到一个新的类别的语义信息，因此可以面对现实世界复杂多样化的场景。不仅提升了分割效果，而且在资源利用上远远小于现有方法，在客观定量测量方面优于目前先进的方法，在视频编辑和人机交互等领域有着广泛的应用前景。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于，包括如下步骤：

S2、构建一个跨模态亲和力网络用于模型训练；

2.根据权利要求1所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于，步骤S1中制作适合小样本参考视频目标分割任务的数据集的过程为：对现有的参考视频目标分割数据集中的每个视频及其对应的自然语言描述，首先挑选出包含两个不同类别的分割目标的视频，将其丢弃；然后将剩余的视频按照分割目标类别进行数量排序，将数量小于10个以及大于50个的类别视频丢弃；对数据集中所有视频进行上述处理，能够得到一个适合小样本参考视频目标分割任务的数据集，数据集包含1668个视频，分为48个类别。

3.根据权利要求1或2所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：步骤S2中构建的跨模态亲和力网络，以support set和query set两个集合的数据作为输入，首先经过权重共享的特征提取网络分别提取视觉特征和文本特征，特征提取网络采用包括顺次连接的多个卷积层、多个池化层、多个残差单元模块、单个全连接层的残差网络以及基于Transformer的大规模预训练文本模型；然后使用多头跨模态注意力机制分别融合support set和query set中的视觉特征和文本特征，融合之后的多模态特征用于计算query set内部的自我亲和力，得到的自我亲和力特征与support set的多模态特征计算亲和力关系得到更鲁棒的特征；最后，为了定位最相关的目标以及逐步解码特征，将得到的跨模态亲和力特征送入掩码生成模块，得到最终的分割掩码。

4.根据权利要求3所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：步骤S2中构建的跨模态亲和力网络分为四个模块，分别是：

多模态融合模块，将视觉特征和文本特征进行融合；

自我亲和力模块，用于计算query set中的自我亲和力特征；

掩码生成模块，用于生成最终的分割结果。

5.根据权利要求4所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：多模态融合模块中，在进行特征融合之前，需要对视觉特征进行维度映射，统一将多尺度特征的通道数变为256，具体步骤如下：首先经过三层3×3卷积层，正则化层，将多尺度特征的前3层特征通道数映射为256；然后再将多尺度特征的最后一层特征经过一层1×1卷积层，正则化层，得到最终的统一通道数的特征；

多模态融合模块中包含视觉特征和文本特征，对于视觉特征和文本特征之间的交互，具体来说，使用multi-head cross-attention将多模态信息进行融合，得到新的多尺度特征图，具体的流程用公式(1)表A示：

f′_vs＝MCA(f_s,f_i)

f′_vq＝MCA(f_q ,f_j) (1)

6.根据权利要求5所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：在自我亲和力模块中，包括3×3卷积层、矩阵计算模块、归一化层、残差连接；query set中融合后的多模态特征经过3×3卷积层，得到三个不同的向量q、k、v，三个向量送入矩阵计算模块来计算自我亲和力，然后经过归一化操作以及残差连接，具体的流程用公式(2)表示：

q_s＝q+LN(Softmax(A^Q)v) (2)

7.根据权利要求6所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：在跨亲和力模块中，包括3×3卷积层、矩阵计算模块、归一化层、残差连接；support set中融合后的多模态特征经过3×3卷积层，得到两个不同的向量作为k_s、v_s，两个不同的向量、自我亲和力模块的输出q共同送入矩阵计算模块来计算跨亲和力，然后经过归一化操作以及残差连接，具体的流程用公式(3)表示：

其中，d_head是隐层的维度数量，LN是归一化操作。

8.根据权利要求7所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：在掩码生成模块中，包含一个Transformer架构以及一个特征金字塔网络；Transformer架构中包含六层编码器-解码器结构；在解码器中，包含两个轻量级的辅助头，用于获得最终的目标掩码；在特征金字塔网络中，包含四层不同尺度的层次特征，使用cross-attention方式对视觉特征和语言特征进行交互，具体的流程用公式(4)表示：

其中，

9.根据权利要求8所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：采用Adam优化算法优化网络模型，网络的损失函数包含两个部分，具体的流程用公式(5)表示：

表示预测出的分割结果。

10.根据权利要求9所述的一种基于跨模态亲和力的小样本参考视频目标分割方法，其特征在于：步骤S4采用梯度下降法更新网络参数，用公式(6)表示如下：

是梯度。/>