CN114494297B

CN114494297B - 处理多种先验知识的自适应视频目标分割方法

Info

Publication number: CN114494297B
Application number: CN202210105882.2A
Authority: CN
Inventors: 李平; 张宇; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-12-06
Anticipated expiration: 2042-01-28
Also published as: CN114494297A

Abstract

本发明公开了处理多种先验知识的自适应视频目标分割方法。本发明方法首先对含目标掩膜及描述语句的视频进行采样，并利用时空编码器获得时空视觉特征图；然后构建目标先验自适应编码器，将不同形式的先验知识统一编码为目标卷积核；再通过级联目标过滤器使用目标卷积核将时空视觉特征图中的目标与背景相分离，得到目标的概率张量；最后利用Adam算法优化分割网络模型，对包含先验知识的新视频依次通过上述步骤获得目标的预测掩膜。本发明方法提供了端到端的训练模型，既能自适应处理给定的目标掩膜或描述语句等先验知识，还能有效刻画目标先验知识与视频帧外观特征之间的时空关系，有利于更为准确高效地分割视频的重要目标。

Description

处理多种先验知识的自适应视频目标分割方法

技术领域

本发明属于计算机视觉技术领域，尤其是视觉目标分割领域，涉及一种处理多种先验知识的自适应视频目标分割方法。

背景技术

在互联网时代，视频作为信息交换的重要媒介，相比图像数据，为人们生活方式和工作方式的革新带来更大的推动作用。而视频中的前景目标往往是大家最为关注的对象，视频目标分割是指提取视频帧中的感兴趣物体，如前景目标，该类技术近年来得到了快速发展，并广泛应用于视频编辑、影视特效、视频会议等实际领域。

具体地，视频目标分割通过对视频帧的时空关系建模，从而提取视频内的感兴趣物体对应的像素级别标记矩阵，即目标掩膜。该矩阵的元素值表示视频帧的像素类别，其中前景目标像素标为1，其他则为0。在一个视频中往往存在多个物体，一般需要指定其中单个或多个物体作为目标，并提供其先验知识，如目标掩膜。常见的目标先验知识表现形式有两种：视频首帧的真实掩膜和描述目标的语句。相应地，视频目标分割可分为两种：1)半监督视频目标分割：给定视频首帧真实掩膜，获取像素级别的目标类别；2)基于描述语句的视频目标分割：给定目标描述语句，通过语言描述指定目标。在现实应用中，经常遇到多种先验知识交叉的场景，对有些视频给定首帧真实掩膜，而对另一些视频给定目标描述语句，这就需要视频目标分割模型自适应地有效处理多种先验知识。

现有方法需要设计多个不同的算法模型才能够处理不同的目标先验知识。例如，针对半监督视频目标分割，一般利用卷积神经网络提取视频帧的特征表示，采用匹配或在线学习的方式实现分割。其中，基于匹配的方式一般通过计算成对视频帧特征表示的逐像素相似度，并据此从给定真实掩膜中获取逐像素的类别估计，从而判断视频帧的每个像素是否属于目标。而基于在线学习的方法基于给定真实掩膜构建训练样本，利用全卷积神经网络在线学习新输入样本的目标特征表示，有利于判断后续视频帧的目标与背景。此外，针对基于描述语句的视频目标分割同样利用卷积神经网络进行特征提取，并利用预训练语言模型获得描述语句的特征向量，然后设计不同的特征融合模块处理视觉特征与语言特征，输出预测的目标掩膜。

上述方法的不足点主要表现在两方面：1)单一方法无法同时利用不同类型的目标先验知识用于指定视频内的目标对象，在实际应用中无法自适应地接受目标掩膜或描述语句等目标指定信息并完成分割；2)为了在统一框架下实现半监督视频目标分割与基于描述语句的视频目标分割，需要集成多个方法，造成集成模型的复杂度过高且无法进行端到端训练。为了解决上述问题，迫切需要设计能够统一处理多种不同的目标先验知识且能端到端训练的视频目标分割方法。

发明内容

本发明的目的就是针对现有技术的不足，提出了一种处理多种先验知识的自适应视频目标分割方法，利用自适应编码器处理多种不同形式的目标先验知识，并通过刻画视觉帧外观特征与目标先验之间的内在关系将目标准确地从视频帧背景中分离出来，从而满足现实应用中不同目标指定方式下的分割需求。

本发明方法获取含有目标掩膜及描述语句的视频数据集合后，依次进行如下操作：

步骤(1)对视频进行帧采样后获得视频帧序列，将其输入由残差卷积网络与自注意力模块构成的时空编码器，获得时空视觉特征图集合；

步骤(2)构建目标先验自适应编码器，其输入为视频首帧掩膜与描述语句、时空视觉特征图集合，并输出目标卷积核矩阵；

步骤(3)构建级联目标过滤器，将目标卷积核与时空视觉特征图集合作为输入，获得目标概率张量；

步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络，使用交叉熵损失函数进行模型优化，获得已训练的目标分割网络；

步骤(5)对新视频进行帧采样后，将视频目标先验知识及帧序列输入已训练的分割网络中，输出新视频对应的预测目标掩膜。

进一步，步骤(1)具体是：

(1-1)对输入视频进行均匀采样，获得视频帧序列

t表示视频帧的时刻下标，T为视频帧数目，H为视频帧的高度，W为视频帧的宽度；给定所有视频帧的真实目标掩膜{P_t∈{0,1}^H×W|t＝1,2,...,T}，其中P_t是维度为H×W的二值矩阵，元素值为1表示对应位置的视频帧像素属于目标，元素值为0表示背景；

(1-2)构建由残差卷积网络与自注意力模块构成的时空编码器，其中残差卷积网络已去除最后的全局池化层与全连接层；

(1-3)将N个连续视频帧{I_t,I_t+1,...,I_t+N-1}依次输入时空编码器中的残差卷积网络，获得视觉特征图集合

c表示视觉特征图的通道数，且c₁＜c₂＜c₃，h和w表示集合中视觉特征图的高度和宽度，且依次为视频帧高度H与宽度W的1/4、1/8与1/16，而视觉特征图F的下标也用于表示高度与宽度的缩放比例；

(1-4)将视觉特征图F_1/16输入自注意力模块，获得时空视觉特征图

具体是：Q＝LN(F_1/16)W_q，K＝LN(F_1/16)W_k，V＝LN(F_1/16)W_v，

其中，LN(·)表示层归一化操作，MLP(·)表示两个级联的线性层，softmax(·)表示归一化指数函数，W_q、W_k与W_v均为可学习参数，其维度均为C×c₃，C＝256，特征矩阵Q、K和V的维度均为(Nh₃w₃)×C，中间特征矩阵

的维度为(Nh₃w₃)×C,Nh₃w₃＝N×h₃×w₃；

(1-5)时空编码器最后输出由视觉特征图集合与时空视觉特征图组成的时空视觉特征图集合

又进一步，步骤(2)具体是：

(2-1)构建目标先验自适应编码器，具体构成包括：由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器；将视频第一帧的掩膜P₁∈{0,1}^H×W输入由多个卷积层组成的掩膜编码器，获得掩膜特征图

具体是：

其中，Conv2D(·)表示卷积核为3×3的2D卷积层，BN(·)表示批归一化操作，ReLU(·)表示线性整流函数，MaxPool(·)表示全局池化操作，Repeat(·)表示复制操作，此处将维度为h₃×w₃×C的张量复制N次，

表示初始掩膜特征图，

表示中间掩膜特征图；

(2-2)将视频对应的描述语句，即由多个单词组成的集合{word₁,word₂，…,word_e}输入预训练语言模型BERT，获得语言特征向量

其中word_e表示描述语句中的第e个单词，C₀＝768为特征向量的长度。

(2-3)将语言特征向量

输入由两个线性层组成的语言嵌入层，并通过复制操作获得语言特征图

具体是：

其中，Linear(·)表示线性层，tanh(·)表示双曲正切函数，Repeat(·)表示复制操作，此处将维度为C的向量复制N×h₃×w₃次，L′为初始语言特征向量，L″为中间语言特征向量；

(2-4)将掩膜特征图M₃和语言特征图

输入目标先验层，按照

获得目标先验特征图

参数0≤α≤0.5；

(2-5)将目标先验特征图

输入第一个目标卷积核生成器，获得初级目标卷积核矩阵

具体是：

Q′＝LN(U₁)W′_q，K′＝LN(O)W′_k，V′＝LN(O)W′_v，

其中，初级目标先验查询矩阵

为全零初始化的可学习参数，b＝50，W′_q、W′_k和W′_v均为可学习参数，其维度均为C×C；

(2-6)将初级目标先验查询矩阵

与初级目标卷积核

进行逐元素累加，作为中级目标先验查询矩阵

中级目标先验查询矩阵

与目标先验特征图

一起输入第二个相同结构的目标卷积核生成器，获得中级目标卷积核矩阵

(2-7)将中级目标先验查询矩阵

与初级目标卷积核

进行逐元素累加，作为高级目标先验查询矩阵

高级目标先验查询矩阵

与目标先验特征图

一起输入第三个相同结构的目标卷积核生成器，获得高级目标卷积核矩阵

再进一步，步骤(3)具体是：

(3-1)构建级联目标过滤器，级联目标过滤器由三个具有相同结构的目标过滤器，以及掩膜预测层组成，目标过滤器由卷积层、双线性上采样组成；

(3-2)将时空视觉特征图集合中

和

以及初级目标卷积核矩阵

输入第一个目标过滤器，获得初级目标过滤特征图

具体是：

其中，θ₁(·)与

均表示卷积核大小为3×3的卷积层，并且卷积层的输出通道数均为C，*表示将右侧输入作为卷积核与左侧输入进行1×1卷积操作；

(3-3)将初级目标过滤特征图

通过双线性上采样放大特征图分辨率至h₂×w₂，即

与时空视觉特征图集合中

以及中级目标卷积核矩阵

输入第二个目标过滤器，获得中级目标过滤特征图

具体是：

其中，θ₂(·)与

均表示卷积核大小为3×3的卷积层；

(3-4)将中级目标过滤特征图

通过双线性上采样放大特征图分辨率至h₁×w₁，即

与时空视觉特征图集合中

以及高级目标卷积核矩阵

输入第三个目标过滤器，获得高级目标过滤特征图

具体是：

其中，θ₃(·)与

均表示卷积核大小为3×3的卷积层；

(3-5)将高级目标过滤特征图

输入掩膜预测层，获得目标概率张量

其中，ρ(·)表示卷积核大小为3×3的卷积层，其输出通道为1，Up(·)表示通过双线性上采样将分辨率从h₁×w₁放大至视频帧的分辨率H×W，σ(·)表示Sigmoid函数。

更进一步，步骤(4)具体是：

(4-1)将目标概率张量

和真实目标掩膜{P_t∈{0,1}^H×W|t＝1,2,...,T}作为输入，利用交叉熵损失函数计算损失值

其中，

表示输入第n个视频帧第i个像素属于目标的概率值，p_n,i表示对应第n个视频帧对应的真实目标掩膜第i个像素类别值，为0或1；

(4-2)通过Adam优化器对时空编码器、目标先验自适应编码器和级联目标过滤器构成的分割网络参数进行优化，其中预训练语言模型BERT不参与优化，优化过程中以0.1为间隔循环调整参数α，0≤α≤0.5，获得训练好的目标分割网络。

还进一步，步骤(5)的具体是：

(5-1)对输入的新视频进行均匀采样，得到视频帧集合

T表示视频的总帧数，

表示在t时刻的视频帧；

(5-2)将视频帧

按照步骤(1)方法获得时空视觉特征图集合；

(5-3)根据给定目标先验知识类型调整分割网络结构：目标先验知识为视频首帧掩膜，则将其按照步骤(2-1)，步骤(2-4)～(2-7)以及步骤(3)进行操作，并设置参数α＝0.5；目标先验知识为描述语句，则将其按照步骤(2-2)～(2-7)以及步骤(3)进行操作，并设置参数α＝0；获得各帧的目标概率张量后，将概率大于0.5的元素值设置为1，否则为0，输出预测目标掩膜

本发明提出了一种处理多种先验知识的自适应视频目标分割方法，该方法具有以下几个特点：1)通过目标先验自适应编码器实现对不同目标先验知识的比例控制，能够处理多种目标先验知识如视频首帧掩膜或描述语句；2)通过级联目标过滤器对视频帧外观特征进行卷积操作，并且卷积核参数来自目标先验知识编码的统一目标卷积核，能够逐步将目标从背景中过滤出来；3)通过设计端到端训练的分割网络，并通过其中目标先验自适应编码器与级联目标过滤器自适应处理不同目标先验知识，实现像素级别的目标提取。

本发明适用于存在多种目标先验知识的视频目标分割场景，有益效果包括：1)利用自适应编码器能够根据不同的目标先验知识类型，自适应调整网络结构实现统一的目标编码；2)利用级联目标过滤器刻画目标先验知识与视频帧外观特征之间的时空关系，从而将目标从视频帧的背景中提取出来；3)在统一的框架下设计能够端到端训练的分割网络，能够自适应处理多种目标先验知识并完成视频目标分割。该方法在视频编辑、影视特效、视频会议等领域具有广阔的应用前景。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，一种处理多种先验知识的自适应视频目标分割方法：首先对视频进行帧采样获得视频帧序列，并使用时空编码器在时空域内捕捉上下文信息，获得时空视觉特征图集合；再将目标先验如视频首帧掩膜或描述语句输入目标先验自适应编码器，将目标先验知识统一编码为目标卷积核，其中通过调整目标先验知识的比例可实现任何单一目标先验的编码；接着通过级联目标过滤器，使用目标卷积核将时空视觉特征图中的目标与背景相分离，获得预测目标掩膜。本发明提出的方法既能自适应实现对给定视频首帧目标掩膜或描述语句的视频目标分割任务，又采用端到端的神经网络结构，从而满足实际应用中不同目标指定方式与端到端模型的需求。

处理多种先验知识的自适应视频目标分割方法，获取含有目标掩膜与描述语句的视频数据集合后，进行如下操作：

步骤(1)对视频进行帧采样后获得视频帧序列，将其输入由残差卷积网络与自注意力模块构成的时空编码器，获得时空视觉特征图集合。具体是：

(1-1)对输入视频以30帧为间隔进行均匀采样，获得视频帧序列

1＜N≤5，c表示视觉特征图的通道数，且c₁＜c₂＜c₃，h和w表示集合中视觉特征图的高度和宽度，且依次为视频帧高度H与宽度W的1/4、1/8与1/16，而视觉特征图F的下标也用于表示高度与宽度的缩放比例；

具体是：Q＝LN(F_1/16)W_q，K＝LN(F_1/16)W_k，V＝LN(F_1/16)W_v，

的维度为(Nh₃w₃)×C,Nh₃w₃＝N×h₃×w₃；

步骤(2)构建目标先验自适应编码器，其输入为视频首帧掩膜与描述语句、时空视觉特征图集合，并输出目标卷积核矩阵。具体是：

(2-1)构建目标先验自适应编码器，具体构成包括：由多个卷积层组成的掩膜编码器、由注意力模块与线性层组成的预训练语言模型BERT(Bidirectional EncoderRepresentation from Transformer)、语言嵌入层、目标先验控制层与三个基于注意力机制的目标卷积核生成器；将视频第一帧的掩膜P₁∈{0,1}^H×W输入由多个卷积层组成的掩膜编码器，获得掩膜特征图

具体是：

表示初始掩膜特征图，

表示中间掩膜特征图；

(2-3)将语言特征向量

具体是：

(2-4)将掩膜特征图M₃和语言特征图

输入目标先验层，按照

获得目标先验特征图

参数0≤α≤0.5；

(2-5)将目标先验特征图

输入第一个目标卷积核生成器，获得初级目标卷积核矩阵

具体是：

Q′＝LN(U₁)W′_q，K′＝LN(O)W′_k，V′＝LN(O)W′_v，

其中，初级目标先验查询矩阵

(2-6)将初级目标先验查询矩阵

与初级目标卷积核

进行逐元素累加，作为中级目标先验查询矩阵

中级目标先验查询矩阵

与目标先验特征图

(2-7)将中级目标先验查询矩阵

与初级目标卷积核

进行逐元素累加，作为高级目标先验查询矩阵

高级目标先验查询矩阵

与目标先验特征图

步骤(3)构建级联目标过滤器，将目标卷积核与时空视觉特征图集合作为输入，获得目标概率张量。具体是：

(3-2)将时空视觉特征图集合中

和

以及初级目标卷积核矩阵

输入第一个目标过滤器，获得初级目标过滤特征图

具体是：

其中，θ₁(·)与

(3-3)将初级目标过滤特征图

通过双线性上采样放大特征图分辨率至h₂×w₂，即

与时空视觉特征图集合中

以及中级目标卷积核矩阵

输入第二个目标过滤器，获得中级目标过滤特征图

具体是：

其中，θ₂(·)与

均表示卷积核大小为3×3的卷积层；

(3-4)将中级目标过滤特征图

通过双线性上采样放大特征图分辨率至h₁×w₁，即

与时空视觉特征图集合中

以及高级目标卷积核矩阵

输入第三个目标过滤器，获得高级目标过滤特征图

具体是：

其中，θ₃(·)与

均表示卷积核大小为3×3的卷积层；

(3-5)将高级目标过滤特征图

输入掩膜预测层，获得目标概率张量

步骤(4)将时空编码器、目标先验自适应编码器以及级联目标过滤器合并组成分割网络，使用交叉熵损失函数进行模型优化，获得已训练的目标分割网络。具体是：

(4-1)将目标概率张量

其中，

步骤(5)对新视频进行帧采样后，将视频目标先验知识及帧序列输入已训练的分割网络中，输出新视频对应的预测目标掩膜。具体是：

(5-1)对输入的新视频以30帧为间隔进行均匀采样，得到视频帧集合

T表示视频的总帧数，

表示在t时刻的视频帧；

(5-2)将视频帧

按照步骤(1)方法获得时空视觉特征图集合；

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.处理多种先验知识的自适应视频目标分割方法，其特征在于，该方法获取含有目标掩膜及描述语句的视频数据集合后，依次进行如下操作：

步骤(1)对视频进行帧采样后获得视频帧序列，将其输入由残差卷积网络与自注意力模块构成的时空编码器，获得时空视觉特征图集合；具体是：

(1-1)对输入视频进行均匀采样，获得视频帧序列

具体是：

Q＝LN(F_1/16)W_q，K＝LN(F_1/16)W_k，V＝LN(F_1/16)W_v，

其中，LN(·)表示层归一化操作，MLP(·)表示两个级联的线性层，softmax(·)表示归一化指数函数，W_q、W_k与W_v均为可学习参数，其维度均为C×c₃，C＝256，特征矩阵Q、K和V的维度均为Nh₃w₃×C，中间特征矩阵

的维度为Nh₃w₃×C,Nh₃w₃＝N×h₃×w₃；

步骤(2)构建目标先验自适应编码器，其输入为视频首帧掩膜与描述语句、时空视觉特征图集合，并输出目标卷积核矩阵；具体是：

具体是：

表示初始掩膜特征图，

表示中间掩膜特征图；

其中word_e表示描述语句中的第e个单词，C₀＝768为特征向量的长度；

(2-3)将语言特征向量

具体是：

(2-4)将掩膜特征图M₃和语言特征图

输入目标先验控制层，按照

获得目标先验特征图

参数0≤α≤0.5；

(2-5)将目标先验特征图

输入第一个目标卷积核生成器，获得初级目标卷积核矩阵

具体是：

Q′＝LN(U₁)W′_q，K′＝LN(O)W′_k，V′＝LN(O)W′_v，

其中，初级目标先验查询矩阵

(2-6)将初级目标先验查询矩阵

与初级目标卷积核

进行逐元素累加，作为中级目标先验查询矩阵

中级目标先验查询矩阵

与目标先验特征图

(2-7)将中级目标先验查询矩阵

与初级目标卷积核

进行逐元素累加，作为高级目标先验查询矩阵

高级目标先验查询矩阵

与目标先验特征图

步骤(3)构建级联目标过滤器，将目标卷积核矩阵与时空视觉特征图集合作为输入，获得目标概率张量；

2.如权利要求1所述的处理多种先验知识的自适应视频目标分割方法，其特征在于，步骤(3)具体是：

(3-2)将时空视觉特征图集合中

和

以及初级目标卷积核矩阵

输入第一个目标过滤器，获得初级目标过滤特征图

具体是：

其中，θ₁(·)与

(3-3)将初级目标过滤特征图

通过双线性上采样放大特征图分辨率至h₂×w₂，即

与时空视觉特征图集合中

以及中级目标卷积核矩阵

输入第二个目标过滤器，获得中级目标过滤特征图

具体是：

其中，θ₂(·)与

均表示卷积核大小为3×3的卷积层；

(3-4)将中级目标过滤特征图

通过双线性上采样放大特征图分辨率至h₁×w₁，即

与时空视觉特征图集合中

以及高级目标卷积核矩阵

输入第三个目标过滤器，获得高级目标过滤特征图

具体是：

其中，θ₃(·)与

均表示卷积核大小为3×3的卷积层；

(3-5)将高级目标过滤特征图

输入掩膜预测层，获得目标概率张量

3.如权利要求2所述的处理多种先验知识的自适应视频目标分割方法，其特征在于，步骤(4)具体是：

(4-1)将目标概率张量

其中，

4.如权利要求3所述的处理多种先验知识的自适应视频目标分割方法，其特征在于，步骤(5)的具体是：

(5-1)对输入的新视频进行均匀采样，得到视频帧集合

T表示视频的总帧数，

表示在t时刻的视频帧；

(5-2)将视频帧

按照步骤(1)方法获得时空视觉特征图集合；