CN116612416A

CN116612416A - 一种指代视频目标分割方法、装置、设备及可读存储介质

Info

Publication number: CN116612416A
Application number: CN202310624309.7A
Authority: CN
Inventors: 张乐飞; 兰猛
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-18

Abstract

本申请涉及一种指代视频目标分割方法、装置、设备及可读存储介质，包括对目标视频序列和目标语言描述内容进行特征提取，得到图像特征、句子级文本特征和单词级文本特征；对上述特征进行特征提取和帧级空间信息提取，得到图像帧特征和帧级实例嵌入；对帧级实例嵌入进行时空维度合并且进行时空一致性建模和时空表征学习，生成目标实例特征，并对其和视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入；对视频级实例嵌入进行线性变换得到分类概率和条件卷积核，对条件卷积核和图像帧特征进行卷积运算得到多个掩码预测序列；基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果，有效提升了时空一致性和准确性。

Description

一种指代视频目标分割方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种指代视频目标分割方法、装置、设备及可读存储介质。

背景技术

指代视频目标分割(ReferringVideoObjectSegmentation，RVOS)旨在分割出一个视频序列中由一段文字语言所描述的目标对象，其为人机交互提供了一个更加自然和友好的方式，是研究跨模态视频分割大模型的基础性技术，也是实现“通用人工智能”的关键技术之一。指代视频目标分割有着广泛的应用场景，例如，文本驱动的视频编辑、视频目标检索、智慧安防以及机器人等领域，对推动社会的发展有着积极的作用。

近年来，基于多模态Transformer(其是一种神经网络，通过跟踪序列数据中的关系来学习上下文并因此学习含义)模型的指代视频目标分割方法凭借其优异的性能证明了将指代视频目标分割任务看作是基于查询的序列预测问题的优越性。然而当前在进行指代视频目标分割时，为了减少模型的计算消耗仅在Transformer模型中采用帧间独立的跨模态交互，而帧与帧之间缺乏信息的交互，使得生成的实例嵌入缺乏目标的时空表征信息，进而导致最终生成的目标掩码预测在时空一致性上存在缺陷，从而造成视频目标分割结果的时空一致性和准确性均较差。

发明内容

本申请提供一种指代视频目标分割方法、装置、设备及可读存储介质，以解决相关技术中仅通过采用帧间独立的跨模态交互来实现指代视频目标分割而导致的视频目标分割结果的时空一致性和准确性均较差的问题。

第一方面，提供了一种指代视频目标分割方法，包括以下步骤：

对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征；

对图像特征和单词级文本特征进行特征提取，得到图像帧特征，并对图像特征和句子级文本特征进行帧级空间信息提取，生成帧级实例嵌入；

对帧级实例嵌入进行时空维度合并，并对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征；

对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入；

对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，并对条件卷积核和图像帧特征进行卷积运算，生成多个掩码预测序列；

基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果。

一些实施例中，所述对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征，包括：

将位置编码添加至合并后的帧级实例嵌入，形成新的帧级实例嵌入；

基于实例编码器对新的帧级实例嵌入进行时空一致性建模和时空表征学习，生成目标实例特征，所述实例编码器中包括多头自注意力模块、相加模块、归一化模块以及前馈网络。

一些实施例中，所述对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入，包括：

通过随机初始化生成一视频级查询嵌入；

基于实例解码器对目标实例特征和视频级查询嵌入进行时空信息聚合处理，所述实例解码器包括多头互注意力模块、相加模块、归一化模块、多头自注意力模块以及前馈网络。

一些实施例中，所述对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，包括：

通过分类头部网络对视频级实例嵌入进行线性变换，得到分类概率，所述分类头部网络包括单层线性变换层；

通过掩码头部网络对视频级实例嵌入进行线性变换，得到条件卷积核，所述掩码头部网络包括多层线性变换层。

一些实施例中，所述基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果，包括：

针对每个掩码预测序列，根据每一帧对应的分类概率计算掩码预测序列的分类概率平均值；

从多个掩码预测序列中筛选出分类概率平均值最高的掩码预测序列作为目标掩码预测序列；

将目标掩码预测序列作为视频目标分割结果。

一些实施例中，在所述对图像特征和单词级文本特征进行特征提取的步骤之前，还包括：

通过Transformer编码器对图像特征进行特征提取后，生成新的图像特征，基于所述新的图像特征执行所述对图像特征和单词级文本特征进行特征提取的步骤，所述Transformer编码器包括多尺度可变形自注意力模块、相加模块、归一化模块以及前馈网络。

一些实施例中，所述对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征，包括：

通过视觉编码器对目标视频序列进行多尺度特征提取，得到图像特征；

通过文本编码器对目标语言描述内容进行文本特征提取，得到句子级文本特征和单词级文本特征。

第二方面，提供了一种指代视频目标分割装置，包括：

特征提取单元，其用于对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征；

帧级空间信息提取单元，其用于对图像特征和单词级文本特征进行特征提取，得到图像帧特征，并对图像特征和句子级文本特征进行帧级空间信息提取，生成帧级实例嵌入；

时空信息聚合单元，其用于对帧级实例嵌入进行时空维度合并，并对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征；对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入；

实例序列分割单元，其用于对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，并对条件卷积核和图像帧特征进行卷积运算，生成多个掩码预测序列；基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果。

第三方面，提供了一种指代视频目标分割设备，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现前述的指代视频目标分割方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现前述的指代视频目标分割方法。

本申请提供了一种指代视频目标分割方法、装置、设备及可读存储介质，包括对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征；对图像特征和单词级文本特征进行特征提取，得到图像帧特征，并对图像特征和句子级文本特征进行帧级空间信息提取，生成帧级实例嵌入；对帧级实例嵌入进行时空维度合并，并对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征；对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入；对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，并对条件卷积核和图像帧特征进行卷积运算，生成多个掩码预测序列；基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果。本申请按照先空间后时空的两级策略逐步进行目标的时空一致性建模和时空表征学习，以更加全面的解译视频序列中的目标信息，从而提升视频目标分割结果的时空一致性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种指代视频目标分割方法的流程示意图；

图2为本申请实施例提供的基于时空层级查询的指代视频目标分割方法的框架示意图；

图3为本申请实施例提供的第一阶段的Transformer编码器-解码器的结构示意图；

图4为本申请实施例提供的第二阶段的实例编码器-解码器的结构示意图；

图5为本申请实施例提供的一种指代视频目标分割设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种指代视频目标分割方法、装置、设备及可读存储介质，其能解决相关技术中仅通过采用帧间独立的跨模态交互来实现指代视频目标分割而导致的视频目标分割结果的时空一致性和准确性均较差的问题。

参见图1和图2所示，本申请实施例提供了一种指代视频目标分割方法，包括以下步骤：

步骤S10：对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征；

示范性的，在本实施例中，将给定一个包含T帧的视频序列，以形成目标视频序列，并给定一段包含L个单词的用于描述目标的语言描述，以形成目标语言描述内容(比如图2中的“aredfoxthatrunsand jumpsananotherfox”)。对目标视频序列进行特征提取，得到每一帧的多尺度骨干特征(即图像特征F_v)，多尺度骨干特征的空间步长可以为[8,16,32]；然后对输入的目标语言描述内容进行特征提取，可分别生成句子级文本特征和单词级文本特征。

进一步的，所述对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征，包括：

示范性的，在本实施例中，将通过特征提取单元进行图像特征和文本特征的提取。具体的，特征提取单元包括视觉编码器和文本编码器；其中，通过视觉编码器提取目标视频序列中图像帧的多尺度骨干特征，通过文本编码器提取目标语言描述内容的句子级文本特征和单词级文本特征。需要说明的是，视觉编码器可以是2D的空间编码器，例如ResNet和SwinTransformer，也可以是3D的时空编码器，例如VideoswinTransformer；而文本编码器则可优选文本编码模型RoBERTa。

进一步的，在对图像特征和单词级文本特征进行特征提取的步骤之前，还包括：

示范性的，本实施例中，将先通过Transformer编码器对图像特征进行第一阶段的编码处理，即将图像特征作为输入特征A，并在输入特征A加上位置编码后输入到由多层相同的特征编码层堆叠而成的Transformer编码器中进行帧间独立地特征变换，以生成新的图像特征。需要说明的是，Transformer编码器中特征编码层的具体层数可根据实际需求设定，在此不作限定，比如将特征编码层的层数设置为4层。

以下将对Transformer编码器的工作流程和原理进行简要说明。

将输入特征A加上固定的位置编码后，输入至多层特征编码层进行特征编码。参见图3所示，由于每一层的特征编码层的编码原理均相同，为了描述的简洁性，本实施例将以其中一层特征编码层为例进行阐释：输入特征A首先会形成两个相同的分支特征A1和A2；分支特征A1经过多尺度可变形自注意力模块(即图3中的MS-DSA)进行全局像素级相关性建模，得到输出特征B，以提升特征的表征能力；MS-DSA的输出特征B和分支特征A2经过相加模块的按位相加和归一化模块的层归一化操作后得到输出特征C，同样的，输出特征C将形成两个相同的分支特征C1和C2；输出特征C1经过前馈网络中的两层线性变换层后得到输出特征D，然后输出特征D和分支特征C2同样经过按位相加和层归一化操作后得到目标特征E；目标特征将作为下一个特征编码层的输入或者作为编码器的输出(即新的图像特征)进入到解码器中。

步骤S20：对图像特征和单词级文本特征进行特征提取，得到图像帧特征，并对图像特征和句子级文本特征进行帧级空间信息提取，生成帧级实例嵌入；

示范性的，以下实施例中将以目标特征E作为编码器的最终输出，即目标特征为通过Transformer编码器处理后所得到的新的图像特征，并基于该新的图像特征进行第一阶段的帧级空间信息提取。其中，目标特征E会形成两个相同的分支特征E1和E2，并分别进入特征金字塔网络和解码器进行处理。

应当理解的是，本实施例将通过跨模态的特征金字塔网络对分支特征E1和单词级文本特征进行特征提取，以得到图像帧特征，即在跨模态特征金字塔网络中，单词级文本特征分别和多级分支特征E1独立进行跨模态融合，生成文本增强的多尺度图像特征，多尺度图像帧特征从低分辨率特征逐步上采样和融合相同尺寸的图像特征，最终生成单尺度的高分辨率图像帧特征，以用于和后续的条件卷积核进行卷积操作。

具体的，在特征金字塔网络的每一级跨模态融合模块中，分支特征E1先通过降采样操作对特征的空间尺寸进行降维，从而减少后续多尺度自注意力模块的计算量；然后分支特征E1经过多头自注意力模块后通过上采样恢复为原始输入图像的空间尺寸，并经过相加和层归一化后生成特征G；特征G和单词级文本特征一起输入到多头互注意力模块中进行跨模态交互，生成文本增强的图像特征；并将文本增强的图像特征与输入的特征G相加和层归一化之后输入到前馈神经网络中进行特征变换，最后再经过一个相加操作和归一化操作输出跨模态融合后的文本增强的多尺度图像特征。

同时，将句子级文本特征作为语言查询嵌入和经过Transformer编码器编码后输出的分支特征E2在Transformer解码器中进行帧间独立的跨模态特征交互，即经过多层特征解码运算后生成只具有目标空间表征信息的的帧级实例嵌入。需要说明的是，参见图3所示，本实施例中的Transformer解码器由多层相同的特征解码层堆叠而成，每一层特征解码层均包括多头自注意力模块、多尺度可变形互注意力模块(即MS-DCA)、相加模块、归一化模块以及前馈网络等；Transformer解码器中特征解码层的具体层数可根据实际需求设定，在此不作限定，比如将特征解码层的层数设置为4层。

以下将结合图3对Transformer解码器的工作流程和原理进行简要说明。

由于每一层的特征解码层的解码原理均相同，为了描述的简洁性，本实施例将以其中一层特征解码层为例进行阐释：句子级文本特征作为语言查询嵌入L首先会形成两个相同的分支特征L1和L2，分支特征L1经过多头自注意力模块进行特征全局相关性学习，生成特征M；特征M和分支特征L2经过相加模块的按位相加和归一化模块的层归一化操作后得到输出特征N，输出特征N同样形成两个相同的分支特征N1和N2。

其中，分支特征N1和输出特征E2一起输入到MS-DCA模块中进行跨模态的特征交互和解码过程，得到输出特征O；输出特征O和分支特征N2经过按位相加和层归一化操作后得到输出特征P，输出特征P同样形成两个相同的分支特征P1和P2；分支特征P1经过前馈网络中的两层线性变换层后输出特征Q，输出特征Q和分支特征P2经过按位相加和层归一化操作后得到输出特征R；输出特征R将作为下一个特征解码层的输入或者作为解码器的输出(即帧级实例嵌入)。

步骤S30：对帧级实例嵌入进行时空维度合并，并对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征；

示范性的，在本实施例中，将把帧级实例嵌入输入到时空信息聚合单元中进行第二阶段的时空信息聚合，以较小的计算消耗建立目标的时空一致性和学习目标的时空表征。具体的，为了实现在时空维度对帧级实例嵌入进行时空一致性建模，因此在将帧级实例嵌入输入至时空信息聚合单元中的编码器之前，将会对第一阶段生成的帧级实例嵌入的时空维度进行合并，随后再将帧级实例嵌入输入到编码器中进行时空一致性建模和目标的时空表征学习，即将只具有目标空间表征信息的帧级实例嵌入在时空维度展开，进而输出目标实例特征。

进一步的，所述对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征，包括：

示范性的，在本实施例中，将通过实例编码器来实现对帧级实例嵌入的时空一致性建模和时空表征学习，进而生成目标实例特征。其中，参见图4所示，实例编码器由多层相同的实例编码层堆叠而成，每层实例编码层具体可包括多头自注意力模块、相加模块、归一化模块以及前馈网络等。需要说明的是，实例编码器中实例编码层的具体层数可根据实际需求设定，在此不作限定，比如将实例编码层的层数设置为3层。

以下将结合图4对实例编码器的工作流程和原理进行简要说明。

帧级实例嵌入在合并空间维度和时序维度之后，并加上固定的位置编码后，形成新的帧级实例嵌入，其会经过多层实例编码层的特征编码，以生成目标实例特征。由于每一层的实例编码层的编码原理均相同，为了描述的简洁性，本实施例将以其中一层实例编码层为例进行阐释：

新的帧级实例嵌入H首先会形成两个相同的分支特征H1和H2，分支特征H1经过多头自注意力模块进行目标时空一致性建模和时空表征学习，得到输出特征I，以提升特征的表征能力；输出特征I和分支特征H2经过相加模块的按位相加和归一化模块的层归一化操作后，得到输出特征J，输出特征J同样形成两个相同的分支特征J1和J2；其中，输出特征J1经过前馈网络中的两层线性变换层后输出特征K，输出特征K和分支特征J2经过按位相加和层归一化操作后得到输出特征U；输出特征U将作为下一个实例编码层的输入或者作为实例编码器的输出(即目标实例特征)进入到解码器中。

步骤S40：对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入；

示范性的，在本实施例中，将模型学习得到的一个视频级查询嵌入和目标实例特征(即展开后的目标实例嵌入)输入至解码器中进行多层的特征交互，即使视频级查询嵌入和目标实例特征在时空维度进行信息交互聚合，进而生成具有目标全局时空表征信息的视频级实例嵌入，从而实现对目标的时空一致性建模和时空表征学习。

进一步的，所述对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入，包括：

通过随机初始化生成一视频级查询嵌入；

示范性的，在本实施例中，将通过实例解码器来实现对目标实例特征和视频级查询嵌入的时空信息聚合处理，进而生成视频级实例嵌入。其中，参见图4所示，实例解码器由多层相同的实例解码层堆叠而成，每层实例解码层具体可包括多头互注意力模块、相加模块、归一化模块以及前馈网络等。需要说明的是，实例解码器中实例解码层的具体层数可根据实际需求设定，在此不作限定，比如将实例解码层的层数设置为3层。

以下将结合图4对实例解码器的工作流程和原理进行简要说明。

本实施例中将以输出特征U作为实例编码器的最终输出，即输出特征U为通过实例编码器处理后所得到的目标实例特征，且随机初始化生成一视频级查询嵌入V并加上固定的位置编码后，与输出特征U经过多层特征解码运算后生成视频级实例嵌入。由于每一层的实例解码层的解码原理均相同，为了描述的简洁性，本实施例将以其中一层实例解码层为例进行阐释：

加上位置编码后的视频级查询嵌入V会形成两个相同的分支特征V1和V2；分支特征V1首先和实例编码器的输出特征U一起输入到多头互注意力模块中进行特征交互和解码过程，得到输出特征W；输出特征W和分支特征V2经过相加模块的按位相加和归一化模块的层归一化操作后得到输出特征X，输出特征X同样会形成两个相同的分支特征X1和X2；分支特征X1经过多头自注意力模块进行特征全局相关性学习，生成特征Y；特征Y和分支特征X2经过按位相加和层归一化操作后得到输出特征Z，输出特征Z同样形成两个相同的分支特征Z1和Z2；

其中，输出特征Z1经过前馈网络中的两层线性变换层后得到输出特征S，特征S和分支特征Z2经过按位相加和层归一化操作后得到输出特征T，输出特征T将作为下一个实例解码层的输入或者作为实例解码器的输出(即视频级实例嵌入)。

步骤S50：对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，并对条件卷积核和图像帧特征进行卷积运算，生成多个掩码预测序列；

示范性的，在本实施例中，将对视频级实例嵌入分别进行分类和掩码的线性变换，以得到每一帧的分类概率和条件卷积核参数。可以理解的是，分类概率可以为二元分类概率，也可以根据实际需求对分类概率的类型进行设定，二元分类概率用于表明预测实例是否为文本语言所指代且在当前帧是可见的；条件卷积核将和在跨模态特征金字塔网络生成的图像帧特征进行卷积运算，进而生成与目标视频序列对应的多个掩码预测序列。

进一步的，所述对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，包括：

示范性的，在本实施例中，将通过分类头部网络和掩码头部网络分别对视频级实例嵌入进行分类和掩码的线性变换。具体的，将视频级实例嵌入输入至分类头部网络进行线性变换后，得到每一帧的二元分类概率；需要说明的是，分类头部网络优选包括单层线性变换层，其用于将输入维度为256的视频级实例嵌入变换为输出维度是1的分类概率。

同样的，将视频级实例嵌入输入至掩码头部网络进行线性变换后，得到每一帧的条件卷积核参数；需要说明的是，掩码头部网络优选包括三层线性变换层，前两层将输入维度为256的视频级实例嵌入变换为输出维度是256的特征嵌入，最后一层将输入维度为256的视频级实例嵌入变换为输出维度是2153的特征嵌入。

步骤S60：基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果。

示范性的，在本实施例中，对于每一个掩码预测序列结果，将根据其对应的分类概率大小来确定出最优的目标掩码预测序列，并将目标掩码预测序列作为最终的与目标语言描述内容对应的视频目标分割结果。

进一步的，所述基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果，包括：

将目标掩码预测序列作为视频目标分割结果。

示范性的，在本实施例中，针对每个掩码预测序列，计算其所有帧的分类概率值的平均值，比如对于掩码预测序列1来说，根据掩码预测序列1中每一帧的分类概率值计算掩码预测序列1中所有帧的平均值，以得到掩码预测序列1的分类概率平均值；然后从多个掩码预测序列中选择出分类概率平均值最高的目标掩码预测序列作为最终的视频目标分割结果，进而完成对视频序列中由文本指代的目标的分割任务。

由此可见，本申请提出用于指代视频目标分割任务的两级查询机制，以更加高效的形式构建了先空间后时空的目标时空一致性建模和时空表征学习的算法架构，进而可按照先空间后时空的两级策略逐步进行目标的时空一致性建模和时空表征学习，以更加全面的解译视频序列中的目标信息，从而提升视频目标分割结果的时空一致性和准确性，解决了当前基于查询和多模态Transformer架构的指代视频目标分割方法缺乏目标时空一致性建模和时空表征学习不足的难点问题。

同时，采用分级机制(即进行帧间特征提取和时空特征提取)和降维思想(即将高维度图像特征转化为低维度实例嵌入)选择和特征维度更小的实例嵌入在时空维度进行信息交互，从而显著缓解了模型的计算负担。

可以理解的是，本实施例所提供的基于时空层级查询的指代视频目标分割方法是基于指代视频目标分割网络模型实现的。以下将结合图2对指代视频目标分割模型的组成和构建过程进行简要说明。需要说明的是，图2中的圆形、三角形以及五角星等不同的形状表征的是各种不同维度和类型的嵌入。

首先，构建基于时空层级查询的指代视频目标分割网络模型，其主要包含四个单元：特征提取单元、帧级空间信息提取单元、时空信息聚合单元和实例序列分割单元。

其中，特征提取单元用于通过视觉编码器提取图像帧的多尺度骨干特征，使用文本编码器提取文本描述的句子级文本特征和单词级文本特征。

帧级空间信息提取单元主要包含三个部分，分别是Transformer编码器、Transformer解码器和特征金字塔网络，编码器和解码器分别由四层相同的编码层和解码层堆叠而成；在编码器部分，图像帧的多尺度骨干特征在加上位置编码后被输入到Transformer编码器中进行帧间独立地特征变换，输出的多尺度图像特征将和句子级文本特征一起作为解码器的输入；在解码器部分，句子级文本特征作为语言查询嵌入(该语言查询嵌入包括N_l个C维的张量)和多尺度图像特征进行多次跨模态交互，最终得到帧级实例嵌入，随后帧级实例嵌入便输入到时空信息聚合单元中，以较小的计算消耗建模目标的时空一致性和学习目标的时空表征；特征金字塔网络用于对Transformer编码器输出的多尺度图像特征和单词级文本特征进行跨模态特征提取，生成图像帧特征；

时空信息聚合单元主要包含两个部分：实例编码器和实例解码器；实例编码器和实例解码器分别由三个相同的编码层和解码层堆叠而成。为了实现在时空维度对帧级目标实例嵌入进行时空一致性建模，在输入实例编码器之前，时空信息聚合单元将帧级实例嵌入的时空维度进行合并，随后帧级实例嵌入输入到实例编码器中进行时空一致性建模和目标的时空表征学习，并输出目标实例特征；在实例解码器中，时空信息聚合单元随机初始化一个视频级查询嵌入，并和目标实例特征在解码器中进行多层的特征交互，最后输出视频级实例嵌入。

实例序列分割单元用于使视频级实例嵌入经过分类头部网络和掩码头部网络的变换，分别得到每一帧的二元分类概率和条件卷积核参数，然后将条件卷积核和由跨模态特征金字塔网络生成的图像帧特征进行卷积运算，以生成视频序列的多个候选的掩码预测序列。

由此可见，本实施例将指代视频目标分割看作基于查询的序列预测问题，并提出两级查询机制来进行目标的时空一致性建模和时空特征学习。具体的，在第一阶段，本实施例通过帧级空间信息提取单元使用语言特征作为查询嵌入独立地和视频序列中的每一帧在空间维度进行信息交互，生成包含目标空间信息的实例嵌入；在第二阶段，本实施例通过时空信息聚合单元使用视频级的可学习查询嵌入和第一阶段生成的实例嵌入在时空维度进行信息交互，生成具有时空表征信息的视频级实例嵌入；最后，视频级实例嵌入线性变换为条件卷积参数，并和视频序列中的每一帧进行卷积操作，生成目标的掩码预测序列。

在完成模型构建后，将进行模型的训练。具体的，从网络上下载Ref-COCO数据集以及Ref-YouTube-VOS数据集，Ref-COCO数据集为图像指代分割数据集，其包含图像-文本描述样本对，Ref-YouTube-VOS数据集为指代视频目标分割数据集，其包含由视频序列及对应的语言描述文件训练样本；从以上数据集中抽取训练样本对模型进行训练。其中，每个输入模型的视频片段中包含T＝5张从同一个视频序列中随机采样的图像帧，同时对以上图像帧进行包括随机水平翻转、随机裁剪和光度失真等数据增强策略，且所有的输入图像在被输入到模型前都会被随机调整尺寸大小，图像尺寸的大小区间优选为[288，640]。

在利用数据集训练模型时，可使用AdamW优化器计算梯度和更新网络参数，并通过最小化匹配损失来实现模型的监督训练；其中，最小化匹配损失函数为：

L_match(y,y_p)＝λ_clsL_cls(y,y_p)+λ_maskL_mask(y,y_p)

式中，y表示数据集自带的目标的序列分割掩码标注信息(即真值)，y_p表示预测的目标分割序列，L_match表示模型总的损失函数，λ_cls表示分类损失函数的权重参数，L_cls表示分类损失，其可优选采用焦点损失函数，λ_mask表示分割损失函数的权重参数，L_mask表示分割损失，分割损失为DICE损失函数和焦点损失函数的和。

本实施例中的模型训练可分为两个阶段：(1)预训练阶段，模型首先在指代图像分割数据集上进行预训练，使用到的数据集可为RefCOCO数据集，即模型在RefCOCO数据集上可训练10个epoch，其中可将第6个和第8个epoch的学习率分别乘以系数0.1；(2)微调阶段，预训练后的模型在RefYouTubeVOS训练集上微调6个epoch，其中可将第3个和第5个epoch的学习率分别乘以系数0.1。训练过程中，视觉编码器的初始学习率可优选设置为5×10^-5，文本编码器的初始学习率可优选设置为1×10^-5，而模型其它部分的初始学习率可优选设置为1×10^-4。此外，模型训练时，还可采用辅助损失函数用于监督时空层级查询的第一阶段生成的实例嵌入。

由于本实施例所提供的模型为视频序列生成了多个候选掩码预测序列，而整个视频序列中只有一个是文本指代的目标对象序列，因此可采用二分匹配法通过最小化匹配损失从多个候选掩码预测序列中找到最佳的预测结果，并计算最终的损失，再利用优化器对模型进行梯度反向传播和参数更新，从而实现模型的优化训练。最后，在测试阶段，对于每一个掩码预测序列结果，可通过计算其中所有帧的分类概率值的平均值，然后选择出分类概率平均值最高的目标掩码预测序列作为最终的视频目标分割结果。

需要说明的是，本申请实施例中的各步骤的步骤标号，其并不限制本申请技术方案中各操作的前后顺序。

需要说明的是，所属本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述指代视频目标分割方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的指代视频目标分割设备上运行。

本申请实施例还提供了一种指代视频目标分割设备，包括：通过系统总线连接的存储器、处理器和网络接口，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行，以实现前述的指代视频目标分割方法的全部步骤或部分步骤。

其中，网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

处理器可以是CPU，还可以是其他通用处理器、DSP(DigitalSignal Processor，数字信号处理器)、ASIC(ApplicationSpecificIntegrated Circuit，专用集成电路)、FPGA(FieldProgrammableGateArray，现场可编程逻辑门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器，或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外，存储器可以包括高速随存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、SMC(SmartMediaCard，智能存储卡)、SD(Securedigital，安全数字)卡、闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，实现前述的指代视频目标分割方法的全部步骤或部分步骤。

本申请实施例实现前述的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、ROM(Read-Only memory，只读存储器)、RAM(RandomAccessmemory，随机存取存储器)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种指代视频目标分割方法，其特征在于，包括以下步骤：

2.如权利要求1所述的指代视频目标分割方法，其特征在于，所述对合并后的帧级实例嵌入进行时空一致性建模和时空表征学习，以生成目标实例特征，包括：

3.如权利要求1所述的指代视频目标分割方法，其特征在于，所述对目标实例特征和预设的视频级查询嵌入进行时空信息聚合处理，生成视频级实例嵌入，包括：

通过随机初始化生成一视频级查询嵌入；

4.如权利要求1所述的指代视频目标分割方法，其特征在于，所述对视频级实例嵌入进行线性变换，得到分类概率和条件卷积核，包括：

5.如权利要求1所述的指代视频目标分割方法，其特征在于，所述基于分类概率从多个掩码预测序列中筛选出目标掩码预测序列作为视频目标分割结果，包括：

将目标掩码预测序列作为视频目标分割结果。

6.如权利要求1所述的指代视频目标分割方法，其特征在于，在所述对图像特征和单词级文本特征进行特征提取的步骤之前，还包括：

7.如权利要求1所述的指代视频目标分割方法，其特征在于，所述对目标视频序列和目标语言描述内容分别进行特征提取，得到图像特征、句子级文本特征和单词级文本特征，包括：

8.一种指代视频目标分割装置，其特征在于，包括：

9.一种指代视频目标分割设备，其特征在于，包括：存储器和处理器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现权利要求1至7中任一项所述的指代视频目标分割方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，以实现权利要求1至7中任一项所述的指代视频目标分割方法。