CN113284155A

CN113284155A - 视频目标分割方法、装置、存储介质及电子设备

Info

Publication number: CN113284155A
Application number: CN202110637697.3A
Authority: CN
Inventors: 陶大程; 兰猛
Original assignee: Jingdong Shuke Haiyi Information Technology Co Ltd
Current assignee: Jingdong Shuke Haiyi Information Technology Co Ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-08-20
Anticipated expiration: 2041-06-08
Also published as: WO2022257602A1; CN113284155B

Abstract

本发明提供一种视频目标分割方法、装置、存储介质及电子设备，用以避免引入错误的预测信息，动态地生成鲁棒的时序上下文特征，从而提高视频目标分割的精度。该视频目标分割方法包括：提取待编辑视频的当前帧图像的多个层级的空间特征；基于多个层级的所述空间特征和当前维护的时序上下文特征，获得当前帧图像的时空特征；从所述时空特征中分割出目标，得到当前帧图像的预测图；基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，并基于所述评估结果更新当前维护的时序上下文特征。

Description

视频目标分割方法、装置、存储介质及电子设备

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频目标分割方法、装置、存储介质及电子设备。

背景技术

视频作为当前信息传递的重要媒介，视频的编辑技术具有重要的应用价值，而视频目标分割在视频编辑技术中发挥着重要的基础作用。视频目标分割(Video ObjectSegmentation,VOS)是指将给定的视频序列中前景和背景分离并给出目标像素级的分割结果。在半监督的设定下，在视频的第一帧会给出一个或者多个目标的像素级标签，算法自动解析出后续帧中指定目标的像素级位置，从而实现视频目标分割。

目前，基于离线学习的视频目标分割方法都将如何为目标学习到一个鲁棒的时空特征作为核心突破口，而为当前帧分割提供目标时序信息的时序上下文特征的提取是其中的核心步骤。相关技术中提供时序上下文特征的策略主要有三种：1)简单融合第一帧和前一帧的图像特征作为时序上下文特征；2)根据不同的权重融合所有之前帧的图像特征；3)采用记忆网络提取并保存之前帧的所有图像特征，并Memory-Query的方式来提取带有像素级权重的时序上下文特征。但是这些方法都假设前一帧的预测是准确的，从而就直接将预测结果融合和传递到当前帧的分割预测中。当模型在分割一些难样本时，例如遮挡，运动模糊以及相似背景干扰时，有可能会产生不准确甚至是错误的预测结果，而将错误的预测结果引入后续帧的分割中，可能会误导了模型对指定目标的分割。

发明内容

有鉴于此，本发明提供一种视频目标分割方法、装置、存储介质及电子设备，用以避免引入错误的预测信息，动态地生成鲁棒的时序上下文特征，从而提高视频目标分割的精度。

具体地，本发明是通过如下技术方案实现的：

根据本发明的第一方面，提供一种视频目标分割方法，所述方法包括：

提取待编辑视频的当前帧图像的多个层级的空间特征；

基于多个层级的所述空间特征和当前维护的时序上下文特征，获得当前帧图像的时空特征；

从所述时空特征中分割出目标，得到当前帧图像的预测图；

基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，并基于所述评估结果更新当前维护的时序上下文特征。

在一些实施例中，所述基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，包括：

基于当前帧图像的所述预测图对当前帧图像进行背景过滤，得到背景过滤后的当前帧图像；

确定背景过滤后的当前帧图像与背景过滤后的第一帧图像之间的第一相似度，以及背景过滤后的当前帧图像与背景过滤后的当前帧的前一帧图像之间的第二相似度；

将所述第一相似度和所述第二相似度与设定的第一阈值进行比较，得到评估结果。

在一些实施例中，所述将所述第一相似度和所述第二相似度与设定的第一阈值进行比较，得到评估结果，包括：

若所述第一相似度和所述第二相似度均小于所述第一阈值，则确定评估结果为预测不准确；

若所述第一相似度和所述第二相似度均大于所述第一阈值，则确定评估结果为预测准确；

若所述第一相似度和所述第二相似度其中之一小于所述第一阈值，则确定评估结果为预测可能准确。

在一些实施例中，所述基于所述评估结果更新当前维护的时序上下文特征，包括：

根据预设的权重分配规则和所述评估结果，为时序上下文特征的更新分配相应的更新权重；

根据所述更新权重，更新当前维护的时序上下文特征。

在一些实施例中，所述根据预设的权重分配规则和所述评估结果，为时序上下文特征的更新分配相应的更新权重，包括：

若评估结果为预测不准确，则分配的所述更新权重为零；

若评估结果为预测准确，则分配第一权重；

若评估结果为预测可能准确，则分配第二权重；其中，所述第一权重大于所述第二权重。

在一些实施例中，在根据所述更新权重，更新当前维护的时序上下文特征之前，所述方法还包括：

从背景过滤后的当前帧图像中提取第一高级语义特征，以及确定当前帧图像的所述预测图的置信度；

所述根据所述更新权重，更新当前维护的时序上下文特征，包括：

根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度，更新当前维护的时序上下文特征。

在一些实施例中，所述根据所述更新权重、所述第一高级语义特征和所述预测图的置信度，更新当前维护的时序上下文特征，包括：

根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度，采用第一公式更新当前维护的时序上下文特征，得到第一融合后的时序上下文特征；

所述第一公式为：

其中，

为第一融合后的时序上下文特征，

为当前维护的时序上下文特征，

为所述更新权重，

为所述第一高级语义特征，

为当前帧图像的所述预测图的置信度。

在一些实施例中，在得到第一融合后的时序上下文特征之后，所述方法还包括：

从背景过滤后的第一帧图像中提取第二高级语义特征；

根据所述第二高级语义特征和预设的强化权重，采用第二公式更新所述第一融合后的时序上下文特征，得到第二融合后的时序上下文特征；

所述第二公式为：

其中，

为第二融合后的时序上下文特征，μ为所述强化权重，

为所述第二高级语义特征。

在一些实施例中，所述基于多个层级的所述空间特征和当前维护的时序上下文特征，获得当前帧图像的时空特征，包括：

对多个层级的所述空间特征和当前维护的时序上下文特征在多个层级上进行分步融合，得到当前帧图像的时空特征。

在一些实施例中，所述对多个层级的所述空间特征和当前维护的时序上下文特征在多个层级上进行分步融合，得到当前帧图像的时空特征，包括：

在每一个层级，上采样的高级语义特征和该层级的空间特征以相加的方式进行融合，得到第一融合特征；

所述第一融合特征经过卷积变换后与上采样的所述当前维护的时序上下文特征在深度方向进行级联，得到第二融合特征；

所述第二融合特征经过卷积变换，得到该层级的时空特征；

其中，第一层中上采样的高级语义特征为第三高级语义特征经过上采样后得到的高级语义特征；所述第三高级语义特征为多个层级的所述空间特征中最深一层的空间特征；

当前层级得到的时空特征作为下一个层级的高级语义特征，以便进行下一个层级的时空特征融合；

最后一个层级的时空特征作为当前帧图像的时空特征。

在一些实施例中，在得到该层级的时空特征之前，所述方法还包括：

将卷积变换后的所述第二融合特征输入到多级特征金字塔，以在多个分支上提取不同尺度的特征并进行融合，得到第三融合特征；

所述第三融合特征经过二次卷积变换，得到该层级的时空特征。

在一些实施例中，所述从所述时空特征中分割出目标，得到当前帧图像的预测图，包括：

采用预先设计的用于提高分割精度的细化模块，从所述时空特征中分割出目标，得到当前帧图像的预测图。

在一些实施例中，所述提取待编辑视频的当前帧图像的多个层级的空间特征，包括：

获取待编辑视频的当前帧图像中目标的位置信息，所述位置信息包括宽度和高度；

根据所述位置信息，以所述目标为中心，裁剪出具有设定倍率的所述宽度和高度的图像区域，并将裁剪的图像区域填充至设定尺寸；

从设定尺寸的所述图像区域中提取多个层级的空间特征。

在一些实施例中，所述获取待编辑视频的当前帧图像中目标的位置信息，包括：

确定待编辑视频的当前帧的前一帧图像的预测图的置信度；

将当前帧的前一帧图像的预测图的置信度与设定的第二阈值进行比较；

若当前帧的前一帧图像的预测图的置信度大于所述第二阈值，则采用最小框策略确定当前帧图像中目标的位置信息；

若当前帧的前一帧图像的预测图的置信度小于所述第二阈值，则采用目标跟踪器来预测当前帧图像中目标的位置信息。

根据本发明的第二方面，提供一种视频目标分割装置，所述装置包括用于执行第一方面或第一方面的任意可能的实现方式中的视频目标分割方法的模块。

根据本发明的第三方面，提供一种一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面或第一方面的任意可能的实现方式中的视频目标分割方法的步骤。

根据本发明的第四方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面或第一方面的任意可能的实现方式中的视频目标分割方法的步骤。

本发明提供的技术方案至少带来以下有益效果：

本发明实施例提供的技术方案，每次从当前帧图像的时空特征中分割出目标，得到当前帧图像的预测图之后，都基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，并基于所述评估结果更新当前维护的时序上下文特征，也就是说可以避免引入错误的预测信息到维护的时序上下文特征中，因此可以动态地生成鲁棒的时序上下文特征，这样，在基于多个层级的所述空间特征和当前维护的时序上下文特征，进行视频目标分割时，就能提高视频目标分割的精度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频目标分割方法的流程示意图；

图2为本发明实施例提供的视频目标分割方法的原理示意图；

图3为本发明实施例提供的ResNet网络的结构示意图；

图4为本发明实施例提供的一个层级的空间特征和时序上下文特征的融合原理示意图；

图5为本发明实施例提供的视频目标分割网络的优化原理图；

图6为本发明实施例提供的当前帧图像的预测图的评估原理图；

图7为本发明实施例提供的视频目标分割方法的总体流程图；

图8为本发明实施例提供的一种视频目标分割装置的结构示意图；

图9为本发明实施例提供的视频目标分割装置中图像处理模块的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图2，本发明实施例提供了一种视频目标分割方法，该方法可以应用于具有视频目标分割功能的电子设备，例如PC、服务器、终端等，该方法可以包括如下步骤：

S101、提取待编辑视频的当前帧图像的多个层级的空间特征。

在一些实施例中，步骤S101中提取待编辑视频的当前帧图像的多个层级的空间特征，包括：

根据所述位置信息，以所述目标为中心(或者说保持目标中心点不变)，裁剪出具有设定倍率的所述宽度和高度的图像区域(或者说该宽度和高度乘以一个乘积因子后，再以变化后的宽度和高度裁剪图像区域)，并将裁剪的图像区域填充至设定尺寸；

从设定尺寸的所述图像区域中提取多个层级的空间特征。

本实施例中，目标的位置信息还可以包括目标的中心点坐标，设定尺寸的图像区域例如可以为正方形区域，在对裁剪的图像区域进行扩展和填充时，可以通过与背景颜色相似的像素值进行填充。

本实施例中，从设定尺寸的图像区域中提取多个层级的空间特征，例如，可以通过卷积神经网络(比如ResNet，该卷积神经网络设置在如图3中所示的编码器中)提取空间特征，如图2所示，该卷积神经网络包括5个卷积层(conv)，第一个卷积层(conv1)的步长(stride)可以设置为2，第二个卷积层(conv2)的步长可以设置为4，第三个卷积层(conv3)的步长可以设置为8，第四个卷积层(conv4)的步长可以设置为16，第五个卷积层(conv5)的步长可以设置为32，得到多个层级的空间特征(C₁，C₂，C₃，C₄，C₅)其中，C₁表示第一个卷积层提取到的空间特征，C₂表示第二个卷积层提取到的空间特征，C₃表示第三个卷积层提取到的空间特征，C₄表示第四个卷积层提取到的空间特征，C₅表示第五个卷积层提取到的空间特征，C₁，C₂，C₃，C₄和C₅分别代表不同层级和不同分辨率的特征图。

本实施例中，第一高级语义特征一般为卷积神经网络提取的层级特征中的深层特征，例如C4、C5等，这些特征一般具有较好的语义信息，但物体的空间细节信息较弱。

本发明实施例提供的技术方案中，先将视频帧图像经过预处理，裁剪至设定尺寸后，然后再对裁剪后的设定尺寸的图像进行视频目标分割，这样一方面可以减少计算量，另一方面可以减少背景噪声的影响。

在一些实施例中，上述获取待编辑视频的当前帧图像中目标的位置信息，包括：

确定待编辑视频的当前帧的前一帧图像的预测图的置信度；

将当前帧(即第t帧)的前一帧(即第t-1帧)图像的预测图的置信度与设定的第二阈值T进行比较；

若当前帧的前一帧图像的预测图的置信度大于所述第二阈值T，则采用最小框策略确定当前帧图像中目标的位置信息；

若当前帧的前一帧图像的预测图的置信度小于所述第二阈值T，则采用目标跟踪器来预测当前帧图像中目标的位置信息。

本实施例中，可以通过下面的公式(1)确定待编辑视频的当前帧的前一帧图像的预测图的置信度。

其中，

表示预测图的置信度，

表示预测图中位置为(i,j)处的预测概率值，

为预测图，即预测二元掩膜(mask)，

表示预测图中位置为(i,j)处的预测结果，例如，0代表预测结果为背景，1代表预测结果为目标。

因此，若当前帧的前一帧图像的

>阈值T，则采用最小框策略确定当前帧图像中目标的位置信息，即采用能将当前帧的前一帧图像的预测图中的mask框住的最小框，确定当前帧图像中目标的位置信息；若当前帧的前一帧图像的

<阈值T，则采用目标跟踪器(例如SiamFC++)来预测当前帧图像中目标的位置信息。

S102、基于多个层级的所述空间特征和当前维护的时序上下文特征，获得当前帧图像的时空特征。

在一些实施例中，步骤S102中基于多个层级的所述空间特征和当前维护的时序上下文特征，获得当前帧图像的时空特征，包括：

本发明实施例提供的技术方案中，在多个层级逐步融合空间特征和时序上下文特征，得到鲁棒的时空特征，从而提高视频目标分割的精度。

在一些实施例中，对多个层级的所述空间特征和当前维护的时序上下文特征在多个层级上进行分步融合，得到当前帧图像的时空特征，包括：

在每一个层级，上采样的高级语义特征f_h和该层级的空间特征f_l以相加的方式进行融合，得到第一融合特征；

所述第一融合特征经过卷积变换后与上采样的所述当前维护的时序上下文特征f_t在深度方向进行级联，得到第二融合特征；

所述第二融合特征经过卷积变换，得到该层级的时空特征；

最后一个层级的时空特征作为当前帧图像的时空特征。

本实施例中，上述的每一个层级的处理流程还可以用公式(2)来表示。

F＝STCA(up(f),f_l,up(f_t)) (2)

其中，F表示融合后的时空特征，f_h为高级语义特征，f_l为该层级的空间特征，f_t为时序上下文特征，up(.)表示双线性插值上采样，STCA(.)表示融合。

例如，如图2所示，对于第一层，f_h为C₅，f_l为C₅，融合后的时空特征为F₁，对于第二层，f_h为F₁，f_l为C₄，融合后的时空特征为F₂，对于第三层，f_h为F₂，f_l为C₃，融合后的时空特征为F₃，对于最后一层，f_h为F₃，f_l为C₂，融合后的时空特征为F₄，F₄作为当前帧图像的时空特征，对于不同层级，时序上下文特征图具有不同分辨率。

本实施例中，在深度方向进行级联表示只有深度方向的长度相加，其他维度的长度没有变化，例如，特征图F的形状为[257,257,64]，对应的维度分别为高，宽和深度，若将两个相同的特征图F在深度方向级联后生成的新特征图的形状则为[257,257,128]，只有深度方向的长度有变化，其他维度的长度没有变化。

本发明实施例提供的技术方案中，通过多级特征金字塔在多个分支上提取不同尺度的特征并进行融合，这样可以减少由于混叠现象而造成的目标边界模糊，从而生成更加鲁棒的时空特征。

例如，如图4所示，图4示出一个层级的空间特征和时序上下文特征的融合过程，高级语义特征f_h经过上采样后，与多个层级的空间特征f_l相加融合，得到第一融合特征，然后经过一次卷积变换(conv)，再与上采样的当前维护的时序上下文特征f_t在深度方向进行级联，得到第二融合特征，接着再经过一次卷积变换，然后由具有三个分支的多级特征金字塔在三个分支上提取不同尺度的特征并进行融合，得到第三融合特征，接着再经过两次卷积变换，得到该层级的时空特征。其中，多级特征金字塔的第一分支，对卷积变换后的第二融合特征先进行4倍下采样(即图3中4×下采样)，然后进行一次卷积变换，再进行4倍上采样(即图3中4×上采样)，得到第一尺度的特征，多级特征金字塔的第二分支，对卷积变换后的第二融合特征先进行2倍下采样(即图3中2×下采样)，然后进行一次卷积变换，再进行2倍上采样(即图3中2×上采样)，得到第二尺度的特征，多级特征金字塔的第三分支，对卷积变换后的第二融合特征进行恒等映射，等到第三尺度的特征，然后将第一尺度的特征、第二尺度的特征和第三尺度的特征在深度方向进行级联，得到第三融合特征。

S103、从所述时空特征中分割出目标，得到当前帧图像的预测图。

在一些实施例中，为了减少误检，提高目标边界的清晰度，步骤S103中从所述时空特征中分割出目标，得到当前帧图像的预测图，包括：

本实施例中，如图5所示，图5示出视频目标分割网络的优化原理图，预先设计的细化模块包括：编码模块501、解码模块502和跨层连接503。编码模块进行特征提取，并降低时空特征的分辨率，生成高级语义特征，在这个过程中对输入时空特征进行精炼和细化，再经过解码模块的上采样和跨层连接逐步生成最终的和输入图像尺寸一样的分割图，其中跨层连接有利于增强上采样过程中的空间细节信息以及信息的高效流动。

如图5所示，细化模块包括7种子模块，分别为第一子模块51、第二子模块52、第三子模块53、第四子模块54、第五子模块55、第六子模块56和第七子模块57，第一子模块51包括conv层、BN层和ReLU层，图像经过第一子模块51后，高度和宽度保持不变，但深度方向的长度变为原理的一半，第二子模块52也包括conv层、BN层和ReLU层，图像经过第二子模块52后，高度、宽度和深度方向的长度均保持不变，第三子模块53包括conv层和BN层，第四子模块54包括conv层，第五子模块55包括ReLU层，第六子模块56包括双线性插值上采样层，第七子模块57包括最大池化层。如图5所示，编码模块501从左到右依次包括第一子模块51、第二子模块52、第七子模块57、第二子模块52、第三子模块53、第五子模块55、第七子模块57、第二子模块52和第三子模块53。解码模块502从左到右依次包括第五子模块55、第六子模块56、深度方向的级联模块、第一子模块51、第六子模块56、深度方向的级联模块、第一子模块51、第六子模块56和第四子模块54。

本发明实施例中，为了更好的优化整个视频目标分割网络，如图5所示，在解码器的后三个STCA模块上使用了辅助交叉熵损失，因此视频目标分割网络总的损失函数

为：

其中，w₁，w₂，w₃和w₄分别是分配的权重，

为细化模块的损失，

和

分别为解码器的后三个STCA模块上的辅助交叉熵损失。

S104、基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，并基于所述评估结果更新当前维护的时序上下文特征。

在一些实施例中，步骤S104中基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，包括：

本实施例中，目标分割结束后，得到预测图，即得到预测二元掩膜(mask)，其中0代表背景，1代表目标像素，将当前帧图像的的mask和当前帧图像进行像素级相乘，得到背景过滤后的当前帧图像，同理，可以得到背景过滤后的第一帧图像和背景过滤后的当前帧的前一帧图像。

本实施例中，为了验证预测结果的目标连贯性，如图6所示，可以基于图像的颜色直方图的相似度，确定当前帧和第一帧，以及当前帧和前一帧图像之间的相似度，图像的颜色直方图的相似度的计算方法如下：

其中，S∈(0,1)，表示两个图像之间的相似度，N为像素值的个数，对于RGB三通道图像而言，N＝3×256，p_i和q_i分别是两个图像中像素值为i的像素的个数。

根据所述更新权重，更新当前维护的时序上下文特征。

若评估结果为预测不准确，则分配的所述更新权重为零；

若评估结果为预测准确，则分配第一权重；

例如，令S_c,_f为第一相似度，S_c,_p为第二相似度，若S_c,_f和S_c,_p都小于第一阈值，则分配的更新权重为零，或者说当前帧图像不参与时序上下文特征的更新，保持当前维护的时序上下文特征不变；若S_c,_f和S_c,_p都大于第一阈值，则在更新当前维护的时序上下文特征时，分配第一权重α，若S_c,_f>第一阈值，且S_c,_p<第一阈值，或者S_c,_f<第一阈值，且S_c,_p>第一阈值，则在更新当前维护的时序上下文特征时，分配第二权重β，其中，α>β。

所述第一公式为：

其中，

为第一融合后的时序上下文特征，

为当前维护的时序上下文特征，

为所述更新权重，若S_c,f和S_c,p都小于第一阈值，则

若S_c,f和S_c,p都大于第一阈值，则

若S_c,f>第一阈值，且S_c,p<第一阈值，或者S_c,f<第一阈值，且S_c,p>第一阈值，则

为所述第一高级语义特征，

为当前帧图像的所述预测图的置信度，预测图的置信度可以通过公式(1)计算得到。

本发明实施例提供的技术方案中，根据背景过滤后的当前帧图像与背景过滤后的第一帧图像之间的第一相似度与设定阈值的比较，以及背景过滤后的当前帧图像与背景过滤后的当前帧的前一帧图像之间的第二相似度与设定阈值的比较，确定当前帧图像的预测图的预测准确性，若预测不准确，则当前帧图像不参与时序上下文特征的更新，保持当前维护的时序上下文特征不变，若预测准确，则为当前帧图像分配更大的权重，参与当前维护的时序上下文特征的更新，若预测可能准确，则为当前帧图像分配较小的权重，参与当前维护的时序上下文特征的更新，从而可以避免引入错误的预测信息到维护的时序上下文特征中，因此可以动态地生成鲁棒的时序上下文特征，这样，在基于多个层级的所述空间特征和当前维护的时序上下文特征，进行视频目标分割时，就能提高视频目标分割的精度。

一般来说，第一帧图像的信息的权重随着融合次数的增加逐渐衰弱，而第一帧图像提供了最准确的目标先验信息，因此，为了生成更加鲁棒的时序上下文特征，可以增强第一帧在时序上下文特征中的权重。

于是，在一些实施例中，在得到第一融合后的时序上下文特征之后，所述方法还包括：

从背景过滤后的第一帧图像中提取第二高级语义特征；

所述第二公式为：

其中，

为第二融合后的时序上下文特征，μ为所述强化权重，

为所述第二高级语义特征。

如图2、图7所示，下面以分割目标为骆驼的视频为例，说明本发明实施例提供的视频目标分割方法的流程。

第一阶段：目标分割

S201、确定待编辑视频的当前帧的前一帧图像的预测图的置信度；

S202、将当前帧(即第t帧)的前一帧(即第t-1帧)图像的预测图的置信度与设定的第二阈值T进行比较；若当前帧的前一帧图像的

>阈值T，则执行步骤S203，若当前帧的前一帧图像的

<阈值T，则执行步骤S204；

S203、采用最小框策略确定当前帧图像中指定骆驼的位置信息；

其中，位置信息包括中心点坐标，宽度和高度。

S204、采用目标跟踪器来预测当前帧图像中指定骆驼的位置信息；

S205、根据所述位置信息，保持指定骆驼中心点不变，以设定倍率的宽度和高度裁剪图像区域，并将裁剪的图像区域填充至设定尺寸；

S206、从设定尺寸的所述图像区域中提取5个层级的空间特征(C₁，C₂，C₃，C₄，C₅)；

S207、对5个层级的空间特征和当前维护的时序上下文特征在4个层级上进行分步融合，再将分步融合后的特征图通过多级特征金字塔在3个分支上提取不同尺度的特征并进行融合，得到当前帧图像的时空特征；

本实施例中，在每一个层级，上采样的高级语义特征f_h和该层级的空间特征f_l以相加的方式进行融合，得到第一融合特征；所述第一融合特征经过卷积变换后与上采样的所述当前维护的时序上下文特征f_t在深度方向进行级联，得到第二融合特征；所述第二融合特征经过卷积变换，将卷积变换后的所述第二融合特征输入到多级特征金字塔，以在3个分支上提取不同尺度的特征并进行融合，得到第三融合特征；所述第三融合特征经过二次卷积变换，得到该层级的时空特征；其中，第一层中上采样的高级语义特征为第三高级语义特征经过上采样后得到的高级语义特征，第三高级语义特征为最深一层的空间特征C₅；当前层级得到的时空特征作为下一个层级的高级语义特征，以便进行下一个层级的时空特征融合；最后一个层级的时空特征作为当前帧图像的时空特征。对于第一层，f_h为C₅，f_l为C₅，融合后的时空特征为F₁，对于第二层，f_h为F₁，f_l为C₄，融合后的时空特征为F₂，对于第三层，f_h为F₂，f_l为C₃，融合后的时空特征为F₃，对于最后一层，f_h为F₃，f_l为C₂，融合后的时空特征为F₄，F₄作为当前帧图像的时空特征，对于不同层级，时序上下文特征图具有不同分辨率。

S208、采用预先设计的用于提高分割精度的细化模块，从所述时空特征中分割出指定骆驼，得到当前帧图像的预测图；

第二阶段：更新时序上下文特征

S209、基于当前帧图像的所述预测图对当前帧图像进行背景过滤，得到背景过滤后的当前帧图像；

S210、确定背景过滤后的当前帧图像与背景过滤后的第一帧图像之间的第一相似度，以及背景过滤后的当前帧图像与背景过滤后的当前帧的前一帧图像之间的第二相似度；

S211、将所述第一相似度和所述第二相似度与设定的第一阈值进行比较，若所述第一相似度和所述第二相似度均小于所述第一阈值，则执行步骤S212，若所述第一相似度和所述第二相似度均大于所述第一阈值，则执行步骤S213，若所述第一相似度和所述第二相似度其中之一小于所述第一阈值，则执行步骤S214；

S212、确定评估结果为预测不准确，为时序上下文特征的更新分配的更新权重为零，或者说当前帧图像不参与时序上下文特征的更新，保持当前维护的时序上下文特征不变；

S213、确定评估结果为预测准确，分配第一权重；

S214、确定评估结果为预测可能准确，分配第二权重；

其中，所述第一权重大于所述第二权重。

S215、从背景过滤后的当前帧图像中提取第一高级语义特征，以及确定当前帧图像的所述预测图的置信度；

S216、根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度，采用第一公式(5)更新当前维护的时序上下文特征，得到第一融合后的时序上下文特征；

S217、获取背景过滤后的第一帧图像，并从背景过滤后的第一帧图像中提取第二高级语义特征；

S218、根据所述第二高级语义特征和预设的强化权重，采用第二公式(6)更新所述第一融合后的时序上下文特征，得到第二融合后的时序上下文特征。

基于同一发明构思，如图8所示，本发明实施例还提供了一种视频目标分割装置，所述装置包括：图像处理模块11、时空上下文融合模块12、目标分割模块13和连贯性感知模块14。

图像处理模块11，被配置为提取待编辑视频的当前帧图像的多个层级的空间特征；

时空上下文融合模块12(Spatio-temporal context aggregation module,STCAmodule)，被配置为基于多个层级的所述空间特征和当前维护的时序上下文特征，获得当前帧图像的时空特征；其中，时空上下文融合模块12设置在如图2所示的解码器中；

目标分割模块13，被配置为从所述时空特征中分割出目标，得到当前帧图像的预测图；

连贯性感知模块14(Coherence Aware Module,CAM)，被配置为基于当前帧图像的所述预测图进行预测准确性的评估，得到评估结果，并基于所述评估结果更新当前维护的时序上下文特征。

在一些实施例中，如图9所示，图像处理模块11包括：

图像预处理子模块111，被配置为获取待编辑视频的当前帧图像中目标的位置信息，所述位置信息包括宽度和高度；根据所述位置信息，以所述目标为中心，裁剪出具有设定倍率的所述宽度和高度的图像区域，并将裁剪的图像区域填充至设定尺寸；

特征提取子模块112，被配置为从设定尺寸的所述图像区域中提取多个层级的空间特征。其中，特征提取子模块112设置在如图2所示的编码器中。

在一些实施例中，图像预处理子模块111被配置为：

确定待编辑视频的当前帧的前一帧图像的预测图的置信度；

在一些实施例中，时空上下文融合模块12被配置为：

所述第二融合特征经过卷积变换，得到该层级的时空特征；

最后一个层级的时空特征作为当前帧图像的时空特征。

在一些实施例中，时空上下文融合模块12还被配置为：

在一些实施例中，目标分割模块13被配置为：

在一些实施例中，连贯性感知模块14被配置为：

根据所述更新权重，更新当前维护的时序上下文特征。

在一些实施例中，连贯性感知模块14被配置为：

若评估结果为预测不准确，则分配的所述更新权重为零；

若评估结果为预测准确，则分配第一权重；

在一些实施例中，连贯性感知模块14被配置为：

根据所述更新权重、所述第一高级语义特征和当前帧图像的所述预测图的置信度，采用上述第一公式(5)更新当前维护的时序上下文特征，得到第一融合后的时序上下文特征。

在一些实施例中，连贯性感知模块14被配置为：

从背景过滤后的第一帧图像中提取第二高级语义特征；

根据所述第二高级语义特征和预设的强化权重，采用上述第二公式(6)更新所述第一融合后的时序上下文特征，得到第二融合后的时序上下文特征。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

基于同一发明构思，本发明实施例还提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的视频目标分割方法的步骤。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

基于同一发明构思，本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的视频目标分割方法的步骤。

基于同一发明构思，参见图10，本发明实施例还提供了一种电子设备，包括存储器71(例如非易失性存储器)、处理器72及存储在存储器71上并可在处理器72上运行的计算机程序，处理器72执行所述程序时实现上述任意可能的实现方式中的视频目标分割方法的步骤，可相当于如前所述的视频目标分割装置，当然，该处理器还可以用来处理其他数据或运算。该电子设备可以是PC、服务器、终端等设备。

如图10所示，该电子设备一般还可以包括：内存73、网络接口74、以及内部总线75。除了这些部件外，还可以包括其他硬件，对此不再赘述。

需要指出的是，上述视频目标分割装置可以通过软件实现，其作为一个逻辑意义上的装置，是通过其所在的电子设备的处理器72将非易失性存储器中存储的计算机程序指令读取到内存73中运行形成的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。