CN110866938A

CN110866938A - 一种全自动视频运动目标分割方法

Info

Publication number: CN110866938A
Application number: CN201911147521.9A
Authority: CN
Inventors: 李建武; 任建国
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-03-06
Anticipated expiration: 2039-11-21
Also published as: CN110866938B

Abstract

本发明提出了一种全自动视频运动目标分割方法，属于计算机视觉处理技术领域。本方法旨在提取视频中运动物体的精确区域，将其与背景进行分离，是实现视频编辑、视频内容表示的重要环节。通过使用双流网络同时提取视频帧信息和运动信息，通过相邻帧运动信息获得的粗糙的结果，指导视频帧的分割。本发明方法，相比于现有的技术，充分挖掘了运动信息，在使用注意力机制充分利用运动信息的同时节省了空间的消耗，精度高。

Description

一种全自动视频运动目标分割方法

技术领域

本发明涉及一种视频运动目标分割方法，属于计算机视觉处理技术领域。

技术背景

自AlexNet网络在图像分类任务中取得重大突破，深度学习得到了快速的发展，并对各个领域产生了重大的影响。在视频分割任务中，基于全卷积的分割方法也得到了大量的研究并取得了巨大突破。

目前，视频目标分割主要分为两种：半自动(半监督)的视频目标分割，全自动(非监督)的视频目标分割。对于半自动的视频目标分割，其仅在第一帧中给出要分割的物体的信息，在后续的帧中分割出此物体。对于全自动的视频目标分割，在不给任何先验信息的条件下分割出视频中的主要物体。因此，对于全自动视频目标分割，如何确定所要分割的物体是该任务的关键。值得一提的是，在没有任何先验信息的前提下要确定分割的物体，是很难完成的。因此，在很多全自动算法中都会根据不同的想法去定义所要分割的物体。

目前，主流的全自动分割方法可以分为三类：基于运动信息的视频目标分割、基于显著性检测的视频目标分割、基于注意力机制的视频目标分割。基于运动信息的视频目标分割，是把视频中的持续运动的物体，当作是所要分割的目标。在视频目标分割中，尽管一个完整的物体区域可能包含多个颜色或纹理不同的子区域，然而，在运动过程中，这些子区域往往表现出很好的一致性。因此，基于运动信息的视频目标分割可以取得不错的结果。基于显著性检测的视频目标分割，是把任务简化成图片中显著性物体分割，即把视频帧当成单帧图片进行处理，但是随着视频中目标物体的移动和形变，显著性物体可能会发生变化。因此，单纯基于图像显著性的视频目标分割有明显的缺点。基于注意力的视频目标分割，旨在获取长时间内重复出现的物体信息，把获取到的物体信息当作先验信息对当前帧进行处理。因此，基于注意力机制的方式同样取得了不错的效果。

发明内容

本发明的目的在于提供一种精准的全自动视频目标分割方法，旨在提取视频中运动物体的精确区域，将其与背景进行分离，是实现视频编辑、视频内容表示的重要环节，是计算机视觉的特点任务之一。通过使用双流网络同时提取视频帧信息和运动信息，通过相邻帧运动信息获得的粗糙的结果，指导视频帧的分割。

本发明包括以下步骤：

步骤一：预处理光流图像，生成光流图片。可以采用PWC-Net光流网络等，获取光流信息，根据信息生成光流图片。

步骤二：提取光流图片和视频帧的特征。

可以使用Deeplab V3+等网络模型，同时提取光流图片和视频帧的特征。设提取出的光流图片特征为X∈R^c*h*w，其中，c＝256，表示获得的光流图片特征的数量，h表示光流图片特征图高度，w表示光流图片特征图宽度，h为输入图像高度的1/8，w为输入图像宽度的1/8；提取出的视频帧特征为Y_low∈R^c1*h1*w1，Y_high∈R^c*h*w，其中，Y_low为视频帧的底层特征，c1为256，表示底层特征的特征图的数量，h1表示底层特征图的高度，w1表示底层特征图的宽度，h1为输入图像高度的1/4，w1为输入图像宽度的1/4，Y_high为视频帧的高层特征。

步骤三：对双流网络中的运动信息进行粗分割。

对双流网络中获取的光流特征X(即运动信息)，采用全卷积方式进行粗分割，得到视频目标分割的粗分割结果X＇∈R^2*h*w。其中，2表示最后获得的特征图的数量，其中一个表示属于前景的概率分布，使用X＇_pos表示，另一个表示属于背景的概率分布，使用X＇_neg表示。

X'＝f_flow(X) (1)

其中，f_flow(·)表示对光流特征进行全卷积分割。

步骤四：使用运动信息粗分割结果，指导表观信息进行分割。

对于粗分割指导精确分割部分，使用两个注意力模块，即空间注意力模块和通道注意力模块。两个注意力模块中的查询向量，均为粗分割中的结果。

空间注意力模块：对于视频帧中提取的特征，关注重点是运动物体的特征，因此，使用运动信息提取的前景概率图，对Y_high进行加权：

其中，

表示使用空间注意力模块加权之后的结果，X＇_pos表示属于前景的概率分布。

通道注意力模块：对于视频帧中提取的特征，特征图中每个通道所提取的特征是不同的。给予与前景和背景相似的通道较高的权重，对最终的分割结果有很大的提升。因此，在通道注意力模块中，分别使用运动信息粗分割的前景和背景，对视频帧的特征进行加权：

其中，g_{high_pos}(·)表示使用粗分割前景概率图对视频帧进行通道注意力操作，

表示其结果；g_{high_neg}(·)表示使用粗分割背景概率图与视频帧进行通道注意力操作的结果，

表示其结果。

表示最终通道注意力的结果。

步骤五：对视频帧中的Y_high与粗分割X'处理之后的结果进行分割。分割方式与步骤三对运动信息进行粗分割的方法相同。

其中，Y＇_high∈R^2*h*w，表示对

进行全卷积分割之后的结果，f_high(·)表示全卷积操作。

步骤六：优化底层特征，获取分割结果。

视频帧的高层特征图，大小为原图的1/8，在网络模型提取特征时，对于小目标物体会发生偏移，且损失其轮廓信息，而在底层特征中，虽然语义信息不如高层特征，但其对于小目标物体特征保存比较完整。因此，使用高层特征结合底层特征，会使得最终精度相对准确。因此，先使用高层特征分割结果Y＇_high对底层特征进行注意力操作，然后对最终的特征图进行分割，得到精准的分割结果。

步骤七：使用高层特征分割结果和底层特征，进行注意力操作。

此步骤类处理方式，与使用光流粗分割结果对视频帧高层特征处理过程相同。其中，

表示使用视频帧高层特征分割的前景概率图与底层特征在通道上进行注意力操作的结果；g_{low_pos}(·)表示使用视频帧高层特征分割的前景概率图与底层特征在通道上进行注意力操作，

表示其结果；g_{low_neg}(·)表示使用视频帧高层特征分割的背景概率图与底层特征在通道上进行注意力操作，

表示其结果；

表示底层特征进行通道注意力之后的最终结果。upsample(·)表示将前景概率图上采样到h1*w1；

表示视频帧高层特征分割的前景概率图。

步骤八：对底层特征处理后的结果进行分割。分割方式，与对运动信息进行粗分割的方法相同，即：

其中，Y′∈R^2*h1*w1，表示最终分割结果。cat(·)表示将底层特征与高层特征按通道合并。

步骤九：使用CRF算法，对最终分割结果进行优化。对最终分割结果进行上采样恢复到输入图像的原始大小，然后使用CRF算法对分割结果进行优化。

通过以上步骤，实现视频目标分割的全自动、高精准分割。

有益效果

本发明方法，相比于现有的技术，充分挖掘了运动信息，在使用注意力机制充分利用运动信息的同时节省了空间的消耗，精度高。在Davis2016数据集上实现了目前最高的精度。

附图说明

图1为本发明所使用的网络模型的整体结构。

图2为本发明中使用的空间注意力模块详细结构。

图3为本发明中使用的通道注意力模块详细结构。

图4为目前主流的空间注意力机制。

图5为目前主流的通道注意力机制。

图6为采用本发明方法得到的结果图。

具体实施方式

下面结合附图和实施例，对本发明方法做进一步详细说明。

实施例

一种全自动视频目标分割方法。使用的数据集为DAVIS 2016，其中，包括50个视频序列共3455标注帧。其中训练样本为2099帧，测试样本为1356帧。

首先，预处理光流图像，提取光流图像和视频帧的特征。本实施例中，使用光流网络PWC-Net进行光流场的提取，然后由光流场生成光流图片。对于双流网络中输入的光流图片和视频帧采用相同的处理方式，其中输入的图片大小均为512*512，并在输入时对图片进行归一化操作。

双流网络采用图像语义分割经典Deeplab v3+算法，首先使用Resnet101对输入图像进行特征提取，本实施例中，采用的output stride为8，然后使用ASPP对提取的特征进行操作，增加原始特征图的感受野。

然后，对双流网络中的运动信息进行粗分割。由于运动信息与高层特征经过处理之后的特征图的个数是相等的(均为256)，因此，运动信息的分割模块和视频帧中的高层特征分割模块配置相同。具体地，首先采用两次3*3的卷积核进行特征的聚合，此过程中，特征图的个数不变，然后使用1*1的卷积核进行维度的压缩，使得最终输出的特征图的个数为2，最后经过sigmoid激活函数，使其中一个特征图表示属于前景的物体的概率图，另一个特征图表示属于背景的物体的概率图。最后一个分割模块融合了底层的特征与高层经过注意力机制处理后的特征，由于底层的特征图的大小与高层的特征图的大小不同，因此，先将高层经过处理的特征图经过上采样，与底层的特征图的大小相同，然后将两个不同的特征图叠加在一起，按照上述分割模块进行分割。

之后，使用运动信息粗分割结果，指导表观信息进行分割。

1.空间注意力模块的设置

本实施例中使用的空间注意力模块，不同于目前主流的非区域网络中的注意力机制。对于目前主流的非区域的空间注意力机制如图4所示，其首先将原始特征图经过f(x),g(x),h(x)变换生成Query、Key和Value，然后使用Query和Key生成一个注意力矩阵，最后使用注意力矩阵与Value做乘积操作得到所需的特征图。在此过程中，注意力矩阵的获取与self-attention feature maps的获取需要经过大量的计算，同时注意力矩阵存储需要消耗大量的内存。

本实施例中，使用粗分割的结果与特征图直接相乘，如图2所示，其注意力矩阵的大小为(h,w)，是传统自注意力机制中注意力机制的1/h*w，对于内存非常友好，同时其中的乘法操作也和传统的注意力机制有很大不同，大大节省了时间复杂度。

2.通道注意力模块的设置

图5所示为传统自注意力机制的通道注意力机制。与空间注意力机制不同的是，通道注意力机制的获取与乘法规则不同，空间注意力机制得到的注意力矩阵大小为(N,N)，表示空间上任意两维之间的联系，通道注意力机制得到的注意力矩阵大小为(C,C)，表示任意两个通道之间的关系。

本实施例中使用的通道注意力机制，是在原始通道注意力机制上的扩展，如图3所示。其中，使用粗分割的结果中的前景概率图与背景概率图分别作为Query，其目的在于使得给予当前特征中与前景和背景相似的特征更高的权重。

然后，优化底层特征分割结果。使用高层特征分割结果和底层特征，进行注意力操作。若只在高层特征上仅使用一次注意力机制，由于在特征提取中使用的output stride为8，因此在高层特征中损失了很多边缘信息，且在ASPP在扩大感受野的时候会使物体的位置发生偏差。这些现象都表明使用高层处理后的特征分割结果作为最终的结果对精度的会产生很大的偏差。因此本实施例结合了底层的特征，由于处理后的高层特征分割的结果比在运动信息特征分割的结果精度高，所以对底层特征使用高层特征分割的结果进行注意力操作。本实施例中，使用底层特征为Resnet 101中第三层的feature map，其输出的特征图大小为原图的1/4，特征图的个数为256，由于在通道注意力中要使得Query的维度与Key的维度相同。因此，先将高层特征分割后的结果进行上采样到底层特征图大小，然后对维度进行扩展，使得Query和Key的维度相同，然后进行注意力操作。

如上所示，两次注意力操作都在使用上一步的粗分割的结果，因此粗分割的结果对最终的影响很大。将三次分割的结果进行输出，同时计算三个输出计算损失进行训练。

本实施例在DAVIS 2016数据集上进行训练，使用pytorch框架，batch size为4，学习率为0.001，训练100个epoch。

Claims

1.一种全自动视频运动目标分割方法，其特征在于，包括以下步骤：

步骤一：预处理光流图像，获取光流信息，生成光流图片；

步骤二：提取光流图片和视频帧的特征；

设提取出的光流图片特征为X∈R^c*h*w，其中，c＝256，表示获得的光流图片特征的数量，h表示光流图片特征图高度，w表示光流图片特征图宽度，h为输入图像高度的1/8，w为输入图像宽度的1/8；提取出的视频帧特征为Y_low∈R^c1*h1*w1，Y_high∈R^c*h*w，其中，Y_low为视频帧的底层特征，c1为256，表示底层特征的特征图的数量，h1表示底层特征图的高度，w1表示底层特征图的宽度，h1为输入图像高度的1/4，w1为输入图像宽度的1/4，Y_high为视频帧的高层特征；

步骤三：对双流网络中的运动信息进行粗分割；

对双流网络中获取的光流特征X，采用全卷积方式进行粗分割，得到视频目标分割的粗分割结果X＇∈R^2*h*w；其中，2表示最后获得的特征图的数量，其中一个表示属于前景的概率分布，使用X＇_pos表示，另一个表示属于背景的概率分布，使用X＇_neg表示：

X'＝f_flow(X) (1)

其中，f_flow(·)表示对光流特征进行全卷积分割；

步骤四：使用运动信息粗分割结果，指导表观信息进行分割；

对于粗分割指导精确分割部分，使用两个注意力模块，即空间注意力模块和通道注意力模块，两个注意力模块中的查询向量，均为粗分割中的结果；

空间注意力模块：使用运动信息提取的前景概率图，对Y_high进行加权：