CN110163875A

CN110163875A - 一种基于调制网络和特征注意金字塔的半监督视频目标分割方法

Info

Publication number: CN110163875A
Application number: CN201910432719.5A
Authority: CN
Inventors: 宋慧慧; 汤润发; 姜斯浩; 张开华; 周双双
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-23

Abstract

本发明公开了一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，包括步骤一：将当前视频帧图像输入至分割网络中，得到当前视频帧图像中分割目标对应的特征图；步骤二：将当前视频帧图像中分割目标对应的特征图输入到特征注意金字塔模块中，得到最终的特征表示；所述特征注意金字塔模块对输入的特征图构造像素级注意；步骤三：在所述分割网络的倒数第二和倒数第三阶段的最后一层卷积的输出端和特征注意金字塔模块的输出端分别引入一个侧输出层，所述侧输出层分别对输入的特征图进行上采样得到与当前视频帧图像相同分辨率大小的特征图，将所有的侧输出层输出的特征图融合得到最终的分割结果。

Description

一种基于调制网络和特征注意金字塔的半监督视频目标分割方法

技术领域

本发明涉及视频目标分割领域，尤其是一种基于调制网络和特征注意金字塔的半监督视频目标分割方法。

背景技术

语义分割在理解图像的视觉内容方面起着重要作用，因为它将预定义的目标或场景标签分配给每个像素，从而将图像转换成分割图。在处理视频内容时，人们可以在不知道其语义意义的情况下轻松分割整个视频中的目标，从而激发了一个名为半监督视频目标分割的研究课题。在半监督视频目标分割的典型场景中，给出了视频的第一帧以及带注释的特定目标掩模，任务是准确定位所有后续帧中的特定目标。视频目标分割可以帮助我们更好地理解视频，有助于完成交互式视频编辑，自动驾驶和机器人等任务。然而，由于相机运动，目标变形，实例之间的遮挡和动态背景变化，这仍是一项具有挑战性的任务。

发明内容

本发明的目的在于针对现有技术的缺陷，提供一种基于调制网络和特征注意金字塔的半监督视频目标分割方法。

本发明所采用的技术方案是：一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，包括以下步骤：

步骤一：将当前视频帧图像输入至分割网络中，得到当前视频帧图像中分割目标对应的特征图；所述分割网络以全卷积神经网络作为主干网络，借助于视觉调制器和空间调制器来分别学习分割目标的视觉和空间信息，将其作为先验引导使分割模型适应于特定目标；

步骤二：将当前视频帧图像中分割目标对应的特征图输入到特征注意金字塔模块中，得到最终的特征表示；所述特征注意金字塔模块对输入的特征图构造像素级注意；

步骤三：在所述分割网络的倒数第二和倒数第三阶段的最后一层卷积的输出端和特征注意金字塔模块的输出端分别引入一个侧输出层，所述侧输出层分别对输入的特征图进行上采样得到与当前视频帧图像相同分辨率大小的特征图，将所有的侧输出层输出的特征图融合得到最终的分割结果。

进一步的，所述分割网络以VGG16卷积神经网络作为主干网络，在所述分割网络的每一个卷积层后加入一个调制层，所述调制层的参数由视觉调制器和空间调制器共同训练产生，该调制层进行如下配置：

y_c＝γ_cχ_c+β_c

其中，γ_c和β_c分别表示来自第c通道的视觉调制器的缩放参数和空间调制器的偏置参数，x_c表示为输入调制层的特征图；y_c表示为经过调制层调制后的特征图。

进一步的，所述视觉调制器以VGG16卷积神经网络作为训练模型，以第一帧带注释的目标图像、该第一帧带注释的目标图像的随机缩放图像和第一帧带注释的目标图像的随机旋转图像为输入，以逐通道的缩放参数γ为输出。

进一步的，所述空间调制器使用池化操作将先前帧预测的目标掩膜的空间位置信息对应的二维高斯分布的热图下采样为不同的尺度，以匹配分割网络中的不同特征图的分辨率大小，对每个下采样的热图应用缩放和位移操作得到该热图的随机缩放图像和随机偏移图像；

所述空间调制器以先前帧预测的目标掩膜的空间位置信息对应的二维高斯分布的热图、该热图的随机偏移图像和该热图的随机缩放图像为输入，以逐元素的偏置参数β为输出：

其中，m是相应调制层的下采样高斯热图，和分别是第c个通道的缩放和移位参数。

进一步的，所述特征注意金字塔模块包括分支1、分支2和分支3；

所述分支1，采用不同尺度大小的池化核构建一个金字塔级结构，对输入特征注意金字塔模块的特征图划分为不同的子区域，不同金字塔级的输出包含不同大小的特征图，通过双线性插值对不同尺度的特征进行上采样，使其恢复到与输入特征注意金字塔模块的特征图相同的大小，并对不同金字塔级的特征图进行融合；

所述分支2，通过输入特征注意金字塔模块的特征图应用全局平均池化操作学习得到全局上下文信息，应用双线性插值得到全局像素的空间信息；

所述分支3，对输入特征注意金字塔模块的特征图进行1×1的卷积操作；

所述特征注意金字塔模块的结构为：将分支3与分支1的特征图进行逐像素相乘，而后与分支2中学到的全局像素的空间信息进行逐像素相加，得到最终的特征表示。

有益效果：本发明提出了一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，首先使用视觉调制器学习基于第一帧带注释目标掩模中的视觉信息，生成对应的逐通道权重以调整分割网络特征图中不同通道的权重，然后使用空间调制器将先前帧预测的目标掩模的空间位置信息设置为先验，生成对应的逐元素的偏置参数来将空间先验注入到调制特征中，借助于这两个调制器的调制能力使得分割模型适应于特定分割目标。接着构建特征注意金字塔模块学习不同尺度的特征，同时将全局上下文先验作为引导使特征图产生更好的像素级注意，实现高质量的像素级视频目标分割。在目标遭受部分遮挡、旋转、尺度变化、快速运动、剧烈光照变化等各种情况时，本发明能够显著地提高分割算法的鲁棒性，使得分割算法依然可以有效地实现高质量的分割。

附图说明

图1为本发明的网络结构原理图；

图2为本发明的特征注意金字塔模块的结构图；

图3为本发明的示例图。

具体实施方式

本发明提出了一种基于调制网络和特征注意金字塔的半监督视频目标分割方法。首先借助于视觉调制器和空间调制器来分别学习分割目标的视觉和空间信息，将其作为先验引导使得分割模型适应于特定目标。然后使用特征注意金字塔模块将注意机制和空间金字塔相结合，使用不同尺度池化后的特征融合来聚合不同感受野的上下文信息，从而在不同尺度目标的分割上都能有效的结合上下文信息，同时借助于全局上下文先验知识学习更好的特征表示，最终实现高质量的视频目标分割。

实施例1：

本实施例的一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，在一次前向过程中将通用分割网络适应于特定目标实例的外观。本实施例利用视觉调制器和空间调制器的调制作用来学习如何调整给定任意目标实例的通用分割网络的中间层。如图1所示，两个调制器网络分别通过从第一帧带注释目标掩模以及先前帧目标掩模的空间先验信息中提取信息，各自生成一个参数列表，对分割模型进行逐层特征调制，使其专注于感兴趣目标的分割。然后通过特征注意金字塔模块融合不同尺度池化后的特征来利用不同感受野的上下文信息，同时生成全局上下文先验来为特征图产生更好的像素级注意，以学习更好的特征表示，实现高质量的视频目标分割。

本实施例具体包括以下步骤：

步骤一：构建以经过剪裁操作后的第一帧带注释的目标掩模图像、该目标掩模图像10％的随机缩放图像和10°的随机旋转图像为输入，以逐通道的缩放参数γ为输出的视觉调制器，本实施例的视觉调制器从视觉引导中提取语义信息，例如颜色纹理形状等，并生成对应的逐通道的缩放参数以重新定位分割网络来分割目标。具体为：

首先对第一帧带注释的目标掩模进行裁剪操作，然后将背景像素设置为平均像素值，并将裁剪后的图像调整为224×224的固定分辨率大小。本实施例还对其增加了约10％的随机缩放和10°的随机旋转进行数据增强。

如图1的上半部分所示，本实施例采用VGG16神经网络作为视觉调制器的训练模型，本实施例修改了VGG16最后一个全连接层的参数个数，以匹配用于分割网络的调制层中的参数数量，最终产生逐通道的缩放参数γ并将其输入到步骤三的分割网络中。

步骤二：空间调制器。本实施例将先前帧预测的目标掩模的空间位置设置为先验，将先前帧预测的目标掩模的空间位置信息编码为具有二维高斯分布的热图，该高斯分布的平均值和标准偏差根据先前帧预测的目标掩模来计算，然后用约20％的随机偏移和40％的随机缩放来增强掩模，将具有二维高斯分布的热图、对其进行20％的随机偏移图像和40％的随机缩放图像作为空间调制器的输入；

空间调制器使用池化操作将热图下采样为不同的尺度，以匹配分割网络中的不同特征图的分辨率大小，然后对每个下采样的热图应用缩放和移位操作，得到经过缩放和移位后的特征图，该空间调制器输出用于生成相应调制层参数的偏置参数，并将其输入到步骤三的分割网络中，如下：

步骤三：分割网络。本实施例将VGG16卷积神经网络作为主干网络，去除全连接层和最后的池化层，增加空间特征分辨率。在分割网络的每一个卷积层之后定义了一个调制层，它的参数由视觉调制器和空间调制器共同训练产生，来对卷积特征进行调制。视觉调制器生成逐通道的缩放参数γ，来调整特征图中不同通道的权重。空间调制器生成逐元素的偏置参数β，以元素相加的方式来将空间先验调制到特征图中。具体来说，调制层进行如下配置：

y_c＝γ_cχ_c+β_c

其中，γ_c和β_c分别表示来自第c个通道的视觉调制器的缩放参数和空间调制器的偏置参数。γ_c是一个用于逐通道加权的标量，β_c是一个二维矩阵，来应用逐元素的偏置值，x_c为输入至调制层的特征图，y_c为经调制层调制后的特征图。

步骤四：构建一个特征注意金字塔模块来对经过调制后的特征图构造精确的像素级注意；该特征注意金字塔模块有3个分支。通过一个金字塔结构可提取不同尺度的特征信息，并有效增加感受野。然后，通过全局上下文先验逐通道选取特征，同时提供全局像素的空间信息。

分支1如图2中下部分所示，首先利用不同尺度大小的池化核构建一个金字塔级结构，将原始特征图划分为不同的子区域，因此，不同金字塔级的输出包含不同大小的特征图。具体来说，本实施例分别采用30×30,15×15,10×10,5×5的池化核来学习不同尺度的特征。然后在每个金字塔级后使用1×1的卷积，通道数为128。最后通过双线性插值对不同尺度的特征进行上采样，使其恢复到与输入特征注意金字塔模块的特征图相同的大小，并对其进行融合；

分支2对应图2中上部分所示，通过全局平均池化操作学习全局上下文信息，并应用双线性插值产生全局像素的空间信息。

分支3是对输入特征注意金字塔模块的特征图进行1×1的卷积操作，因此整个特征注意金字塔模块的结构为将分支3与分支1中融合不同尺度信息的金字塔特征逐像素相乘，最后与分支2中学到的全局上下文先验进行逐像素相加，得到最终的特征表示。

步骤五：上采样融合。如图1虚线部分，本实例在分割网络的倒数第二和倒数第三阶段的最后一层卷积(经过步骤一视觉调制器和步骤二空间调制器调制后)以及步骤四特征注意金字塔输出的特征图上分别引入一个侧输出层，对其特征进行上采样得到与原图相同分辨率大小的特征图，并将其融合，通过一个1×1的卷积产生最终的分割结果，这样可以将高层的语义信息和低层的空间信息融合，同时学习不同尺度的特征。

Claims

1.一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，其特征在于：所述分割网络以VGG16卷积神经网络作为主干网络，在所述分割网络的每一个卷积层后加入一个调制层，所述调制层的参数由视觉调制器和空间调制器共同训练产生，该调制层进行如下配置：

y_c＝γ_cχ_c+β_c

3.根据权利要求2所述的一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，其特征在于：所述视觉调制器以VGG16卷积神经网络作为训练模型，以第一帧带注释的目标图像、该第一帧带注释的目标图像的随机缩放图像和第一帧带注释的目标图像的随机旋转图像为输入，以逐通道的缩放参数γ为输出。

4.根据权利要求2所述的一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，其特征在于：所述空间调制器使用池化操作将先前帧预测的目标掩膜的空间位置信息对应的二维高斯分布的热图下采样为不同的尺度，以匹配分割网络中的不同特征图的分辨率大小，对每个下采样的热图应用缩放和位移操作得到该热图的随机缩放图像和随机偏移图像；

5.根据权利要求1所述的一种基于调制网络和特征注意金字塔的半监督视频目标分割方法，其特征在于：所述特征注意金字塔模块包括分支1、分支2和分支3；