CN110148138A

CN110148138A - 一种基于双重调制的视频目标分割方法

Info

Publication number: CN110148138A
Application number: CN201910432731.6A
Authority: CN
Inventors: 宋慧慧; 汤润发; 姜斯浩; 张开华; 张晓露
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-08-20

Abstract

本发明公开了一种基于双重调制的视频目标分割方法，包括步骤一：将当前视频帧图像输入至调制好的分割网络中，输出当前视频帧图像中分割目标对应的特征图；步骤二：将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图，完成目标分割；所述特征注意金字塔模块借助于该输入的特征图的全局上下文表示，来学习得到输入的特征图的不同尺度信息，得到分割目标对应的最终特征图。

Description

一种基于双重调制的视频目标分割方法

技术领域

本发明涉及视频目标分割领域，尤其是设计了一种基于双重调制的视频目标分割方法。

背景技术

视觉目标分割是计算机视觉中的一项基本任务，它有着广泛的应用，例如：视频监控、无人驾驶、视频编辑和人机交互等。尽管最近几年已经取得了很大进步，但是，仅仅给定第一帧的目标掩模位置信息，在一些无约束的环境中，受到相机运动，目标之间互相遮挡和动态背景变化等情况时会面临巨大的挑战。

视频目标分割的任务是在给定第一帧标注的特定目标情况下，在后续视频中准确的将特定目标从背景中分割出来。近年来由于卷积神经网络已经证明在许多计算机视觉应用领域有着卓越性能，因此现有的视频目标分割算法有着相似的训练过程：首先训练一个通用的全卷积神经网络来分割前景目标，然后基于视频的第一帧带标注的目标掩模对网络进行数百次的迭代微调，使得分割模型适应于特定的视频序列。尽管这种方法实现了很高的精度，但是微调过程可能会耗费大量时间，使其无法满足实时应用的需要。

发明内容

本发明的目的在于针对现有技术的缺陷或问题，提供一种基于双重调制的视频目标分割方法。

本发明所采用的技术方案是：一种基于双重调制的视频目标分割方法，包括以下步骤：

步骤一：将当前视频帧图像输入至调制好的分割网络中，输出当前视频帧图像中分割目标对应的特征图；

步骤二：将分割网络输出的特征图输入至特征注意金字塔模块中得到分割目标对应的最终特征图，完成目标分割；

所述特征注意金字塔模块获得该输入的特征图的全局上下文表示，学习得到输入的特征图的不同尺度信息，得到分割目标对应的最终特征图。

进一步的，所述分割网络基于VGG16全卷积网络，在VGG16全卷积网络的每个卷积层后面定义一个调制层，该调制层的参数由视觉调制器和空间调制器共同训练产生；

所述视觉调制器用于学习视频第一帧带标注目标图像中的语义信息，生成使分割网络专注于分割目标外观的逐通道的缩放参数；

所述空间调制器用于学习先前帧预测目标掩膜的空间线索，对当前帧目标位置进行估计，生成逐元素的偏置参数。

进一步的，在VGG16全卷积网络的每个阶段的最后一层卷积层后构建一个特征细化调制模块，将经最后一层卷积层的调制层调制后的特征加入到特征细化调制模块进行第二次调制，得到细化后的特征。

进一步的，以最小化损失函数为目标训练VGG16全卷积网络形成分割网络。

进一步的，对分割网络的调制层进行如下配置：

y_c＝γ_cχ_c+β_c

其中，γ_c和β_c分别表示来自第c通道的视觉调制器和空间调制器的缩放参数和偏置参数，x_c表示输入至调制层的特征图，y_c表示经调制层调制后的特征图。

进一步的，所述视觉调制器训练产生缩放参数的步骤为：使用训练好的以视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像为输入，以逐通道的缩放参数γ为输出的VGG-16神经网络作为视觉调制器的网络模型，该VGG-16神经网络的最后一层的全连接层的神经元个数与所述分割网络中的调制层的通道总数相对应，将待进行目标分割的视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像输入至视觉调制器，得到以逐通道的缩放参数γ。

进一步的，所述空间调制器训练产生偏置参数的步骤包括：所述空间调制器通过逐层的池化操作将由先前帧预测的目标掩模编码得到的二维高斯分布的热图下采样为不同的尺度，匹配所述分割网络中不同特征图的尺寸大小，对每个下采样的热图应用缩放和移位操作以生成相应调制层的偏置参数：

其中，m是相应调制层的下采样高斯热图，和分别是第c个通道的缩放和移位参数。

进一步的，所述特征细化调制模块包括通道注意模块和空间注意模块；通过所述通道注意模块得到通道细化特征图，将得到的通道细化特征图作为所述空间注意模块的输入特征，通过所述空间注意模块得到细化特征图；

所述通道注意模块分别对输入的特征图y应用全局平均池化和全局最大池化来聚合输入的特征图y中的空间信息，生成两个不同的空间上下文特征向量；将这两个特征向量分别传递到共享网络，各自生成特征图，并以逐元素求和的方式对其合并得到通道注意图最终通过sigmoid函数以逐通道的方式与输入的特征图y相乘，得到通道细化特征图并将其作为空间注意模块的输入特征；

所述空间注意模块将通道注意模块输出的特征图y′作为输入，基于通道维度分别对特征图y′进行最大池化和平均池化操得到两个特征图，将两个特征图进行连接，并通过卷积操作降维成1通道的特征图，最终通过sigmoid函数以逐通道的方式与特征图y′相乘，得到最终的细化特征图

进一步的，所述特征注意金字塔模块包括分支1、分支2和分支3；

所述分支1，对输入到特征注意金字塔模块的特征图采用全局平均池化操作学习其全局上下文信息，生成全局像素的空间信息；

所述分支2，对输入到特征注意金字塔模块的特征图采用不同大小的池化核学习得到不同尺度的特征信息，得到不同尺度的金字塔级特征；

所述分支3，对输入到特征注意金字塔模块的特征图采用1×1的卷积；

所述特征注意金字塔模块的结构为所述分支3与分支2的特征进行逐像素相乘，而后与分支1中产生的全局像素的空间信息进行逐像素相加，得到最终的特征图。

进一步的，所述损失函数为平衡损失函数，表示如下：

其中，ω为加权平衡因子，ω＝|Y_-|/(|Y₊|+||Y_-|),Y₊和Y_{_}分别为正负标签像素，p′是预测像素为前景的概率，α为用于平滑的调整抑制简单样本的速率的超参数。

有益效果：本发明公开了一种基于双重调制的视频目标分割方法，其主要内容包括双重调制模块、分割网络以及特征注意金字塔模块。其中双重调制模块分为三部分组成：视觉调制器、空间调制器和特征细化调制模块，其过程为，视觉调制器和空间调制器对分割网络进行第一次调制，首先通过视觉调制器学习第一帧带标注目标中的语义信息，生成对应的逐通道权重来调制分割网络使其专注于特定分割目标的外观；接着，构建空间调制器学习先前帧预测目标掩模的空间信息，对当前帧目标位置的粗略估计，生成对应的逐元素的偏置参数来将空间先验注入到分割网络中，使得分割网络专注于特定分割目标；然后构建特征细化调制模块对经过视觉调制器和空间调制器调制后的特征进行第二次调制细化，得到强大的特征表示。最后构建特征注意金字塔模块挖掘不同尺度的特征，同时将全局上下文先验作为引导得到强大的特征表示，实现高质量的视频目标分割。

本发明通过双重调制作用使得分割模型专注于特定目标，接着利用特征注意金字塔学习不同尺度的特征信息，实现高质量的像素级视频目标分割。在相机抖动、目标变形、实例之间互相遮挡等各种情况时，本发明的视频目标分割算法依然可以有效地实现高质量的分割。

附图说明

图1为本发明的原理图；

图2为本发明的特征细化调制模块的原理图；

图3为本发明的特征注意金字塔原理图；

图4为本发明的实例示意图。

具体实施方式

本发明提出了一种基于双重调制的半监督视频目标分割方法，通过视觉调制器和空间调制器分别学习分割目标的视觉和空间信息，对分割模型进行第一次调制使其专注于特定目标，接着构建一个特征注意细化模块对分割模型进行第二次调制来进一步细化特征。最后将调制后的特征通过一个特征注意金字塔模块来学习不同尺度的信息，减少细节信息的丢失，实现高质量的视频目标分割。本发明还对损失函数进行改进，在解决样本不平衡问题的同时，能够区分简单和困难样本，加速网络收敛。

下面结合附图和实施例进一步阐述本发明。

实施例：

本实施例的一种基于双重调制的视频目标分割方法，包括以下步骤：

步骤一：构建视觉调制器：对第一帧带标注的目标图像(RGB图像)进行预处理，根据目标掩模(ground truth)的最上、下、左、右的像素坐标将其裁剪，将背景像素设为平均像素值。为了统一输入尺寸，对裁剪后的图像调整为224×224固定尺寸，还对其应用10％的随机缩放和10°的随机旋转，最后将其作为视觉调制器的输入。

如图1的上半部分所示，使用VGG-16神经网络作为视觉调制器的网络模型，其中对最后一层的全连接层的神经元个数进行了调整，对应分割网络中调制层的通道总数，最终产生逐通道的缩放参数γ。

步骤二：构建空间调制器：首先对空间调制器的输入进行预处理。将先前帧预测的目标掩模编码为二维高斯分布的热图，然后采用20％的随机偏移和40％的随机缩放来对其变形。

空间调制器通过逐层的池化操作将高斯热图下采样为不同的尺度，以匹配分割网络中不同特征图的尺寸大小，然后对每个下采样的热图应用缩放和移位操作以生成相应调制层的偏置参数，如下：

其中，m是相应调制层的下采样高斯热图，和分别是第c个通道的缩放和移位参数；

步骤三：特征细化调制模块：如图2(a)所示，对经过视觉调制器和空间调制器调制后的特征进行第二次调制细化。特征细化调制模块由两部分组成：通道注意模块和空间注意模块。通道注意模块用于调整特征图使其专注于分割目标的特征，并抑制无关的特征。空间注意模块用于调整特征图使其专注于分割目标的空间位置信息，并抑制背景信息。

如图2(b)所示，通道注意模块分别对输入的特征图y应用全局平均池化和全局最大池化来聚合特征图中的空间信息，生成两个不同的空间上下文特征向量。然后将这两个特征向量分别传递到共享网络，各自生成特征图，并以逐元素求和的方式对其合并得到通道注意图最终通过sigmoid函数以逐通道的方式与输入的特征图y相乘，得到通道细化特征图并将其作为空间注意模块的输入特征；

如图2(c)所示，将通道注意模块输出的特征图y′作为输入，基于通道维度分别进行最大池化和平均池化操作来聚合特征图y′的通道特征，并将得到的两个特征图进行连接，然后通过一个卷积操作降维成1通道的特征图，最终通过sigmoid函数以逐通道的方式与输入特征图y′相乘，得到最终的细化特征图

步骤四：分割网络。分割网络是基于VGG-16的全卷积网络，本实施例去除全连接层以及最后一层池化层。它分为5个阶段，每个阶段对应的卷积层分别为2,2,3,3,3。在每一个卷积层后面加入一个调制层，该调制层的参数通过视觉调制器和空间调制器共同训练产生，使分割网络专注于特定分割对象。视觉调制器生成逐通道的缩放参数γ，来调整分割网络中不同特征图中通道的权重。空间调制器生成逐元素的偏置参数β，以元素相加的方式调整分割网络中不同特征图的空间位置权重。具体来说，调制层进行如下配置：

y_c＝γ_cχ_c+β_c

其中γ_c和β_c分别表示来自第c通道的视觉调制器和空间调制器的缩放参数和偏置参数。γ_c是一个用于逐通道加权的标量，β_c是一个二维矩阵，来应用逐元素的偏置值，x_c表示输入到调制层的特征图，y_c表示经调制层调制后的特征图。

在每个阶段的最后一层卷积后加入一个特征细化调制模块进行第二次调制以便进一步细化特征。通过通道注意模块和空间注意模块分别学习通道维度的特征信息和空间维度的特征信息自适应的对分割网络进行细化调制，具体来说，第二次调制层进行如下配置：

其中表示元素相乘，y″表示最终细化的特征。

步骤五：特征注意金字塔模块。将空间金字塔和注意机制进行结合，构建得到特征注意金字塔模块来学习不同尺度的特征信息。如图3所示，特征注意金字塔模块一共有三个分支组成：

分支1：首先通过全局平均池化操作学习全局上下文信息，接着通过一个通道数为512的1×1卷积，并通过双线性插值上采样到与原始特征图分辨率相同大小，从而生成全局像素的空间信息。

分支2：利用不同大小的池化核来学习不同尺度的特征信息，从而构建一个金字塔级。这里的池化核大小分别设为30×30,15×15,10×10,5×5。然后我们在每个金字塔级后分别使用通道数为128的1×1卷积。最后对每个金字塔级特征使用双线性插值上采样到与原始特征图分辨率相同的大小，并通过融合操作以及3×3的卷积来聚合不同尺度金字塔级特征。

分支3是对输入到特征注意金字塔模块的特征图使用1×1的卷积。因此整个特征注意金字塔的结构是将分支3与分支2中融合不同尺度信息的金字塔级特征进行逐像素相乘，最后与分支1中产生的全局像素信息进行逐像素相加，得到最终的特征图。

步骤六：平衡损失函数。为了区分简单样本和困难样本，使得网络专注于困难样本训练，加速网络收敛，同时解决样本不平衡问题，修改了通用的交叉熵损失：

其中ω＝|Y_-|/(|Y₊|+|Y_-|),Y₊和Y_-分别为正负标签像素，p′是预测像素为前景的概率。α是一个超参数，可以平滑的调整抑制简单样本的速率。当α＝0时，我们修改的损失类似于交叉熵损失，当α增加时，调制作用也随之增强，当α＝2时调节效果最佳。当p＝1时，如果p′接近于1，那么(1-p′)接近于0，简单样本的损失会被抑制，可以专注于困难样本的训练。ω是一个加权平衡因子，用来解决样本不平衡问题。同时每一批图像中正负样本标签像素数量不同，因此平衡因子可以自适应在每帧中调整。

Claims

1.一种基于双重调制的视频目标分割方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于双重调制的视频目标分割方法，其特征在于：所述分割网络基于VGG16全卷积网络，在VGG16全卷积网络的每个卷积层后面定义一个调制层，该调制层的参数由视觉调制器和空间调制器共同训练产生；

3.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：在VGG16全卷积网络的每个阶段的最后一层卷积层后构建一个特征细化调制模块，将经最后一层卷积层的调制层调制后的特征加入到特征细化调制模块进行第二次调制，得到细化后的特征。

4.根据权利要求3所述的一种基于双重调制的视频目标分割方法，其特征在于：以最小化损失函数为目标训练VGG16全卷积网络形成分割网络。

5.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：对分割网络的调制层进行如下配置：

y_c＝γ_cχ_c+β_c

6.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：所述视觉调制器训练产生缩放参数的步骤为：使用训练好的以视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像为输入，以逐通道的缩放参数γ为输出的VGG-16神经网络作为视觉调制器的网络模型，该VGG-16神经网络的最后一层的全连接层的神经元个数与所述分割网络中的调制层的通道总数相对应，将待进行目标分割的视频第一帧带标注的目标图像、目标图像对应的随机缩放图像和随机旋转图像输入至视觉调制器，得到以逐通道的缩放参数γ。

7.根据权利要求2所述的一种基于双重调制的视频目标分割方法，其特征在于：所述空间调制器训练产生偏置参数的步骤包括：所述空间调制器通过逐层的池化操作将由先前帧预测的目标掩模编码得到的二维高斯分布的热图下采样为不同的尺度，匹配所述分割网络中不同特征图的尺寸大小，对每个下采样的热图应用缩放和移位操作以生成相应调制层的偏置参数：

8.根据权利要求3所述的一种基于双重调制的视频目标分割方法，其特征在于：所述特征细化调制模块包括通道注意模块和空间注意模块；通过所述通道注意模块得到通道细化特征图，将得到的通道细化特征图作为所述空间注意模块的输入特征，通过所述空间注意模块得到细化特征图；

9.根据权利要求1所述的一种基于双重调制的视频目标分割方法，其特征在于：所述特征注意金字塔模块包括分支1、分支2和分支3；

10.根据权利要求4所述的一种基于双重调制的视频目标分割方法，其特征在于：所述损失函数为平衡损失函数，表示如下：

其中，ω为加权平衡因子，ω＝|Y_-|/(|Y₊||Y_-|),Y₊和Y_-分别为正负标签像素，p′是预测像素为前景的概率，α为用于平滑的调整抑制简单样本的速率的超参数。