CN111462132A

CN111462132A - 一种基于深度学习的视频物体分割方法及系统

Info

Publication number: CN111462132A
Application number: CN202010200661.4A
Authority: CN
Inventors: 范建平; 牛凯迪
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-28

Abstract

本发明提供了一种基于深度学习的交互式视频目标分割方法和系统，一种基于深度学习的视频物体分割方法，包括：S1：待处理视频以帧为分析单位，用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域；S2：根据初始标注信息，利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割，再利用基于深度学习的半监督视频物体分割算法逐帧传递，得到所有帧图像的目标物体区域为视频物体分割结果。在Davis视频数据集上取得了不错的分割结果。

Description

一种基于深度学习的视频物体分割方法及系统

方法领域

本发明属于视频物体分割方法领域，具体涉及一种基于深度学习的视频物体分割方法及系统。

背景方法

视觉感知是人类获取信息的主要途径，人们通过快速分析从视觉系统获取到的大量图像，从中抽取主要信息并指导人们进行分析判断。近年来，随着计算机方法的发展和应用的多样化，人们对图像尤其是连续的视频图像序列的需求越来越大，这也激发了人们对视频图像处理方法不断研究的兴趣。

视频分割是视频处理研究的基础和重点，它将视频序列图像按一定的标准分割成不同的区域，并从中提取出人们感兴趣的或有一定意义的实体，这些实体通常被称为视频对象(Video Object)。视频序列中运动物体的分割主要是提取出场景中的运动实体。这一过程借助模式识别、计算机视觉、图像处理等相关领域的知识使底层的视频处理过渡到更高层次的视频分析和理解，它在军事方法、机器人视觉导航、模式识别、智能监控、医疗诊断等领域得到广泛应用。特别是在新一代视频编码标准提出和多媒体应用多样化后，序列图像中运动物体的分割在视频应用中更普遍，由此也引起了人们对这一研究领域的更多关注。

目前，传统的视频分割算法有高斯背景模型，贝叶斯统计模型，时空域的马尔可夫随机场模型等。对视频序列建立合适的数学模型，可以为运动物体的分割提供良好的理论基础，从而得到符合要求的语义物体。但由于应用环境的复杂多样和应用要求的变化，在视频序列中分割运动对象仍是一项极具挑战性的任务，也还存在一些亟待解决的难点。视频场景中，光照、亮度等变化对现有的运动物体分割算法影响较大，在背景复杂、摄像机旋转、物体运动形态变换等情况下，分割效果也不尽理想。同时，场景中物体的投射阴影也极大地影响了运动物体分割的精度。

深度学习在多个领域里都取得了不错的成绩。卷积神经网络在物体分类上的应用取得了巨大的成功。目前，CV学术界在视频物体分割方面的研究主要分为两个方向：(1)半监督视频物体分割(2)无监督视频物体分割。

其中，学术界更倾向于研究半监督视频物体分割，因为这是视频物体分割的最基础算法，也是比较纯粹的一个研究点。在半监督视频物体分割中，给定用户感兴趣物体在视频第一帧图片上的分割区域，算法来获取在后续帧上的物体分割区域。半监督视频物体分割由于其需要第一帧物体区域的ground-truth。无监督视频物体分割(亦称作视频显著性检测)寻找并分割视频中的主要目标。这意味着算法需要自行决定哪个物体才是主要的。

发明内容

针对现有方法存在的不足，本发明的目的在于，提供一种基于深度学习的视频物体分割方法及系统，解决现有方法中存在的如下问题：对于半监督视频物体分割，需要第一帧物体区域的ground-truth，通常是由人工进行第一帧的标注，然而人工标注费时费力，且无法得到统一。在无监督视频物体分割中，物体显著性是主观概念，不同人之间存在一定的歧义。

为解决上述问题，本发明给出的技术方案为：

一种基于深度学习的视频物体分割方法，包括：

S1：待处理视频以帧为分析单位，用户对初始帧中感兴趣的物体进行画框标注得到目标物体区域为初始标注信息；

S2：根据初始标注信息，利用交互式图像物体分割算法将初始帧图像上的目标物体区域进行分割，再利用基于深度学习的半监督视频物体分割算法逐帧传递，得到所有帧图像的目标物体区域为视频物体分割结果。

可选的，用户对视频物体分割结果中的所有帧图像进行检查，当出现帧图像的错误分割结果时，循环运行S1和S2的步骤，直至视频中所有帧图像的分割结果均正确。

可选的，基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想，通过传统图割算法得到用户所标注的目标物体区域，然后将目标物体区域与视频序列放入神经网络中训练；

所述的神经网络为全卷机神经网络，全卷机神经网络结构分为编码和解码阶段：编码阶段通过对VGG网络结构进行改进，删除全连接层，改为卷积层保留特征信息，添加新的损失交叉熵函数，采用深度学习结合概率图模型，在后端使用CRFs优化前端输出，得到最终分割结果图。

可选的，全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层，分为5个stage；第一个stage包含两个Conv3-64，第二个stage包含2个Conv3-128，第三个stage包含3个Conv3-256，第四个stage包含3个Conv3-512，第四个stage包含3个Conv3-512；每个stage之间通过池化操作对特征图进行下采样操作；连接池化层前的卷积层来形成跳跃路径；将来自不同跳跃路径的特征图连接起来，形成一个具有不同详细层信息的立方体，将特征图线性融合到一个图像维度大小相同的单个输出上，并为它分配一个新的损失函数L：

其中y为真值，a为神经元实际输出,n为训练集样本容量。

一种基于深度学习的视频物体分割系统，该系统写入基于深度学习的视频物体分割算法，包括：

其中y为真值，a为神经元实际输出,n为训练集样本容量。

本发明与现有方法相比，具有如下方法效果：

本发明首先由用户对初始帧中感兴趣的物体进行画框标注；通过交互式的图像算法，分割得到感兴趣的物体在该帧图像上的物提区域。采用半监督视频物体分割的思想，将其放入网络中进行训练。本发明采用深度学习结合概率图模型，在后端使用CRFs优化前端输出，得到最终分割结果图。

本发明是结合了人机交互的分割算法，首先避免人工手动标注第一帧的ground-truth，节省人力时间；后续的分割网络中将视频对象分割作为每帧分割问题进行投射，与主流方法相比不需要考虑视频的时间一致性

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。

图1为本发明基于深度学习的视频物体分割方法的流程图；

图2为本发明基于深度学习的视频物体分割方法分割实例流程图；

图3为分割网络结构图；

图4为本发明基于深度学习的视频物体分割方法分步训练过程；

图5为CRFs示意图；

图6为本发明一次交互与两次交互的对比实验结果。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

本发明的目的在于，提供一种基于深度学习的交互式视频物体分割方法。在交互式视频物体分割中，输入不是第一帧物体的ground-truth，而是视频任意一帧中物体的用户交互信息。用户交互信息可以是物体bounding box、物体区域的划线、外边缘的极值点等。通过利用用户少量交互，逐步提高视频物体分割正确率，提升用户观感体验。

本发明给出了基于深度学习的视频物体分割方法，包括：

在本公开中，用户对视频物体分割结果中的所有帧图像进行检查，当出现帧图像的错误分割结果时，循环运行S1和S2的步骤，直至视频中所有帧图像的分割结果均正确。

在本公开中，基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想，通过传统图割算法得到用户所标注的目标物体区域，然后将目标物体区域与视频序列放入神经网络中训练；

神经网络为全卷机神经网络，全卷机神经网络结构分为编码和解码阶段：编码阶段通过对VGG网络结构进行改进，删除全连接层，改为卷积层保留特征信息，添加新的损失交叉熵函数，采用深度学习结合概率图模型，在后端使用CRFs优化前端输出，得到最终分割结果图。

在本公开中，全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层，分为5个stage；第一个stage包含两个Conv3-64，第二个stage包含2个Conv3-128，第三个stage包含3个Conv3-256，第四个stage包含3个Conv3-512，第四个stage包含3个Conv3-512；每个stage之间通过池化操作对特征图进行下采样操作；连接池化层前的卷积层来形成跳跃路径；将来自不同跳跃路径的特征图连接起来，形成一个具有不同详细层信息的立方体，将特征图线性融合到一个图像维度大小相同的单个输出上，并为它分配一个新的损失函数L：

其中y为真值，a为神经元实际输出,n为训练集样本容量。

本发明还给出了基于深度学习的视频物体分割系统，该系统写入本发明的基于深度学习的视频物体分割算法。

实施例一：

本发明公开了一种基于网络标签与显著区域的图像检索方法，如图1所示，包括以下步骤：

步骤1，首先由用户对初始帧中感兴趣的物体进行画框标注；

步骤2，根据用户输入的标注信息，利用交互式图像物体分割算法—grubcut分割出物体在该帧图像上的物体区域；

Grubcut算法实现：采用该论文中的方法进行，论文信息为：Tang M,Gorelick L,Veksler O,et al.GrabCut inOne Cut[C]//IEEE International Conference onComputer Vision.IEEE ComputerSociety,2013:1769-1776.

分割网络具体实现：

网络模型采用深度学习方法做分割结合传统机器学习算法对分割结果进行后处理，分割网络的具体结构如表1所示。

表1

Name	Parameter	Output Size
			Conv3-64	64，3×3	n×n×64
Conv3-64	64，3×3	n×n×64
			maxpooling	2×2，2×2	n/2×n/2×64
Conv3-128	128，3×3	n/2×n/2×128
			Conv3-128	128，3×3	n/2×n/2×128
maxpooling	2×2，2×2	n/4×n/4×128
			Conv3-256	256，3×3	n/4×n/4×256
Conv3-256	256，3×3	n/4×n/2×256
			Conv3-256	256，3×3	n/4×n/4×256
maxpooling	2×2，2×2	n/8×n/8×256
			Conv3-512	512，3×3	n/8×n/8×512
Conv3-512	512，3×3	n/8×n/8×512
			Conv3-512	512，3×3	n/8×n/8×512
maxpooling	2×2，2×2	n/16×n/16×512
			Conv3-512	512，3×3	n/16×n/16×512
Conv3-512	512，3×3	n/16×n/16×512
			Conv3-512	512，3×3	n/16×n/16×612
maxpooling	2×2，2×2	n/32×n/32×512

(1)网络结构，如图3所示；

基于VGG网络，对其进行了精确修改局部密集预测。全连接分类所需的图层被删除，并且进行有效的图像到图像推断。VGG体系结构由卷积组组成加上整流线性单位(ReLU)层，分为5个stage。第一个stage包含两个Conv3-64，第二个stage包含2个Conv3-128，第三个stage包含3个Conv3-256，第四个stage包含3个Conv3-512，第四个stage包含3个Conv3-512。每个stage之间通过池化操作对特征图进行下采样操作。连接池化层前的卷积层来形成跳跃路径。将来自不同跳跃路径的特征图连接起来，形成一个具有不同详细层信息的立方体，将特征图线性融合到一个图像维度大小相同的单个输出上，并为它分配一个新的损失函数：

损失函数是用来评价模型的预测值与数据集的真值(ground truth)之间的差异的。方差损失函数是常用的损失函数L，该损失函数常用于线性回归，如下式所示：

其中，y为真值，a为神经元实际输出，a＝σ(z)，z＝∑W_j×X_j+b。在神经网络的训练过程中，w和b数值的迭代是通过梯度下降算法来进行的，在z的大部分取值范围内Sigmoid函数的一阶导数接近于0，所以σ′(z)的值会很小，导致w和b值的改变非常的慢。这就造成了方差损失函数一个明显的缺点：参数更新缓慢，导致训练速度过慢，训练结果差。

所以针对端到端的图像分割，选用了交叉熵代价函数L：

其中y为真值，a为神经元实际输出，n为训练集样本容量，a＝σ(z)，z＝∑ω_j×X_j+b。

交叉熵代价函数具有以下两个性质：(1)非负性，优化的目标就是将代价函数最小；(2)当a和y相差不大时，代价函数约等于0。分别对ω_j和b求导：

参数更新的速度只与σ(z)-y有关，即更新速度随误差的增大而增大。从而克服了方差代价函数参数更新缓慢的问题。

解码阶段使用转置卷积，通过上采样将图像恢复到来本大小。使用skip结构融合多层输出，底层网络可以预测更多的位置信息，提高分割精度。

(2)网络训练过程

如图4中a所示，架构的基础CNN在ImageNet上进行了预训练以进行图像标记，被证明是对其他任务的很好初始化。未经过进一步训练，网络无法进行视频序列分割。因此，进一步使用训练集DAVIS中的二值mask训练成新的全卷积网络，使网络学习如何从背景中分割出前景物体的形状等，如图4中b所示。现在，每一个像素都可以被分类成前景或背景。在网络可用的情况下，可以继续执行的主要任务：分割视频中的特定实体。结合给定的视频序列和通过步骤2得到的分割结果。通过进一步训练网络来进行针对特定的图像的分割，然后使用新的权重在整个序列上进行测试，如图4中c所示。因此，方法受到微调时间的影响。通过实验可以发现，迭代次数越多，效果更好，但所需时间更长，从而用户将不得不等待结果。

(3)分割结果后处理(使用crfs对分割网络结果进行后处理，提高分割精度)

全连接CRFs是在目前深度学习图像分割应用中常用的一种图像后处理方式，它是CRFs的改进模式，能够结合原始影像中所有像素之间的关系对深度学习得到的分类结果进行处理，优化分类图像中粗糙和不确定性的标记，修正细碎的错分区域，同时得到更细致的分割边界。条件随机场如图5所示。

物体通常由较大的空间相邻区域表示，每个区域都有一个类别标签x_i和一个对应的观测值y_i，因此无向图中的每个点都成为某个节点。使用与变量的最终关系作为边缘连接，形成条件随机场。最终目标是使用观测值y_i推断此像素x_i最初拥有的类别标签。

全连接条件随机场符合吉布斯分布，如下公式所示：

其中x是观测值，E(X|I)是能量函数，该能量函数由一元势函数和二元势函数构成，如下公式所示：

其中的一元势函数用于衡量当像素点i的观测值y_i为时，该像素点属于类别x_i标签的概率,来自卷积神经网络网络的后端输出。二元势函数用于衡量两事件同时发生的概率p(x_i,y_i)，简单来说就是，希望两个相邻的像素点，如果颜色值y_i、y_j非常接近，那么这两个像素点x_i、x_j属于同一个类别的概率应该比较大才对；反之如果颜色差异比较大，那么分割的结果从这两个像素点裂开的概率应该比较大才对。这一个能量项正是为了让的分割结果尽量从图像边缘的地方裂开，也就是为了弥补前面所说的卷积神经网络分割的分类目标边界模糊的问题。

步骤4，然后，用户检查分割结果，在分割较差帧上，给出新的交互信息；算法根据新的交互信息，修改该帧图像上的分割结果；具体为，通过人眼观察，如图2，网络错误将新出现的车辆当作目标进行分割，对这一帧图像重新进行标注，用户对分割目标重新画框标注；根据用户新的交互信息，grubcut算法修改该帧图像上的分割结果，重新通过半监督视频物体分割算法修正其他帧的结果；

步骤5，重复步骤3和4，直到视频物体分割结果让用户满意。

图6(a)为Davis数据集上一个视频序列一次交互的分割结果，当视频进行到第36帧时，出现一个新的车辆，网络错误的将其当做目标分割。于是增加一次交互，修正第36帧的结果，重新利用分割网络向视频其他帧图像逐帧传递，修正其他帧结果。由图6(b)所示为两次人工交互的分割结果。

本实施例实验结果如下：

1、数据集选择

DAVIS是一个像素完美匹配标注的数据集。它的目标是重建真实的视频场景，如摄像机抖动、背景混杂、遮挡以及其它复杂状况。共包含了50个视频序列，选择其中30个视频序列作为训练集，剩下20个作为测试数据集。

2、评估方法

IoU值是目标检测的评价体系中的一个重要指标，即模型产生的目标窗口和原始标记窗口的交叠率。对于视频分割，IoU值表示分割结果与Ground Truth的交集比上这两者的并集，即为分割的准确率IoU，计算方法如式：

上式中，S表示分割结果，SGT表示ground-truth。

由于本发明是最终在Davis上20个测试集以平均每秒1.5帧的分割速度得到74.8％的mIoU。选择牺牲一定精度的方式来提高分割速度，以平均每秒11帧的速度获得了68.8％的mIoU。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种基于深度学习的视频物体分割方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的视频物体分割方法，其特征在于，用户对视频物体分割结果中的所有帧图像进行检查，当出现帧图像的错误分割结果时，循环运行S1和S2的步骤，直至视频中所有帧图像的分割结果均正确。

3.根据权利要求1或2所述的基于深度学习的视频物体分割方法，其特征在于，基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想，通过传统图割算法得到用户所标注的目标物体区域，然后将目标物体区域与视频序列放入神经网络中训练；

4.根据权利要求3所述的基于深度学习的视频物体分割方法，其特征在于，全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层，分为5个stage；第一个stage包含两个Conv3-64，第二个stage包含2个Conv3-128，第三个stage包含3个Conv3-256，第四个stage包含3个Conv3-512，第四个stage包含3个Conv3-512；每个stage之间通过池化操作对特征图进行下采样操作；连接池化层前的卷积层来形成跳跃路径；将来自不同跳跃路径的特征图连接起来，形成一个具有不同详细层信息的立方体，将特征图线性融合到一个图像维度大小相同的单个输出上，并为它分配一个新的损失函数L：

其中y为真值，a为神经元实际输出,n为训练集样本容量。

5.一种基于深度学习的视频物体分割系统，其特征在于，该系统写入基于深度学习的视频物体分割算法，包括：

6.根据权利要求5所述的基于深度学习的视频物体分割系统，其特征在于，用户对视频物体分割结果中的所有帧图像进行检查，当出现帧图像的错误分割结果时，循环运行S1和S2的步骤，直至视频中所有帧图像的分割结果均正确。

7.根据权利要求5或6所述的基于深度学习的视频物体分割系统，其特征在于，基于深度学习的视频物体分割算法为采用半监督视频物体分割的思想，通过传统图割算法得到用户所标注的目标物体区域，然后将目标物体区域与视频序列放入神经网络中训练；

8.根据权利要求7所述的基于深度学习的视频物体分割系统，其特征在于，全卷机神经网络由卷积组组成加上整流线性单位(ReLU)层，分为5个stage；第一个stage包含两个Conv3-64，第二个stage包含2个Conv3-128，第三个stage包含3个Conv3-256，第四个stage包含3个Conv3-512，第四个stage包含3个Conv3-512；每个stage之间通过池化操作对特征图进行下采样操作；连接池化层前的卷积层来形成跳跃路径；将来自不同跳跃路径的特征图连接起来，形成一个具有不同详细层信息的立方体，将特征图线性融合到一个图像维度大小相同的单个输出上，并为它分配一个新的损失函数L：

其中y为真值，a为神经元实际输出,n为训练集样本容量。