CN107704862A

CN107704862A - 一种基于语义实例分割算法的视频对象分割方法

Info

Publication number: CN107704862A
Application number: CN201711075943.0A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2018-02-16

Abstract

本发明中提出的一种基于语义实例分割算法的视频对象分割方法，其主要内容包括：利用共享基础网络(VGG)进行特征提取、语义选择和语义传播、使用条件分类器集成网络中的层、训练和推论，其过程为，先利用共享基础网络进行特征提取，三个像素分类器产生语义先验的顶级匹配实例，然后利用语义实例分割算法作为输入估计待分割对象的语义，接着使用完全卷积网络的密集标注通常表达为每像素分类问题，最后训练和测试网络，实现视频对象的分割。本发明利用共享基础网络进行特征提取，从而实现视频对象的有效分割，解决了当物体被遮挡或者一些帧在序列中丢失时分割结果不理想的问题，提高了分割效率和分割精度。

Description

一种基于语义实例分割算法的视频对象分割方法

技术领域

本发明涉及视频对象分割领域，尤其是涉及了一种基于语义实例分割算法的视频对象分割方法。

背景技术

随着信息技术的发展，多媒体技术日益受到人们的关注。数字视频是尤为重要的一种多媒体数据形式，它有着广泛的应用空间，是电影、电视、电子出版物等媒体信息进行数字化的重要基础。因此，对于视频类的处理技术就显得越来越重要，其中，视频对象分割技术以其广泛的应用受到研究人员的广泛关注。视频对象分割的原理主要是利用运动信息，同时结合其他颜色、纹理、边缘、区域等信息，把前景对象从背景中分离出来。它已经广泛运用于视频编码、视频检索、多媒体操作、图像处理、模式识别、视频压缩编码和视频数据库操作等，还可以用于交通流视频监控、工业自动化监控、安防以及网络多媒体交互等实际生产生活中。然而在原有的技术中，当物体被遮挡或者一些帧在序列中丢失时，分割结果则不理想，所需时间也较长。

本发明提出了一种基于语义实例分割算法的视频对象分割方法，先利用共享基础网络进行特征提取，三个像素分类器产生语义先验的顶级匹配实例，然后利用语义实例分割算法作为输入估计待分割对象的语义，接着使用完全卷积网络的密集标注通常表达为每像素分类问题，最后训练和测试网络，实现视频对象的分割。本发明利用共享基础网络进行特征提取，从而实现视频对象的有效分割，解决了当物体被遮挡或者一些帧在序列中丢失时分割结果不理想的问题，提高了分割效率和分割精度。

发明内容

针对分割结果不理想、所需时间长的问题，本发明的目的在于提供一种基于语义实例分割算法的视频对象分割方法，先利用共享基础网络进行特征提取，三个像素分类器产生语义先验的顶级匹配实例，然后利用语义实例分割算法作为输入估计待分割对象的语义，接着使用完全卷积网络的密集标注通常表达为每像素分类问题，最后训练和测试网络，实现视频对象的分割。

为解决上述问题，本发明提供一种基于语义实例分割算法的视频对象分割方法，其主要内容包括：

(一)利用共享基础网络(VGG)进行特征提取；

(二)语义选择和语义传播；

(三)使用条件分类器集成网络中的层；

(四)训练和推论。

其中，所述的利用共享基础网络(VGG)进行特征提取，共享基础网络(VGG)作为特征提取器，共同学习了三个像素分类器；

第一个分类器，第一轮前景估计，是原始单次视频对象分割开端，它以外观为基础，并产生了第一个前景估计；该分类器的结果和来自外部语义实例分割系统的信息在语义选择和传播步骤中组合，产生语义先验的顶级匹配实例；

条件分类器中的另外两个分类器对公共基本网络和语义先验的特征进行操作，并且彼此依赖：一个对具有前景的像素负责，而另一个用于后台；最后，将两组预测融入最终预测。

其中，所述的语义选择和语义传播，利用语义实例分割算法作为输入来估计待分割对象的语义；选择多任务网络级联或完全卷积实例感知语义分割作为输入实例分割算法，通过多任务网络级联使用最新和更好的完全卷积实例感知语义分割，可以显著提升视频对象分割的效率。

进一步地，所述的任务网络级联和完全卷积实例感知语义分割，任务网络级联和完全卷积实例感知语义分割都是由三个主要组件组成的多阶段网络：共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)分类器；使用两种算法的可用模型分别进行预先训练；

实例分割算法的输出给定为一组二进制掩码、掩码的类别以及它们作为实际对象的置信度；在最有把握的掩码池中搜索感兴趣的对象，在整个视频中找到一个具有一致语义的掩码子集作为语义先验。

进一步地，所述的实例分割算法，该过程可以分为语义选择和语义传播两个阶段；语义选择发生在第一帧中，根据给定的标定好的真实数据的掩码来选择匹配对象的掩码；实例数量及其类别在整个视频中实现一致性；有两种语义选择可能失败的情况：

(1)感兴趣的对象不是实例分割器语义词汇的一部分；

(2)通过此步骤选择错误的实例；

结果表明，分类器对这种故障很稳定，在这两种情况下仍能保持高质量的输出；因此，用于选择实例的快速贪婪搜索足以保持高性能。

其中，所述的使用条件分类器集成网络中的层，使用完全卷积网络的密集标注通常表达为每像素分类问题；因此，可以理解为在整个图像上滑动的全局分类器，并且根据单片外观模型将前景或背景标签分配给每个像素；将最终分类之前的语义合并，这将作为当前框架中最好的实例(或一组实例)的掩码；

如果语义实例分割完美，可以直接选择外观模型的最佳匹配实例，但实际上结果并不完美；因此，只能使用实例分割掩码作为该实例的限制指导或猜测，仍然需要执行细化步骤；并入该掩模但仍然保持每像素分类的解决方案是训练两个分类器，并根据在该像素中作为实例的一部分的置信度对它们进行加权；对整个图像使用一组参数是次优的。

进一步地，所述的训练两个分类器，形式上，对于每个像素i，估计给定图像的前景像素的概率：p(i|I)；概率可以分解为由先前加权的k个条件概率的和：

在实验中，使用K＝2，并且构建两个条件分类器，一个集中在实例前景像素上，另一个侧重于实例背景像素；基于实例分割输出来估计先验项p(k|I)；具体来说，如果像素位于实例分割掩码内，则像素依赖于实例前景分类器；并且如果实例背景分类器脱离实例分割掩码，则更重要的是实例背景分类器；在实验中，应用高斯滤波器将所选掩模的空间平滑作为语义先验；条件分类器被实现为能够以端到端可训练的方式集成到网络中的层。

进一步地，所述的网络中的层，该层采用两个预测图f₁和f₂以及来自语义选择的权重映射p(k|I)；假设k＝1对应于语义先验的前景；为了方便，设置w＝p(k＝1|I)，1-w＝(k＝2|I)(背景之前)；其中每个输入元素与权重图相乘，然后与其他地图中的相应元素相加：

f_out(x,y)＝w(x,y)f₁(x,y)+(1-w(x,y))f₂(x,y) (2)

由实例前景分类器f₁(x,y)做出对所选实例附近的像素的决定，而实例背景分类器f₂(x,y)决定其余像素；

类似地，在反向传播步骤中，根据权重图将顶部g_top的梯度传播到两个部分：

g₁(x,y)＝w(x,y)g_top(x,y) (3)

g₂(x,y)＝(1-w(x,y))g_top(x,y) (4)

条件分类器是必要的，以纳入语义先验信息；可以用作仅包含单个分类器的替代方法的技术，背景分类器能够恢复该区域，将其正确地分类为前景。

其中，所述的训练和推论，遵循与单次视频对象分割相同的想法来训练和测试网络，每一步都丰富了语义选择和传播步骤；使用与训练集的标定好的数据集的掩码重叠的语义实例训练父网络；类似地，在在线微调期间，使用第一帧的标签以及单次视频对象分割开端的输出用于下一帧；每个框架都是独立于其他框架进行处理的；实例分割模块的插件显著提高了最终分段的质量。

进一步地，所述的单次视频对象分割，该算法微调卷积神经网络，以便为第一个注释帧构建视频对象分割的强外观模型；训练一个完全卷积神经网络(FCN)，用于将前景对象与背景分离的二进制分类任务；使用两个连续的训练步骤：首先，对离散的各种对象进行训练，构建一个能够区分前景对象的概念的模型；然后，在测试时对目标分割的特定实例上的少量迭代进行微调。

附图说明

图1是本发明一种基于语义实例分割算法的视频对象分割方法的系统流程图。

图2是本发明一种基于语义实例分割算法的视频对象分割方法的利用共享基础网络(VGG)进行特征提取。

图3是本发明一种基于语义实例分割算法的视频对象分割方法的语义选择和语义传播。

图4是本发明一种基于语义实例分割算法的视频对象分割方法的使用条件分类器集成网络中的层。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于语义实例分割算法的视频对象分割方法的系统流程图。主要包括利用共享基础网络(VGG)进行特征提取，语义选择和语义传播，使用条件分类器集成网络中的层，训练和推论。

训练和推论遵循与单次视频对象分割相同的想法来训练和测试网络，每一步都丰富了语义选择和传播步骤；使用与训练集的标定好的数据集的掩码重叠的语义实例训练父网络；类似地，在在线微调期间，使用第一帧的标签以及单次视频对象分割开端的输出用于下一帧；每个框架都是独立于其他框架进行处理的；实例分割模块的插件显著提高了最终分段的质量。

单次视频对象分割算法微调卷积神经网络，以便为第一个注释帧构建视频对象分割的强外观模型；训练一个完全卷积神经网络(FCN)，用于将前景对象与背景分离的二进制分类任务；使用两个连续的训练步骤：首先，对离散的各种对象进行训练，构建一个能够区分前景对象的概念的模型；然后，在测试时对目标分割的特定实例上的少量迭代进行微调。

图2是本发明一种基于语义实例分割算法的视频对象分割方法的利用共享基础网络(VGG)进行特征提取。共享基础网络(VGG)作为特征提取器，共同学习了三个像素分类器；

图3是本发明一种基于语义实例分割算法的视频对象分割方法的语义选择和语义传播。利用语义实例分割算法作为输入来估计待分割对象的语义；选择多任务网络级联或完全卷积实例感知语义分割作为输入实例分割算法，通过多任务网络级联使用最新和更好的完全卷积实例感知语义分割，可以显著提升视频对象分割的效率。

任务网络级联和完全卷积实例感知语义分割都是由三个主要组件组成的多阶段网络：共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)分类器；使用两种算法的可用模型分别进行预先训练；

实例分割算法过程可以分为语义选择和语义传播两个阶段；语义选择发生在第一帧中，根据给定的标定好的真实数据的掩码来选择匹配对象的掩码；实例数量及其类别在整个视频中实现一致性；有两种语义选择可能失败的情况：

(1)感兴趣的对象不是实例分割器语义词汇的一部分；

(2)通过此步骤选择错误的实例；

图4是本发明一种基于语义实例分割算法的视频对象分割方法的使用条件分类器集成网络中的层。使用完全卷积网络的密集标注通常表达为每像素分类问题；因此，可以理解为在整个图像上滑动的全局分类器，并且根据单片外观模型将前景或背景标签分配给每个像素；将最终分类之前的语义合并，这将作为当前框架中最好的实例(或一组实例)的掩码；

形式上，对于每个像素i，估计给定图像的前景像素的概率：p(i|I)；概率可以分解为由先前加权的k个条件概率的和：

该层采用两个预测图f₁和f₂以及来自语义选择的权重映射p(k|I)；假设k＝1对应于语义先验的前景；为了方便，设置w＝p(k＝1|I)，1-w＝(k＝2|I)(背景之前)；其中每个输入元素与权重图相乘，然后与其他地图中的相应元素相加：

f_out(x,y)＝w(x,y)f₁(x,y)+(1-w(x,y))f₂(x,y) (2)

g₁(x,y)＝w(x,y)g_top(x,y) (3)

g₂(x,y)＝(1-w(x,y))g_top(x,y) (4)

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于语义实例分割算法的视频对象分割方法，其特征在于，主要包括利用共享基础网络(VGG)进行特征提取(一)；语义选择和语义传播(二)；使用条件分类器集成网络中的层(三)；训练和推论(四)。

2.基于权利要求书1所述的利用共享基础网络(VGG)进行特征提取(一)，其特征在于，共享基础网络(VGG)作为特征提取器，共同学习了三个像素分类器；

3.基于权利要求书1所述的语义选择和语义传播(二)，其特征在于，利用语义实例分割算法作为输入来估计待分割对象的语义；选择多任务网络级联或完全卷积实例感知语义分割作为输入实例分割算法，通过多任务网络级联使用最新和更好的完全卷积实例感知语义分割，可以显著提升视频对象分割的效率。

4.基于权利要求书3所述的任务网络级联和完全卷积实例感知语义分割，其特征在于，任务网络级联和完全卷积实例感知语义分割都是由三个主要组件组成的多阶段网络：共享卷积层、区域提议网络(RPN)和感兴趣区域(ROI)分类器；使用两种算法的可用模型分别进行预先训练；

5.基于权利要求书4所述的实例分割算法，其特征在于，该过程可以分为语义选择和语义传播两个阶段；语义选择发生在第一帧中，根据给定的标定好的真实数据的掩码来选择匹配对象的掩码；实例数量及其类别在整个视频中实现一致性；有两种语义选择可能失败的情况：

(1)感兴趣的对象不是实例分割器语义词汇的一部分；

(2)通过此步骤选择错误的实例；

6.基于权利要求书1所述的使用条件分类器集成网络中的层(三)，其特征在于，使用完全卷积网络的密集标注通常表达为每像素分类问题；因此，可以理解为在整个图像上滑动的全局分类器，并且根据单片外观模型将前景或背景标签分配给每个像素；将最终分类之前的语义合并，这将作为当前框架中最好的实例(或一组实例)的掩码；

7.基于权利要求书6所述的训练两个分类器，其特征在于，形式上，对于每个像素i，估计给定图像的前景像素的概率：p(i|I)；概率可以分解为由先前加权的k个条件概率的和：

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>|</mo> <mi>I</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

8.基于权利要求书7所述的网络中的层，其特征在于，该层采用两个预测图f₁和f₂以及来自语义选择的权重映射p(k|I)；假设k＝1对应于语义先验的前景；为了方便，设置w＝p(k＝1|I)，1-w＝(k＝2|I)(背景之前)；其中每个输入元素与权重图相乘，然后与其他地图中的相应元素相加：

f_out(x,y)＝w(x,y)f₁(x,y)+(1-w(x,y))f₂(x,y) (2)

g₁(x,y)＝w(x,y)g_top(x,y) (3)

g₂(x,y)＝(1-w(x,y))g_top(x,y) (4)

9.基于权利要求书1所述的训练和推论(四)，其特征在于，遵循与单次视频对象分割相同的想法来训练和测试网络，每一步都丰富了语义选择和传播步骤；使用与训练集的标定好的数据集的掩码重叠的语义实例训练父网络；类似地，在在线微调期间，使用第一帧的标签以及单次视频对象分割开端的输出用于下一帧；每个框架都是独立于其他框架进行处理的；实例分割模块的插件显著提高了最终分段的质量。

10.基于权利要求书1所述的单次视频对象分割，其特征在于，该算法微调卷积神经网络，以便为第一个注释帧构建视频对象分割的强外观模型；训练一个完全卷积神经网络(FCN)，用于将前景对象与背景分离的二进制分类任务；使用两个连续的训练步骤：首先，对离散的各种对象进行训练，构建一个能够区分前景对象的概念的模型；然后，在测试时对目标分割的特定实例上的少量迭代进行微调。