CN106327469B

CN106327469B - 一种语义标签引导的视频对象分割方法

Info

Publication number: CN106327469B
Application number: CN201510368762.1A
Authority: CN
Inventors: 陈小武; 张宇; 李甲; 赵沁平; 王晨; 夏长群
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2019-06-18
Anticipated expiration: 2035-06-29
Also published as: US9740956B2; US20160379371A1; CN106327469A

Abstract

本发明提供一种语义标签引导的视频对象分割方法，包括：根据对象所属的语义类别标签，依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测，得到该输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合；建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，求出该输入视频中所述对象对应的初始分割序列，并对该初始分割序列进行处理，估算出所述对象的形状概率分布；结合该形状概率分布，依次利用图割算法对每一个包含所述对象的序列进行优化处理，得到所述对象对应的最优分割序列。本发明的技术方案，解决了现有视频对象分割方法不精确以及无法适用于单个输入视频的语义类别对象分割的问题。

Description

一种语义标签引导的视频对象分割方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种语义标签引导的视频对象分割方法。

背景技术

视频对象分割是将给定语义类别的对象区域从视频中检测并分割出来的一种技术，是计算机视觉与多媒体分析领域的基础技术，在目标检索、视频编辑、基于视频的三维建模等应用方面发挥了重要的作用。弱标注视频对象分割方法是指用户仅标注该视频中对象的语义类别，由算法检测并分割出属于用户指定类别对象的一种方法。鉴于大多数互联网视频通常具有用户标记、与内容相关的语义标签，因此，弱标注视频对象分割方法对于分析处理日益增长的网络视频数据具有重要的应用价值。

由于弱标注视频对象的特点是仅了解输入视频中存在属于指定语义类别的对象，但其具体的位置信息仍然未知。目前，主要采用基于弱监督学习的视觉模型进行求解，具体为：首先，收集正样本视频与负样本视频，其中，正样本视频由包含指定语义类别的视频集合组成，负样本视频由不包含指定语义类别的视频集合组成；其次，将每个视频分割为时空分割块，并根据正负样本视频的关联求解每个时空分割块的语义类别；最后，采用多图优化模型对所有的正负样本视频进行共分割，得到输入视频中属于指定语义类别对象的分割结果。

虽然上述基于弱监督学习的视频对象分割方法在某些情况下能够有效地解决弱标注条件下视频对象的分割问题，但是，弱批注条件下的视频中缺乏指定语义类别对象的位置信息，使得正负样本视频的分类不准确，因而在分割的过程中极有可能出现错误的视频分割结果，另外，这种分类方法需要多个视频作为输入进行分割，无法适用于单个输入视频的语义类别对象分割。

发明内容

本发明提供了一种语义标签引导的视频对象分割方法，借助于对象包围盒检测器和对象轮廓检测器辅助给定语义类别对象的视频分割，解决了现有视频对象分割方法不精确以及无法适用于单个输入视频的语义类别对象分割的问题。

本发明提供的一种语义标签引导的视频对象分割方法，包括：

根据对象所属的语义类别标签，依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测，得到所述输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合；

建立包含所述候选对象包围盒集合与所述候选对象轮廓集合的联合分配模型，求出所述输入视频中所述对象对应的初始分割序列，所述初始分割序列为至少一个包含所述对象的序列；

对所述初始分割序列进行处理，估算出所述输入视频中所述对象的形状概率分布；

结合所述对象的形状概率分布，依次利用图割算法对每一个包含所述对象的序列进行优化处理，得到所述输入视频中所述对象对应的最优分割序列。

本发明提供的一种语义标签引导的视频对象分割方法，通过应用对象包围盒检测器和对象轮廓检测器来辅助输入视频中给定语义类别对象的分割，从而避免了弱监督学习条件下产生的样本视频分类模糊性的问题，进一步的，本发明提供的语义标签引导的视频对象分割方法能够应用于单个输入视频的给定语义类别对象分割，而无需同时处理多个视频，具有更强的适用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语义标签引导的视频对象分割方法实施例一的流程图；

图2为本发明语义标签引导的视频对象分割方法实施例二的流程图；

图3为本发明语义标签引导的视频对象分割方法实施例三的流程图；

图4为本发明语义标签引导的视频对象分割方法实施例四的流程图；

图5为本发明语义标签引导的视频对象分割方法实施例五的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视频对象分割是将给定语义类别的对象区域从视频中检测并分割出来的一种技术，是计算机视觉与多媒体分析领域的基础技术，其在目标检索、视频编辑、基于视频的三维建模等应用方面都发挥了重要的作用。

目前，根据用户输入条件的不同，现有的视频对象语义分割方法主要分为三大类：无标注视频对象分割方法、强标注视频对象分割方法和弱批注视频对象分割方法。其中，无标注视频对象分割方法：无需用户交互，算法可自动地将语义对象从视频中分割出来的一种视频对象分割方法；强标注视频对象分割方法：用户需要在输入视频的若干关键帧上手动分割出对象，算法将分割结果传播至其余帧上，以此将语义对象从输入视频中分割出来的一种视频对象分割方法；弱标注视频对象分割方法：用户仅标注输入视频中对象所属的语义类别，算法检测并将指定语义类别的对象从输入视频中分割出来的一种视频对象分割方法。鉴于大多数互联网视频通常具有用户标记、与内容相关的语义标签，因此，弱标注条件下的视频对象分割对于分析处理日益增长的网络视频数据具有重要的应用价值。

由于视频对象在弱标注条件下，仅知道输入视频中存在属于指定语义类别的对象，而该对象的位置信息却仍然未知。为解决该问题，相关研究领域主要采用基于弱监督学习的视觉模型进行求解，具体为：在弱监督学习框架下，首先收集正样本视频与负样本视频，其中，正样本视频由包含指定语义类别的视频集合组成，负样本视频由不含指定语义类别的视频集合组成；其次，将每个视频分割为时空分割块(Spatio-temporal Segment)，并根据正负样本的关联求解每个分割块的语义类别；举例来说，Hartmann分别采用线性支撑向量机(Linear SVM)与多示例Boosting(MI-Boosting)方法学习基于分割块的分类器，并在输入视频中检测给定语义类别的对象区域；Tang等人采用负样本挖掘方法，将正样本视频的每个分割块与负样本视频的所有分割块对比，根据正负样本视频的近邻关系为所有正样本视频的每个分割块打分，并判定分数较高的分割块属于指定的语义类别；Xiao等人提出采用弱监督哈希算法学习正样本视频与负样本视频之间的距离度量，并使用K近邻分类方法给出视频分割块属于给定语义类别的概率；最后，采用多图优化模型对所有的正负样本视频进行共分割，得到该输入视频中属于指定语义类别对象的分割结果。

虽然上述基于弱监督学习的视频对象分割方法在某些情况下能够有效地解决弱标注条件下视频对象的分割问题，但是其仍然存在下述两点不足。首先，由于弱批注条件下的输入视频中缺乏指定语义类别对象的位置信息，因此只通过比较分割块的外观来猜测样本分割块所属的类别，使得样本分割块的分类往往不准确(例如，两个外观相似的分割块既可能属于同一语义类别，也可能属于不同类别)，从而使得正负样本视频的分类不准确。这种样本分类模糊性极有可能导致视频对象分割结果出现错误。其次，基于弱监督学习的视频对象分割方法通常需要多个视频作为输入进行分割，因此无法适用于单个视频作为输入的语义类别对象分割。

鉴于对象检测器在图像语义分割方面已经有了较多成功的应用案例，例如，Xia等人应用对象检测器，实现了一种高效的图像语义分割方法，无需复杂的训练过程以及逐像素精确标注的图像训练集。所以，针对具有语义类别标签的输入视频，为了解决现有基于弱监督学习的视频对象分割方法存在的上述问题，本发明提出了一种语义标签引导的视频对象分割方法，该方法首先应用给定语义类别对应的对象检测器估计视频对象的粗略位置，并在此基础上完成对所属语义类别对象的分割过程。

图1为本发明语义标签引导的视频对象分割方法实施例一的流程图。如图1所示，本发明实施例一提出的一种语义标签引导的视频对象分割方法，包括：

步骤101：根据对象所属的语义类别标签，依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测，得到该输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合；

由于输入视频中可能存在多个属于不同语义类别标签的对象，并且，弱批注条件下仅知道输入视频中存在指定语义类别标签的对象，但是该对象的位置信息却还是未知数，因此，本发明首先利用对象检测器估计出指定语义类别对象的大体位置，也即，首先利用对象包围盒检测器对输入视频的每一帧进行检测，得到输入视频每一帧的候选对象包围盒集合，再在候选对象包围盒集合的基础上利用对象轮廓检测器对输入视频的每一帧进行检测，得到每一视频帧的候选对象轮廓集合。

步骤102：建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，求出该输入视频中所述对象对应的初始分割序列；

其中，该初始分割序列为至少一个包含所述对象的序列。

由于现有的对象检测器(对象包围盒检测器和对象轮廓检测器)均是在静态图像数据集上训练得到的，因此，直接将其应用于视频帧时，视频的编码压缩、对象遮挡、相机移动等因素都会导致检测得到的候选对象包围盒集合与候选轮廓集合杂乱和不精确。

为此，本发明通过构建一种包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，从杂乱的候选对象包围盒集合和候选对象轮廓集合中，选取有效的候选对象包围盒集合和候选对象轮廓集合构成该输入视频中给定语义类别标签对象对应的序列，作为该对象对应的初始分割序列。

步骤103：对上述初始分割序列进行处理，估算出该输入视频中所述对象的形状概率分布；

针对上述初始分割序列，本发明实施例提出了一种时空一致性保持的对象形状概率分布估计方法，该方法通过分析与上述初始分割序列重叠的若干候选分割序列的统计信息，估计出该输入视频中给定语义类别对象的形状概率分布。

步骤104：结合上述对象的形状概率分布，依次利用图割算法对每一个包含所述对象的序列进行优化处理，得到该输入视频中所述对象对应的最优分割序列。

结合步骤103中求出的给定语义类别对象的形状概率分布，依次利用图割算法对初始分割序列中的每一个包含所述对象的序列进行优化，最终得到该输入视频中所述对象对应的最优分割序列。

本发明实施例提供的语义标签引导的视频对象分割方法，通过应用对象包围盒检测器和对象轮廓检测器来辅助输入视频中给定语义类别对象的分割，从而避免了弱监督学习条件下产生的样本视频分类模糊性的问题，进一步的，本实施例提供的语义标签引导的视频对象分割方法能够应用于单个输入视频的给定语义类别对象分割，而无需同时处理多个视频，具有更强的适用性。

图2为本发明语义标签引导的视频对象分割方法实施例二的流程图。本发明实施例二是在实施例一技术方案的基础上，对上述步骤101的进一步阐述。如图2所示，本发明实施例二提供的语义标签引导的视频对象分割方法，步骤101的具体实现包括如下步骤：

步骤201：根据对象所属的语义类别标签，利用对象包围盒检测器在至少两个阈值上对输入视频的每一帧进行检测，计算出上述至少两个阈值对应检测结果的综合性能值，从该综合性能值中选出最大综合性能值对应的阈值作为对象包围盒检测器的最优阈值；

由于在弱批注条件下，用户在输入视频每一帧的训练集上都手工批注了给定对象的语义类别标签，因此，利用对象包围盒检测器在不同的阈值上对输入视频的每一帧进行检测时，可以得到不同大小的综合性能值，选取最大综合性能值对应的阈值作为对象包围盒的最优阈值。

值得说明的是，综合性能值可以是检测到的F-Score值，F-Score又称F-Measure，是IR(信息检索)领域常用的一个评价标准，F-Score越大表示综合标准越好。因此，可以将F-Score最大时对应的阈值作为该对象包围盒检测器的最优阈值。

步骤202：根据该对象所属的语义类别标签，利用上述对象包围盒检测器在最优阈值上对输入视频的每一帧进行检测，得到该输入视频每一帧的对象包围盒集合，该输入视频每一帧的对象包围盒集合和该帧空包围盒集合的并集为输入视频该帧的候选对象包围盒集合；

举例来说，假如利用对象包围盒检测器对输入视频的第t帧进行检测，可以得到第t帧的对象包围盒集合，记为第t帧的候选对象包围盒集合D_t包含以及空包围盒D_φ，记为：D_t＝D_t ⁺∪{D_φ}。其中，空包围盒D_φ用于表示所述对象的理想包围盒区域。

值得说明的是，空包围盒存在的意义为：当对象包围盒检测器在某帧上检测失败时，所得到的对象包围盒集合将无法定位到该输入视频的对象上，若不引入空包围盒集合(即理想的对象包围盒区域)，在后续处理中该帧上的对象将无法被正确分割，也即，如果所有的对象包围盒集合都无法正确定位到输入视频的对象，那么，后续建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型时，求解所述对象对应的初始分割序列的算法只能选择一个错误的，而这个选择也会使初始分割序列的选择不准确。

然而，有了空包围盒集合的假设后就可以一定程度上解决上述问题，当所有的对象包围盒集合都无法正确定位到输入视频的对象时，求解所述对象对应的初始分割序列的算法可以首先选择空包围盒集合，然后再选择一个较好的初始分割序列。

值得说明的是，后续建立的包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，将对象包围盒集合与初始分割序列联合在一起，且对象包围盒集合与初始分割序列之间的分配是互相依赖的。

步骤203：根据该输入视频每一帧的候选对象包围盒集合，利用基于参数约束最小割的对象轮廓检测器对该输入视频的每一帧进行检测，得到该输入视频每一帧的候选对象轮廓集合。

具体的，在获知该输入视频第t帧的候选对象包围盒集合后，在上述候选对象包围盒集合的基础上，继续采用基于参数约束最小割(Constrained Parametric Min-Cuts，简称CPMC)的对象轮廓检测器对输入视频的第t帧进行检测，得到第t帧的候选对象轮廓集合，记为S_t。

利用对象轮廓检测器对输入视频的每一帧检测之前，需要选取该对象轮廓检测器的种子点，种子点表示该对象轮廓检测器需要检测的最优像素区域。

为了提高对象轮廓检测器的检测精度，按照如下方式添加额外的前景种子点，具体为：采用不同较低阈值的对象包围盒检测器对输入视频的第t帧进行检测，得到一系列的候选对象包围盒，并计算每个对象像素被候选对象包围盒覆盖的次数，获得检测结果的热度图，也即，获得每个对象像素被候选对象包围盒覆盖的像素区域；选取热度图的局部极大值点作为额外的前景种子点，也即，热度图的局部极大值点为需要检测的最优像素区域。

本发明实施例二提供的语义标签引导的视频对象分割方法，通过选择对象包围盒检测器的最优阈值，使得对象包围盒检测器在最优阈值上对输入视频的每一帧进行检测来获得输入视频每一帧的对象包围盒集合，进而利用基于参数约束最小割的对象轮廓检测器对输入视频的每一帧进行检测来获得输入视频每一帧的候选对象轮廓集合，粗略确定了给定语义类别对象的位置，提高了后续视频对象分割的精度。

图3为本发明语义标签引导的视频对象分割方法实施例三的流程图。本发明实施例三是在上述实施例一技术方案的基础上，对上述步骤102的进一步阐述。如图3所示，本发明实施例三提供的语义标签引导的视频对象分割方法，步骤102，也即，建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，求出该输入视频中所述对象对应的初始分割序列，具体包括：

步骤301：通过分别设定表示候选对象包围盒集合和候选对象轮廓集合分配的0-1变量集合，建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式；

形式化地，设定表示候选对象包围盒集合的集合其中，D_t表示输入视频第t帧的候选对象包围盒集合，取值为1表示包围盒D被分配给第k个序列，取值为0表示包围盒D没有被分配给第k个序列；

同理，设定表示候选对象轮廓集合的集合其中，S_t表示输入视频第t帧的候选对象轮廓集合，取值为1表示轮廓S被分配给第k个序列，取值为0表示轮廓S没有被分配给第k个序列。

以上述集合A和集合B为变量，建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式，具体为公式(1)，约束条件为公式(2)；

其中，L(A,B)为损失函数，表示选取的候选对象包围盒集合D_t和候选对象轮廓集合S_t的置信度；Ω₁(A,B)为惩罚项，表示输入视频在相邻的第t帧和第t+1帧上选取的候选对象包围盒集合D_t和D_t+1、候选对象轮廓集合S_t和S_t+1的时域平滑性；Ω₂(B)为惩罚项，表示在不同序列之间选择的候选对象轮廓集合的重叠度；λ₁为惩罚项Ω₁(A,B)的参数，λ₂为惩罚项Ω₂(B)的参数。

理论上，可以根据精度的要求来确定参数λ₁和λ₂的取值大小，可选的，在发明的实施例中，参数λ₁和λ₂的取值分别为λ₁＝10，λ₂＝1000。

进一步地，下面分别介绍上述约束条件分别具有的约束作用：

约束条件用于限定集合A的变量和集合B的变量的取值范围；

约束条件用于限定每个序列在该输入视频的每一帧上至多选择一个包围盒或者轮廓；

约束条件用于限定每个包围盒或者轮廓至多被分配给1个序列；

约束条件用于限定序列的连续性，要求序列必须在连续的视频帧上选取包围盒与轮廓；

约束条件用于限定每个序列在该输入视频中至少选取一个包围盒与一个轮廓。

具体的，表示选取候选对象包围盒集合D_t和候选对象轮廓集合S_t置信度的损失函数L(A,B)，其中，置信度的取值范围在0到1之间，目前尚没有一个阈值可以用来定义置信度，所以，只能使算法在一定的约束条件下尽可能的选取较大的置信度。一般情况下，损失函数L(A,B)具体的表达式用公式(3)来表示：

其中，ξ(D,S)的表达式为公式(4)：

其中，公式(4)中的表示区域R₁和区域R₂面积的重叠率(即，区域R₁和区域R₂的相交面积与其相并面积的比)，o(S)表示对象轮廓检测器检测出的轮廓S的“对象性”(Objectness)得分，r(D)表示对象包围盒检测器检测出的包围盒D的置信度得分；r(D)的计算方式为公式(5)：

在公式(5)中，为对象包围盒检测器给定的对象包围盒D的置信度得分，γ为对象包围盒检测器的最优阈值，λ_d为所有对象包围盒得分数值的平均值。

Ω₁(A,B)为惩罚项，用于表示输入视频在相邻的第t帧和第t+1帧上选取的候选对象包围盒集合D_t和D_t+1、候选对象轮廓集合S_t和S_t+1的时域平滑性，形式化表达式为公式(6)：

其中，η(D,S,D₀,S₀)的具体表达式为公式(7)：

具体的，f(S)为表征轮廓S外观的特征向量，可以采用Hue颜色直方图与64维纹理基元直方图(texton histogram)的连接形式表示，χ²表示Hue颜色直方图与64维纹理基元直方图的Chi-Square距离。D与S分别表示D和S经过光流匹配算法处理后，从第t帧投影到第t+1帧上的区域，包围盒D₀包含于第t+1帧的候选对象包围盒集合D_t+1，轮廓S₀包含于第t+1帧的候选对象轮廓集合S_t+1。

惩罚项Ω₂(B)则表示在不同序列之间选择的候选对象轮廓集合的重叠度，具体用公式(8)表示：

计算惩罚项Ω₂(B)时，轮廓S和轮廓S₀都包含于第t帧的候选对象轮廓集合S_t。

步骤302：通过将候选对象包围盒集合与候选对象轮廓集合的组合用网络流节点表示，将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题；

由于上述所构建的包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型包含了成千上万个二元变量和复杂的不等式约束，因此难以使用常见的优化方法求解，所以，本发明实施例通过将候选对象包围盒集合与候选对象轮廓集合的组合用网络流节点表示，将求解对象对应的初始分割序列的问题转化为了求解网络流最小成本最大流的问题。

具体的，利用辅助变量δ_x(D,S)表示表示因此，可将第一优化目标函数式等价为第二优化目标函数式

其中，ξ,η,δ_x,δ_y均为列向量，分别用于记录与所有包围盒和轮廓相关的变量；矩阵∏用于记录轮廓之间的重叠区域；辅助变量δ_x(D,S)用于表示组合(D,S)所表示节点的激活状态，辅助变量δ_y(D,D₀,S,S₀)用于表示组合(D,S)连接组合(D₀,S₀)所表示节点的边的激活状态，D₀∈D_t+1表示包围盒集合D₀包含于输入视频第t+1帧的候选对象包围盒集合D_t+1，S₀∈S_t+1表示轮廓集合S₀属于输入视频第t+1帧的候选对象包围盒集合S_t+1；因此，表示为优化目标为最小成本最大流的第二优化目标函数式。

步骤303：采用最小成本最大流算法，求出满足上述网络流最小成本最大流问题的K_max个初始序列；

由于表示网络流最小成本最大流问题的第二优化目标函数式，包含二次项，无法直接用最小成本最大流算法解出初始分割序列，因此，基于最小成本最大流算法求解上述问题时，首先忽略掉二次项，第二优化目标函数式简化为

因此，利用最小成本最大流算法求解满足该网络流最小成本最大流问题的K_max个初始序列的过程为：

首先，利用最小成本最大流算法求解该网络流，取得一个序列；其次，将该序列选取的包围盒与轮廓(及其相关的边)从原网络流中剔除，得到更新后的网络流。重复这一过程，直到新增加的序列触发如下两种情况之一：其一，不满足优化问题的约束条件；其二，增大了优化目标函数值。

在取得的所有序列中，将长度小于5帧的序列舍弃，得到K_max个序列作为网络流最小成本最大流问题的初始解。

步骤304：对上述K_max个初始序列中的前K个初始序列，分别利用K-最短路径算法重新选取对象轮廓，得到K个候选序列集合；

假定候选序列的个数K已知(1≤K≤K_max)，针对该前K个初始序列中的每一个，维持其选取的候选对象包围盒不变，采用K-最短路径(K Shortest Path)算法重新选取对象轮廓，获得由M个新序列与原K个初始序列组成的K个候选序列集合。其中，M可以为任意的正整数，M取值较大，可能得到分割结果的较好，在实验中常将M设置成M＝100。

步骤305：对所述K个候选序列集合中的每一个候选序列，采用0-1变量表示每个候选序列的选择状态，将求解所述网络流最小成本最大流的问题转化为0-1二次规划问题；

从上述K个候选序列集合的每一个中分别选取一个候选序列，并使得新选取的K个候选序列能够使原网络流的优化目标最小。

令μ∈{0,1}^MK表示上述K个候选序列集合的所有候选序列的选择状态，其中，1表示被选择，0表示未被选择，那么，求解网络流最小成本最大流的问题转化为了求解0-1二次规划问题，用公式(9)表示：

其约束条件为Cμ＝1。

具体的，列向量s的每个分量记录了对应序列的损失函数值与时域平滑性惩罚函数值，矩阵A记录了任意两个序列之间的重叠区域面积总和，约束矩阵C∈{0,1}^K×MK限定了每个候选集合中序列的选择状态变量总和为1。

步骤306：利用优化器对上述0-1二次规划问题进行求解，得到所述对象对应的初始分割序列。

上述二次规划问题可以采用常见的优化器进行求解，常见的优化器比如Gurobi优化器。

针对满足1≤K≤K_max的每个K值，都可以应用步骤303来求得对象的候选序列及以所述对象对应的初始分割序列为优化目标的第一优化目标函数式的目标函数值。选择能够使得目标函数值最小的K^*及此时的序列作为该第一优化目标函数式的最终解，并选取最优的轮廓序列作为所述对象对应的初始分割序列。

经过上述步骤301至步骤306，可以得到给定语义类别标签所属对象的初始分割序列，这些初始分割序列，能够大致定位出该输入视频中给定语义类别标签所属对象的边缘，为后续求所述对象对应的最优分割序列奠定了基础。

本发明实施例三提供的语义标签引导的视频对象分割方法，通过构建包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，能够将给定语义类别标签的对象从杂乱的候选对象包围盒集合和候选轮廓集合中选取出来，并将求解所述对象初始分割序列的问题用第一目标函数式表示出来，通过将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题，并利用最小成本最大流算法和0-1二次规划的局部搜索来求解，最终求出了输入视频中给定语义类别对象对应的初始分割序列，解决了对象包围盒检测器和对象轮廓检测器应用于视频帧时产生的候选对象包围盒集合与候选轮廓集合杂乱和不精确的问题。

图4为本发明语义标签引导的视频对象分割方法实施例四的流程图。本发明实施例四是在上述实施例一技术方案的基础上，对上述步骤103的进一步阐述。如图4所示，本发明实施例四提供的语义标签引导的视频对象分割方法，步骤103，也即，对上述初始分割序列进行处理，估算出该输入视频中所述对象的形状概率分布，具体的实现步骤包括：

步骤401：从该输入视频的所有候选对象轮廓集合中，选择与所述对象初始分割序列重叠率大于预设阈值的候选对象轮廓；

具体的，在上述输入视频的所有候选对象轮廓中，保留与初始分割序列重叠率大于设定阈值的候选对象轮廓，将重叠率小于设定阈值的候选对象轮廓去除。设定阈值是用户根据自己的需求自行设置的，一般情况下，该设定阈值为50％。

步骤402：利用贪心算法以该输入视频任一帧上的任一候选对象轮廓为起点，将采用光流匹配法从候选对象轮廓中寻找到的下一帧上匹配度最高的候选轮廓加入候选分割序列，得到N个候选分割序列；

详细来说，本步骤是采用贪婪算法从上述重叠率大于设定阈值的候选对象轮廓中构造N个候选分割序列，具体的构造方法为：以该输入视频某一帧上的某个候选轮廓作为分割序列的起点，采用光流匹配法寻找下一帧上匹配度最高的候选轮廓并加入到候选分割序列，重复该过程直到满足以下两种情况之一，情况一：到达输入视频的最后一帧；情况二：下一帧上任何候选轮廓与当前候选轮廓投影后区域的重叠率均小于设定阈值。设定阈值可选为50％。

按照上述方法，构造出上述候选该分割序列后，将该候选分割序列所选取的候选轮廓移除，在剩余的候选轮廓中重复构造候选分割序列直到所有的候选轮廓均被选取，以此构造出N个候选分割序列。

步骤403：分别设定每一个所述候选分割序列的初始得分表达式，计算所述每一个所述候选分割序列基于所述对象外观一致性和时域一致性的初始得分；

具体的，设定第r个候选分割序列的表达式为其中，L_r为第r个候选分割序列的长度，1≤r≤N，那么，第r个候选分割序列基于所述对象外观和时域一致性的初始得分计算式用公式(10)表示：

其中，λ_f为所有数值χ²(f(S_r,l),f(S_r,l+1))的平均值；

步骤404：设定N个候选分割序列优化后的得分表达式，以该N个候选分割序列优化后的得分表达式为变量，建立以N个候选分割序列得分为优化目标的第三优化目标函数式；

可选的，设定N个候选分割序列优化后的得分表达式用表示，那么，以为变量，以该N个候选分割序列得分为优化目标的第三优化目标函数式可用公式(11)表示：

其中，为损失函数，用于限定第r个候选分割序列优化后的得分与初始得分的偏差；C₁(α)、C₂(α)为惩罚项，C₁(α)用于约束优化后的候选分割序列之间得分的外观一致性；C₂(α)用于约束优化后的候选分割序列之间得分的时域一致性；θ₁和θ₂分别为C₁(α)和C₂(α)的参数。

可选的，将参数θ₁和θ₂的大小设置为θ₁＝θ₂＝1.5。

公式(11)整体表示为尽可能使得第r个候选分割序列优化后的得分与初始得分的偏差较小，且约束优化后的候选分割序列之间得分的外观一致性和时域一致性尽可能的好。

具体的，外观一致性惩罚项C₁(α)的表达形式为公式(12)：

其中，权重w_r,s＝e^-dist(r,s)为第r个候选分割序列与第s个候选分割序列的相似度，dist(r,s)为第r个候选分割序列与第s个候选分割序列轮廓特征集合的豪斯多夫距离(Hausdorff Distance)，R_r为与第r个候选分割序列的距离小于给定阈值的序列集合。外观一致性惩罚项C₁(α)能够使特征相似的序列的得分尽可能地接近。

时域一致性惩罚项C₂(α)的表达形式用公式(13)表示：

其中，为预先分割的输入视频帧的超像素集合，|A_p|表示超像素A_p的面积，β_p表示超像素A_p的得分，其计算方法为其中∏_p为覆盖超像素A_p的候选分割序列集合；表示通过前向(反向)光流与第p个超像素发生重叠的超像素集合，表示超像素与超像素A_p重叠的面积占A_q总面积的比例。时域一致性惩罚项C₂(α)的作用是使得时域上相邻的像素的形状概率分布尽可能地接近。

步骤405：采用L-BFGS算法对上述第三优化目标函数式进行处理，得到该输入视频中所述对象的形状概率分布。

采用L-BFGS算法对第三优化目标进行求解，得到最优解α^*后，每个像素的形状概率为覆盖该像素的候选分割序列得分的平均值，进而可以求出该输入视频中对象的形状概率分布。

本发明实施例四提供的语义标签引导的视频对象分割方法，在外观一致性惩罚项和时域一致性惩罚项的联合约束下对初始分割序列进行处理，外观一致性惩罚项使得所述对象对应的初始分割序列与所述对象序列在外观上更为相似，使得对象的形状概率值被增强，时域一致性惩罚项能够根据视频帧间的关系，减小了背景噪声的影响，获得了视觉上更为一致的所述对象的形状概率分布。

图5为本发明语义标签引导的视频对象分割方法实施例五的流程图。本发明实施例五是在上述实施例一至实施例四技术方案的基础上，对上述步骤104的进一步阐述。如图5所示，本发明实施例五提供的语义标签引导的视频对象分割方法，步骤104，也即，根据所述对象的形状概率分布，依次利用图割算法对每一个包含所述对象的序列进行优化，得到输入视频中所述对象对应的最优分割序列，具体的实现步骤包括：

步骤501：针对输入视频的每一帧，以像素为节点，以像素的邻接关系为边，构建4-邻居图结构G＝{V,E}；

其中，V为节点集合，E为边集合；

步骤502：以x＝(x₁,x₂,...,x_n)∈{0,1}ⁿ表示输入视频每一帧上每个像素的前景和背景状态，建立第四优化目标函数表达式，用公式(14)表示；

上述第四优化目标函数表达式的优化目标是求解一个标记状态x^*使所述像素分割为前景与背景，并保持候选分割序列的局部平滑性；

其中，u_i表示数据项，其定义式用公式(15)表示：

u_i(x_i)＝-ρlog(A(x_i))+(1-ρ)log(S(x_i)) (15)

式中，A(x_i)为表征第i个像素前景对象外观的高斯混合模型给出的前景概率，S(x_i)为上述步骤103求出的第i个像素的形状概率；具体的，前景与背景的高斯混合模型分别在初始分割序列所确定的前景像素以及背景像素上学习得到。

v_i为平滑项，采用图像分割算法常用的对比度敏感的Potts模型(ContrastSensitive Potts Model)定义得到。

步骤503：采用图割算法对上述第四优化目标函数表达式进行求解，得到标记状态x^*；

具体的，上述优化目标可以采用图割(Graph Cut)算法快速的求解出来。

步骤504：所述输入视频每一帧上所有像素的所述标记状态x^*的集合组成每一个包含所述对象对应的优化分割序列；

步骤505：所述每一个包含所述对象对应的优化分割序列的集合组成所述输入视频中所述对象对应的最优分割序列。

由于利用本发明实施例五的步骤对每一条包含所述对象的序列单独优化处理后，确定的前景区域可能会有重叠。为了解决该问题，本发明还提出了一种简单的处理方法，即首先提取重叠区域的外观特征(颜色直方图与纹理直方图)，并在Chi-Square距离量度下与最接近该重叠区域的各个分割序列前景区域进行比较，并将距离最小的分割序列的语义类别赋予重叠区域。

本发明实施例五提供的语义标签引导的视频对象分割方法，通过构建4-邻居图结构，将输入视频每一帧每一像素的前景和背景状态用一个优化目标函数式表示出来，并通过图割算法求解，得到了输入视频中所述对象对应的最优分割序列，实现了给定语义类别对象的分割。

本发明实施例一至实施例五提供的语义标签引导的视频对象分割方法，首先利用对象包围盒检测器和对象轮廓检测器粗略的估计出给定语义类别对象的位置，避免了弱监督条件下样本视频分类的模糊性问题，其次，通过建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型，解决了监测得到的候选对象包围盒集合和候选对象轮廓集合杂乱和不精确的问题，最后，结合对象的形状概率分布，对输入视频中所述对象的初始分割序列进行优化处理，使得最后得到的对象的最优分割序列更准确。进一步的，本发明实施例提供的语义标签引导的视频对象分割方法，能够应用于单个输入视频的语义类别对象分割，不需要同时处理多个视频，具有更强的适用性。

本发明提供的语义标签引导的视频对象分割方法能够广泛应用于国防军事、电影制作、公共安全等领域计算机视觉系统的视频内容语义解析。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语义标签引导的视频对象分割方法，其特征在于，包括：

结合所述对象的形状概率分布，依次利用图割算法对每一个包含所述对象的序列进行优化处理，得到所述输入视频中所述对象对应的最优分割序列；

所述根据对象所属的语义类别标签，依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测，得到所述输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合，具体包括：

根据所述对象所属的语义类别标签，利用所述对象包围盒检测器在至少两个阈值上对所述输入视频的每一帧进行检测，计算出所述至少两个阈值对应检测结果的综合性能值，从所述综合性能值中选出最大的综合性能值对应的阈值作为所述对象包围盒检测器的最优阈值；

根据所述对象所属的语义类别标签，利用所述对象包围盒检测器在所述最优阈值上对所述输入视频的每一帧进行检测，得到所述输入视频每一帧的对象包围盒集合，所述输入视频每一帧的对象包围盒集合和该帧的空包围盒集合的并集为所述输入视频该帧的所述候选对象包围盒集合；

根据所述输入视频每一帧的所述候选对象包围盒集合，利用基于参数约束最小割的对象轮廓检测器对所述输入视频的每一帧进行检测，得到所述输入视频每一帧的候选对象轮廓集合。

2.根据权利要求1所述的语义标签引导的视频对象分割方法，其特征在于，所述建立包含所述候选对象包围盒集合与所述候选对象轮廓集合的联合分配模型，求出所述输入视频中所述对象对应的初始分割序列，具体包括：

通过分别设定表示所述候选对象包围盒集合和所述候选对象轮廓集合分配的0-1变量集合，建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式；

通过将所述候选对象包围盒集合与所述候选对象轮廓集合的组合用网络流节点表示，将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题；

采用最小成本最大流算法，求出满足所述网络流最小成本最大流问题的K_max个初始序列；

对所述K_max个初始序列中的前K个初始序列，分别利用K-最短路径算法重新选取对象轮廓，得到K个候选序列集合；

对所述K个候选序列集合中的每一个候选序列，采用0-1变量表示每个候选序列的选择状态，将求解所述网络流最小成本最大流的问题转化为0-1二次规划问题；

利用优化器对所述0-1二次规划问题进行求解，得到所述对象对应的初始分割序列。

3.根据权利要求2所述的语义标签引导的视频对象分割方法，其特征在于，所述通过分别设定表示所述候选对象包围盒集合和所述候选对象轮廓集合分配的0-1变量集合，建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式，具体包括：

设定表示所述候选对象包围盒集合的集合其中，D_t表示所述输入视频第t帧的候选对象包围盒集合，取值为1表示包围盒D被分配给第k个序列，取值为0表示包围盒D没有被分配给第k个序列；

设定表示所述候选对象轮廓集合的集合其中，S_t表示所述输入视频第t帧的候选对象轮廓集合，取值为1表示轮廓S被分配给第k个序列，取值为0表示轮廓S没有被分配给第k个序列；

以所述集合A和所述集合B为变量，建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式：约束条件为：

其中，L(A,B)为损失函数，表示所述候选对象包围盒集合的集合和所述候选对象轮廓集合的集合之间的置信度；Ω₁(A,B)为惩罚项，表示所述输入视频在相邻的两个帧上选取的所述候选对象包围盒集合与所述候选对象轮廓集合的时域平滑性；Ω₂(B)为惩罚项，表示在不同序列之间选择的所述候选对象轮廓集合的重叠度；λ₁为惩罚项Ω₁(A,B)的参数，λ₂为惩罚项Ω₂(B)的参数；

约束条件用于限定所述集合A的变量和所述集合B的变量的取值范围；

约束条件用于限定每个序列在所述输入视频的每一帧上至多选择一个包围盒或者轮廓；

约束条件用于限定序列的连续性，要求所述序列必须在连续的视频帧上选取包围盒与轮廓；

约束条件用于限定每个序列在所述输入视频中至少选取一个包围盒与一个轮廓。

4.根据权利要求3所述的语义标签引导的视频对象分割方法，其特征在于，所述通过将所述候选对象包围盒集合与所述候选对象轮廓集合的组合用网络流节点表示，将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题，具体包括：

利用δ_x(D,S)s表示δ_y(D,D₀,S,S₀)表示将所述第一优化目标函数式等价为第二优化目标函数式

其中，ξ,η,δ_x,δ_y均为列向量，分别用于记录与所有包围盒和轮廓相关的变量；矩阵П用于记录轮廓之间的重叠区域；所述δ_x(D,S)用于表示组合(D,S)所表示节点的激活状态，δ_y(D,D₀,S,S₀)用于表示组合(D,S)连接组合(D₀,S₀)所表示节点的边的激活状态，D₀∈D_t+1表示D₀属于所述输入视频第t+1帧的候选对象包围盒集合D_t+1，S₀∈S_t+1表示S₀属于所述输入视频第t+1帧的候选对象包围盒集合S_t+1；所述表示为优化目标为最小成本最大流的第二优化目标函数式。

5.根据权利要求1所述的语义标签引导的视频对象分割方法，其特征在于，所述对所述初始分割序列进行处理，估算出所述输入视频中所述对象的形状概率分布，具体包括：

从所述输入视频的所有候选对象轮廓集合中，选择与所述对象初始分割序列重叠率大于预设阈值的候选对象轮廓；

利用贪心算法以所述输入视频任一帧上的任一所述候选对象轮廓为起点，将采用光流匹配法从所述候选对象轮廓中寻找到的下一帧上匹配度最高的候选轮廓加入候选分割序列，得到N个所述候选分割序列；

分别设定每一个所述候选分割序列的初始得分表达式，计算所述每一个所述候选分割序列基于所述对象外观一致性和时域一致性的初始得分；

设定所述N个候选分割序列优化后的得分表达式，以所述N个候选分割序列优化后的得分表达式为变量，建立以所述N个候选分割序列得分为优化目标的第三优化目标函数式；

采用L-BFGS算法对所述第三优化目标函数式进行处理，得到所述输入视频中所述对象的形状概率分布。

6.根据权利要求5所述的语义标签引导的视频对象分割方法，其特征在于，设定第r个候选分割序列的表达式为其中，L_r为第r个候选分割序列的长度，1≤r≤N；

设定第r个所述候选分割序列基于所述对象外观一致性和时域一致性的初始得分计算式为其中，λ_f为所有数值χ²(f(S_r,l),f(S_r,l+1))的平均值，o(S_r,l)表示所述对象轮廓检测器检测出的轮廓S_r,l的对象性得分，f(S_r,l)为表征轮廓S_r,l外观的特征向量，f(S_r,l+1)为表征轮廓S_r,l+1外观的特征向量，χ²(f(S_r,l),f(S_r,l+1))表示f(S_r,l)与f(S_r,l+1)的卡方距离；

设定所述N个候选分割序列优化后的得分表达式为得到以为变量，以所述N个候选分割序列得分为优化目标的第三优化目标函数式为其中，为损失函数，用于限定第r个候选分割序列优化后的得分与初始得分的偏差；C₁(α)、C₂(α)为惩罚项，C₁(α)用于约束优化后的候选分割序列之间得分的外观一致性；C₂(α)用于约束优化后的候选分割序列之间得分的时域一致性；θ₁和θ₂分别为C₁(α)和C₂(α)的参数。

7.根据权利要求1所述的语义标签引导的视频对象分割方法，其特征在于，所述结合所述对象的形状概率分布，依次利用图割算法对每一个包含所述对象的序列进行优化处理，得到所述输入视频中所述对象对应的最优分割序列，具体包括：

针对所述输入视频的每一帧，以像素为节点，以像素的邻接关系为边，构建4-邻居图结构G＝{V,E}，其中，V为节点集合，E为边集合；

以x＝(x₁,x₂,...,x_n)∈{0,1}ⁿ表示所述输入视频每一帧上每个像素的前景和背景状态，建立第四优化目标函数表达式：优化目标为求解一个标记状态x^*使所述像素分割为前景与背景，并保持候选分割序列的局部平滑性；其中，u_i表示数据项，定义式为：u_i(x_i)＝-ρlog(A(x_i))+(1-ρ)log(S(x_i))，A(x_i)为表征第i个像素前景对象外观的高斯混合模型给出的前景概率，S(x_i)为第i个像素的形状概率；v_i为平滑项，采用图像分割算法常用的对比度敏感的Potts模型定义得到；

采用所述图割算法对所述第四优化目标函数表达式进行求解，得到所述标记状态x^*；

所述输入视频每一帧上所有像素的所述标记状态x^*的集合组成每一个包含所述对象对应的优化分割序列；

所述每一个包含所述对象对应的优化分割序列的集合组成所述输入视频中所述对象对应的最优分割序列。