CN106327469B - 一种语义标签引导的视频对象分割方法 - Google Patents
一种语义标签引导的视频对象分割方法 Download PDFInfo
- Publication number
- CN106327469B CN106327469B CN201510368762.1A CN201510368762A CN106327469B CN 106327469 B CN106327469 B CN 106327469B CN 201510368762 A CN201510368762 A CN 201510368762A CN 106327469 B CN106327469 B CN 106327469B
- Authority
- CN
- China
- Prior art keywords
- candidate
- sequence
- segmentation
- input video
- bounding box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 201
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000009826 distribution Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims description 40
- 230000014509 gene expression Effects 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 28
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ZAGNMMRDHSEOPE-UHFFFAOYSA-N (2-chlorophenyl) n-methylcarbamate Chemical compound CNC(=O)OC1=CC=CC=C1Cl ZAGNMMRDHSEOPE-UHFFFAOYSA-N 0.000 description 1
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/162—Segmentation; Edge detection involving graph-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/168—Segmentation; Edge detection involving transform domain methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种语义标签引导的视频对象分割方法,包括:根据对象所属的语义类别标签,依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测,得到该输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合;建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,求出该输入视频中所述对象对应的初始分割序列,并对该初始分割序列进行处理,估算出所述对象的形状概率分布;结合该形状概率分布,依次利用图割算法对每一个包含所述对象的序列进行优化处理,得到所述对象对应的最优分割序列。本发明的技术方案,解决了现有视频对象分割方法不精确以及无法适用于单个输入视频的语义类别对象分割的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语义标签引导的视频对象分割方法。
背景技术
视频对象分割是将给定语义类别的对象区域从视频中检测并分割出来的一种技术,是计算机视觉与多媒体分析领域的基础技术,在目标检索、视频编辑、基于视频的三维建模等应用方面发挥了重要的作用。弱标注视频对象分割方法是指用户仅标注该视频中对象的语义类别,由算法检测并分割出属于用户指定类别对象的一种方法。鉴于大多数互联网视频通常具有用户标记、与内容相关的语义标签,因此,弱标注视频对象分割方法对于分析处理日益增长的网络视频数据具有重要的应用价值。
由于弱标注视频对象的特点是仅了解输入视频中存在属于指定语义类别的对象,但其具体的位置信息仍然未知。目前,主要采用基于弱监督学习的视觉模型进行求解,具体为:首先,收集正样本视频与负样本视频,其中,正样本视频由包含指定语义类别的视频集合组成,负样本视频由不包含指定语义类别的视频集合组成;其次,将每个视频分割为时空分割块,并根据正负样本视频的关联求解每个时空分割块的语义类别;最后,采用多图优化模型对所有的正负样本视频进行共分割,得到输入视频中属于指定语义类别对象的分割结果。
虽然上述基于弱监督学习的视频对象分割方法在某些情况下能够有效地解决弱标注条件下视频对象的分割问题,但是,弱批注条件下的视频中缺乏指定语义类别对象的位置信息,使得正负样本视频的分类不准确,因而在分割的过程中极有可能出现错误的视频分割结果,另外,这种分类方法需要多个视频作为输入进行分割,无法适用于单个输入视频的语义类别对象分割。
发明内容
本发明提供了一种语义标签引导的视频对象分割方法,借助于对象包围盒检测器和对象轮廓检测器辅助给定语义类别对象的视频分割,解决了现有视频对象分割方法不精确以及无法适用于单个输入视频的语义类别对象分割的问题。
本发明提供的一种语义标签引导的视频对象分割方法,包括:
根据对象所属的语义类别标签,依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测,得到所述输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合;
建立包含所述候选对象包围盒集合与所述候选对象轮廓集合的联合分配模型,求出所述输入视频中所述对象对应的初始分割序列,所述初始分割序列为至少一个包含所述对象的序列;
对所述初始分割序列进行处理,估算出所述输入视频中所述对象的形状概率分布;
结合所述对象的形状概率分布,依次利用图割算法对每一个包含所述对象的序列进行优化处理,得到所述输入视频中所述对象对应的最优分割序列。
本发明提供的一种语义标签引导的视频对象分割方法,通过应用对象包围盒检测器和对象轮廓检测器来辅助输入视频中给定语义类别对象的分割,从而避免了弱监督学习条件下产生的样本视频分类模糊性的问题,进一步的,本发明提供的语义标签引导的视频对象分割方法能够应用于单个输入视频的给定语义类别对象分割,而无需同时处理多个视频,具有更强的适用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明语义标签引导的视频对象分割方法实施例一的流程图;
图2为本发明语义标签引导的视频对象分割方法实施例二的流程图;
图3为本发明语义标签引导的视频对象分割方法实施例三的流程图;
图4为本发明语义标签引导的视频对象分割方法实施例四的流程图;
图5为本发明语义标签引导的视频对象分割方法实施例五的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
视频对象分割是将给定语义类别的对象区域从视频中检测并分割出来的一种技术,是计算机视觉与多媒体分析领域的基础技术,其在目标检索、视频编辑、基于视频的三维建模等应用方面都发挥了重要的作用。
目前,根据用户输入条件的不同,现有的视频对象语义分割方法主要分为三大类:无标注视频对象分割方法、强标注视频对象分割方法和弱批注视频对象分割方法。其中,无标注视频对象分割方法:无需用户交互,算法可自动地将语义对象从视频中分割出来的一种视频对象分割方法;强标注视频对象分割方法:用户需要在输入视频的若干关键帧上手动分割出对象,算法将分割结果传播至其余帧上,以此将语义对象从输入视频中分割出来的一种视频对象分割方法;弱标注视频对象分割方法:用户仅标注输入视频中对象所属的语义类别,算法检测并将指定语义类别的对象从输入视频中分割出来的一种视频对象分割方法。鉴于大多数互联网视频通常具有用户标记、与内容相关的语义标签,因此,弱标注条件下的视频对象分割对于分析处理日益增长的网络视频数据具有重要的应用价值。
由于视频对象在弱标注条件下,仅知道输入视频中存在属于指定语义类别的对象,而该对象的位置信息却仍然未知。为解决该问题,相关研究领域主要采用基于弱监督学习的视觉模型进行求解,具体为:在弱监督学习框架下,首先收集正样本视频与负样本视频,其中,正样本视频由包含指定语义类别的视频集合组成,负样本视频由不含指定语义类别的视频集合组成;其次,将每个视频分割为时空分割块(Spatio-temporal Segment),并根据正负样本的关联求解每个分割块的语义类别;举例来说,Hartmann分别采用线性支撑向量机(Linear SVM)与多示例Boosting(MI-Boosting)方法学习基于分割块的分类器,并在输入视频中检测给定语义类别的对象区域;Tang等人采用负样本挖掘方法,将正样本视频的每个分割块与负样本视频的所有分割块对比,根据正负样本视频的近邻关系为所有正样本视频的每个分割块打分,并判定分数较高的分割块属于指定的语义类别;Xiao等人提出采用弱监督哈希算法学习正样本视频与负样本视频之间的距离度量,并使用K近邻分类方法给出视频分割块属于给定语义类别的概率;最后,采用多图优化模型对所有的正负样本视频进行共分割,得到该输入视频中属于指定语义类别对象的分割结果。
虽然上述基于弱监督学习的视频对象分割方法在某些情况下能够有效地解决弱标注条件下视频对象的分割问题,但是其仍然存在下述两点不足。首先,由于弱批注条件下的输入视频中缺乏指定语义类别对象的位置信息,因此只通过比较分割块的外观来猜测样本分割块所属的类别,使得样本分割块的分类往往不准确(例如,两个外观相似的分割块既可能属于同一语义类别,也可能属于不同类别),从而使得正负样本视频的分类不准确。这种样本分类模糊性极有可能导致视频对象分割结果出现错误。其次,基于弱监督学习的视频对象分割方法通常需要多个视频作为输入进行分割,因此无法适用于单个视频作为输入的语义类别对象分割。
鉴于对象检测器在图像语义分割方面已经有了较多成功的应用案例,例如,Xia等人应用对象检测器,实现了一种高效的图像语义分割方法,无需复杂的训练过程以及逐像素精确标注的图像训练集。所以,针对具有语义类别标签的输入视频,为了解决现有基于弱监督学习的视频对象分割方法存在的上述问题,本发明提出了一种语义标签引导的视频对象分割方法,该方法首先应用给定语义类别对应的对象检测器估计视频对象的粗略位置,并在此基础上完成对所属语义类别对象的分割过程。
图1为本发明语义标签引导的视频对象分割方法实施例一的流程图。如图1所示,本发明实施例一提出的一种语义标签引导的视频对象分割方法,包括:
步骤101:根据对象所属的语义类别标签,依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测,得到该输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合;
由于输入视频中可能存在多个属于不同语义类别标签的对象,并且,弱批注条件下仅知道输入视频中存在指定语义类别标签的对象,但是该对象的位置信息却还是未知数,因此,本发明首先利用对象检测器估计出指定语义类别对象的大体位置,也即,首先利用对象包围盒检测器对输入视频的每一帧进行检测,得到输入视频每一帧的候选对象包围盒集合,再在候选对象包围盒集合的基础上利用对象轮廓检测器对输入视频的每一帧进行检测,得到每一视频帧的候选对象轮廓集合。
步骤102:建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,求出该输入视频中所述对象对应的初始分割序列;
其中,该初始分割序列为至少一个包含所述对象的序列。
由于现有的对象检测器(对象包围盒检测器和对象轮廓检测器)均是在静态图像数据集上训练得到的,因此,直接将其应用于视频帧时,视频的编码压缩、对象遮挡、相机移动等因素都会导致检测得到的候选对象包围盒集合与候选轮廓集合杂乱和不精确。
为此,本发明通过构建一种包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,从杂乱的候选对象包围盒集合和候选对象轮廓集合中,选取有效的候选对象包围盒集合和候选对象轮廓集合构成该输入视频中给定语义类别标签对象对应的序列,作为该对象对应的初始分割序列。
步骤103:对上述初始分割序列进行处理,估算出该输入视频中所述对象的形状概率分布;
针对上述初始分割序列,本发明实施例提出了一种时空一致性保持的对象形状概率分布估计方法,该方法通过分析与上述初始分割序列重叠的若干候选分割序列的统计信息,估计出该输入视频中给定语义类别对象的形状概率分布。
步骤104:结合上述对象的形状概率分布,依次利用图割算法对每一个包含所述对象的序列进行优化处理,得到该输入视频中所述对象对应的最优分割序列。
结合步骤103中求出的给定语义类别对象的形状概率分布,依次利用图割算法对初始分割序列中的每一个包含所述对象的序列进行优化,最终得到该输入视频中所述对象对应的最优分割序列。
本发明实施例提供的语义标签引导的视频对象分割方法,通过应用对象包围盒检测器和对象轮廓检测器来辅助输入视频中给定语义类别对象的分割,从而避免了弱监督学习条件下产生的样本视频分类模糊性的问题,进一步的,本实施例提供的语义标签引导的视频对象分割方法能够应用于单个输入视频的给定语义类别对象分割,而无需同时处理多个视频,具有更强的适用性。
图2为本发明语义标签引导的视频对象分割方法实施例二的流程图。本发明实施例二是在实施例一技术方案的基础上,对上述步骤101的进一步阐述。如图2所示,本发明实施例二提供的语义标签引导的视频对象分割方法,步骤101的具体实现包括如下步骤:
步骤201:根据对象所属的语义类别标签,利用对象包围盒检测器在至少两个阈值上对输入视频的每一帧进行检测,计算出上述至少两个阈值对应检测结果的综合性能值,从该综合性能值中选出最大综合性能值对应的阈值作为对象包围盒检测器的最优阈值;
由于在弱批注条件下,用户在输入视频每一帧的训练集上都手工批注了给定对象的语义类别标签,因此,利用对象包围盒检测器在不同的阈值上对输入视频的每一帧进行检测时,可以得到不同大小的综合性能值,选取最大综合性能值对应的阈值作为对象包围盒的最优阈值。
值得说明的是,综合性能值可以是检测到的F-Score值,F-Score又称F-Measure,是IR(信息检索)领域常用的一个评价标准,F-Score越大表示综合标准越好。因此,可以将F-Score最大时对应的阈值作为该对象包围盒检测器的最优阈值。
步骤202:根据该对象所属的语义类别标签,利用上述对象包围盒检测器在最优阈值上对输入视频的每一帧进行检测,得到该输入视频每一帧的对象包围盒集合,该输入视频每一帧的对象包围盒集合和该帧空包围盒集合的并集为输入视频该帧的候选对象包围盒集合;
举例来说,假如利用对象包围盒检测器对输入视频的第t帧进行检测,可以得到第t帧的对象包围盒集合,记为第t帧的候选对象包围盒集合Dt包含以及空包围盒Dφ,记为:Dt=Dt +∪{Dφ}。其中,空包围盒Dφ用于表示所述对象的理想包围盒区域。
值得说明的是,空包围盒存在的意义为:当对象包围盒检测器在某帧上检测失败时,所得到的对象包围盒集合将无法定位到该输入视频的对象上,若不引入空包围盒集合(即理想的对象包围盒区域),在后续处理中该帧上的对象将无法被正确分割,也即,如果所有的对象包围盒集合都无法正确定位到输入视频的对象,那么,后续建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型时,求解所述对象对应的初始分割序列的算法只能选择一个错误的,而这个选择也会使初始分割序列的选择不准确。
然而,有了空包围盒集合的假设后就可以一定程度上解决上述问题,当所有的对象包围盒集合都无法正确定位到输入视频的对象时,求解所述对象对应的初始分割序列的算法可以首先选择空包围盒集合,然后再选择一个较好的初始分割序列。
值得说明的是,后续建立的包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,将对象包围盒集合与初始分割序列联合在一起,且对象包围盒集合与初始分割序列之间的分配是互相依赖的。
步骤203:根据该输入视频每一帧的候选对象包围盒集合,利用基于参数约束最小割的对象轮廓检测器对该输入视频的每一帧进行检测,得到该输入视频每一帧的候选对象轮廓集合。
具体的,在获知该输入视频第t帧的候选对象包围盒集合后,在上述候选对象包围盒集合的基础上,继续采用基于参数约束最小割(Constrained Parametric Min-Cuts,简称CPMC)的对象轮廓检测器对输入视频的第t帧进行检测,得到第t帧的候选对象轮廓集合,记为St。
利用对象轮廓检测器对输入视频的每一帧检测之前,需要选取该对象轮廓检测器的种子点,种子点表示该对象轮廓检测器需要检测的最优像素区域。
为了提高对象轮廓检测器的检测精度,按照如下方式添加额外的前景种子点,具体为:采用不同较低阈值的对象包围盒检测器对输入视频的第t帧进行检测,得到一系列的候选对象包围盒,并计算每个对象像素被候选对象包围盒覆盖的次数,获得检测结果的热度图,也即,获得每个对象像素被候选对象包围盒覆盖的像素区域;选取热度图的局部极大值点作为额外的前景种子点,也即,热度图的局部极大值点为需要检测的最优像素区域。
本发明实施例二提供的语义标签引导的视频对象分割方法,通过选择对象包围盒检测器的最优阈值,使得对象包围盒检测器在最优阈值上对输入视频的每一帧进行检测来获得输入视频每一帧的对象包围盒集合,进而利用基于参数约束最小割的对象轮廓检测器对输入视频的每一帧进行检测来获得输入视频每一帧的候选对象轮廓集合,粗略确定了给定语义类别对象的位置,提高了后续视频对象分割的精度。
图3为本发明语义标签引导的视频对象分割方法实施例三的流程图。本发明实施例三是在上述实施例一技术方案的基础上,对上述步骤102的进一步阐述。如图3所示,本发明实施例三提供的语义标签引导的视频对象分割方法,步骤102,也即,建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,求出该输入视频中所述对象对应的初始分割序列,具体包括:
步骤301:通过分别设定表示候选对象包围盒集合和候选对象轮廓集合分配的0-1变量集合,建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式;
形式化地,设定表示候选对象包围盒集合的集合其中,Dt表示输入视频第t帧的候选对象包围盒集合, 取值为1表示包围盒D被分配给第k个序列,取值为0表示包围盒D没有被分配给第k个序列;
同理,设定表示候选对象轮廓集合的集合其中,St表示输入视频第t帧的候选对象轮廓集合, 取值为1表示轮廓S被分配给第k个序列,取值为0表示轮廓S没有被分配给第k个序列。
以上述集合A和集合B为变量,建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式,具体为公式(1),约束条件为公式(2);
其中,L(A,B)为损失函数,表示选取的候选对象包围盒集合Dt和候选对象轮廓集合St的置信度;Ω1(A,B)为惩罚项,表示输入视频在相邻的第t帧和第t+1帧上选取的候选对象包围盒集合Dt和Dt+1、候选对象轮廓集合St和St+1的时域平滑性;Ω2(B)为惩罚项,表示在不同序列之间选择的候选对象轮廓集合的重叠度;λ1为惩罚项Ω1(A,B)的参数,λ2为惩罚项Ω2(B)的参数。
理论上,可以根据精度的要求来确定参数λ1和λ2的取值大小,可选的,在发明的实施例中,参数λ1和λ2的取值分别为λ1=10,λ2=1000。
进一步地,下面分别介绍上述约束条件分别具有的约束作用:
约束条件用于限定集合A的变量和集合B的变量的取值范围;
约束条件用于限定每个序列在该输入视频的每一帧上至多选择一个包围盒或者轮廓;
约束条件用于限定每个包围盒或者轮廓至多被分配给1个序列;
约束条件用于限定序列的连续性,
要求序列必须在连续的视频帧上选取包围盒与轮廓;
约束条件用于限定每个序列在该输入视频中至少选取一个包围盒与一个轮廓。
具体的,表示选取候选对象包围盒集合Dt和候选对象轮廓集合St置信度的损失函数L(A,B),其中,置信度的取值范围在0到1之间,目前尚没有一个阈值可以用来定义置信度,所以,只能使算法在一定的约束条件下尽可能的选取较大的置信度。一般情况下,损失函数L(A,B)具体的表达式用公式(3)来表示:
其中,ξ(D,S)的表达式为公式(4):
其中,公式(4)中的表示区域R1和区域R2面积的重叠率(即,区域R1和区域R2的相交面积与其相并面积的比),o(S)表示对象轮廓检测器检测出的轮廓S的“对象性”(Objectness)得分,r(D)表示对象包围盒检测器检测出的包围盒D的置信度得分;r(D)的计算方式为公式(5):
在公式(5)中,为对象包围盒检测器给定的对象包围盒D的置信度得分,γ为对象包围盒检测器的最优阈值,λd为所有对象包围盒得分数值的平均值。
Ω1(A,B)为惩罚项,用于表示输入视频在相邻的第t帧和第t+1帧上选取的候选对象包围盒集合Dt和Dt+1、候选对象轮廓集合St和St+1的时域平滑性,形式化表达式为公式(6):
其中,η(D,S,D0,S0)的具体表达式为公式(7):
具体的,f(S)为表征轮廓S外观的特征向量,可以采用Hue颜色直方图与64维纹理基元直方图(texton histogram)的连接形式表示,χ2表示Hue颜色直方图与64维纹理基元直方图的Chi-Square距离。D与S分别表示D和S经过光流匹配算法处理后,从第t帧投影到第t+1帧上的区域,包围盒D0包含于第t+1帧的候选对象包围盒集合Dt+1,轮廓S0包含于第t+1帧的候选对象轮廓集合St+1。
惩罚项Ω2(B)则表示在不同序列之间选择的候选对象轮廓集合的重叠度,具体用公式(8)表示:
计算惩罚项Ω2(B)时,轮廓S和轮廓S0都包含于第t帧的候选对象轮廓集合St。
步骤302:通过将候选对象包围盒集合与候选对象轮廓集合的组合用网络流节点表示,将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题;
由于上述所构建的包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型包含了成千上万个二元变量和复杂的不等式约束,因此难以使用常见的优化方法求解,所以,本发明实施例通过将候选对象包围盒集合与候选对象轮廓集合的组合用网络流节点表示,将求解对象对应的初始分割序列的问题转化为了求解网络流最小成本最大流的问题。
具体的,利用辅助变量δx(D,S)表示表示因
此,可将第一优化目标函数式等价为第二优化目标函
数式
其中,ξ,η,δx,δy均为列向量,分别用于记录与所有包围盒和轮廓相关的变量;矩阵∏用于记录轮廓之间的重叠区域;辅助变量δx(D,S)用于表示组合(D,S)所表示节点的激活状态,辅助变量δy(D,D0,S,S0)用于表示组合(D,S)连接组合(D0,S0)所表示节点的边的激活状态,D0∈Dt+1表示包围盒集合D0包含于输入视频第t+1帧的候选对象包围盒集合Dt+1,S0∈St+1表示轮廓集合S0属于输入视频第t+1帧的候选对象包围盒集合St+1;因此,表示为优化目标为最小成本最大流的第二优化目标函数式。
步骤303:采用最小成本最大流算法,求出满足上述网络流最小成本最大流问题的Kmax个初始序列;
由于表示网络流最小成本最大流问题的第二优化目标函数式,包含二次项,无法
直接用最小成本最大流算法解出初始分割序列,因此,基于最小成本最大流算法求解上述
问题时,首先忽略掉二次项,第二优化目标函数式简化为
因此,利用最小成本最大流算法求解满足该网络流最小成本最大流问题的Kmax个初始序列的过程为:
首先,利用最小成本最大流算法求解该网络流,取得一个序列;其次,将该序列选取的包围盒与轮廓(及其相关的边)从原网络流中剔除,得到更新后的网络流。重复这一过程,直到新增加的序列触发如下两种情况之一:其一,不满足优化问题的约束条件;其二,增大了优化目标函数值。
在取得的所有序列中,将长度小于5帧的序列舍弃,得到Kmax个序列作为网络流最小成本最大流问题的初始解。
步骤304:对上述Kmax个初始序列中的前K个初始序列,分别利用K-最短路径算法重新选取对象轮廓,得到K个候选序列集合;
假定候选序列的个数K已知(1≤K≤Kmax),针对该前K个初始序列中的每一个,维持其选取的候选对象包围盒不变,采用K-最短路径(K Shortest Path)算法重新选取对象轮廓,获得由M个新序列与原K个初始序列组成的K个候选序列集合。其中,M可以为任意的正整数,M取值较大,可能得到分割结果的较好,在实验中常将M设置成M=100。
步骤305:对所述K个候选序列集合中的每一个候选序列,采用0-1变量表示每个候选序列的选择状态,将求解所述网络流最小成本最大流的问题转化为0-1二次规划问题;
从上述K个候选序列集合的每一个中分别选取一个候选序列,并使得新选取的K个候选序列能够使原网络流的优化目标最小。
令μ∈{0,1}MK表示上述K个候选序列集合的所有候选序列的选择状态,其中,1表示被选择,0表示未被选择,那么,求解网络流最小成本最大流的问题转化为了求解0-1二次规划问题,用公式(9)表示:
其约束条件为Cμ=1。
具体的,列向量s的每个分量记录了对应序列的损失函数值与时域平滑性惩罚函数值,矩阵A记录了任意两个序列之间的重叠区域面积总和,约束矩阵C∈{0,1}K×MK限定了每个候选集合中序列的选择状态变量总和为1。
步骤306:利用优化器对上述0-1二次规划问题进行求解,得到所述对象对应的初始分割序列。
上述二次规划问题可以采用常见的优化器进行求解,常见的优化器比如Gurobi优化器。
针对满足1≤K≤Kmax的每个K值,都可以应用步骤303来求得对象的候选序列及以所述对象对应的初始分割序列为优化目标的第一优化目标函数式的目标函数值。选择能够使得目标函数值最小的K*及此时的序列作为该第一优化目标函数式的最终解,并选取最优的轮廓序列作为所述对象对应的初始分割序列。
经过上述步骤301至步骤306,可以得到给定语义类别标签所属对象的初始分割序列,这些初始分割序列,能够大致定位出该输入视频中给定语义类别标签所属对象的边缘,为后续求所述对象对应的最优分割序列奠定了基础。
本发明实施例三提供的语义标签引导的视频对象分割方法,通过构建包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,能够将给定语义类别标签的对象从杂乱的候选对象包围盒集合和候选轮廓集合中选取出来,并将求解所述对象初始分割序列的问题用第一目标函数式表示出来,通过将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题,并利用最小成本最大流算法和0-1二次规划的局部搜索来求解,最终求出了输入视频中给定语义类别对象对应的初始分割序列,解决了对象包围盒检测器和对象轮廓检测器应用于视频帧时产生的候选对象包围盒集合与候选轮廓集合杂乱和不精确的问题。
图4为本发明语义标签引导的视频对象分割方法实施例四的流程图。本发明实施例四是在上述实施例一技术方案的基础上,对上述步骤103的进一步阐述。如图4所示,本发明实施例四提供的语义标签引导的视频对象分割方法,步骤103,也即,对上述初始分割序列进行处理,估算出该输入视频中所述对象的形状概率分布,具体的实现步骤包括:
步骤401:从该输入视频的所有候选对象轮廓集合中,选择与所述对象初始分割序列重叠率大于预设阈值的候选对象轮廓;
具体的,在上述输入视频的所有候选对象轮廓中,保留与初始分割序列重叠率大于设定阈值的候选对象轮廓,将重叠率小于设定阈值的候选对象轮廓去除。设定阈值是用户根据自己的需求自行设置的,一般情况下,该设定阈值为50%。
步骤402:利用贪心算法以该输入视频任一帧上的任一候选对象轮廓为起点,将采用光流匹配法从候选对象轮廓中寻找到的下一帧上匹配度最高的候选轮廓加入候选分割序列,得到N个候选分割序列;
详细来说,本步骤是采用贪婪算法从上述重叠率大于设定阈值的候选对象轮廓中构造N个候选分割序列,具体的构造方法为:以该输入视频某一帧上的某个候选轮廓作为分割序列的起点,采用光流匹配法寻找下一帧上匹配度最高的候选轮廓并加入到候选分割序列,重复该过程直到满足以下两种情况之一,情况一:到达输入视频的最后一帧;情况二:下一帧上任何候选轮廓与当前候选轮廓投影后区域的重叠率均小于设定阈值。设定阈值可选为50%。
按照上述方法,构造出上述候选该分割序列后,将该候选分割序列所选取的候选轮廓移除,在剩余的候选轮廓中重复构造候选分割序列直到所有的候选轮廓均被选取,以此构造出N个候选分割序列。
步骤403:分别设定每一个所述候选分割序列的初始得分表达式,计算所述每一个所述候选分割序列基于所述对象外观一致性和时域一致性的初始得分;
具体的,设定第r个候选分割序列的表达式为其中,Lr为第r个候选分割序列的长度,1≤r≤N,那么,第r个候选分割序列基于所述对象外观和时域一致性的初始得分计算式用公式(10)表示:
其中,λf为所有数值χ2(f(Sr,l),f(Sr,l+1))的平均值;
步骤404:设定N个候选分割序列优化后的得分表达式,以该N个候选分割序列优化后的得分表达式为变量,建立以N个候选分割序列得分为优化目标的第三优化目标函数式;
可选的,设定N个候选分割序列优化后的得分表达式用表示,那么,以为变量,以该N个候选分割序列得分为优化目标的第三优化目标函数式可用公式(11)表示:
其中,为损失函数,用于限定第r个候选分割序列优化后的得分与初始得分的偏差;C1(α)、C2(α)为惩罚项,C1(α)用于约束优化后的候选分割序列之间得分的外观一致性;C2(α)用于约束优化后的候选分割序列之间得分的时域一致性;θ1和θ2分别为C1(α)和C2(α)的参数。
可选的,将参数θ1和θ2的大小设置为θ1=θ2=1.5。
公式(11)整体表示为尽可能使得第r个候选分割序列优化后的得分与初始得分的偏差较小,且约束优化后的候选分割序列之间得分的外观一致性和时域一致性尽可能的好。
具体的,外观一致性惩罚项C1(α)的表达形式为公式(12):
其中,权重wr,s=e-dist(r,s)为第r个候选分割序列与第s个候选分割序列的相似度,dist(r,s)为第r个候选分割序列与第s个候选分割序列轮廓特征集合的豪斯多夫距离(Hausdorff Distance),Rr为与第r个候选分割序列的距离小于给定阈值的序列集合。外观一致性惩罚项C1(α)能够使特征相似的序列的得分尽可能地接近。
时域一致性惩罚项C2(α)的表达形式用公式(13)表示:
其中,为预先分割的输入视频帧的超像素集合,|Ap|表示超像素Ap的面积,βp表示超像素Ap的得分,其计算方法为其中∏p为覆盖超像素Ap的候选分割序列集合;表示通过前向(反向)光流与第p个超像素发生重叠的超像素集合,表示超像素与超像素Ap重叠的面积占Aq总面积的比例。时域一致性惩罚项C2(α)的作用是使得时域上相邻的像素的形状概率分布尽可能地接近。
步骤405:采用L-BFGS算法对上述第三优化目标函数式进行处理,得到该输入视频中所述对象的形状概率分布。
采用L-BFGS算法对第三优化目标进行求解,得到最优解α*后,每个像素的形状概率为覆盖该像素的候选分割序列得分的平均值,进而可以求出该输入视频中对象的形状概率分布。
本发明实施例四提供的语义标签引导的视频对象分割方法,在外观一致性惩罚项和时域一致性惩罚项的联合约束下对初始分割序列进行处理,外观一致性惩罚项使得所述对象对应的初始分割序列与所述对象序列在外观上更为相似,使得对象的形状概率值被增强,时域一致性惩罚项能够根据视频帧间的关系,减小了背景噪声的影响,获得了视觉上更为一致的所述对象的形状概率分布。
图5为本发明语义标签引导的视频对象分割方法实施例五的流程图。本发明实施例五是在上述实施例一至实施例四技术方案的基础上,对上述步骤104的进一步阐述。如图5所示,本发明实施例五提供的语义标签引导的视频对象分割方法,步骤104,也即,根据所述对象的形状概率分布,依次利用图割算法对每一个包含所述对象的序列进行优化,得到输入视频中所述对象对应的最优分割序列,具体的实现步骤包括:
步骤501:针对输入视频的每一帧,以像素为节点,以像素的邻接关系为边,构建4-邻居图结构G={V,E};
其中,V为节点集合,E为边集合;
步骤502:以x=(x1,x2,...,xn)∈{0,1}n表示输入视频每一帧上每个像素的前景和背景状态,建立第四优化目标函数表达式,用公式(14)表示;
上述第四优化目标函数表达式的优化目标是求解一个标记状态x*使所述像素分割为前景与背景,并保持候选分割序列的局部平滑性;
其中,ui表示数据项,其定义式用公式(15)表示:
ui(xi)=-ρlog(A(xi))+(1-ρ)log(S(xi)) (15)
式中,A(xi)为表征第i个像素前景对象外观的高斯混合模型给出的前景概率,S(xi)为上述步骤103求出的第i个像素的形状概率;具体的,前景与背景的高斯混合模型分别在初始分割序列所确定的前景像素以及背景像素上学习得到。
vi为平滑项,采用图像分割算法常用的对比度敏感的Potts模型(ContrastSensitive Potts Model)定义得到。
步骤503:采用图割算法对上述第四优化目标函数表达式进行求解,得到标记状态x*;
具体的,上述优化目标可以采用图割(Graph Cut)算法快速的求解出来。
步骤504:所述输入视频每一帧上所有像素的所述标记状态x*的集合组成每一个包含所述对象对应的优化分割序列;
步骤505:所述每一个包含所述对象对应的优化分割序列的集合组成所述输入视频中所述对象对应的最优分割序列。
由于利用本发明实施例五的步骤对每一条包含所述对象的序列单独优化处理后,确定的前景区域可能会有重叠。为了解决该问题,本发明还提出了一种简单的处理方法,即首先提取重叠区域的外观特征(颜色直方图与纹理直方图),并在Chi-Square距离量度下与最接近该重叠区域的各个分割序列前景区域进行比较,并将距离最小的分割序列的语义类别赋予重叠区域。
本发明实施例五提供的语义标签引导的视频对象分割方法,通过构建4-邻居图结构,将输入视频每一帧每一像素的前景和背景状态用一个优化目标函数式表示出来,并通过图割算法求解,得到了输入视频中所述对象对应的最优分割序列,实现了给定语义类别对象的分割。
本发明实施例一至实施例五提供的语义标签引导的视频对象分割方法,首先利用对象包围盒检测器和对象轮廓检测器粗略的估计出给定语义类别对象的位置,避免了弱监督条件下样本视频分类的模糊性问题,其次,通过建立包含候选对象包围盒集合与候选对象轮廓集合的联合分配模型,解决了监测得到的候选对象包围盒集合和候选对象轮廓集合杂乱和不精确的问题,最后,结合对象的形状概率分布,对输入视频中所述对象的初始分割序列进行优化处理,使得最后得到的对象的最优分割序列更准确。进一步的,本发明实施例提供的语义标签引导的视频对象分割方法,能够应用于单个输入视频的语义类别对象分割,不需要同时处理多个视频,具有更强的适用性。
本发明提供的语义标签引导的视频对象分割方法能够广泛应用于国防军事、电影制作、公共安全等领域计算机视觉系统的视频内容语义解析。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种语义标签引导的视频对象分割方法,其特征在于,包括:
根据对象所属的语义类别标签,依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测,得到所述输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合;
建立包含所述候选对象包围盒集合与所述候选对象轮廓集合的联合分配模型,求出所述输入视频中所述对象对应的初始分割序列,所述初始分割序列为至少一个包含所述对象的序列;
对所述初始分割序列进行处理,估算出所述输入视频中所述对象的形状概率分布;
结合所述对象的形状概率分布,依次利用图割算法对每一个包含所述对象的序列进行优化处理,得到所述输入视频中所述对象对应的最优分割序列;
所述根据对象所属的语义类别标签,依次利用对象包围盒检测器和对象轮廓检测器对输入视频的每一帧进行检测,得到所述输入视频每一帧的候选对象包围盒集合和候选对象轮廓集合,具体包括:
根据所述对象所属的语义类别标签,利用所述对象包围盒检测器在至少两个阈值上对所述输入视频的每一帧进行检测,计算出所述至少两个阈值对应检测结果的综合性能值,从所述综合性能值中选出最大的综合性能值对应的阈值作为所述对象包围盒检测器的最优阈值;
根据所述对象所属的语义类别标签,利用所述对象包围盒检测器在所述最优阈值上对所述输入视频的每一帧进行检测,得到所述输入视频每一帧的对象包围盒集合,所述输入视频每一帧的对象包围盒集合和该帧的空包围盒集合的并集为所述输入视频该帧的所述候选对象包围盒集合;
根据所述输入视频每一帧的所述候选对象包围盒集合,利用基于参数约束最小割的对象轮廓检测器对所述输入视频的每一帧进行检测,得到所述输入视频每一帧的候选对象轮廓集合。
2.根据权利要求1所述的语义标签引导的视频对象分割方法,其特征在于,所述建立包含所述候选对象包围盒集合与所述候选对象轮廓集合的联合分配模型,求出所述输入视频中所述对象对应的初始分割序列,具体包括:
通过分别设定表示所述候选对象包围盒集合和所述候选对象轮廓集合分配的0-1变量集合,建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式;
通过将所述候选对象包围盒集合与所述候选对象轮廓集合的组合用网络流节点表示,将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题;
采用最小成本最大流算法,求出满足所述网络流最小成本最大流问题的Kmax个初始序列;
对所述Kmax个初始序列中的前K个初始序列,分别利用K-最短路径算法重新选取对象轮廓,得到K个候选序列集合;
对所述K个候选序列集合中的每一个候选序列,采用0-1变量表示每个候选序列的选择状态,将求解所述网络流最小成本最大流的问题转化为0-1二次规划问题;
利用优化器对所述0-1二次规划问题进行求解,得到所述对象对应的初始分割序列。
3.根据权利要求2所述的语义标签引导的视频对象分割方法,其特征在于,所述通过分别设定表示所述候选对象包围盒集合和所述候选对象轮廓集合分配的0-1变量集合,建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式,具体包括:
设定表示所述候选对象包围盒集合的集合其中,Dt表示所述输入视频第t帧的候选对象包围盒集合, 取值为1表示包围盒D被分配给第k个序列,取值为0表示包围盒D没有被分配给第k个序列;
设定表示所述候选对象轮廓集合的集合其中,St表示所述输入视频第t帧的候选对象轮廓集合, 取值为1表示轮廓S被分配给第k个序列,取值为0表示轮廓S没有被分配给第k个序列;
以所述集合A和所述集合B为变量,建立优化目标为所述对象对应的初始分割序列的第一优化目标函数式:约束条件为:
其中,L(A,B)为损失函数,表示所述候选对象包围盒集合的集合和所述候选对象轮廓集合的集合之间的置信度;Ω1(A,B)为惩罚项,表示所述输入视频在相邻的两个帧上选取的所述候选对象包围盒集合与所述候选对象轮廓集合的时域平滑性;Ω2(B)为惩罚项,表示在不同序列之间选择的所述候选对象轮廓集合的重叠度;λ1为惩罚项Ω1(A,B)的参数,λ2为惩罚项Ω2(B)的参数;
约束条件用于限定所述集合A的变量和所述集合B的变量的取值范围;
约束条件用于限定每个序列在所述输入视频的每一帧上至多选择一个包围盒或者轮廓;
约束条件用于限定每个包围盒或者轮廓至多被分配给1个序列;
约束条件用于限定序列的连续性,要求所述序列必须在连续的视频帧上选取包围盒与轮廓;
约束条件用于限定每个序列在所述输入视频中至少选取一个包围盒与一个轮廓。
4.根据权利要求3所述的语义标签引导的视频对象分割方法,其特征在于,所述通过将所述候选对象包围盒集合与所述候选对象轮廓集合的组合用网络流节点表示,将求解所述对象对应的初始分割序列的问题转化为求解网络流最小成本最大流的问题,具体包括:
利用δx(D,S)s表示δy(D,D0,S,S0)表示将所述第一优化目标函数式等价为第二优化目标函数式
其中,ξ,η,δx,δy均为列向量,分别用于记录与所有包围盒和轮廓相关的变量;矩阵П用于记录轮廓之间的重叠区域;所述δx(D,S)用于表示组合(D,S)所表示节点的激活状态,δy(D,D0,S,S0)用于表示组合(D,S)连接组合(D0,S0)所表示节点的边的激活状态,D0∈Dt+1表示D0属于所述输入视频第t+1帧的候选对象包围盒集合Dt+1,S0∈St+1表示S0属于所述输入视频第t+1帧的候选对象包围盒集合St+1;所述表示为优化目标为最小成本最大流的第二优化目标函数式。
5.根据权利要求1所述的语义标签引导的视频对象分割方法,其特征在于,所述对所述初始分割序列进行处理,估算出所述输入视频中所述对象的形状概率分布,具体包括:
从所述输入视频的所有候选对象轮廓集合中,选择与所述对象初始分割序列重叠率大于预设阈值的候选对象轮廓;
利用贪心算法以所述输入视频任一帧上的任一所述候选对象轮廓为起点,将采用光流匹配法从所述候选对象轮廓中寻找到的下一帧上匹配度最高的候选轮廓加入候选分割序列,得到N个所述候选分割序列;
分别设定每一个所述候选分割序列的初始得分表达式,计算所述每一个所述候选分割序列基于所述对象外观一致性和时域一致性的初始得分;
设定所述N个候选分割序列优化后的得分表达式,以所述N个候选分割序列优化后的得分表达式为变量,建立以所述N个候选分割序列得分为优化目标的第三优化目标函数式;
采用L-BFGS算法对所述第三优化目标函数式进行处理,得到所述输入视频中所述对象的形状概率分布。
6.根据权利要求5所述的语义标签引导的视频对象分割方法,其特征在于,设定第r个候选分割序列的表达式为其中,Lr为第r个候选分割序列的长度,1≤r≤N;
设定第r个所述候选分割序列基于所述对象外观一致性和时域一致性的初始得分计算式为其中,λf为所有数值χ2(f(Sr,l),f(Sr,l+1))的平均值,o(Sr,l)表示所述对象轮廓检测器检测出的轮廓Sr,l的对象性得分,f(Sr,l)为表征轮廓Sr,l外观的特征向量,f(Sr,l+1)为表征轮廓Sr,l+1外观的特征向量,χ2(f(Sr,l),f(Sr,l+1))表示f(Sr,l)与f(Sr,l+1)的卡方距离;
设定所述N个候选分割序列优化后的得分表达式为得到以为变量,以所述N个候选分割序列得分为优化目标的第三优化目标函数式为其中,为损失函数,用于限定第r个候选分割序列优化后的得分与初始得分的偏差;C1(α)、C2(α)为惩罚项,C1(α)用于约束优化后的候选分割序列之间得分的外观一致性;C2(α)用于约束优化后的候选分割序列之间得分的时域一致性;θ1和θ2分别为C1(α)和C2(α)的参数。
7.根据权利要求1所述的语义标签引导的视频对象分割方法,其特征在于,所述结合所述对象的形状概率分布,依次利用图割算法对每一个包含所述对象的序列进行优化处理,得到所述输入视频中所述对象对应的最优分割序列,具体包括:
针对所述输入视频的每一帧,以像素为节点,以像素的邻接关系为边,构建4-邻居图结构G={V,E},其中,V为节点集合,E为边集合;
以x=(x1,x2,...,xn)∈{0,1}n表示所述输入视频每一帧上每个像素的前景和背景状态,建立第四优化目标函数表达式:优化目标为求解一个标记状态x*使所述像素分割为前景与背景,并保持候选分割序列的局部平滑性;其中,ui表示数据项,定义式为:ui(xi)=-ρlog(A(xi))+(1-ρ)log(S(xi)),A(xi)为表征第i个像素前景对象外观的高斯混合模型给出的前景概率,S(xi)为第i个像素的形状概率;vi为平滑项,采用图像分割算法常用的对比度敏感的Potts模型定义得到;
采用所述图割算法对所述第四优化目标函数表达式进行求解,得到所述标记状态x*;
所述输入视频每一帧上所有像素的所述标记状态x*的集合组成每一个包含所述对象对应的优化分割序列;
所述每一个包含所述对象对应的优化分割序列的集合组成所述输入视频中所述对象对应的最优分割序列。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510368762.1A CN106327469B (zh) | 2015-06-29 | 2015-06-29 | 一种语义标签引导的视频对象分割方法 |
US15/084,405 US9740956B2 (en) | 2015-06-29 | 2016-03-29 | Method for object segmentation in videos tagged with semantic labels |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510368762.1A CN106327469B (zh) | 2015-06-29 | 2015-06-29 | 一种语义标签引导的视频对象分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106327469A CN106327469A (zh) | 2017-01-11 |
CN106327469B true CN106327469B (zh) | 2019-06-18 |
Family
ID=57601199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510368762.1A Active CN106327469B (zh) | 2015-06-29 | 2015-06-29 | 一种语义标签引导的视频对象分割方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9740956B2 (zh) |
CN (1) | CN106327469B (zh) |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909459B2 (en) | 2016-06-09 | 2021-02-02 | Cognizant Technology Solutions U.S. Corporation | Content embedding using deep metric learning algorithms |
US11761790B2 (en) * | 2016-12-09 | 2023-09-19 | Tomtom Global Content B.V. | Method and system for image-based positioning and mapping for a road network utilizing object detection |
US10339471B2 (en) * | 2017-01-17 | 2019-07-02 | International Business Machines Corporation | Ensemble based labeling |
CN106875406B (zh) * | 2017-01-24 | 2020-04-14 | 北京航空航天大学 | 图像引导的视频语义对象分割方法及装置 |
CN106952269B (zh) * | 2017-02-24 | 2019-09-20 | 北京航空航天大学 | 近邻可逆的视频前景物体序列检测分割方法及系统 |
CN106886801B (zh) * | 2017-04-14 | 2021-12-17 | 北京图森智途科技有限公司 | 一种图像语义分割方法及装置 |
US10573193B2 (en) | 2017-05-11 | 2020-02-25 | Shadowbox, Llc | Video authoring and simulation training tool |
CN107689053B (zh) * | 2017-07-31 | 2021-06-04 | 温州大学 | 一种基于标签传播和排序约束的目标跟踪方法 |
US10755144B2 (en) * | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
US10755142B2 (en) * | 2017-09-05 | 2020-08-25 | Cognizant Technology Solutions U.S. Corporation | Automated and unsupervised generation of real-world training data |
US10504007B2 (en) * | 2017-10-27 | 2019-12-10 | Facebook, Inc. | Determination of population density using convoluted neural networks |
CN108876759B (zh) * | 2017-11-30 | 2021-01-26 | 北京旷视科技有限公司 | 图像探测方法、装置、系统和存储介质 |
CN108345887B (zh) * | 2018-01-29 | 2020-10-02 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN108564134B (zh) * | 2018-04-27 | 2021-07-06 | 网易(杭州)网络有限公司 | 数据处理方法、装置、计算设备和介质 |
CN108734718B (zh) * | 2018-05-16 | 2021-04-06 | 北京市商汤科技开发有限公司 | 用于图像分割的处理方法、装置、存储介质及设备 |
CN108985298B (zh) * | 2018-06-19 | 2022-02-18 | 浙江大学 | 一种基于语义一致性的人体衣物分割方法 |
US11592818B2 (en) | 2018-06-20 | 2023-02-28 | Zoox, Inc. | Restricted multi-scale inference for machine learning |
US10817740B2 (en) | 2018-06-20 | 2020-10-27 | Zoox, Inc. | Instance segmentation inferred from machine learning model output |
US10936922B2 (en) * | 2018-06-20 | 2021-03-02 | Zoox, Inc. | Machine learning techniques |
US10748035B2 (en) | 2018-07-05 | 2020-08-18 | Mitsubishi Electric Research Laboratories, Inc. | Visually aided active learning for training object detector |
US20200065706A1 (en) * | 2018-08-24 | 2020-02-27 | Htc Corporation | Method for verifying training data, training system, and computer program product |
CN110929744B (zh) * | 2018-09-20 | 2023-04-28 | 成都图必优科技有限公司 | 一种基于层次联合卷积网络特征弱监督图像语义分割方法 |
FR3094115B1 (fr) * | 2019-03-22 | 2021-02-26 | Idemia Identity & Security France | Procede d’identification de bagages |
CN110097553B (zh) * | 2019-04-10 | 2023-05-02 | 东南大学 | 基于即时定位建图与三维语义分割的语义建图系统 |
CN109949313A (zh) * | 2019-05-17 | 2019-06-28 | 中科院—南京宽带无线移动通信研发中心 | 一种图像实时语义分割方法 |
CN110276317B (zh) * | 2019-06-26 | 2022-02-22 | Oppo广东移动通信有限公司 | 一种物体尺寸检测方法、物体尺寸检测装置及移动终端 |
CN110400370B (zh) * | 2019-07-17 | 2021-04-16 | 北京航空航天大学 | 一种构建三维cad模型的语义级部件模板的方法 |
CN110458203B (zh) * | 2019-07-19 | 2021-11-30 | 北京科技大学 | 一种广告图像素材检测方法 |
US11908212B2 (en) * | 2019-07-22 | 2024-02-20 | Nec Corporation | Matching position output system |
US11322234B2 (en) | 2019-07-25 | 2022-05-03 | International Business Machines Corporation | Automated content avoidance based on medical conditions |
US11636385B2 (en) | 2019-11-04 | 2023-04-25 | International Business Machines Corporation | Training an object detector using raw and unlabeled videos and extracted speech |
US11416757B2 (en) | 2019-11-04 | 2022-08-16 | International Business Machines Corporation | Classifier training using noisy samples |
US11763565B2 (en) * | 2019-11-08 | 2023-09-19 | Intel Corporation | Fine-grain object segmentation in video with deep features and multi-level graphical models |
US11625422B2 (en) | 2019-12-02 | 2023-04-11 | Merative Us L.P. | Context based surface form generation for cognitive system dictionaries |
US11423223B2 (en) | 2019-12-02 | 2022-08-23 | International Business Machines Corporation | Dynamic creation/expansion of cognitive model dictionaries based on analysis of natural language content |
CN112166436B (zh) * | 2019-12-24 | 2024-09-24 | 商汤国际私人有限公司 | 图像筛选方法及装置、电子设备 |
US11921773B1 (en) * | 2019-12-31 | 2024-03-05 | Snap Inc. | System to generate contextual queries |
CN111259775B (zh) * | 2020-01-13 | 2023-04-28 | 上海交通大学 | 约束时域关系的视频动作定位方法和系统 |
CN111405355B (zh) * | 2020-02-04 | 2022-11-11 | 北京贝思科技术有限公司 | 动态生成音视频片段的处理方法、装置及电子设备 |
CN111337898B (zh) * | 2020-02-19 | 2022-10-14 | 北京百度网讯科技有限公司 | 激光点云的处理方法、装置、设备及存储介质 |
CN111414948B (zh) * | 2020-03-13 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 目标对象检测方法和相关装置 |
CN111432138B (zh) * | 2020-03-16 | 2022-04-26 | Oppo广东移动通信有限公司 | 视频拼接方法及装置、计算机可读介质和电子设备 |
CN111626202B (zh) * | 2020-05-27 | 2023-08-29 | 北京百度网讯科技有限公司 | 用于识别视频的方法及装置 |
US11270147B1 (en) | 2020-10-05 | 2022-03-08 | International Business Machines Corporation | Action-object recognition in cluttered video scenes using text |
CN112215163B (zh) * | 2020-10-13 | 2021-05-25 | 北京中电兴发科技有限公司 | 一种应用于人脸检测预测框的加权后处理方法 |
WO2022142419A1 (zh) * | 2020-12-31 | 2022-07-07 | 上海商汤智能科技有限公司 | 视频处理方法、装置、电子设备及存储介质 |
CN112929662B (zh) * | 2021-01-29 | 2022-09-30 | 中国科学技术大学 | 解决码流结构化图像编码方法中对象重叠问题的编码方法 |
CN112802054B (zh) * | 2021-02-04 | 2023-09-01 | 重庆大学 | 一种融合图像分割的混合高斯模型前景检测方法 |
US11423252B1 (en) | 2021-04-29 | 2022-08-23 | International Business Machines Corporation | Object dataset creation or modification using labeled action-object videos |
CN113191450B (zh) * | 2021-05-19 | 2022-09-06 | 清华大学深圳国际研究生院 | 一种基于动态标签调整的弱监督目标检测算法 |
CN113421280B (zh) * | 2021-05-31 | 2024-05-14 | 江苏大学 | 一种综合精度与速度的强化学习视频对象分割方法 |
CN113792803B (zh) * | 2021-09-16 | 2024-03-29 | 中国科学技术大学 | 前景信息引导的弱监督目标检测方法与系统 |
CN114445732A (zh) * | 2021-12-22 | 2022-05-06 | 北京理工大学 | 一种面向视频的时间动作检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719979A (zh) * | 2009-11-27 | 2010-06-02 | 北京航空航天大学 | 基于时域定区间记忆补偿的视频对象分割方法 |
CN102609958A (zh) * | 2012-01-19 | 2012-07-25 | 北京三星通信技术研究有限公司 | 视频对象提取的方法及设备 |
CN102799646A (zh) * | 2012-06-27 | 2012-11-28 | 浙江万里学院 | 一种面向多视点视频的语义对象分割方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5542284A (en) * | 1994-10-18 | 1996-08-06 | Queen's University At Kingston | Method and instrument for measuring differential oxygen concentration between two flowing gas streams |
US5930783A (en) * | 1997-02-21 | 1999-07-27 | Nec Usa, Inc. | Semantic and cognition based image retrieval |
US7840059B2 (en) * | 2006-09-21 | 2010-11-23 | Microsoft Corporation | Object recognition using textons and shape filters |
US8543380B2 (en) * | 2007-10-05 | 2013-09-24 | Fujitsu Limited | Determining a document specificity |
US9785858B2 (en) * | 2008-09-26 | 2017-10-10 | Siemens Healthcare Gmbh | Method and system for hierarchical parsing and semantic navigation of full body computed tomography data |
US8442309B2 (en) * | 2009-06-04 | 2013-05-14 | Honda Motor Co., Ltd. | Semantic scene segmentation using random multinomial logit (RML) |
US8503768B2 (en) * | 2010-12-22 | 2013-08-06 | Sony Corporation | Shape description and modeling for image subscene recognition |
US8824797B2 (en) * | 2011-10-03 | 2014-09-02 | Xerox Corporation | Graph-based segmentation integrating visible and NIR information |
US9396546B2 (en) * | 2014-01-21 | 2016-07-19 | Adobe Systems Incorporated | Labeling objects in image scenes |
-
2015
- 2015-06-29 CN CN201510368762.1A patent/CN106327469B/zh active Active
-
2016
- 2016-03-29 US US15/084,405 patent/US9740956B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719979A (zh) * | 2009-11-27 | 2010-06-02 | 北京航空航天大学 | 基于时域定区间记忆补偿的视频对象分割方法 |
CN102609958A (zh) * | 2012-01-19 | 2012-07-25 | 北京三星通信技术研究有限公司 | 视频对象提取的方法及设备 |
CN102799646A (zh) * | 2012-06-27 | 2012-11-28 | 浙江万里学院 | 一种面向多视点视频的语义对象分割方法 |
Non-Patent Citations (1)
Title |
---|
Semantic Segmentation without Annotating Segments;Wei Xia et al;《2013 IEEE International Conference on Computer Vision》;20131231;摘要、第3节及图2 |
Also Published As
Publication number | Publication date |
---|---|
US9740956B2 (en) | 2017-08-22 |
US20160379371A1 (en) | 2016-12-29 |
CN106327469A (zh) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106327469B (zh) | 一种语义标签引导的视频对象分割方法 | |
Wang et al. | Robust video object cosegmentation | |
CN109360226B (zh) | 一种基于时间序列多特征融合的多目标跟踪方法 | |
CN109977262B (zh) | 从视频中获取候选片段的方法、装置及处理设备 | |
CN105100894B (zh) | 面部自动标注方法及系统 | |
JP6941123B2 (ja) | 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム | |
CN102334118B (zh) | 基于用户兴趣学习的个性化广告推送方法与系统 | |
US10192117B2 (en) | Graph-based framework for video object segmentation and extraction in feature space | |
Zhang et al. | Video object co-segmentation by regulated maximum weight cliques | |
US20210326638A1 (en) | Video panoptic segmentation | |
Zhang et al. | Keyframe detection for appearance-based visual SLAM | |
US20150110387A1 (en) | Method for binary classification of a query image | |
CN108491766B (zh) | 一种端到端的基于深度决策森林的人群计数方法 | |
CN104318208A (zh) | 一种基于图分割和实例学习的视频场景检测方法 | |
Li et al. | Cfad: Coarse-to-fine action detector for spatiotemporal action localization | |
CN109977253B (zh) | 一种基于语义和内容的快速图像检索方法及装置 | |
CN110458022A (zh) | 一种基于域适应的可自主学习目标检测方法 | |
Volkov et al. | Coresets for visual summarization with applications to loop closure | |
CN111241987B (zh) | 基于代价敏感的三支决策的多目标模型视觉追踪方法 | |
Koh et al. | CDTS: Collaborative detection, tracking, and segmentation for online multiple object segmentation in videos | |
CN110688512A (zh) | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 | |
Zhao et al. | Action recognition based on C3D network and adaptive keyframe extraction | |
CN117119253B (zh) | 一种针对目标对象的高质量视频抽帧方法 | |
Presti et al. | A data association algorithm for people re-identification in photo sequences | |
Zhang et al. | Video entity resolution: Applying er techniques for smart video surveillance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |