CN106875406B - 图像引导的视频语义对象分割方法及装置 - Google Patents

图像引导的视频语义对象分割方法及装置 Download PDF

Info

Publication number
CN106875406B
CN106875406B CN201710060268.8A CN201710060268A CN106875406B CN 106875406 B CN106875406 B CN 106875406B CN 201710060268 A CN201710060268 A CN 201710060268A CN 106875406 B CN106875406 B CN 106875406B
Authority
CN
China
Prior art keywords
segmentation
foreground
candidate
initial
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710060268.8A
Other languages
English (en)
Other versions
CN106875406A (zh
Inventor
陈小武
张宇
李甲
滕炜
宋昊坤
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710060268.8A priority Critical patent/CN106875406B/zh
Publication of CN106875406A publication Critical patent/CN106875406A/zh
Priority to US15/710,791 priority patent/US10354392B2/en
Application granted granted Critical
Publication of CN106875406B publication Critical patent/CN106875406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种图像引导的视频语义对象分割方法及装置,根据给定语义类别,在样本图像中定位目标对象,得到对象样例;对输入视频中每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优候选区域集合;将最优候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。

Description

图像引导的视频语义对象分割方法及装置
技术领域
本发明涉及计算机视觉与多媒体分析领域,尤其涉及一种图像引导的视频语义对象分割方法及装置。
背景技术
随着计算机视觉、多媒体分析技术的发展,以直观形象为特征的多媒体信息资源日益丰富且深受社会大众的喜爱,如何高效地从视频信息中定位并分割出需要的视频资源亦成为了研究热点。
视频语义对象分割是一种针对特定语义类别,从输入视频中定位并分割出属于该类别对象的视频像素的技术。该技术可应用于大规模互联网分析,影视制作中的视频编辑,以及基于视频的三维建模等。目前的视频语义对象分割方法主要为参数化方法,所谓参数化方法,就是在视频中对对象的所处位置进行一一标注,并收集大量已经标注了对象位置或对象轮廓的图像视频,从中学习出一个统一的、由参数作为表达形式的视觉模型,并将该视觉模型应用于输入的测试视频,基于该学习得到的视觉模型对该测试视频中的目标对象进行对象分割。例如,美国乔治亚理工大学的Kundu等人提出了基于特征空间优化的视频语义对象分割方法,该参数化方法通过大量精确标注的视频帧学习卷积神经网络得到视觉模型。美国密西根大学的Lei等人于2016年提出了机器学习模型递归时域深度场(RecurrentTemporal Deep Field),并应用于视频语义对象分割。然而,这类参数化的方法存在以下问题:一方面,采用参数化方法需要对大量的图像进行精确标注得到训练样本,因此训练样本的收集过程较为困难且耗时较长;另一方面,训练得到的参数模型难以根据新增加的图像进行高效地更新和迭代,因此对于视觉资源的动态增长的适应性不好。例如,若在已有的视觉系统中增加新的训练样本或者语义类别,采用参数化方法则需要重新训练视觉模型,而该模型的训练过程是耗时耗力的,对于现代的机器学习模型,可能需要数天甚至数周的时间。
发明内容
本发明提供一种图像引导的视频语义对象分割方法及装置,该方法属于非参数化的视频语义对象分割方法,基于仅标注了语义类别标签的样本图像集合得到对象样例,并根据该对象样例对输入的视频进行语义对象分割。相比现有技术中的参数化方法,本发明能够充分利用互联网上广泛存在的弱标注图像集,不需要像参数化方法那样对训练样本进行精确标注;通过建立输入视频与图像集的匹配,定位视频语义对象,省略了对视觉模型的训练过程,还能够支持图像集的动态增长,简单且高效地实现对视频的语义对象分割。
本发明提供一种图像引导的视频语义对象分割方法,包括:
根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
对输入视频中的每帧图像进行候选区域的提取;
根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
对选出的所述高分候选区域进行前景与背景的初始分割处理;
基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。
本发明还提供一种图像引导的视频语义对象分割装置,包括:
定位模块,用于根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
提取模块,用于对输入视频中的每帧图像进行候选区域的提取;
匹配模块,用于根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
排序模块,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
处理模块,用于对选出的所述高分候选区域进行前景与背景的初始分割处理;
计算模块,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
传播模块,用于将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割。
本发明的图像引导的视频语义对象分割方法及装置,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。
附图说明
图1为本发明一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;
图2a、图2b为图1所示实施例的对象样例的示意图;
图3为图1所示实施例的视频帧的示意图;
图4为本发明另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图;
图5为本发明一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图1所示,本实施例示出的图像引导的视频语义对象分割方法,包括:
步骤101、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。
具体的,根据事前给定的语义类别,在包含该语义类别对象的大量图像中共定位出目标对象,从而构造得到对象样例。如在图2a、图2b所示的图像中,假定语义类别为“牛”,则根据语义类别“牛”在图2a和图2b的样本图像中分别对“牛”的目标对象进行定位,定位后的结果分别如图2a和图2b中的矩形框所示,需要注意的是,此处,定位得到的对象样例虽然是根据语义类别“牛”进行的定位,但是有可能定位得到的结果是错误的,例如图2b中,“牛”的图像被错误定位到了“树”的图像。其中,定位目标图像的方法可以采用现有技术中的共定位方法,如2015年法国国家信息与自动化研究所、巴黎高等工程学院与法国国家科学研究中心的联合WILLOW实验室的Cho等人所提出的“概率哈夫匹配”(Probabilistic HoughMatching)共定位算法。该算法首先从每幅图像中提取大量候选矩形区域,然后计算每个矩形区域的“共显著性”(Co-Saliency),并在每幅图像中选取共显著性最高的区域作为对象样例。该过程是完全自动的,因此存在对象定位不精确甚至错误的情况。
步骤102、对输入视频中的每帧图像进行候选区域的提取。
如图3所示,假设该图为输入视频中的其中一帧图像,根据预设的候选区域选择算法,在每帧图像中进行候选区域的提取,被提取的候选区域如图3中的各个矩形框所示(如标号1-6所示)。该候选区域的提取无需依据给定的语义类别,随机进行候选区域的选定。
步骤103、根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数。
具体的,针对标注同语义类别的输入视频,在每一帧上提取候选区域集合并根据之前得到的对象样例,将每个候选区域与对象样例进行匹配,利用匹配区域与图像对象样例的空间上下文关系,为视频帧的候选区域集合进行快速打分。如图3所示,经过匹配处理后,与图2a中的“牛”对象样例匹配度高的候选区域得到的相似度分数高,例如,标号为6的候选区域的得分最高。由于图2b中的错误对象样例的存在,标号为1的候选区域的得分可能也较高。对图3中的每个候选区域都进行相似度的评分处理。
步骤104、对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域。
根据预设的候选区域个数,选出视频帧中得分较高的几个高分候选区域以对其进行后续处理。
步骤105、对选出的高分候选区域进行前景与背景的初始分割处理。
步骤106、基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合。
具体的,为每一高分候选区域构造初始前景与背景分割,联合分割的一致性与无二义性约束从候选区域集合中选取最优的对象区域集合;由于视频与对象样例匹配过程可能的错误以及图像对象样例本身的不精确性,得最高分的候选区域不一定能够精确定位视频对象。为此,该步骤通过视频分割的一致性与无二义性,在各视频帧上联合优化选取正确的候选区域,得到最优的候选区域集合。
步骤107、将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。
本实施例的图像引导的视频语义对象分割方法,通过根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;对输入视频中的每帧图像进行候选区域的提取;根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;对选出的高分候选区域进行前景与背景的初始分割处理;基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。该方案无需训练视觉模型,充分利用互联网上广泛存在的弱标注图像代替以往方法所需的精确标注的训练样本,从而省略了模型的训练过程,能较好地支持图像集合的动态增长,高效且准确地得到视频资源的语义对象分割结果。
图4为本发明另一示例性实施例示出的图像引导的视频语义对象分割方法的流程示意图,如图4所示,进一步的,在上述实施例的基础上,本实施的图像引导的视频语义对象分割方法,具体包括:
步骤401、根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例。
步骤402、对输入视频中的每帧图像进行候选区域的提取。
具体的,可以采用斯坦福大学Philipp
Figure BDA0001218772550000061
与Vladlen Koltun在2014年提出的“测地线对象假设”(Geodesic Object Proposals)提取候选区域。
步骤403、在对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定图像区域在对象样例的样本图像中的相对坐标和尺寸参数;保持相对坐标和尺寸参数,在输入视频的对应帧中构造一个新的对象区域;根据构造的新的对象区域为每一个候选区域评分,得到每个候选区域的相似度分数。
具体的,为视频帧的每一候选区域快速找到对象样例中外观相似的图像区域,然后保持对象样例中的匹配图像区域与该对象样例的相对坐标和尺寸关系,在原输入视频帧上构造一个新的对象区域。通过该方式可以构造大量的对象区域。由于图像对象样例存在不精确或者错误,因此所构造对象区域也存在部分不精确的情况。为了解决该问题带来的影响,本发明利用迁移得到的大量对象区域(新的对象区域)为每一候选区域进行打分。这一步骤可以从两个方面有效解决对象样例不精确或者存在错误的问题:首先,所提取的候选区域利用了视频帧本身的信息,一般能够紧密贴合对象边界;其次,利用大量的对象样例(新的对象区域)进行打分,对于少量样例不精确的情况,具有较强的鲁棒性。
相似度分数的具体算法如下:针对从视频帧提取的候选区域集合
Figure BDA0001218772550000072
中的某一候选区域
Figure BDA0001218772550000073
采用KD树算法匹配得到K个外观最相似的图像区域。对于第k个匹配区域
Figure BDA0001218772550000074
保持该区域与所在图像对象样例
Figure BDA0001218772550000078
的相对坐标和尺寸关系,并在原视频帧上构造一个新的对象区域位置
Figure BDA0001218772550000077
最后可以构造
Figure BDA0001218772550000076
个对象样例。采用如下公式为每一候选区域打分。以候选区域
Figure BDA0001218772550000075
为例,其得分为:
Figure BDA0001218772550000071
其中
Figure BDA0001218772550000079
表示区域
Figure BDA00012187725500000710
与对象样例的外观相似性,定义为
Figure BDA0001218772550000081
其中
Figure BDA0001218772550000086
表示区域的外观特征向量,本发明采用VGG深度网络的fc7层输出作为特征。大括号内的分母δf为常量,一般取其分子的平均值。上式表示区域
Figure BDA0001218772550000087
与前K个最相似度对象样例的平均相似度。
Figure BDA0001218772550000089
表示区域
Figure BDA0001218772550000088
的“可迁移性”(新的对象区域),结合局部空间上下文关系定义。具体而言,若通过该区域所迁移得到的对象位置与通过其邻近区域迁移得到的对象位置较为相似,则该区域的“可迁移性”较高。
Figure BDA00012187725500000810
定义为:
Figure BDA0001218772550000082
其中,
Figure BDA0001218772550000083
Figure BDA0001218772550000084
在上式中,
Figure BDA00012187725500000811
表示区域
Figure BDA00012187725500000817
的第k个匹配区域,c为该匹配区域的置信度,由“概率哈夫匹配”算法输出得到;
Figure BDA00012187725500000816
为区域
Figure BDA00012187725500000819
的邻近区域集合,
Figure BDA00012187725500000812
表示通过邻近区域集合
Figure BDA00012187725500000813
所迁移的对象位置的平均值。δr与δn为高斯核控制参数,可设为相应分子的平均值,Zc、Zr与Zn为归一化常量,分别为Zc=Zr=K,
Figure BDA00012187725500000818
Figure BDA00012187725500000814
表示区域
Figure BDA00012187725500000815
与某一迁移得到的对象位置的相似度。定义为
Figure BDA0001218772550000085
其中对象位置表示为5维向量,包括其包围矩形中心点的横纵坐标、宽和高、以及尺度(面积的平方根)。当采用上述高斯核形式的时候,候选区域的打分
Figure BDA00012187725500000820
可以看作一个双边滤波过程。采用2011年美国斯坦福大学Philipp
Figure BDA0001218772550000092
与Vladlen Koltun提出的卷积算法,可在线性时间内为所有候选区域打分。
步骤404、对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域。
步骤405、对高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
具体的,对于输入视频的第t帧的所有候选区域(即候选区域集合)及各个候选区域的得分,采用非极大值抑制(Non-Maximal Suppression)算法得到少量得分较高,且相互重叠区域较少的高分候选区域集合
Figure BDA0001218772550000093
针对每一高分候选区域
Figure BDA0001218772550000094
构造前背景初始分割。前景(背景)分割即为视频每一超像素赋予一个前景(背景)概率值。对于视频的每一超像素
Figure BDA0001218772550000095
前景分割的构造方法为:
Figure BDA0001218772550000091
其中,
Figure BDA0001218772550000098
为至少有50%的区域被
Figure BDA0001218772550000096
所覆盖的候选区域集合,
Figure BDA00012187725500000911
为区域
Figure BDA0001218772550000099
所包含的超像素集合,
Figure BDA0001218772550000097
为区域
Figure BDA00012187725500000912
的“对象性”得分,由“测地线对象假设”算法输出得到。背景初始分割则是对于属于
Figure BDA00012187725500000910
的超像素赋值为0,否则赋值为1。将所有超像素的前景(背景)概率连成初始前背景分割向量,分别记为初始前景分割向量
Figure BDA00012187725500000914
与初始背景分割向量
Figure BDA00012187725500000913
步骤406、对输入视频构建第一超像素图,将初始前景分割向量与初始背景分割向量沿着第一超像素图传播至整个输入视频,得到传播后的前景和背景分割向量。
具体的,构建视频的超像素图(即第一超像素图)。每个超像素均与来自其他帧上的对象区域中的超像素作匹配,并与匹配得分最高的9个超像素之间建立邻接关系。匹配过程中,超像素的外观特征采用颜色直方图与梯度直方图表示。将初始前背景分割
Figure BDA00012187725500000915
Figure BDA00012187725500000916
沿着视频超像素图(即第一超像素图)传播至所有帧,传播过程采用流行排序算法(Manifold Ranking),得到传播后的前背景分割
Figure BDA0001218772550000107
Figure BDA0001218772550000108
步骤407、根据传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成优化函数;基于贪婪算法,对优化函数进行求解,得到每帧上的最优初始分割。
具体的,结合分割的一致性与无二义性。求解优化函数:
Figure BDA0001218772550000101
其中
Figure BDA00012187725500001013
表示第t帧上的高分候选区域集合,
Figure BDA0001218772550000102
为所选取对象区域的打分,ψa与ψc分别表示分割的无二义性约束项和一致性约束项。求解过程需要满足的条件为:每一帧的候选区域集合
Figure BDA0001218772550000109
中最多选取一个区域;选取的对象区域总数需要占总视频帧数的给定比例γ(在0到1之间,本发明取0.7)。无二义性约束项ψa此时可定义为每个超像素前背景概率值的差异:
Figure BDA0001218772550000103
其中
Figure BDA0001218772550000104
其中
Figure BDA00012187725500001014
为超像素个数。一致性约束项ψc则定义为:
Figure BDA0001218772550000105
其中
Figure BDA00012187725500001015
为权重向量,是将
Figure BDA00012187725500001010
Figure BDA00012187725500001011
的每个分量取绝对值后,在向量的相同位置取较小的分量构造而成的。运算符⊙表示两个向量的逐分量相乘。由于上述问题难以求解,首先将
Figure BDA00012187725500001012
替换为其上界
Figure BDA0001218772550000106
此时该问题可看作定义在分离拟阵(Partition Matroid)上的子模最大化(Submodular Maximization)问题,可采用下述贪婪算法得到较优的近似解。该算法遍历T次,在第t次执行中,1)选取第t帧上得分最高的候选区域,加入最优对象区域集合;2)在未选取的某帧上,选取一个高分候选区域能使得目标函数的增益最大;3)重复步骤2)直到所选取的区域数量超过γT。T次执行完毕后可以得到T组解,选取目标函数值最大的一组作为最优解。
步骤408、根据给定的视频帧数,给定的每帧上的高分候选区域的个数,在高分候选区域中选取候选区域,得到精选候选区域集合;对选取的精选候选区域集合建立第二超像素图,采用随机游走算法将精选候选区域集合中候选区域对应的初始前景分割沿第二超像素图传播,得到传播后的前景概率分布;以传播后的前景概率分布作为初始分布,在输入视频的第一超像素图上基于随机游走算法进行二次传播,得到最终的超像素前景概率分布;对最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为输入视频的语义对象分割结果。
具体地,精选候选区域集合中包含有给定的视频帧数与给定的每帧上的高分候选区域的个数的乘积个高分候选区域;给定的视频帧数可以根据步骤207中的γ确定,即选取的对象区域总数需要占总视频帧数的给定比例γ(在0到1之间,本发明取0.7)在所选取的对象区域集合上建立超像素图。给定的每帧上的高分候选区域的个数应该大于等于一个,且小于步骤204中的高分候选区域的预设个数阈值,具体而言,每个超像素均与来自其他帧上的对象区域中的超像素作匹配,并与匹配得分最高的9个超像素之间建立邻接关系。匹配过程中,超像素的外观特征采用颜色直方图与梯度直方图表示。以所选取对象区域相应的前景分割作为超像素的初始前景概率,在上述超像素图上采用随机游走(Random Walk)算法进行传播,得到传播后的前景概率分布。再以传播后的超像素前景概率分布作为初始分布,再次在视频的超像素图上采用随机游走算法进行二次传播,得到最终的超像素前景概率分布。将超像素前景概率分布归一化到0和1之间,并取出大于一定阈值的超像素作为目标视频对象分割结果。本发明中,该阈值设定为0.2。通过上述两步传播,使得在优化选取的候选区域内传播得到较为精细的视频分割结果,然后再次传播至整体视频区域。相比一次传播至整体视频,能够得到更为精细的分割结果。
本实施例所公开的图像引导的视频语义对象分割方法,包括:给定语义类别,在包含该类别对象的大量图像中共定位出对象样例;在每一帧上提取候选区域集合并建立到图像区域的匹配,利用匹配区域与图像对象样例的空间上下文关系,为视频帧的候选区域集合进行快速打分;为每一高分候选区域构造初始前背景分割,联合分割的一致性与无二义性约束从候选区域中选取最优的对象区域集合;采用双阶段随机游走算法传播所选取对象区域对应的初始前景分割到整体视频,得到最终分割结果。本发明能够广泛应用于国防军事、电影制作、公共安全等领域的计算机视觉系统。
图5为本发明一示例性实施例示出的图像引导的视频语义对象分割装置的结构示意图,如图5所示,该图像引导的视频语义对象分割装置包括:
定位模块1,用于根据给定的语义类别,在样本图像中定位出与语义类别对应的目标对象,得到对象样例;提取模块2,用于对输入视频中的每帧图像进行候选区域的提取;匹配模块3,用于根据对象样例,将每帧中所提取的多个候选区域与对象样例进行匹配处理,得到每个候选区域的相似度分数;排序模块4,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;处理模块5,用于对选出的高分候选区域进行前景与背景的初始分割处理;计算模块6,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解优化函数得到最优的候选区域集合;传播模块7,用于将最优的候选区域对应的初始前景分割传播到整个视频,得到输入视频的语义对象分割。
本实施例的装置,可用于执行图1所述图像引导的视频语义对象分割方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
进一步地,在上述实施例的基础上,该图像引导的视频语义对象分割装置中的匹配模块3,具体用于在对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定图像区域在对象样例的样本图像中的相对坐标和尺寸参数;保持相对坐标和尺寸参数,在输入视频的对应帧中构造一个新的对象区域;根据构造的新的对象区域为每一个候选区域评分,得到每个候选区域的相似度分数。
可选的,处理模块5,具体用于对高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
可选的,计算模块6,具体用于对输入视频构建第一超像素图,将初始前景分割向量与初始背景分割向量沿着第一超像素图传播至整个输入视频,得到传播后的前景和背景分割向量;根据传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成优化函数;基于贪婪算法,对优化函数进行求解,得到最优的候选区域集合。
可选的,传播模块7,具体用于根据给定的视频帧数,给定的每帧上的高分候选区域的个数,在高分候选区域中选取候选区域,得到精选候选区域集合;精选候选区域集合中包含有给定的视频帧数与给定的每帧上的高分候选区域的个数的乘积个高分候选区域;对选取的精选候选区域集合建立第二超像素图,采用随机游走算法将精选候选区域集合中候选区域对应的初始前景分割沿第二超像素图传播,得到传播后的前景概率分布;以传播后的前景概率分布作为初始分布,在输入视频的第一超像素图上基于随机游走算法进行二次传播,得到最终的超像素前景概率分布;对最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为输入视频的语义对象分割结果。
本实施例的装置,可用于执行图4所述图像引导的视频语义对象分割方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种图像引导的视频语义对象分割方法,其特征在于,包括:
根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
对输入视频中的每帧图像进行候选区域的提取;
根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
对选出的所述高分候选区域进行前景与背景的初始分割处理;
基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
将所述最优的候选区域对应的初始前景分割向量传播到整个视频,得到所述输入视频的语义对象分割。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数,包括:
在所述对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;
确定所述图像区域在所述对象样例的样本图像中的相对坐标和尺寸参数;
保持所述相对坐标和尺寸参数,在所述输入视频的对应帧中构造一个新的对象区域;
根据构造的所述新的对象区域为每一个所述候选区域评分,得到每个候选区域的相似度分数。
3.根据权利要求1所述的方法,其特征在于,所述对选出的所述高分候选区域进行前景与背景的初始分割处理,包括:
对所述高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
4.根据权利要求3所述的方法,其特征在于,所述基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合,包括:
对所述输入视频构建第一超像素图,将所述初始前景分割向量与所述初始背景分割向量沿着所述第一超像素图传播至整个所述输入视频,得到传播后的前景和背景分割向量;
根据所述传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成所述优化函数;
基于贪婪算法,对所述优化函数进行求解,得到最优的候选区域集合。
5.根据权利要求4所述的方法,其特征在于,所述将所述最优的候选区域对应的初始前景分割传播到整个视频,得到所述输入视频的语义对象分割,包括:
根据给定的视频帧数,给定的每帧上的所述高分候选区域的个数,在所述高分候选区域中选取候选区域,得到精选候选区域集合;其中,所述精选候选区域集合中包含有所述给定的视频帧数与所述给定的每帧上的所述高分候选区域的个数的乘积个高分候选区域;
对选取的所述精选候选区域集合建立第二超像素图,采用随机游走算法将所述精选候选区域集合中候选区域对应的初始前景分割沿所述第二超像素图传播,得到传播后的前景概率分布;
以所述传播后的前景概率分布作为初始分布,在所述输入视频的所述第一超像素图上基于所述随机游走算法进行二次传播,得到最终的超像素前景概率分布;
对所述最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为所述输入视频的语义对象分割结果。
6.一种图像引导的视频语义对象分割装置,其特征在于,包括:
定位模块,用于根据给定的语义类别,在样本图像中定位出与所述语义类别对应的目标对象,得到对象样例;
提取模块,用于对输入视频中的每帧图像进行候选区域的提取;
匹配模块,用于根据所述对象样例,将每帧中所提取的多个候选区域与所述对象样例进行匹配处理,得到每个候选区域的相似度分数;
排序模块,用于对每帧中各个候选区域的相似度分数进行排序,选出满足预设候选区域个数的、相似度分数由高到低的高分候选区域;
处理模块,用于对选出的所述高分候选区域进行前景与背景的初始分割处理;
计算模块,用于基于初始分割后前景与背景的一致性和无二义性约束条件,对初始分割处理后的候选区域构建优化函数,求解所述优化函数得到最优的候选区域集合;
传播模块,用于将所述最优的候选区域对应的初始前景分割向量传播到整个视频,得到所述输入视频的语义对象分割。
7.根据权利要求6所述的装置,其特征在于,
所述匹配模块,具体用于在所述对象样例中,确定与每帧中的每个候选区域外观相似的图像区域;确定所述图像区域在所述对象样例的样本图像中的相对坐标和尺寸参数;保持所述相对坐标和尺寸参数,在所述输入视频的对应帧中构造一个新的对象区域;根据构造的所述新的对象区域为每一个所述候选区域评分,得到每个候选区域的相似度分数。
8.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于对所述高分候选区域内的每个超像素的前景与背景的概率值进行计算,得到所有超像素的前景概率所构成的初始前景分割向量以及背景概率所构成的初始背景分割向量。
9.根据权利要求8所述的装置,其特征在于,
所述计算模块,具体用于对所述输入视频构建第一超像素图,将所述初始前景分割向量与所述初始背景分割向量沿着所述第一超像素图传播至整个所述输入视频,得到传播后的前景和背景分割向量;根据所述传播后的前景和背景分割向量,构造分割的一致性约束项和无二义性约束项,形成所述优化函数;基于贪婪算法,对所述优化函数进行求解,得到最优的候选区域集合。
10.根据权利要求9所述的装置,其特征在于,
所述传播模块,具体用于根据给定的视频帧数,给定的每帧上的所述高分候选区域的个数,在所述高分候选区域中选取候选区域,得到精选候选区域集合;所述精选候选区域集合中包含有所述给定的视频帧数与所述给定的每帧上的所述高分候选区域的个数的乘积个高分候选区域;对选取的所述精选候选区域集合建立第二超像素图,采用随机游走算法将所述精选候选区域集合中候选区域对应的初始前景分割沿所述第二超像素图传播,得到传播后的前景概率分布;以所述传播后的前景概率分布作为初始分布,在所述输入视频的所述第一超像素图上基于所述随机游走算法进行二次传播,得到最终的超像素前景概率分布;对所述最终的超像素前景概率分布进行归一化处理,并提取大于预设阈值的超像素作为所述输入视频的语义对象分割结果。
CN201710060268.8A 2017-01-24 2017-01-24 图像引导的视频语义对象分割方法及装置 Active CN106875406B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710060268.8A CN106875406B (zh) 2017-01-24 2017-01-24 图像引导的视频语义对象分割方法及装置
US15/710,791 US10354392B2 (en) 2017-01-24 2017-09-20 Image guided video semantic object segmentation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710060268.8A CN106875406B (zh) 2017-01-24 2017-01-24 图像引导的视频语义对象分割方法及装置

Publications (2)

Publication Number Publication Date
CN106875406A CN106875406A (zh) 2017-06-20
CN106875406B true CN106875406B (zh) 2020-04-14

Family

ID=59159042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710060268.8A Active CN106875406B (zh) 2017-01-24 2017-01-24 图像引导的视频语义对象分割方法及装置

Country Status (2)

Country Link
US (1) US10354392B2 (zh)
CN (1) CN106875406B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169549B2 (en) 2017-03-30 2019-01-01 Adobe Inc. Digital image processing including refinement layer, search context data, or DRM
US10339642B2 (en) * 2017-03-30 2019-07-02 Adobe Inc. Digital image processing through use of an image repository
JP6729515B2 (ja) * 2017-07-19 2020-07-22 ヤマハ株式会社 楽曲解析方法、楽曲解析装置およびプログラム
EP3438929B1 (en) * 2017-08-04 2020-07-08 Université de Liège Foreground and background detection method
US10706558B2 (en) * 2017-08-04 2020-07-07 Université de Liège Foreground and background detection method
US20190251695A1 (en) * 2017-08-04 2019-08-15 Universite De Liege Foreground and background detection method
CN108171697B (zh) * 2018-01-05 2022-03-01 北京航空航天大学 一种基于簇的wmh自动提取系统
JP6707305B2 (ja) * 2018-02-06 2020-06-10 日本電信電話株式会社 コンテンツ判定装置、コンテンツ判定方法、及びプログラム
CN110782466B (zh) * 2018-07-31 2023-05-02 阿里巴巴集团控股有限公司 图片分割方法、装置和系统
CN110569698B (zh) * 2018-08-31 2023-05-12 创新先进技术有限公司 一种图像目标检测及语义分割方法和装置
CN109784164B (zh) * 2018-12-12 2020-11-06 北京达佳互联信息技术有限公司 前景识别方法、装置、电子设备及存储介质
CN111382753B (zh) * 2018-12-27 2023-05-12 曜科智能科技(上海)有限公司 光场语义分割方法、系统、电子终端及存储介质
CN109753913B (zh) * 2018-12-28 2023-05-23 东南大学 计算高效的多模式视频语义分割方法
CN110163873B (zh) * 2019-05-20 2023-02-24 长沙理工大学 一种双边视频目标分割方法及系统
CN110390293B (zh) * 2019-07-18 2023-04-25 南京信息工程大学 一种基于高阶能量约束的视频对象分割算法
CN111008978B (zh) * 2019-12-06 2022-10-14 电子科技大学 基于深度学习的视频场景分割方法
CN111160301B (zh) * 2019-12-31 2023-04-18 同济大学 基于机器视觉的隧道病害目标智能识别及提取方法
CN111428990A (zh) * 2020-03-20 2020-07-17 浙江大学城市学院 一种基于深度神经网络的水培花卉开花期花卉等级评估方法
CN111757149B (zh) * 2020-07-17 2022-07-05 商汤集团有限公司 视频剪辑方法、装置、设备及存储介质
CN112307908B (zh) * 2020-10-15 2022-07-26 武汉科技大学城市学院 一种视频语义提取方法及装置
CN112866797B (zh) * 2020-12-31 2023-03-24 上海商汤智能科技有限公司 一种视频处理方法、装置、电子设备及存储介质
CN112950466A (zh) * 2021-01-26 2021-06-11 北京航空航天大学 一种基于语义对象匹配的图像拼接方法
CN113435457A (zh) * 2021-02-08 2021-09-24 中国石油化工股份有限公司 基于图像的碎屑岩成分鉴定方法、装置、终端及介质
CN112862839B (zh) * 2021-02-24 2022-12-23 清华大学 一种地图要素语义分割鲁棒性增强方法和系统
CN115223113B (zh) * 2022-08-11 2023-04-14 中关村科学城城市大脑股份有限公司 训练样本集清洗方法、装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809672A (zh) * 2016-03-03 2016-07-27 浙江大学 一种基于超像素和结构化约束的图像多目标协同分割方法
CN106327469A (zh) * 2015-06-29 2017-01-11 北京航空航天大学 一种语义标签引导的视频对象分割方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8611728B2 (en) * 2009-02-10 2013-12-17 Thomson Licensing Video matting based on foreground-background constraint propagation
KR101634228B1 (ko) * 2009-03-17 2016-06-28 삼성전자주식회사 디지털 이미지 처리장치, 추적방법, 추적방법을 실행시키기위한 프로그램을 저장한 기록매체 및 추적방법을 채용한 디지털 이미지 처리장치
US8792718B2 (en) * 2012-06-29 2014-07-29 Adobe Systems Incorporated Temporal matte filter for video matting
JP6492849B2 (ja) * 2015-03-24 2019-04-03 富士ゼロックス株式会社 ユーザプロファイル作成装置、動画像分析装置、動画像再生装置、及びユーザプロファイル作成プログラム
US10192117B2 (en) * 2015-06-25 2019-01-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327469A (zh) * 2015-06-29 2017-01-11 北京航空航天大学 一种语义标签引导的视频对象分割方法
CN105809672A (zh) * 2016-03-03 2016-07-27 浙江大学 一种基于超像素和结构化约束的图像多目标协同分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Graph-Based Framework for Video Object Segmentation and Extraction in Feature Space;Lei Fan,Alexander C. Loui;《2015 IEEE International Symposium on Multimedia (ISM)》;20160328;266-271 *
Objectness-aware Semantic Segmentation;Yuhang Wang等;《 Proceedings of the 24th ACM international conference on Multimedia》;20161019;307-311 *

Also Published As

Publication number Publication date
CN106875406A (zh) 2017-06-20
US10354392B2 (en) 2019-07-16
US20180211393A1 (en) 2018-07-26

Similar Documents

Publication Publication Date Title
CN106875406B (zh) 图像引导的视频语义对象分割方法及装置
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及系统
CN111666921B (zh) 车辆控制方法、装置、计算机设备和计算机可读存储介质
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN111259936B (zh) 一种基于单一像素标注的图像语义分割方法及系统
CN111445488B (zh) 一种弱监督学习自动识别和分割盐体的方法
CN111091573B (zh) 基于深度学习的ct影像肺血管的分割方法及系统
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN112036231B (zh) 一种基于车载视频的车道线和路面指示标志检测与识别方法
CN102663757A (zh) 基于核传递的半自动图像分割方法
CN114092487A (zh) 目标果实实例分割方法及系统
CN113362341B (zh) 基于超像素结构约束的空地红外目标跟踪数据集标注方法
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN116310688A (zh) 基于级联融合的目标检测模型及其构建方法、装置及应用
CN115512169A (zh) 基于梯度和区域亲和力优化的弱监督语义分割方法及装置
Xu et al. Semantic segmentation of sparsely annotated 3D point clouds by pseudo-labelling
CN114764870A (zh) 对象定位模型处理、对象定位方法、装置及计算机设备
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN116310128A (zh) 基于实例分割与三维重建的动态环境单目多物体slam方法
CN116109649A (zh) 一种基于语义错误修正的3d点云实例分割方法
CN112215205B (zh) 目标识别方法、装置、计算机设备和存储介质
CN114445689A (zh) 目标先验信息指导的多尺度加权融合目标检测方法及系统
Liu et al. Eliminating spatial ambiguity for weakly supervised 3d object detection without spatial labels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant