CN105701493B - 基于阶层图形的图像提取以及前景估测的方法和系统 - Google Patents
基于阶层图形的图像提取以及前景估测的方法和系统 Download PDFInfo
- Publication number
- CN105701493B CN105701493B CN201410705140.9A CN201410705140A CN105701493B CN 105701493 B CN105701493 B CN 105701493B CN 201410705140 A CN201410705140 A CN 201410705140A CN 105701493 B CN105701493 B CN 105701493B
- Authority
- CN
- China
- Prior art keywords
- component
- extraction
- input picture
- extraction unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/162—Segmentation; Edge detection involving graph-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于阶层图形的图像提取以及前景估测的方法和系统,该方法包括:接收包含多个图像元素的输入图像;基于输入图像产生多个提取单元,每个单元包含一组图像元素;基于输入图像计算多个提取单元的关联值;基于多个提取单元以及关联值形成图形,图形包含表示提取单元的多个节点以及与提取单元的关联值相关联的多个边缘;以及基于图形产生用于输入图像的多个提取分量。
Description
技术领域
本发明是有关于一种图像提取(matting),且特别是有关于一种基于阶层(hierarchical)图形的图像提取以及前景估测的方法和系统。
背景技术
图像提取是从图像中提取连同称为α提取的参数的前景物体的程序。此程序产生有用的应用,例如图像与视频编辑、图像层分解,以及场景分析。在图像提取中,在像素i处的像素值Ii可被建模为前景颜色值Fi与背景颜色值Bi的线性组合。也就是,
Ii=αiFi+(1-αi)Bi (1)
其中αi表示对应于前景颜色的不透明度(opacity)的α提取值。
常规的图像提取技术可以大体上分成两类:监督(supervised)提取以及无监督提取。在监督提取中,提供用户引导以将几个像素标记为“前景”或者“背景”。基于这些经标记像素,监督提取方法估测其余未标记像素的α提取值。反之,无监督提取目标在于在没有任何用户引导的情况下自动从输入图像中估测α提取。
常规的图像提取技术具有若干缺点。首先,常规的无监督提取技术是计算密集型的。尽管已经提出了图像处理方案以减少所需的计算,但这些现有方案可能导致图像品质退化。
第二,由常规的图像提取技术产生的结果可能并不始终是一致的。在提取程序期间缺乏全面(globe)信息会使得在处理具有杂乱场景的图像的程序中难以产生一致的结果。
第三,常规的无监督提取技术聚焦于图像内容的二进位分区。因为图像可以含有一个以上前景物体,所以由这些常规无监督提取技术产生的结果可能不是非常实用的。
发明内容
本发明提供一种基于阶层图形的图像提取以及前景估测的方法和系统,该方法包括:接收包含多个图像元素(element)的输入图像;基于输入图像产生多个提取单元(cell),每个单元包含一组图像元素,其中,将图像元素映射至多个提取单元,以令图像元素压缩至多个提取单元,以形成像素级图形;基于输入图像计算多个提取单元的关联(affinity)值,其中关联值指示每一对提取单元之间的相似性;基于多个提取单元以及关联值形成单元级图形,所述单元级图形包含表示提取单元的多个节点以及与提取单元的关联值相关联的多个边缘;以及基于所述提取单元的关联值分解单元级图形来产生用于输入图像的多个提取分量,通过压缩单元级图形或根据基于散度的程序来产生分量级图形,其中多个提取分量基于分量级图形映射到多个提取层上。
根据另一实施例,基于阶层图形的图像提取以及前景估测的方法包括:接收包含多个图像元素的输入图像;基于输入图像形成第一图形,所述第一图形包含表示图像元素的多个第一节点以及表示图像元素当中的关联关系的多个第一边缘;通过将图像元素分组成多个单元来形成第二图形,所述第二图形包含表示单元的多个第二节点以及表示单元当中的关联关系的多个第二边缘,其中形成第二图形还包括:对输入图像应用收缩程序;基于经收缩输入图像以及第一图形将图像元素映射到单元上;通过对输入图像进行递回降取样来产生图像金字塔;从图像金字塔中提取多个图像区域;以及基于图像区域确定单元当中的关联关系;通过将第二图形分解成多个提取分量来形成第三图形,所述第三图形包含表示提取分量的多个第三节点以及表示提取分量当中的关联关系的多个边缘;以及基于第三图形确定提取分量属于输入图像的前景区域的机率。
根据另一实施例,非暂时性计算机可读媒体存储指令,在由处理器执行时所述指令使得处理器执行用于基于阶层图形进行图像提取的方法。所述方法包括:接收包含多个图像元素的输入图像;基于输入图像产生多个提取单元,每个单元包含一组图像元素,其中,将所述图像元素映射至所述多个提取单元,以令所述图像元素压缩至所述多个提取单元,以形成像素级图形;基于输入图像计算多个提取单元的关联值,所述关联值指示每一对提取单元之间的相似性;基于多个提取单元以及关联值形成单元级图形,所述单元级图形包含表示提取单元的多个节点以及表示提取单元的关联信息的多个边缘;以及基于所述提取单元的关联值分解单元级图形来产生输入图像的多个提取分量,通过压缩所述单元级图形或根据基于散度的程序来产生分量级图形,其中所述多个提取分量基于所述分量级图形映射到多个提取层上。
以下的说明将部分阐述另外的特征和优点,并且这些特征和优点将部分从描述中显而易见,或者可以通过对所揭示的实施例的实践习得。所述特征以及优点将借助于在所附权利要求书中特别地指出的元件以及组合来实现以及获得。
应理解,前文大体描述以及以下详细描述仅是示例性以及解释性的且并不限制所主张的发明。
并入在本说明书中并且构成本说明书的一部分的附图图示了若干实施例,并且与描述一起用以说明本发明的原理。
附图说明
图1A是本发明一个实施例中基于阶层图形的图像提取的示例性系统的框图;
图1B是本发明一个实施例的用于实施图1A的系统的计算机系统的示意图;
图2为本发明一个实施例中基于像素级图形的示例性收缩程序的示意图;
图3为本发明一个实施例中收缩程序在应用到示例性输入图像上时的结果的示意图;
图4为本发明一个实施例中基于特征空间的像素到单元映射程序的示意图;
图5(a)到5(d)为本发明中用于单元级图形建模的固定解析度方案以及多解析度方案的示例性实施例的示意图;
图6为本发明一个实施例中基于多解析度图像区域的单元级处理的示意图;
图7为本发明一个实施例中从单元到分量映射的示意图;
图8为本发明中输入图像、提取片段,以及提取分量的示例性实施例的示意图;
图9为本发明分量级图形的一个示例性实施例的示意图;
图10为本发明一个实施例中从分量到层映射的示意图;
图11A为本发明一个实施例中基于从单元到层的直接映射的提取结果的示意图;
图11B为本发明一个实施例中基于从单元到分量并且随后到层的多解析度映射的提取结果的示意图;
图12为本发明提取层的示例性实施例以及输入图像的前景区域的可能性示意图;
图13为本发明一个实施例中基于阶层图形的图像提取以及前景估测的方法的流程图;
图14为本发明另一个实施例中基于阶层图形的图像提取以及前景估测的方法的流程图。
附图标记说明:
100:系统;
102:像素处理模块;
104:单元处理模块;
106:分量处理模块;
108:层处理模块;
110:前景估测模块;
112:输入数据;
114:输出数据;
120:计算机系统;
122:处理器;
124:计算机可读媒体;
128:显示装置;
126:键盘;
202:初始图形;
204:收缩图形;
206:顶点;
208:边缘;
302、802:输入图像;
304:收缩图像;
402:特征空间;
502:圆形物体;
504:小三角形物体;
506、508:取样像素;
602:多解析度图像区域;
604:图像金字塔;
604A:最粗糙图像;
604B:中间解析度图像;
604C:最精细图像;
606:单元级图形;
702、806:提取分量;
804:提取片段;
902:分量级图形;
1002、1202~1220:提取层;
1222:可能性示意图;
1300、1400:程序;
1302~1310、1402~1410:步骤。
具体实施方式
现在将详细参考本发明的示例性实施例,所述实施例的实例在附图中进行说明。只要有可能,将在所有附图中使用相同参考数字来指代相同或相似部分。
根据本发明的一些实施例,揭示了执行包含监督提取以及无监督提取的图像提取的阶层框架。基于自下而上机制,所述阶层框架从像素(pixel)到单元(cell)、从单元到分量(cmponent),并且最终从分量到提取层(layer)逐渐压缩图像数据。更具体来说,在阶层框架的第一级(即,像素级)处,图像像素通过像素到单元映射首先压缩至单元。此映射是基于以下假设:在特征空间中的相邻数据倾向于共用相似的提取值。此压缩程序可以大大减少用于谱分析的所需计算,而不产生明显的品质退化。
在第二级(即,单元级)处,基于单元的结构基于单元级图形提供多尺度关联(affinity)的学习。当处理杂乱场景的图像时,多尺度关联学习可以有效地改进谱分析的性能。通过解决图形分区问题来自动从单元级图形中提取提取分量。
在第三级(即,分量级)处,分量级图形产生用于多个提取层的估测。根据另一实施例,应用前景机率分布模型以随机产生一列可能的前景提取并且估测用于提取图层的前景可能性。
图1A是本发明一个实施例中基于阶层图形的图像提取的示例性系统的框图,图1B是本发明一个实施例的用于实施图1A的系统的计算机系统的示意图。系统100包含像素处理模块102、单元处理模块104、分量处理模块106、层处理模块108,以及前景估测模块110。模块102到110可以串联布置,使得像素处理模块102接收输入数据112并且前景估测模块110产生输出数据114。单元处理模块104、分量处理模块106,以及层处理模块108根据图1A中示出的次序执行中间处理步骤。像素处理模块102到前景估测模块110中的一者或多者可以从系统100中省略。例如,层处理模块108可以被省略,使得前景估测模块110基于由分量处理模块106提供的数据产生输出数据。
在一个实施例中,图1A中示出的像素处理模块102到前景估测模块110可以通过图1B中示出的计算机系统120来实施,所述计算机系统120包含处理器122以及非暂时性计算机可读媒体124。处理器122可以是中央处理器(central processing unit,简称:CPU),例如,因特尔(INTEL)处理器、高级微设备(Advanced Micro Devices,简称:AMD)处理器,或所属领域中已知的其他处理器。计算机可读媒体124可以包含硬盘、闪存、光碟(compactdisc,简称:CD)、数字多功能光碟(digital Versatile Disc,简称:DVD)、随机存储器(random access memory,简称:RAM),只读存储器(read-only memory,简称:ROM)或其类似者,所述计算机可读媒体124经配置以存储与本文中揭示的图像提取技术相关的指令以及数据。所述指令可以用C、C++、BASIC、FORTRAN、JAVA,或所属领域中已知的其他编程语言来书写。处理器122接收来自计算机可读媒体124中的指令以及数据并且执行如此处所描述的模块102到110的功能。
在另一实施例中,像素处理模块102到前景估测模块110可以在可编程集成电路上实施,例如可编程逻辑阵列、现场可编程闸阵列,专用集成电路(ASIC)及其类似者。
系统100可以进一步包含用户输入/输出(input/output,简称:I/O)装置,例如显示装置128、键盘126、鼠标、触控板,触控屏幕及其类似者。例如,系统100通过键盘126接收用户输入并且根据用户输入向输入数据应用图像提取技术。系统100随后通过显示装置128向用户呈现输出数据。
输入数据112可以包含由用户或外部系统提供或者从存储媒体中接收的图像数据或视频数据,所述存储媒体例如,硬盘、闪存、CD、DVD、RAM,ROM等。输入数据112可以表示由成像系统(例如,相机或摄相机)获取的任何自然场景的图像或视频序框。输入数据112还可以表示由计算机产生的合成或人造场景的图像或视频序框。由输入数据112表示的场景包含相对较靠近获取图像或视频序框的成像系统的一个或多个前景物体。所述场景还包含与获取图像或视频序框的成像系统相距相对较远的一个或多个背景物体。
在输入数据112中的图像或视频序框可以由以包含行以及列的一个或多个规则阵列布置的图像元素表示,例如,像素。每个图像元素包含根据颜色空间定义的一个或多个值,所述颜色空间例如,红绿蓝(Red green blue,简称:RGB)颜色空间、青色,洋红,黄色和黑色(Cyan Magenta Yellow Black,简称:CMYK)颜色空间,或所属领域中已知的其他颜色空间。在一个实施例中,每个图像元素与前景物体中的一者或者背景物体中的一者相关联,使得图像元素表示部分前景物体或背景物体。在另一实施例中,每个图像元素可以与前景物体中的一者以及背景物体中的一者的组合相关联,使得图像元素落在前景物体与背景物体之间的图像边界上。
输出数据114可以识别在输入数据112中与前景物体和/或背景物体相关联的图像元素。在一个实施例中,输出数据114包含具有多个元素的遮罩(mask)。所述遮罩的每个元素与输入数据112的图像元素相关联并且包含一个值,例如α提取值,所述α提取值对应于前景物体中的一者的不透明度。例如,具有值0的遮罩的元素可以识别为完全透明的前景物体或缺乏前景物体,使得相关联的图像元素与背景物体相关联。具有值1的遮罩的元素可以对应于完全不透明前景物体,使得相关联的图像元素与前景物体相关联。具有分数值的遮罩的元素可以对应于前景物体以及背景物体的组合。这发生在前景物体是部分透明的或者图像元素落在前景物体与背景物体之间的图像边界上时。分数值表示前景物体对相关联的图像元素所做的贡献。
根据本发明的实施例,系统100基于阶层图形模型对输入数据112应用图像提取程序。阶层图形模型包含多个层级,例如像素级、单元级,以及分量级。因此,所揭示的程序包含由对应的像素处理模块102到前景估测模块110执行的多个阶段。这些阶段包含(例如)像素级处理阶段、单元级处理阶段,以及分量级处理阶段。由分量处理模块106产生的数据可以进一步由层处理模块108以及前景估测模块110来处理以产生输出数据114。随着所述程序行进经过所述阶段,经处理数据中的元素的数目逐渐减少,由此提供对前景以及输入数据112的α提取的有效且准确的估测。像素处理模块102到前景估测模块110的细节在下文中参考图2到图10进行进一步描述。
收缩(contraction)程序
根据一个实施例,像素级处理阶段基于阶层图形模型形成图像提取程序的第一阶段。像素级处理阶段由像素处理模块102执行。像素处理模块102经配置以将输入数据112中的图像元素(例如像素)压缩到紧凑的单元中,以便减少在随后的阶段中所需的计算。如本文中所使用的术语“压缩”意旨将相似的图像像素空间地收集在一起的程序。
为了压缩像素,像素处理模块102以基于图形的能量函数的最小化为基础应用局部收缩程序。局部收缩程序的细节如下说明。
在局部收缩程序中,输入数据112(例如输入图像)首先表示为图形,其中图形的顶点(vertex)表示逐像素的强度数据并且在一对顶点之间的每个边缘表示对应的像素对之间的关联。此处,两个像素i与j之间的关联值Aq(i,j)被定义为:
在上述公式(2)中,Ii以及Ij表示在像素i以及j处输入图像I的颜色值,μq表示在像素的视窗ωq中的3×1均值(mean)颜色向量,Σq表示3×3共变异(covariance)矩阵,|ωq|表示在局部视窗ωq中的像素的数目,U表示3×3单位矩阵(identity matrix),并且ε表示用以避免在平滑区域中的过拟合的正则化(regularization)项。例如,在平滑区域中,Σq中的元(entry)具有相对较小的值,使得由噪音导致的较小偏差可能引起关联值的较大变化。通过恰当地添加较小值ε,可以有效地抑制在平滑区域中关联值的波动。根据公式(2),如果两个像素具有相似的颜色外观,那么它们之间的关联值相对较大。局部视窗ωq用于通过整个图像扫描以产生输入图像中的每一个边缘的若干关联值。通过对每个边缘的这些关联值求平均值,产生像素级图形模型。
根据一个实施例,针对输入图像I定义x-y坐标系统,其中x轴沿着像素阵列的第一维度并且y轴沿着像素阵列的第二维度。每个图像像素的x坐标以及y坐标被归一化到[0,1]的范围内。另外,假设(x,y)表示归一化坐标,也就是说,在输入图像中的第i个像素的原始空间坐标,并且表示收缩坐标,也就是,在局部收缩程序之后的第i个像素的空间坐标。此外,基于像素坐标定义以下向量:
x=[x1 x2 … xN]T、y=[y1 y2 … yN]T、以及
其中N表示在输入图像中的像素的总数目。因此,局部收缩程序可以表示为最佳向量以及的偏差,所述最佳向量以及使以下能量函数以及最小化:
在函数(3)、(4)中的每一者中,在右手侧的第一项对应于倾向于拉动像素使其在空间上更加靠近的成对的凝聚力(cohesion force),而在右手侧的第二项对应于试图保持原始图像结构的偏差代价(cost)。参数λx以及λy用于控制收缩的强度。
为了寻找最佳向量以及方程式(3)、(4)重新写作:
此处,L表示图形拉普拉斯(Laplacian)矩阵,所述拉普拉斯矩阵的非对角元被定义为对角元被定义为并且T表示转置运算子。通过分别关于以及求方程式(5)、(6)的微分,产生以下线性系统:
最佳解决方案随后基于方程式(7)、(8)的上述线性系统来解决。
图2为本发明一个实施例中基于像素级图形的示例性收缩程序的示意图;在图2中,在输入数据112中的输入图像由初始图形202表示,其中每个顶点206表示具有其颜色值的图像像素,并且每个边缘208表示一对相邻像素之间的关联关系。对初始图形202应用收缩程序产生收缩图形204,其中具有相对较高关联值的像素朝向彼此收缩。
图3为本发明一个实施例中收缩程序在应用到示例性输入图像上时的结果的示意图,具体地,图3为一示例性的输入图像302以及经局部收缩程序后的收缩图像304。可以看出,在经收缩程序后具有相似外观的像素朝向彼此会聚,而具有不相似的外观的像素倾向于远离彼此移动。
在收缩程序之后,收缩的图像像素被合并或压缩到多个单元中。此处,基于收缩的空间坐标以及RGB颜色值(IR,IG,IB)定义五维特征空间W。图4为本发明一个实施例中基于特征空间的像素到单元映射程序的示意图,具体地,图4示出了五维特征空间W的一个示例性实施例。为了便于说明,颜色坐标组合在特征空间402中以示出了其三维表示。对于在特征空间402中的输入图像302(图3)的收缩图像304的每个收缩图像像素,定义特征向量。在特征空间402中,具有不同颜色的空间相邻的像素被拉动远离彼此且不太可能混合在一起。
根据一个实施例,将图像像素合并或压缩到单元中被表示为像素到单元映射程序。具有收缩坐标以及RGB值(IR,IG,IB)的像素i以指数 映射到单元上。此处,符号“[]”表示舍入运算(rounding operation),bs表示多个空间取样区间(bin),并且bc表示多个颜色取样区间。
整个收缩图像的像素到单元映射记录在N×P二进位矩阵M中,其中N以及P分别表示图像像素以及单元的总数目。此处,如果第i个像素映射到第j个单元上,那么对于所有k≠j,M(i,j)=1,且M(i,k)=0。
在一个实施例中,参数bs以及bc设置为15,使得单元P的数目为约10,000到20,000。在其他实施例中,参数bs以及bc可以设置成10与20之间的任何值。在再其他实施例中,参数bs以及bc可以视情况而定设置成任何其他值。
多尺度关联以及单元级图形
在通过像素处理模块102将图像像素合并到单元中之后,将所述单元输出至单元处理模块104,所述单元处理模块104确定每一对单元之间的单元关联值以便构造单元级图形模型。在一个实施例中,单元处理模块104应用多尺度或多解析度(resolution)方法来从图像金字塔中确定关联信息。下文进一步描述多尺度单元级图形模型。
图5(a)到5(d)为本发明中用于单元级图形建模的固定解析度方案以及多解析度方案的示例性实施例的示意图,所述方案使得能够确定在不同空间范围处的单元之间的关联值。图5(a)的左侧图像示出了含有具有正方形孔的圆形物体502以及小三角形物体504的人造场景的图像。图5(a)的中间以及右侧图像分别图示了在像素级以及在单元级处的对应的特征分布。此处,圆圈表示单独的像素,并且立方体表示单独的单元。
图5(b)以及5(c)图示了使用不同局部视窗的不同实施例,所述局部视窗各自包含3×3取样像素506(508)以探究在图像像素周围的关联信息。此处,每个符号表示取样像素506(508)。在图5(b)的左侧图像中的局部视窗覆盖仅包含紧邻像素的相对较小的空间区域,而在图5(c)的左侧图像中的局部视窗覆盖包含更远端的像素的相对较大的空间区域。
基于公式(2),可决定九个取样像素中的每一对的关联值。图5(b)的中间图像示出了在特征空间中像素对的对应覆盖度。在此情况下,仅确定相邻取样像素的关联值。并未计算远范围关联,例如,在孔内的像素与在圆形物体502外部的像素之间的关联。相反,在图5(c)的实施例中,计算了远端取样像素当中的关联,但可能丢失一些细节,例如小三角形物体504与圆形物体502之间的关系。
图5(b)和5(c)的右侧图像示出了在图像像素合并之后单元当中的关联。类似地,小尺度取样视窗提供单元当中的近范围关联,而大尺度取样视窗提供单元当中的远范围关联。
为了探究近范围以及远范围两者的关联,图5(d)的实施例使用多尺度方法,其中使用小尺度视窗以及大尺度视窗两者来对输入图像进行取样。从图5(d)的右侧图像中可以看出,单元当中的近范围以及远范围关联信息可同时基于多尺度取样方案决定。另外,相较于在像素级处估测关联,在单元级处可以省去许多的冗余关联计算。
根据另一实施例,多尺度关联估测通过计算在一组多解析度图像区域上的关联来实施。图6为本发明一个实施例中基于多解析度图像区域的单元级处理的示意图。例如,从高斯图像金字塔604中取样得到多解析度图像区域602。此处,图像金字塔604可以由单元处理模块104通过沿着x轴以及y轴以取样率ds递回地执行降取样程序而从输入图像302中产生。所得的图像金字塔604包含最粗糙图像604A、一个或多个中间解析度图像604B,以及最精细图像604C,所述最精细图例如是输入图像302。滑动视窗用于从图像金字塔604中的最粗糙图像604A到最精细图像604C中的每一者中提取图像区域。
对于图像区域(例如多解析度图像区域602),单元处理模块104应用局部关联学习程序以估测单元当中的关联值。在最粗糙层(即,最粗糙图像604A)处,关联信息的估测与图5(c)中图示的远范围情况相似,其中关联信息的一些细节可能遗失。然而,随着单元处理模块104从低解析度图像到高解析度图像逐渐扫描所述图像,获得关联信息的越来越多的细节。一般来说,大部分关联信息可以从低解析度图像中提取,而仅较小百分比的详细关联信息从高解析度图像中提取。因此,在一个实施例中,滑动视窗完全地扫描来自最低解析度图像(即,最粗糙图像604A)的图像区域,而仅扫描来自较高解析度图像(即,中间解析度图像604B以及最精细图像604C)的图像区域的子集,以便确定单元级关联信息。
对于较高解析度图像(即,中间解析度图像604B以及最精细图像604C)中的图像区域的取样,单元处理模块104可以采取基于残差(residual-based)的方案来补偿由降取样程序导致的遗失的细节。更确切地说,单元处理模块104将单独的低解析度像素以及高解析度像素映射到网格单元中以形成两组单元。这两组单元之间的差值指示在降取样程序之后的遗失信息。基于残余单元,单元处理模块104识别对应的像素并且将取样块放置在这些像素周围。更特别的是,对于映射到残余单元中的像素,将居中于像素中的每一者处的一组r×r视窗放置在高解析度图像上以获得高解析度取样块。另外,将一组滑动视窗放置在低解析度图像上以获得低解析度取样块。随后从取样块中计算出单元级关联信息。
基于单元级关联信息,单元处理模块104产生如图6中所示的单元级图形606。为了构造单元级图形606,假设Ω表示单元级图形中的单元组,所述单元组总共含有P个单元。这些P个单元的α提取值由P×1向量α≡[α1,α2,...,αP]T表示,其中αk表示第k个单元的α值。
另外,假设在局部图像区域内的像素的α提取值可以表示为图像区域内部的对应的图像特征的仿射转换(affine transformation)。假设仿射转换的系数对于一个图像区域是恒定的,但在不同的块上可以是不同的。因为在像素到单元映射中,映射到相同单元上的像素通常共用相似的颜色外观以及空间位置,因此这些像素共用类似的α提取值。因此,在局部图像区域内,假设所提及的单元的α提取值表示为对应的图像特征的仿射转换。对于在输入图像中并且在像素q处居中的大小r×r的图像区域ωq,单元处理模组模块104检查区域的图像像素以确定映射单元组Ωq,所述映射单元组Ωq是Ω的子集。此处,Nq表示在Ωq中的单元的数目。因为图像区域ωq中的一些像素可以映射相同的单元上,所以Nq具有在1与r2之间的值。对于Ωq中的单元i,表示其颜色特征,所述颜色特征通过(例如)对所述单元的所有相关像素的RGB颜色值求平均值来计算。在局部图像区域内,单元i的α值通过特征向量的仿射转换来估测。也就是说,单元i的α值通过下式来计算:
其中β=[βr,βg,βb]T以及β0是标量。因为假设仿射转换系数{β,β0}是局部恒定的,所以单元处理模块104可以进一步确定Ωq中的所有单元的α提取值的仿射模型。此处,对于Ωq中的第k个单元,表示在Ω中此单元的对应索引。因此,Nq×1向量表示在Ω中Nq个单元的α提取值的向量,并且表示通过堆叠的矩阵。基于上述表示法,图像区域ωq内的所有单元的α提取预测可以表示为:
公式(10)使Q中所有单元的α提取值与对应的图像特征相关。如果假设给定q以及Φq两者,那么最佳β以及β0可以通过使以下二次代价函数E(β,β0)最小化来导出:
其中cβ是用于正则化的参数。对于(11)中的代价函数E(β,β0),通过下式给出β以及β0的最佳解决方案:
在公式(12)中,是4×4矩阵,其中I3是3×3单位矩阵。通过将公式(12)代入到公式(10)中,在αq上的局部约束可以用公式表示为:
αq=Wq Tαq (13)
其中Wq=Φq(Φq TΦq+cβDβ)-1Φq T。在公式(13)中,Wq是Nq×Nq变换矩阵。在公式(13)中,在左侧的αq的每个元表示为在右侧的αq的元的线性组合。这意味着Ωq中的每个单元的α提取值可以表示为Ωq中的单元的α值的线性组合。在αq上的此局部约束进一步用公式表示为关于αq的平方误差代价函数Jq:
Jq(αq)=||αq-Wq Tαq||2
=αq T(Iq-Wq)(Iq-Wq)Tαq
=αq TLqαq (14)
在公式(14)中,Iq是Nq×Nq单位矩阵。Ωq中的单元的局部拉普拉斯矩阵是Nq×Nq矩阵,所述矩阵被定义为:
Lq=(Iq-Wq)(Iq-Wq)T (15)
假设定义了图形Γq,其中顶点表示Ωq中的单元并且一对顶点之间的边缘表示对应的单元对之间的关联关系。对于Γq,其对应的图形拉普拉斯矩阵被定义为:
Lq=Dq-Aq (16)
其中Dq是度矩阵并且Aq是关联矩阵。元Aq(i,j)表示单元i与j之间的关联值,而度矩阵Dq是对角矩阵,其中其对角项被定义为:
根据一个实施例,单元级图形的关联矩阵未明确定义。替代地,所述关联信息基于在公式(14)中表示的局部学习方案而导出。此外,公式(14)中的代价函数Jq还可以解释为
其中αi以及αj分别表示向量αq的第i个以及第j个元素。
在单个图像区域ωq内基于公式(14)中定义的代价函数Jq确定局部拉普拉斯矩阵之后,单元处理模块104通过在整个块组Spatch上对局部成本函数积分来进一步确定全面代价函数。此处,公式(14)中的代价函数Jq可以重新写作
Jq(α)=αTL'qα (19)
在公式(19)中,α≡[α1,α2,...,αP]T,并且L'q表示P×P局部拉普拉斯矩阵,所述局部拉普拉斯矩阵对于Ωq中的单元对的元等于Lq中的对应元,而其余元设置为零。基于公式(19),全面代价函数J被定义为基于加权函数w(lq)的Jq(α)的加权和。也就是:
公式(20)中的加权函数w(lq)根据在金字塔中对应的图像层反映每个块的重要性。此处,lq表示层索引。在图像金字塔604中,在x以及y方向两者上以降取样速率ds按比例缩小1/(j-1)倍之后,在第j层中的像素的数目是原始图像第j层中的像素的数目的倍。通过假设第j层图像中的每个像素比原始图像像素的每个像素重要倍,加权函数w(lq)被定义为
此外,公式(20)可以以更加紧凑的形式重新写作:
J(α)=αTLα (22)
其中
公式(22)中的L被称为单元级图形的单元级提取拉普拉斯(cell-level mattingLaplacian,简称:CML)矩阵。因为根据公式(23)产生的CML是未归一化拉普拉斯矩阵,所以它在谱分群(spectral clustering)之前归一化以便避免不均衡分群。在一个实施例中,单元处理模块104可以向CML应用对称归一化,所述对称归一化基于单元的度矩阵更改每一对单元之间的关联值。归一化CML被定义成:
在公式(24)中,对角矩阵D表示CML的P×P度矩阵。
分量级图形
图7为本发明一个实施例中从单元到分量映射的示意图。在单元处理模块104获得如图6中所示的单元级图形606之后,单元级图形606输出到分量处理模块106,所述分量处理模块106将所述单元级图形606分解成一组提取分量702,如图7中所示,并且形成分量级图形以用于前景提取的估测。在分量级图形的构造期间,关于前景模型的一些先前信息可能被包含在内。
为了将单元级图形606分解成如图7中所示的提取分量702,分量处理模块106执行谱分群以产生硬判决(hard-decision)提取片段并且随后应用优化程序以将硬判决提取片段变换或细化成软判决(soft-decision)提取分量。图8为本发明中输入图像、提取片段,以及提取分量的示例性实施例的示意图,具体为,图8图示了输入图像802、提取片段804,以及由分量处理模块106产生的提取分量806的示例性实施例。
对于谱分群,分量处理模块106将单元级数据变换到较高维空间中,并且随后在较高维空间中执行分群,在所述较高维空间中具有较高关联的单元级数据点倾向于共用相似坐标。更确切地说,分量处理模块106首先基于S个归一化本征向量(eigenvector)e1、...、eS产生P×S矩阵E,所述S个归一化本征向量对应于上文所论述的P×P单元级拉普拉斯矩阵的S个最小本征值(eigenvalue)。在矩阵E中,第i行向量表示Ω中的第i个单元在由S个本征向量跨越的空间中的坐标。通过在E的行向量上执行k均值分群,分量处理模块106将P个单元分群成K个不同的簇(cluster)。单元的K个簇作为初始提取片段进行处理,例如,图8中示出的提取片段804。在一个实施例中,分量处理模块106使用K个大小为P×1的二进位向量ck来表示硬判决分群结果,其中1≤k≤K。如果第k个簇含有Ω的第i个单元,那么分量处理模块106将ck的第i个元素设置为1;否则,ck的第i个元素设置为0。
为了将硬判决提取片段变换成软判决提取分量,例如,图8中示出的提取分量806,分量处理模块106基于公式(22)中的代价函数应用全面优化程序。此处,分量处理模块106将每个提取分量组织为单元的集合并且根据P×1的α提取表示分量k的α提取信息。αk的第i个元素指示软成员资格,即,第i个单元属于第k个分量。基于以下假设:软判决提取分量不会偏离硬判决提取片段太多,对应于第k个提取分量的α遮光向量αk通过使以下公式最小化来获得:
J(αk)=(αk)TL(αk)+λc(αk-ck)T(αk-ck) (25)
其中λc是用以控制提取拉普拉斯代价和与提取片段的偏差之间的权衡(trade-off)的常量。基于公式(25),分量处理模块106通过对以下线性公式的稀疏(sparse)系统求解来确定最佳αk:
(L+λcIc)αk=λcck (26)
其中Ic表示P×P单位矩阵。从图8中可以看出,在提取分量806中获得了比在初始提取片段804中更详细的提取值。
在确定提取分量之后,分量处理模块106产生分量级图形。分量处理模块106通过压缩单元级图形或根据基于散度(divergence-based)的程序来产生分量级图形。在一个实施例中,分量处理模块106通过将单元级提取拉普拉斯矩阵进一步压缩成分量级提取拉普拉斯Lcondensed来产生分量级图形。此处,假设T=[α1,...,αK]表示由K个提取分量的α提取向量形成的P×K个矩阵,所述矩阵用于如下计算分量级提取拉普拉斯Lcondensed:
因为单元级提取拉普拉斯是基于上文所述的多解析度局部关联学习程序来构造,所以缺乏空间地隔离的分量之间的知识可能变成处理更加复杂的场景的障碍。为了更好地对远端分量之间的空间关系进行建模,分量处理模块106可根据另一个实施例使用基于散度的图形。分量处理模块106通过明确地估测每一分量对之间的关联值来构造基于散度的图形,如下文中所述。
对于分量的每个配对,分量处理模块106测量两个分量的颜色分布之间的库尔贝克-莱布勒(Kull back-Leibler,简称:KL)散度。对于提取分量k,分量处理模块106使用Z×1个向量来表示其颜色分布,其中Z是颜色区间的数目。此处,表示在第i个区间中的机率值。分量处理模块106随后将具有相似颜色值的单元分组到一个颜色区间中。对于第k个提取分量的第i个颜色区间,分量处理模块106使用pi来表示属于此区间的单元组。因此,如下确定:
其中是归一化项。在公式(28)中,Nj是在单元j中的像素的数目,并且是第k个提取分量的单元j的α值。基于上述定义,两个提取分量m以及n之间的KL散度被定义为:
其中DKL是对角度矩阵并且被定义为:
对于任何分量对,高散度值对应于低关联值。因此,分量处理模块106使用双弯曲函数σ(x)=1/(1+exp(-x))来将分量m以及n之间的关联AKL(m,n)定义为:
在公式(30)中,表示在所有分量对上的KL散度值的均值。在已经获得基于散度的K×K关联矩阵AKL之后,对角度矩阵DKL计算为:
最终,基于散度的拉普拉斯矩阵LKL计算为:
LKL=DKL-AKL (32)
分量处理模块106随后将基于散度的拉普拉斯LKL与经压缩的提取拉普拉斯Lcondensed合并以计算分量级图形拉普拉斯Lcomp:
Lcomp=Lcondensed+λKLLKL (33)
在公式(33)中,λKL是用以平衡Lcondensed以及LKL之间的贡献的参数。分量处理模块106基于经压缩的提取关联度的总和与KL关联度的总和之间的比值如下计算λKL:
图9为本发明分量级图形的一个示例性实施例的示意图,具体为,图9图示了基于图7的提取分量702由分量处理模块106产生的示例性分量级图形902。
分量到层映射
根据一个实施例,在分量处理模块106计算如上文所论述的分量级提取拉普拉斯Lcomp之后,层处理模块108接收数据并且基于分量级谱分群应用分量到层映射程序。图10为本发明一个实施例中从分量到层映射的示意图,其中图7中示出的提取分量基于分量级图形902映射到多个提取层1002上。
类似于上文所描述的单元到分量映射,分量到层映射还可以基于谱分群来执行。此处,层处理模块108基于K×K分量级拉普拉斯矩阵Lcomp的归一化本征向量ecomp 1、...、ecomp K产生分量级矩阵Ecomp。通过在Ecomp的行向量上执行k均值分群,层处理模块108将K个提取分量分群成Q个簇,其中Q是范围为2到K的整数并且可以根据用户输入确定。层处理模块108随后使用多个K×1二进位向量dq以表示分群结果,其中1≤q≤Q。如果第q个簇含有第i个提取分量,那么层处理模块108将dq的第i个元素设置为1;否则,dq的第i个元素设置为0。基于dq,层处理模块108使用P×1向量来表示第q个提取层的α提取信息,所述向量被定义为:
通过使用单元到分量映射以及分量到层映射,系统100对图像数据执行两次谱分群,而不是直接将单元分群成提取层。确切地说,系统100首先将单元分群成分量并且随后将分量分群成层。基于单元级图形,例如图6中的单元级图形606,系统100基于多解析度局部关联学习方案来局部计算图形顶点的关联值,以便探究较短范围中的关联信息。另一方面,基于分量级图形,例如图9的分量级图形902,系统100计算每一对分量之间的关联值并且产生包含近范围以及远范围关联信息两者的完全连接的图形。基于此完全连接的图形,系统100在与单独的单元级分析相比更加全面的尺度上探究关联信息。图11A为本发明一个实施例中基于从单元到层的直接映射的提取结果的示意图。在图11A中,单元直接分群成两层、三层、四层以及五层。作为比较,图11B为本发明一个实施例中基于从单元到分量并且随后到层的多解析度映射的提取结果的示意图。在图11B中,通过首先将单元分解成分量并且随后将分量分群成层来对单元应用两阶段分群。通过首先将图像分解成更多量的分量,随后进行分量到层映射,系统100获得合理得多的结果。
根据另一个实施例,系统100应用单元到像素映射以将单元级信息αk转换回到像素域。对于任何像素i,如果j表示对应的单元,那么μ(j)表示j的相邻单元内的单元组。像素i的像素级数据通过使用在μ(j)中的单元的单元级数据值基于以下公式被内插:
其中
在公式(37)中,pk|i是条件机率并且fi表示在如上文所描述通过变形空间坐标以及RGB颜色值(IR、IG、IB)定义的五维特征空间W中的像素i的图像特征。另一方面,fk表示与单元k相关的特征向量的平均值。公式(37)中的条件机率基于在特征空间中fi与fk之间的距离对像素i属于单元k的可能性进行建模。例如,较短距离指示较高机率。
前景估测
在层处理模块108产生提取层之后,前景估测模块110接收提取层并且对提取层应用机率估测程序以估测前景信息。此处,前景估测模块110根据相关联的提取分量处理每个提取层并且对于每个提取分量应用机率方案以估测成为前景物体的一部分的机率。
更确切地说,前景估测模块110产生机率分布模型p(b)=p(b1,...,bK),其中对于1≤k≤K,bk∈{0,1}。对于提取分量k,当此分量被识别为前景分量时,前景估测模块110设置bk=1;否则,bk=0。基于上述定义,每个向量b表示前景提取假设并且对应于提取分量的集合。一旦前景估测模块110导出所有可能的b’s机率分布模型p(b),前景估测模块110选择b’s的更可能表示前景提取的子集。
根据一个实施例,分布模型p(b)基于以下一致性假设:具有相对较高关联的一对分量倾向于共用相同前景指数。因此,这两个分量倾向于都是前景或者都是背景。使用图3中的输入图像302作为一个实例,假设将正面的两朵花划分成两个提取分量。一旦所述两个提取分量中的一者被分类为前景分量,同时另一者就具有相对较高的机率也成为前景分量。
基于此一致性假设,前景估测模块110基于分量级拉普拉斯矩阵Lcomp来评估给定向量b以确定“不一致性”的测量,其如下定义:
dfb(b)=bTLcompb (38)
基于公式(38)中的定义,具有较低不一致性值dfb(b)的向量b指示出对应的提取分量的集合具有较高机率成为前景提取的一部分。然而,这并不表明因此可以基于此单独测量简单地找到恰当的前景向量。一个实例是:其元全是1(或全是0)的b向量对应于零不一致性,可能不是所需结果。
根据另一个实施例,为了避免上述问题,前景估测模块110基于前景区域与背景区域之间的比值不应该过度不均衡这一假设进一步应用平衡权数。平衡权数η(b)被定义为:
其中以及分别表示在前景区域以及背景区域中提取值的总和。项N k在上文在公式(28)中定义。在不均衡的情况下,Nα以及中的一者相对较小并且因此权数η(b)变得相对较大。通过将此平衡权数η(b)包含到不一致性测量中,前景估测模块110如下计算不一致性dfb(b):
dfb(b)=η(b)(bTLcompb) (40)
利用此加权的不一致性测量,机率分布模型被定义为
其中
在公式(41)中,是一组前景向量,所述前景向量具有在所有可行的b’s上的不一致性dfb(b)的最小值。另外,是在中的向量的不一致性测量的均值,并且参数c是常量,所述常量凭经验设置为0.02或其他适当的值。
根据一个实施例,系统100产生输入图像的相对较小数目(通常约10到20)的提取分量。因此,前景估测模块110可以产生所有可行的向量b’s并且对于每个向量b检查对应的dfb(b)。根据另一个实施例,前景估测模块110可以通过忽略具有相对较大dfb(b)值的b’s并且仅聚焦于具有相对较小dfb(b)值的b’s来提高计算效率。
基于在公式(40)以及(41),前景估测模块110确定,如果提取分量的组合与分量级拉普拉斯矩阵Lcomp一致并且与其余的分量平衡,那么对应的pf(b)具有相对较大值。然而,对于任何b以及其补集(1-b),pf(b)的值pf(1-b)的值实际上相等。因此,前景以及背景提取不能基于公式(40)中的不一致性测量简单地彼此区分开来。根据另一实施例,前景估测模块110进一步评估提取的凸度(convexity)以及其补集(complement)的凸度。前景估测模块110随后基于前景提取通常倾向于凸起的这一假设来识别前景提取。此处,凸度基于提取与其对应的凸壳(convex hull)之间的面积比值来测量。通过比较任何对b与1-b之间的凸度,前景估测模块110消除具有相对较低凸度的提取分量。
图12为本发明提取层的示例性实施例以及输入图像的前景区域的可能性示意图,具体为,图12图示了提取层1202到1220的示例性实施例以及输入图像302的前景区域的可能性示意图1222。输入图像302的提取层1202到1220对应于具有最大pf(b)值的十个b’s(即,排名#1到排名#10)。可以看出,这些提取通常具有与前景区域(即,花的区域)的较大堆叠。因此,如果ξ表示具有最大pf(b)值的首要前景向量组,那么前景估测模块110如下将前景向量bFG估测为在ξ中的b向量的期望值:
基于公式(42),前景估测模块110如下将前景提取的前景可能性示意图计算为分量级α提取值的加权和:
αFG=[α1 ... αK]·bFG (43)
如图12所示出,示例性可能性示意图1222反映了图像像素属于输入图像302的前景区域的可能性。
根据另一个实施例,对于由层处理模块108产生的多个层,例如图11B中示出的那些层,前景估测模块110如下计算每个提取层的前景因数:
其中1P表示P×1个全1向量。图11B示出了每个提取层的前景因数的值。一般来说,具有相对较大前景因数的提取层更可能成为前景区域的一部分。
图13为本发明一个实施例中基于阶层图形的图像提取以及前景估测的方法的流程图。程序1300可以根据上文所揭示的技术在系统100上实施。确切地说,根据程序1300,在步骤1302处,接收输入图像。输入图像包含多个图像元素,例如像素。每个像素包含颜色值,例如根据已知颜色空间定义的那些颜色值。在步骤1304处,基于输入图像产生多个提取单元。每个提取单元包含一组图像元素。提取单元可以通过首先对输入图像应用收缩程序并且随后基于图像元素当中的关联关系将收缩图像元素映射到提取单元上来产生。
在步骤1306处,基于输入图像计算多个提取单元的关联值。关联值指示每一对提取单元之间的相似性。单元的关联值可以基于上文参考图5以及6所描述的多解析度局部关联学习方案来计算。
在步骤1308处,基于多个提取单元以及关联值形成第一图形,例如上文所揭示的单元级图形。第一图形包含表示提取单元的多个第一节点或顶点以及与提取单元的关联值相关联的多个第一边缘。在步骤1310处,基于第一图形产生输入图像的多个提取分量。提取分量可以通过基于提取单元的关联值分解第一图形来产生。提取分量中的一者或多者随后被识别为属于输入图像的前景区域。
图14为本发明另一个实施例中基于阶层图形的图像提取以及前景估测的方法的流程图,程序1400可根据上文所揭示的技术在系统100上实施。确切地说,根据程序1400,在步骤1402处接收输入图像。输入图像包含多个图像元素,例如像素。
在步骤1404处,基于输入图像形成第一图形,例如上文所揭示的像素级图形。第一图形包含表示图像元素的多个第一节点或顶点以及表示图像元素当中的关联关系的多个第一边缘。在步骤1406处,通过将图像元素分组到多个单元中形成第二图形,例如上文所揭示的单元级图形。第二图形包含表示单元的多个第二节点或顶点以及表示单元当中的关联关系的多个第二边缘。
在步骤1408处,通过将第二图形分解成多个提取分量来形成第三图形,例如上文所揭示的分量级图形。第三图形包含表示提取分量的多个第三节点或顶点以及表示提取分量当中的关联关系的多个边缘。在步骤1410处,基于第三图形确定机率值,所述机率值指示提取分量作为属于输入图像的前景区域的提取分量的机率。
通过考虑说明书并且实践本文中揭示的本发明,本发明的其他实施例对所属领域的技术人员而言将显而易见。希望仅将说明书以及实例视为示例性的,其中本发明的真实范围和精神由以上权利要求书来指定。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (18)
1.一种基于阶层图形的图像提取以及前景估测的方法,其特征在于,包括:
接收包含多个图像元素的输入图像;
基于所述输入图像产生多个提取单元,各所述提取单元包含一组所述图像元素,其中,将所述图像元素映射至所述多个提取单元,以令所述图像元素压缩至所述多个提取单元,以形成像素级图形;
基于所述输入图像计算所述提取单元的关联值,所述关联值指示每一对提取单元之间的相似性;以及
基于所述提取单元以及所述关联值形成单元级图形,所述单元级图形包含表示所述提取单元的多个节点以及与所述提取单元的所述关联值相关联的多个边缘;以及
基于所述提取单元的关联值分解所述单元级图形来产生用于所述输入图像的多个提取分量,通过压缩所述单元级图形或根据基于散度的程序来产生分量级图形,其中所述多个提取分量基于所述分量级图形映射到多个提取层上。
2.根据权利要求1项所述的方法,其特征在于,还包括识别属于所述输入图像的前景区域的所述提取分量中的至少一者。
3.根据权利要求1项所述的方法,其特征在于,所述产生所述提取单元还包括:
基于所述输入图像形成第二图形,所述第二图形包含表示所述图像元素的多个第二节点以及表示所述图像元素的关联信息的多个第二边缘;以及
基于所述第二图形从所述输入图像中产生收缩图像。
4.根据权利要求3项所述的方法,其特征在于,还包括:
定义用于所述图像元素的归一化坐标;以及
基于所述图像元素的所述归一化坐标以及所述关联信息计算所述图像元素的收缩坐标。
5.根据权利要求4项所述的方法,其特征在于,还包括部分基于所述图像元素的所述收缩坐标产生所述提取单元。
6.根据权利要求5项所述的方法,其特征在于,还包括:
基于所述图像元素的所述收缩坐标以及颜色值定义坐标系统;以及
通过基于所述坐标系统将所述图像元素映射到所述提取单元上来产生所述提取单元。
7.根据权利要求1项所述的方法,其特征在于,所述计算所述提取单元的所述关联值还包括:
从所述输入图像中产生多个经降取样图像;
从所述经降取样图像以及所述输入图像中提取多个图像区域;以及
基于所述图像区域确定所述提取单元的所述关联值。
8.根据权利要求7项所述的方法,其特征在于,还包括:
基于所述提取单元内的图像元素确定各所述提取单元的特征向量;以及通过对所述特征向量应用仿射转换来计算所述单元的所述关联值。
9.根据权利要求8项所述的方法,其特征在于,所述方法还包括:
基于所述提取单元的所述关联值定义全面误差函数;
基于所述提取单元形成第二图形;以及
基于所述全面误差函数确定所述第二图形的拉普拉斯矩阵。
10.根据权利要求9项所述的方法,其特征在于,所述定义所述全面误差函数还包括:
定义用于各所述图像区域的误差函数;以及
通过计算所述图像区域的所述误差函数的加权和来定义所述全面误差函数,其中所述全面误差函数包含指示所述图像区域的相对重要性的各所述图像区域的权数。
11.根据权利要求9项所述的方法,其特征在于,还包括使用度矩阵来归一化所述拉普拉斯矩阵。
12.根据权利要求11项所述的方法,其特征在于,所述产生所述提取分量还包括:
通过基于所述归一化拉普拉斯矩阵对所述图形执行谱分群来从所述图形中产生多个片段;以及
通过细化所述片段来从所述片段中产生所述提取分量。
13.根据权利要求12项所述的方法,其特征在于,还包括通过基于所述提取分量之间的关联关系对所述提取分量进行分组来产生多个层。
14.根据权利要求2项所述的方法,其特征在于,还包括确定所述提取分量属于所述输入图像的所述前景区域的机率。
15.根据权利要求14项所述的方法,其特征在于,所述方法还包括:
基于所述提取分量形成第二图形,所述第二图形包含表示所述提取分量的多个第二节点以及表示所述提取分量当中的关联关系的多个第二边缘;以及
基于所述第二图形计算拉普拉斯矩阵;以及
基于所述拉普拉斯矩阵确定所述机率。
16.根据权利要求15项所述的方法,其特征在于,还包括:
基于所述拉普拉斯矩阵定义不一致性测量;以及
基于所述不一致性测量确定所述机率。
17.一种基于阶层图形的图像提取以及前景估测的方法,其特征在于,包括:
接收包含多个图像元素的输入图像;
基于所述输入图像形成第一图形,所述第一图形包含表示所述图像元素的多个第一节点以及表示所述图像元素当中的关联关系的多个第一边缘;
通过将所述图像元素分组成多个单元来形成第二图形,所述第二图形包含表示所述单元的多个第二节点以及表示所述单元当中的关联关系的多个第二边缘,其中,所述形成所述第二图形还包括:
对所述输入图像应用收缩程序;
基于经所述收缩输入图像以及所述第一图形将所述图像元素映射到所述单元上;
通过对所述输入图像进行递回降取样来产生图像金字塔;
从所述图像金字塔中提取多个图像区域;以及
基于所述图像区域确定所述单元当中的所述关联关系;
通过将所述第二图形分解成多个提取分量来形成第三图形,所述第三图形包含表示所述提取分量的多个第三节点以及表示所述提取分量当中的关联关系的多个边缘;以及
基于所述第三图形确定所述提取分量属于所述输入图像的前景区域的机率。
18.一种存储指令的非暂时性计算机可读媒体,其特征在于,在由处理器执行时,所述指令使得所述处理器执行用于基于阶层图形进行图像提取以及前景估测的方法,所述方法包括:
接收包含多个图像元素的输入图像;
基于所述输入图像产生多个提取单元,各所述提取单元包含一组图像元素,其中,将所述图像元素映射至所述多个提取单元,以令所述图像元素压缩至所述多个提取单元,以形成像素级图形;
基于所述输入图像计算所述提取单元的关联值,所述关联值指示每一对提取单元之间的相似性;
基于所述提取单元以及所述关联值形成单元级图形,所述单元级图形包含表示所述提取单元的多个节点以及表示所述提取单元的关联信息的多个边缘;以及
基于所述提取单元的关联值分解所述单元级图形来产生用于所述输入图像的多个提取分量,通过压缩所述单元级图形或根据基于散度的程序来产生分量级图形,其中所述多个提取分量基于所述分量级图形映射到多个提取层上。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/486,158 | 2014-09-15 | ||
US14/486,158 US9449395B2 (en) | 2014-09-15 | 2014-09-15 | Methods and systems for image matting and foreground estimation based on hierarchical graphs |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105701493A CN105701493A (zh) | 2016-06-22 |
CN105701493B true CN105701493B (zh) | 2019-04-23 |
Family
ID=55455215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410705140.9A Active CN105701493B (zh) | 2014-09-15 | 2014-11-27 | 基于阶层图形的图像提取以及前景估测的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9449395B2 (zh) |
JP (1) | JP6100300B2 (zh) |
CN (1) | CN105701493B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410398B2 (en) * | 2015-02-20 | 2019-09-10 | Qualcomm Incorporated | Systems and methods for reducing memory bandwidth using low quality tiles |
US9552626B1 (en) | 2015-10-07 | 2017-01-24 | Adobe Systems Incorporated | Digital image blemish removal |
CN106952220A (zh) * | 2017-03-14 | 2017-07-14 | 长沙全度影像科技有限公司 | 一种基于深度学习的全景图像融合方法 |
CN106934765A (zh) * | 2017-03-14 | 2017-07-07 | 长沙全度影像科技有限公司 | 基于深度卷积神经网络与深度信息的全景图像融合方法 |
WO2020091810A1 (en) * | 2018-11-02 | 2020-05-07 | Hewlett-Packard Development Company, L.P. | Print quality assessments |
US20220058801A1 (en) * | 2018-12-17 | 2022-02-24 | Georgia State University Research Foundation, Inc. | Predicting DCIS Recurrence Risk Using a Machine Learning-Based High-Content Image Analysis Approach |
CN110675327B (zh) * | 2019-08-02 | 2022-05-06 | 杭州电子科技大学 | 基于核范数与图模型的图像去噪方法 |
US11308628B2 (en) * | 2020-04-14 | 2022-04-19 | Adobe Inc. | Patch-based image matting using deep learning |
CN113602017B (zh) * | 2021-08-05 | 2023-05-16 | 航天信息股份有限公司 | 一种彩色证卡及其制作方法和制作装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1914645A (zh) * | 2004-01-27 | 2007-02-14 | 松下电器产业株式会社 | 图像制作装置以及图像制作方法 |
CN101013434A (zh) * | 2006-02-01 | 2007-08-08 | 索尼株式会社 | 图像处理系统、装置、方法、程序及其记录介质 |
US8175384B1 (en) * | 2008-03-17 | 2012-05-08 | Adobe Systems Incorporated | Method and apparatus for discriminative alpha matting |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08167028A (ja) * | 1994-12-13 | 1996-06-25 | Toppan Printing Co Ltd | 画像処理方法 |
US7430339B2 (en) | 2004-08-09 | 2008-09-30 | Microsoft Corporation | Border matting by dynamic programming |
US20070165966A1 (en) | 2005-07-15 | 2007-07-19 | Yissum Research Development Co. | Closed form method and system for matting a foreground object in an image having a background |
US7636128B2 (en) * | 2005-07-15 | 2009-12-22 | Microsoft Corporation | Poisson matting for images |
US7440615B2 (en) | 2005-10-27 | 2008-10-21 | Nec Laboratories America, Inc. | Video foreground segmentation method |
US8311277B2 (en) | 2007-02-01 | 2012-11-13 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for video indexing and video synopsis |
US8520972B2 (en) | 2008-09-12 | 2013-08-27 | Adobe Systems Incorporated | Image decomposition |
KR101670282B1 (ko) | 2009-02-10 | 2016-10-28 | 톰슨 라이센싱 | 전경-배경 제약 조건 전파를 기초로 하는 비디오 매팅 |
US8477149B2 (en) | 2009-04-01 | 2013-07-02 | University Of Central Florida Research Foundation, Inc. | Real-time chromakey matting using image statistics |
US8625896B2 (en) | 2009-04-03 | 2014-01-07 | Hewlett-Packard Development Comapany, L.P. | Image matting |
US8320666B2 (en) | 2009-08-14 | 2012-11-27 | Genesis Group Inc. | Real-time image and video matting |
US8306333B2 (en) | 2009-12-17 | 2012-11-06 | National Tsing Hua University | Method and system for automatic figure segmentation |
US8386964B2 (en) | 2010-07-21 | 2013-02-26 | Microsoft Corporation | Interactive image matting |
US8625888B2 (en) | 2010-07-21 | 2014-01-07 | Microsoft Corporation | Variable kernel size image matting |
US9153031B2 (en) | 2011-06-22 | 2015-10-06 | Microsoft Technology Licensing, Llc | Modifying video regions using mobile device input |
US8879835B2 (en) * | 2011-08-26 | 2014-11-04 | Adobe Systems Incorporated | Fast adaptive edge-aware matting |
US9305357B2 (en) | 2011-11-07 | 2016-04-05 | General Electric Company | Automatic surveillance video matting using a shape prior |
CN103207879B (zh) | 2012-01-17 | 2016-03-30 | 阿里巴巴集团控股有限公司 | 图像索引的生成方法及设备 |
JP6102122B2 (ja) * | 2012-08-24 | 2017-03-29 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
CN103177446B (zh) | 2013-03-13 | 2016-03-30 | 北京航空航天大学 | 基于邻域和非邻域平滑先验的图像前景精准提取方法 |
-
2014
- 2014-09-15 US US14/486,158 patent/US9449395B2/en active Active
- 2014-11-27 CN CN201410705140.9A patent/CN105701493B/zh active Active
-
2015
- 2015-04-08 JP JP2015079069A patent/JP6100300B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1914645A (zh) * | 2004-01-27 | 2007-02-14 | 松下电器产业株式会社 | 图像制作装置以及图像制作方法 |
CN101013434A (zh) * | 2006-02-01 | 2007-08-08 | 索尼株式会社 | 图像处理系统、装置、方法、程序及其记录介质 |
US8175384B1 (en) * | 2008-03-17 | 2012-05-08 | Adobe Systems Incorporated | Method and apparatus for discriminative alpha matting |
Also Published As
Publication number | Publication date |
---|---|
US20160078634A1 (en) | 2016-03-17 |
JP2016062588A (ja) | 2016-04-25 |
US9449395B2 (en) | 2016-09-20 |
CN105701493A (zh) | 2016-06-22 |
JP6100300B2 (ja) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701493B (zh) | 基于阶层图形的图像提取以及前景估测的方法和系统 | |
CN108549891B (zh) | 基于背景与目标先验的多尺度扩散显著目标检测方法 | |
CN105512661B (zh) | 一种基于多模态特征融合的遥感影像分类方法 | |
CN109360232B (zh) | 基于条件生成对抗网络的室内场景布局估计方法和装置 | |
Li et al. | A spatial–temporal Hopfield neural network approach for super-resolution land cover mapping with multi-temporal different resolution remotely sensed images | |
Morris | A pyramid CNN for dense-leaves segmentation | |
CN106296638A (zh) | 显著性信息取得装置以及显著性信息取得方法 | |
Perkins et al. | GENIE: A hybrid genetic algorithm for feature classification in multispectral images | |
CN104408733B (zh) | 基于对象随机游走的遥感图像视觉显著性检测方法及系统 | |
CN105469098A (zh) | 一种自适应特征权重合成的lidar数据地物精确分类方法 | |
CN114511778A (zh) | 图像处理方法及装置 | |
Xu et al. | A new spectral-spatial sub-pixel mapping model for remotely sensed hyperspectral imagery | |
CN111415728A (zh) | 基于cnn和gan的ct图像数据自动分类方法及设备 | |
Tang et al. | A multiple-point spatially weighted k-NN method for object-based classification | |
CN109191418A (zh) | 一种基于收缩自编码器特征学习的遥感图像变化检测方法 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN109949348A (zh) | 一种基于超像素运动统计的误匹配去除方法 | |
Giusti et al. | A comparison of algorithms and humans for mitosis detection | |
KR101906663B1 (ko) | 다양한 컬러 공간에서 협동 얼굴 컬러 특징 학습 방법 및 장치 | |
CN112802048B (zh) | 具有不对称结构的图层生成对抗网络生成方法及装置 | |
US20080253654A1 (en) | Method for segmentation in an n-dimensional feature space and method for classifying objects in an n-dimensional data space which are segmented on the basis of geometric characteristics | |
CN104766068A (zh) | 一种多规则融合的随机游走舌像提取方法 | |
JP6546385B2 (ja) | 画像処理装置及びその制御方法、プログラム | |
Ouzounis et al. | Partition-induced connections and operators for pattern analysis | |
CN114972335A (zh) | 一种用于工业检测的图像分类方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |