CN103765880A

CN103765880A - 局部化分割的图像的连网捕捉和三维显示

Info

Publication number: CN103765880A
Application number: CN201180073424.5A
Authority: CN
Inventors: J.拉特克里夫; Y.吴; M.E.乔巴斯; Y.加特; W.V.孙; K.塞沙德里纳塔恩; I.V.科辛特塞夫
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-09-12
Filing date: 2011-09-12
Publication date: 2014-04-30
Anticipated expiration: 2031-09-12
Also published as: WO2013039472A1; US20140233847A1; JP2014530391A; CN103765880B; JP5822322B2; KR20140064908A; US10192313B2; KR101595537B1; US20160321817A1; US9418438B2; EP2756682A1; EP2756682A4

Abstract

本文描述了包括接收具有前景部分和背景部分的源图像的系统、装置和方法，其中，背景部分包括三维(3D)环境的图像内容。通过比较源图像的特征和3D环境的目标图像的图像特征，可确定源图像的摄像机位姿，并且使用摄像机位姿将前景部分和背景部分分割可生成分割的源图像。结果分割的源图像和相关联摄像机位姿可存储在连网的数据库中。摄像机位姿和分割的源图像可用于在虚拟3D环境中提供前景部分的模拟。

Description

局部化分割的图像的连网捕捉和三维显示

背景技术

用于查看群组图像的当前自动化方法未将每摄像机图像定位和前景分割的组合效应考虑在内。相反，一般以幻灯片方式一次一个地显示图像。目前，为实现此效应，离线手工处理图像。

一般情况下，移动装置的室内定位依赖某种形式的本地基础设施设置，如全球定位系统(GPS)塔位置、无线塔位置、多个接入点位置等等。这些基础设施元素能够在实现上特别昂贵，并且有时甚至不可能提供用于许多室内环境，如主题公园、博物馆、会议中心、家庭及诸如此类。

附图说明

本文中所述的材料在附图中以示例而非限制的方式示出。为确保示图的简明和清晰起见，图中所示元素不一定按比例画出。例如，为清晰起见，一些元素的尺寸相对其它元素可能显得过大。此外，在认为视当之处，标号已在图中重复以指示一致或类似的元素。在附图中：

图1是示例系统的说明性图形；

图2示出示例源图像；

图3是示出示例图像定位过程的流程图；

图4示出摄像机位姿坐标；

图5A、5B和5C示出示例图像分割过程的流程图；

图6示出示例分割的源图像；

图7是示出示例3D模拟过程的流程图；

图8示出示例3D环境模拟；

图9是示例系统的说明性图形；以及

图10示出全部根据本公开内容的至少一些实现布置的示例图像分割过程。

具体实施方式

现在参照附图描述一个或几个实施例或实现。虽然论述了特定的配置和布置，但应理解的是，这只是为了便于说明。相关领域技术人员将认识到，在不脱离描述的精神和范围的情况下，可采用其它配置和布置。相关领域技术人员将明白，本文中所述技术和/或布置也可在与本文中所述不同的多种其它系统和应用中采用。

虽然下面的描述陈述了可在诸如芯片上系统(SoC)体系结构等体系结构中显露的各种实现，但本文中所述技术和/或布置的实现不限于特定体系结构和/或计算系统，并且可由用于类似目的的任何体系结构和/或计算系统实现。例如，采用例如多个集成电路(IC)芯片和/或封装的各种体系结构和/或诸如机顶盒、智能电话等各种计算装置和/或消费者电子(CE)装置可实现本文中所述的技术和/或布置。此外，虽然以下描述可陈述诸如逻辑实现、系统组件的类型和相互关系、逻辑分割/集成选择等各种特定细节，但实践所述主题可无需此类特定细节。在其它情况下，诸如控制结构和完全软件指令序列等一些材料可未详细示出以免混合本文中公开的材料。

本文中公开的材料可以硬件、固件、软件或其任何组合的形式实现。本文中公开的材料也可实现为存储在机器可读媒体上的指令，其可由一个或多个处理器读取和执行。机器可读媒体可包括用于以机器（例如，计算装置）可读形式存储或传送信息的任何媒体和/或机制。

例如，机器可读媒体可包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储媒体、光存储媒体、闪存装置、电气、光、声或其它形式传播信号（例如，载波、红外信号、数字信号等）及其它。

说明书中对“一个实现”、“实现”、“示例实现”等的引用指所述实施例可包括特定特征、结构或特性，但每个实现可不一定包括特定特征、结构或特性。另外，此类词语不一定指同一实现。此外，在结合实某个实现描述某个特定特征、结构或特性时，应认为结合无论本文中是否明确描述的其它实现来达到此类特征、结构或特性是在本领域技术人员的认知之内。

图1示出根据本公开内容的示例系统100。在各种实现中，系统100可包括提供一个或几个二维(2D)源图像到无线和/或有线网络（例如，因特网）的一个或几个摄像机102，其中，源图像是在三维(3D)环境103中捕捉。在各种实现中，摄像机102可以是能够提供数字形式的2D源图像到网络104的任何类型的摄像机。源图像可具有任何分辨率和/或长宽比。

源图像可经网络104提供到视觉引擎106，在该引擎中，源图像可进行本文中所述的摄像机定位和图像分割过程。视觉引擎106可提供摄像机定位和图像分割过程的结果到连网的数据库108，并且3D显示引擎110可从数据库108访问那些结果以便提供也要在本文中描述的3D环境模拟。在各种实现中，视觉引擎106可提供摄像机定位和图像分割过程的结果到显示引擎110而不先在数据库108中存储那些结果。此外，在各种实现中，视觉引擎106可与显示引擎110相邻，并且可直接提供摄像机定位和图像分割过程的结果到显示引擎110而不使用网络104提供。

在各种实现中，在3D环境103中由摄像机102捕捉的源图像可包括背景部分和前景部分。例如，图2示出在3D环境103中捕捉的示例2D源图像200。图像200包括前景部分202（例如，人体）和背景部分204（例如，诸如地板、墙壁、窗户及诸如此类等房间的各部分）。

图3根据本公开内容的各种实现，示出示例图像定位过程300的流程图。过程300可包括如由图3的一个或几个方框304、306、308、314、316和320所示的一个或几个操作、功能或动作，并且可确定源图像的摄像机位姿。作为非限制性示例，本文中将参照图1的示例系统100描述过程300。在各种实现中，过程300可由系统100的视觉引擎106进行。过程300可从方框304开始，在该方框，可接收具有未知摄像机位姿的源图像302。例如，方框304可涉及视觉引擎106经网络104接收源图像302。

在各种实现中，方框304可涉及接收诸如示例图像200等在已知3D环境（例如，环境103）中已捕捉的源图像。虽然在已知3D环境中捕捉，但在该3D环境中捕捉源图像的摄像机的位姿未知。根据众所周知的针孔摄像机模型，摄像机位姿可表述为六维量，包括方位信息，如摄像机的3D方位坐标（例如，在笛卡尔(x, y, z)坐标中）及姿态或定向信息，包括摄像机相对于3D环境的偏航(yaw)、俯仰(pitch)和滚转(roll)。例如，图4示出在3D环境103的(X,Y,Z)坐标系统内相对于示例摄像机位置400示出摄像机位姿坐标。

3D环境（例如，环境103）包括多个2D平面结构及其对应目标图像。每个目标图像表示在3D背景环境中平面结构的图像，并且此目标图像的图像特征可被提取并存储在数据库108中。在方框306，可比较源图像视觉特征和3D环境的存储的图像特征以确定最佳匹配的目标图像。例如，方框306可涉及使用诸如尺度不变特征变换(SIFT)技术等熟知的计算机视觉技术从源图像提取视觉特征（例如，参阅D. G. Lowe所著“从局部尺度不变特征进行对象识别”("Object recognition from local scale-invariant features," Proc. of the International Conference on Computer Vision, Corfu (Sept. 1999))）。在各种实现中，视觉特征可包括图像纹理。随后，可比较从源图像提取的视觉特征和诸如图像纹理等以前从3D环境的目标图像提取并且存储在例如数据库108中的视觉特征（例如，对应于如在目标图像中捕捉的源图像200的背影204的各种部分）。方框306的比较可从3D环境的存储的目标图像中识别最佳匹配目标图像。

在方框308，可通过比较源图像和最佳匹配目标图像，确定单应性矩阵H。在各种实现中，单应性矩阵H表示非奇异3x3矩阵，该矩阵提供源图像到与在方框306确定的最佳匹配的目标图像相关联的3D环境中平面结构的投影变换。各种熟知的技术可用于在方框308确定单应性矩阵H（例如，参阅E. Vincent和R. Laganiere所著“检测图像对中的平面单应性”("Detecting planar homographies in an image pair," Proceedings of the 2nd International Symposium on Image and Signal Processing and Analysis (2001)）（下文称为：“Vincent和Laganiere”）。

由于源图像可包括多个平面，因此，方框308可涉及识别源图像中匹配3D环境中平面结构的主导平面。在各种实现中，方框308可包括识别在平面结构与源图像之间的匹配点。例如，在方框308，四个对应匹配点可足以估计单应性矩阵H。方框308可产生3D环境的匹配平面结构310和源图像单应性矩阵312。

在方框314，对于平面结构，单应性矩阵H描述从3D点M到其对应2D点m的透视投影关系，这可由m=HM表示，其中，H = K[R|T]，其中，K是取决于诸如焦距等摄像机的内部参数的3x3摄像机标定矩阵，并且[R|T]是3x4摄像机位姿参数（其中，R表示3x3旋转矩阵，并且T是平移）。由于H和K已知，因此，在进行M和m的几次(n>6)已知映射测量的条件下，可通过最小二乘最小化技术估计摄像机位姿。如果测量{m_i}有噪声，则可通过最小化重投影误差之和，或者在3D点的投影与其测量的2D坐标之间的平方距离，细化摄像机位姿。随后，可使用迭代优化方案求解最小化。

在方框316，可应用旋转矩阵R和平移矩阵T到匹配平面结构的3D坐标以生成源图像摄像机位姿318。随后，过程300可在方框320结束，其中，如下面将更详细描述的一样，源图像摄像机位姿可存储在诸如系统100的数据库108等网络可访问的数据库中以供以后使用。如下面将进一步解释的一样，源图像摄像机位姿可在数据库中存储为与分割的源图像相关联的元数据。

虽然如图3所示的示例过程300的实现可包括以所示顺序进行示出的所有方框，但本公开内容在此方面并无限制，并且在各种示例中，过程300的实现可包括只进行示出的所有方框的子集和/或以与所示不同的顺序进行。

图5A、5B和5C根据本公开内容的各种实现，示出示例图像分割过程500的流程图。过程500可包括如图5A、5B和5C的一个或几个方框502-548所示的一个或几个操作、功能或动作，并且可分割或提取源图像的前景部分以创建分割的源图像。作为非限制性示例，本文中将参照图1的示例系统100、图2的示例源图像200和图3的示例过程300描述过程500。在各种实现中，过程500可由系统100的视觉引擎106进行。

过程500可从方框502开始，在该方框，可接收多个目标图像（包括背景图像部分）和相关联单应性矩阵。在各种实现中，源图像包含来自多个目标图像的部分。对于在方框502收到的每个目标图像，可在方框504应用对应单应性矩阵以使用已知技术生成投影的目标图像和二值投影矩阵（例如，参阅Vincent和Laganiere）。方框504可涉及使用单应性矩阵将目标图像投影到源图像的图像平面上，以便结果投影的目标图像大致与源图像对齐。在各种实现中，方框504可产生具有与源图像类似的几何属性的投影的目标图像。例如，与投影的目标图像相关联的摄像机位姿可类似于过程300生成的摄像机位姿（与源图像相关联）。在各种实现中，目标图像和源图像可具有相同分辨率和长宽比。在目标图像和源图像可具有不同分辨率和/或长宽比的实现中，投影的目标图像具有与源图像相同的分辨率和长宽比。

如上所述并且如图2的示例所示，源图像200包括前景部分202和背景部分204。虽然方框502的目标图像可已在与源图像相同的3D环境103中捕捉，但目标图像可从与源图像不同的角度拍摄（例如，方位和定向），并且可包括至少一些背景部分204，而不包括在源图像中存在的前景部分202。在各种实现中，在方框502收到的目标图像可在以前已捕捉并且与其相关联单应性矩阵一起存储在诸如系统100的数据库108等数据库中。

在方框506，可接收源图像（包括前景和背景部分）。在方框508，可对从方框504产生的投影的目标图像和源图像进行低通过滤以生成过滤的源图像和过滤的投影的目标图像。在方框510，可确定在过滤的源图像和在与每个过滤的投影的目标图像相关联的投影蒙板(mask)内每个过滤的投影的目标图像之间的强度差，以产生对应的差图(difference map)。随后，每个差图可进行阈值功能处理以生成在投影蒙板内粗略分割的前景蒙板（方框512）。例如，在方框512可应用对应于50%的最大图像强度的阈值功能（例如，对于8比特图像强度为128的阈值）。在方框514，可从投影蒙板减除粗略分割的前景蒙板以生成与每个过滤的投影的目标图像相关联的调整的投影蒙板。

虽然从方框508产生的过滤的投影的目标图像和过滤的源图像在几何形状上可类似，但由于在摄像机属性、设置、光线条件等中差别的原因，可在它们之间存在相当大的色差。因此，在方框516，可估计在每个调整的投影蒙板内每个过滤的投影的目标图像与过滤的源图像之间的颜色映射。

现在参照图5B，过程500可在方框518通过应用从图5A的方框516产生的估计的颜色图到对应过滤的投影的目标图像以生成颜色调整的投影的目标图像。从方框518产生的颜色调整的投影的目标图像因而可具有与从方框508产生的过滤的源图像大致类似的颜色特性。

在方框520，可确定在每个颜色调整的投影的目标图像与过滤的源图像之间的强度差以产生差图，并且可混合差图以生成混合差图。在非限制性示例中，可将方框520的差图确定为在颜色调整的投影的目标图像与过滤的源图像之间强度的绝对差。在此类实现中，从方框520产生的混合差图可对应于差图像。在各种其它实现中，可采用不同的图像类似性度量，如互相关、互信息、强度差平方和、图像均匀性比率等。此外，在各种实现中，可在方框520比较所有颜色通道以提供在前景与背景颜色之间的更佳辨别。

在方框522，可应用低强度阈值和高强度阈值（即，双取阈值功能）到混合差图，并且可根据高阈值结果过滤低阈值结果以生成二值前景蒙板。在各种实现中，可使用已知技术（例如，参阅W. Sun和S. P. Spackman所著“通过立体声失配进行的多对象分割”("Multi-object segmentation by stereo mismatch," Machine Vision and Applications, Vol. 7 Issue 2 (October 2009)）进行方框522的双取阈。

过程500可方框524继续，在该方框，可通过在二值前景蒙板周围的区域中执行过滤的源图像和对应颜色调整的投影的目标图像的统计分析，细化从方框522产生的二值前景蒙板。可在每个投影蒙板内的每个二值前景蒙板上单独应用方框524的细化。

在各种实现中，在方框524进行的细化使用了前景区域往往是局部化并且良好关联的直观感觉，并且已知前景像素相邻的像素也可能是前景像素。在方框524的细化可涉及分析在前景和目标图像两者中已知前景像素周围的局部区域的统计。局部区域中的背景像素可在其统计在前景与目标图像之间差别相当大时添加到前景蒙板。例如，方框524的细化过程可考虑在标记为前景的每个像素的局部窗口（例如，5x5像素）。通过使用带有均值(μ)和标准偏差(σ)的正态分布，可为来自此窗口中每个颜色通道的像素建模。通过使用诸如最大似然估计等标准技术，可从前景和目标图像估计这些参数。随后，可在对应前景和背景像素均是分别来自这些前景和背景分布的样本的假设下，为此局部窗口中的每个像素定义色散的两个量度。前景和背景统计类似时，预期采用前景或背景分布计算的色散的量度是小量度，并且预期此条件适用于属于背景区域的像素。对于属于前景区域的像素，预期色散的两个量度均是大量度。

因此，由于方框524的原因，在分别采用前景和背景分布计算的色散的两个量度均超过某个阈值时，可将像素添加到前景蒙板。色散的量度可定义为跨颜色通道在前景与背景像素之间值的范围的最大概率。例如，基于分别来自前景和背景的样本像素[x_R,x_G,x_B]和[y_R,y_G,y_B]的色散（假设前景分布）可定义为前景分布占用跨所有颜色通道在前景与背景像素之间值的范围的最大概率：

。因此，CDF_Xi相应地表示在颜色通道i中前景分布的累积分布函数。类似量度m_Y可采用背景分布定义。在m _X和m _Y均超过某个阈值时，可将像素标记为前景。在各种实现中，m _X和m _Y的值可在0与1的范围之间，并且对应阈值可以是大约0.5。

在方框524的细化可在新添加到前景蒙板的像素上重复进行，直至达到迭代次数的最大限制，或者直至达到每迭代添加的像素数量的最小限制。此外，也可在不同颜色空间中执行方框524。例如，在源与目标图像之间存在相当大的光照差的情况下，在YCbCr颜色空间中执行细化可有利于最小化分类误差。

在方框526，可合并从方框524产生的细化的二值前景蒙板以生成二值前景蒙板。例如，在方框526可使用逻辑“或”操作，组合在方框524从不同平面获得的不同细化的二值前景蒙板。在方框528，可从过滤的源图像减除图层部分(floor portion)以生成图层前景蒙板。在各种实现中，可在诸如YCbCr等其它颜色空间中执行图层减除，减除只在Cb和Cr组成空间中执行以改进在源与目标图像之间光照更改的稳固性。在方框530，可将图层前景蒙板和来自方框526的二值前景蒙板合并以生成单个二值前景蒙板。随后，可在方框532对从方框530产生的前景蒙板进行中值过滤以去除由处理和合并不同平面结构形成的伪影。

现在参照图5C，过程500可在方框536继续，在该方框，可使用级联分类器和源图像的强度通道，在二值前景蒙板中检测矩形脸部区域。在各种实现中，可调谐在方框536进行的检测的参数以最小化错误肯定概率。在方框538，可初始化检测到的脸部区域内的像素，使得所有前景和背景像素指派有“可能前景”或“可能背景”的初始标签。在方框540，可将脸部区域的内部子集初始化为“前景”，并且将外部子集定义为“背景”。

随后，过程500可在方框542继续，在该方框，可执行基于颜色的分割以细化在方框540进行的脸部区域的标签指派并且生成二值脸部蒙板。在各种实现中，可使用诸如图形切割或诸如此类等已知技术进行方框542以生成脸部蒙板。

随后，过程在方框544继续，在该方框，可合并来自方框542的脸部蒙板和来自方框532的二值前景蒙板以产生单个二值前景蒙板。在各种实现中，可使用逻辑“或”操作合并蒙板以确保分割的图像包含目标图像中任何人的脸部。

过程500可在方框546继续，在该方框，可应用诸如连通组成分析（例如，参阅Azriel Rosenfeld和John L. Pfaltz所著“数字图像处理的有序操作”("Sequential Operations in Digital Picture Processing," J. ACM, vol. 13, no. 4, pp. 471-494, October 1966)）到来自方框544的二值前景蒙板以获得源图像中的组成。在各种实现中，方框546可包括滤除和去除小组成和/或在所有组成中填充以去除空洞。此外，方框546也可包括基于人体解剖模型和不同组成相对于最大组成（可能相对于躯干）的相对位置来去除组成。随后，过程500可在方框548结束，在该方框，可将最后的二值前景蒙板提供为过程500的输出。例如，图6示出使用从过程500产生的最后背景蒙板生成的示例分割的源图像600。从过程500产生的分割的源图像可存储在诸如图1的数据库108等网络可访问数据库中，并且可在该数据库中与从过程300产生的摄像机位姿相关联。

图7根据本公开内容的各种实现，示出示例3D模拟过程700的流程图。过程700可包括如图7的一个或几个方框702、704、706、708和710所示的一个或几个操作、功能或动作，并且可产生包含使用过程300和500从多个2D图像分割的共同背景部分和前景部分的环境的3D模拟。

过程700可从接收包括前景和背景部分的源图像开始（方框702），之后是通过比较源图像和3D环境的图像特征，确定摄像机位姿（方框704）。方框702和704可以本文中相对于过程300所述的方式进行。过程700可通过使用摄像机位姿从背景部分提取前景部分，生成分割的源图像（方框706），之后是在连网的数据库中存储分割的源图像和摄像机位姿（方框708）。方框706和708可以本文中相对于过程500所述的方式进行。

过程700可在方框710通过使用分割的源图像和相关联摄像机位姿提供虚拟3D环境中前景部分的模拟而结束。例如，系统100的显示引擎110可从数据库108检索分割的源图像和相关联摄像机位姿元数据。随后，显示引擎110可生成包括背影204的已知3D环境103的3D模型或模拟。随后，可响应相应摄像机位姿元数据，在其相应位置中渲染分割的源图像的前景部分。因此，可生成诸如3D照片浏览器等可导航3D环境，包括诸如已实时被协作捕捉的人和对象等前景部分或元素。例如，图8示出环境103的示例3D模拟800，包括分割的源图像的前景部分202和从也要进行本文中所述过程的另外源图像提取的前景部分802和804。

虽然如图5和7所示的示例过程500和700的实现可包括以所示顺序进行示出的所有方框，但本公开内容在此方面并无限制，并且在各种示例中，过程500和700的实现可包括只进行示出的所有方框的子集和/或以与所示不同的顺序进行。

另外，可响应一个或几个计算机程序产品提供的指令，进行图3、5和7的一个或几个过程和/或方框。此类程序产品可包括提供指令的信号承载媒体，指令在由例如一个或几个处理器核执行时，可提供本文中所述功能性。计算机程序产品可能计算机可读媒体的任何形式提供。因此，例如，响应由计算机可读媒体输送到处理器的指令，包括一个或几个处理器核的处理器可进行图3、5和7所示一个或几个方框。

图9示出根据本公开内容的示例系统900。系统900可用于执行本文中讨论的一些或所有各种功能，并且可包括能够进行本文中根据本公开内容的各种实现描述的过程的任何装置或装置的集合。例如，系统900可包括诸如台式、移动或平板计算机、智能电话、机顶盒等计算平台或装置的选择的组件，但本公开内容在此方面并无限制。在一些实现中，系统900可以是基于用于CE装置的Intel^®体系结构(IA)的计算平台或SoC。本领域技术人员将容易领会，在不脱离本公开内容的范围的情况下，能够通过备选处理系统使用本文中所述的实现。

系统900包括具有一个或几个处理器核904的处理器902。处理器核904可以是至少在一定程度上能够执行软件和/或处理数据信号的任何类型的处理器逻辑。在各种示例中，处理器核904可包括CISC处理器核、RISC微处理器核、VLIM微处理器核和/或实现指令集的任何组合的任何数量的处理器核或诸如数字信号处理器或微控制器等任何其它处理器装置。

处理器902也包括可用于将例如由显示处理器908和/或图形处理器910收到的指令解码成控制信号和/或微码进入点的解码器906。虽然在系统900中示为与核904不同的组件，但本领域技术人员可认识到，一个或多个核904可实现解码器906、显示处理器908和/或图形处理器910。在一些实现中，处理器902可配置成进行本文中所述的任何过程，包括相对于图3、5A-5C和7所述的示例过程。此外，响应控制信号和/或微码进入点，解码器906、显示处理器908和/或图形处理器910可执行对应操作。

处理器核904、解码器906、显示处理器908和/或图形处理器910可以通信方式和/或可操作方式通过系统互连916相互耦合和/或与各种其它系统装置耦合，这些装置可包括但不限于例如存储器控制器914、音频控制器918和/或外设920。外设920例如可包括统一串行总线(USB)主机端口、外设组件互连(PCI)快速端口、串行外设接口(SPI)接口、扩展总线和/或其它外设。虽然图9将存储器控制器914示为通过互连916耦合到解码器906和处理器908与910，但在各种实现中，存储器控制器914可直接耦合到解码器906、显示处理器908和/或图形处理器910。

在一些实现中，系统900可经I/O总线（也未示出）与未示出的各种I/O装置进行通信。此类I/O装置可包括但不限于例如通用异步接收器/传送器(UART)装置、USB装置、I/O扩展接口或其它I/O装置。在各种实现中，系统900可表示用于进行移动、网络和/或无线通信的系统的至少一些部分。

系统900可还包括存储器912。存储器912可以是诸如动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪存存储器装置或其它存储器装置等一个或几个离散存储器组件。虽然图9将存储器912示为在处理器902的外部，但在各种实现中，存储器912可以在处理器902的内部。存储器912可存储由数据信号表示的指令和/或数据，数据信号可由处理器902执行以进行本文中所述的任何过程，包括相对于图3、5A-5C和7所述的示例过程。在一些实现中，存储器912可包括系统存储器部分和显示存储器部分。

图10根据本公开内容的各种实现，示出示例图像分割过程1000的流程图。过程1000可包括如图10的一个或几个方框1002-1022所示的一个或几个操作、功能或动作。过程1000的各种方框将在本文中参照图5A、5B和5C的过程500进行描述。

过程1000可从方框1002开始，在该方框，可如上参照过程500的方框502和504所述，应用单应性矩阵到目标图像。在方框1004，可如上相对于过程500的方框506和508所述，执行源图像和投影的目标图像的低通过滤。在方式1006，可如上参照过程500的方框510、512和514所述，调整投影蒙板。在方框1008，可如上参照过程500的方框516和518所述，执行颜色映射。在方框1010，可如上参照过程500的方框520所述，执行图像差分化。

过程1000可在方框1012继续，在该方框，可如上参照过程500的方框522所述，执行双取阈，之后是如上参照过程500的方框524和526所述，执行颜色统计分析（方框1014）。在方框1016，可如上参照过程500的方框528和530所述，执行图层减除。在方框1018，可如上参照过程500的方框532所述，去除边界伪影。

过程1000可在方框1020继续，在该方框，可如上参照过程500的方框536、538、540、542和544所述，执行脸部区域分割细化。过程1000可在方框1022结束，在该方框，可如上参照过程500的方框546所述，执行连通组成分析。

上述系统和如本文中所述由它们执行的处理可在硬件、固件或软件或其任何组合中实现。另外，本文中公开的任何一个或几个特征可在硬件、软件、固件和其组合中实现，包括离散和集成电路逻辑、专用集成电路(ASIC)逻辑和微控制器，并且可实现为域特定的集成电路封装的一部分或集成电路封装的组合。在本文使用时，术语软件指计算机程序产品，包括其中存储有计算机程序逻辑以促使计算机系统执行本文中公开的一个或几个特征和/或特征的组合的计算机可读媒体。

虽然本文中陈述的某些特征已参照各种实现进行了描述，但描述并无限制意义。因此，本公开内容有关领域的技术人员明白本文中所述实现例的各种修改及其它实现，这些均应视为在本公开内容的精神和范围内。

Claims

1. 一种计算机实现的方法，包括：

接收源图像，所述源图像包括前景部分和背景部分，其中所述背景部分包括三维(3D)环境的图像内容；

通过比较所述源图像和所述3D环境的多个目标图像，确定所述源图像的摄像机位姿；

通过响应所述摄像机位姿将所述前景部分和所述背景部分分割，生成分割的源图像；以及

在连网的数据库中存储所述分割的源图像和所述摄像机位姿。

2. 如权利要求1所述的方法，其中确定所述摄像机位姿包括：

从所述源图像提取至少一个源图像视觉特征；

通过比较所述至少一个源图像视觉特征和所述多个目标图像，确定最佳匹配目标图像；以及

将所述源图像投影到与所述最佳匹配目标图像相关联的所述3D环境中的平面结构上，所述平面结构在所述3D环境中具有3D坐标。

3. 如权利要求2所述的方法，其中将所述源图像投影到所述平面结构上包括：

确定单应性矩阵；

使用所述单应性矩阵、内在摄像机标定矩阵和最小二乘重投影误差最小化技术求解旋转矩阵和平移矩阵；以及

应用所述旋转矩阵和所述平移矩阵到所述平面结构的所述3D坐标。

4. 如权利要求1所述的方法，其中将所述前景部分分割包括：

对于每个目标图像，应用单应性矩阵到所述目标图像以生成投影蒙板和投影的目标图像，所述投影蒙板指示所述源图像内所述目标图像的至少一些所述背景部分；

根据所述源图像对每个投影的目标图像进行颜色调整；

通过比较所述颜色调整的投影的目标图像和所述源图像，生成多个差图；以及

合并所述差图以生成混合差图。

5. 如权利要求4所述的方法，还包括：

应用双取阈到所述混合差图以生成多个第一二值前景蒙板；以及

通过执行所述源图像和所述颜色调整的投影的目标图像的统计分析，细化每个第一二值前景蒙板。

6. 如权利要求5所述的方法，其中通过执行所述源图像和所述颜色调整的投影的目标图像的统计分析，细化所述二值前景蒙板包括：

在至少一个本地窗口中按颜色通道分析所述源图像和所述颜色调整的投影的目标图像的统计；以及

在所述本地窗口中在每个像素指定至少两个色散量度；以及

在两个色散量度大于指定阈值时，添加像素到每个第一前景蒙板。

7. 如权利要求5所述的方法，还包括：

从所述过滤的源图像减除图层部分以产生图层蒙板；

混合所述多个第一细化前景蒙板和所述图层蒙板以产生第二二值前景蒙板；以及

应用中值过滤器到所述第二二值前景蒙板。

8. 如权利要求7所述的方法，还包括：

检测在所述第二二值前景蒙板中的脸部区域以生成脸部蒙板；

混合所述脸部蒙板和所述第二二值前景蒙板以生成第三二值前景蒙板；以及

应用连通组成分析到所述第三二值前景蒙板。

9. 如权利要求4所述的方法，其中根据所述源图像对每个投影的目标图像进行颜色调整包括：

通过比较每个投影的目标图像和所述源图像，生成差图；

应用固定阈值到所述差图以生成粗略分割的前景蒙板；

从所述投影蒙板减除所述粗略分割的前景蒙板以生成调整的投影蒙板；

在所述调整的投影蒙板内，估计从所述投影的目标图像到所述源图像的颜色映射；以及

在所述原投影蒙板内应用所述颜色映射到所述投影的目标图像以生成所述颜色调整的投影的目标图像。

10. 如权利要求1所述的方法，还包括：

使用所述摄像机位姿和分割的源图像以在虚拟3D环境中提供所述前景部分的模拟。

11. 一种系统，包括：

处理器和耦合到所述处理器的存储器，其中所述存储器中的指令配置所述处理器执行以下操作：

12. 如权利要求11所述的系统，其中配置所述处理器确定所述摄像机位姿的指令包括配置所述处理器执行以下操作的指令：

从所述源图像提取至少一个源图像视觉特征；

13. 如权利要求12所述的系统，其中配置所述处理器将所述源图像投影到所述平面结构上的指令包括配置所述处理器执行以下操作的指令：

确定单应性矩阵；

14. 如权利要求11所述的系统，其中配置所述处理器将所述前景部分分割的指令包括配置所述处理器执行以下操作的指令：

根据所述源图像对每个投影的目标图像进行颜色调整；

合并所述差图以生成混合差图。

15. 如权利要求14所述的系统，还包括配置所述处理器执行以下操作的指令：

16. 如权利要求15所述的系统，其中配置所述处理器通过执行所述源图像和所述颜色调整的投影的目标图像的统计分析，细化所述二值前景蒙板的指令包括配置所述处理器执行以下操作的指令：

在所述本地窗口中在每个像素指定至少两个色散量度；以及

17. 如权利要求15所述的系统，还包括配置所述处理器执行以下操作的指令：

从所述过滤的源图像减除图层部分以产生图层蒙板；

应用中值过滤器到所述第二二值前景蒙板。

18. 如权利要求17所述的系统，还包括配置所述处理器执行以下操作的指令：

应用连通组成分析到所述第三二值前景蒙板。

19. 如权利要求14所述的系统，其中配置所述处理器根据所述源图像对每个投影的目标图像进行颜色调整的指令包括配置所述处理器执行以下操作的指令：

通过比较每个投影的目标图像和所述源图像，生成差图；

应用固定阈值到所述差图以生成粗略分割的前景蒙板；

20. 如权利要求11所述的系统，还包括配置所述处理器执行以下操作的指令：

21. 一种包括其中存储有指令的计算机程序产品的制品，所述指令如果被执行，则引发以下操作：

22. 如权利要求21所述的制品，其中引发确定所述摄像机位姿的所述指令包括如果被执行，则引发以下操作的指令：

从所述源图像提取至少一个源图像视觉特征；

23. 如权利要求22所述的制品，其中引发将所述源图像投影到所述平面结构上的所述指令包括如果被执行，则引发以下操作的指令：

确定单应性矩阵；

24. 如权利要求21所述的制品，其中引发将所述前景部分分割的所述指令包括如果被执行，则引发以下操作的指令：

根据所述源图像对每个投影的目标图像进行颜色调整；

合并所述差图以生成混合差图。

25. 如权利要求24所述的制品，还包括如果被执行，则引发以下操作的指令：

26. 如权利要求25所述的制品，其中引发通过执行所述源图像和所述颜色调整的投影的目标图像的统计分析，细化所述二值前景蒙板的所述指令包括如果被执行，则引发以下操作的指令：

在所述本地窗口中在每个像素指定至少两个色散量度；以及

27. 如权利要求25所述的制品，还包括如果被执行，则引发以下操作的指令：

从所述过滤的源图像减除图层部分以产生图层蒙板；

应用中值过滤器到所述第二二值前景蒙板。

28. 如权利要求27所述的制品，还包括如果被执行，则引发以下操作的指令：

应用连通组成分析到所述第三二值前景蒙板。

29. 如权利要求24所述的制品，其中引发根据所述源图像对每个投影的目标图像进行颜色调整的所述指令包括如果被执行，则引发以下操作的指令：

通过比较每个投影的目标图像和所述源图像，生成差图；

应用固定阈值到所述差图以生成粗略分割的前景蒙板；

30. 如权利要求21所述的制品，还包括如果被执行，则引发以下操作的指令：