CN102982530A

CN102982530A - 生成深度图

Info

Publication number: CN102982530A
Application number: CN2012104011311A
Authority: CN
Inventors: 查尔斯·日特尼克; 辛·秉·康; 亚当·柯克; 克斯图提斯·帕蒂耶尤纳斯; 亚龙·埃谢; 大卫·埃雷克; 西蒙·温德
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-10-21
Filing date: 2012-10-19
Publication date: 2013-03-20
Also published as: EP2769551A2; EP2769551A4; WO2013059758A3; US9098908B2; US20130100256A1; WO2013059758A2

Abstract

本发明提供了用于生成深度图的方法和系统。所述方法（300）包括将红外（IR）点图案投影（302）到场景上。所述方法（300）还包括从两个或更多个同步IR摄像装置中的每个捕获（304）立体图像，检测（306）立体图像内的多个点，计算（308）关于立体图像中的点的多个特征描述符，以及计算（310）立体图像之间的视差图。所述方法（300）进一步包括使用视差图生成（312）场景的深度图。

Description

生成深度图

背景技术

立体视觉是通过比较出自两个不同的视点的关于场景的信息来从图像中提取三维信息。立体视觉是计算机视觉技术中的最重要的研究领域之一。使用传统的立体算法从彩色图像或RGB图像生成深度图。然而，这些算法在它们的效能方面受到场景中的相关特征的数量以及诸如场景内的亮度恒定的假设两者的限制。在一些情况下，可能难于从诸如没有图案的衬衫或者单色墙壁的纯色对象生成场景内的元素的深度图。此外，在诸如起居室内的、非演播室条件中，常常存在照明变化。

此外，用于主动深度感测的技术已通过使用结构化光从场景提取几何特征来改进深度估计方法。对于现有技术，诸如在来自微软公司（

Corporation）的Kinect^TM系统中提供的技术，结构化红外（IR）图案被投影到场景上并且被单个IR摄像装置拍照。基于光图案的变形，关于底层视频场景的几何信息可以被确定并且用于生成深度图。然而，尽管存在结构化光技术的优点，但是当同时使用多个模块对同一场景采样时，这些模块产生投影图案之间的干扰。此外，当多个模块尝试同时对同一场景采样时，可能存在与各个深度图的时间同步相关联的显著问题。此外，还可能难于正确地校准结构化光投影器或激光器。

发明内容

下文给出了创新的简要概述，以便提供这里描述的一些方面的基本理解。本概述并非是要求保护的主题内容的广泛的总结。本概述既非旨在标定要求保护的主题内容的关键的或重要的元素，也非旨在界定本创新的范围。其唯一目的在于以简化的形式给出要求保护的主题内容的一些概念，作为后面给出的更详细的描述的前言。

一个实施例提供了一种用于生成深度图的方法。该方法包括使用特定形式的结构化光，也就是将红外（IR）点图案投影到场景上。该方法还包括从两个或更多个同步IR摄像装置中的每个捕获立体图像。为了计算图像之间的视差图，该方法检测立体图像内的多个点并且计算关于立体图像中的点的多个特征描述符。在实施例中，视差图可以包括关于立体图像内的所有匹配点的视差值。该方法进一步包括使用视差图生成关于场景的完整的或部分的深度图。这里，每个模块将被称为主动IR立体模块。

另一实施例提供了一种用于生成深度图的立体模块系统。该立体模块系统包括被配置成处置多个主动IR立体模块的处理的处理器。每个主动IR立体模块包括被配置成将IR点图案投影到场景上的IR图案投影模块以及被配置成从两个或更多个时间同步IR摄像装置中的每个捕获立体图像的同步摄像装置模块。每个主动IR立体模块还包括被配置成识别立体图像内的多个点的点检测模块、被配置成计算关于立体图像中的点的多个特征描述符的特征描述模块、以及被配置成计算立体图像之间的视差图的视差计算模块。此外，每个主动IR立体模块包括被配置成使用视差图生成场景的深度图的深度图生成模块。

此外，另一实施例提供了用于存储计算机可读指令的一个或更多个非易失性计算机可读存储介质。当由一个或更多个处理模块执行时，计算机可读指令提供了用于生成深度图的立体模块系统。计算机可读指令包括被配置成将IR点图案投影到场景上并且从两个或更多个同步IR摄像装置捕获立体图像的代码。计算机可读指令还包括被配置成检测立体图像内的多个点，计算关于立体图像中的点的多个特征描述符，计算立体图像之间的视差图，以及使用视差图生成场景的深度图的代码。

本概述被提供用于以简要的形式介绍一组概念；下文在具体实施方式中进一步描述了这些概念。本概述述既非旨在标定要求保护的主题内容的关键特征或基本特征，也非旨在用于限制要求保护的主题内容的范围。

附图说明

图1是可用于生成场景的深度图的立体模块系统的框图；

图2是可用于生成场景的深度图的主动IR立体模块的示意图；

图3是示出了使用主动IR立体模块生成深度图的方法的处理流程图；

图4是一种可用于识别立体图像内的特征描述符的分格(binning)方法的示意图；

图5是另一种可用于识别立体图像内的特征描述符的分格方法的示意图；

图6是可用于生成场景的深度图的、通过同步信号连接的主动IR立体模块的系统的示意图；

图7是示出了用于根据来自多个主动IR立体模块的深度图的组合生成场景的构造视图的方法的处理流程图；以及

图8是示出了存储适于生成场景的深度图的代码的有形的计算机可读介质的框图。

在本公开和附图通篇中使用相同的附图标记表示相同的部件和特征。100系列中的数字指示最初出现在图1中的特征，200系列中的数字指示最初出现在图2中的特征，300系列中的数字指示最初出现在图3中的特征，如此等等。

具体实施方式

如上文讨论的，传统的立体算法在它们的效能方面受到场景中的相关特征的数量以及诸如场景内的亮度恒定的假设两者的限制。因此，这里描述的实施例被设计成对其中不存在亮度恒定假设的场景生成更准确的深度图。例如，对于诸如起居室的、其中常常存在不一致的照明的场景，以及在其中传统立体算法失效的低特征区域中，亮度恒定假设是不准确的。

这里公开的实施例阐述了一种使用主动IR立体模块来生成场景的深度图的方法和系统。如这里使用的，“主动IR立体模块”指的是这样一种成像模块，其利用立体观测来生成场景的三维深度图。立体观测是从两个或更多个不同的视角创建场景的三维（或“立体”）视图（或“观测”）的处理。通过使用用于来自不同视角的立体图像之间的视差检测的方法来生成深度图，可以获取场景的三维视图。

相似地，术语“立体视觉”指的是通过使用从已知视点取得的两个或更多个立体图像来确定图像的深度以恢复图像的第三维度。可以基于匹配或对应的立体图像内的点来确定立体图像的深度。一旦立体图像内的对应的点已被识别，则可以执行摄像装置的三角测量以恢复立体图像深度。三角测量是基于点到两个或更多个立体图像的投影来确定点在三维空间中的位置的处理。术语“主动立体视觉”指的是在投影到场景上的结构化光的帮助下的深度恢复。

术语“深度图”在三维计算机图形应用中常用于描述包含与从摄像装置视点到场景中的对象表面的距离相关的信息的图像。立体视觉使用可包括亮度的图像特征来估计立体视差。可以使用内在的和外在的摄像装置配置将视差图转换成深度图。根据当前方法，可以利用一个或更多个主动IR立体模块来创建场景的三维深度图。

在一个实施例中，主动IR立体模块可以包括投影随机红外（IR）点图案的结构化光投影器、一个或更多个RGB摄像装置、以及两个或更多个同步（例如，锁相）立体IR摄像装置。主动IR立体模块可用于使用IR点图案投影器将随机IR点图案投影到场景上并且使用两个或更多个锁相IR摄像装置捕获场景的立体图像。术语“锁相”常用于描述用于维持两个或更多个信号之间的时间相干性，即信号之间的同步的技术。

可以检测立体图像内的点，并且可以计算点的多个特征描述符。特征描述符可以提供来自两个或更多个锁相摄像装置的立体图像的比较的起始点并且可以包括所关注的立体图像内的点。例如，可以对一个立体图像内的特定点进行分析并且将其与另一时间相干立体图像内的相应的点进行比较。

可以使用传统的立体技术计算两个或更多个立体图像之间的视差图，并且可以利用视差图生成场景的深度图。如这里使用的，“视差图”指的是跨越两个或更多个立体图像的像素偏移分布。视差图可用于测量从两个或更多个不同的对应视点捕获的立体图像之间的像素偏移。此外，可以使用简单算法将视差图转换成深度图。

应当注意，当前方法不限于使用IR点图案投影器或者IR摄像装置。相反，可以使用投影诸如点、三角形、栅格等的可识别特征的任何类型的图案投影器。此外，可以使用能够检测投影到场景上的特征的存在的任何类型的摄像装置。

一个实施例提供了一种通过同步信号连接的多个主动IR立体模块的系统。该系统可以包括任意数目的多个主动IR立体模块，每个主动IR立体模块包括两个或更多个锁相摄像装置。多个主动IR立体模块的系统可用于从不同的位置或视角生成场景的深度图。

可以使用主动IR立体模块之间的同步信号使多个主动IR立体模块的系统锁相。同步信号可以是导致主动IR立体模块的时间相干性的任何信号。在该实施例中，主动IR立体模块的时间相干性确保所有主动IR立体模块在同一时刻操作，使得来自主动IR立体模块的立体图像将直接彼此相关。

一旦所有主动IR立体模块已确认接收到同步信号，则每个主动IR立体模块可以根据上文参照单个立体模块系统描述的方法来生成深度图。可以根据来自多个主动IR立体模块的深度图的组合来创建场景的构造视图。该构造视图可以提供场景的准确的三维视图。

在一个实施例中，上述多个主动IR立体模块的系统利用基于具有随机IR点图案的形式的结构化光的算法，该随机IR点图案被投影到场景上并且通过两个或更多个锁相立体IR摄像装置记录以生成深度图。在使用另加的主动IR立体模块记录同一场景时，从每个主动IR立体模块中的IR摄像装置构造性地观察多个随机IR点图案。这是可能的，因为在将更多的主动IR立体模块添加到记录阵列时，多个主动IR立体模块不会遇到干扰。

由于随机IR点图案的性质，消除了主动IR立体模块之间的干扰的问题。每个主动IR立体模块不会尝试使摄像装置检测到的随机IR点图案与投影到场景上的特定图案匹配。相反，每个模块观测作为投影到场景上的随机图案的当前点图案。因此，尽管正投影到场景上的当前点图案可以是来自多个随机IR点图案投影器的随机IR点图案的组合，但是由于没有将点图案与任何标准点图案进行比较，因此实际点图案是不相关的。因此，这允许在不出现干扰的情况下使用多个主动IR立体模块对同一场景进行成像。仅当主动IR立体模块的数目变得如此之大以致使得点密度过高，并且许多点开始重叠时，才可能出现干扰。

如前面针对单个立体模块系统的情况说明的，前述实施例也不限于使用随机IR点图案投影器或IR摄像装置。相反，可以使用投影诸如点、三角形、栅格等的可识别特征的任何类型的图案投影器。此外，可以使用能够检测投影到场景上的特征的存在的任何类型的摄像装置。

作为预备内容，一些附图在一个或多个结构部件的背景下描述了概念，这些结构部件被不同地称为功能、模块、特征、元件等。附图中示出的各个部件可以通过任何方式实施，例如通过软件、硬件（例如，离散逻辑部件等）、固件等实施，或者可以通过这些实施方式的任何组合来实施。在一个实施例中，各个部件可以反映实际实施方式中的相应的部件的使用。在其他实施例中，附图中图示的任何单个部件可以由多个实际部件实施。附图中示出的任何两个或更多个分离部件可以反映由单个实际部件执行的不同功能。下文讨论的图1提供了关于可用于实施附图中所示的功能的一个系统的细节。

其他附图以流程图的方式描述了概念。在该形式中，某些操作被描述为构成按特定顺序执行的不同的块。这些实施方式是示例性的和非限制性的。这里描述的某些块可以被编组在一起并且在单个操作中执行，某些块可以被分拆成多个部件块，并且某些块可以按照与这里说明的顺序不同的顺序执行，这包括并行执行块的方式。流程图中所示的块可以通过软件、硬件、固件、手动处理等实施，或者可以通过这些实施方式的任何组合实施。如这里使用的，硬件可以包括计算机系统、诸如专用集成电路（ASIC）的离散逻辑部件等，以及它们的任何组合。

对于术语的使用，习语“被配置成”涵盖能够构造任何类型的功能来执行所述操作的任何方式。功能可以被配置成使用例如软件、硬件、固件等或者它们的任何组合来执行操作。

术语“逻辑”涵盖用于执行任务的任何功能。例如，流程图中所示的每个操作对应于用于执行该操作的逻辑。可以使用例如软件、硬件、固件等或者它们的任何组合来执行操作。

如这里使用的，术语“部件”、“系统”、“客户端”等旨在表示计算机相关实体，即硬件、软件（例如，在执行中）和/或固件，或者它们的组合。例如，部件可以是在处理器上运行的过程、对象、可执行程序、程序、函数、库、子程序、和/或计算机或者软件和硬件的组合。

作为说明，在服务器上运行的应用以及服务器两者可以为部件。一个或更多个部件可以驻留在过程内，并且部件可以局限在一台计算机上和/或分布在两台或更多台计算机之间。术语“处理器”通常被理解成表示硬件部件，诸如计算机系统的处理单元。

此外，要求保护的主题内容可以被实施为方法、装置或者制造物品，其使用标准的编程和/或工程技术来产生软件、固件、硬件或者它们的任何组合以控制计算机实施所公开的主题内容。如这里使用的术语“制造物品”旨在涵盖能够从任何非暂态计算机可读设备或介质访问的计算机程序。

非暂态计算机可读存储介质可以包括但不限于磁存储设备（例如，硬盘、软盘和磁带等）、光盘（例如，致密盘（CD）和数字多用途光盘（DVD）等）、智能卡、以及闪速存储器设备（例如，卡、棒和密钥驱动器等）。相反，计算机可读介质通常（即，不一定是存储介质）可以额外地包括诸如用于无线信号的传输介质等的通信介质。

图1是可用于生成场景的深度图的立体模块系统100的框图。该立体模块系统100可以包括适于执行所存储的指令的处理器102，以及存储可由处理器执行的指令的存储器设备104。处理器102可以是单核处理器、多核处理器、计算集群、或者任何数目的其他配置。存储器设备104可以包括随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器或者任何其他适当的存储器系统。这些指令实施了包括如下处理的方法：将随机IR点图案投影到场景上，从两个或更多个锁相摄像装置中的每个捕获立体图像，检测立体图像内的多个点，计算关于立体图像中的多个点的多个特征描述符，计算立体图像之间的视差图，以及使用视差图生成场景的深度图。处理器102通过总线106连接到一个或更多个输入和输出设备。

立体模块系统100还可以包括存储设备108，其适于存储主动立体算法110以及由系统100生成的深度图112。存储设备108可以包括硬盘驱动器、光盘驱动器、拇指型驱动器（thumbdrive）、驱动器阵列或者它们的任何组合。网络接口控制器114可以适于通过总线106将立体模块系统100连接到网络116。通过网络116，电子文本和成像输入文档118可以被下载并且存储在计算机的存储系统108内。此外，立体模块系统100可以在网络106上传输深度图或RGB图像。

立体模块系统100可以通过总线106链接到显示接口120，显示接口102适于将系统100连接到显示设备122，其中显示设备122可以包括立体3D显示器、计算机监视器、摄像装置、电视机、投影器、虚拟现实显示器、或者移动设备等等。立体模块系统100内的人机接口124可以将系统连接到键盘126和定点设备128，其中定点设备128可以包括鼠标、轨迹球、触摸面板、操纵杆、指点杆、触笔、或者触摸屏等等。还应当注意，立体模块系统100可以包括任何数目的其他部件，包括适于将立体模块系统100连接到打印设备的打印接口或者适于将立体模块系统100连接到游戏设备的游戏接口等等。

立体模块系统100还可以通过总线106链接到随机点图案投影器接口130，随机点图案投影器接口130适于将立体模块系统100连接到随机点图案投影器132。此外，摄像装置接口134可以适于将立体模块系统100连接到三个或更多个锁相摄像装置136，其中三个或更多个锁相摄像装置可以包括至少两个IR摄像装置和至少一个RGB摄像装置。在一个实施例中，立体模块系统100可以根据具体应用连接到任意数目的额外的IR摄像装置或RGB摄像装置。

随机点图案投影器132以及三个或更多个锁相摄像装置136可以包括在主动IR立体模块138内。在一个实施例中，立体模块系统100可以一次连接到多个主动IR立体模块138。在另一实施例中，每个立体模块可以连接到单独的立体模块系统100。换言之，任意数目的立体模块系统100可以连接到任意数目的主动IR立体模块138。在一个实施例中，每个主动IR立体模块138可以包括模块上的本地存储设备，使得每个主动IR立体模块可以在本地存储独立的场景视图。此外，在另一实施例中，整个系统100可以包括在主动IR立体模块138内。任意数目的额外的主动IR立体模块也可以通过网络116连接到主动IR立体模块138。

图2是可用于生成场景的深度图的主动IR立体模块202的示意图200。如所提到的，主动IR立体模块202可以包括两个IR摄像装置204和206、RGB摄像装置208、以及随机IR点图案投影器210。IR摄像装置204和206以及RGB摄像装置208可以被锁相或同步。IR摄像装置204和206以及RGB摄像装置208的锁相确保了摄像装置时间相干，使得捕获的立体图像直接彼此相关。此外，除了两个IR摄像装置204和206之外，还可以将任意数目的IR摄像装置添加到主动IR立体模块202。再者，主动IR立体模块202不限于使用IR摄像装置，因为在主动IR立体模块202内可以利用许多其他类型的摄像装置。此外，除了RGB摄像装置208之外，还可以使用任意数目的额外的RGB摄像装置。

RGB摄像装置208可用于通过获取三个不同颜色的信号，即红色、绿色和蓝色，来捕获场景的彩色图像。除了一个RGB摄像装置208之外，还可以将任意数目的额外的RGB摄像装置添加到主动IR立体模块202。对于诸如自由视点视频（FVV）、远程呈现或医疗成像应用的许多应用，RGB摄像装置208的输出可以向深度图提供有用的补充。

随机IR点图案投影器210可用于将随机IR点图案212投影到场景214上。此外，随机IR点图案投影器210可以被替换成具有不同图案的任何其他类型的投影器。

两个锁相IR摄像装置204和206可用于捕获场景的图像，包括IR点的随机图案212。可以根据下文在图3中描述的方法来分析来自两个IR摄像装置204和206的图像以生成场景的深度图。

图3是示出了使用主动IR立体模块生成深度图的方法300的处理流程图。在块302，将随机IR点图案投影到场景上。随机IR点图案可以是主动IR立体模块内的投影器生成的IR激光点图案。随机IR点图案也可以是由场景附近的任何模块投影的任何其他类型的图案。

在块304，可以从主动IR立体模块内的两个或更多个立体摄像装置捕获立体图像。立体摄像装置可以是如上文讨论的IR摄像装置，并且可以被锁相以确保立体摄像装置时间相干。在块304捕获的立体图像可以包括来自块302的所投影的随机IR点图案。

在块306，可以检测立体图像内的点。点的检测可以在立体模块系统100内执行。具体地，可以由立体模块系统100内的点检测器处理立体图像以识别立体图像内的各个点。点检测器还可以通过处理点中心来达到子像素精度。

在块308，可以计算关于在立体图像内检测到的点的特征描述符。可以使用多个不同的方法计算特征描述符，包括如下文参照图4和5描述的若干不同的分箱方法。特征描述符可用于匹配立体图像之间的相似特征。

在块310，可以计算立体图像之间的视差图。可以使用诸如参照图1讨论的主动立体算法的传统立体技术来计算视差图。特征描述符还可用于创建视差图，该视差图可以根据立体图像内的相应的点的识别来以图的形式表示立体图像之间的相似性。

在块312，可以使用来自块310的视差图生成深度图。也可以使用诸如参照图1讨论的主动立体算法的传统立体技术来计算深度图。深度图可以表示场景的三维视图。应当注意，该流程图并非旨在指示方法步骤应按照任何特定的顺序执行。

图4是一种可用于识别立体图像内的特征描述符的分格方法400的示意图。分格方法400利用施加于立体图像的二维栅格。立体图像内的点可以被分配到给定格子内的特定坐标位置。这可以允许基于相邻点的坐标来识别各个点的特征描述符。

图5是另一种可用于识别立体图像内的特征描述符的分格方法500的示意图。该分格方法500利用同心圆和栅格，例如极坐标系统，其形成了另一二维格子框架。选择栅格的中心点，并且每个格子可以通过其与选定轴所成的角度以及其距中心点的距离来定位。在格子内，点可以由它们的空间位置、强度或径向位置来表征。对于空间定位，格子可以在无歧义的情况下由内部点的硬计数来表征，或者可以由可在格子之间重叠的点的软计数来表征。对于强度调制，可以评估特定格子内的所有点的总亮度，或者可以计算强度直方图。此外，在特定格子内，可以基于特定点和相邻点之间的距离和参考角度来确定每个点的径向描述符。

尽管图4和图5图示了两种可用于识别立体图像中的特征描述符的分格方法，但是应注意，可以使用任何其他类型的分格方法。此外，也可以使用与分格无关的、用于识别特征描述符的其他方法。

图6是可用于生成场景608的深度图的、通过同步信号606连接的主动IR立体模块602和604的系统600的示意图。应当注意，除了两个主动IR立体模块602和604之外，系统还可以采用任意数目的主动IR立体模块。此外，如上文参照图2讨论的，每个主动IR立体模块602和604可以包括两个或更多个立体摄像装置610、612、614和616，一个或更多个RGB摄像装置618和620，以及随机IR点图案投影器622和624。

主动IR立体模块602和604的随机IR点图案投影器622和624中的每个可用于将随机IR点图案626投影到场景608上。然而，应当注意，并非每个主动IR立体模块602和604必须包括随机IR点图案投影器622和624。可以从任意数目的主动IR立体模块或者从与主动IR立体模块独立的任意数目的单独的投影模块将任意数目的随机IR点图案投影到场景上。

主动IR立体模块602和604之间的同步信号606可用于使主动IR立体模块602和604锁相，使得它们在同一时刻操作。根据来自图3的上述方法，可以生成关于每个主动IR立体模块602和604的深度图。如下文参照图7讨论的，主动IR立体模块的深度图可以组合以生成来自多个视点的场景608的构造视图。

图7是示出了用于根据来自多个主动IR立体模块的深度图的组合来生成场景的构造视图的方法700的处理流程图。在块702，将随机IR点图案投影到场景上。随机IR点图案可以是由主动IR立体模块内的投影器生成的IR激光点图案。随机IR点图案也可以是由场景附近的任何模块投影的、任何其他类型的点图案。此外，系统内的任意数目的多个主动IR立体模块可以同时投影随机IR点图案。如上文讨论的，由于点图案的随机性质，投影到场景上的多个点图案的重叠将不会引起干扰问题。

在块704，可以生成同步信号。同步信号可用于多个主动IR立体模块的锁相。这确保了主动IR立体模块的时间相干性。此外，同步信号可以由一个中心模块生成并且发送到每个主动IR立体模块，可以由一个主动IR立体模块生成并且发送到所有其他主动IR立体模块，可以由每个主动IR立体模块生成并且发送到每个其他主动IR立体模块，如此等等。还应当注意，可以使用软件或硬件锁相来维持主动IR立体模块之间的时间相干性。在块706，可以通过证实每个主动IR立体模块接收到同步信号来确认主动IR立体模块的锁相。

在块708，每个主动IR立体模块可以根据参照图3描述的方法来生成场景的深度图。在块710，通过形成来自各个主动IR立体模块的深度图的组合，可以生成场景的构造视图。该构造视图可以提供在同一时刻记录的、来自多个视角或者多个主动IR立体模块的场景的表示。在一个实施例中，该方法700可用于生成移动物体在三维空间中的准确表示。此外，在一个实施例中，当前系统和方法可用于实时地生成场景的构造视图，而在另一实施例中，可以在主动IR立体模块记录了场景之后异步地生成场景的构造视图。应当注意，该流程图并非旨在指示方法步骤应按特定的顺序执行或者在每种情况下必须包括所有步骤。例如，在主动IR立体模块的具体配置先前已确认接收到同步信号的情况下，由于主动IR立体模块之间的关系已建立，因此可以删除步骤706。

图8是示出了存储适于生成场景的深度图的代码的有形的计算机可读介质800的框图。处理器802可以在计算机总线804上访问有形的计算机可读介质800。此外，有形的计算机可读介质800可以包括被配置成引导处理器802执行当前方法的步骤的代码。

这里讨论的各个软件部件可以存储在如图8中所示的有形的计算机可读介质800上。例如，随机IR点图案投影器806可用于将随机IR点图案或任何其他类型的点图案投影到场景上。锁相摄像装置模块808可用于使两个或更多个IR摄像装置或者能够对随机IR点图案成像的任何其他类型的摄像装置锁相或同步。点检测模块810可用于检测来自锁相摄像装置的立体图像内的点。特征描述模块812可用于识别立体图像中的点的特征描述符，并且视差图计算模块814可以使用来自特征描述模块812的结果来计算立体图像之间的视差图。深度图生成模块816可用于使用来自视差图计算模块814的结果来生成场景的深度图。

当前系统和方法可用于多种应用。在一个实施例中，当前系统和方法可用于捕获新形式的媒体，例如自由视点媒体。在另一实施例中，当前系统和方法可用于远程会议用途。例如，将多个主动IR立体模块用于远程会议可以允许位于分离位置的人有效地感觉如同他们物理上在一起。

在又一实施例中，当前系统和方法可用于游戏应用。例如，使用多个主动IR立体模块可以允许正在从分离的位置一起玩游戏的多个人的准确的三维渲染。由主动IR立体模块捕获的动态实时数据可用于产生这样的体验，其中玩游戏的人可能能够虚拟地看到正在从分离的位置玩游戏的其他人的三维图像。使用多个主动IR立体模块从不同的视点对场景成像的可能性还可以允许场景的完整表面特征的准确表示。

尽管以结构特征和/或方法动作特有的语言描述了主题内容，但是应当理解，所附权利要求中限定的主题内容不一定限于上述具体特征或动作。相反，上述具体特征和动作被公开作为实施权利要求的示例形式。

此外，本发明的技术方案还包括但不限于：

方案1.一种用于生成深度图的方法，包括：

将红外IR点图案投影到场景上；

从两个或更多个同步IR摄像装置中的每个捕获立体图像；

检测所述立体图像内的多个点；

计算与所述立体图像中的所述多个点对应的多个特征描述符；

计算所述立体图像之间的视差图；以及

使用所述视差图生成所述场景的深度图。

方案2.根据方案1所述的方法，进一步包括生成关于两个或更多个主动IR立体模块中的每个的深度图，其中每个主动IR立体模块包括IR投影器、两个或更多个同步IR摄像装置、一个或更多个同步RGB摄像装置、或者它们的任何组合。

方案3.根据方案2所述的方法，包括使用同步信号使所述两个或更多个主动IR立体模块锁相，其中使所述两个或更多个主动IR立体模块锁相包括使所述两个或更多个主动IR立体模块内的所有摄像装置锁相。

方案4.根据方案2所述的方法，包括组合关于所述两个或更多个主动IR立体模块中的每个的深度图以创建所述场景的构造视图。

方案5.根据方案2所述的方法，包括从所述两个或更多个主动IR立体模块中的任意数目的主动IR立体模块将多个IR点图案投影到所述场景上。

方案6.根据方案5所述的方法，包括将所述多个IR点图案用作一个相互有贡献的IR点图案。

方案7.根据方案1所述的方法，包括从两个或更多个同步IR摄像装置、一个或更多个同步RGB摄像装置或者它们的任何组合中的每个捕获立体图像。

方案8.根据方案1所述的方法，其中计算与所述立体图像中的所述多个点对应的所述多个特征描述符包括使用分格方法来匹配所述立体图像内的相应的点之间的相似性。

方案9.根据方案1所述的方法，包括使用关于每个立体图像中的所述多个点的所述多个特征描述符之间的差来计算所述立体图像之间的视差图。

方案10.一种用于生成深度图的立体模块系统，包括：

处理器，被配置成实施主动IR立体模块，其中所述主动IR立体模块包括：

红外IR图案投影模块，被配置成将IR点图案投影到场景上；

同步摄像装置模块，被配置成从两个或更多个时间同步的IR摄像装置中的每个捕获立体图像；

点检测模块，被配置成识别所述立体图像内的多个点；

特征描述模块，被配置成计算与所述立体图像中的所述多个点对应的多个特征描述符；

视差计算模块，被配置成计算所述立体图像之间的视差图；以及

深度图生成模块，被配置成使用所述视差图生成所述场景的深度图。

方案11.根据方案10所述的立体模块系统，进一步包括：

多视深度生成模块，被配置成生成关于两个或更多个同步主动IR立体模块中的每个的深度图；以及

深度图组合模块，被配置成组合来自所述两个或更多个主动IR立体模块中的每个的所述深度图以创建所述场景的构造视图。

方案12.根据方案11所述的多视深度生成模块，其中使用投影到所述场景上的多个IR点图案的组合来获得关于所述两个或更多个同步主动IR立体模块中的每个的所述深度图。

方案13.根据方案11所述的深度图组合模块，其中所述场景的所述构造视图包括所述场景的三维视图。

方案14.根据方案10所述的立体模块系统，其中所述同步摄像装置模块包括时间同步RGB摄像装置。

方案15.根据方案10所述的立体模块系统，其中所述视差计算模块被配置成使用与所述立体图像中的所述多个点对应的所述多个特征描述符之间的差来计算所述立体图像之间的所述视差图。

方案16.用于存储计算机可读指令的一个或更多个非易失性计算机可读存储介质，所述计算机可读指令在由一个或更多个处理模块执行时提供用于生成深度图的立体模块系统，所述计算机可读指令包括被配置成执行如下操作的代码：

将红外IR点图案投影到场景上；

从两个或更多个同步IR摄像装置捕获立体图像；

检测所述立体图像内的多个点；

计算所述立体图像之间的视差图；以及

使用所述视差图生成所述场景的深度图。

方案17.根据方案16所述的非易失性计算机可读存储介质，其中所述计算机可读指令包括被进一步配置成执行如下操作的代码：

生成关于两个或更多个同步主动IR立体模块中的每个的深度图；以及

组合关于所述两个或更多个主动IR立体模块中的每个的所述深度图以创建所述场景的构造视图。

方案18.根据方案17所述的非易失性计算机可读存储介质，其中生成关于两个或更多个同步主动IR立体模块中的每个的深度图包括使用投影到所述场景上的多个IR点图案的组合。

方案19.根据方案17所述的非易失性计算机可读存储介质，其中组合关于所述两个或更多个主动IR立体模块中的每个的所述深度图以创建所述场景的构造视图包括实时地生成所述场景的构造视图。

方案20.根据方案16所述的非易失性计算机可读存储介质，其中计算与所述立体图像中的所述多个点对应的多个特征描述符包括使用关于每个立体图像中的所述多个点的所述多个特征描述符之间的差。

Claims

1.一种用于生成深度图（112）的方法（300），包括：

将红外IR点图案（212，626）投影（302）到场景（214，608）上；

从两个或更多个同步IR摄像装置（136，204，206，610，612，614，616）中的每个捕获（304）立体图像；

检测（306）所述立体图像内的多个点；

计算（308）与所述立体图像中的所述多个点对应的多个特征描述符；

计算（310）所述立体图像之间的视差图；以及

使用所述视差图生成（312）所述场景（214，608）的深度图（112）。

2.根据权利要求1所述的方法（300），进一步包括生成关于两个或更多个主动IR立体模块（138，202，602，604）中的每个的深度图（112），其中每个主动IR立体模块（138，202，602，604）包括IR投影器（132，210，622，624）、两个或更多个同步IR摄像装置（136，204，206，610，612，614，616）、一个或更多个同步RGB摄像装置（136，208，618，620）、或者它们的任何组合。

3.根据权利要求2所述的方法（300），包括使用同步信号使所述两个或更多个主动IR立体模块（138，202，602，604）锁相，其中使所述两个或更多个主动IR立体模块（138，202，602，604）锁相包括使所述两个或更多个主动IR立体模块（138，202，602，604）内的所有摄像装置（136，204，206，208，610，612，614，616，618，620）锁相。

4.根据权利要求2所述的方法（300），包括组合关于所述两个或更多个主动IR立体模块（138，202，602，604）中的每个的深度图（112）以创建所述场景（214，608）的构造视图。

5.根据权利要求2所述的方法（300），包括从所述两个或更多个主动IR立体模块（138，202，602，604）中的任意数目的主动IR立体模块将多个IR点图案（212，626）投影到所述场景（214，608）上。

6.根据权利要求1所述的方法（300），包括从两个或更多个同步IR摄像装置（136，204，206，610，612，614，616）、一个或更多个同步RGB摄像装置（136，208，618，620）或者它们的任何组合中的每个捕获立体图像。

7.根据权利要求1所述的方法（300），其中计算与所述立体图像中的所述多个点对应的所述多个特征描述符包括使用分格方法来匹配所述立体图像内的相应的点之间的相似性。

8.一种用于生成深度图（112）的立体模块系统（100），包括：

处理器（102，802），被配置成实施主动IR立体模块（138，202，602，604），其中所述主动IR立体模块（138，202，602，604）包括：

红外IR图案投影模块（806），被配置成将IR点图案（212，626）投影到场景（214，608）上；

同步摄像装置模块（808），被配置成从两个或更多个时间同步的IR摄像装置（136，204，206，610，612，614，616）中的每个捕获立体图像；

点检测模块（810），被配置成识别所述立体图像内的多个点；

特征描述模块（812），被配置成计算与所述立体图像中的所述多个点对应的多个特征描述符；

视差计算模块（814），被配置成计算所述立体图像之间的视差图；以及

深度图生成模块（816），被配置成使用所述视差图生成所述场景（214，608）的深度图（112）。

9.根据权利要求8所述的立体模块系统（100），进一步包括：

多视深度生成模块，被配置成生成关于两个或更多个同步主动IR立体模块（138，202，602，604）中的每个的深度图（112）；以及

深度图组合模块，被配置成组合来自所述两个或更多个主动IR立体模块（138，202，602，604）中的每个的所述深度图（112）以创建所述场景（214，608）的构造视图。

10.根据权利要求9所述的立体模块系统（100），其中所述多视深度生成模块使用投影到所述场景（214，608）上的多个IR点图案（212，626）的组合来获得关于所述两个或更多个同步主动IR立体模块（138，202，602，604）中的每个的所述深度图（112）。