CN109922255A

CN109922255A - 用于生成实时深度图的双相机系统

Info

Publication number: CN109922255A
Application number: CN201811509919.8A
Authority: CN
Inventors: 吴东晖
Original assignee: Black Sesame International Holding Ltd
Current assignee: Black sesame Intelligent Technology (Chengdu) Co.,Ltd.
Priority date: 2017-12-12
Filing date: 2018-12-11
Publication date: 2019-06-21
Anticipated expiration: 2038-12-11
Also published as: US20190182475A1; US10375378B2; CN109922255B

Abstract

一种在双相机系统中生成实时深度图的方法，包括接收自动对焦图像，校正自动对焦图像，接收具有覆盖2×2像素的镜头的全光图像，提取四个全光子图像，对全光子图像进行平均和校正，沿极线对校正的自动对焦图像和校正的全光子图像进行块匹配，沿垂直方向和水平方向对校正的全光子图像进行块匹配，确定全光块匹配的复合块匹配误差，基于复合块匹配误差确定全光子图像的全光视差图，将全光视差图转换为全光深度图，将全光深度图转换为初始立体视差图，基于初始立体视差图和极线块匹配，搜索制导视差图并将制导视差图转换为制导深度图。

Description

用于生成实时深度图的双相机系统

技术领域

本公开涉及数字摄影，并且更具体地涉及使用自动对焦相机和全光相机(plenoptic camera)的相机对焦。

背景技术

周围环境的实时深度图目前正在机器人技术和消费电子产品中应用。深度图可通过使用获得彩色深度图的立体相机和光场相机来实现。

发明内容

在一个实施例中，一种在双相机系统中生成实时深度图的方法，包括：从自动对焦相机模块接收自动对焦图像，将自动对焦图像转换为单色，校正经转换的自动对焦图像，从具有覆盖2×2像素的镜头的全光相机模块接收固定焦距图像并输出多个全光子图像(plenoptic sub-image)，从多个全光子图像中提取四个全光子图像，对提取的全光子图像进行平均，校正经平均的全光子图像，沿着极线(epipolar line)对校正的自动对焦图像和校正的全光子图像进行块匹配，输出极线块匹配(epipolar block match)，沿垂直方向对校正的全光子图像进行块匹配，输出垂直全光块匹配，沿水平方向对校正的全光子图像进行块匹配，输出水平全光块匹配，确定垂直全光块匹配和水平全光块匹配的复合块匹配误差，基于复合块匹配误差确定提取的全光子图像的全光视差图，将全光视差图转换为全光深度图，将全光深度图转换为初始立体视差图，基于初始立体视差图和极线块匹配搜索制导(guided)视差图，并将制导视差图转换为制导深度图。

在另一个实施例中，具有实时深度图生成功能的双相机系统，包括：输出自动对焦图像的自动对焦相机模块、单色全光相机模块，其中全光镜头覆盖2×2像素，输出多个全光子图像，其中全光相机模块是固定焦距的，处理器耦合到自动对焦相机模块和全光相机模块，其中处理器将自动对焦图像转换为单色，校正经转换的自动对焦图像，从全光相机模块接收四个全光子图像，对来自固定焦距图像的四个全光子图像进行平均，校正经平均的四个全光子图像，并且沿着极线对校正的自动对焦图像和校正的全光子图像进行块匹配。

在又一实施例中，具有实时深度图生成功能的双相机立体系统，包括输出自动对焦图像的自动对焦相机模块，单色全光相机模块，其中全光镜头覆盖2×2像素并输出多个全光子图像，并且其中全光相机模块是固定焦距的，处理器耦合到自动对焦相机模块和全光相机模块，其中处理器从多个全光子图像中提取四个全光子图像，沿着垂直方向对四个全光子图像进行块匹配，输出垂直全光块匹配，沿水平方向对四个全光子图像进行块匹配，输出水平全光块匹配，确定垂直全光块匹配和水平全光块匹配的复合块匹配误差，基于复合块匹配误差确定四个全光子图像的全光视差图，基于复合块匹配误差确定四个全光子图像的全光置信度图(plenoptic confidence map)，并将全光视差图转换为全光深度图。

附图说明

在附图中：

图1是根据本公开的一个实施例的系统图；

图2是示出根据本公开的一个实施例的立体视觉布局的系统图；

图3是根据本公开的一个实施例的立体视觉布局中的遮挡的描绘；

图4是根据本公开的一个实施例的简化的全光相机布局的描述；

图5是根据本公开的一个实施例的视差与几何关系；

图6是根据本公开的一个实施例的在全光系统中进行深度图恢复的第一流程图；以及

图7是根据本公开的一个实施例的由全光深度图制导的进行立体深度图恢复的第二流程图。

具体实施方式

下面列出的实施例仅仅是为了说明该装置和方法的应用，而不是为了限制范围。对该装置和方法的等同形式的修改应被分类在权利要求的范围内。

在以下说明书和权利要求中通篇使用某些术语来指代特定的系统部件。如本领域技术人员将理解的是，不同的公司可以用不同的名称指代部件和/或方法。本文不意图区分名称不同但功能相同的部件和/或方法。

在以下讨论和权利要求中，术语“包含”和“包括”以开放式方式使用，因此应当解释为意指“包括，但不限于……”。还有，术语“耦合(couple或couples)”意指间接的或直接的连接。因此，如果第一设备耦合到第二设备，则该连接可以通过直接连接或通过经由其它设备和连接的间接连接。

图1描绘了与具有双相机的系统结合使用的示例电子系统。电子系统100可以是计算设备，用于执行与过程600或700的一个或多个部分或步骤的操作相关联的，或者与图6-图7所提供的部件和过程相关联的软件。电子系统100可为嵌入式计算机、个人计算机或移动设备(例如平板计算机、手提电脑、智能电话、PDA或其中嵌入或耦合有一个或多个处理器的其他触摸屏或电视)，或任何其它种类的计算机相关电子设备。

电子系统100可以包括各种类型的计算机可读介质和用于各种其他类型的计算机可读介质的接口。在所描绘的示例中，电子系统100包括总线112、一个或多个处理器120、系统存储器114、只读存储器(ROM)118、永久存储设备110、输入设备接口122、输出设备接口116以及一个或多个网络接口124。在一些实施方式中，电子系统100可以包括用于操作先前描述的各种部件和过程的其他计算设备或电路或与之集成。在本公开的一个实施例中，一个或多个处理器120通过总线112耦合到自动对焦相机模块传感器126(主相机)和全光固定焦距相机模块128(子相机)。

总线112共同表示通信地连接电子系统100的多个内部设备的所有系统总线、外围总线和芯片组总线。例如，总线112将一个或多个处理器120与ROM 118、系统存储器114、永久存储设备110、自动对焦相机模块传感器126(主相机)和全光固定焦距相机模块128(子相机)通信地连接。

一个或多个处理器120从这些各种存储器单元检索(retrieve)要执行的指令和要处理的数据，以便执行本公开的过程。在不同的实施方式中，一个或多个处理单元可以是单核处理器或多核处理器。

ROM 118存储一个或多个处理器120和电子系统的其它模块所需的静态数据和指令。另一方面，永久存储设备110是读和写存储设备。该设备是非易失性存储器单元，其即使在电子系统100关闭时也能存储指令和数据。本公开的一些实施方式使用大容量存储设备(诸如磁盘或光盘及其对应的盘驱动器)作为永久存储设备110。

其他实施方式使用可移动存储设备(诸如软盘、闪存驱动器及其对应的盘驱动器)作为永久存储设备110。类似于永久存储设备110，系统存储器114是读写存储器设备。然而，与永久存储设备110不同，系统存储器114是易失性读写存储器，例如随机存取存储器。系统存储器114存储处理器运行时需要的一些指令和数据。在一些实施方式中，本公开的过程被存储在系统存储器114、永久存储设备110和/或ROM 118中。从这些各种存储器单元，一个或多个处理器120检索要执行的指令和要处理的数据，以便执行一些实施方式的过程。

总线112还连接到输入设备接口122和输出设备接口116。输入设备接口122使得用户能够将信息和选择命令传达到电子系统。与输入设备接口122一起使用的输入设备包括例如字母数字键盘和指点设备(也被称为“光标控制设备”)。输出设备接口116，例如，能够显示由电子系统100生成的图像。与输出设备接口116一起使用的输出设备包括例如打印机和显示设备，例如阴极射线管(CRT)或液晶显示器(LCD)。一些实施方式包括用作输入设备和输出设备两者的诸如触摸屏的设备。

最后，如图1所示，总线112还可以通过网络接口124将电子系统100耦合到网络(未示出)。网络接口124可以包括，例如，无线接入点(例如，蓝牙或WiFi)或用于连接到无线接入点的无线电电路。网络接口124还可以包括用于将计算机连接到计算机网络(例如局域网(“LAN”)、广域网(“WAN”)、无线LAN或内联网，或者多个网络中的一个网络(例如，因特网))的一部分的硬件(例如以太网硬件)。电子系统100的任何或所有部件可以与本主题公开结合使用。

虽然以上讨论主要涉及执行软件的微处理器或多核处理器，但是一些实施方式由一个或多个集成电路执行，例如专用集成电路(ASIC)或现场可编程门阵列(FPGA)。在一些实施方式中，这样的集成电路执行存储在电路本身上的指令。

如在本说明书和本申请的任何权利要求中使用的，术语“计算机”、“服务器”、“处理器”和“存储器”都指电子或其它技术设备。这些术语不包括人或人群。为了说明的目的，术语“显示”或“显示中”意味着显示在电子设备上。

为了提供与用户的交互，本说明书中描述的主题的实施方式可以在具有显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)显示器，其用于向用户显示信息)、以及键盘和指点设备(例如鼠标或跟踪球，用户可以通过其向计算机提供输入)的计算机上实现。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声学输入、语音输入或触觉输入。

在本说明书中描述的主题的实施例可以在计算系统中实施，所述计算系统包括后端部件，例如作为数据服务器，或者其包括中间件部件，例如应用服务器，或者其包括前端部件，例如具有图形用户界面的客户端计算机，通过所述图形用户界面，用户可以与在本说明书中描述的主题的实施进行交互，或者包括一个或多个这样的后端部件、中间件部件或前端部件的任何组合。系统的部件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互联网络(例如，因特网)和对等网络(例如，自组织对等网络)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系由于在各自的计算机上运行的并且彼此具有客户端-服务器关系的计算机程序而产生。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

以类似于人类双目视觉的方式，立体视觉系统具有水平地并排安装的两个相机，它们的光学中心之间具有已知的距离。相同场景的两个稍微不同的视图可以由这两个相机捕获。当场景包含移动对象时，这两个相机被同步以近乎同时的方式捕获图像。

如图2所示，来自物点A 210的光线224和光线226传输通过两个针孔相机的进入点，并且在图像平面上具有两个投影(P1和P2)。基于三角形相似性，描述视差d＝(P1O1(216，218)+O2P2(220，222)与焦距(f)228之间的比率的方程等于光学中心距离(D(214)＝C1C2)与点A的深度(Z)(212)之间的比率：

在立体系统中，两个相机可能不是相同的共面针孔相机。替代的是，将校正算法应用于图像以模拟输出，就好像图像是由两个相同的共面针孔相机捕获的一样。该步骤包括线性变换和非线性变换。这些变换的参数通常在离线校准步骤中被校准，其中由系统捕获受控场景。为了从视差恢复深度，需要焦距(f)和相机距离(D)，也可以在离线校准步骤中校准焦距(f)和相机距离(D)。

为了计算视差，通过比较像素对的图像相似性来找到来自同一物点的像素对的标识。对于左侧图像中的像素，右图侧像中的多个像素可能具有相同的图像相似性，这可能导致失配。

立体视觉的另一个问题是遮挡。如图3所示，在左侧图像中可见的背景的一部分(AB)310、312可以被右侧图像中的前景障碍318阻挡。在右侧图像中可见的背景的另一部分(CD)314、316可以被左侧图像中的前景障碍318阻挡。在这种情况下，像素可能不能在两个图像中匹配，因此它们的视差也可能是不确定的。

深度图的精度可能受到两个相机之间的位移(D)(图2中214)的影响。较大的位移能够以较高的精度测量较远的物体。但是它也可能增加被前景物体遮挡的风险。

光场相机，也被称为全光相机，不仅捕获场景的光强度，而且捕获进入光圈的光线的方向。相对照地，传统相机对图像传感器平面上的光的不同方向进行平均，并且仅记录光强度。

一种类型的全光相机设计使用放置在主镜头和图像传感器之间的微镜头阵列。每个微镜头覆盖多个像素，并且基于光的方向将来自主镜头的光分离到这些像素。以这种方式，每个像素仅看到主镜头的一部分，或者换句话说，光线的某个特定的输入角范围到达光圈。利用这种设计，全光相机为角度分辨率牺牲了空间分辨率。后处理算法允许全光相机恢复场景的3D信息，并且可以在捕获图像之后重新对焦到任何距离。

然而，存在限制全光相机的商业应用的两个主要因素。第一个因素是为了捕获彩色全光图像，传感器阵列上的像素应用不同的滤色器。这些滤色器进一步降低了空间分辨率。另一个因素是低光信噪比(SNR)。由于每个像素仅接收输入光的一部分，所以与传统相机相比，全光相机接收较低光信噪比的输入信号。低SNR还降低了低光条件下像素匹配的精度。

在3D恢复应用中，全光相机没有表现出遮挡问题，因为光来自单个主镜头。在这种情况下，全光图像具有垂直视差和水平视差，这可以允许对于垂直和水平边缘两者的高置信度匹配。然而，因为最大基线受限于主镜头的入射瞳孔尺寸，所以全光相机可以对于近距离物体达到高深度分辨率。

在本公开中，相机系统包括并排放置的两个相机：具有高分辨率和自动对焦镜头的主相机和作为简化的全光单相机的子相机。在该简化的全光设计中，每个微镜头覆盖2×2、3×3像素等。辅助相机的主镜头可以使用具有大光圈的固定焦距镜头来增加全光相机的基线和低光灵敏度。

如图4所示，在一个实施例中，可以用覆盖2×2像素的微镜头阵列覆盖传感器阵列。图4描绘了来自三个不同物体(O1，O2和O3)的光线以及在一个维度上产生的视差。

在该实施例中，来自物点O1 412的光被直接聚焦到微镜头阵列上，使得来自主镜头上半部的光将到达像素I10，以及来自主镜头下半部的光将到达像素I11。

来自物点O2 410的光被聚焦在微镜头阵列的前方，使得来自主镜头的上半部的光将到达像素I21，并且来自主镜头的下半部的光将到达像素I00。

来自物体O3 414的光被聚焦在微镜头阵列后方，来自主镜头上半部的光将到达像素I20，来自主镜头下半部的光将到达像素I01。

从6个像素中，我们可以提取两个子图像：[I00，I10，I20]和[I01，I11，I21]。在这两个子图像中的O1的投影在坐标上具有零视差(I10-I11)，在这两个子图像中的O2的投影具有负视差(I00-I21)，并且在这两个子图像中的O3的投影具有正视差(I20-I01)。

图5描绘了视差与物体距离之间的几何关系。如果距离(d)512处的点物体在传感器平面上形成离焦图像，则可以根据镜头焦距(F)、从镜头(lens)到传感器平面的距离(f)514和镜头光圈尺寸(V)510来计算图像尺寸(h)518。

从三角形的相似性来看，

并且基于透镜方程，

得出方程，

或者

让距离D处的物体聚焦在图像平面上，我们将从透镜方程得到然后我们就可以得到

图6描绘了用于从全光相机进行深度图恢复的算法的处理流程的一个实施例。该算法包括从自动对焦相机模块接收自动对焦图像，将自动对焦图像转换为单色，并校正经转换的自动对焦图像。它还包括从全光相机模块接收固定焦距图像610，对来自固定焦距图像的方形子图像进行平均612，以及校正经平均的子图像。此时，算法在水平方向上水平地块匹配校正的自动对焦图像和校正的子图像614，并且在垂直方向上垂直地块匹配校正的自动对焦图像和校正的子图像616。然后，该算法确定校正的自动对焦图像与校正的子图像的垂直块匹配和校正的自动对焦图像与校正的子图像的水平块匹配的复合块匹配误差。它还基于水平块匹配误差和垂直块匹配误差来确定校正的子图像的视差图618，并且将所述视差图转换为深度图620。

在子图像的预处理中，去除伪像像素，降低噪声水平，并且降低镜头的几何失真。块匹配算法可直接应用于图像层面或应用于图像的水平梯度和垂直梯度。基于匹配误差，可以生成视差图和置信度图。视差图中的一个像素处的视差是在水平和垂直方向上具有最小匹配误差的位移。

以像素为单位计算视差图的单位。因此，基于像素尺寸，可以将视差单位转换为物理距离单位(mm)。如果瞳孔大小(V)、焦距(F)和焦平面距离(D)是已知的，则可以在视差图像到深度图(1/d)之间进行转换。关于这些参数，可以在相机模块的说明书中找到像素大小和焦距。D和V然后可以在全光相机的制造期间被校准。

全光相机的校准可以分两个步骤进行：在第一步骤中，可以将平面图表(例如，检查板图案)放置在距相机距离D处。可以调节镜头和传感器平面之间的距离以消除视差。

在第二步骤中，可将另一平面图表(例如，圆形图案阵列)放置在距相机另一距离d处。基于图表上的特征的视差和图表的距离d，可以计算瞳孔大小V。

由于全光相机仅在近距离处实现鲁棒深度分辨率，所以可以通过立体深度图恢复算法来实现中范围和远范围中的深度分辨率。

在一个实施例中，可以使用来自全光相机的部分精确的深度图和置信度图来制导立体匹配中的视差搜索，以减少由遮挡和重复图案引起的失配的机会。

在立体设置的一个示例中，双相机是一个自动对焦彩色相机和一个固定焦距单色全光相机。从全光相机提取的四个子图像的平均图像被用作立体匹配的一个输入，并且由自动对焦彩色相机提供立体匹配的另一个输入。可基于从全光相机提取的四个子图像的匹配来确定全光深度图。因此，立体匹配不是盲搜索，而是基于全光深度图的制导搜索。

例如，在传统立体匹配算法中，对于每个像素，在非常大的视差范围上执行搜索以覆盖从最近距离到无限远的深度。在该示例中，来自全光相机的深度图可以提供立体视差的粗略估计。这可以将立体搜索限制到接近粗略估计的小范围，这减少了由立体匹配引起的失配的风险。

图7描绘了立体深度图恢复算法处理流程的一个实施例。在本实施例中，主相机图像被转换为黑和白710，并且图像被校正712。在全光子相机中，对2×2像素子图像进行平均714和校正716，并且在主相机图像和全光子相机图像内沿着极线执行块匹配722。校正全光深度图和置信度图718，并且将全光深度图转换为初始立体视差图720，所述初始立体视差图与块匹配722一起用于制导视差搜索724中。对彩色图像视差图进行平滑726，并且将视差图转换为深度图728。

本领域技术人员将了解，本文中所描述的各种说明性的块、模块、元件、部件、方法和算法可实现为电子硬件、计算机软件或两者的组合。为说明硬件与软件的这种可互换性，上文已大体上根据其功能性来描述各种说明性块、模块、元件、部件、方法和算法。这样的功能性是实现为硬件还是软件取决于施加在整个系统上的特定应用和设计约束。本领域技术人员可针对每一特定应用以不同方式实现所描述的功能性。在不脱离本主题技术的范围的情况下，可以不同地布置各种部件和块(例如，以不同的顺序布置或以不同的方式划分)。

应理解，所公开的过程中的步骤的特定次序或层级是示例方法的说明。基于设计偏好，应理解，过程中的步骤的特定次序或层级可重新布置。这些步骤中的一些可以同时执行。所附方法权利要求以样本顺序(sample order)呈现各个步骤的要素，并且不意味着限于所呈现的特定顺序或层次。

提供先前说明以使本领域的任何技术人员能够实践本文中所描述的各个方面。前面的描述提供了主题技术的各种示例，并且主题技术不限于这些示例。对这些方面的各种修改对于本领域技术人员来说将是明显的，并且本文定义的一般原理可以应用于其他方面。因此，权利要求并不旨在限于本文示出的方面，而是应符合与语言权利要求一致的全部范围，其中以单数形式的元件并不旨在指“一个且仅一个”，除非特别如此陈述，而是指“一个或多个”。除非特别声明，术语“一些”指一个或多个。阳性代词(例如，他)包括阴性和中性(例如，她和它)，反之亦然。标题和副标题(如果有的话)仅仅是为了方便而使用的，并不限制本发明。谓词词语“被配置以”、“可操作以”和“被编程以”并不暗示对主题的任何特定有形的或无形的修改，而是旨在可互换地使用。例如，被配置以监控和控制操作或部件的处理器还可以意味着被编程为监控和控制操作的处理器或可操作以监控和控制操作的处理器。同样，被配置以执行代码的处理器可以被解释为被编程以执行代码或可操作以执行代码的处理器。

诸如“方面”的短语并不暗示这样的方面对于主题技术是必要的或者这样的方面适用于主题技术的所有配置。与一方面相关的公开可以应用于所有配置或一个或多个配置。一个方面可以提供一个或多个示例。诸如方面的短语可以指一个方面或多个方面，反之亦然。诸如“实施例”的短语并不暗示这样的实施例对于主题技术是必要的或者这样的实施例适用于主题技术的所有配置。与实施例相关的公开可以应用于所有实施例或一个或多个实施例。实施例可以提供一个或多个示例。诸如“实施例”的短语可以指一个或多个实施例，反之亦然。诸如“配置”的短语并不暗示这样的配置对于主题技术是必要的或者这样的配置适用于主题技术的所有配置。与配置相关的公开可以应用于所有配置、或一个配置或多个配置。一个配置可以提供一个或多个示例。诸如“配置”的短语可以指一个或多个配置，反之亦然。

术语“示例”在本文中意为“用作示例或说明”。本文中描述为“示例”的任何方面或设计不一定被解释为优选的或比其它方面或设计有利。

本领域普通技术人员已知或稍后将知晓的贯穿本公开所描述的各个方面的元件的所有结构和功能的等同物通过引用明确地并入本文中，并旨在由权利要求涵盖。此外，无论这种公开是否明确地记载在权利要求中，在本文公开的任何内容都不打算捐献给公众。不得根据35U.S.C.§112、第六段的规定解释任何权利要求要素，除非使用短语“用于…的装置”(means for)明确陈述该要素，或者在方法权利要求的情况下，使用短语“用于…的步骤”(steps for)陈述该要素，此外，关于在说明书或权利要求书中使用“包含”、“具有”等术语的含义，这样的术语旨在被包括在术语“包括”的方式内，类似于当“包括”在权利要求中被用作连接词时，对“包括”的解释那样。

对“一实施例”、“一个实施例”、“一些实施例”、“各种实施例”等的引用指示特定元件或特性包括在本发明的至少一个实施例中。尽管短语可以出现在各种地方，但是短语不一定指相同的实施例。结合本公开，本领域技术人员将能够设计和结合适于实现上述功能的各种机制中的任何一种。

应当理解，本公开仅教导了说明性实施例的一个示例，并且本领域技术人员在阅读本公开之后可以容易地设计本发明的许多变型，并且本发明的范围将由以下权利要求来确定。

Claims

1.一种在双相机系统中生成实时深度图的方法，包括：

从自动对焦相机模块接收自动对焦图像；

将所述自动对焦图像转换为单色；

校正经转换的自动对焦图像；

从全光相机模块接收固定焦距图像，并输出多个全光子图像，其中所述全光相机模块具有覆盖2×2像素的镜头；

从所述多个全光子图像中提取四个全光子图像；

对所提取的全光子图像进行平均；

校正经平均的全光子图像；

沿极线对校正的自动对焦图像和校正的全光子图像进行块匹配，输出极线块匹配；

沿垂直方向块匹配所述校正的全光子图像，输出垂直全光块匹配；

沿水平方向块匹配所述校正的全光子图像，输出水平全光块匹配；

确定所述垂直全光块匹配和所述水平全光块匹配的复合块匹配误差；

基于所述复合块匹配误差确定所述提取的全光子图像的全光视差图；

将所述全光视差图转换为全光深度图；

将所述全光深度图转换为初始立体视差图；

基于所述初始立体视差图和所述极线块匹配来搜索制导视差图；和

将所述制导视差图转换为制导深度图。

2.如权利要求1所述的在双相机系统中生成实时深度图的方法，还包括基于所述复合块匹配误差确定所述提取的全光子图像的全光置信度图。

3.如权利要求1所述的在双相机系统中生成实时深度图的方法，还包括从所述自动对焦相机模块接收彩色图像。

4.如权利要求3所述的在双相机系统中生成实时深度图的方法，还包括平滑所述制导视差图。

5.如权利要求4所述的在双相机系统中生成实时深度图的方法，还包括将经平滑的制导视差图转换为平滑的深度图。

6.如权利要求1所述的在双相机系统中生成实时深度图的方法，其中在所述水平方向上执行所述块匹配。

7.如权利要求6所述的在双相机系统中生成实时深度图的方法，其中在所述垂直方向上执行所述块匹配。

8.如权利要求7所述的在双相机系统中生成实时深度图的方法，其中块匹配误差是基于在所述垂直方向和所述水平方向上执行的所述块匹配的复合块匹配误差。

9.如权利要求8所述的在双相机系统中生成实时深度图的方法，还包括：

基于所述水平块匹配误差和所述垂直块匹配误差确定所述校正的全光子图像的视差图；和

将所述视差图转换为深度图。

10.一种具有实时深度图生成功能的双相机系统，包括：

自动对焦相机模块，其输出自动对焦图像；

单色全光相机模块，其中全光镜头覆盖2×2像素，输出多个全光子图像，其中所述全光相机模块是固定焦距的；

处理器，其耦合到所述自动对焦相机模块和所述全光相机模块，其中所述处理器：

将所述自动对焦图像转换为单色；

校正经转换的自动对焦图像；

从所述全光相机模块提取四个全光子图像；

对来自所述多个全光子图像的所述四个全光子图像进行平均；

校正经平均的四个全光子图像；以及

沿着极线对校正的自动对焦图像和校正的四个全光子图像进行块匹配。

11.如权利要求10所述的具有实时深度图生成功能的双相机系统，其中所述处理器还从所述多个全光子图像中提取四个全光子图像；

沿垂直方向块匹配所述四个全光子图像，输出垂直全光块匹配；

沿水平方向块匹配所述四个全光子图像，输出水平全光块匹配；

基于所述复合块匹配误差确定所述四个全光子图像的全光视差图；

基于所述复合块匹配误差确定所述四个全光子图像的全光置信度图；和

将所述全光视差图转换为全光深度图。

12.如权利要求11所述的具有实时深度图生成功能的双相机系统，其中所述处理器还将所述全光深度图转换为初始立体视差图；

基于所述初始立体视差图搜索制导视差图；

平滑所述制导视差图；和

将所述制导视差图转换为制导深度图。

13.如权利要求12所述的具有实时深度图生成功能的双相机系统，其中所述处理器还平滑所述制导深度图。

14.如权利要求13所述的具有实时深度图生成功能的双相机系统，其中基于所述块匹配根据具有最小匹配误差的位移来确定所述制导视差图。

15.一种具有实时深度图生成功能的双相机立体系统，包括：

自动对焦相机模块，其输出自动对焦图像；

单色全光相机模块，其中全光镜头覆盖2×2像素并输出多个全光子图像，并且其中所述全光相机模块是固定焦距的；

从所述多个全光子图像中提取四个全光子图像；

基于所述复合块匹配误差确定所述四个全光子图像的全光置信度图；以及

将所述全光视差图转换为全光深度图。

16.如权利要求15所述的具有实时深度图生成功能的双相机立体系统，其中所述处理器还：

将所述自动对焦图像转换为单色；

校正经转换的自动对焦图像；

对所述四个全光子图像进行平均；

校正经平均的四个全光子图像；

沿着极线块匹配所述校正的自动对焦图像和所述校正的四个全光子图像；

将所述全光深度图转换为初始立体视差图；

基于所述初始立体视差图，在制导视差搜索中搜索所述自动对焦图像，输出制导视差图；和

将所述制导视差图转换为制导深度图。

17.如权利要求16所述的具有实时深度图生成功能的双相机立体系统，其中所述处理器还平滑所述制导视差图。

18.如权利要求17所述的具有实时深度图生成功能的双相机立体系统，其中所述处理器还将经平滑的制导视差图像转换为平滑的深度图。

19.如权利要求16所述的具有实时深度图生成功能的双相机立体系统，其中基于所述块匹配根据具有最小匹配误差的位移来确定所述制导视差图。