CN101496413B

CN101496413B - 用单视场低功率移动装置实时捕获及产生立体图像及视频

Info

Publication number: CN101496413B
Application number: CN2007800278157A
Authority: CN
Inventors: 王浩宏; 李向川; 沙拉什·曼朱娜什
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-08-01
Filing date: 2007-07-30
Publication date: 2011-09-07
Anticipated expiration: 2027-07-30
Also published as: BRPI0715065A2; EP2498504B1; US20150002627A1; CN101496413A; JP2009545929A; CA2748558A1; KR101038402B1; JP5536146B2; CA2657401C; CA2657401A1; WO2008016882A3; JP5350241B2; EP2047689A2; RU2417548C2; WO2008016882A2; US8970680B2; US9509980B2; EP2498503B1; BRPI0715065B1; EP2498503A1

Abstract

一种单视场低功率移动装置能够从单个所捕获视图创建实时立体图像及视频。所述装置使用来自自动聚焦过程的统计数据创建单个捕获视图的块深度图。降低所述块深度图中的伪影且创建图像深度图。使用基于Z缓冲器的3D表面恢复过程从所述图像深度图及作为双目视觉的几何形状的函数的视差图创建立体三维(3D)左及右视图。

Description

用单视场低功率移动装置实时捕获及产生立体图像及视频

技术领域

本发明大体来说涉及单视场低功率移动装置，例如手持式相机、摄录一体机、单传感器相机电话或其它能够创建实时立体图像及视频的单相机传感器装置。本发明还涉及一种用于产生实时立体图像的方法、一种静止图像捕获装置及一种视频图像捕获装置。

背景技术

近年来，增强感知真实性已成为推动下一代多媒体的革命发展的主要动力之一。快速增长的多媒体通信及娱乐市场需要覆盖立体图像捕获、处理、压缩、传递及显示的3D立体图像及视频技术。已启动致力于未来标准(例如，3DTV及MPEG 3DAV)的一些努力，以满足所述需求。

立体图像与单图像之间的主要差别是前者提供第三维的感觉及到景象中的对象的距离。由于左眼及右眼以不同的角度观点看到双目视图，因此人类视觉生来是立体的。人类大脑能够通过立体深度合成图像。一般来说，产生立体图像或视频需要具有两个传感器的立体相机。然而，所部署的大多数当前多媒体装置实施于单视场基础结构内。

在过去十年，已积极地研究了立体图像的产生。在一种研究中，分析视频序列且从2D几何形状及运动活动估计3D景物结构(其也称作运动估计结构(SfM))。此类方法使所记录的2D视频剪辑能够转换为3D。然而，计算复杂性相当高，使得实时立体图像产生并不可行。另一方面，由于SfM是数学上的劣病态问题，因此结果可能包含伪影并导致视觉不适。根据特定应用，一些其它方法首先基于一组启发式规则从单视图静止图像估计深度信息，且然后据此产生立体视图。

在另一种研究中，提出一种用于从单视场提示(例如，对象的视网膜大小)抽取相关深度信息，所述信息可用于产生辅助深度图。在再一种研究中，提出基于面部特征的参数深度图产生方案，以将2D头及肩图像转换为3D。在所提出的另一种用于深度图产生的方法中，所述方法中的一些步骤(例如，预处理中的图像分类)不平凡且实施起来可能非常复杂，此破坏所提出算法的实用性。在另一种方法中，提出一种使用运动检测及区域分割的实时2D到3D图像转换算法。然而，由于对象分割及对象深度估计的不精确性，伪影不可避免。显然，上文所提及的所有方法仅考虑所捕获的单视场图像。一些其它方法使用辅助源来帮助产生立体视图。举例来说，使用低成本辅助单色或低分辨率相机来捕获额外视图，且然后使用视差估计模型来产生像素的深度图。

在另一实例中，使用单视场高分辨率彩色相机来捕获景象的亮度及色度，且使用低分辨率单色“悬臂支架”相机的廉价侧翼3D-立体图像对来通过深度增大亮度及色度。从所获得的3个视图产生的视差图用于合成立体图像对。在再一实例中，使用混合组的自动及手动技术来抽取深度图(有时自动方法不可靠)且然后使用简单的平滑滤波器来降低所得图像的视觉伪影。

可易于看出，需要一种通过使用单视场移动相机电话或其它低功率单视场装置来获得实时立体图像及视频的低复杂性方法。

需要一种以不仅避免其它方法中所使用的辅助装备或人类互动而且还避免通过使用SfM或深度分析所引入的计算复杂性的方式估计深度图信息的单视场低功率移动装置。

进一步需要一种采用低复杂性方法来检测并估计用于立体视频的实时捕获及产生的深度信息的单视场低功率移动装置。

发明内容

鉴于上文，本发明的目标是提供一种采用低复杂性方法来检测并估计用于立体视频的实时捕获及产生的深度信息的单视场低功率移动装置。

本发明的另一目标是提供一种不仅避免辅助装备或人类互动而且还避免通过使用SfM或深度分析所引入的计算复杂性的单视场低功率移动装置。

本发明的再一目标是提供一种采用低复杂性立体图像对产生过程的单视场低功率移动装置。

本发明的又一目标是提供一种捕获及产生具有优异的3D效果的立体图像及视频的单视场低功率移动装置。

本发明的再一目标是提供可用于立体图像及视频两者的捕获及产生的单视场低功率移动装置。

通过包含以下模块的单视场低功率移动装置实施以上目标：单传感器相机传感器模块，其可操作以捕获图像且具有自动聚焦子模块，所述自动聚焦子模块可操作以经由聚焦过程通过将镜头移动通过整个聚焦范围来确定最佳焦点位置并在捕获所述图像时选择具有最大焦点值的焦点位置。所述装置包括深度图产生器组合件，其可操作以在第一阶段中使用来自所述自动聚焦子模块的统计数据自动形成块级深度图且在第二阶段中形成图像深度图。所述装置还包括图像对产生器模块，其可操作以从所捕获的图像中创建遗漏的第二视图以创建3D立体左及右视图。

所述单视场低功率移动装置使用单视场相机传感器的自动聚焦功能来估计深度图信息，此不仅避免其它方法中所使用的辅助装备或人类互动而且还避免通过使用其它所提出系统的SfM或深度分析所引入的计算复杂性。

所述单视场低功率移动装置可通过额外但任选的运动估计模块用于立体图像及视频两者的捕获及产生，以改善针对立体视频产生的深度图检测的精确性。

所述单视场低功率移动装置使用来自自动聚焦过程的统计数据来检测并估计用于产生立体图像的深度信息。由于两阶段的深度图估计设计，自动聚焦过程的使用对于低功率装置是可行的。也就是说，在第一阶段中，使用所述自动聚焦过程检测块级深度图。在第二阶段中，通过使用双线性滤波来产生经近似的图像深度图。

另外，所述单视场低功率移动装置采用低复杂性方法来检测并估计用于立体视频的实时捕获及产生的深度信息。所述方法使用来自运动估计、自动聚焦处理的统计数据及历史数据加上一些启发式规则来估计所述深度图。

所述单视场低功率移动装置通过使用基于Z缓冲器的3D表面恢复来采用低复杂性立体图像对产生过程。

作为本发明的另一方面，一种用于通过单视场低功率移动装置产生实时立体图像的方法包含以下步骤：捕获图像；自动聚焦镜头并通过将所述镜头移动通过整个聚焦范围来确定最佳焦点位置且在捕获所述图像时选择具有最大焦点值的焦点位置；在第一阶段中使用来自所述自动聚焦步骤的统计数据自动产生块级深度图且在第二阶段中产生图像深度图；及从所述所捕获的图像中创建遗漏的第二视图以创建3D立体左及右视图。

作为本发明的另一方面，一种用于处理静止图像的方法包含以下步骤：对所捕获的静止图像进行自动聚焦处理并估计图像中遥远对象的深度信息以检测块级深度图；及从所述块级深度图近似图像深度图。

所述自动聚焦处理包括使用粗-到-细深度检测过程处理所述图像的步骤。此外，所述近似步骤包含对所述块级深度图进行双线性滤波以导出经近似的图像深度图的步骤。

在再一方面中，本发明涉及一种具有程序指令的程序码，所述程序指令在由处理器执行时可操作以：对图像进行双线性滤波以确定包括块级深度图的角点(A、B、C及D)的每一焦点块的深度值，及根据以下方程式确定所述块内所有像素的深度值(d_p)

d_{p} =

\frac{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{A} +

\frac{{(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{B} +

\frac{{(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{C} +

\frac{{(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{D} \cdot

其中所述块的角点(A、B、C及D)的位置值及深度值表示为(x_A，y_A，d_A)、(x_B，y_B，d_B)、(x_C，y_C，d_C)、(x_D，y_D，d_D)；且相应像素由点P(x_P，y_P，d_P)表示。

在本发明的又一方面中，一种静止图像捕获装置包含：自动聚焦模块，其可操作以处理所捕获的静止图像并估计所述图像中遥远对象的深度信息以检测块级深度图；图像深度图模块，其可操作以使用双线性滤波从所述块级深度图近似图像深度图；及图像对产生器模块，其可操作以从所述所捕获图像中创建遗漏的第二视图以创建三维(3D)立体左及右视图。

在本发明的再一方面中，一种视频图像捕获装置包含：自动聚焦模块，其可操作以处理所捕获的视频剪辑并估计景象中遥远对象的深度信息；及视频编码模块，其可操作以对所捕获的所述视频剪辑进行编码，提供统计数据信息并确定运动估计。一种深度图产生器组合件可操作以使用来自所述运动估计、所述自动聚焦模块的过程的统计数据信息及历史数据加上启发式规则来检测并估计用于立体视频的实时捕获及产生的深度信息，以获得从其中导出图像深度图的最终块深度图。

附图说明

结合附图阅读以上说明内容以及对本发明的优选实施例的以下详细说明将更好地对其进行理解。出于图解说明本发明的目的，图式中显示目前优选的实施例。然而，应了解本发明并不限定于所显示的过程的精确布置。在图式中：

图1图解说明单视场低功率移动装置的大体框图；

图2图解说明用于实时立体图像及视频两者的数据捕获、处理及显示的操作的大体框图；

图3图解说明用于实时捕获及产生3D静止图像的操作的大体框图；

图4图解说明镜头位置距离焦点的距离与对象距离之间的关系的曲线图；

图5A图解说明使用全局搜索算法时镜头位置与FV之间的关系的曲线图；

图5B图解说明针对粗-到-细搜索算法的镜头位置与FV之间的关系曲线图；

图6A图解说明原始图像；

图6B图解说明图6A的图像的图像深度图；

图6B图解说明图6A的图像的块深度图；

图6D图解说明使用图6C的块深度图的合成3D彩色立体图视图；

图6E图解说明图6B的图像的经滤波深度图；

图7A图解说明具有相邻块的中间点的图表；

图7B图解说明具有角点的块的图表；

图8图解说明深度图产生过程的流程图；

图9A及9B显示第一帧的图像及对应的BDM；

图9C及9D显示视频的第30个帧及其对应的BDM；

图9E及9F显示视频的第60个帧及其对应的BDM；

图10A、10B及10C图解说明从图9B、9D及9F中所示BDM产生的图像深度图(IDM)；

图11图解说明图像对产生过程；

图12A图解说明双目视觉的左及右视图；

图12B图解说明双目视觉的几何模型，其参数用于计算视差图；

图13A显示通过使用图6E中所示的经近似图像深度图产生的彩色立体图图像；

图13B显示通过使用图6B中所示的精确图像深度图产生的彩色立体图图像；

图14A显示图9A的所得彩色立体图视频帧的实例；

图14B显示图9C的所得彩色立体图视频帧的实例；

图14B显示图9E的所得彩色立体图视频帧的实例；

图15A-15B图解说明基于Z缓冲器的3D内插过程的流程图。

具体实施方式

虽然本发明容许许多不同形式的实施例，但本说明书及附图仅揭示一些形式作为使用本发明的实例。并不打算将本发明限定为所说明的实施例，且已在所附权利要求书中指出本发明的范围。

下文通过到单视场低功率移动装置(例如，手持式相机、摄录一体机或单传感器相机电话)的特定应用来说明根据本发明的用于捕获及产生立体图像及视频的装置的优选实施例。然而，所属技术领域中的技术人员应了解，本发明还很好地适用于其它类型的具有单传感器相机模块的装置。现在详细参照图式，在所有图式中使用相同的编号来指代相同的元件，图1中显示根据本发明的大体指定为10的单视场低功率移动装置。

单视场低功率移动装置10大体来说包括用以控制本文中所说明装置10的操作的处理器56、镜头12及相机传感器模块14，例如单传感器相机单元、手持式数字相机或摄录一体机。处理器56执行存储在存储器60中的程序指令或编程码以实施本文所说明的操作。存储装置62是相机、摄录一体机或单传感器单元中的文件系统且可包括快闪、磁盘或磁带，此取决于应用。

相机传感器模块14包括能够在静止图像模式18中捕获静止图像且在视频模式20中捕获一记录周期的视频以形成视频剪辑的图像捕获子模块16。相机传感器模块14还包括具有双操作模式(静止图像模式24及视频模式26)的自动聚焦子模块22。

单视场低功率移动装置10进一步包括也具有双操作模式(即静止图像模式30及视频模式32)的深度图检测器模块。在所述实例性实施例中，深度图产生器组合件34采用具有双操作模式的两阶段深度图估计过程。如在图2及3中最佳观看，所述两阶段深度图估计过程的第一阶段(阶段1)在自动聚焦子模块22所实施的静止模式24中使用来自自动聚焦处理124的统计数据或在自动聚焦子模块22所实施的视频模式26中使用来自自动聚焦处理126的统计数据自动形成块级深度图。在第二阶段中，在深度图检测器模块28所实施的静止模式30中通过深度检测过程130或在深度图检测器模块28所实施的视频模式32中通过深度检测过程132来创建图像深度图。在图2中，f_i表示第i个帧，f_i-1表示第i-1个帧，d_i表示所述第i个帧的块深度图(BDM)，且d_i’表示所述第i个帧的图像深度图(IDM)。

单视场低功率移动装置10具有单传感器相机传感器模块14。因此，仅捕获一个图像，所述图像用于代表用于立体成像及显示的左(L)视图。装置10中包括图像对产生器模块42以从所述左视图(原始所捕获图像)及图像深度图在立体视图产生器子模块48中产生第二或遗漏的右(R)视图。图像对产生器模块42还包括视差图子模块44及Z缓冲器3D表面恢复子模块46。

在所述实例性实施例中，使用3D效果产生器模块52在显示器58上显示3D效果。在所述实例性实施例中，3D效果产生器模块52是用以展示所得3D效果的廉价红色-蓝色彩色立体图。所产生的立体视图可通过其它机构(例如，全息及立体装置)显示。

任选地，单视场低功率移动装置10包括用于对视频进行编码的视频编码模块54。视频编码模块54提供深度图检测器模块28在视频模式32中进行深度检测过程132所使用的运动(估计)信息36。

还参照图3，在操作中，相机传感器模块14在静止图像模式18中在成像捕获子模块16中捕获一个或一个以上静止图像。静止图像模式18执行捕获过程118。捕获过程118后跟自动聚焦处理124。大体来说，静止图像模式24的自动聚焦处理124用于估计景象中遥远对象的深度信息。为降低计算复杂性，阶段1中的块深度检测在静止图像模式24的穷举聚焦搜索125中采用粗-到-细深度检测算法。所述粗-到-细深度检测算法将捕获过程118在静止图像模式18捕获的图像划分为多个块，此在较早的阶段(阶段1)中检测相关联的深度图。在阶段2中，以静止图像模式30的深度检测过程130使用双线性滤波器131B来从阶段1的块深度图导出经近似的图像深度图。

以静止图像模式24的自动聚焦子模块22采用静止图像捕获中所使用的穷举搜索聚焦125。为在视频图像模式26中实现视频剪辑的实时捕获，用爬山聚焦127来代替静止图像捕获中所使用的穷举搜索聚焦125，且视频子模块32的深度检测过程132基于来自视频编码模块54的运动信息36、来自自动聚焦过程126的焦点值38B及帧历史统计数据40检测块深度图34，如图2中所示。

自动深度图检测

仍参照图3，单视场低功率移动装置10利用自动聚焦子模块22的自动聚焦过程124来进行自动块深度图检测。对于操作的以静止图像模式18及视频模式20的图像捕获，由于这些情景(操作模式)中采用不同的焦距搜索算法，因此需要不同的方法。

在数码相机中，大多数聚焦组合件通过评价成像器面上的图像对比度来选择最佳焦点位置。焦点值(FV)38B是在所关心的特定区域上通过焦点度量测量的分数，且自动聚焦过程126通常选择对应于最高焦点值的位置作为镜头12的最佳焦点位置。在一些相机中，图像的高频率内容用作焦点值(FV)38B，举例来说，以下高通滤波器(HPF)

HPF = [\begin{matrix} - 1 & 0 & 0 & 0 & - 1 \\ 0 & 0 & 4 & 0 & 0 \\ - 1 & 0 & 0 & 0 & - 1 \end{matrix}]

可用于捕获高频率分量以用于确定焦点值(FV)38B。焦点值(FV)还是FV图，如稍后在视频模式中所说明。

镜头12的镜头位置距离焦点(FV)38B的距离与距离相机或具有相机的装置10的目标距离之间存在关系(如图4中所示)，且所述关系对于特定相机传感器模块14是固定的。各种相机传感器可具有所述关系的不同统计数据。因此，一旦自动聚焦子模块22中的自动聚焦过程124基于关于相机传感器模块性质的知识定位镜头12的最佳焦点位置，那么可估计目标对象与相机或装置10之间的实际距离，此也是所述景象中所述对象的深度。因此，深度图检测过程依赖于依靠传感器的自动聚焦过程124或126。

在静止图像捕获模式18中，大多数数码相机传感器模块14针对自动聚焦过程124选择穷举搜索算法125，其通过将其镜头12移动通过整个聚焦范围并选择具有最大焦点值的焦点位置来确定最佳焦点位置。

穷举搜索算法125的典型实例是结合图5A说明的全局搜索，其以所述行等距箭头所表示的最小电机步长扫描整个焦点范围。另一方面，图5B显示粗-到-细搜索，其首先使用所述行箭头所表示的较大步长搜索整个焦点范围，然后使用较小步长(其由相邻箭头之间具有较小距离的箭头表示)在峰值位置周围进行搜索。

显然，针对静止图像产生的深度图的精确性完全取决于针对所述图像选择的对焦窗口的大小。大体来说，在静止图像模式24的自动聚焦过程124中，将图像划分为N×N个子块，其也称作对焦窗口，且在自动聚焦过程124期间计算每一焦点窗口的焦点值38B。

在穷举搜索125之后，针对每一焦点窗口获得镜头12的最佳焦点位置，且因此可估计对应于每一窗口的对象的深度。显然，焦点窗口的大小越小，深度图的精确性越好，且计算复杂性也越高。

在单视场低功率移动装置10中，在深度图产生器组合件34中界定两种类型的深度图：图像深度图(IDM)及块深度图(BDM)。对于图像深度图，通过深度检测过程130存储每一像素的像素深度值；对于块深度图，存储每一焦点窗口的深度值。在图6B中，通过将焦点窗口大小设定为1×1来获得对应于图6A中所示静止图像70的图像深度图75且因此图像深度图75的精确性是像素级的，其中具有较高强度的像素对应于更接近观点的对象。然而，由于自动聚焦的过分计算复杂性，此设定通常对于大多数应用不可行。块深度图77的实例显示于图6C中，其中N被设定为11且其是针对具有正常计算能力的相机的实用设定。

大体来说，需要对自动聚焦过程124在阶段1中创建的块深度图77进行进一步处理以获得图像深度图80(图6E)；否则，一些伪影可出现。在图6D中显示使用图6C中所示的块深度图77的合成3D彩色立体图视图79的实例，其中由于边缘处相邻焦点窗口之间的剧烈深度差距不对应于图像中的实际对象形状边界的事实，因此出现伪影。可通过伪影减少过程131A(后跟双线性滤波器131B的处理)来减少所述伪影。在图6E中显示经滤波的图像深度图80。

伪影减少过程131A由两个步骤组成，如图7A及7B中最佳图解说明。在第一步骤中，在自动聚焦过程124期间找出图6C中每一块的角点A、B、C及D的深度值，且所述深度值将是如图7A中所示其相邻块的平均值，其中中间点d的深度由方程式Eq.(1)界定

d = \frac{d_{1} + d_{2} + d_{3} + d_{4}}{4},

方程式(1)

其中d1、d2、d3及d4是相邻块的深度值。

自动聚焦过程124所创建的块深度图包括所存储的每一焦点窗口/块的深度值。在图3中，未在所示过程中图解说明作为硬件块的存储器60及/或存储装置62(如图2中所示)。

在获得所有角点A、B、C及D的深度值之后，在如图7B中最佳图解说明的第二步骤中，双线性滤波获得所述块内部的像素的深度值。如图7B中的实例所示，所述块的角点A、B、C及D的位置及深度值表示为(x_A，y_A，d_A)、(x_B，y_B，d_B)、(x_C，y_C，d_C)、(x_D，y_D，d_D)，因此可计算所述块内所有像素的深度值。举例来说，对于点P(x_P，y_P，d_P)所表示的像素，可通过以下方程式Eq.(2)获得像素深度值d_p

d_{p} =

\frac{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{A} +

\frac{{(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{B} +

\frac{{(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{C} +

\frac{{(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{D} \cdot

现在参照图2，对于视频来说，由于确定最佳焦点时引起的过度延迟，因此穷举搜索算法125不可行。由于爬山聚焦127的搜索速度较快，因此其更受欢迎。其向爬山一样搜索最佳焦点位置。当相机传感器模块14在图像捕获子模块16中以视频模式20开始记录视频时，使用穷举搜索算法125来找出最佳焦点位置作为初始位置，但在定位所述初始镜头位置之后，相机传感器模块14需要实时确定焦点镜头12必须移动的方向及移动多少可到达山顶。显然，在自动聚焦过程126的视频模式26期间得到视频的精确深度图比得到静止图像的精确深度图困难得多。不希望受理论限制，原因是爬山聚焦仅获得在焦点上的区域的正确深度，而不保证其它块的深度的正确性。此外，仅在记录的开始点处调用保证所有块的深度的正确性的穷举搜索算法125，因此不可能在图像捕获子模块16中在视频模式20的记录周期期间校正所有块的深度。

现在参照图8，其显示用于深度图检测器模块28在视频模式32中使用的深度图检测过程132的流程图。当前帧索引由n表示，{D_n(i，j)}及{F_n(i，j)}(i＝1，2，...N，j＝1，2，...N)是所述当前帧的最终所确定块深度图(BDM)及焦点值(FV)图38A，{M_n(i，j)}及{V_n(i，j)}是通过自动聚焦过程126获得的内部BDM及FV图，且{P_n(i，j)}及{T_n(i，j)}是通过运动预测获得的内部BDM及FV图。

在以视频模式32的深度检测过程132期间，首先通过爬山聚焦127确定当前帧n的焦点位置且在步骤S134处获得对应的块深度图{M_n(i，j)}及FV图38B{V_n(i，j)}。步骤S134后跟步骤S136，在步骤S136中，作出是否可从视频编码模块54执行的视频编码过程154获得运动信息(MV)36的确定。如果所述确定为“是”，那么分析所述运动信息(MV)36且在步骤S138处获得全局运动向量(GMV)。步骤S138后跟步骤S139，在步骤S139中，作出全局运动(即，所述GMV)是否大于阈值的确定。如果所述确定为“是”而非镜头12向其它景象移动，那么维持精确的景象深度历史及估计对象移动方向的任务使用不同的过程。

如果步骤S139处的确定为“是”，设定D_n(i，j)＝M_n(i，j)及F_n(i，j)＝V_n(i，j)，在BDM及FV图的更新过程期间(在步骤S144处)清除先前帧的所存储BDM及FV图历史。

再次返回步骤S136，在一些系统中，由于各种各样的原因(例如，视频未被编码或编码算法的运动估计模块已被关闭)，运动信息36不可用。因此，步骤S136处的确定为“否”，且步骤S136后跟步骤S144(稍后将予以说明)。当步骤S136处的确定为“否”时，所述过程假设所有块的运动向量为零。

如果运动信息36可用，那么步骤S139后跟步骤S142，在步骤S142中，过程132通过方程式Eq.(3)及Eq.(4)从先前帧的BDM及FV图预测当前帧P_n(i，j)及T_n(i，j)的BDM及FV图。

方程式(3)

及

方程式(4)

其中第(n-1)个帧中的块(a，b)是第n个帧中的块(i，j)的预测，且FVTH是FV差的阈值。

步骤S142后跟步骤S144，在步骤S144中装置10假设更好的焦点传达更精确的深度估计。因此，焦点镜头位置对应于最大的FV且被看作最佳选择。基于所述逻辑，通过方程式Eq.(5)及Eq.(6)确定最终BDM及FV图

方程式(5)

及

F_n(i，j)＝max[F_n-1(i，j)，V_n(i，j)，T_n(i，j)]方程式(6)

其中{D_n(i，j)}及{F_n(i，j)}(i＝1，2，...N，j＝1，2，...N)是当前帧的最终所确定块深度图(BDM)及焦点值(FV)图38A；{M_n(i，j)}及{V_n(i，j)}是通过自动聚焦过程126获得的内部BDM及FV图；且{P_n(i，j)}及{T_n(i，j)}是通过运动预测获得的内部BDM及FV图。如所预期，方程式Eq.(5)及(6)并非对于所有情况都精确。对于一些困难的情景(例如，当堵塞/曝光发生时)，方程式Eq.(5)及Eq.(6)将失败。大体来说，合理地假设以15-30帧/秒的速度捕获视频帧，且所述帧中的对象以合理的速度移动，使得对象不会移动得太远而移动到相邻帧中。

启发式规则是指上文所论述及图8中所示的流程图中的方程式Eq.(3)-(6)的假设及逻辑。这些规则实际上编码在程序中，且历史数据存储在存储器60中以估计深度图。

在获得BDM之后，基于结合针对静止图像模式的深度检测过程130说明的相同方法根据步骤S144的BDM结果在步骤S146处计算图像深度图(IDM)。因此，步骤S144的BDM经历伪影减少131A及双线性滤波器131B进行的双线性滤波(图3)。

返回步骤S139，如果所述确定为“否”，那么步骤S139后跟步骤S140，在步骤S140中翻转历史。在步骤S140处，翻转历史是指以下动作：如果检测到全局运动(即，GMV大于阈值)(其意味着相机镜头正向其它景象移动)，那么维持精确的景象深度历史及估计对象移动方向的任务变得困难。对于此种情况，设定D_n(i，j)＝M_n(i，j)及F_n(i，j)＝V_n(i，j)，并清除先前帧的所存储BDM及FV图历史。然后，步骤S140后跟步骤S146。

图9A-9F中显示展示图8的过程的实例。图9A及9B显示第一帧82的图像及对应的BDM 84。另一方面，图9C及9D显示视频的第30个帧86及其对应的BDM 88。图9E及9F显示视频的第60个帧90及其对应的BDM 92。在所述视频中，塑料瓶从较远的距离滚动到相机。从这些图中可容易地看出，过程132能够捕获景象中对象的移动并在所获得的深度图中反映这些活动。

在图10A、10B及10C中，分别从BDM 84、88及92产生的图像深度图(IDM)94、96及98显示于使用过程132的图9B、9D及9F中。通过使用深度检测过程130(图3)获得IDM 94、96及98。

立体图像对产生

现在参照图1及11，到此为止装置10已捕获图像或左视图并获得对应的图像深度图。图像对产生模块42使用现在将说明的图像对产生过程142。在步骤S144处，获得所述左视图且在步骤S146处从深度检测过程130或132获得其对应的图像深度图。

虽然图像对产生过程142首先在步骤S144处假设所获得的图像是立体系统的左视图，但另一选择为，可将所述图像视为右视图。然后，基于在步骤S146处获得的图像深度图，在视差图子模块44中在步骤S148处计算所述图像的视差图(两个视图中图像点之间的像素距离)。下文将参照图12A及12B说明通过视差图子模块48进行的视差图计算。并且输入左视图及深度图两者以用于计算所述视差图，然而，对于3D视图的产生，且所述左视图及深度图直接致力于基于Z缓冲器的表面恢复。步骤S148后跟步骤S150，在步骤S150中调用Z缓冲器3D表面恢复子模块46进行的基于Z缓冲器的3D内插过程146来构造来自右眼的景象的3D可见表面。步骤S150后跟步骤S152，如在图12B中最佳观看，在步骤S152中通过将所述3D表面投影到投影平面上获得右视图。通过立体视图产生器子模块48实施步骤S152。

在图12A中，针对远方对象使用投影平面上的左(L)及右(R)视图显示双目视觉的几何模型。在图12B中，F是焦距，L(x_L，y_L，0)是左眼，R(x_R，y_R，0)是右眼，T(x_T，y_T，z)是景象中的3D点，且P(x_P，y_P，F)及Q(x_Q，y_Q，F)是T在左及右投影平面上的投影点。显然，P及Q在投影平面上的水平位置是(x_P-x_L)及(x_Q-x_R)，且因此视差是d＝[(x_Q-x_R)-(x_P-x_L)]。

如图12B中所示，F与z的比率在方程式Eq.(7)中界定为

\frac{F}{z} = \frac{x_{P} - x_{L}}{x_{T} - x_{L}} = \frac{x_{Q} - x_{R}}{x_{T} - x_{R}}

方程式(7)

其中z是深度。

因此方程式Eq.(8)及(9)如下

x_{P} - x_{L} = \frac{F}{z} (x_{T} - x_{L}),

方程式(8)

x_{Q} - x_{R} = \frac{F}{z} (x_{T} - x_{R}),

方程式(9)

且因此可通过方程式Eq.(10)获得视差d

d = \frac{F}{z} (x_{L} - x_{R}) .

方程式(10)

因此，对于左视图中的每一像素来说，其在右视图中的相对物向左侧或右侧移位在方程式(10)中所获得的视差值的距离。然而，由于可能的堵塞，从左视图到右视图的映射不是1对1映射，因此需要进一步处理来获得右视图图像。

因此，通过Z缓冲器3D表面恢复子模块46执行基于Z缓冲器的3D内插过程146，以产生右视图。由于与从眼睛到对象的距离相比两只眼睛之间的距离非常小(如图12A中所示)，因此近似地认为从对象到左眼的距离等于从其自身到右眼的距离，此将大大简化计算。因此，针对右(R)视图维持深度图Z(x，y)(其中，Z(x，y)实际上是图像深度图，但其是将要检测的未知图)，其中x、y是所述视图中的像素位置。

现在参照图15A及15B，现在将说明针对右视图重构3D可见表面的过程146。开始(步骤S166)，将深度图初始化为无穷大。步骤S166后跟步骤S168，在步骤S168中获得左视图中的像素(x₀，y₀)。然后，对于左视图中具有深度z₀及视差值d₀的每一像素(x₀，y₀)来说，在步骤S170中通过如下界定的方程式Eq.(11)针对其在右视图中的对应像素更新深度图

Z(x₀+d₀，y₀)＝min[Z(x₀+d₀，y₀)，z₀].方程式(11)

步骤S170后跟步骤S172，步骤S172是确定是否存在任何更多像素的确定步骤。如果所述确定为“是”，那么步骤S172返回步骤S168以得到下一像素。另一方面，在处理完左视图中的所有像素之后(因此，步骤S172处的确定为“否”)，那么步骤S172后跟步骤S174，在步骤S174中检查经重构的深度图并搜索具有等于无穷大的值的像素(在左视图上没有有效图的像素)。步骤S174后跟步骤S176，在步骤S176中作出像素值(PV)是否等于无穷大的确定。如果步骤S176处的确定为“否”，那么像素值(PV)有效且可将其直接用作图15B的步骤S188处的强度值。

如果对于所述像素步骤S176处的确定为“是”，那么在步骤S180处首先基于其具有可用深度值的相邻像素通过2D内插来计算对应像素的深度。此后在步骤S182处，使用以上Eq.10计算视差值且然后在步骤S184处相反地在左视图中找出所述像素的对应像素。步骤S184后跟步骤S186以确定是否找到像素。如果所述对应像素可用，那么步骤S186后跟步骤S188，在步骤S188中可将对应的强度值用于右视图像素上。否则，如果步骤S186处的确定为“否”，那么步骤S186后跟步骤S190，步骤S190基于其在右视图中具有可用强度值的相邻像素使用内插来计算强度值。

重要的是指出使用所提出的算法胜于直接强度内插方法的益处是：其考虑对象形状的3D连续性，从而产生更好的立体效果真实性。显然，恢复左视图的不可见区域的问题是劣病态问题。在一种已知解决方案中，在后面没有其它可见表面是在所述景象中的假设下，通过使用其在对应于其它表面的水平方向上的相邻像素来恢复遗漏像素的深度。对于某些情况来说，所述假设可能无效。为考虑更多的可能情况，在所提出的解决方案中，所述表面恢复考虑所有方向上所有相邻像素的深度，此将减少无效假设的机会且将产生所恢复表面的更好3D连续性。

试验结果

装置10可实施在MSM8K VFE C-SIM系统中。试验结果指示所捕获及产生的立体图像及视频具有优异的3D效果。

在所述试验中，使用廉价的红色-蓝色彩色立体图产生过程152来展示所得3D效果，但所产生的立体视图也可通过其它机构(例如，全息及立体装置)显示。在第一试验中，使用不同种类的图像深度图及所产生的对应彩色立体图图像来计算立体图像对。如图13A及13B中所示。通过使用图6E中所示的经近似图像深度图产生图13A，且通过使用图6B中所示的精确图像深度图产生图13B。显然，结果指示经近似的图像深度图产生与使用所述精确深度图类似的图像质量，此证明良好的性能。

总之，单视场低功率移动装置10提供立体图像及视频的实时捕获及产生。装置10采用单视场相机传感器模块14的自动聚焦过程来捕获并产生所述立体图像及视频。使用所述相机传感器的自动聚焦过程来估计景象中遥远对象的深度信息。对于视频捕获，提供低复杂性算法以基于运动信息、焦点值及帧历史统计数据来检测块深度图。

装置10经构造以用于实时应用，因此计算复杂性是主要关心问题。然而，装置10以粗-到-细策略估计对象深度，也就是说，将图像划分为多个块，使得可快速检测相关联的块深度图。然后，采用双线性滤波器来将块深度图转换为经近似的图像深度图。对于立体图像的产生，低复杂性的基于Z缓冲器的3D表面恢复方法估计遗漏的视图。

试验结果指示所捕获及产生的立体图像及视频具有令人满意的3D效果。传感器模块14的聚焦功能性越好，所估计的深度图将越精确，且因此所产生的图像及视频具有越好的立体效果。

上文对本发明实施例的说明是出于例示及说明的目的而提供的。其并非打算为穷尽性或将本发明限定为所揭示的精确形式，且可依据以上教示或根据本发明的实践实现修改及变化形式。选择并说明所述实施例的目的在于解释本发明原理及其实际应用，以使所属技术领域中的技术人员能够在各种实施例中并以适于所涵盖的特定应用的各种修改来利用本发明。本发明的范围打算由所附权利要求书及其等效物来界定。

Claims

1.一种单视场低功率移动装置，其包含：

单传感器相机传感器模块，其可操作以捕获图像且具有自动聚焦子模块，所述自动聚焦子模块可操作以经由聚焦过程通过将镜头移动通过整个聚焦范围来确定最佳焦点位置并在捕获所述图像时选择具有最大焦点值的焦点位置；

深度图产生器组合件，其可操作以在第一阶段中使用来自所述自动聚焦子模块的统计数据自动形成块级深度图且在第二阶段中基于所述块级深度图形成图像深度图；及

图像对产生器模块，其可操作以通过基于所述图像深度图及双目视觉几何形状在左视图及右视图中的图像点之间的像素距离计算所述所捕获图像的视差图来从所述所捕获图像创建遗漏的第二视图，以创建三维(3D)立体的所述左视图及右视图；其中所述所捕获图像代表所述左视图。

2.如权利要求1所述的装置，其中所述图像对产生器模块包含：视差图子模块，其计算所述视差图；Z缓冲器3D表面恢复子模块，其可操作以从所述右视图构造所述所捕获图像的3D可见表面；及立体视图产生器子模块，其可操作以将所述右视图的所述3D表面投影到投影平面上。

3.如权利要求1所述的装置，其中所述自动聚焦子模块的所述聚焦过程在静止图像模式中执行穷举搜索聚焦过程以捕获静止图像，且在视频模式中为实现视频剪辑的实时捕获，所述自动聚焦子模块的所述聚焦过程是通过所述穷举搜索聚焦过程起始的且后跟随有爬山聚焦过程。

4.如权利要求3所述的装置，其中所述深度图产生器组合件在所述第二阶段中可操作以用双线性滤波器减少伪影。

5.如权利要求4所述的装置，其中在所述第二阶段中，所述深度图产生器组合件可操作以：

获得在所述聚焦过程期间找出的每一块的角点A、B、C及D的深度值，所述深度值是相应块的相邻块的平均值，其中中间点d的深度界定如下

d = \frac{d_{1} + d_{2} + d_{3} + d_{4}}{4},

其中d₁、d₂、d₃及d₄是所述相邻块的所述深度值；及

在获得所有所述角点A、B、C及D的所述深度值之后，所述双线性滤波器可操作以获得所述块内部的像素的像素深度值。

6.如权利要求5所述的装置，其中所述双线性滤波器进一步可操作以根据以下方程式计算像素P(x_P，y_P，d_P)的所述像素深度值d_P

d_{p} =

\frac{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{A} +

\frac{{(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{B} +

\frac{{(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{C} +

\frac{{(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{D},

其中所述块的所述角点A、B、C及D的位置值及所述深度值表示为(x_A，y_A，d_A)、(x_B，y_B，d_B)、(x_C，y_C，d_C)、(x_D，y_D，d_D)。

7.如权利要求3所述的装置，其进一步包含：视频编码模块，其用于对所捕获的所述视频剪辑进行编码并可操作以确定运动估计，且所述深度图产生器组合件可操作以在所述第二阶段中使用来自所述运动估计、所述聚焦过程的统计数据信息及历史数据加上启发式规则来检测并估计用于立体视频的实时捕获及产生的深度信息，以获得从其中导出所述图像深度图的最终块深度图。

8.如权利要求1所述的装置，其进一步包含显示器及3D效果产生器模块，所述3D效果产生器模块用于在所述显示器上显示所述3D立体左及右视图。

9.如权利要求8所述的装置，其中所述3D效果产生器模块可操作以在所述显示器上产生所述3D立体左及右视图的红色-蓝色彩色立体图图像。

10.如权利要求1所述的装置，其中所述低功率移动装置包含手持式数码相机、摄录一体机及单传感器相机电话中的一者。

11.一种单视场低功率移动装置，其包含：

用于用单传感器捕获图像的装置；

自动聚焦装置，用于对镜头进行自动聚焦并通过将所述镜头移动通过整个聚焦范围来确定最佳焦点位置且用于在捕获所述图像时选择具有最大焦点值的焦点位置；

产生装置，用于在第一阶段中使用来自所述自动聚焦装置的统计数据自动产生块级深度图且在第二阶段中基于所述块级深度图产生图像深度图；及

创建装置，用于通过基于所述图像深度图及双目视觉几何形状在左视图及右视图中的图像点之间的像素距离计算所述所捕获图像的视差图来从所述所捕获图像创建遗漏的第二视图，以创建三维(3D)立体的所述左视图及右视图；其中所述所捕获图像代表所述左视图。

12.如权利要求11所述的装置，其中所述创建装置包含：计算装置，其用于计算所述视差图；通过Z缓冲进行3D表面恢复的装置，其用于从遗漏的右视点构造所述所捕获图像的3D可见表面；及产生装置，其用于通过将所述所构造的3D表面投影到投影平面上来产生立体视图。

13.如权利要求11所述的装置，其中所述自动聚焦装置包括：执行装置，其用于在静止图像模式中执行穷举搜索聚焦过程以捕获静止图像；起始装置，其用于在视频模式中起始所述穷举搜索聚焦过程；及爬山聚焦装置，其用于在所述视频模式中跟随所述穷举搜索聚焦过程进行爬山聚焦以捕获实时视频剪辑。

14.如权利要求13所述的装置，其中所述产生装置在所述第二阶段中包括用于减少伪影的装置。

15.如权利要求14所述的装置，其中所述用于减少伪影的装置包括：获得装置，其用于获得由所述自动聚焦装置找出的每一块的角点A、B、C及D的深度值，所述深度值是相应块的相邻块的平均值，其中中间点d的深度界定如下

d = \frac{d_{1} + d_{2} + d_{3} + d_{4}}{4},

其中d₁、d₂、d₃及d₄是所述相邻块的所述深度值；及

双线性滤波装置，其用于在获得所有所述角点A、B、C及D的所述深度值之后进行双线性滤波以获得所述块内部的像素的像素深度值。

16.如权利要求15所述的装置，其中所述双线性滤波装置包含

计算装置，其用于根据以下方程式计算像素P(x_P，y_P，d_P)的所述像素深度值d_P

d_{p} =

\frac{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{A} +

\frac{{(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{B} +

\frac{{(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{C} +

\frac{{(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{D},

17.如权利要求13所述的装置，其进一步包含：视频编码装置，其用于对所捕获的所述视频剪辑进行编码；其中所述视频编码装置包括运动估计装置；且其中所述产生装置包括检测与估计装置，所述检测与估计装置用于使用来自所述运动估计装置、所述自动聚焦装置的统计数据信息及历史数据加上启发式规则来检测并估计用于立体视频的实时捕获及产生的深度信息，以获得从其中导出所述图像深度图的最终块深度图。

18.如权利要求11所述的装置，其进一步包含显示器及3D效果产生装置，所述3D效果产生装置用于在所述显示器上产生所述3D立体左及右视图的3D效果。

19.如权利要求18所述的装置，其中所述3D效果产生装置在所述显示器上产生所述3D立体左及右视图的红色-蓝色彩色立体图图像。

20.如权利要求11所述的装置，其中所述低功率移动装置包含手持式数码相机、摄录一体机及单传感器相机电话中的一者。

21.一种用于产生实时立体图像的方法，其包含以下步骤：

用单传感器捕获图像；

对镜头进行自动聚焦并通过将所述镜头移动通过整个聚焦范围来确定最佳焦点位置且在捕获所述图像时选择具有最大焦点值的焦点位置；

在第一阶段中使用来自所述自动聚焦步骤的统计数据自动产生块级深度图且在第二阶段中基于所述块级深度图产生图像深度图；及

通过基于所述图像深度图及双目视觉几何形状的在左视图及右视图中的图像点之间的像素距离计算所述所捕获图像的视差图来从所述所捕获图像创建遗漏的第二视图，以创建三维(3D)立体的左视图及右视图；其中所述所捕获图像代表所述左视图。

22.如权利要求21所述的方法，其中所述从所述所捕获图像创建遗漏的第二视图，以创建三维(3D)立体的左视图及右视图的步骤包含以下步骤：计算所述视差图；使用Z缓冲进行3D表面恢复，以用于从遗漏的右视点构造所述所捕获图像的3D可见表面；及通过将所述所构造的3D表面投影到投影平面上来产生遗漏的右视图。

23.如权利要求21所述的方法，其中所述自动聚焦步骤包括以下步骤：在静止图像模式中执行穷举搜索聚焦过程以捕获静止图像；在视频模式中起始所述穷举搜索聚焦过程；及在视频模式中跟随所述穷举搜索聚焦过程进行爬山聚焦以捕获实时视频剪辑。

24.如权利要求23所述的方法，其中所述在所述第二阶段中产生图像深度图步骤包括减少伪影的步骤。

25.如权利要求24所述的方法，其中所述减少伪影步骤包括以下步骤：获得由所述自动聚焦步骤找出的每一块的角点A、B、C及D的深度值，所述深度值是相应块的相邻块的平均值，其中中间点d的深度界定如下

d = \frac{d_{1} + d_{2} + d_{3} + d_{4}}{4},

其中d₁、d₂、d₃及d₄是所述相邻块的所述深度值；及

在获得所有所述角点A、B、C及D的所述深度值之后，执行双线性滤波以获得所述块内部的像素的像素深度值。

26.如权利要求25所述的方法，其中所述双线性滤波步骤包含以下步骤：

根据以下方程式计算像素P(x_P，y_P，d_P)的所述像素深度值d_P

d_{p} =

\frac{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{A} +

\frac{{(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{B} +

\frac{{(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{C} +

\frac{{(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{D},

其中将所述块的所述角点A、B、C及D的位置值及所述深度值表示为(x_A，y_A，d_A)、(x_B，y_B，d_B)、(x_C，y_C，d_C)、(x_D，y_D，d_D)。

27.如权利要求23所述的方法，其进一步包含对所述视频剪辑进行视频编码及运动估计的步骤，其中所述产生块级深度图和图像深度图步骤包括检测与估计步骤，所述检测与估计步骤使用来自所述运动估计步骤、所述自动聚焦步骤的统计数据及历史数据加上启发式规则来检测并估计用于立体视频的实时捕获及产生的深度信息，以获得从其中导出所述图像深度图的最终块深度图。

28.如权利要求21所述的方法，其进一步包含在显示器上产生所述3D立体左及右视图的3D效果的步骤。

29.如权利要求28所述的方法，其中所述产生3D效果的步骤包括在所述显示器上产生所述3D立体左及右视图的红色-蓝色彩色立体图图像的步骤。

30.一种用于处理静止图像的方法，其包含以下步骤：

对所捕获的静止图像进行自动聚焦处理并估计所述图像中遥远对象的深度信息以检测块级深度图；从所述块级深度图近似图像深度图；及从所述所捕获图像创建遗漏的第二视图，以创建三维(3D)立体的左视图及右视图。

31.如权利要求30所述的方法，其中所述自动聚焦处理步骤包括使用粗-到-细深度检测过程处理所述图像的步骤。

32.如权利要求30所述的方法，其中所述近似步骤包含对所述块级深度图进行双线性滤波以导出经近似的图像深度图的步骤。

33.如权利要求32所述的方法，其中所述自动聚焦处理步骤包含在检测出所述块级深度图时确定包括角点A、B、C及D的每一焦点块的深度值的步骤；且其中所述双线性滤波步骤获得所述块内部的像素的深度值。

34.如权利要求33所述的方法，其中将所述块的所述角点A、B、C及D的位置值及所述深度值表示为(x_A，y_A，d_A)、(x_B，y_B，d_B)、(x_C，y_C，d_C)、(x_D，y_D，d_D)，以便计算所述块内所有所述像素的所述深度值，其中对于由点P(x_P，y_P，d_P)表示的相应像素，所述相应像素的所述深度值d_P界定如下

d_{p} =

\frac{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{A} +

\frac{{(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{B} +

\frac{{(x_{P} - x_{C})}^{4} + {(y_{P} - y_{C})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{C} +

\frac{{(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}}{{(x_{P} - x_{A})}^{4} + {(y_{P} - y_{A})}^{4} + {(x_{P} - x_{B})}^{4} + {(y_{P} - y_{B})}^{4} + {(x_{P} - x_{C})}^{4} + {(y_{P} - x_{C})}^{4} + {(x_{P} - x_{D})}^{4} + {(y_{P} - y_{D})}^{4}} d_{D},

35.一种静止图像捕获装置，其包含：自动聚焦模块，其可操作以处理所捕获的静止图像并估计所述图像中遥远对象的深度信息以检测块级深度图；图像深度图模块，其可操作以使用双线性滤波从所述块级深度图近似图像深度图；及图像对产生器模块，其可操作以从所述所捕获图像创建遗漏的第二视图以创建三维(3D)立体左及右视图。

36.如权利要求35所述的装置，其进一步包含可操作以显示所述3D立体左及右视图的3D效果的3D效果产生器模块。

37.如权利要求35所述的装置，其中所述自动聚焦模块的聚焦过程执行穷举搜索聚焦过程以捕获所述静止图像。

38.如权利要求35所述的装置，其中所述图像深度图模块可操作以用所述双线性滤波减少伪影。

39.一种视频图像捕获装置，其包含：自动聚焦模块，其可操作以处理所捕获的视频剪辑并估计景象中遥远对象的深度信息；视频编码模块，其可操作以对所捕获的所述视频剪辑进行编码并确定运动估计；及图像深度图模块，其可操作以使用来自所述运动估计、所述自动聚焦模块的聚焦过程的统计数据信息及历史数据加上启发式规则来检测并估计用于立体视频的实时捕获及产生的深度信息，以获得从其中导出图像深度图的最终块深度图。

40.如权利要求39所述的装置，其中所述自动聚焦模块的用以实现视频剪辑的实时捕获的所述聚焦过程是通过穷举搜索聚焦过程起始的且后跟随有爬山聚焦过程。

41.如权利要求39所述的装置，其进一步包含图像对产生器模块，其可操作以从所述所捕获图像创建遗漏的第二视图以创建三维(3D)立体左及右视图。

42.如权利要求41所述的装置，其进一步包含3D效果产生器模块，其可操作以显示所述3D立体左及右视图的3D效果。

43.如权利要求39所述的装置，其中所述图像深度图模块可操作以通过以下方程式从先前帧的内部块深度图及焦点值图预测当前帧n的内部块深度图(P_n(i，j))及焦点值图(T_n(i，j))

及

其中{P_n(i，j)}及{T_n(i，j)}是从所述视频编码模块的所述运动估计中获得的内部BDM及FV图，(a，b)表示第(n-1)个帧中的块且是第n个帧中的块(i，j)的预测，且FV_TH是焦点值FV阈值；且

其中焦点镜头位置对应于最大的FV且被看作最佳选择，其中最终BDM及FV图由以下方程式确定

及

F_n(i，j)＝max[F_n-1(i，j)，V_n(i，j)，T_n(i，j)]

其中{D_n(i，j)}及{F_n(i，j)}(i＝1，2，...N，j＝1，2，...N)分别是所述当前帧的最终确定的块深度图BDM及最终确定的焦点值FV图，且{M_n(i，j)}及{V_n(i，j)}是由所述自动聚焦模块获得的所述内部BDM及FV图。