CN103250184A

CN103250184A - 基于全局运动的深度估计

Info

Publication number: CN103250184A
Application number: CN201180058928XA
Authority: CN
Inventors: 张�荣; 陈盈; 马尔塔·卡切维奇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-11-23
Filing date: 2011-11-22
Publication date: 2013-08-14
Anticipated expiration: 2031-11-22
Also published as: JP2013545200A; US9171372B2; KR20130102626A; JP2015188234A; WO2012074852A1; EP2643810A1; CN103250184B; US20120127270A1

Abstract

本发明描述用于估计视频呈现的二维2D视图的图像对象的深度的技术。举例来说，可确定2D视图的多个特征点。所述多个特征点可用来估计所述2D视图的全局运动，例如观察者(例如，相机)的运动。举例来说，可使用所述多个特征点来产生全局运动帧差异。所述全局运动帧差异可用来产生所述2D视图的深度图，其可用以产生所述视频呈现的替代视图，所述替代视图可用以显示三维3D视频呈现。

Description

基于全局运动的深度估计

本申请案是2010年11月23日申请的题为“基于全局运动的深度估计(DEPTHESTIMATION BASED ON GLOBAL MOTION)”的第12/953,310号美国申请案的部分延续案，所述案的全部内容以引用的方式并入本文中。

技术领域

本发明大体上涉及三维(3D)视频的产生。更具体来说，本发明涉及产生现有二维(2D)视频呈现的深度图，所述深度图可用以产生用于显示三维(3D)视频呈现的替代视图。

背景技术

近年来，已开发诸多技术(例如，电视机、dvd播放器、机顶盒、蓝光播放器、计算机和类似物)以允许在视频显示装置中的3D视频呈现。然而，大多数现有视频内容(例如，所存储、下载和/或流式视频内容)仅经配置来以2D显示。因而，可能需要将2D视频呈现的现有数字表示转换为3D呈现。为此，可能需要分析2D视频呈现以确定视频对象相对于彼此的深度。视频对象深度的表示可称作深度图。对象深度的确定可用以产生以3D显现给用户的视频呈现。

发明内容

全局运动可描述为在视频捕捉期间的相机运动。全局运动移动的一些实例包含相机左右水平移动、上下倾斜和/或例如放大和缩小等各种其它效果。本发明描述用于估计视频呈现的2D视图的图像对象的深度的技术，其包含估计2D视图的全局运动，例如估计捕捉2D视图的一个或一个以上立体相机的运动。本发明还描述用于基于图像的像素子集来估计全局运动的技术。本发明进一步描述用于基于经全局运动补偿的帧差异来确定图像的深度图的技术。

在一些实例中，估计全局运动可提供转换视频呈现的2D视图的改进，使得视频呈现可被感知为具有深度，例如3D视频呈现。举例来说，基于全局运动估计深度可提供视频呈现的替代视图的产生。替代视图可与原始2D视图结合显示以用于显示视频呈现，使得视频呈现将实质上3D显现给查看者。

根据一个实例，本文中描述一种方法。所述方法包含经由用于视频呈现的二维(2D)视图的计算装置的图像处理模块确定所述2D视图的至少一个帧的光流，其中所述光流是由所述2D视图的观察者与所述2D视图的对象之间的相对运动造成的对象亮度模式在视觉平面中的明显运动的表示。所述方法进一步包含通过所述图像处理模块且基于所述所确定光流来估计所述至少一个帧的全局运动。所述方法进一步包含通过所述图像处理模块基于所述所估计全局运动来调整所述光流，以产生所述至少一个帧的经全局运动调整的光流。所述方法进一步包含通过所述图像处理模块基于所述经全局运动调整的光流产生所述视频呈现的所述2D视图的深度图。

根据另一实例，本文中描述一种设备。所述设备包含光流确定模块，其针对视频呈现的二维(2D)视图确定所述2D视频呈现的至少一个帧的光流，其中所述光流是由所述2D视图的观察者与所述2D视图的对象之间的相对运动造成的对象亮度模式在视觉平面中的明显运动的表示。所述设备进一步包含全局运动估计模块，其基于所述所确定光流估计所述至少一个帧的全局运动。所述设备进一步包含全局运动调整模块，其基于所述所估计全局运动调整所述光流，来产生所述至少一个帧的经全局运动调整的光流。所述设备进一步包含基于所述经全局运动调整的光流产生所述视频呈现的所述2D视图的深度图的掩模/深度图产生模块。

根据另一实例，本文中描述一种计算机可读存储媒体。所述计算机可读存储媒体存储指令，所述指令在执行时使得一个或一个以上处理器：针对视频呈现的二维(2D)视图确定所述2D视频呈现的至少一个帧的光流。所述光流是由所述2D视图的观察者与所述2D视图的对象之间的相对运动造成的对象亮度模式在视觉平面中的明显运动的表示。所述指令进一步使得所述计算装置基于所述光流估计所述至少一个帧的全局运动。所述指令进一步使得所述计算装置基于所述所估计全局运动来调整所述光流，以产生所述至少一个帧的经全局运动调整的光流。所述指令进一步使得所述计算装置基于所述经全局运动调整的光流产生所述视频呈现的所述2D视图的深度图。

根据另一实例，本文中描述一种装置。所述装置包含用于针对视频呈现的二维(2D)视图确定所述2D视频呈现的至少一个帧的光流的装置。所述光流是由所述2D视图的观察者与所述2D视图的对象之间的相对运动造成的对象亮度模式在视觉平面中的明显运动的表示。所述装置进一步包含用于基于所述光流估计所述至少一个帧的全局运动的装置。所述装置进一步包含用于基于所述所估计全局运动来调整所述光流以产生所述至少一个帧的经全局运动调整的光流的装置。所述装置进一步包含用于基于所述经全局运动调整的光流产生所述视频呈现的所述2D视图的深度图的装置。

根据另一实例，本发明描述一种确定视频呈现的二维视图的深度图的方法。所述方法包含经由用于视频呈现的二维(2D)视图的计算装置的图像处理模块来确定视频呈现的帧的多个特征点。所述方法进一步包含基于所述多个特征点确定所述帧的全局运动。所述方法进一步包含确定基于所述所确定全局运动产生所述帧的深度图。

根据另一实例，一种装置经配置以确定视频呈现的二维(2D)视图的深度图。所述装置包含图像处理模块，其经配置以确定视频呈现的帧的多个特征点，基于所述多个特征点确定所述帧的全局运动，及基于所述所确定全局运动产生所述帧的深度图。

根据另一实例，一种装置经配置以确定视频呈现的二维(2D)视图的深度图。所述装置包含用于确定视频呈现的帧的多个特征点的装置。所述装置进一步包含用于基于所述多个特征点确定所述帧的全局运动的装置。所述装置进一步包含用于基于所述所确定全局运动产生所述帧的深度图的装置。

根据另一实例，本文中描述一种计算机可读存储媒体。所述计算机可读存储媒体包含指令，所述指令在执行时使得一个或一个以上处理器：确定视频呈现的帧的多个特征点，基于所述多个特征点确定所述帧的全局运动，及基于所述所确定全局运动产生所述帧的深度图。

一个或一个以上实例的细节陈述于附图及以下描述中。本发明的其它特征、目标及优势将从描述及附图和从权利要求书中显而易见。

附图说明

图1是说明与本发明技术一致的用于将2D视频呈现转换为3D视频呈现的方法的一个实例的流程图。

图2是说明与本发明技术一致的经配置以估计2D视频呈现的深度的计算装置的一个实例的框图。

图2A是说明与本发明技术一致的图像处理模块的一个实例的框图。

图3是说明与本发明技术一致的产生用于2D视频呈现的深度图的方法的一个实例的流程图。

图4是说明与本发明技术一致的用于确定针对视频呈现的至少一个帧是否发生场景改变的方法的一个实例的流程图。

图5是说明与本发明技术一致的确定针对视频呈现的至少一个帧是否存在全局运动的方法的一个实例的流程图。

图6是说明与本发明技术一致的识别用于估计全局运动的特征点的方法的一个实例的流程图。

图7是说明与本发明技术一致的将图像像素/对象分类为前景/背景的方法的一个实例的流程图。

图8是说明与本发明技术一致的精炼视频呈现的初始掩模的方法的一个实例的流程图。

图9是说明与本发明技术一致的用于确定视频呈现的2D视图的至少一个前景像素的方法的一个实例的流程图。

图10是说明与本发明技术一致的识别用于估计全局运动的特征点的方法的一个实例的流程图。

图11是说明与本发明技术一致的具有中央区和外围区的帧的概念图。

图12是说明与本发明技术一致的用于确定2D图像的深度图的方法的一个实例的流程图。

图13是说明与本发明技术一致的用于确定2D图像的深度图的方法的一个实例的流程图。

具体实施方式

本发明描述用于估计视频呈现的2D视图的图像对象的深度的技术，其包含估计2D视图的全局运动，例如估计捕捉到2D视图的一个或一个以上单像相机的运动。在一些实例中，估计全局运动可提供转换视频呈现的2D视图的改进，使得视频呈现可被感知为具有深度，例如3D视频呈现。举例来说，本发明的技术提供确定至少一个视频帧、图像深度的至少一个初始指示(例如，至少一个像素的光流)，以及基于所述初始指示而估计所述帧的全局运动。全局运动的估计可用以补偿像素运动的初始指示，由此改进确定至少一个视频帧的对象的深度(例如，前景或背景)的准确度。因此，可针对至少一个帧产生深度图。深度图可用以产生视频呈现的至少一个替代视图，所述至少一个替代视图可结合至少一个其它视图(例如，2D视图)使用以显示3D(例如，立体)视频呈现。

图1是说明与本发明技术一致的用于估计所捕捉图像的深度的一个实例方法的流程图。如图1所示，方法包含获取视频呈现的2D(例如，单像)视图(101)。2D视图可包含用一个或一个以上单像(单个)相机捕捉的图像。2D视图可代替为使用一个或一个以上立体(一个以上)相机捕捉到的多个视图中的单个视图。方法进一步包含产生2D视图的一个或一个以上对象和/或像素的深度的初始指示(102)。可基于本文描述的技术中的任一者来产生深度的初始指示，包含(例如)如上文所描述的模糊性、运动、基于块的匹配、分段或光流技术。所述方法进一步包含基于深度的初始指示来确定2D视图的至少一个帧的全局运动(103)。所述方法进一步包含基于所确定的全局运动来调整2D视图的对象和/或像素的初始指示(104)。举例来说，在使用光流来确定图像深度的初始指示的情况下，方法包含基于所确定的全局运动来修改2D视图的至少一个像素的至少一个光流向量，从而产生所述至少一个像素的经全局运动调整的光流向量。方法进一步包含基于所调整的深度图来产生2D视图的至少一个替代视图(105)。方法可进一步包含使用2D视图的所产生的替代视图来呈现3D视图。举例来说，视频呈现的2D视图可显示为3D视频呈现的左视图，而替代视图可显示为3D视频呈现的右视图。右视图与左视图之间的差异可导致3D视频呈现的一个或一个以上图像由查看者感知为具有深度。

图2为说明可用以实践本发明技术的计算装置201的实例布置的框图。计算装置201可为经配置以处理一个或一个以上2D视频视图以产生所述一个或一个以上2D视频视图的3D表示的任何装置。可用以实践本发明技术的计算装置201的非限制性实例包含：桌上型计算机、膝上型计算机、平板计算装置、智能电话、笔记型计算机、电视机、视频游戏控制台、便携式视频游戏单元、或经配置以处理视频数据的任何其它计算装置。

如图2的实例中所示，计算装置201包含一个或一个以上处理器210。所述一个或一个以上处理器210是计算装置201的组件，其经配置以执行指令以使计算装置执行若干功能，例如本发明的深度估计技术。举例来说，处理器210可经配置以执行存储组件212所存储的指令。存储组件212可包含一个或一个以上短期或长期存储器存储组件，例如计算机硬盘、快闪存储器或随机存取存储器(RAM)组件。在一个实例中，处理器210可包括计算装置201的一个或一个以上中央处理单元(CPU)。在其它实例中，处理器210可代替或另外包含一个或一个以上图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、特定逻辑或硬件、或其它类似处理组件。

如图2中所示，处理器210包含图像处理模块214。根据所描绘实例，图像处理模块214包含由存储组件212存储以及可由一个或一个以上处理器210执行的指令以执行本文所述的技术。在执行存储在存储组件212中的指令后，处理器210则可被视为经配置以执行本发明技术的特定机器。举例来说，由处理器210执行指令可使处理器210在顾及视频呈现的2D视图的全局运动的同时估计视频呈现的2D视图的深度。

图像处理模块214可包含经配置以执行本文所述的各种技术的专用硬件或固件。根据这些实例，与图像处理模块214相关联的硬件或固件可被视为如图2所示的处理器210的一部分。举例来说，图像处理模块214可包括经配置以执行本发明技术的一个或多个专门化硬件组件。举例来说，图像处理模块214可包含以下各项的任何组合：图形处理组件、专门化硬件(例如，ASIC)、可编程硬件(固件、FPGA)、或经配置以与本发明技术一致操作的任何其它专门化和/或可编程硬件。

根据一个实例，图像处理模块214可经由存储组件212所存储的视频图像的数字表示而获取2D视频视图。在另一实例中，图像处理模块214可经由通信模块216而获取来自一个或一个以上其它计算装置的2D视频视图。通信模块216可包含一个或一个以上组件以实现与其它计算装置的通信。举例来说，通信模块216可促进经由有线或无线网络(例如，因特网)的通信。因此，图像处理模块214可经由通信模块216而获取存储在另一计算装置上的2D视频。根据另一实例，图像处理模块214可从图像捕捉装置(图2中未展示)直接获取2D视频视图。举例来说，计算装置201可包含经配置以捕捉图像的一个或一个以上相机装置或与所述一个或一个以上相机装置通信地耦合。所述一个或一个以上相机装置可将所捕捉图像实时或近似实时传达到图像处理模块214。根据这些实例，图像处理模块214可将本文描述的技术实时或近似实时应用到所捕捉图像的帧。举例来说，因为图像由一个或一个以上相机装置捕捉，所以图像处理模块214可处理所接收2D图像帧用于3D显示。

根据本发明的技术，图像处理模块214可获取2D视频视图，且确定所述2D视频视图的至少一个对象/像素的深度的初始指示。图像处理模块214可进一步确定2D视频视图的全局运动。图像处理模块214可进一步基于所确定的全局运动来调整2D视频视图的至少一个对象/像素的深度的初始指示。图像处理模块214接着可使用经调整的深度指示来产生2D视频视图的至少一个替代视图。替代视图可经配置以结合所获取2D视图或另一视图使用以显示3D视频。

根据一个实例，图像处理模块214可将所产生替代视图传达到存储组件212用于存储。根据另一实例，计算装置201可经由通信模块216将所产生替代视图传达到另一计算装置用于存储。根据另一实例，计算装置201可作为服务器装置而操作以将所产生替代视图流式传输(例如，经由HTTP或类似流式传输协议)到另一计算装置用于呈现给用户。举例来说，计算装置201可将所产生替代视图流式传输到经配置以将3D立体图像显示给用户的计算装置。

在一些实例中，如图2中所示，经配置以如本文所述而估计深度的计算装置201可进一步包含显示控制模块218，其经配置以与一个或一个以上显示器219通信以将一个或一个以上图像显示给查看者。类似于如图2所示的图像处理模块214，显示控制模块218可包括可由处理器210执行以控制一个或一个以上显示器219的软件指令。在图2中未描绘的其它实例中，显示控制模块218可代替或另外包含经配置以控制一个或一个以上显示器219的专门化硬件。

所述一个或一个以上显示器219可为计算装置201(例如，膝上型计算机、笔记型计算机、智能电话、便携式视频游戏装置、平板计算机或类似物)的一部分，或可通信地耦合到计算装置201(例如，桌上型计算机监视器、电视显示器、视频游戏控制台或类似物)。一个或一个以上显示器219可经配置而在以下意义上显示立体图像：一个或一个以上显示器219可传达预期分别由查看者的右眼和左眼感知的第一图像和第二图像。在一些此类实例中，用户可佩戴专门化眼镜，使得第一图像独立地由查看者的右眼查看，且第二图像独立地由查看者的右眼查看。显示控制模块218可经配置以与显示器219通信，以使相应的右图像和左图像得以显示。举例来说，显示控制模块218可经配置以传达控制显示器219的一个或一个以上显示元件(例如，液晶、发光二极管、等离子显示元件)的信号，以使显示元件发射光(例如，不同颜色、频率或强度的光)从而使相应右图像和左图像得以显示给查看者。

图2A是说明与本发明技术一致的图像处理模块214的一个实例(图像处理模块214A)的框图。根据图2的实例，图像处理模块214A包含各种子模块，例如：场景改变检测模块230、光流确定模块232、全局运动确定模块234、全局运动估计模块236、全局运动调整模块238以及掩模/深度图产生模块240。类似于图2中描绘的图像处理模块214，各种子模块230、232、234、236、238和240可包括可在硬件上执行的软件的任何组合，所述硬件例如处理器和/或经配置以执行本文所述的技术中的任一者的任何其它专用硬件。

场景改变检测模块230可经配置以分析视频呈现的一个或一个以上帧，以确定所述一个或一个以上帧是否表示场景改变或多个帧之间的实质上差异。下文关于图3中的步骤302描述可由场景改变检测模块230使用的技术的实例。

光流确定模块232可经配置以确定对象深度的初始指示，例如视频帧的至少一个像素的光流。举例来说，光流确定模块232可分析视频呈现的一个或一个以上帧以确定所述一个或一个以上帧的至少一个像素的光流，例如，如下文关于图5进一步详细描述。

全局运动确定模块234可经配置以分析视频呈现的一个或一个以上帧，以确定所述一个或一个以上帧是否包含全局运动。全局运动可经描述为视频捕捉期间的相机运动。全局运动的实例包含相机左右平移、上下倾斜、放大和缩小以及类似移动。根据一个实例，全局运动确定模块234可经配置以从光流确定模块232接收对象深度的初始指示(例如，至少一个光流向量)。根据此实例，全局运动确定模块234可分析对象深度的所接收初始指示以确定全局运动是否存在于所述一个或一个以上帧中。因此，如果全局运动确定模块234确定针对所述一个或一个以上帧不存在全局运动，那么图像处理模块214A可跳过全局运动估计和/或调整技术。在一个实例中，全局运动确定模块234可确定视频呈现的一个或一个以上帧是否包含全局运动，如下文关于下文图3的步骤305所描述。

全局运动估计模块236可经配置以估计视频呈现的至少一个帧的全局运动(例如，如果由全局运动确定模块234确定存在全局运动)。举例来说，全局运动估计模块236可从光流确定模块232接收视频帧的至少一个像素的光流向量的指示。全局运动估计模块236可分析一个或一个以上接收的光流向量以确定全局运动的至少一个指示，例如如下文关于图3中描绘的步骤306描述的参数模型的全局运动参数。

全局运动调整模块238可经配置以修改对象深度的初始指示以顾及全局运动。举例来说，全局运动调整模块238可从光流确定模块232接收一个或一个以上光流向量。全局运动调整模块238可进一步从全局运动估计模块236接收一个或一个以上全局运动参数。根据一个实例，全局运动调整模块238可将接收的全局运动参数应用到所述一个或一个以上光学向量，以产生视频呈现的至少一个帧的经全局运动调整的光流。下文关于图3的步骤307描述可由全局运动调整模块238使用以产生经全局运动调整的光流的技术的一个实例。

掩模/深度图产生模块240可经配置以从全局运动调整模块238接收至少一个像素的经全局运动调整的光流，且基于所述经全局运动调整的光流来确定至少一个帧的深度图。举例来说，掩模/深度图产生模块240可将图像像素分类为背景和/或前景(例如，如下文关于图3中的步骤308所描述)，基于所述分类而产生初始前景/背景掩模(例如，如关于图3中的步骤309所描述)，精炼初始掩模(例如，如关于图3中的步骤310所描述)，和/或对初始掩模进行后处理(例如，如关于图3中的步骤311所描述)。根据本文描述的各种实例，掩模/深度估计模块240可进一步产生视频呈现的至少一个帧的深度图(例如，如下文关于图3中的步骤312所描述)。

下文将各种技术描述为大体由图像处理模块214执行。所属领域的技术人员将了解，本文描述的各种技术还可或代替地由图像处理模块214的特定子模块执行，例如上文关于图2A描述的图像处理模块214A的子模块230、232、234、236、238和240。

可基于图像模糊性、对象移动和/或光流(例如，归因于对象亮度的运动的颜色改变)来确定2D视频呈现的深度。然而，这些技术可能会遭受某些缺点。举例来说，此类技术可基于可能对于所有视频呈现或一视频呈现的若干部分不成立的一个或一个以上假设。

随着立体显示技术的开发，立体或三维(3D)视频已日益流行。由于这些技术，已显著增加针对3D内容的需求，例如电影、电视节目、视频游戏和其它内容。

许多3D显示技术利用双目视觉，例如，其中提供稍有不同的图像由查看者的左眼和右眼不同地感知。由于此感知差异，所以针对用户产生深度感知。然而，大多数现有视频内容仅经配置用于以2D方式查看。举例来说，大多数现有视频内容仅包含初级视图，且不包含可允许3D视频渲染的任何次级视图。此外，许多现有摄像机仅能够捕捉单像视频(例如，仅包含单个相机或从同一视角捕捉图像的多个相机)，且因此未经配置来以3D方式直接捕捉图像。

将2D视频呈现转换为3D视频转换可包含从已知原始2D视图产生一个或一个以上替代视图。此类转换技术的一个方面可包含所捕捉视频的对象的相对深度的估计，使得可重放视频而使查看者感知到深度。在一些实例中，可在产生一个或一个以上替代视图之前估计图像对象的深度。

深度估计可包含从一个或一个以上单像(例如，2D)视图估计对象与相机平面之间的绝对或相对距离(称作深度)。在一些实例中，深度信息由灰度级图像深度图表示。举例来说，可取决于图像像素的绝对或相对深度而对其指派一值。在一个特定实例中，深度值“0”指示对象与相机之间的最大距离，而深度值“255”指示最小距离。

可使用2D图像的估计深度图来确定用于呈现3D视频的深度。举例来说，可使用估计的深度图而使用基于深度图像的渲染(DIBR)技术来产生视频的一个或一个以上替代视图的角度。举例来说，估计的深度图可用以确定3D视频呈现的相应右图像与左图像之间的差异，所述差异使得3D图像在经查看时具有深度。

2D视频的许多方面可用以估计2D图像的对象深度。举例来说，取决于2D视频的来源，可使用视角几何形状或时间或2D空间提示，例如对象运动和颜色。在视频已包含两个或两个以上预捕捉的视图(例如，使用多个相机立体地捕捉)的情况下，可基于捕捉到视图的一个或一个以上相机的内在和/或外在参数而通过核面几何(epipolargeometry)获得深度图。此类技术可通过识别若干立体视图中同一对象的对应性来估计视差信息(与对象深度成反比)。此类技术还可包含局部匹配与全局优化方法，例如图割和置信传播。

大体上，可将视频帧看作一个或一个以上前景对象与背景和/或背景对象的组合物。从相机焦点的视点来看，可假设散焦区域(例如，背景图像)的色彩强度与聚焦区域(例如，前景图像)相比更模糊。根据一个实例，可基于图像像素的模糊性等级来确定所捕捉图像的深度。

图像像素的相对模糊性可基于以梯度为基础的测量或频域分析。举例来说，可针对一些视频或视频帧假设：具有较大梯度值的图像较不模糊，而具有较小梯度值的图像较模糊。然而，对于其它视频或帧，这些假设可能不准确。举例来说，相机视角可聚焦在远处图像对象上而非相机附近的对象。另外，上述图像模糊分析可能不适合于前景的无纹理区，这是因为前景同质区域不含有太多的高频分量。因此，根据模糊性估计图像深度可能不准确，这是因为模糊性的较低等级可能并不总是指示较小深度(例如，距相机的距离)。

用于深度估计的其它技术可涉及分析单像2D视频中的运动。这些技术可依赖于以下假设：较近的对象(相对于相机视角)预期显现得较大，且与远处对象相比具有较多运动。

运动估计可包含估计邻近视频帧之间的对象移动。运动估计可包含确定一个或一个以上运动向量。可将运动向量描述为指示视频呈现的连续帧之间的对象水平和/或垂直平移位移的向量。举例来说，对于包含静态背景的某些视频场景设置，可通过从静态背景减去对象的运动来获得运动。由于对静态背景的需要，所以运动估计可能对于一些视频和/或一视频的若干帧来说是不需要的。用于估计运动的另一技术是确定邻近帧之间的差异，而非比较帧与静态背景。根据此技术，可基于连续帧的像素的色彩强度的以像素和/或窗为基础的减法来识别运动。

根据将运动用作深度识别的技术，可使用运动量值来指派一个或一个以上帧像素的深度值。举例来说，具有较大运动量值的像素可经指派较大深度值。然而，类似于用于估计深度的模糊性的使用，使用运动作为深度指示还可基于对于至少一些视频不成立的假设。举例来说，实质上距相机相同距离的若干对象可独立地移动，但具有不同速度。根据这些实例，运动可能并不总是图像深度的适当指示符，这是因为较快移动的对象可能与较慢对象距离相同。在其中图像在短时间间隔内保持静态无运动的另一实例中，可不使用运动来估计深度。

可用于运动估计的另一技术是基于块的匹配。可在视频压缩中使用基于块的匹配。根据这些技术，视频的一个或一个以上帧划分为若干块。当前帧的每一块可与相同大小但在参考帧中位移的块进行比较。可将与最小匹配成本(例如，匹配误差的绝对值的总和)相关联的所确定位移识别为所述块中所有像素的估计的运动值。

用于估计深度的另一技术是图像分段。大体上，具有相同或类似颜色的像素属于同一对象，而明显的强度改变指示对象边界。可假设深度场是逐片平滑的，且深度不连续性由图像强度的不连续性来反映。根据这些技术，将视频帧分段为若干区或区段。这些区段接着被指派不同的深度值。尽管与基于像素的估计相比较来说图像区段的深度估计可实现较一致的深度图，但计算复杂性可能增加。另外，含有类纹理区域的一些场景可能难以分段。图像分段在以下情况下也可能是不适当的：其中区段遭受色彩变化，例如相同对象的明度改变。而且，在一些情况下，可针对一个对象确定若干不同区段，和/或可将一个对象的像素分类到具有另一对象的像素的同一区段中。因此，在一些情况下，当用于深度估计时，分段结果可能不够准确。

代替根据色彩强度值将图像分割为若干同质区，还可将其直接用于深度估计中。举例来说，可将一些色彩信息(例如，色度Cr分量)用作自然视频场景的深度初始化。根据某些色彩空间中的那些分量进行的深度估计的一个优点在于其简单性。对于属于同一对象的像素来说，色度分量可以是平滑的。与基于分段的深度估计相比，直接从那些色彩分量产生的深度图可更好地保留对象形状，且因此提供更好的空间一致性。尽管估计的深度值对于真实的深度远不够准确，但根据此类技术所产生的合成立体象对可提供某种程度的3D效应。

光流技术可识别由观察者(例如相机)与正被观察的对象之间的相对运动引起的视觉平面中对象亮度模式的明显运动。举例来说，视频帧的光流可被视为运动场，其中每一点被指派描述其移动的速度向量。光流技术可包含经由亮度恒定等式而使对象速度与基于像素梯度的强度改变相关。全局或局部优化技术可用以计算一个或一个以上帧像素的光流运动向量。

与上文描述的模糊性、运动和其它技术不同，根据色彩强度(例如，光流)测量的视频帧平滑性可用以产生在空间和时间两者上相对一致的深度图。准确地估计深度图可能对于减少3D视频呈现中的假象是重要的，所述假象例如所产生替代虚拟视图中的闪烁和局部变形。

图3是说明至少部分基于视频呈现的全局运动来估计视频呈现的2D(例如，单像)视图的图像深度的方法的一个实例的流程图。本文描述的各种实例(包含图3的方法)经论述为由图2中描绘的计算装置201或计算装置201的组件(例如，图像处理模块214)来执行。在其它实例中，本文描述的技术可由任何计算装置或模块执行，不管是否在本文中特定描述。

如图3中描绘，图像处理模块214可获取视频呈现的2D视图(301)。2D视图包含按视频呈现的呈现顺序(例如，经由一个或一个以上显示器呈现给用户)的至少两个连续帧。图3中所描绘的技术经描述为应用于所捕捉视频呈现的当前(f_N)与下一(f_N+1)帧。在一些实例中，图3中所描绘的技术可多次应用于视频呈现的多个帧。

图像处理模块214(例如，图2A中所描绘的场景改变检测子模块230)可进一步确定帧f_N与f_N+1之间是否存在场景改变(302)。举例来说，图像处理模块214可确定场景改变，其中帧f_N表示与视频呈现的帧f_N+1实质上不同的场景。可能需要确定是否已发生场景改变，这是因为在帧f_N与f_N+1表示不同的所捕捉场景时，基于光流和/或所确定的全局运动的深度估计可能并不有意义。此外，检测场景改变可改进视频帧分析的时间(例如，在时间上)一致性。举例来说，当在两个时间邻近的帧之间发生场景改变时，当前帧的深度图可能在时间上不与先前的帧相关。因此，可能需要避免例如求若干连续帧的深度的平均值的操作。

因此，如果在视频呈现的帧f_N与f_N+1之间确定场景改变，那么图像处理模块214可跳过针对帧f_N的深度估计。代替估计帧f_N的深度，图像处理模块214可使用先前针对视频呈现的一个或一个以上先前帧(例如，帧f_N-1)所确定的深度估计来用于当前帧f_N(303)。

图4是说明视频呈现的一个或一个以上帧是否包含场景改变(例如，图3中描绘的步骤302)的技术的一个实例的流程图。根据图4中描绘的方法，图像处理模块214(例如，图2A中描绘的场景改变检测子模块230)可基于强度直方图来检测场景改变是否发生。根据此方法，可针对当前帧f_N来确定像素色彩的相对强度的直方图(401)。还可针对下一帧f_N+1来确定像素色彩的相对强度的直方图(402)。

根据一个实例，帧f_N的强度直方图可由直方图值H_N＝{h_N，m}来表示，且帧f_N+1的强度直方图可由直方图值H_N+1＝{h_N+1，m}来表示。根据这些实例，第m区间的直方图值可为具有属于第m区间的强度值的像素数目。在一个实例中，m的值可为m＝0、1、....M-1。

根据这些等式，M可表示相应直方图的区间数目。根据一个此类实例，对于像素色彩强度范围介于0-255的8位色彩表示，M的值可为256。在其它实例中，为降低直方图值H_N、H_N+I的维度，可针对M使用较小的值。

图像处理模块214可进一步确定在步骤301和302确定的相应直方图之间的相关系数λ(403)。根据一个实例，相关系数λ可基于以下等式来确定。

λ (H_{N}, H_{N + 1}) = \frac{Σ_{m_{1}, m_{2}} (h_{N, m_{1}} - {\overset{&OverBar;}{H}}_{N}) (h_{N + 1, m_{2}} - {\overset{&OverBar;}{H}}_{N + 1})}{\sqrt{(} Σ_{m_{1}} {(h_{N, m_{1}} - H_{N})}^{2} Σ_{m_{2}} {(h_{N + 1, m_{2}} - {\overset{&OverBar;}{H}}_{N + 1})}^{2})} - - - (1),

其中：

{\overset{&OverBar;}{H}}_{N} = \frac{1}{M} Σ_{m = 0}^{M} h_{N, m}

且，

{\overset{&OverBar;}{H}}_{N + 1} = \frac{1}{M} Σ_{m = 0}^{M} h_{N + 1, m}

如图4中还描述的，图像处理模块214可进一步确定在步骤403确定的相关系数λ是否大于阈值T₁(404)。阈值T₁可为基于视频呈现中的场景改变的经验分析的预定值，但也可以其它方式自适应地确定或界定。如果相关系数λ的值小于阈值T₁，那么图像处理模块214可确定已在帧f_N与帧f_N+1之间检测到新的场景(405)。然而，如果相关系数λ的值大于或等于阈值T1(例如，λ＞＝T1)，那么图像处理模块214可确定尚未在帧f_N与帧f_N+1之间检测到新的场景(406)。

根据图4中所说明的技术，如果f_N和帧f_N+1属于同一场景(例如，无场景改变)，那么在步骤401、402确定的相应直方图H_N、H_N+1可实质上类似，例如H_N、H_N+1是高度相关的。在一个实例中，如果在帧f_N与f_N+1之间不存在场景改变，那么在步骤403确定的相关系数λ可等于或接近值1。否则，相关系数λ可具有较小值，例如实质上小于值1。

返回参看图3，如果图像处理模块214不确定帧f_N与f_N+1之间的场景改变(302)，那么图像处理模块214(例如，图2A中描绘的光流确定子模块232)可确定帧f_N和f_N+1的深度的初始指示，例如帧f_N和f_N+1的至少一个像素的光流(304)。光流可经描述为由观察者(例如，相机)与(例如，由观察者捕捉的)正被观察的一个或一个以上对象之间的相对运动引起的视觉平面中对象亮度模式的明显运动。为确定至少一个像素的光流，图像处理模块214可经由亮度恒定等式而使对象速度与基于像素梯度的强度改变相关。根据一个实例，图像处理模块214可确定帧的一个或一个以上像素的速度向量V_x，y。在图3中未描绘的其它实例中，图像处理模块214可基于不同于光流的技术来确定初始指示。举例来说，图像处理模块214可基于如上所述的模糊性、运动、基于块的匹配和/或分段技术来确定深度的初始指示。

根据一个实例，图像处理模块214可确定视频呈现的至少一个体素(voxel)的光流。体素可被视为对象在x、y、z现实世界坐标中的体积点。可将体素投影到在时间t的相机平面(图像捕捉的平面)的位置(例如，x、y位置)上。体素的强度可由值I(x，y，t)表示。强度I(x，y，t)可表示体素的显现在从体素投影的观察者(例如，相机)的平面中的强度。值x可表示相机平面(图像捕捉的平面)的水平指数，而值y表示相机平面的垂直指数。在小时间间隔δt后，在时间t+δt，可在新位置(例如，x、y位置)投影体素，(x+δx，y+δy，t+δt)。如果时间间隔δt相对较短，那么可假设强度值I(x，y，t)不变，例如由以下等式表示：

I(x，y，t)＝I(x+δx，y+δy，t+δt) (2)，

根据一个实例，图像处理模块214可确定短时间段内小移动的泰勒(Taylor)级数。举例来说，图像处理模块214可根据以下等式来确定泰勒级数：

I (x + δx, y + δy, t + δt) \approx I (x, y, t) + \frac{δI}{δx} δx + \frac{δI}{δy} δy + \frac{δI}{δt} δt, - - - (3),

其中：

和

是体素强度相对于空间水平方向x、空间垂直方向y和时间方向t的导数算子。如果

和

被视为分别等效于I_x、I_y和I_t，那么：

I_xδx+I_yδ_y+I_tδt＝0 (4)，

且，

I_{x} \frac{δI}{δx} + I_{y} \frac{δI}{δx} + I_{t} = 0 - - - (5),

根据上述等式，体素(像素)的速度向量(即，光流运动向量)可描述为：

V = [\frac{δx}{δy}, \frac{δy}{δt}] = {[v_{x}, v_{y}]}^{T},

且亮度恒定等式可描述为：

I_xv_x+I_yv_y+I_t＝0 (6)，

对于给定像素位置(例如，x、y位置)，图像处理模块214可确定等式(6)的值I_x、I_y和I_t。值I_x、I_y和I_t可经描述为分别沿着空间水平、垂直和时间方向的导数。图像处理模块214可基于连续帧之间的差异来确定值I_t。图像处理模块214可基于沿着水平方向将离散差动滤波器(算子)应用到原始帧而确定值I_x。图像处理模块214可基于沿着垂直方向将离散差动滤波器(算子)应用到原始帧而确定值I_y。一旦已确定I_x、I_y和I_t的值，便可将I_x、I_y和I_t用以确定v_x及v_y的值。

因此，可使用相关技术中已知的各种技术来确定v_x及v_y的值。举例来说，图像处理模块214可基于以下约束来确定值v_x、v_y：卢卡斯-凯拉得(Lucas-Canade)(LK)光流方法和豪恩雄克(Horn Schunck)(HS)方法。图像处理模块214还可使用其它技术来确定值v_x、v_y。

图像处理模块214(例如，图2A中描绘的光流确定子模块232)可使用上述计算来确定一个或一个以上图像像素的光流，且产生指派到所述一个或一个以上图像像素的光流向量V_x，y。图像处理模块214可使用光流向量来估计视频帧的像素和/或对象的深度。举例来说，图像处理模块214可对具有较大光流量值的像素指派较大深度值，以及对具有较小光流值的像素指派较小深度值。在其中使用8位灰度级来表示像素深度的一个特定实例中，图像处理模块214可将深度值0指派到较远离来源(例如，相机)的像素，以及将深度255指派到较接近来源的像素。

返回参看图3，一旦已确定帧f_N和f_N+1的深度的初始指示(例如，在步骤304)，图像处理模块214便可确定帧f_N是否存在全局运动(305)。图5是说明用于确定帧f_N是否包含全局运动的一个实例技术的流程图。根据图5的方法，图像处理模块214可将帧f_N和f_N+1分割为多个块(501)。在一个此类实例中，图像处理模块214可将帧f_N和f_N+1分割为L乘L块。这些分割的块可用值k₁和k₂编索引，其中k₁表示水平块索引，且k₂表示垂直块索引。图像处理模块可针对每一块k₁、k₂确定平均流量值(例如，

\frac{1}{L^{2}} Σ_{x = k_{1} L}^{(k_{2} + 1) L - 1} Σ_{y = k_{2} L}^{(k_{2} + 1) L - 1} | V_{x, y}) 502 .

图像处理模块214(例如，图2A中所描绘的全局运动确定子模块234)可进一步确定相应块k₁、k₂是否存在全局运动(503)。根据一个实例，图像处理模块214可针对每一相应块比较平均流量值与预定阈值T₂，如以下等式所示：

其中V_x，y是在像素位置(x，y)的光流向量，如上文关于图4所描述。|X|可表示向量X的L²范数。

可基于可能已知包含或不包含全局运动的视频呈现帧的经验分析来选择预定阈值T₂，但也可自适应地确定或以其它方式界定。如果所述块的平均流量值大于或等于预定阈值T₂，那么图像处理模块214可确定相应块存在全局运动。因此，图像处理模块214可对相应块k₁、k₂的全局运动旗标(例如，B_k1，_k2)指派值1(504)。如果所述块的平均流量值小于预定阈值T2，那么图像处理模块214可确定所述块不存在全局运动。因此，相应块k₁、k₂的全局运动旗标(例如，B_k1，_k2)可被指派值0(505)。

如图5中还描绘，图像处理模块214可确定帧f_N、f_N+1是否存在全局运动(506)。图像处理模块214可通过对帧f_N、f_N+1的相应块k₁、k₂的相应全局运动旗标(例如，B_k1，_k2)求和来确定帧f_N、f_N+1是否存在全局运动。图像处理模块214可进一步比较相应全局运动旗标的总和的结果与阈值T₃。可基于可能已知包含或不包含全局运动的视频呈现帧的经验分析来选择预定阈值T₃，但也可自适应地确定或以其它方式界定。如果相应全局运动旗标的总和大于阈值T₃，那么图像处理模块214可确定帧f_N、f_N+1存在全局运动(507)。然而，如果相应全局运动旗标的总和小于阈值T₃，那么图像处理模块214可确定帧f_N、f_N+1不存在全局运动(508)。

返回参看图3，如果确定帧f_N、f_N+1不存在全局运动，那么图像处理模块214(例如，图2A中描绘的掩模/深度图产生子模块240)可进行到将帧f_N的一个或一个以上像素和/或对象分类为前景或背景对象(308)，如下文进一步详细描述。然而，如果确定帧f_N、f_N+1存在全局运动，那么图像处理模块214(例如，图2A中描绘的全局运动估计子模块236)可估计帧f_N、f_N+1的至少一个像素的全局运动(306)。在一些实例中，图像处理模块214可通过确定一个或一个以上全局运动参数来估计全局运动。

如图3中还展示，图像处理模块214(例如，图2A中描绘的全局运动调整子模块238)可基于估计的全局运动(例如，如在步骤306所确定)来调整图像深度的初始指示(例如，在步骤304确定的光流)(307)。在一个实例中，图像处理模块214可通过将所确定的全局运动参数应用到图像深度的初始指示来调整图像深度的初始指示。根据其中基于如上文关于图5所描述的光流来确定图像深度的初始指示的一个实例，图像处理模块214可调整帧f_N的至少一个像素的速度向量(光流运动向量)以补偿估计的全局运动。举例来说，图像处理模块214可将一个或一个以上所确定的全局运动参数应用到帧f_N的至少一个像素的速度向量以产生经全局运动调整的速度向量。

根据一个实例，可基于相机移动的模型来确定至少一个像素的全局运动的估计。下文描述的相机移动模型的实例是8参数视角模型，然而如本文描述的相机移动模型可包含不超出本发明的范围的任何数目的参数。举例来说，还可使用与本发明的其它实例一致的2参数平移模型或6参数仿射模型。

根据8参数视角模型，帧f_N的原始点位置(x，y)与帧f_N+1的对应点位置(x′，y′)之间的关系可由以下等式表示：

x^{'} = \frac{ax + by + c}{px + qy + 1}

y^{'} = \frac{dx + ey + f}{px + qy + 1} - - - (8),

其中变量a、b、c、d、c、f、p和q是视角模型的8个参数。因此，图像处理模块214可根据帧f_N、f_N+1的至少一个光流向量的分析而确定相应参数的值。尽管这些等式可表示非线性变换函数，但在一些实例中，这些等式可经换算为线性等式。将这些等式换算为线性形式可为有利的，这是因为其可能需要求解较少的计算。

根据一个实例，欧几里德(Euclidian)坐标表示中的2D点可具有对应的同质表示。举例来说，图像平面点中的2D点[x，y]^T可通过引入额外分量而表示为与表示欧几里德坐标中的水平和垂直方向的x和y分量不同，额外分量

可能不具有物理意义。在一些实例中，

可能逆映射到欧几里德坐标，如通过以下等式所示：

x = \frac{\tilde{x}}{\tilde{w}}

y = \frac{\tilde{y}}{\tilde{w}} - - - (9),

根据同质表示，点表示可能不会随着缩放而变化。举例来说，向量和

可表示2D图像平面中的同一点，这是因为它们的欧几里德坐标表示可能根据上文等式(9)相同。

举例来说，假设点[x，y]^T和[x′，y′]^T是从同一真实世界体素投影但在不同时间投影的两个图像帧中的两个对应点。根据上述同质表示，根据帧fN的8参数视角模型的非线性映射可由以下等式表示：

x^{'} = \frac{ax + by + c}{px + qy + 1}

y^{'} = \frac{dx + ey + f}{px + qy + 1} - - - (8),

这些等式可进一步由以下线性矩阵运算来表示：

(\begin{matrix} x^{'} w \\ y^{'} w \\ w \end{matrix}) = H (\begin{matrix} x \\ y \\ 1 \end{matrix})

其中

H = (\begin{matrix} h_{11} & h_{12} & h_{13} \\ h_{21} & h_{22} & h_{23} \\ h_{31} & h_{32} & 1 \end{matrix}) - - - (10),

上述线性矩阵运算(10)是具有8个自由度的3乘3非奇异矩阵。矩阵H可称作两个图像平面之间的单应矩阵。上述线性矩阵运算可使用上述等式

和

来映射到欧几里德坐标，如由以下等式所表示：

x^{'} = \frac{x^{'} w}{w} = \frac{h_{11} x + h_{12} y + h_{13}}{h_{31} x + h_{32} y + 1}

y^{'} = \frac{y^{'} w}{w} = \frac{h_{21} x + h_{22} y + h_{23}}{h_{31} x + h_{32} y + 1} - - - (11),

其具有与上文描述的变换函数

和相同的形式。

等式

x^{'} = \frac{x^{'} w}{w} = \frac{h_{11} x + h_{12} y + h_{13}}{h_{31} x + h_{32} y + 1}

和

y^{'} = \frac{y^{'} w}{w} = \frac{h_{21} x + h_{22} y + h_{23}}{h_{31} x + h_{32} y + 1}

可进一步以以下形式来写：

(\begin{matrix} x & y & 1 & 0 & 0 & 0 & - x x^{'} & - y x^{'} \\ 0 & 0 & 0 & x & y & 1 & - {xy}^{'} & - {yy}^{'} \end{matrix}) (\begin{matrix} h_{11} \\ h_{12} \\ h_{13} \\ h_{21} \\ h_{22} \\ h_{23} \\ h_{31} \\ h_{32} \\ h_{33} \end{matrix}) = (\begin{matrix} x^{'} \\ y^{'} \end{matrix}) - - - (12),

因此，给定点对对应性[x，y]^T和[x′，y′]^T，可使用上述两等式

和

来描述全局运动。理论上，通过8个自由度(对应于8个未知参数)，可使用至少4个点对来求解线性矩阵等式(12)。

为了估计上述8参数视角模型的参数，图像处理模块214可以上述等式(12)的形式来用公式表示一个或一个以上像素。然而，一些像素可能影响等式(12)的参数的准确性。举例来说，属于同质强度区域的像素可能根据等式(12)不具有正确估计的运动。因此，根据一些实例，图像处理模块可选择帧f_N、f_N+1的候选像素来减少针对其确定全局运动参数的像素的数目。

图6是说明与本发明技术一致的图像处理模块214选择候选像素的一个实例的流程图。根据这个实例，图像处理模块214可执行边缘检测以确定帧f_N的一个或一个以上边缘像素(601)。举例来说，在帧f_N的对象是人脸的情况下，可检测人脸的边缘。可根据所属领域中已知的各种技术来执行如本文中所描述的边缘检测。本文中未明确地描述此些技术。

图像处理模块214可进一步确定帧f_N、f_N+1的至少一个像素的光流向量V＝[v_x，v_y]^T的一阶梯度值Δv(602)。根据一个实例，图像处理模块214可确定帧f_N、f_N+1的所有像素的一阶梯度值Δv。在其它实例中，图像处理模块214可确定帧f_N、f_N+1的像素的子集(例如，在步骤601识别为边缘像素的那些像素)的一阶梯度值Δv。

如图6所示，图像处理模块214可进一步针对每一所识别边缘像素确定所确定一阶梯度值的绝对值|Δv|是否大于预定阈值T₄(603)。预定阈值T₄可基于对可已知作为特征点为适当的像素的经验分析来选择，但还可以其它方式自适应性地确定或界定。如果所确定一阶梯度值的绝对值|Av|小于或等于预定阈值T₄，那么图像处理模块可选择所述像素作为用于确定全局运动的特征点(604)。然而，如果所确定一阶梯度值的绝对值|Av|大于预定阈值T₄，那么图像处理模块214可不选择所述像素作为用于估计帧f_N、f_N+1的全局运动的特征点(605)。如图6所示，图像处理模块214可使用选定特征点像素来确定帧f_N的深度(例如)以确定帧f_N的全局运动(606)。举例来说，图像处理模块214可使用选定特征点像素根据如上文所描述的相机移动的模型(例如，透视模型)来确定一个或一个以上全局运动参数。

返回参看图3，如上文所论述，图像处理模块214(例如，图2A中所描绘的全局运动调整子模块238)可进一步调整图像深度的初始指示，以对全局运动进行补偿(307)。根据一个实例，图像处理模块可通过将所确定全局运动参数应用于帧f_N、f_N+1的深度的初始指示(例如，在步骤304的光流)来调整图像深度的初始指示，以对全局运动进行补偿。因此，可产生经全局运动调整的光流。根据一个实例，对于帧f_N+1的每一像素位置(x，y)，可根据等式(12)来确定对应经全局运动调整的位置(x′，y′)。举例来说，图像处理模块214可根据以下等式表示每一像素的全局运动：

global_v_x＝x-x′

global_v_y＝y-y′ (13)，

图像深度的初始指示(例如，如在图3中在步骤304所确定)可基于局部和全局运动两者。因此，图像处理模块214可通过从图像深度的初始指示减去全局运动来对全局运动进行补偿。在图像深度的初始指示是光流的情况下，光流可表示为针对每一像素的光流向量V＝[v_x，v_y]^T。经调整的流向量因此可由等式V′＝[v′_x，v′_y]^T来表示，其中：

v′_x＝v_x-global_v_x，且

v′_x＝v_x-global_v_x (14)，

经全局运动调整的帧f′_N+1可被认为是在时间t+δt捕捉的帧，好像在时间t到t+δt之间没有相机移动一样。图像处理模块212可使用帧f_N+1的像素(x，y)的相同强度来设定帧f′_N+1的像素(x′，y′)的强度。例如：

I′_{N+1，(x′，y′)}＝I_{N+1，(x，y)} (15)，

深度的初始指示(例如，如在图3中在步骤304所确定的光流)可指代对视频呈现的帧f_N与f_N+1之间的差异的估计，而如本文中所描述的经全局运动补偿的帧差异可表示帧f_N与经全局运动调整的帧f′_N+1之间的差异。例如：

Frm_DiffN＝f_N-f′_N+1 (16)，

根据上文所描述的技术，对于帧的经全局运动调整的光流，帧的仍在现实世界中的背景对象可显现为静态的，即使原始帧包含全局运动也是如此。因此，具有局部运动的仅前景移动对象可在经全局运动调整的帧中具有运动。因此，图像处理模块214可以更大准确度来确定深度图，这是因为已移除全局运动。如上文所描述，深度图可为指示视频帧的像素和/或对象的相对深度的值的图。

在一些实例中，上文关于等式(8)到(12)所描述的透视模型可能不是整数。在一些实例中，为了减小计算复杂性，图像处理模块214可将值(x′，y′)四舍五入到最近整数，且可将I_N+1，(x+y)的强度指派给整数像素位置值(x′，y′)。如果对应位置(x′，y′)超出视频帧的边界，那么图像处理模块214可舍弃像素。根据另一实例，一个以上像素位置(x，y)可映射到整数位置(x′，y′)。根据此实例，图像处理模块214可将(x′，y′)处的强度值设定为所有像素的强度值的平均值。如果无像素映射到特定像素位置(x′，y′)，那么图像处理模块214可通过从一个或一个以上相邻像素位置的所确定强度进行内插来获得像素位置的强度。

返回参看图3，不管是否确定存在全局运动(例如，在图3中在步骤305)，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可进一步基于帧f_N的光流或帧f_N的经全局运动调整的光流，将帧f_N的对象和/或像素分类为前景或背景对象(308)。图7说明与本发明的技术一致的图像处理模块214将帧像素和/或对象分类为前景或背景对象的一个实例。举例来说，如图7中所示，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可将光流向量(例如，经全局运动调整的光流向量，或在步骤305未确定帧f_N包含全局运动的情况下的未经全局运动调整的光流向量)与预定阈值T₅进行比较，以确定图像的对象是前景对象还是背景对象(701)。预定阈值T₅可基于对视频呈现帧的可已知是前景和/或背景对象或像素的对象和/或像素的经验分析来选择，但还可以其它方式自适应性地确定或界定。在一些实例中，图像处理模块214可针对帧f_N的每一像素将光流与预定阈值T₅进行比较。在其它实例中，图像处理模块214可针对帧f_N的像素子集将光流与预定阈值T₅进行比较。举例来说，图像处理模块可基于如上文所描述的边缘检测或用于确定帧的哪些像素组成帧的图像对象的任何其它技术来选择用于比较的像素。

如还在图7中所示，如果像素的光流小于或等于预定阈值T₅，那么图像处理模块214可将像素分类为背景对象的部分(702)。然而，如果像素的光流大于预定阈值T₅，那么图像处理模块214可将像素分类为前景对象的部分(703)。

返回参看图3，在一些实例中，基于在图3方法的步骤308的对象是前景或背景对象的分类，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可产生初始前景/背景掩模(309)。如本文中所描述的掩模可为图像帧的已分类为前景对象的那些区域和已分类为背景对象的那些区域的数字表示。举例来说，本文中所描述的掩模可用白色来表示前景像素，而背景像素由另一颜色(例如，黑色)来表示。图像处理模块212可使用如本文中所描述的掩模以产生2D视频呈现的至少一个替代视图，使得当向查看者显示3D呈现时在前景中显现前景图像，且当向查看者显示3D呈现时在背景中显现背景像素。

如还在图3中所示，在一些实例中，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可进一步精炼初始前景/背景掩模(310)。图8是说明精炼初始前景/背景掩模的方法的一个实例的流程图。在一些实例中，视频呈现可包含一个或一个以上区，所述区包含极少或无纹理(下文中是“同质强度区域”)。尽管检测到相机移动，但用于那些同质强度区域的光流向量可实质上等于零。结果，经全局运动调整的光流向量V′(例如，根据上文所描述的等式(16)获得)可不准确。在一些实例中，初始前景/背景掩模(例如，如图3的步骤308所确定)对于同质强度区域可不准确。因此，在一些实例中，图像处理模块214可精炼初始前景/背景掩模，以考虑由帧的同质强度区域引起的不准确性。

如图8中所描绘，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可通过确定帧f_N与帧f_N+1之间的经全局运动调整的帧差异(801)，来精炼初始前景/背景掩模。确定经全局运动调整的帧差异可包含针对帧f_N、f_N+1的每一像素的相邻像素的平均帧差异。在一个此实例中，2P+1乘2P+1窗(例如，其中帧f_N、f_N+1已分裂为2P乘2P个块)可用以计算平均帧差异，但还预期其它窗大小。根据使用2P+1乘2+1窗的实例，图像处理模块可将以下等式应用于帧f_N、f_N+1的至少一个像素以确定平均帧差异：

\frac{1}{{(2 M + 1)}^{2}} Σ_{i = - P}^{P} Σ_{j = - P}^{P} | f_{N, (x + 1, y + j)} - f_{N + 1, (x + 1, y + j)} | - - - (17),

图像处理模块212可进一步将所确定经全局运动调整的帧差异与预定阈值T₆进行比较(802)。预定阈值T₆可基于对视频呈现帧的可已知经不定地分类为前景和/或背景的像素的经验分析来选择，但还可使用其它技术来界定本文中所描述的阈值。如果对于特定像素，所确定经全局运动调整的帧差异小于预定阈值T₆，那么可假定像素可能是背景像素。因此，图像处理模块214可将值零指派给所述像素的经全局运动调整的流向量V′(804)。然而，如果对于特定像素，所确定经全局运动调整的帧差异大于或等于预定阈值T₆，那么图像处理模块214可向像素指派如先前所确定(例如，如在图3中所说明的方法的步骤307所确定)的相同经全局运动调整的流向量V′(803)。

图像处理模块214可有利地根据图8中所说明的方法来精炼帧f_N的经全局运动调整的光流，这是因为同质强度区域的像素在所述像素可能是背景像素的情况下可被指派值是0的经全局运动调整的流向量V′。因此，图像处理模块214可产生经精炼掩模，其中同质强度像素被分类为背景对象，且借此减小或消除可由视频帧的同质强度区域造成的不一致性。

返回参看图3，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可进一步对初始前景/背景掩模或经精炼前景背景掩模(下文中统称为“初始掩模”)中的任一者进行后处理，以产生用于视频呈现的最终分段掩模(311)。图像处理模块212可通过识别初始掩模中的前景/背景像素的相对小的区来对初始掩模进行后处理。前景/背景像素的此些相对小的区可由初始掩模中的像素的噪声和/或误分类导致。在一些实例中，图像处理模块214可(例如)通过将相对小的区的像素分类为用于最终分段掩模的背景像素或通过将相对小的前景区的像素分类为用于产生最终分段掩模的背景像素，来移除此些相对小的区。

在一些实例中，图像处理模块214可通过执行二进制图像轮廓分析来对初始掩模进行后处理。二进制图像轮廓分析可包含检测初始掩模中的内部轮廓和外部轮廓。轮廓可为帧对象的外形，例如，界定帧f_N的形状或对象或者给帧f_N的形状或对象划界的边缘或线。外部轮廓可描述为无其它轮廓存在于其内部的轮廓。内部轮廓可描述为在另一轮廓内部的轮廓。

根据二进制图像轮廓分析，图像处理模块214可将内部和/或外部轮廓的相应面积与一个或一个以上阈值进行比较，以确定其是否表示初始掩模中的噪声。举例来说，对于外部轮廓，如果外部轮廓的面积小于预定阈值T₇，那么图像处理模块214可识别所述轮廓包含初始掩模中的噪声。因此，如果外部轮廓的面积小于预定阈值T₇，那么图像处理模块214可将具有所述轮廓的像素归类为用于最终分段掩模的背景像素。对于内部轮廓，如果内部轮廓的面积小于预定阈值T₈，那么图像处理模块可识别所述轮廓包含初始掩模中的噪声。因此，如果内部轮廓的面积小于预定阈值T₈，那么图像处理模块214可将具有所述轮廓的像素归类为用于最终分段掩模的前景像素。上文所描述的后处理技术可使帧f_N的初始掩模平滑。因此，图像处理模块214可产生帧f_N的更准确的最终分段掩模。

返回参看图3，图像处理模块214可产生在图3的步骤301获取的视频呈现的2D视图的深度图(312)。在一个实例中，图像处理模块214可基于最终分段掩模(例如，在图3的步骤310产生的最终分段掩模)产生深度图。在其它实例中，图像处理模块214可基于初始前景/背景掩模(例如，在图3的步骤308产生)或经精炼前景/背景掩模(例如，在图3的步骤309产生)产生深度图。在下文中，最终分段掩模、初始前景/背景掩模和经精炼前景/背景掩模统称为“掩模”。如本文中所描述的掩模可为图像帧的已分类为前景对象的那些区域和已分类为背景对象的那些区域的数字表示。举例来说，本文中所描述的掩模可用白色来表示前景像素，而背景像素由另一颜色(例如，黑色)来表示。图像处理模块212可使用如本文中所描述的掩模以产生2D视频呈现的至少一个替代视图，使得当向查看者显示3D呈现时在前景中显现前景图像，且当向查看者显示3D呈现时在背景中显现背景像素。

为了产生深度图，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可基于帧的掩模将深度值指派给每一像素。举例来说，图像处理模块214可将较大深度值指派给对应于具有局部运动的对象的前景像素，从而指示前景像素更靠近于观察者(例如，捕捉视频呈现的2D视图的相机)。相对比地，图像处理模块214可将较小深度值指派给背景像素，从而指示背景像素较远离观察者。根据一个实例，图像处理模块214可根据像素颜色指派深度值，如由以下等式所描述：

其中C_N，(x，y)指示像素(x，y)处帧f_N的颜色值，且β指示比例因数，其可小于1。在各种实例中，C_N，(x，y)可表示任何类型的颜色值，其非限制性实例包含RGB(红、绿、蓝)值、青色、绛红色、黄色和黑色(CMYK)值或亮度和色度值。

在一些实例中，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可进一步使深度图平滑。在一个此实例中，图像处理模块214可使用非对称高斯模糊滤波器来使深度图平滑。根据这个实例，沿水平方向的模糊强度可强于非对称高斯模糊滤波器的沿水平方向的模糊强度。

在一些实例中，图像处理模块214可将帧f_N的最终深度设定为经滤波初始深度的加权平均值(例如，如上文关于等式(18)所描述)。举例来说，图像处理模块214可通过以下等式表示前一帧f_N-1的最终深度图。

d_N＝w·d_N+(1-w)·d_N-1 (19)，

在各种实例中，图像处理模块214可使用根据本发明技术产生的深度图来产生视频呈现，所述视频呈现可经显示以使得其将3D显现给用户(例如，使得视频呈现看起来具有深度)。根据一个此实例，图像处理模块214可使用深度图来产生视频呈现的一个或一个以上替代视图。视频呈现的一个或一个以上替代视图可经配置以连同视频呈现的原始2D视图(例如，在图3的步骤301所获取)或视频呈现的另一替代视图一起显示，使得当相应视图一起显示时，视频将实质上3D显现给用户。举例来说，显示控制模块218可使得显示器219呈现待由查看者右眼和查看者左眼查看的相应视图。相应视图之间的差异可使得用户感知实质上三维的所显示视频呈现。在一些此类实例中，图像处理模块214可产生替代视图，使得替代视图与另一视图(例如，原始2D视图或其它替代视图)之间的差异可基于与本发明技术一致地产生的相应视图的像素的深度图来选择。因此，在一些实例中，本发明技术可提供2D视频呈现向3D视频呈现的更准确转换。

图9是说明与本发明技术一致的方法的一个实例的流程图。如图9中所示，图像处理模块214确定视频呈现的二维(2D)视图的至少一个帧的光流(901)。光流可为由2D视图的观察者与2D视图的对象之间的相对运动造成的对象亮度模式在视觉平面中的明显运动的表示。在一些实例中，对于至少一个实例，光流可提供图像深度的至少一个初始指示。在一个实例中，可针对至少一个帧的每一像素确定光流。如还在图9中所示，图像处理模块214可进一步包含估计至少一个帧的全局运动(902)。根据一个实例，图像处理模块214可通过基于如上文所描述的相机移动的模型(例如，8参数视角模型)进行估计来估计至少一个帧的全局运动。举例来说，估计全局运动可包含确定至少一个帧的至少一个全局运动参数(例如，如上文关于图3的步骤304所描述)。如还在图9中所示，图像处理模块214可基于所估计全局运动来修改光流，以产生至少一个帧的经全局运动调整的光流(903)。在一个实例中，图像处理模块214可通过将至少一个全局运动参数应用于光流来修改光流，以产生至少一个帧的经全局运动调整的光流(例如，如上文关于图3中的步骤307所描述)。如还在图9中所示，图像处理模块214可基于经全局运动调整的光流识别至少一个帧的至少一个前景像素(904)。在一些实例中，所识别至少一个前景像素可用以产生视频呈现的至少一个帧的深度图。基于至少一个帧的经全局运动调整的光流产生的深度图可用以产生由查看者感知为实质上三维的视频呈现。

图6描绘用于选择候选像素作为用于确定全局运动的特征点的技术的实例。根据图6中所描述的技术，执行边缘检测以确定帧f_N的一个或一个以上边缘像素，且边缘像素的特征点是基于所确定一阶梯度值的绝对值是否大于预定阈值T₄来选择。根据与本发明技术一致的其它实例，用于确定全局运动的特征点可基于如下文关于图10到13所描述的其它考虑来选择。

图10是说明与本发明技术一致的选择候选像素用作用于估计/补偿全局运动的特征点的方法的另一实例的流程图。如图10中所描绘，图像处理模块214可将帧F_N划分成多个块(例如，M乘M个块)(1001)。图像处理模块212可针对每一块(和/或块内的每一像素)确定块/像素是否在帧的中心区中(1002)。如下文更详细所描述，块/像素是否在帧的中心区中的这个确定可用于选择候选像素用作特征点。

图11是描绘包含此中心区1110的图像数据的帧1101的一个实例的概念图。如图11中所示，帧1101包含中心区1110和外围区1112，外围区1112包含帧1101的左侧、上侧和右侧部分。如还在图11中所描绘，像素1102位于中心区1110内，而像素1102位于中心区1110之外(例如，在外围区1112内)。

返回参看图10，如果块/像素在帧1101的中心区1110内(例如，像素1102)，那么图像处理模块214可不使用块内的一个和/或多个像素作为用于全局运动估计/补偿的特征点(1007)。替代地，在一些实例中，图像处理模块214为了确定全局运动的目的可使用关于来自至少一个先前帧F_N+1的一个或一个以上先前识别的特征点的图像数据(1003)。

然而，对于在中心区1110之外(例如，在外围区1112内)的块/像素，图像处理模块214可识别一个或一个以上角区的像素(1004)。图像中的角区可识别图像的两个不平行边缘彼此交叉的区(或点，例如像素)。角区还可被描述为在区/点的局部邻域中存在两个主要且不同的边缘方向的区(点)。为了确定一个或一个以上角区，图像处理模块214可利用用于识别图像内的边缘和/或角区的任何技术，例如，可利用多尺度哈瑞斯算子的哈瑞斯角检测技术。用于如上文所描述可用以确定一个或一个以上角区的边缘和/或角识别技术的其它技术实例包含例如以下各项的技术：使用基尔希算子、弗雷-陈掩蔽集合、莫拉维茨角检测算法、哈瑞斯与史蒂芬斯/普莱西/施-托马西角检测算法、等位曲线曲率方法、高斯型拉普拉斯(LoG)、高斯差(DoG)、海森确定(DoH)算法、仿射适应兴趣点算子、王和布雷迪角检测算法、最小同值分段吸收核(SUSAN)、特拉科维奇和赫德利角检测、基于加速分段测试(AST)的特征检测器、检测器自动合成(例如，由特鲁希略和欧拉葛介绍)，或用于确定帧的一个或一个以上角区和/或像素的任何其它技术。

在一些实例中，图像处理模块214可限制每一帧块的用作特征点的候选像素(例如，角区的像素)的数目。举例来说，图像处理模块可仅识别每一块预定数目个候选像素。举例来说，图像处理模块可仅识别每一帧块五到十个候选像素。

根据另一实例，图像处理模块214可识别帧的角区的像素，但仅利用最重要的预定数目个识别的像素作为候选像素。在这个状况下，图像处理模块214可利用块的具有最大强度值的预定数目个像素来确定特征点。举例来说，图像处理模块214可识别块的所有角区，但每一块仅选择具有最大强度值的5到10个像素作为候选像素。根据又一实例，图像处理模块214可仅利用具有大于预定阈值的强度值的那些像素作为候选像素。在一些实例中，图像处理模块214可不识别特定块的任何像素作为候选像素(例如，针对帧的同质区)。

在一些实例中，图像处理模块214可进一步减少用以确定全局运动的候选像素的数目。举例来说，如图10中所描绘，图像处理模块214可进一步确定候选像素是否包含局部运动(1005)。如果候选像素包含局部运动，那么图像处理模块214可不识别像素作为特征点(1007)。替代地，图像处理模块214可使用来自至少一个其它帧的图像数据作为特征点(1003)。如果候选像素不包含局部运动，那么图像处理模块214可识别候选像素作为用于确定全局运动的特征点(1008)。

如还在图10中所描绘，图像处理模块214还可或替代地确定候选像素是否是帧的同质区的部分。举例来说，如果图像处理模块214可确定相邻像素的一个或一个以上特性共享与候选像素相同或实质上类似的值。如果候选像素位于帧的同质区中，那么图像处理模块214可不使用候选像素作为特征点(1007)。替代地，在一些实例中，图像处理模块214可使用来自至少一个其它帧的图像数据作为特征点(1003)。如果候选像素不位于帧的同质区中，那么图像处理模块214可识别候选像素作为用于确定全局运动的特征点(1008)。

上文关于图10所描述的技术可出于数种原因而为有利的。举例来说，通过基于图10中所描绘的准则选择数个特征点，可减小确定深度图的计算复杂性。此外，使用至少一个先前帧的图像数据作为帧的中心区的特征点(和/或原本不合乎需要的像素，例如同质区的局部运动和/或像素)可进一步减小确定深度图的计算复杂性。

图3和9以及上文的描述描述了基于确定帧的全局运动产生2D图像的深度图，及基于所估计全局运动修改帧的光流的表示，以产生帧的经全局运动调整的光流。图8以及上文的对应描述描述了图像处理模块214可通过确定及使用帧F_N与F_N+1之间的经全局运动调整的帧差异来精炼初始前景/背景掩模。

根据与本发明技术一致的其它实例，图像处理模块214可使用经全局运动补偿的帧差异(例如，如上文关于图8所描述)代替如上文所描述的经全局运动调整的帧来确定深度图。根据此实例，图像处理模块214可不确定经全局运动调整的帧。替代地，图像处理模块214可仅基于经全局运动补偿的帧差异确定深度图。通过使用经全局运动补偿的帧差异来确定深度图，可减小用以确定2D图像的3D深度图的计算复杂性和/或存储。

在一些实例中，图像处理模块214可确定经全局运动补偿的帧差异Frm_Diff_N(见上文等式(16))。此经全局运动补偿的帧差异Frm_Diff_N可指代帧f_N与经全局运动补偿的帧f′_N+1之间的差异。在一些实例中，图像处理模块214可基于一个或一个以上全局运动参数来确定经全局运动补偿的帧差异，所述一个或一个以上全局运动参数是基于如上文关于上文所描述的图6和10的实例所描述而选择的帧的一个或一个以上特征点来估计的。

图12是说明与本发明技术一致的确定2D图像的深度图的方法的一个实例的流程图。如图12中所示，图像处理模块214(例如，图2A中所描绘的掩模/深度图产生子模块240)可确定全局运动是否存在(例如，如上文关于图5所描述)(1201)。如果全局运动在帧中不存在，那么图像处理模块214可使用未经补偿的帧差异|f′_N+I-f_N+I|来确定分段掩模(1202)。如果对于帧确实存在全局运动，那么图像处理模块214可确定经全局运动补偿的帧差异(1203)。图像处理模块212可将中值滤波器应用于所确定帧差异(例如，经全局运动补偿的帧差异或未经补偿的帧差异)(1204)。中值滤波器可减少所确定帧差异中的噪声。

图像处理模块212可进一步对帧执行分段，以将图像对象(和/或像素)分类为前景或背景(1205)。举例来说，如图12中所描绘，图像处理模块214可将对象和/或像素的帧差异的强度与预定强度阈值T₉进行比较(1206)。如果帧差异的强度大于阈值T₉，那么图像处理模块214可将对象和/或像素识别为前景对象(1207)。然而，如果帧差异的强度小于阈值T₉，那么图像处理模块214可将对象和/或像素识别为背景对象(1208)。基于对帧进行分段，图像处理模块214可产生帧的二进制掩模(图12中未描绘)。图像处理模块可进一步将形态滤波(例如，使用一个或一个以上开闭形态滤波器)应用于二进制掩模(在图12中也未描绘)。图像处理可产生帧的初始前景/背景掩模(在图12中也未描绘)。

图像处理模块212还可对初始前景/背景掩模进行后处理(1209)。举例来说，图像处理模块可如上文关于图3所描述对初始前景/背景掩模进行后处理，以产生最终掩模。如上文所描述，图像处理模块214可使用最终掩模来产生用于3D图像的深度图。深度图像可用以使得不同图像被呈现给查看者的右眼和左眼，且借此使得图像将3D显现给查看者。

图13是说明与本发明技术一致的用于确定2D图像的深度图的方法的一个实例的流程图。如图13中所描绘，图像处理模块214针对视频呈现的二维(2D)视图确定视频呈现的帧的多个特征点(1301)。举例来说，图像处理模块可基于帧的像素是否在帧的中心区中、像素是否包含局部运动和/或像素是否在帧的同质区中这些情况中的一者或一者以上来确定多个特征点。

图像处理模块214基于多个特征点确定帧的全局运动(1302)。图像处理模块214进一步确定经全局运动补偿的帧差异(1303)。图像处理模块进一步基于经全局运动补偿的帧差异确定视频呈现的2D视图的深度图(1304)。深度图可用以使得至少一个图像将实质上3D显现给查看者。

在一个或一个以上实例中，本文中所描述的功能可至少部分以硬件(例如，特定硬件组件或处理器)来实施。更一般来说，技术可以硬件、处理器、软件、固件或其任一组合来实施。如果以软件实施，那么功能可作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输，且由基于硬件的处理单元执行。计算机可读媒体可包含对应于例如数据存储媒体等有形媒体的计算机可读存储媒体，或包含促进计算机程序例如根据通信协议从一处传送到另一处的任何媒体的通信媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一个或一个以上计算机或者一个或一个以上处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

举例来说且并非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机存取的任何其它媒体。而且，恰当地将任何连接称作计算机可读媒体，即，计算机可读传输媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。然而应了解，计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它瞬时媒体，而是针对非瞬时有形存储媒体。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读媒体的范围内。

可由例如一个或一个以上中央处理单元(CPU)、数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或一个以上处理器来执行指令。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文描述的功能性可提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或并入在组合式编解码器中。并且，可将所述技术完全实施于一个或一个以上电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但不一定需要通过不同硬件单元来实现。而是，如上所述，各种单元可在编解码器硬件单元中组合或由互操作硬件单元(包含如上所述的一个或一个以上处理器)的集合结合合适软件和/或固件来提供。

已描述了各种实例。这些和其它实例属于所附权利要求书的范围内。

Claims

1.一种确定视频呈现的二维视图的深度图的方法，其包括：

经由用于视频呈现的二维2D视图的计算装置的图像处理模块来确定视频呈现的帧的多个特征点；

基于所述多个特征点确定所述帧的全局运动；及

基于所述所确定全局运动产生所述帧的深度图。

2.根据权利要求1所述的方法，其进一步包括：

确定所述帧的经全局运动补偿的帧差异；及

使用所述经全局运动补偿的帧差异产生所述帧的所述深度图。

3.根据权利要求2所述的方法，其中产生所述深度图包括基于所述经全局运动补偿的帧差异将所述帧的至少一个像素分类为前景像素或背景像素。

4.根据权利要求3所述的方法，其中将所述帧的至少一个像素分类为前景像素或背景像素包括将所述至少一个像素的所述经全局运动补偿的帧差异的强度与预定阈值进行比较。

5.根据权利要求1所述的方法，其中确定所述多个特征点包括确定所述帧的一个或一个以上块或像素是否在所述帧的中心区中。

6.根据权利要求5所述的方法，其进一步包括：

在所述帧的所述一个或一个以上块或像素在所述帧的所述中心区中的情况下，使用来自至少一个先前帧的像素信息来产生所述帧的所述中心区中的所述一个或一个以上块或像素的所述深度图。

7.根据权利要求1所述的方法，其中确定所述多个特征点包括：

识别所述帧的一个或一个以上角区的像素。

8.根据权利要求7所述的方法，其中所述识别所述一个或一个以上角区的所述像素包括使用哈瑞斯角检测来识别所述一个或一个以上角区的所述像素。

9.根据权利要求1所述的方法，其中确定所述多个特征点包括：

确定像素是否包含局部运动。

10.根据权利要求1所述的方法，其中确定所述多个特征点包括：

确定像素是否位于所述帧的同质区中。

11.一种经配置以确定视频呈现的二维2D视图的深度图的装置，其包括：

图像处理模块，其经配置以：

确定视频呈现的帧的多个特征点；

基于所述多个特征点确定所述帧的全局运动；及

基于所述所确定全局运动产生所述帧的深度图。

12.根据权利要求11所述的装置，其中所述图像处理模块经进一步配置以：

确定所述帧的经全局运动补偿的帧差异；及

13.根据权利要求12所述的装置，其中所述图像处理模块经进一步配置以：基于以下操作产生所述深度图：基于所述经全局运动补偿的帧差异将所述帧的至少一个像素分类为前景或背景像素。

14.根据权利要求13所述的装置，其中所述图像处理模块经进一步配置以：

基于将所述帧的所述至少一个像素的所述经全局运动补偿的帧差异的强度与预定阈值进行比较，将所述至少一个像素分类为前景或背景像素。

15.根据权利要求11所述的装置，其中所述图像处理模块经进一步配置以：基于所述帧的一个或一个以上块或像素是否在所述帧的中心区中来确定所述多个特征点。

16.根据权利要求15所述的装置，其中所述图像处理模块经进一步配置以：

17.根据权利要求11所述的装置，其中所述图像处理模块经进一步配置以：

基于识别所述帧的一个或一个以上角区的像素来确定所述多个特征点。

18.根据权利要求17所述的装置，其中所述图像处理模块经进一步配置以：

使用哈瑞斯角检测来识别所述帧的一个或一个以上角区的所述像素，来识别所述一个或一个以上角区的所述像素。

19.根据权利要求11所述的装置，其中所述图像处理模块经进一步配置以：

基于像素是否包含局部运动来确定所述多个特征点。

20.根据权利要求1所述的装置，其中所述图像处理模块经进一步配置以：

基于像素是否位于所述帧的同质区中来确定所述多个特征点。

21.一种经配置以确定视频呈现的二维2D视图的深度图的装置，其包括：

用于确定视频呈现的帧的多个特征点的装置；

用于基于所述多个特征点确定所述帧的全局运动的装置；及

用于基于所述所确定全局运动产生所述帧的深度图的装置。

22.根据权利要求21所述的装置，其进一步包括：

用于确定所述帧的经全局运动补偿的帧差异的装置；及

用于使用所述经全局运动补偿的帧差异产生所述帧的所述深度图的装置。

23.根据权利要求22所述的装置，其中所述用于产生所述深度图的装置进一步包括：

用于基于所述经全局运动补偿的帧差异将所述帧的至少一个像素分类为前景像素或背景像素的装置。

24.根据权利要求23所述的装置，其中所述用于将所述帧的所述至少一个像素分类为前景像素或背景像素的装置包括：

用于将所述至少一个像素的所述经全局运动补偿的帧差异的强度与预定阈值进行比较的装置。

25.根据权利要求21所述的装置，其中所述用于确定所述多个特征点的装置包括：

用于确定所述帧的一个或一个以上块或像素是否在所述帧的中心区中的装置。

26.根据权利要求25所述的装置，其中所述用于确定所述多个特征点的装置进一步包括：

用于在所述帧的所述一个或一个以上块或像素在所述帧的所述中心区中的情况下使用来自至少一个先前帧的像素信息来产生所述帧的所述中心区中的所述一个或一个以上块或像素的所述深度图的装置。

27.根据权利要求21所述的装置，其中所述用于确定所述多个特征点的装置包括：

用于识别所述帧的一个或一个以上角区的像素的装置。

28.根据权利要求27所述的装置，其中所述用于确定所述多个特征点的装置包括：

用于使用哈瑞斯角检测来识别所述角区的所述像素的装置。

29.根据权利要求21所述的装置，其中所述用于确定所述多个特征点的装置包括：

用于确定像素是否包含局部运动的装置。

30.根据权利要求21所述的装置，其中所述用于确定所述多个特征点的装置包括：

用于确定像素是否位于所述帧的同质区中的装置。

31.一种包括指令的计算机可读存储媒体，所述指令在执行时使得一个或一个以上处理器：

确定视频呈现的帧的多个特征点；

基于所述多个特征点确定所述帧的全局运动；及

基于所述所确定全局运动产生所述帧的深度图。

32.根据权利要求31所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

确定所述帧的经全局运动补偿的帧差异；及

33.根据权利要求32所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

基于以下操作产生所述深度图：基于所述经全局运动补偿的帧差异将所述帧的至少一个像素分类为前景像素或背景像素。

34.根据权利要求33所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

基于将所述帧的至少一个像素的所述经全局运动补偿的帧差异的强度与预定阈值进行比较，将所述至少一个像素分类为前景像素或背景像素。

35.根据权利要求31所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

基于所述帧的一个或一个以上块或像素是否在所述帧的中心区中来确定所述多个特征点。

36.根据权利要求35所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

37.根据权利要求31所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

38.根据权利要求37所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

识别所述一个或一个以上角区的所述像素包括使用哈瑞斯角检测来识别所述一个或一个以上角区的所述像素。

39.根据权利要求31所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：

基于像素是否包含局部运动来确定所述多个特征点。

40.根据权利要求31所述的计算机可读存储媒体，其中所述指令进一步使得所述处理器：