CN102598674B

CN102598674B - 用于2d视频数据到3d视频数据的转换的深度图产生技术

Info

Publication number: CN102598674B
Application number: CN201080047743.4A
Authority: CN
Inventors: 张�荣; 陈英; 玛尔塔·卡切夫维琴
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2009-10-23
Filing date: 2010-10-22
Publication date: 2014-12-10
Anticipated expiration: 2030-10-22
Also published as: EP2491722B1; CN102598674A; KR101354387B1; TW201130306A; KR20120071407A; WO2011050304A3; WO2011050304A2; US8537200B2; JP2013509104A; JP5575908B2; EP2491722A2; US20110096832A1

Abstract

本发明描述用于产生用于例如视频帧或片段视频帧等视频单元的深度图的技术。所述技术可由视频编码器执行，以便将二维2D视频转换到三维3D视频。所述技术可或者由视频解码器执行，以便将所接收的2D视频转换到3D视频。所述技术可在深度图产生过程中使用运动与色彩考虑的组合。

Description

用于2D视频数据到3D视频数据的转换的深度图产生技术

本申请案主张2009年10月23日申请的第61/254,558号美国临时申请案的优先权，所述美国临时申请案的全部内容以引用的方式并入本文中。

技术领域

本发明涉及视频译码，及二维(2D)视频数据到三维(3D)视频数据的转换。

背景技术

可将数字多媒体能力并入到广泛范围的装置中，包括数字电视、数字直播系统、无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器及其类似者。数字多媒体装置可实施视频译码技术，例如MPEG-2、ITU-H.263、MPEG-4或ITU-H.264/MPEG-4第10部分(高级视频译码(AVC))，以更有效率地发射及接收或存储及检索数字视频数据。视频编码技术可经由空间及时间预测来执行视频压缩，以减少或移除视频序列中所固有的冗余。

大多数常规视频序列是按二维(2D)检视格式编码及解码。然而，三维(3D)序列也是可能的，在所述情况下，视频序列具有与每一视频帧相关联的两个或两个以上视图。在此情况下，可在3D显示上组合所述两个或两个以上视图以再现3D视频。

在一些情况下，两个或两个以上视图可由不同相机俘获，且编码成包括多个视图的3D序列。或者，可基于原始2D视频帧合成视频帧的一个或一个以上二级视图。为了有助于2D到3D转换，可使用深度图将深度值指派到视频帧的像素。可在一视图合成过程中将用于给定视频帧的深度图应用于所述视频帧，以便产生视频帧的二级视图或多个额外视图。

发明内容

本发明描述用于产生用于视频单元(例如，视频帧、视频帧的片段或视频帧的其它部分)的深度图的技术。所述技术可由视频编码器执行，以便将二维(2D)视频转换到三维(3D)视频。所述技术可或者由视频解码器执行，以便将所接收的2D视频转换到3D视频。

本发明的技术可包括深度图初始化过程。为了深度图初始化，可基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素。接着可调整满足阈值的初始深度值，其中所述所调整的深度值是基于与所述像素相关联的色彩。接着可产生用于所述视频单元的初始化的深度图，其中所述初始化的深度图包含用于所述像素的第一子集的初始深度值及用于所述像素的第二子集的所调整的深度值。在一些情况下，可将初始化的深度图用作最终深度图而无进一步处理，且在其它情况下，可关于初始化的深度图应用额外技术，以便定义最终深度图。

举例来说，所述技术可确定视频单元是否对应于相对于先前视频单元的场景改变。如果视频单元对应于场景改变，则所述技术可选择初始化的深度图作为用于视频单元的最终深度图。然而，如果视频单元不对应于场景改变，则所述技术可确定视频单元是否表示相对于先前视频单元的低级别的运动。如果视频单元不表示低级别的运动，则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值的加权平均值而定义最终深度图。如果视频单元表示低级别的运动，则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值中的最大者而定义最终深度图。

在一个实例中，本发明描述一种方法，其包含：基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素；识别所述初始深度值是否满足阈值；将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上，所述像素中的一者或一者以上的所述初始深度值满足所述阈值，其中所述所调整的深度值是基于与所述像素相关联的色彩；及产生用于所述视频单元的深度图，其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。

在另一实例中，一种视频译码器设备可包含深度图产生单元，所述深度图产生单元：基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素；识别所述初始深度值是否满足阈值；将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上，所述像素中的一者或一者以上的所述初始深度值满足所述阈值，其中所述所调整的深度值是基于与所述像素相关联的色彩；及产生用于所述视频单元的深度图，其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。

在另一实例中，一种装置可包含：用于基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素的装置；用于识别所述初始深度值是否满足阈值的装置；用于将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上的装置，所述像素中的一者或一者以上的所述初始深度值满足所述阈值，其中所述所调整的深度值是基于与所述像素相关联的色彩；及用于产生用于所述视频单元的深度图的装置，其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。

本发明中所描述的技术可实施于硬件、软件、固件或其任何组合中。如果实施于软件中，则可在一个或一个以上处理器中执行软件，例如微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)。执行所述技术的软件可最初存储于计算机可读媒体中且加载并执行于处理器中。

因此，本发明也涵盖一种计算机可读存储媒体，其包含在由处理器执行后即刻使所述处理器进行以下操作的指令：基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素；识别所述初始深度值是否满足阈值；将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上，所述像素中的一者或一者以上的所述初始深度值满足所述阈值，其中所述所调整的深度值是基于与所述像素相关联的色彩；及产生用于所述视频单元的深度图，其中所述深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值。

在深度图初始化之后，与本发明一致，接着可应用额外技术以便定义最终深度图。在这些实例中，原始产生的深度图可被称作初始化的深度图。在此情况下，一种方法可进一步包含：确定视频单元是否对应于相对于先前视频单元的场景改变；如果所述视频单元对应于相对于所述先前视频单元的场景改变，则选择所述初始化的深度图作为用于所述视频单元的最终深度图；如果所述视频单元不对应于相对于所述先前视频单元的场景改变，则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动；如果所述视频单元不表示所述低级别的运动，则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义所述最终深度图；及如果所述视频单元表示所述低级别的运动，则基于用于所述视频单元的所述初始化的深度图的所述深度值与用于所述先前视频单元的所述先前深度图的所述深度值中的最大者而定义所述最终深度图。

在随附图式及以下描述中阐述本发明的一个或一个以上方面的细节。本发明中所描述的技术的其它特征、目标及优点将从描述及图式及从权利要求书变得显而易见。

附图说明

图1为说明可实施本发明的技术的示范性视频编码及解码系统的框图。

图2为说明可执行作为视频编码过程的部分的本发明的技术的示范性视频编码器的框图。

图3为说明可执行作为视频解码过程的部分的本发明的技术的示范性视频解码器的框图。

图4为说明深度估计及视图合成的过程的流程图。

图5为说明初始化深度图的过程的流程图。

图6为说明产生完成的深度图的过程的流程图。

图7为说明深度图初始化及完成的深度图的产生的流程图。

具体实施方式

本发明描述用于产生用于视频单元(例如，视频帧或片段视频帧)的深度图的技术。所述技术可由视频编码器执行以将二维(2D)视频转换到三维(3D)视频。所述技术可或者由视频解码器执行以将所接收的2D视频转换到3D视频。术语“译码”在本文中经定义以指代视频编码或视频解码。类似地，短语“视频译码器”指代视频编码器或视频解码器。一般来说，与本发明一致，深度图初始化及产生可由编码器或解码器执行。

本发明的技术可包括深度图初始化过程。为了深度图初始化，可基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动而将初始深度值指派到所述像素。接着可调整满足一阈值的初始深度值，其中所述所调整的深度值是基于与像素相关联的色彩。接着可产生用于视频单元的深度图(其可被称作初始化的深度图)，其中所述深度图包含用于像素的第一子集的初始深度值及用于像素的第二子集的所调整的深度值。

可接着应用额外技术，以便基于在初始化期间所产生的深度图(其可称为初始化的深度图)而定义最终深度图。举例来说，所述技术可确定视频单元是否对应于相对于先前视频单元的场景改变。如果视频单元对应于场景改变，则所述技术可选择初始化的深度图作为用于视频单元的最终深度图。然而，如果视频单元不对应于场景改变，则所述技术可确定视频单元是否表示相对于先前视频单元的低级别的运动。如果视频单元不表示低级别的运动，则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值的加权平均值而定义最终深度图。如果视频单元表示低级别的运动，则所述技术可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值中的最大者而定义最终深度图。

图1为说明可实施本发明的技术的示范性视频编码及解码系统10的框图。如图1中所示，系统10包括源装置12，源装置12经由通信信道15将经编码的视频发射到目的地装置16。源装置12及目的地装置16可包含广泛范围的装置中的任一者，包括移动装置或大体固定装置。在一些情况下，源装置12及目的地装置16包含无线通信装置，例如无线手持机、所谓的蜂窝式或卫星无线电电话、个人数字助理(PDA)、移动媒体层，或可经由通信信道15(其可能或可能不是无线的)而传达视频信息的任何装置。然而，涉及用于2D到3D视频转换的深度图的产生及应用的本发明的技术可用于许多不同系统及设定中，包括用于无线、有线或混合系统中。图1仅为此系统的一个实例。

在图1的实例中，源装置12可包括视频源20、视频编码器22、调制器/解调器(调制解调器)23及发射器24。目的地装置16可包括接收器26、调制解调器27、视频解码器28及显示装置30。根据本发明，源装置12的视频编码器22或接收装置的视频解码器28可经配置以产生用于2D到3D视频转换的深度图。

源装置12可编码视频信息且将其发射到目的地装置16。目的地装置16可接收且解调从源装置12接收的无线信号。源装置12及目的地装置16为译码装置的实例。举例来说，源装置12可包括产生用于发射到目的地装置16的经译码的视频数据的译码装置。在一些情况下，装置12、16可按实质上对称的方式操作，使得装置12、16中的每一者包括视频编码及解码组件。因此，系统10可支持视频装置12、16之间的单向或双向视频发射，例如，用于视频串流、视频重放、视频广播或视频电话。

源装置12的视频源20可包括视频俘获装置，例如摄像机、含有先前俘获的视频的视频档案，或来自视频内容提供者的视频馈送。作为另一替代，视频源20可产生基于计算机图形的数据作为源视频，或实况视频、归档视频与计算机产生的视频的组合。在一些情况下，如果视频源20为摄像机，则源装置12及目的地装置16可形成所谓的相机电话或视频电话。在每一情况下，经俘获、预俘获或计算机产生的视频可由视频编码器22编码。经编码的视频信息可接着由调制解调器23根据通信标准(例如，码分多址(CDMA)、全球移动通信系统(GSM)、频分多址(FDMA)、时分多址(TDMA)、“wifi”、蓝牙、任何宽带通信，或任何其它通信技术、标准或其组合)调制。接着可经由发射器24将经调制的信息发射到目的地装置16。调制解调器23可包括各种混频器、滤波器、放大器，或经设计以用于信号调制的其它组件。发射器24可包括经设计以用于发射数据的电路，包括放大器、滤波器及一个或一个以上天线。

目的地装置16的接收器26经由信道15接收信息，且调制解调器27解调所述信息。在不同实例中，源装置12的视频编码过程或目的地装置16的视频解码过程可实施本文中所描述的技术中的一者或一者以上以产生深度图。在一些情况下，经由信道15所传达的信息可包括由源装置12产生的深度图，且在其它情况下，可基于从源装置12传达的2D视频帧而在目的地装置16处产生深度图。显示装置30对用户显示经解码的视频数据，且可包含多种显示装置中的任一者，例如阴极射线管、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器，或另一类型的显示装置。显示装置30可具有用于多视图再现的3D能力。

在图1的实例中，通信信道15可包含任何无线或有线通信媒体，例如射频(RF)频谱或一个或一个以上物理发射线，或无线与有线媒体的任何组合。因此，调制解调器23及发射器24可支持许多可能的无线协议、有线协议或有线及无线协议。通信信道15可形成例如局域网(LAN)、广域网(WAN)或包含一个或一个以上网络的互连的全球网络(例如，因特网)等基于包的网络的部分。通信信道15一般表示用于将视频数据从源装置12发射到目的地装置16的任何合适的通信媒体，或不同通信媒体的集合。通信信道15可包括路由器、交换器、基站，或对于促进从源装置12到目的地装置16的通信可为有用的任何其它设备。本发明的技术未必需要经编码的数据从一个装置到另一者的通信，且可应用于无互逆解码的编码情形。又，本发明的方面可应用于无互逆编码的解码情形。

视频编码器22及视频解码器28可实质上与一视频压缩标准(例如，ITU-T H.264标准，或者描述为MPEG-4第10部分(高级视频译码(AVC)))一致地操作。然而，本发明的技术不限于任何特定译码标准或其扩展。尽管在图1中未图示，但在一些方面中，视频编码器22及视频解码器28可各自与音频编码器及解码器整合，且可包括适当的MUX-DEMUX单元或其它硬件及软件，以处置在共同数据流或单独数据流中的音频及视频两者的编码。如果适用，则MUX-DEMUX单元可遵照ITU H.223多路复用器协议，或例如用户数据报协议(UDP)等其它协议。

ITU-T H.264/MPEG-4(AVC)标准由ITU-T视频译码专家组(VCEG)与ISO/IEC动画专家组(MPEG)一起制定，作为称为联合视频团队(JVT)的共同合作伙伴关系的产品。H.264标准由ITU-T研究组且日期为2005年3月描述于ITU-T国际标准H.264(用于一般视听服务的高级视频译码)中，其在本文中可被称作H.264标准或H.264规范，或H.264/AVC标准或规范。联合视频团队(JVT)继续致力于对H.264/MPEG-4AVC的扩展。

在ITU-T的各种论坛(例如，关键技术领域(KTA)论坛)中已开始致力于推进H.264/MPEG-4AVC标准。KTA论坛部分地设法开发出展现比通过H.264/AVC标准所展现的译码效率高的译码效率的译码技术。本发明中所描述的技术可提供相对于H.264/AVC标准的译码改进，特别对于3D视频及2D到3D视频转换。

视频编码器22及视频解码器28各自可实施为一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、在微处理器或其它平台上执行的软件、硬件、固件或其任何组合。视频编码器22及视频解码器28中的每一者可包括于一个或一个以上编码器或解码器中，其中任一者可整合为相应移动装置、订户装置、广播装置、服务器或其类似者中的组合的编码器/解码器(CODEC)的部分。

视频序列通常包括一系列视频帧。视频编码器22及视频解码器28可对个别视频帧内的视频块操作，以便编码及解码视频数据。视频块可具有固定或变化的大小，且大小可根据所指定的译码标准而不同。每一视频帧可包括一系列片段或其它可独立解码的单元。每一片段可包括一系列宏块，所述块可布置成子块。作为一实例，ITU-T H.264标准支持各种块大小(例如，对于亮度分量，16乘16、8乘8或4乘4，及对于色度分量，8乘8)中的帧内预测，以及各种块大小(例如，对于亮度分量，16乘16、16乘8、8乘16、8乘8、8乘4、4乘8及4乘4，及对于色度分量的对应的按比例缩放的大小)中的帧间预测。视频块可包含残余像素数据的块或变换系数的块，例如，遵循例如离散余弦变换等变换过程或概念上类似的变换过程。

较小的视频块可提供更好的分辨率，且可用于包括高细节级别的视频帧的位置。一般来说，可将宏块及各种子块或分割区均考虑为视频块。另外，可将片段考虑为一系列视频块，例如宏块及/或子块或分割区。一般来说，宏块可指界定16乘16像素区域的一组色度及亮度值。亮度块可包含16乘16值集合，但可进一步分割成更小的视频块，例如8乘8块、4乘4块、8乘4块、4乘8块或其它大小。两个不同色度块可界定用于宏块的色彩，且可各自包含与16乘16像素区域相关联的色彩值的8乘8子取样的块。宏块可包括语法信息以定义应用于宏块的译码模式及/或译码技术。

可将宏块或其它视频块分组成可解码单元，例如片段、帧或其它独立单元。每一片段可为视频帧的可独立解码的单元。或者，帧自身可为可解码单元，或可将帧的其它部分定义为可解码单元。在本发明中，术语“经译码的单元”指视频帧的任何可独立解码单元，例如整个帧、帧的一片段、图片群组(GOP)，或根据所使用的译码技术所定义的另一可独立解码的单元。

在基于帧内或帧间的预测性编码之后且在任何变换(例如，用于H.264/AVC中的4×4或8×8整数变换或离散余弦变换或DCT)之后，可执行量化。量化一般指系数经量化以可能地减少用以表示系数的数据的量的过程。量化过程可减小与所述系数中的一些或全部相关联的位深度。举例来说，在量化期间可将16位值向下舍入到15位值。在量化之后，可执行熵译码，例如，根据内容适应性可变长度译码(CAVLC)、内容适应性二进制算术译码(CABAC)或另一熵译码方法。

3D视频可能需要与每一原始编码的帧相关联的一个或一个以上额外视频帧(例如，额外视图)。举例来说，可使用两个不同视图来界定视频帧的立体3D再现。可包含两个视图、三个视图或三个以上视图的多个视图也可支持多视图3D再现。3D视频的不同视图可具有类似的时序或同步，使得与两个或两个以上视图相关联的视频帧或片段对应于一视频序列的相同的时间实例。以此方式，两个或两个以上视图可大体界定两个或两个以上2D序列，所述两个或两个以上2D序列一起形成可共同再现以提供3D视频的3D序列。

为了支持基于初始2D视频序列的3D视频再现，本发明描述深度图的产生。深度图可包括用于一视频单元(例如，帧或片段)的不同像素的深度值。可在编码器处产生深度图，在所述情况下，可将深度图传达到解码器作为位流的部分，或应用于在编码器处的视图合成过程中以产生可在位流中传达的一个或一个以上额外视图。或者，可在解码器处产生深度图，在所述情况下，编码器装置可仅将2D位流发送到解码器装置，解码器装置产生深度图。如本发明中所描述的深度图初始化及最终深度图产生技术可完全在编码器中、完全在解码器中，或部分在编码器中且部分在解码器中执行。一旦产生，则深度图可用于视图合成过程中，以便产生用于2D序列的一个或一个以上二级视图，使得可按3D再现2D序列。

图2为说明可执行作为视频编码过程的部分的与本发明一致的技术的视频编码器50的一实例的框图。在图2的实例中，深度图可产生且作为视频位流的部分来传达。然而，如所提及，本发明也涵盖在编码器处的深度图的产生及应用，在所述情况下，可将深度图或所产生的3D序列从视频编码器50传达到另一装置。

视频编码器50可对应于源装置12的视频编码器22，或不同装置的视频编码器。视频编码器50可执行视频帧内的块的帧内译码及帧间译码。帧内译码依赖于空间预测以减少或移除在给定视频帧内的视频中的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列的邻近帧内的视频中的时间冗余。帧内模式(I模式)可指基于空间的压缩模式，且例如预测(P模式)或双向(B模式)等帧间模式可指基于时间的压缩模式。

如图2中所示，视频编码器50接收待编码的视频帧或片段内的当前视频块。在图2的实例中，视频编码器50包括预测单元35、存储器34、加法器48、变换单元38、量化单元40及熵译码单元46。对于视频块重建构，视频编码器50还包括逆量化单元42、逆变换单元44及加法器51。此外，根据本发明，视频编码器50可包括深度图产生单元36，深度图产生单元36产生如本文中所描述的深度图。视频编码器50也可包括其它组件，例如解块滤波器(未图示)以对块边界进行滤波以从经重建构的视频移除成块效应假象。如果需要，则解块滤波器将通常对加法器51的输出进行滤波。

在编码过程期间，视频编码器50接收待译码的视频块，且预测单元35执行帧内或帧间预测性译码。举例来说，编码器50的预测单元35可执行对于经译码的单元(例如，帧或片段)的每一视频块或视频块分割区的运动估计及运动补偿。预测单元35可计算与编码特定块相关联的每一适用模式的速率失真成本(rdcost)，且可选择产生最低成本的译码模式。rdcost可按所使用的位的数目及相对于原始视频数据的在经译码的数据中的失真的级别来量化成本。

速率-失真(RD)分析在视频译码中相当普遍，且一般涉及指示译码成本的成本量度的计算。成本量度可平衡译码所需的位的数目(速率)与同译码相关联的质量等级(失真)。典型的速率-失真成本计算可一般对应于以下格式：

J(λ)＝λR+D，

其中J(λ)为成本，R为位速率，D为失真，且λ为拉格朗日乘数。预测单元35可应用此类型的成本函数，以比较可用以执行视频块编码的各种帧内及帧间译码模式(及适用的分割区大小)。

一旦所要的预测数据由预测单元35识别，则视频编码器50通过从正译码的原始视频块中减去预测数据以产生残余块来形成残余视频块。加法器48表示执行这些减法运算的组件。变换单元38将变换(例如，离散余弦变换(DCT)或概念上类似的变换)应用于块中的残余值，从而产生包含残余变换块系数的视频块。变换单元38可执行变换，例如由H.264标准所定义的变换，其概念上类似于DCT。也可使用小波变换、整数变换、次频带变换或其它类型的变换。在任何情况下，变换单元38将变换应用于残余块，从而产生残余变换系数的块。变换可将残余信息从像素域转换到频域。

量化单元40量化残余变换系数，以进一步减小位速率。量化过程可减小与所述系数中的一些或全部相关联的位深度。举例来说，在量化期间可将m位值向下舍入到m-n位值，其中m及m为非零，且m大于n。另外，对于使用偏差的情况，量化单元40可量化不同偏差。

在量化之后，熵译码单元46熵译码经量化的变换系数。举例来说，熵译码单元46可执行内容适应性可变长度译码(CAVLC)、内容适应性二进制算术译码(CABAC)或另一熵译码方法。在由熵译码单元46进行熵译码之后，经编码的视频可发射到另一装置或经归档用于稍后发射或检索。经译码的位流可包括经熵译码的残余块、这些块的运动向量，及其它语法(例如，本文中描述的用于支持2D到3D视频转换的深度图)。

逆量化单元42及逆变换单元44分别应用逆量化及逆变换以在像素域中重建构残余块，例如，用于按上文所描述的方式稍后用作参考数据。加法器51将经重建构的残余块加到由运动补偿单元35产生的第一及/或第二级预测块，以产生用于存储于存储器34中的经重建构的视频块。经重建构的视频块及残余数据可由运动补偿单元35用作参考块，来帧间编码在后续视频帧或其它经译码的单元中的块。

为了支持3D视频，视频编码器50可进一步包括深度图产生单元36，深度图产生单元36关于存储于存储器34中的经重建构的2D视频序列来操作。深度图产生单元36可基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动而将初始深度值指派到所述像素。深度图产生单元36可接着识别初始深度值是否满足阈值，例如，初始深度值中的任一者是大于预定义的阈值还是或者小于预定义的阈值。深度图产生单元36可将所调整的深度值指派到视频单元的像素中的一者或一者以上，所述像素中的一者或一者以上的初始深度值满足所述阈值，其中所调整的深度值是基于与像素相关联的色彩。深度图产生单元36可接着产生用于视频单元的初始化的深度图，其中初始化的深度图包含不满足阈值的用于像素的第一子集的初始深度值，及满足阈值的用于像素的第二子集的所调整的深度值。又，在替代实例中，可按大于或在其它实例中小于阈值的深度值来考虑阈值的满足。

深度图产生单元36可通过基于相对于先前视频单元的位于同一地点的像素的亮度值的视频单元的像素的亮度值指派初始深度值来基于运动指派初始深度值。深度图产生单元36可通过至少部分基于视频单元的像素的色度值指派所调整的深度值来基于色彩指派所调整的深度值。举例来说，如下文更详细地描述，基于运动指派初始深度值可包含根据以下等式指派初始深度值：

m_n，i＝|L_n，i-L_n-1，i|

其中m_n，i表示初始深度值，L_n，i表示在视频单元n中的像素i的亮度值，且L_n-1，i表示在先前视频单元n-1中的像素i的对应的亮度值。基于色彩指派所调整的深度值可包含根据以下等式指派所调整的深度值：

d_{n, i}^{g} = g (c_{n, i}) = \max (0, \min (T_{m}, \frac{c_{n, i} - c_{\min}}{c_{\max} - c_{\min}} \times T_{m}))

其中表示所调整的深度值，g(c_n，i)表示关于色度值的函数g，T_m为阈值，C_n，i表示视频单元n中的给定像素的色度值，C_max表示所允许的最大色度值，且C_min表示所允许的最小色度值。

深度图产生单元36也可执行额外技术，以便至少部分基于初始化的深度图来产生最终深度图。举例来说，深度图产生单元36可确定视频单元是否对应于相对于先前视频单元的场景改变，且如果视频单元对应于相对于先前视频单元的场景改变，则选择初始化的深度图作为用于视频单元的最终深度图。如果视频单元不对应于相对于先前视频单元的场景改变，则深度图产生单元36可确定视频单元是否表示相对于先前视频单元的低级别的运动。在此情况下，运动可由当前视频单元与先前视频单元之间的亮度差的量值量化。如果视频单元不表示低级别的运动，则深度图产生单元36可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值的加权平均值来定义最终深度图。如果视频单元表示低级别的运动，则深度图产生单元36可基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前深度图的深度值中的最大者来定义最终深度图。

一旦产生最终深度图，则可将深度图从视频编码器50传达到另一装置以用于在另一装置处的视图合成中的应用，以基于原始视图及最终深度图而产生一个或一个以上二级视图。或者，视频编码器50可基于最终深度图来执行视图合成以产生用于视频单元的二级视图，在所述情况下，可将二级视图(而非深度图)从视频编码器50传达到另一装置，作为视频单元的部分。

图3为说明可经配置以执行本发明的技术的示范性视频解码器70的框图。在此情况下，视频解码器70可接收2D视频序列，且可产生用于2D序列的视频帧的深度图。深度图可接着由视频解码器70用以合成用于视频帧的二级视图，使得可将2D序列转换成3D序列。

视频解码器70可包括熵解码单元72、预测单元75、逆量化单元76、逆变换单元78、存储器74及加法器79。预测单元75可包括运动补偿单元以及空间预测组件。

视频解码器70可接收包括经编码的2D视频序列的经编码的视频位流。熵解码单元72执行位流的熵解码，以产生用于2D序列的残余视频块的量化系数。熵译码单元72可剖析来自位流的语法元素，且将这些语法元素转发到视频解码器70的各种单元。举例来说，可将运动信息(例如，运动向量)及其它语法信息转发到预测单元75。

逆量化单元76逆量化来自熵解码单元72的数据，且逆变换单元执行逆变换以在像素域中产生残余块。加法器79接着将残余块与由预测单元75产生的预测块组合以产生原始视频块的重建构，可将所述重建构存储于存储器74中及/或输出到显示器作为经解码的2D视频数据。可按此方式解码许多视频块，以重建构视频帧且最终重建构存储器74中的视频帧的整个2D序列。以此方式，视频解码器70执行相对于由先前所描述的视频编码器50所执行的编码的互逆解码。

根据本发明，视频解码器70可另外包括深度图产生单元77及2D到3D转换单元79。深度图产生单元77可执行与本发明一致的深度图初始化及深度图产生技术。一旦产生深度图，则2D到3D转换单元79可在视图合成过程中应用深度图，以便产生视频帧的一个或一个以上二级视图。

一般来说，随着立体显示技术的发展，立体或3D视频已在娱乐行业中变为风行趋势。归因于与传统2D显示相比的浸入式3D体验，对于电影、电视及游戏，对3D内容的需求继续快速增加。

在计算机图形中，3D再现可为通过3D相片写实效应将3D模型自动转换成2D图像的过程。通常通过改变不同立体视图相对于彼此的视角或位置来得到计算机图形中的相片写实效应(有时被称作浸入性)。在3D视频应用中，此情形有时称为自由视点视频。

在视频处理中，3D再现也可包括浸入式再现的应用，其可使检视者能够具有通过或不通过3D检视眼镜的立体或自动立体检视体验。在此情况下，显示可具有同时再现两个或两个以上视图的能力。最当前的3D显示技术采用双眼视觉(即，由左眼及右眼感知到的稍微不同的视图)，其可导致人类大脑对深度的精神印象。举例来说，一些3D系统允许在立体或自动立体显示中的两个或两个以上视图。

各种3D显示系统可显示3D视频，但常常需要用于视频通信的增加的带宽(归因于需要用于3D再现的附加数据)。另外，在视频俘获系统中，同时获取若干视图并不常常可行。此外，在商业市场及个人记录两者中也存在大量的2D内容，可能需要将其转换成3D视频。因此，将数据从2D转换到3D非常合乎需要。

可将2D到3D视频转换问题视为从已知晓的原始2D视图产生虚拟视图(即，二级视图)或若干虚拟视图的问题。可通过估计对象深度值且接着应用深度值以合成一个或一个以上二级视图来实现二级视图的产生。深度估计是根据单像视频或若干视图估计对象与相机平面之间的绝对或相对距离的过程。通常由灰阶图像所表示的估计深度信息可用以基于以深度图像为基础的再现(DIBR)技术来产生虚拟视图的任意合理角度。

图4为说明从单像左视图产生右视图的示范性视图合成过程的流程图。在此情况下，用于左视图的2D视频(401)可包含到所述过程的输入。对于每一视频帧，深度图产生单元77可执行深度估计(402)，以便产生待应用于左视图的深度图。特定来说，深度图产生单元77可执行如本发明中所描述的深度图初始化及深度图产生技术。深度图可包含用于在视图合成中使用的估计深度(403)。一旦产生深度图，则2D到3D转换单元79可在视图合成过程(404)中应用深度图，以便产生视频帧的一个或一个以上二级视图。在此情况下，视图合成过程(404)的输出可包含合成的右视图(405)。

在深度估计(402)中，可使用各种深度提示。这些提示可包含相对于其它时间或2D空间提示(例如，对象运动及色彩)所定义的透视几何。在存在两个或两个以上预先俘获的视图的情况下，可借助已知相机内在及外在参数，通过核面几何(epipolar geometry)来获得深度图。举例来说，深度估计技术可通过找到在两个不同立体视图中的同一对象的对应性来估计差异信息(例如，大体与对象深度成反比的信息)。不幸地，基于立体匹配的2D到3D转换可非常复杂，且可能需要密集的计算。

另一方面，对于一些通常使用的视频俘获装置(例如，相机、摄录一体机及移动电话)，通常仅存在单一可利用的视图，由于缺乏来自(例如)由两个不同相机俘获的真实世界场景的足够信息，因此使2D到3D转换成为难题。然而，一些深度提示在单像源中仍可利用。可将视频帧视为若干前景对象及背景的组合物。从聚焦相机的观点来说，相机可假定散焦区的色彩强度将包括较多的模糊(与聚焦区相比)。通常期望较近的对象具有比远处对象小的模糊性。因此，可将模糊性用作用于深度指派的重要提示。

用于2D到3D转换的模糊性分析可包括基于梯度的测量或频域分析。具有大梯度值的图像区倾向于为具有较小模糊量的区的部分，而具有小梯度值的区倾向于为具有较低模糊量的区的部分。可根据针对对象边缘及边界的梯度值来估计稀疏深度图，继之以不对称的深度图平滑。尽管远不够准确，但这些类型的深度图可提供某一级别的“伪”3D体验。

然而，对于一些视频帧，以上假定可能不真实。首先，相机可聚焦于实际上属于背景的远处对象，而非在相机附近的对象。另外，前景的无纹理区域的模糊分析可能失败，因为前景同质区常常不含有高频率分量。因此，低模糊性并不始终指示较小深度(到相机的距离)，且高模糊性并不始终对应于较大深度。

运动是可在用于单像2D视频的深度估计中使用的另一重要提示。如果在记录时相机位置固定，则归因于透视几何，与远处对象相比，期望较近的对象显得较大且具有较高的运动。运动估计是经由邻近视频帧估计对象移动的过程。通常将运动向量定义为描述相对于先前视频帧的类似“预测性数据”的对象水平及垂直平移位移的向量。对于某些场景设定，当静态背景可利用时，可仅通过从注册的背景场景减去当前帧来获得运动。然而，归因于静态背景的约束，这些方法并非优选的。因此，可通过找到邻近帧之间的差来实现运动的另一简单且快速的测量。可通过相邻帧的位于同一地点的像素的亮度强度的基于像素或基于窗口的减法来获得此类型的运动测量。

用于运动估计的其它技术包括基于块的匹配及光流。基于块的匹配方法可用于视频压缩中，其中首先将视频帧分成若干视频块。可将当前帧n中的每一视频块与具有相同大小但具有相对于当前块的参考帧中的位移的块进行比较。与最小匹配成本(例如，匹配误差的绝对值的最低和)相关联的位移可定义用于所述块中的所有像素的估计运动值。对比来说，与基于块的匹配不同，光流技术经由基于梯度的强度改变而使像素位移与对象速度有关，在所述情况下，可获得像素级运动。然而，光流技术通常对噪声敏感且对于平滑区并不非常准确。

类似于模糊性分析，运动提示可遭遇稳健性问题。换句话说，对于一些情况，运动-深度关系的假定可能失败。举例来说，具有到相机的同一距离的对象常常相互独立地移动，且可以不同速度移动。在此情况下，可违反估计运动与深度值之间的反比关系。另外，也存在具有全局运动的场景，因为可经由移动相机、旋转相机、放大、缩小等等来俘获场景。在这些情况下，举例来说，当相机正移动或另外相对于场景改变时，与较近对象相比，长距离对象可具有较高估计运动。又，前景对象可保持静态，甚至在相机运动的情况下也如此。在整个图像在短的时间间隔内无运动而保持静态的情况下，将运动提示用于深度估计变得困难。

与模糊性及运动提示(其或多或少地与深度值映射有关)不同，根据色彩强度测量的视频帧平滑性也可用以在空间上及在时间上产生一致的深度图。深度图一致性在减少合成的虚拟视图中的假象(如闪烁)及局部变形的过程中起到重要作用。一般来说，具有相同或类似色彩的像素通常属于同一对象，而急剧的强度改变通常指示对象边界。可假定深度场是分段平滑的，且深度的不连续性反映了图像强度的不连续性。

用于深度估计的另一技术涉及图像分段。可首先将视频帧分段成若干对象。可接着基于例如运动及模糊性等提示对这些段指派不同深度值。尽管与基于像素的估计相比，图像段的深度估计通常实现较一致的深度图，但计算复杂性可能增加。在一些情况下，图像分段可自身产生问题。举例来说，含有具有高级别纹理的区的一些场景可能非常难以分段。图像分段也可遭遇色彩变化，例如，相同对象的亮度改变。在此情况下，可存在针对一个对象所获得的若干不同段，且可将一个对象的部分分类成不同段及不同深度。在此情况下，分段可导致不良的深度估计。

替代于根据色彩强度值将图像划分成若干同质区域，也可在深度估计中直接使用色彩强度值(例如，色度值)。根据在某些色彩空间中的那些分量的深度估计的一个可能优点为简单性。对于属于同一对象的像素，色度分量通常非常平滑。与基于分段的深度估计相比，从色彩分量直接产生的深度图通常保持对象形状，且可因此提供更好的空间一致性。即使估计深度值对于真实深度来说并不准确，合成的立体对也可提供某一级别的所要的3D效应。

可将视图合成的过程(例如，由2D到3D转换单元79执行)视为需要密集取样的视图来按任意视角产生视图的取样问题。然而，在实际应用中，密集取样的视图需要的存储或发射带宽可能过大而不能实现。用于对于稀疏取样的视图的视图合成的算法可基于3D翘曲(warping)。在3D翘曲中，给定深度及相机模型，可将参考视图的像素u₁从2D相机坐标投影回到世界坐标中的点。接着可沿着投影轴将所述点投影到目的地视图(待产生的虚拟视图)。在此情况下，可将重新投影的像素位置定义为u₂，且两个像素(u₁及u₂)可对应于同一对象的不同投影。在此情况下，期望u₁及u₂具有相同的色彩强度。

相机模型也可用于视图合成中。一个实例是所谓的“针孔”相机模型。针孔相机模型可通过内在及外在矩阵而参数化，且可用以描述从世界坐标到相机图像平面坐标的变换。为了简单起见，可假定所有所提及的坐标系(包括3D世界坐标、3D相机坐标及2D图像平面坐标)正交。

4×4外在矩阵

A = (\begin{matrix} R & t \\ 0 & 1 \end{matrix})

可界定相机中心及相机定向在世界坐标中的位置，其中R为3×3旋转矩阵，且t为3×1平移向量。可将从世界坐标(x_w，y_w，z_w)^T到相机坐标(x，y，z)^T的变换写为：

(\begin{matrix} x \\ y \\ z \\ 1 \end{matrix}) = A (\begin{matrix} x_{w} \\ y_{w} \\ z_{w} \\ 1 \end{matrix}),

其中上标T指示向量转置运算。

在相机坐标系中，可将z轴称为主轴。相机平面为垂直于主轴且穿过相机坐标中的(0，0，f)^T的平面，其中f为相机焦距。将主点定义为主轴会合图像平面的点。

内在参数指定从相机坐标(x，y，z)^T到图像平面坐标(u，v)^T的变换。从针孔相机模型，如果主点与图像平面原点一致，则以下内容适用：可按齐次表示将其写为：

(\begin{matrix} u \\ v \\ 1 \end{matrix}) = (\begin{matrix} fx \\ fy \\ z \end{matrix}) = Q (\begin{matrix} x \\ y \\ z \end{matrix}) = (\begin{matrix} f & 0 & 0 \\ 0 & f & 0 \\ 0 & 0 & 1 \end{matrix}) (\begin{matrix} x \\ y \\ z \end{matrix}) .

从以上等式，可导出从世界坐标系到图像平面的变换，如：

(\begin{matrix} u \\ v \\ 1 \end{matrix}) = [Q | 0] (\begin{matrix} x \\ y \\ z \\ 1 \end{matrix}) = [Q | 0] A (\begin{matrix} x_{w} \\ y_{w} \\ z_{w} \\ 1 \end{matrix}) = Q [R | t] (\begin{matrix} x_{w} \\ y_{w} \\ z_{w} \\ 1 \end{matrix}) .

注意，当存在主偏差时，主点不再为图像平面坐标原点，但可变为图像平面坐标中的(p_x，p_y)^T。内在相机矩阵Q可更复杂。考虑主偏差、由沿着x轴及y轴的f_x及f_y所界定的不同焦距，及相机斜扭因子(skew factor)，可将矩阵Q表示为：

为了简单起见，在立体视频中，可假定两个相机具有在世界坐标中的相同定向，且相机中的一者位于世界坐标原点处，即，在R₁＝R₂＝I及t₁＝0。假设在沿着x轴的两个相机之间仅存在平移，且因此t₂＝(t_x，0，0)^T。

如果两个相机具有相同的内在参数Q₁＝Q₂，其中f_x＝f_y＝f、斜扭＝0且p_x＝p_y＝p，则两个像素可仅沿着图像平面坐标的u轴而不同。基于以上等式，

u₁＝fx_w/z_w，且

u₂＝f(x_w+t_w)/z_w

因此，u₂-u₁＝ft_x/z_w，其中u₂-u₁为与深度z_w成反比的所谓的差异。给定一个像素位置u₁及深度z_w，可将3D翘曲定义为仅计算u₂＝u₁+ft_x/z_w，其中f及t_x为已知相机参数。在确定了在目的地虚拟视图上的投影u₂的位置之后，可将像素u₂的色彩强度设定为与来自参考视图的像素u₁相同的值。

在视图合成中，可将一个以上视图考虑为参考。然而，即使仅存在一个参考视图，也可将一个以上像素投影到同一图像像素u₂。在此情况下，可使用参考像素或具有最小深度值的像素的加权平均值来合成像素u₂。另外，也存在无来自参考视图的像素被投影到u₂(归因于阻塞现象)的情况。在所述情况下，存在孔，且孔填充技术可用以从相邻像素建构u₂的强度值。

在深度估计中的深度值的一个实际问题是通常在动态范围内表示深度值，例如，在使用8个位的情况下，深度值v范围从0到255。在此情况下，0可表示最大深度，且255可表示最近深度。本文中所使用的短语“深度值”可指对象深度z的此8位表示，但可使用其它位大小。v＝255的最大深度值可对应于最小深度z_near，即，距相机最近距离的深度，而最小深度值v＝0表示最大深度z_far，即，距相机最大距离的深度。一些典型的深度值映射为：

(1 - \frac{v}{255}) (z_{far} - z_{near}) = z - z_{near}

或

\frac{1}{z} - \frac{1}{z_{far}} = \frac{v}{255} (\frac{1}{z_{near}} - \frac{1}{z_{far}}) .

为了支持3D视频格式，联合视频团队(JVT)及动画专家组(MPEG)已介绍了许多标准及特征。在一些情况下，本发明的技术可与这些JVT及MPEG标准或特征兼容，或可用于其它类型的系统中。在MPEG-2中，可按减小的帧速率(例如，每秒15个帧(15fps))译码一个视图(例如，左视图)，且可将另一视图译码为需要高帧速率(例如，30fps)的时间增强层。

在H.264/AVC中，可使用立体视频补充增强信息(SEI)消息来指示将两个视图布置于一个位流中的方式。两个视图可为交替帧或互补场对。当两个视图为交替帧时，按时间交错模式对其排序。当两个视图为互补场对时，来自两个视图的图像对实际上在一个图片中行交错。如果本发明的技术由编码器执行以产生深度图且合成二级视图，则可经由使用SEI消息根据H.264/AVC来编码及传达这些二级视图。在其它情况下，可在位流中传达深度图。在再其它情况下，解码器(而非编码器)可执行本发明中所描述的深度图产生技术。

JVT也已采用空间交错图片SEI消息，其可将来自时间交错及行交错的两个视图的支持扩展到较灵活的空间交错模式。除了行交错外，SEI消息也可支持图像对的并排、上下、列交错或按棋盘形图案的布置。H.264/AVC中的以上SEI消息也可支持可接受3D输入如同其为2D视频序列的情况。SEI消息可用以告知解码器或再现器交错两个视图以使得显示器可将经解码的视频序列分成两个视图的方式。对此情况的输入可包含由两个视图表示的3D输入。

作为H.264/AVC的扩展的多视图视频译码(MVC)支持两个以上视图的译码，其可与编码器产生深度图且执行视图合成的实例一致。MVC预测可包括在每一视图内的图片间预测及视图间预测两者。MVC具有可由H.264/AVC解码器解码的所谓的基本视图，且MVC可支持两个视图。MVC的一个优点在于，MVC可支持使用两个以上视图的情况(例如，3D视频输入)，且解码由多个视图表示的此3D视频。如同具有SEI消息的H.264/AVC，MVC通常不使用深度图。

MPEG也已在MPEG-C第3部分中指定用于附加用于规则视频流的深度图的格式。此规范描述于以下中：

“ISO/IEC FDIS 23002-3文本：辅助视频和补充信息的表示(Text of ISO/IEC FDIS23002-3 Representation of Auxiliary Video and Supplemental Information)”，ISO/IEC JTC1/SC 29/WG 11，MPEG文档，N8768，摩洛哥马拉喀什(Marrakech，Morocoo)，2007年1月。

在MPEG-C第3部分中，所谓的辅助视频可为深度图或视差图。当表示深度图时，就用以表示每一深度值及深度图的分辨率的位的数目来说，MPEG-C第3部分提供灵活性。然而，MPEG-C第3部分不指定产生深度图的方式。

在MPEG视频子组中，存在3DV EE(3D视频译码中的探测实验)，其研究与MPEG-C第3部分的应用情形类似的应用情形。这些应用情形包括每一视图的深度图可为有用的。深度估计及视图合成可对于3DV EE的应用非常有用。在一些情况下，视频内容可由多相机系统俘获，且深度图可产生且与视图中的一者的经编码版本一起发射。在此情况下，可在解码装置处使用视图合成，以便产生未发射的更多视图。典型的3D视频通信系统可在编码装置处俘获且编码原始数据，且产生深度图以与2D序列一起发送，使得可在解码器装置处产生3D序列。

获取系统可包括单相机俘获系统或相机阵列，或可甚至与可产生深度图的装置相关联。一般来说，可将视频俘获归类为下列中的一者：

通常不提供3D内容的2D视频俘获。

提供立体视频的两个相机系统。

俘获多个视图的相机阵列系统。

俘获一个视图且俘获或合成深度的系统。

其它系统可直接俘获深度信息或产生3D模型。

也可针对3D再现执行预处理。3D预处理并不指典型的处理技术，例如，可使编码获益的噪声减除及场景检测。实情为，3D预处理可指深度图的产生，深度图可被译码为3D视频内容的部分。此3D预处理可产生用于一个俘获的视图的一个深度图或用于若干视图的若干深度图。深度图可与一序列的每一视频帧相关联。编码器可编码一个或一个以上视图及深度图，且通过如H.264/AVC、MVC或甚至SVC的视频译码标准来对其译码，所述标准可共同地译码深度及纹理。

当在再现装置处接收到视频内容时，所述内容可与对应的深度图(如果有)一起被解码且重建构为一个或一个以上视图。在深度图的解码之后，可在再现装置处执行视图合成算法，以便产生用于尚未发射的其它视图的像素值。正常的3D显示再现两个视图或多个视图。借助于快门眼镜，也可将能够显示高帧速率视频的一些2D显示用作3D显示。偏光是可提供两个视图作为输出的3D显示技术的一个实例。尽管一些显示器或3DTV可经配置以作为输入的部分来处理深度，但可能仍存在产生两个或两个以上视图作为输出的“视图合成”模块。

对于基于深度图的2D到3D视频转换，问题可包括深度图准确性及计算复杂性。深度估计的准确性对虚拟视图合成是重要的。不准确的深度图可在合成的虚拟视图中导致烦人的假象、局部变形及闪烁。这些假象可严重地使立体体验降级。另一方面，通常以高计算复杂性获得准确的深度图。不幸地，对于一些装置，计算上密集的运算可能不可行。对于成功的深度估计算法，应仔细考虑深度准确性与深度估计计算复杂性之间的折衷。

本发明的技术可提供深度准确性与计算复杂性之间的良好折衷。所述技术可对基于DIBR的视图合成2D到3D转换系统有用。本发明可提供相对低复杂性深度估计算法，其是基于共同地采用2D视频序列的运动信息及每一帧中的像素的色彩分量。

更具体来说，可首先通过从对象运动的线性映射来初始化深度值。可向高运动像素指派较大运动值。对于低运动像素，可直接从像素色彩强度映射深度值。从像素色彩信息的映射可经选择，使得用于低运动像素的深度值始终比较高运动像素的深度值小。最终，可应用深度后处理及沿着时间方向的传播，以帮助确保较平滑且一致的深度图。一般来说，本文中所描述的深度估计技术可具有相对低的复杂性，还提供关于立体装置的浸入式3D体验的能力。

相对低复杂性深度估计技术可应用于实时2D到3D视频转换。又，所述技术可将运动及色彩提示用于深度初始化。接着可针对时间一致性而后处理连续视频帧的深度图。

图5为说明与本发明一致的用于深度图初始化的示范性过程的流程图。图5的过程可由编码器或解码器执行，例如，如参看图2及3所描述。举例来说，所述过程可由视频编码器50的深度图产生单元36或由视频解码器70的深度图产生单元77执行。为了简单起见，将从视频解码器70的深度图产生单元77的观点来描述图5的过程。

如图5中所示，深度图产生单元77开始于基于先前帧n-1(502)的数据来计算帧n(501)的运动(503)。估计运动值可接着用以将初始深度值指派到帧n中的每一像素(505)。同时，可从帧n的像素强度提取色彩分量(504)。可将替换准则应用于来自像素运动的深度值。特定来说，如果基于运动的所指派深度值比阈值大(“是”506)，则所述所指派深度值可用于这些高运动像素的深度图(507)中。然而，如果基于运动的所指派深度值比阈值小(“否”506)，则所述所指派深度值可由基于色彩的深度值替换(508)，且经替换的深度值可用于这些低运动像素的深度图(509)中。深度图组合(510)可包含形成初始化的深度图的过程，初始化的深度图组合用于帧的高运动像素的初始化的深度值与用于帧的低运动像素的经替换的深度值。因此，最终深度图可包括基于运动所定义的一些深度值及基于色彩所定义的其它深度值。

换句话说，对于任何低运动(静态状)像素，基于运动所产生的深度值可由根据像素色彩分量所确定的深度值替换(508)。深度组合(510)接着将两个类型的像素的深度值整合到用于整个帧的一个深度图中。最终，如果需要，组合的深度图可经后处理(511)，以便产生较空间一致的深度。举例来说，后处理(511)可包括滤波或其它类型的处理以确保深度值在空间上一致。图5的输出(512)可包含初始化的深度图，其可由深度图产生单元77在产生如下文更详细地论述的完成的深度图的过程中使用。

归因于简单性，基于像素的连续帧差可用以计算运动(503)。使i＝(u，v)^T表示像素位置，其中u及v分别表示图像平面水平及垂直轴。如果在像素i处的帧n的色彩强度值(例如，亮度值)为L_n，i，则可将其对应的运动值定义为

m_n，i＝|L_n，i-L_n-1，i|，

其仅为在像素i处的帧n与帧n-1之间的色彩强度(亮度“L”)差的绝对值。

色彩强度L指示任意色彩空间的强度值。强度值L可对应于YUV色彩空间的“Y”或亮度，但可使用替代的色彩强度值。在YUV色彩空间中，Y表示亮度，且U及V表示不同色度值。变量“L”、“cr”及“cb”也可用以表示亮度“L”及两个不同色度值“cr”及“cb”。色度值差或加权平均值色彩分量差也可用以定义运动。通过基于亮度差的标量值定义运动，就简单性来说，以上等式可具有优点。在此情况下，运动可能不表示真实的水平及垂直对象位移，但可反映一定的对象位移量。这是因为较大的色彩差通常指示较大的位移，而非常小的色彩差更经常地发生于相对静态像素中。

或者，如果输入源为经压缩的视频，则直接从经压缩的位流所获得的块级运动向量(例如，在解码过程期间)可用于实时2D到3D视频转换框架中。在此情况下，假设对于像素i，来自解码器的运动向量为(m_n，u，m_n，v)^T。在此情况下，可将用于深度指派的运动值定义为运动向量的2范数，即，

m_{n, i} = {| | {(m_{n . u}, m_{n, v})}^{T} | |}_{2} = \sqrt{m_{n, u}^{2} + m_{n, v}^{2}} .

块级运动图可在映射到深度值以用于视图合成之前内插到像素级运动。

在获得运动值之后，可定义从运动值m_n，i到深度值d_n，i的映射f(·)。根据较大运动通常涉及较近对象的假定，可将所述映射定义为从间隔[m_min，m_max]到[d^f _min，d^f _max]的映射。因此，

d_{n, i}^{f} = f (m_{n, i}) = \max (0, \min (1, \frac{m_{n, i} - m_{\min}}{m_{\max} - m_{\min}})) \times (d_{\max}^{f} - d_{\min}^{f}) + d_{\min}^{f}

其中m_max及m_min为表示视频序列的最大及最小运动值的常数，且d^f _max及d^f _min为对应于在映射之后的最大及最小深度值的恒定值。

恒定值m_max、m_min、d^f _max及d^f _min可用于一个视频序列中的所有帧，以便获得时间上一致的深度图。这些常数的典型值为m_max＝255、m_min＝0、d^f _max＝255且d^f _min＝64。在此实例中不将值d^f _min设定到0。

预处理(例如，在图5的步骤(510)中所指示)可包括平滑及中值滤波。在中值滤波中，对于每一像素i，可将一组运动值的中值{m_n，j}设定为最终运动值，其中j∈W对应于像素i的相邻像素。可按例如在像素i周围的任意矩形的形状来选择相邻像素W。中值滤波可用以移除运动值的不合需要的噪声。以此方式，可使用滤波，以便使按上文所描述的方式获得的深度值变得较平滑且与相邻像素的深度值更一致。

在将运动值映射到深度的过程中，可将最大运动值映射到距相机最近的距离(例如，深度值中的d^f _max)。可将具有零运动的像素视为具有距相机的最大距离(例如，深度值中的d^f _min)。在此情况下，对于场景中的静态对象，在所俘获的场景中其实际上距相机的距离并不重要。实情为，将静态对象视为具有最大深度。为了克服此缺点，在从运动值的深度映射之后，本发明的技术可使用深度值替换。

如图5中所示，当运动值d^f _n，i小于或等于某一阈值T_m(“否”506)时，发生替换。T_m可经预定义以具有将引起良好深度图产生的值，且可在考虑各种视频译码仿真之后得以选择。如果满足条件(例如，如果d^f _n，i大于T_m)，则d^f _n，i可由d^g _n，i替换(508)，其中：

d_{n, i}^{g} = g (c_{n, i}) = \max (0, \min (T_{m}, \frac{c_{n, i} - c_{\min}}{c_{\max} - c_{\min}}) \times T_{m}) .

在此情况下，d^g _n，i表示基于色彩分量的深度值。C_n，i可表示给定位置的色度值，且C_max及C_min可包含表示视频序列中的最大及最小色彩色度值的常数。

接着可使用函数g(·)将色彩值映射到间隔[0，T_m]中的深度值。对于对应于静态对象的像素，运动值m_n，i可为零，且深度值可为d^f _n，i＝d^f _min。在一些实例中，可将阈值T_m设定为d^f _min。然而，归因于轻微的照明改变，静态像素的色彩强度可从帧n-1改变到帧n。为此原因，一些实例可实施稍较大的值以用于阈值T_m。

根据本发明，满足基于运动的深度值的所有像素可由基于范围[0，T_m]中的色彩d^g _n，i的深度值替换。替换可因此指派不同深度值，甚至对于一些相对静态的像素也如此。可直接将一些色彩信息用作深度图的初始化。尽管本发明涵盖将YUV色彩空间的色度值Cr用于基于色彩的深度值，但替代解决方案可包括使用RGB色彩空间的R分量、YUV空间的Cb分量，及L^*a^*b色彩空间的a或b分量。

根据本发明，基于运动指派初始深度值可包含基于相对于先前视频单元的位于同一地点的像素的亮度值的视频单元的像素的亮度值而指派初始深度值，且基于色彩指派所调整的深度值包含至少部分基于视频单元的像素的色度值而指派所调整的深度值。与以上等式一致，指派所调整的深度值可包括将在色度值的允许间隔内的色度值映射到零与阈值之间的深度值。

本发明的技术可利用色彩强度的平滑性，且使用其来指派用于静态状像素的深度值。尽管本文中所定义的线性映射可能不表示静态状像素的真实深度信息，但映射可提供实现合乎需要的3D效应的某一“感知”深度。色彩强度到深度值范围[0，T_m]的线性映射也可保证所述像素的深度值始终比与显著运动相关联的像素的深度值小。

关于色彩分量提取的另一实际实施问题是可将色彩分量提取与预测单元35或预测单元75的内插程序整合。在视频应用中，通常使用YUV 4:2:0渐进格式。对于YUV 4:2:0渐进格式，视频数据可包含具有n₁×n₂的大小的Y分量及具有的大小的Cb及Cr分量，即，沿着水平及垂直方向两者按因子2子取样色度分量。由于本发明的技术在色彩提取中可使用色度Cr，因此为了深度估计的目的，可能需要针对每一帧将分量上取样为n₁×n₂的分辨率。

可在估计运动信息及色彩信息两者之后获得深度图初始化。可将用于帧n中的像素i的深度值表示为：

对于较空间平滑且一致的深度图，可执行深度值d_n，i的后处理(511)。可在后处理中应用上文所论述的中值滤波，以及模糊滤波。可在指定窗口W内应用高斯平滑。可在深度值d_n，i的后处理期间用于高斯滤波的1D高斯核的实例可由以下给出：

g (x) = \frac{1}{\sqrt{2 {πσ}^{2}}} \exp {- \frac{x^{2}}{2 σ^{2}}},

其中x为输入值，g(x)为高斯滤波器函数值，且σ²为深度值的方差。可将此高斯滤波与分别在u及v方向上的不同方差σ² _u及σ² _v分开地应用于在u及v方向上的图像平面。

图6为说明与本发明的技术中的一者或一者以上一致的产生完成的深度图的过程的流程图。图6的过程可由编码器或解码器执行。举例来说，所述过程可由视频编码器50的深度图产生单元36或由视频解码器70的深度图产生单元77执行。为了简单起见，将从视频解码器70的深度图产生单元77的观点来描述图6的过程。

如图6中所示，深度图产生单元77开始于2D左视图(601)。图6的技术可最终定义可用以产生对应的右视图的深度图。当然，初始视图可或者为右视图，其中深度图用以产生左视图。

深度初始化(602)可对应于最终产生初始化的深度图(603)的图5的过程。然而，根据图6，深度图产生单元77可执行相对于初始化的深度图的额外技术，以便最终产生完成的深度图。如图6中所示，深度图产生单元77可执行场景检测604，以便确定当前视频帧是否对应于新场景(605)。可应用各种技术来进行此确定，例如，通过量化当前帧与先前帧之间的像素差以便估计当前帧是否对应于场景改变。

如果当前帧对应于场景改变(“是”605)，则可将权重值w设定到零(607)。这将确保在深度加权平均化(610)中不对先前帧给出任何权重。在此情况下(当检测到新场景时)，深度图可由经加权值定义(610)，但由于w＝0，因此深度图将对应于在图5的过程中产生的初始化的深度图。可执行后处理(611)，且深度图产生单元77可输出呈完成的深度图的形式的估计深度(612)，所述估计深度可由2D到3D转换单元79在视图合成过程中用于产生二级视图(例如，对应于输入到图6的过程的输入左视图的右视图)。

如果当前帧不对应于场景改变(“否”605)，则深度图产生单元77可确定所述帧是低运动帧还是规则运动帧(608)。规则帧也可称为高运动帧，因为相对于低运动帧为高运动。因此，低运动与高运动可为相对术语，其可基于整个帧中的亮度值相对于先前帧的亮度值的相对差来定义。然而，可按其它方式执行帧是低运动帧还是规则(高运动)帧的确定。

如果当前帧并非低运动帧(“否”608)，则可使用加权深度图平均化，其中完成的深度图为当前帧的初始化的深度图与一个或一个以上先前帧的初始化的深度图的加权平均值。加权因子w可经定义以促进加权平均化。加权因子w可为0.5，或可被指派有较低值，以便相对于先前帧的初始化的深度图较重地加权当前帧的初始化的深度图。

如果当前帧为低运动帧(“是”608)，则可使用深度最大化(609)，其中将深度图的每一个别深度值定义为当前帧的初始化的深度图与先前帧的初始化的深度图(或先前帧的完成的深度图)的对应深度值中的最大者。深度图缓冲器(613)可包括于深度图产生单元77中，以便存储先前深度图。

又，可根据视频运动及色彩信息估计初始化的深度值。然而，整个序列的初始化的深度图可能并不沿着时间方向非常一致。为了更好的合成视图质量，深度图一致性起到重要作用。图6的技术可帮助确保此深度图一致性。

在图6中，针对2D原始视频(例如，左视图601)的帧n初始化(602)深度图。同时，可应用场景检测(604)以检查当前帧n是否开始新场景。如果检测到新场景(“是”605)，则发送初始化的深度图以用于后处理(611)及视图合成(612)。如果帧n不开始新场景，则应用帧分类步骤。帧分类程序将帧分类为低运动帧或规则帧。

如果帧为低运动帧(“是”608)，则对于帧n及帧n-1的每一个别像素i，可将帧n的深度图d_n设定为d_n，i与d_n-1，i中的最大值。换句话说，

d_n，i＝max(d_n-1，i，d_n，i)

然而，如果当前帧并非低运动帧(“否”608)，则帧n的深度图d_n可为深度图d_n与先前帧的深度图d_n-1的加权平均值，其由某一预定义的加权因子“w”加权。换句话说，如果当前帧并非低运动帧，那么：

d_n，i＝w*d_n-1，i+(1-w)*d_n，i

可从深度图产生单元77输出在后处理(611)之后的最终深度图，以用于在由2D到3D转换单元进行的视图合成中使用。另外，可将用于帧n的深度图d_n的副本存储于深度图缓冲器(613)中，以用于随后帧的深度估计。图6的流程图中所展示的深度图缓冲器(613)可为包括于深度图产生单元77内或可由深度图产生单元77存取的结构硬件存储器元件。

场景检测技术常常用于例如视频修整、视频追踪及场景分类的视频分析应用中。邻近帧的类似性可经估计且用作用于场景改变检测(604)的准则。归因于此方法的简单性，本发明的技术可使用连续帧的平均色彩强度差以便检测场景改变。在此情况下，可将两个帧之间的差定义为：

\overset{&OverBar;}{{diff}_{n}} = \frac{1}{n_{1} \times n_{2}} Σ_{i} | L_{n, i} - L_{n - 1, i} |

其中n₁及n₂为分别沿着图像水平及垂直轴的像素的数目，且L_n，i及L_n-1，i为两个连续帧的在像素位置i处的亮度值。如果大于阈值T_s，则可将帧n视为新场景的开始。

根据本发明的场景检测的目标可为帮助时间上一致的深度图的产生。属于同一场景的连续深度图倾向于具有非常类似的深度值。然而，对于每一帧独立地获得的深度图可具有沿着时间方向的闪烁问题。可将先前帧深度图d_n-1传播到下一个帧深度图d_n，以便改善时间一致性。

可通过连续深度图d_n与d_n-1的加权平均化而获得一个解决方案。然而，对于具有非常低的运动的那些场景，可对非常少的像素指派深度值d^f _n。在此情况下，可使用深度最大化来产生帧n的更好的最终深度图。另外，按类似于场景检测的方式，本发明的技术可使用低运动帧分类。用于低运动帧的准则可为平均帧差是否小于阈值T_L，其中T_L小于T_s以指示所述帧并非新场景，但具有指示正常运动或相对高运动的足够差。

在将先前帧的深度图d_n-1中的一些或全部传播到当前帧的深度图d_n之后，可使用后处理(611)以便产生较平滑的深度图。在后处理之后，可接着将估计深度图准备好用于在由2D到3D转换单元79执行的视图合成中使用。同时，可将深度图的副本存储到深度图缓冲器(613)，深度图缓冲器(613)可处于深度图产生单元77内或可由深度图产生单元77存取以用于在估计用于随后帧的深度图的过程中使用。缓冲器大小可经设计以取决于实施方案而容纳一个先前深度图或若干先前深度图。

图7为说明深度图初始化及完成的深度图的产生的流程图。图7的过程可由编码器或解码器执行。举例来说，所述过程可由视频编码器50的深度图产生单元36或由视频解码器70的深度图产生单元77执行。为了简单起见，将从视频解码器70的深度图产生单元77的观点来描述图7的过程。

如图7中所示，深度图产生单元77基于相对于视频序列的先前视频单元(例如，视频帧或片段)的对应的像素的与一视频单元的像素相关联的运动而将初始深度值指派到所述像素(701)，且识别初始深度值是否满足一阈值(702)。深度图产生单元77将所调整的深度值指派到视频单元的像素中的一者或一者以上，所述像素中的一者或一者以上的初始深度值满足所述阈值(703)，其中所调整的深度值是基于与像素相关联的色彩。对于经指派的每一初始深度值，重复此过程(704)。

在考虑每一深度值且调整不满足阈值的深度值之后，深度图产生单元77产生用于视频单元的初始化的深度图(705)，其中初始化的深度图可包含用于像素的第一子集的初始深度值及用于像素的第二子集的所调整的深度值。如上文所论述，基于运动指派初始深度值可包含基于相对于先前视频单元的位于同一地点的像素的亮度值的所述视频单元的像素的亮度值而指派初始深度值。又，基于色彩指派所调整的深度值可包含至少部分基于视频单元的像素的色度值而指派所调整的深度值。

举例来说，基于运动指派初始深度值包含根据以下等式指派初始深度值：

m_n，i＝|L_n，i-L_n-1，i|

其中m_n，i表示初始深度值，L_n，i表示在视频单元n中的像素i的亮度值，且L_n-1，i表示在先前视频单元n-1中的像素i的对应的亮度值。此外，基于色彩指派所调整的深度值可包含根据以下等式指派所调整的深度值：

d_{n, i}^{g} = g (c_{n, i}) = \max (0, \min (T_{m}, \frac{c_{n, i} - c_{\min}}{c_{\max} - c_{\min}} \times T_{m}))

接下来，深度图产生单元77确定视频单元是否对应于相对于先前视频单元的场景改变(706)。如果如此(“是”706)，则深度图产生单元77选择初始化的深度图作为用于视频单元的最终深度图。然而，如果视频单元不对应于相对于先前视频单元的场景改变，则深度图产生单元77确定视频单元是否表示相对于先前视频单元的低级别的运动(708)。如果视频单元不表示低级别的运动(“否”708)，则深度图产生单元77基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前初始化的深度图的深度值的加权平均值而定义最终深度图(709)。在此情况下，视频单元可展现高运动或正常运动。或者，如果视频单元表示低级别的运动(“是”708)，则基于用于视频单元的初始化的深度图的深度值与用于先前视频单元的先前初始化的深度图的深度值中的最大者而定义最终深度图(709)。

如所提及，本发明的技术可由解码器或编码器执行。如果所述技术由视频解码器执行，则所述技术可进一步包括基于最终深度图执行视图合成以产生用于视频单元的二级视图。举例来说，视图合成可由视频解码器70的2D到3D转换单元79执行。视图合成过程可包含基于原始视图及原始视图的深度图而产生二级视图的过程。

如果本发明的技术由视频编码器执行，则所述技术可进一步包含与视频单元一起传送最终深度图。然而，在一些情况下，视图合成可由编码器基于最终深度图来执行以产生用于视频单元的二级视图，且在此情况下，与视频编码器相关联的装置可传达作为视频单元的部分的二级视图。

已将所述技术描述为包括深度图初始化，继之以额外处理以产生最终深度图。然而，在一些实例中，可在无额外处理的情况下使用深度图初始化技术，且可在无任何进一步的处理的情况下将初始化的深度图定义为最终深度图。

本发明的技术可实施于广泛多种装置或设备中，包括无线通信装置手持机(例如，移动电话)、集成电路(IC)或一组IC(即，芯片组)。已描述的任何组件、模块或单元被提供以强调功能方面，且未必需要由不同硬件单元实现。本文中所描述的技术也可实施于硬件、软件、固件或其任何组合中。描述为模块、单元或组件的任何特征可一起实施于整合式逻辑装置中，或作为离散但可互操作的逻辑装置来单独实施。在一些情况下，可将各种特征实施为集成电路装置，例如集成电路芯片或芯片组。

如果实施于软件中，则所述技术可至少部分地由包含指令的计算机可读媒体实现，在执行于处理器中时，所述指令执行上文所描述的方法中的一者或一者以上。计算机可读媒体可包含计算机可读存储媒体，且可形成计算机程序产品(其可包括封装材料)的部分。计算机可读存储媒体可包含例如同步动态随机存取存储器(SDRAM)的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体，及其类似者。另外或或者，所述技术可至少部分地由计算机可读通信媒体来实现，所述计算机可读通信媒体以指令或数据结构的形式载运或传达代码且可由计算机存取、读取及/或执行。

指令可由一个或一个以上处理器执行，例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文中所描述的功能性可提供于经配置以用于编码及解码的专用软件模块或硬件模块内，或并入于组合的视频编解码器中。又，所述技术可完全地实施于一个或一个以上电路或逻辑元件中。

本发明也涵盖多种集成电路装置中的任一者，所述装置包括用以实施本发明中所描述的技术中的一者或一者以上的电路。可将此电路提供于单一集成电路芯片中或所谓的芯片组中的多个可互操作的集成电路芯片中。这些集成电路装置可用于多种应用中，其中一些可包括在无线通信装置(例如，移动电话手持机)中的使用。

已在本发明中描述了各种实例。这些及其它实例处于所附权利要求书的范围内。

Claims

1.一种用于产生视频单元的深度图的方法，其包含：

基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素；

识别所述初始深度值是否满足阈值；

将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上，所述像素中的一者或一者以上的所述初始深度值满足所述阈值，其中所述所调整的深度值是基于与所述像素相关联的色彩；

产生用于所述视频单元的深度图，其中，所述深度图包含初始化的深度图，其中所述初始化的深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值；

确定所述视频单元是否对应于相对于所述先前视频单元的场景改变；

如果所述视频单元不对应于相对于所述先前视频单元的场景改变，则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动；

如果所述视频单元不表示所述低级别的运动，则基于用于所述视频单元的所述初始化的深度图的深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义最终深度图。

2.根据权利要求1所述的方法，其中基于运动指派所述初始深度值包含基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值。

3.根据权利要求1所述的方法，其中基于色彩指派所述所调整的深度值包含至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值。

4.根据权利要求1所述的方法，

其中基于运动指派所述初始深度值包含基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值，

其中基于色彩指派所述所调整的深度值包含至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值，且

其中指派所述所调整的深度值包括将在色度值的允许间隔内的色度值映射到零与所述阈值之间的深度值。

5.根据权利要求1所述的方法，所述方法进一步包含：

如果所述视频单元对应于相对于所述先前视频单元的场景改变，则选择所述初始化的深度图作为用于所述视频单元的最终深度图；

如果所述视频单元表示所述低级别的运动，则基于用于所述视频单元的所述初始化的深度图的深度值与用于所述先前视频单元的所述先前深度图的深度值中的最大者而定义所述最终深度图。

6.根据权利要求5所述的方法，其中所述方法由视频解码器执行，所述方法进一步包含基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图。

7.根据权利要求5所述的方法，其中所述方法由视频编码器执行，所述方法进一步包含与所述视频单元一起传送所述最终深度图。

8.根据权利要求5所述的方法，其中所述方法由视频编码器执行，所述方法进一步包含：

基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图；及

与所述视频单元一起传送所述二级视图。

9.一种包含深度图产生单元的视频译码器设备，所述深度图产生单元：

识别所述初始深度值是否满足阈值；

10.根据权利要求9所述的视频译码器设备，其中在基于运动指派所述初始深度值的过程中，所述深度图产生单元基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值。

11.根据权利要求9所述的视频译码器设备，其中基于色彩指派所调整的深度值，所述深度图产生单元至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值。

12.根据权利要求9所述的视频译码器设备，

13.根据权利要求9所述的视频译码器设备，其中所述深度图产生单元：

14.根据权利要求13所述的视频译码器设备，其中所述视频译码器包含视频解码器，其中所述视频解码器进一步包含：

二维2D到三维转换单元，其基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图。

15.根据权利要求13所述的视频译码器设备，其中所述视频译码器包含视频编码器，其中视频译码器设备进一步包含与所述视频单元一起传送所述最终深度图的发射器。

16.根据权利要求13所述的视频译码器设备，其中所述视频译码器包含视频编码器，其中所述视频编码器进一步包含二维2D到三维转换单元，所述二维2D到三维转换单元基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图，且其中所述视频译码器设备进一步包含与所述视频单元一起传送所述二级视图的发射器。

17.根据权利要求9所述的视频译码器设备，其中所述设备包含以下中的至少一者：

集成电路；

微处理器，

无线通信装置，其包括视频编码器，及

无线通信装置，其包括视频解码器。

18.一种用于产生视频单元的深度图的装置，其包含：

用于基于相对于视频序列的先前视频单元的对应像素的与一视频单元的像素相关联的运动将初始深度值指派到所述像素的装置；

用于识别所述初始深度值是否满足阈值的装置；

用于将所调整的深度值指派到所述视频单元的所述像素中的一者或一者以上的装置，所述像素中的一者或一者以上的所述初始深度值满足所述阈值，其中所述所调整的深度值是基于与所述像素相关联的色彩；

用于产生用于所述视频单元的深度图的装置，其中，所述深度图包含初始化的深度图，其中所述初始化的深度图包含用于所述像素的第一子集的所述初始深度值及用于所述像素的第二子集的所述所调整的深度值；

用于确定所述视频单元是否对应于相对于所述先前视频单元的场景改变的装置；

用于如果所述视频单元不对应于相对于所述先前视频单元的场景改变，则确定所述视频单元是否表示相对于所述先前视频单元的低级别的运动的装置；

用于如果所述视频单元不表示所述低级别的运动，则基于用于所述视频单元的所述初始化的深度图的深度值与用于所述先前视频单元的先前深度图的深度值的加权平均值而定义最终深度图的装置。

19.根据权利要求18所述的装置，其中所述用于基于运动指派所述初始深度值的装置包含用于基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值的装置。

20.根据权利要求18所述的装置，其中所述用于基于色彩指派所述所调整的深度值的装置包含用于至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值的装置。

21.根据权利要求18所述的装置，

其中用于基于运动指派所述初始深度值的装置包含用于基于相对于所述先前视频单元的位于同一地点的像素的亮度值的所述视频单元的所述像素的亮度值而指派所述初始深度值的装置，

其中用于基于色彩指派所述所调整的深度值的装置包含用于至少部分基于所述视频单元的所述像素的色度值而指派所述所调整的深度值的装置，且

其中用于指派所述所调整的深度值的装置包括用于将在色度值的允许间隔内的色度值映射到零与所述阈值之间的深度值的装置。

22.根据权利要求18所述的装置，所述装置进一步包含：

用于在所述视频单元对应于相对于所述先前视频单元的场景改变的情况下选择所述初始化的深度图作为用于所述视频单元的最终深度图的装置；

用于在所述视频单元表示所述低级别的运动的情况下基于用于所述视频单元的所述初始化的深度图的深度值与用于所述先前视频单元的所述先前深度图的深度值中的最大者而定义所述最终深度图的装置。

23.根据权利要求22所述的装置，其中所述装置包含视频解码器，所述装置进一步包含：

用于基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图的装置。

24.根据权利要求22所述的装置，其中所述装置包含视频编码器，所述装置进一步包含用于与所述视频单元一起传送所述最终深度图的装置。

25.根据权利要求22所述的装置，其中所述装置包含视频编码器，所述装置进一步包含：

用于基于所述最终深度图执行视图合成以产生用于所述视频单元的二级视图的装置；及

用于与所述视频单元一起传送所述二级视图的装置。