CN106068527B

CN106068527B - 用于立体数据的深度感知增强

Info

Publication number: CN106068527B
Application number: CN201580011468.3A
Authority: CN
Inventors: S·萨胡; M·比斯瓦斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-03-07
Filing date: 2015-02-23
Publication date: 2018-12-04
Anticipated expiration: 2035-02-23
Also published as: KR101844705B1; WO2015134222A1; BR112016020544A8; CN106068527A; JP2017512440A; BR112016020544A2; US9552633B2; JP6178017B2; US20150254811A1; KR20160130414A; EP3114643A1

Abstract

本文描述了用于增强图像的系统、方法及装置。在一些方面，装置包括配置为存储左图像和右图像的存储器单元。所述左图像和所述右图像各自描绘来自不同视角的相同场景。所述装置进一步包括配置为从所述存储器单元中检索所述左图像和所述右图像的译码器。所述译码器配置为基于所述左与右图像之间的空间定向差确定深度图。所述装置进一步包括耦合到所述译码器的处理器。所述处理器配置为识别所述左或右图像中由用户选择的一部分。所述处理器进一步配置为基于所述深度图确定在由所述用户选择的所述部分周围的增强区域。所述处理器进一步配置为增强所述增强区域。

Description

用于立体数据的深度感知增强

技术领域

本发明涉及基于深度的图像增强的领域。更特别地，本发明涉及使用从立体图像计算的深度的单目图像的增强。

背景技术

可用相机或摄像机捕获视觉媒体，例如图像和视频。通常，如果相机或摄像机包含充足特征并包含适当镜头，那么所捕获的媒体反映终端用户所需的色彩、对比度、锐度和/或类似者。然而，功能齐全的相机或摄像机和/或强大镜头可为昂贵的。此外，特征齐全的相机或摄像机和/或强大镜头可以是大体积的，并难以在某些情景下携带。

如今，便携式装置(例如，手机或平板计算机)包含内置相机。因为便携式装置包含除捕获视觉媒体的能力之外的大量功能，许多人受惠于便携式装置而放弃携带大体积、昂贵的相机和镜头。然而，内置于便携式装置中的相机具有受限数目的特征。另外，内置式相机通常具有基础镜头。因此，由内置式相机捕获的视觉媒体通常具有较不好的质量并缺乏所需色彩、对比度、锐度和/或类似者。

便携式装置或另一装置上可用的应用程序可用以处理并增强所捕获的视觉媒体。举例来说，终端用户可使用应用程序来调整色彩，增强对比度，锐化边缘和/或类似者。然而，许多应用程序可为处理器密集式的和/或需要额外硬件。这可在便携式装置上尤其成问题，因为应用程序可增加电池消耗和/或装置的大小。

发明内容

本发明的系统、方法及装置各自具有若干方面，其中无单一方面单独地负责其所要属性。在不限制如通过以下的权利要求书表达的本发明的范围的情况下，现在将简洁地论述一些特征。在考虑此论述之后，并且尤其在阅读标题为“具体实施方式”的部分之后，将理解本发明的特征如何提供在无线网络中包含接入点与站台之间的经改进通信的优点。

本发明的一方面提供一种用于增强图像的方法。所述方法包括检索存储于存储器单元中的左图像和右图像。左图像及右图像可各自描绘来自不同视角的相同场景。所述方法进一步包括基于左图像与右图像之间的空间定向差确定深度图。所述方法进一步包括识别左图像或右图像中由用户选择的一部分。所述方法进一步包括基于所确定的深度图确定在由用户选择的部分周围的增强区域。所述方法进一步包括增强所述增强区域。

本发明的另一方面提供用于增强图像的设备。所述设备包括用于检索存储于存储器单元中的左图像和右图像的装置。左图像及右图像可各自描绘来自不同视角的相同场景。所述设备进一步包括用于基于左图像与右图像之间的空间定向差确定深度图的装置。所述设备进一步包括用于识别左图像或右图像中由用户选择的一部分的装置。所述设备进一步包括用于基于所确定的深度图确定在由用户选择的部分周围的增强区域的装置。所述设备进一步包含用于增强所述增强区域的装置。

本发明的另一方面提供包括代码的非暂时性计算机可读媒体，所述代码在执行时引起设备检索存储于存储器单元中的左图像和右图像。左图像及右图像可各自描绘来自不同视角的相同场景。媒体进一步包括在执行时引起设备基于左图像与右图像之间的空间定向差确定深度图的代码。媒体进一步包括在执行时引起设备识别左图像或右图像中由用户选择的一部分的代码。媒体进一步包括在执行时引起设备基于所确定的深度图确定在由用户选择的部分周围的增强区域的代码。媒体进一步包括在执行时引起设备增强所述增强区域的代码。

本发明的另一方面提供用于增强图像的装置。装置包括配置为存储左图像和右图像的存储器单元。左图像及右图像可各自描绘来自不同视角的相同场景。装置进一步包括配置为从存储器单元中检索左图像和右图像的译码器。译码器可进一步配置基于左图像与右图像之间的空间定向差确定深度图。装置进一步包括耦合到译码器的处理器。处理器可配置为识别左图像或右图像中由用户选择的一部分。处理器可进一步配置为基于所确定的深度图确定在由用户选择的部分周围的增强区域。处理器可进一步配置为增强所述增强区域。

附图说明

图1为示出其中源装置增强立体图像的例示性系统的框图。

图2为示出其中源装置将增强型立体图像发射到目的地装置的例示性系统的框图。

图3为可实施本发明的技术的说明性编码器的框图。

图4为可实施本发明的技术的说明性解码器的框图。

图5示出帧的排序。

图6示出深度计算流程。

图7示出用于增强图像的流程。

图8示出用于增强图像的另一流程。

图9示出实例原始图像。

图10A示出可由编码器基于图9中的原始图像计算的深度图。

图10B示出图9的细化及放大后的深度图。

图11至13示出使用图10B的缩放深度图增强的各种图像。

图14示出用于增强图像的实例方法。

具体实施方式

如上文所描述，具有强大镜头和/或其它组件的特征齐全的相机或摄像机可能是昂贵的。装置(例如，便携式装置)上可用的应用程序可用以处理并增强所捕获的视觉媒体(例如，图像、视频等等)，以模仿由强大的镜头和/或其它组件所产生的效果。例如，终端用户可使用应用程序以调整色彩、增强对比度、锐化边缘、改变几何形状和/或类似者。然而，许多应用程序是处理器密集式的和/或需要额外硬件来实施一些或所有增强特征。作为一实例，确定媒体的一部分增强的程序可以是处理器密集式的。另外，可能需要特殊硬件(例如，深度图引擎)来确定媒体的部分增强和/或媒体的一部分不会增强。这些应用程序的处理器密集性质和/或包括额外硬件的必要性可在便携式装置上尤其成问题，因为应用程序可增加电池消耗和/或装置的大小。

因此，本文中描述的系统和方法在装置上使用现有硬件以使得应用程序能够执行增强特征。另外，本文所描述的系统和方法允许装置执行某些操作，例如，处理器密集式的操作，同时装置是空闲的，正在充电，或另外处于电池消耗不是问题的状态中。以此方式，本文所描述的系统和方法允许装置提供各种增强特征，同时最小化电池消耗并维持或甚至减小装置的大小。

当本文所描述的技术可应用于任何类型和任何数目的图像或图像序列(例如，视频)时，相对于立体图像和/或立体视频来描述如本文所揭示的技术。立体图像(或图像的立体对)通常包含共同场景的第一图像和第二图像。贯穿本发明，第一图像和第二图像可被称为左图像和右图像、左视图和右视图，或左(L)和右(R)帧。可同时或快速依次展示立体对中的第一图像和第二图像，以产生具有3D对象的场景。可使用两个相机捕获立体图像和视频，并将所述立体图像和视频作为一连串左帧和右帧发射。有时，虽然不常见，但立体图像或视频作为L帧发射并伴随有用于所述帧的深度图(D)。然而，在如本文所描述的其它情况下，发射立体图像或视频而没有用于帧的深度图。然而，深度图可使用L帧和R帧计算。根据两个视图(L和R)计算深度图通常是介入式及计算密集型的程序。实时实施通常需要硬件模块仅用于计算视差的目的(例如，其可用以确定深度图)。通常，最好的视差计算算法是如此复杂而使得其无法实时地实施或仅可由具有大量处理资源的装置实时实施。因此，如果从头开始，那么计算深度图通常采用额外设计和实施努力。然而，如本文所描述，现有系统可再用于计算深度，从而节省所述努力。当视频的深度图可用时，深度感知增强可应用于立体图像或视频。

如本发明中所使用的术语“视差”通常描述一个图像中的像素相对于另一图像中的相对应像素的水平偏移(例如，两个图像之间的空间定向差)。如本发明中所使用的相对应像素通常是指当合成左图像和右图像以显现2D或3D图像时，与3D对象中的同一点相关联的像素(一个在左图像中且一个在右图像中)。

用于图像立体对的多个视差值可存储于被称作视差图的数据结构中。与图像立体对相关联的视差图表示二维(2D)函数d(x,y)，其将第一图像中的像素坐标(x,y)映射至视差值(d)，以使得第一图像中的位于任何给定(x,y)坐标的值d对应于x坐标中的位移，所述位移需要应用于第二图像中的位于坐标(x,y)的像素以得到第二图像中的相对应像素。例如，作为特定图示，视差图可针对第一图像中的位于坐标(250,150)的像素存储为6的d值。在此图示中，给定d值为6，描述第一图像中的像素(250,150)的数据(例如，色度值和亮度值)在第二图像中的像素(256,150)处出现。

2D图像中可用的基本信息是每一像素的色彩值。因此，一种用于识别相对应像素的技术是寻找第一图像(也被称为参考图像)中的每一像素的色彩值在第二图像(也称为目标图像)的像素之中的最佳匹配，其中目标图像是指图像立体对中的伴随图像。目标图像可以是左图像或右图像中的一个，且参考图像可以是左图像或右图像中的另一个。当考虑矫正的立体对时，目标图像中的搜寻空间可受限于与参考图像中相同的核线中的像素。然而，本技术假设与对象中的同一点相关联的像素的色彩值是相同的，这并非始终是正确的假设。例如，对象表面通常不在所有方向上均一地反射光，且用以获取立体集合的两个图像捕获传感器可具有不同的比色校准。另外，可沿线在若干像素中得到相同色彩值，从而提供若干潜在匹配。另外，特定像素或像素群可能在目标图像中受到阻挡，意味着其在参考图像中处于对象之后并因此在3D图像中不可见。因此，视差值可不可用于像素，其中未识别相对应的像素。内插法或类似技术可用以在这些值另外不可用时确定视差值。

在实施例中，深度图可基于视差图形成。例如，视差图可缩放以使得视差值的范围为0至所设置的数目(例如，255)。缩放的视差图在本文中被作为深度图。通常，深度图中的缩放值与灰度(例如，如果所设置的数目为255，则为8位灰度)相对应。因此，如下文所描述及说明，可经由灰度图像以图形方式表示深度图。

大部分便携式装置包括用以将数据高效发射到其它装置的编码器和/或解码器。确切地说，编码器和/或解码器可用以压缩和/或解压缩视觉媒体，以使得可跨越媒体更快速地发射视觉媒体。如本文所描述，可利用现有编码器和/或解码器以执行额外功能。例如，编码器和/或解码器可用以实时产生深度图并确定图像或图像序列中的深度信息。这种深度信息可用于识别图像中有关的部分(例如，在组合时包括对象的像素)和图像中无关的部分(例如，为不同对象的一部分的相邻像素)。终端用户可选择图像的一部分，并基于深度信息，图像中与所选部分有关的部分可由装置的处理器增强和/或图像中与所选部分无关的部分可由处理器劣化。关于图1至14更详细地描述如本文所揭示的系统和方法。

图1为示出其中源装置增强立体图像的例示性系统的框图。如图1中所示，系统100可包含具有图像源116的源装置112、编码器120、处理器122及图像显示器123。源装置112可包括无线通信装置，例如，无线手持机、所谓的蜂窝式或卫星无线电电话，或可在通信信道上传达图片和/或视频信息的任何无线装置，在这种情况下，通信信道可包括无线通信信道。

图像源116将图像的立体对(包含第一视图150及第二视图152)提供至编码器120及处理器122。图像源116可同时或在不同时间将第一视图150及第二视图152提供至编码器120及处理器122。例如，紧接在将第一视图150及第二视图152存储于图像源116中之后或之后不久，可将第一视图150及第二视图152提供到编码器120。当终端用户表明增强第一视图150和/或第二视图152的希望时，接着可将第一视图150及第二视图152提供到处理器122。

图像源116可包括图像传感器阵列(例如，数字静止图片相机或数字摄像机)、包括一或多个所存储图像的计算机可读存储媒体、用于从外部源接收数字图像的接口、(例如)通过执行视频游戏或其它交互式多媒体源而产生数字图像的处理单元，或图像数据的其它源。图像源22可通常对应于所捕获图像、预捕获图像和/或计算机产生的图像中的任一个或多个的源。在一些实例中，图像源116可对应于蜂窝式(即，移动)电话的相机。一般来说，在本发明中提及图像包括静止图片以及视频数据帧两者。因此，本发明的各方面可皆适用于静止数字图片以及所捕获数字视频数据帧或计算机产生的数字视频数据。

例如，图像源116可以不同视角捕获场景的两个视图。在各种实例中，图像源116可包括标准二维相机、提供场景的立体视图的两相机系统、捕获场景的多个视图的相机阵列、捕获一个视图加深度信息的相机，或一起提供场景的立体视图的第一装置上的第一相机和第二装置上的第二相机。

编码器120使用第一视图150及第二视图152产生深度图154。编码器120将深度图154传送至处理器122。处理器122使用第一视图150、第二视图152及深度图154产生增强型第一视图156，其为第一视图150的增强型版本，和/或产生增强型第二视图158，其为第二视图152的增强型版本。处理器122将增强型第一视图156和/或增强型第二视图158发射至图像显示器123。

基于增强型第一视图156和/或增强型第二视图158，图像显示器123可显现增强型二维或三维图像。例如，图像显示器123可合成增强型第一视图156与增强型第二视图158以形成并显示单个二维图像。作为另一实例，图像显示器123可同时或交替地显示增强型第一视图156和增强型第二视图158的二维版本(例如，以产生三维效果)。作为另一实例，图像显示器123可合成增强型第一视图156与增强型第二视图158以形成并显示单个三维图像。

一般来说，人类视觉系统(HVS)基于与对象的会聚角而感知深度。由于观察者的眼睛以大于距观察者相对更远的对象的角度会聚于对象上，故将相对更靠近观察者的对象感知为更接近观察者。为了模拟多媒体(例如，图片和和视频)中的三个维度，图像显示器123向观察者显示两个图像，为观察者的每一只眼睛显示一个图像(左及右)。位于图像中的相同空间位置处的对象将通常被感知为处于与正显示图像的荧幕相同的深度。

为了产生深度错觉，可在每一图像中沿水平轴线在略不同的位置处展示对象。两个图像中的对象位置间的差被称为视差。一般来说，为了使对象相对于荧幕看起来更接近观察者，可使用负视差值，然而为了使对象相对于荧幕看起来距用户更远，可使用正视差值。具有正或负视差的像素在一些实例中可以或多或少的分辨率显示，以增加或减少锐度或模糊读，以进一步产生来自焦点的正或负深度的效果。

图像显示器123可包括戴眼镜式立体显示器或裸眼式立体显示器。一般来说，在观察者佩戴头戴式单元(例如，护目镜或眼镜)时，所述护目镜或眼镜将一个图像导向到一只眼睛中并将第二图像导向到另一只眼睛中，戴眼镜式立体显示器通过显示两个图像模拟三维。在一些实例中，同时显示每一图像(例如，借助于偏光眼镜或滤色眼镜)。在一些实例中，快速交替图像，且眼镜或护目镜以与显示器同步的方式快速交替关闭，以使正确图像仅展示给相对应的眼睛。裸眼式立体显示器并未使用眼镜，但相反地可将正确图像导向到检查者的相对应眼睛中。例如，裸眼式立体显示器可配备有用以确定检查者的眼睛定位在何处的相机，及用于将图像导向至检查者的眼睛的机械和/或电子装置。

图2为示出其中源装置将增强型立体图像发射到目的地装置的例示性系统的框图。如图2中所示，系统200可包含具有图像源116的源装置112、编码器120、处理器122、输出接口224，且可进一步包含具有图像显示器232的目的地装置214、解码器230及输入接口228。在图2的实例中，目的地装置214从源装置112接收经编码的图像数据262。源装置112和/或目的地装置214可包括无线通信装置，例如，无线手持机、所谓的蜂窝式或卫星无线电电话，或可在通信信道上传达图片和/或视频信息的任何无线装置，在这种情况下，通信信道可包括无线通信信道。目的地装置214可被称为三维(3D)显示装置或3D显现装置。

如上文关于图1所描述，图像源116将图像的立体对(包含第一视图150及第二视图152)提供至编码器120及处理器122。图像源116可同时或在不同时间将第一视图150及第二视图152提供至编码器120及处理器122。例如，紧接在将第一视图150及第二视图152存储于图像源116中之后或之后不久，可将第一视图150及第二视图152提供到编码器120。当终端用户表明增强第一视图150和/或第二视图152的希望时，接着可将第一视图150及第二视图152提供到处理器122。

编码器120使用第一视图150及第二视图152产生深度图154。编码器120将深度图154传送至处理器122。处理器122使用第一视图150、第二视图152及深度图154产生增强型第一视图156，其为第一视图150的增强型版本，和/或产生增强型第二视图158，其为第二视图152的增强型版本。处理器122将增强型第一视图156和/或增强型第二视图158发射至编码器120。

编码器120形成经编码图像数据262，其包含用于增强型第一视图156和/或用于增强型第二视图158的经编码图像数据。在一些实例中，编码器120可应用各种无损或有损译码技术来减少将经编码图像数据262从源装置112发射到目的地装置214的位数。编码器120将经编码图像数据262传递到输出接口224。

当增强型第一视图156和/或增强型第二视图158为数字静止图片时，编码器120可配置为编码增强型第一视图156和/或增强型第二视图158作为(例如)联合图片专家组(JPEG)图像。当增强型第一视图156和/或增强型第二视图158为视频数据帧时，编码器120可配置为根据视频译码标准来编码增强型第一视图156和/或增强型第二视图158，所述视频译码标准例如为运动图片专家组(MPEG)、MPEG-2、国际电信联盟(ITU)H.261、ISO/IECMPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU H.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称为ISO/IEC MPEG-4高级视频译码(AVC))，包含其SVC及多视图视频译码(MVC)扩展、ITU-T H.265或其它视频编码标准。ITU-T H.264/MPEG-4(AVC)标准是例如由ITU-T视频译码专家组(VCEG)连同ISO/IEC移动图片专家组(MPEG)一起制定为被称为联合视频小组(JVT)的集体合作关系的产品。在一些方面中，本发明中描述的技术可应用于一般符合H.264标准的装置。H.264标准描述于ITU-T研究组的日期为2005年3月的“ITU-T推荐H.264，用于一般视听服务的高级视频译码(ITU-T Recommendation H.264,AdvancedVideo Coding for generic audiovisual services)”中，其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4AVC的扩展。MVC的草案描述于2010年3月的“用于通用视听服务的高级视频译码”(ITU-T建议H.264)中。另外，高效率视频译码(HEVC)目前正由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)进行开发。HEVC标准的草案(被称作“HEVC工作草案7”)是布洛斯等人的文献HCTVC-I1003，“高效视频译码(HEVC)文本规格草案7”，ITU-T SG16WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC)，第九次会议，瑞士日内瓦，2012年4月27日到2012年5月7日。此文献以全文引用的方式并入本文中。

在一些图中未展示的实施例中，编码器120配置为编码深度图154，所述深度图154接着在位流中发射作为经编码图像数据262的一部分。此程序可针对一个所捕获视图产生一个深度图或针对若干所发射视图产生多个深度图。编码器120可接收一或多个视图及深度图，并用如可对多个视图进行联合译码的H.264/AVC、MVC的视频译码标准或可对深度及纹理进行联合译码的可伸缩视频译码(SVC)对其进行译码。

当增强型第一视图156和/或增强型第二视图158对应于视频数据帧时，编码器120可以帧内预测模式或帧间预测模式编码增强型第一视图156和/或增强型第二视图158。作为实例，ITU-T H.264标准支持各种块大小的帧内预测(例如，用于明度分量的16×16、8×8或4×4及用于色度分量的8×8)，以及各种块大小的帧间预测，例如，用于明度分量的16×16、16×8、8×16、8×8、8×4、4×8及4×4及用于色度分量的对应缩放大小。在本发明中，“N××N”及“N乘N”可互换地使用以指代块在垂直及水平尺寸方面的像素尺寸(例如，16×16像素或16乘16像素)。一般来说，16×16块在垂直方向上将具有16个像素，且在水平方向上具有16个像素。同样，N×N块一般在垂直方向上具有N个像素并在水平方向上具有N个像素，其中N表示可大于16的正整数值。块中的像素可按行及列布置。块也可以为N×M，其中N及M是不一定相等的整数。

小于16乘16的块大小可被称为16乘16宏块的分区。同样，对于N×N块，小于N×N的块大小可被称为N×N块的分区。视频块可包括像素域中的像素数据块或变换域中的变换系数块(例如，在将例如离散余弦变换(DCT)、整数变换、小波变换或在概念上类似的变换等变换应用到表示经译码视频块与预测性视频块之间的像素差的残余视频块数据之后)。在一些情况下，视频块可包括变换域中的经量化变换系数块。

较小视频块可提供更佳分辨率，且可用于视频帧的包含高等级细节的位置。一般来说，宏块及有时称为子块的各种分区可被视为视频块。另外，可将切片视为多个视频块，例如，宏块和/或子块。每一切片可为视频帧的可独立解码的单元。或者，帧本身可为可解码单元，或帧的其它部分可被定义为可解码单元。术语“经译码单元”或“译码单元”可指代视频帧的任何可独立解码单元，例如，整个帧、帧切片、还被称为序列或超帧的一组图片(GOP)，或根据可适用的译码技术定义的另一可独立解码单元。

一般来说，宏块及各种子块或分区皆可被视为视频块。另外，切片可被视为多个视频块，例如，宏块和/或子块或分区。一般来说，宏块可指代一组色度值和亮度值，其定义像素的16乘16区。明度块可包括值的16乘16集合，但可进一步分割成较小视频块，例如8乘8块、4乘4块、8乘4块、4乘8块或其它大小。两个不同的色度块可定义宏块的色彩，并可各自包括与像素的16乘16区相关联的色彩值的8乘8次取样块。宏块可包含定义应用于宏块的译码模式和/或译码技术的语法信息。宏块或其它视频块可分组为可解码单元，例如切片、帧或其它独立单元。每一切片可为视频帧的可独立解码的单元。或者，帧本身可为可解码单元，或帧的其它部分可被定义为可解码单元。

输出接口224将经编码图像数据262发射到目的地装置214。输入接口228接收来自输出接口224的经编码图像数据262。本发明的各方面未必限于无线应用或设置。举例来说，本发明的各方面可应用于空中电视广播、有线电视发射、卫星电视发射、因特网视频发射、编码到存储媒体上的经编码数字视频，或其它情景。因此，通信信道可包括适用于经编码视频和/或图片数据的无线或有线媒体的任何组合。

输出接口224可将包含经编码图像数据262的位流发送到目的地装置214的输入接口228。举例来说，输出接口224可使用输送级封装技术(例如，MPEG-2系统技术)封装位流中的经编码图像数据262。输出接口224可包括(例如)网络接口、无线网络接口、射频发射器、发射器/接收器(收发器)或其它发射单元。在其它实例中，源装置112可配置为将包含经编码图像数据262的位流存储到物理媒体，例如，光学储存媒体(例如压缩光盘、数字视频光盘、Blu-Ray光盘)、快闪存储器、磁性媒体或其它存储媒体。在这些实例中，存储媒体可在物理上输送到目的地装置214的位置并由用于检索数据的适当接口单元读取。在一些实例中，在由输出接口224发射之前，包含经编码图像数据262的位流可由调制器/解调器(调制解调器)调制。

虽然图像源116可提供多个视图(即，增强型第一视图156和增强型第二视图158)，但源装置112可仅发射增强型第一视图156或增强型第二视图158。举例来说，图像源116可包括八相机阵列，旨在产生待从不同角度观察的场景的四对视图。源装置112可仅将每一对的一个图像发射到目的地装置214。在一些实施例中，源装置112可发送额外信息以及单个图像，例如深度图154。因此，在此实例中，并非发射8个视图，源装置112可针对四个视图中的每一个以包括经编码图像数据262的位流的形式发射四个视图和/或加上深度/视差信息(例如，深度图154)。在一些实例中，处理器122可从用户或从另一外部装置接收图像(例如，视差图154)的视差信息。

在接收具有经编码图像数据262的位流并解封数据之后，在一些实例中，输入接口228可将经编码图像数据262提供到解码器230(或在一些实例中，提供到解调位流的调制解调器)。

解码器230接收来自输入接口228的经编码图像数据262。解码器230解码经编码图像数据262以提取增强型第一视图156和/或增强型第二视图158。基于增强型第一视图156和/或增强型第二视图158，与图像显示器123相同或类似的图像显示器232可显现二维或三维图像。虽然图2中未展示，但增强型第一视图156和/或增强型第二视图158可在源装置112或目的地装置214处经历额外处理。

图3为示出可实施根据本发明中描述的方面的技术的编码器的实例的框图。编码器120可配置为执行本发明的任何或所有技术。举例来说，模式选择单元340(例如，运动估计单元342)可配置为基于由编码器120接收的图像序列(例如，左图像之后是右图像)来确定深度图。然而，本发明的方面不限于此。在一些实例中，本发明中描述的技术可在编码器120的各种组件之间共享。在一些实例中，作为补充或替代，处理器(图中未展示)可配置为执行本发明中描述的任何或所有技术。

编码器120可执行视频切片内的视频块的帧内和帧间译码。帧内译码依靠空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指代若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可指代若干基于时间的译码模式中的任一者。编码器120还可使用本文所描述的帧间译码技术产生视差图和/或深度图。

如图3中所展示，编码器120接收在待编码的图像或视频帧内的当前图像块。在图3的实例中，编码器120包含模式选择单元340、参考帧存储器364、求和器350、变换处理单元352、量化单元354及熵编码单元356。模式选择单元340又包含运动估计单元342、运动补偿单元344、帧内预测单元346和分割单元348。为了视频块重建，编码器120还包含反量化单元358、反变换单元360和求和器362。还可包含解块滤波器(图3中未展示)以便对块边界进行滤波，以从经重建视频移除成块假影。在需要时，解块滤波器通常将对求和器362的输出进行滤波。除了解块滤波器外，还可使用额外滤波器(回路中或回路后)。为简洁起见未展示此类滤波器，但是在必要时，这些滤波器可以对求和器350的输出进行滤波(作为环路内滤波器)。

在编码程序期间，编码器120接收待译码的图像、视频帧或切片。图像、帧或切片可被划分成多个块。运动估计单元342及运动补偿单元344相对于一或多个参考帧中的一或多个块执行对所接收块的帧间预测性译码以提供时间预测。帧内预测单元346可替代地相对于与待译码块相同的帧或切片中的一或多个相邻块执行对所接收块的帧内预测性译码以提供空间预测。编码器120可执行多个译码遍次(例如，以针对每一视频数据块选择适当的译码模式)。

此外，分割单元348可以基于先前译码遍次中的先前分割方案的评估将图像或视频数据的块分割成子块。例如，分割单元348最初可基于速率失真分析(例如，速率失真最佳化)将图像、帧或图片分割成最大译码单元(LCU)，并将LCU中的每一个分割成次译码单元(CU)。模式选择单元340(例如，分割单元348)可进一步产生指示将LCU分割成子CU的四叉树数据结构。四分树的叶CU可包含一或多个PU和一或多个TU。

模式选择单元340可基于错误结果选择译码模式(例如，帧内或帧间)中的一个，并将所得帧内或帧间译码块提供到求和器350以产生残余块数据，并提供到求和器362以重建构经编码块以用作参考帧。模式选择单元340还将语法元素(例如，运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供到熵编码单元356。

运动估计单元342与运动补偿单元344可高度集成，但出于概念目的而单独地加以说明。由运动估计单元342执行的运动估计或运动信息的预测是产生运动向量的程序，其估计视频块的运动。运动向量可(例如)指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元)内的预测性块相对于当前帧(或其它经译码单元)内正被译码的当前块的位移。预测性块是被发现在像素差方面与待译码块紧密匹配的块，像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中，编码器120可计算存储于参考帧存储器64中的参考图片的子整数像素位置的值。举例来说，编码器120可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元342可相对于整数像素位置和分数像素位置执行运动搜索且输出具有分数像素精度的运动向量。

运动估计单元342通过比较PU的位置与参考图片的预测性块的位置而计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(例如，列表0)、第二参考图片列表(例如，列表1)或第三参考图片列表(例如，列表C)，其中的每一者识别存储在参考帧存储器364中的一或多个参考图片。可基于在空间上和/或在时间上与PU相邻的块的运动信息来选择参考图片。所选参考图片可由参考索引识别。运动估计单元342将所计算的运动向量和/或参考索引发送到熵编码单元356和/或运动补偿单元344。

另外，运动估计单元342通过比较按顺序接收的两个图像(例如，左图像和右图像)及以本文所描述的方式确定所接收图像中的每一部分(例如，每一像素、每一像素群等)的视差值而产生视差图。举例来说，可通过分析两个图像之间的运动来确定视差值。运动估计单元342可放大视差图以产生深度图。

由运动补偿单元344执行的运动补偿可以涉及基于由运动估计单元342确定的运动向量来获取或产生预测性块。在接收到当前视频块的PU的运动向量后，运动补偿单元344可在参考图片列表中的一者中定位所述运动向量指向的预测性块。求和器350通过从正译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块，如下文所论述。在一些实施例中，运动估计单元342可相对于明度分量执行运动估计，且运动补偿单元344可针对色度分量和明度分量两者使用基于明度分量计算的运动向量。模式选择单元340可产生与视频块和视频切片相关联的语法元素以供解码器230在解码视频切片的视频块中使用。

在一些实施例中，作为对由运动估计单元342及运动补偿单元344执行的帧间预测的替代，帧内预测单346可以对当前块进行帧内预测。明确地说，帧内预测单元346可以确定用以编码当前块的帧内预测模式。在一些实例中，帧内预测单元346可(例如在单独编码编次期间)使用各种帧内预测模式对当前块进行编码，且帧内预测单元346(或在一些实例中为模式选择单元340)可从所测试模式中选择适当的帧内预测模式来使用。

举例来说，帧内预测单元346可使用速率失真分析计算针对各种经测试帧内预测模式的速率失真值，且从所测试模式当中选择具有最佳速率失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量，以及用于产生经编码块的位速率(也就是说，位数目)。帧内预测单元346可以从用于各种经编码块的失真及速率计算比率，以确定哪种帧内预测模式针对所述块展现最佳速率失真值。

在针对块选择帧内预测模式之后，帧内预测单元346可将指示用于所述块之所选择帧内预测模式的信息提供到熵编码单元356。熵编码单元356可以对指示所选帧内预测模式的信息进行编码。编码器120在所发射的位流中可包含配置数据，其可包含多个帧内预测模式索引表和多个经修改的帧内预测模式索引表(也称为码字映射表)、对各种块的上下文进行编码的定义，以及对最可能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示，以用于所述上下文中的每一者。

如上文所描述，编码器120通过从正译码的原始视频块减去由模式选择单元340提供的预测数据来形成残余视频块。求和器350表示执行此减法运算的一或多个组件。变换处理单元352将变换(例如，DCT或概念上类似的变换(例如，小波变换、整数变换、子带变换等))应用于残差块，从而产生包括残余变换系数值的视频块。所述变换可将残余信息从像素值域转换到变换域(例如，频域)。变换处理单元352可将所得变换系数发送到量化单元354。量化单元354将所述变换系数量化以进一步减小位速率。量化程序可以减少与系数中的一些或全部相关联的位深度。可通过调节量化参数来修改量化的程度。在一些实例中，量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。或者，熵编码单元356可执行所述扫描。

在量化之后，熵编码单元356对经量化的变换系数进行熵译码。举例来说，熵编码单元356可执行CAVLC、CABAC、SBAC、PIPE译码或另一熵译码技术。就基于上下文的熵译码而论，上下文可以基于相邻块。在由熵译码单元356进行熵译码之后，可以将经编码位流发射到另一装置(例如，解码器230)，或将所述经编码位流存档以用于稍后发射或检索。

反量化单元358和反变换单元360分别应用反量化和反变换以在像素域中重建残余块(例如，以供稍后用作参考块)。运动补偿单元344可以通过将残余块添加到存储于参考帧存储器364中的帧中的一者的预测性块中来计算参考块。运动补偿单元344还可将一或多个内插滤波器应用于经重建的残余块以计算子整数像素值，以便用于运动估计。求和器362将经重建的残余块添加到由运动补偿单元344产生的经运动补偿的预测块，以产生经重建的视频块以用于存储于参考帧存储器364中。经重建的视频块可由运动估计单元342和运动补偿单元344用作参考块以对后续视频帧中的块进行帧间译码。

图4为示出可实施根据本发明中描述的方面的技术的解码器的实例的框图。解码器230可配置为执行本发明的任何或所有技术。举例来说，运动补偿单元472可配置为产生视差图和/或深度图。然而，本发明的方面不限于此。在一些实例中，本发明中描述的技术可在解码器230的各种组件之间共享。在一些实例中，作为补充或替代，处理器(图中未展示)可配置为执行本发明中描述的任何或所有技术。

在图4的实例中，解码器230包含熵解码单元470、运动补偿单元472、帧内预测单元474、反量化单元476、反变换单元478、参考帧存储器482及求和器480。在一些实例中，解码器230可执行总体上与关于编码器120(图3)描述的编码遍次互逆的解码遍次。运动补偿单元472可基于从熵解码单元470接收的运动向量产生预测数据，而帧内预测单元474可基于从熵解码单元470接收的帧内预测模式指示符产生预测数据。

在解码程序期间，解码器230从编码器120接收表示经编码图像或视频切片的块和相关联语法元素的经编码图像位流。解码器230的熵解码单元470对位流进行熵解码以产生经量化的系数、运动向量或帧内预测模式指示符和/或其它语法元素。熵解码单元470将运动向量及其它语法元素转发到运动补偿单元472。解码器230可以接收图像、视频切片层级和/或块层级处的语法元素。

当图像或视频切片经译码为经帧内译码(I)切片时，帧内预测单元474可以基于用信号发出的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前图像或视频切片的块的预测数据。在图像或帧经译码为经帧间译码(例如，B、P或GPB)切片时，运动补偿单元472基于运动向量及从熵解码单元470接收的其它语法元素而产生用于当前视频切片的视频块的预测性块。可以从参考图片列表中的一者内的参考图片中的一者产生预测性块。解码器230(例如，运动补偿单元472)可基于存储于参考帧存储器482中的参考图片使用默认建构技术建构参考帧列表：列表0、列表1和/或列表C。运动补偿单元472通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息，并且使用所述预测信息产生用于正解码的当前视频块的预测性块。举例来说，运动补偿单元472使用一些接收到的语法元素确定用以对视频切片的块进行译码的预测模式(例如，帧内预测或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、切片的参考图片列表中的一个或多个的建构信息、图像或切片的每一经帧间编码块的运动向量、图像或切片的每一经帧间译码块的帧间预测状态，和/或用以对当前图像或视频切片中的块进行解码的其它信息。

另外，运动估计单元472通过比较按顺序接收的两个图像(例如，左图像和右图像)及以本文所描述的方式确定所接收图像中的每一部分(例如，每一像素、每一像素群等)的视差值而产生视差图。举例来说，可通过分析两个图像之间的运动来确定视差值。运动补偿单元472可放大视差图以产生深度图。

运动补偿单元472还可基于内插滤波器执行内插。运动补偿单元472可使用由编码器120在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下，运动补偿单元472可根据接收的语法元素确定由编码器120使用的内插滤波器且使用所述内插滤波器来产生预测性块。

反量化单元476对提供在位流中且由熵解码单元70解码的经量化变换系数进行反量化(例如，解量化)。反量化程序可包含使用由编码器120针对视频切片中的每一视频块所计算的量化参数QP_Y以确定应该应用的量化程度且同样确定应该应用的反量化程度。

反变换单元478对变换系数应用反变换(例如反DCT)、反整数变换，或概念上类似的反变换程序，以便产生像素域中的残余块。

在一些情况下，反变换单元478可对系数应用二维(2-D)反变换(在水平及垂直方向上)。根据本发明的技术，反变换单元478可相反地对TU中的每一个中的残余数据应用水平1-D反变换、垂直1-D反变换或未对其应用变换。可将在编码器120处应用于残余数据的变换的类型用信号发出到解码器230以将适当类型的反变换应用于变换系数。

在运动补偿单元472基于运动向量和其它语法元素产生当前块的预测性块后，解码器230通过对来自反变换单元478的残余块与由运动补偿单元472产生的对应预测性块求和而形成经解码的视频块。求和器480表示执行此求和运算的一或多个组件。在需要时，还可应用解块滤波器以对经解码块进行滤波，以便移除成块假影。还可使用其它环路滤波器(在译码环路中或在译码环路之后)，以使像素转变变平滑或者以其它方式改善视频质量。接着将给定帧或图片中的经解码视频块存储在参考图片存储器482中，参考图片存储器482存储用于后续运动补偿的参考图片。参考帧存储器482还存储经解码视频以用于稍后在显示装置(例如，图1的图像装置123或图2的图像显示器232)上呈现。

计算深度图

关于编码器(例如，编码器120)描述本文所揭示的技术。然而，这并不意味着限制。解码器(例如，解码器230)可使用相同技术以实现类似结果。

编码器(例如，编码器120)将原始视频帧转换成标准压缩格式。压缩程序受助于针对经帧间译码帧计算像素类/块类运动的运动检测算法。如上文所论述，经帧间译码帧可为两个类型：P帧及B帧。P帧含有关于前一个经帧内译码帧(I帧)的向前运动值。B帧含有关于前一个及下一个经帧内译码帧的双向运动值。经帧内译码帧是经空间编码的。经帧内译码帧与任何运动值或流中的任何其它帧无关联。经帧间译码帧中的运动值是两个视频帧之间的视差或差异。在实施例中，如果用包含3D视频流的交错的左(L)视图与右(R)视图(例如，使用两个相机捕获的图像)的视频流来替换普通的2D视频流(例如，使用单个相机捕获的图像)，那么运动值表示每一对L及R帧之间的视差(例如，L帧与R帧之间的空间定向差)。

编码器可配置为将交错的立体视频的替代帧编码为I帧及P帧。图5示出帧的排序。如图5中所示，序列包含四个帧：L₁ 502、R₁ 504、L₂ 506及R₂ 508。为简单起见，仅示出四个帧；然而，本文所描述的技术适用于任何数目的帧。在实施例中，L₁ 502为由编码器120接收的第一帧，且R₂ 508为由编码器120接收的最后一个帧。L帧(例如，L₁ 502及L₂ 506)经编码为I帧且R帧(例如，R₁ 504及R₂ 508)经编码为P帧。因此，如由编码器120接收的帧的序列在I帧与P帧之间交替。这有助于确保可计算视差值。

图6示出深度计算流程。如图6中所示，编码器120接收帧L₁ 502、R₁ 504、L₂ 506及R₂ 508的序列作为数据608。在实施例中，编码器120经设置成高比特率设置，以使得P帧具有大部分经帧间译码的宏块(MB)。作为实例，最低MB大小可为8×8。可能需要在R帧中具有尽可能多的经帧间译码的宏块，因为经帧间译码的宏块含有又关于相对应的L帧的运动向量信息。

编码器120可从MB(由方框602表示)提取运动向量信息作为数据610，且经帧间译码及经帧内译码的块可以图形方式表示于减少取样的深度图620中。减少取样的深度图620中的黑色块(图中未展示)可表示经帧内译码块。经帧内译码块在受阻或显露区域中可能是常见的，其中在L帧与R帧之间可没有发现匹配。

在实施例中，X方向上的MB运动可大致表示两个立体帧之间的块类视差(其可转换成深度图)。MB大小越小，深度图分辨率就越高。可通过细化从经帧内译码的补丁和噪声深度值中进一步清除MB帧，所述细化例如是中值滤波(例如，5×5中值滤波器)(由方框604表示)。在实例中，因为最低MB大小为8×8像素，所以如与原始输入帧相比，MB运动图像经8倍减少取样。为了应用增强算法，图像可必须增加取样达8倍(或另一类似值)。

放大由方框606表示。在实施例中，编码器120通过偏素重复深度图620来放大深度图620。编码器120可以使用滤波器核的大小、从核中心滤波的像素的空间距离(例如，s_d)、和/或在经滤波的像素处计算的视差梯度及在经滤波的像素处计算的图像的色度分量的梯度来确定用于每一像素的深度滤波器。深度滤波器可为两个高斯分量的乘积：空间分量(例如，-e^-(sd*sd)/λs)和图像色彩及深度值梯度分量(例如，e^-(id*id)/λc)，其中λ_s及λ_c可决定对应高斯函数(Gaussian Kernel)的传播因数。编码器120可对先前滤波的深度图执行多个滤波迭代以改进深度图。在另一个实施例中，编码器120使用传感器输入放大深度图620。举例来说，编码器120可使用简单的双线性放大来创建初始估计。编码器120可识别初始估计中的深度转变，使用外推填入转变处的深度值，并使所填充的深度值平滑(例如，减小深度转变处的深度值的差)。放大结果可由深度图624以图形方式表示，所述深度图624可包含较少黑色块并为减少取样的深度图620的增加取样版本。

由方框606表示并由编码器120执行的放大可具有若干好处。举例来说，来自立体图像的深度图计算可以是计算密集型程序。使用本文所描述的程序，如果编码器120处理较小图像或产生稀疏的(例如，减少取样的)深度图，那么编码器120可接着减少计算资源使用并提高处理速度。另外，如果不准确，那么放大的深度图可能影响深度图分段和最终增强质量。因此，使用本文所描述的程序，与使用通用放大程序的编码器相比，编码器120可改进深度图分段和/或最终增强质量。

在实施例中，由编码器120产生的深度图相较于使用通用放大程序产生的深度图具有较高的增强质量。虽然地面实况深度图(例如，理想深度图)相较于由编码器120产生的深度图可具有较高增强质量，但编码器120可使用较少样本(例如，样本数目的1/256)，如在产生地面实况深度图时将使用的。

使用深度图执行图像增强

在实施例中，深度图(例如，深度图624)可用以增强立体图像或视频。举例来说，深度图624可用以证实场景的边缘增强(例如，场景中的对象的锐化)。作为另一实例，深度图624可用以调整场景中的对比度，改变场景中的色彩，改变场景中的几何形状和/或类似者。边缘增强的强度可基于场景中的对象深度而变化。在实施例中，想法是使用光标选择图片中的对象。算法基于深度图从剩余图像中析出对象或区域，并基于深度应用不同的增强程度或不同的滤波器。

图7示出用于增强图像的流程。如图7中所示，图像702由处理器122增强为增强型图像708。在点710处选择图像702的一部分。处理器122可在较早时间响应于选择或响应于深度图704的产生而从编码器120检索深度图704。作为实例，点710处的图像702的深度值为D。接近D的阈值±Δ可由处理器122设置。阈值±Δ也可替代地由处理器122基于最大深度区间计算。

使用大小为N×N的笔划(或类似形状)，处理器122可通过从点710处开始识别图像702中深度为D±Δ(例如，D加上或减去阈值)的连续部分来增长环绕点710的区域R。在实施例中，区域R可为任何形式或形状。

在一些实施例中，一旦到达图像702中具有除深度D±Δ之外的深度的一部分，处理器122即停止在一方向上增长区域R。在其它实施例中，一旦区域R达到预设边界条件，处理器122即停止增长区域R。在其它实施例中，一旦区域R的边界达到与点710相距一定距离，处理器122即在一方向上停止增长区域R。

一旦处理器122停止增长区域R，处理器122即可接着增强图像702在区域R内的一部分。举例来说，可通过使用高通滤波器来增强区域R内的部分。图像在区域R外的部分可通过使用高斯模糊平滑(或模糊)，所述高斯模糊与深度D与图像702的相应区域的深度之间的差成正比。作为另一实例，可通过修改区域R内的像素的色彩来增强区域R内的部分。作为另一实例，区域R内的部分可经切割和/或移动到图像702的另一部分。如图7中所示，当选择点710时，深度图706的白色部分表示区域R的形状和大小同样，当选择点710时，图像708中的区域712大致表示区域R的形状和大小。当选择点710时，区域714大致表示在区域R外的图像708的面积。

图8示出用于增强图像的另一流程。如图8中所示，图像702的不同的非相邻部分可具有相同深度值(在阈值以内)。举例来说，深度图802的白色部分皆具有在阈值以内的相同深度值。然而，因为在深度图802中的白色部分之间存在间隙，所以并非所有白色部分将由处理器122增强。如上文关于图7所论述，在图像702中选择点710。因此，虽然图像702的若干部分包含在阈值以内的相同深度值，但仅增强了图像702中包含与点710邻接的像素并在点710处具有在深度阈值以内的深度值的部分(例如，将图像702中环绕点710的部分增强到在深度图802中到达边缘的点)。深度图706示出图像702中满足此类准则的那些部分。因此，增强图像708的区域712，且不干涉或劣化图像708的其它部分。

实例使用情况

图9示出实例原始图像902。图10A示出可由编码器120基于图9中的原始图像902计算的深度图1002。图10B示出细化及放大(例如，到0至255刻度)后的深度图1002。

图11至13示出使用如本文所描述的缩放深度图1002增强的各种图像。如图11中所示，选择点1104，并增强与点1104邻接并共享在阈值以内的深度值的像素。劣化点1106和图像902的其它部分。

如图12中所示，选择点1106，并增强与点1106邻接并共享在阈值以内的深度值的像素。劣化点1104和图像902的其它部分。

如图13中所示，选择点1308，并增强与点1308邻接并共享在阈值以内的深度值的像素。劣化点1104及1106和图像902的其它部分。

图14示出用于增强图像的实例方法1400。方法1400可由便携式电子装置的由一或多个组件执行。举例来说，方法1400可例如由编码器120(例如，运动估计单元342)、解码器230(例如，运动补偿单元472)和/处理器122执行。在一些实施例中，可以使用其它组件来实施本文中所描述的步骤中的一或多个步骤。

在框1402处，检索存储于存储器单元中的左图像和右图像。在实施例中，左图像及右图像各自描绘相同的场景。在框1404处，基于左图像与右图像之间的空间定向差确定深度图。

在框1406处，识别左图像或右图像中由用户选择的一部分。在框1408处，基于所确定的深度图确定在由用户选择的所述部分周围的增强区域。在框1410处，增强所述增强区域。

应认识到，取决于实例，本文所描述的技术中的任一者的某些动作或事件可按不同序列执行、可添加、合并或全部省略(例如，实践所述技术并不需要所有的所描述动作或事件)。此外，在某些实例中，可(例如)通过多线程处理、中断处理或多个处理器同时而非依序地执行动作或事件。

在一或多个实例中，所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，那么所述功能可作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体予以传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，所述计算机可读存储媒体对应于有形媒体，例如，数据存储媒体或包含(例如)根据通信协议促进计算机程序从一处传送至另一处的任何媒体的通信媒体。以此方式，计算机可读媒体通常可以对应于(1)有形计算机可读存储媒体，其是非暂时性的，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器接入以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。

借助于实例而非限制，此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储呈指令或数据结构的形式的期望程序代码并且可以由计算机接入的任何其它媒体。并且，任何连接被恰当地称作计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射指令，那么同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是，应理解，计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时媒体，而是实际上针对于非暂时性有形存储媒体。如本文中所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供，或者并入在组合编解码器中。而且，所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，所述装置或设备包含无线手持机、集成电路(IC)或IC的集合(例如，芯片组)。本发明中描述各种组件、模块或单元来强调经配置以执行所揭示的技术的装置的功能方面，但未必需要通过不同硬件单元实现。实际上，如上文所描述，各种单元可以结合合适的软件和/或固件组合在编码解码器硬件单元中，或者通过互操作硬件单元的集合来提供，所述硬件单元包含如上文所描述的一或多个处理器。描述了各种示例。这些及其它实例在所附权利要求书的范围内。

Claims

1.一种用于增强图像的方法，所述方法包括：

检索存储于存储器单元中的左图像和右图像，所述左图像和所述右图像各自描绘来自不同视角的相同场景；

基于所述左图像与所述右图像之间的空间定向差异确定深度图；

识别所述左图像或所述右图像中由用户选择的一部分，其中所述所选择部分包括第一深度；

基于所述所确定的深度图确定在所述所选择部分周围的增强区域，其中所述增强区域包括从所述左图像或所述右图像中具有在所述第一深度的阈值以内的深度的所述所选择部分开始的所述左图像或所述右图像的连续部分；及

增强所述增强区域。

2.根据权利要求1所述的方法，其进一步包括劣化所述左图像或所述右图像中未由所述用户选择的一部分。

3.根据权利要求2所述的方法，其中劣化所述左图像或所述右图像中未由所述用户选择的一部分包括模糊所述左图像或所述右图像中未由所述用户选择的所述部分。

4.根据权利要求1所述的方法，其中确定深度图进一步包括：

基于所述左图像与所述右图像之间的所述空间定向差确定视差图，其中所述左图像的一部分与所述右图像的一部分之间的较大空间定向差指示较高视差；

放大所述视差图；及

基于所述经放大的视差图确定所述深度图。

5.根据权利要求4所述的方法，其中确定视差图包括确定所述左图像中的块与所述右图像中的对应块之间的距离，其中如果第一块和第二块在阈值以内是相同的，那么所述第一块与所述第二块相对应。

6.根据权利要求1所述的方法，其中确定在所述所选择部分周围的增强区域进一步包括：

从所述左图像或所述右图像中具有在所述第一深度的所述阈值以内的所述深度的所述所选择部分开始，识别所述左图像或所述右图像的所述连续部分；及

增加在所述所选择部分周围的所述增强区域的大小，直到识别到所述左图像或所述右图像的一部分，所述一部分不具有在所述第一深度的阈值以内的深度，表示预设边界，或为距所述所选择部分的阈值距离。

7.根据权利要求1所述的方法，其中增强包括以下中的至少一个：锐化所述增强区域；

将所述增强区域移动到所述左图像或所述右图像的不同部分，或调整所述增强区域的色彩。

8.一种用于增强图像的设备，所述设备包括：

用于检索存储于存储器单元中的左图像和右图像的装置，所述左图像和所述右图像各自描绘来自不同视角的相同场景；

用于基于所述左图像与所述右图像之间的空间定向差确定深度图的装置；

用于识别所述左图像或所述右图像中由用户选择的一部分的装置，其中所述所选择部分包括第一深度；

用于基于所述所确定的深度图确定在所述所选择部分周围的增强区域的装置，其中所述增强区域包括从所述左图像或所述右图像中具有在所述第一深度的阈值以内的深度的所述所选择部分开始的所述左图像或所述右图像的连续部分；及

用于增强所述增强区域的装置。

9.根据权利要求8所述的设备，其进一步包括用于劣化所述左图像或所述右图像中未由所述用户选择的一部分的装置。

10.根据权利要求9所述的设备，其中用于劣化所述左图像或所述右图像中未由所述用户选择的一部分的装置包括用于模糊所述左图像或所述右图像中未由所述用户选择的所述部分的装置。

11.根据权利要求8所述的设备，其中用于确定深度图的装置进一步包括：

用于基于所述左图像与所述右图像之间的所述空间定向差确定视差图的装置，其中所述左图像的一部分与所述右图像的一部分之间的较大空间定向差指示较高视差；

用于放大所述视差图的装置；及

用于基于所述经放大的视差图确定所述深度图的装置。

12.根据权利要求11所述的设备，其中用于确定视差图的装置包括用于确定所述左图像中的块与所述右图像中的对应块之间的距离的装置，其中如果第一块和第二块在阈值以内是相同的，那么所述第一块与所述第二块相对应。

13.根据权利要求8所述的设备，其中用于确定在所述所选择部分周围的增强区域的装置进一步包括：

用于从所述左图像或所述右图像中具有在所述第一深度的所述阈值以内的所述深度的所述所选择部分开始识别所述左图像或所述右图像的所述连续部分的装置；

用于增加在所述所选择部分周围的所述增强区域的大小直到识别到所述左图像或所述右图像的一部分的装置，所述一部分不具有在所述第一深度的阈值以内的深度，表示预设边界，或为距所述所选择部分的阈值距离。

14.根据权利要求8所述的设备，其中用于增强的装置包括以下中的至少一个：用于锐化所述增强区域的装置；用于将所述增强区域移动到所述左图像或所述右图像的不同部分的装置，或用于调整所述增强区域的色彩的装置。

15.根据权利要求8所述的设备，其中所述用于检索的装置和所述用于确定深度图的装置包括编码器，且其中所述用于识别的装置、所述用于确定增强区域的装置和所述用于增强的装置包括处理器。

16.一种非暂时计算机可读媒体，其包括在经执行时引起设备进行以下操作的代码：

基于所述左图像与所述右图像之间的空间定向差确定深度图；

增强所述增强区域。

17.根据权利要求16所述的媒体，其进一步包括在经执行时引起设备劣化所述左图像或所述右图像中未由所述用户选择的一部分。

18.根据权利要求17所述的媒体，其进一步包括在经执行时引起设备模糊所述左图像或所述右图像中未由所述用户选择的所述部分。

19.根据权利要求16所述的媒体，其进一步包括在经执行时引起设备进行以下操作的代码：

放大所述视差图；及

基于所述经放大的视差图确定所述深度图。

20.根据权利要求19所述的媒体，其进一步包括在经执行时引起设备确定所述左图像中的块与所述右图像中的对应块之间的距离的代码，其中如果第一块和第二块在阈值以内是相同的，那么所述第一块与所述第二块相对应。

21.根据权利要求16所述的媒体，其进一步包括在经执行时引起设备进行以下操作的代码：

22.根据权利要求16所述的媒体，其进一步包括在经执行时引起设备进行以下操作中的至少一者的代码：锐化所述增强区域；将所述增强区域移动到所述左图像或所述右图像的不同部分，或调整所述增强区域的色彩。

23.一种用于增强图像的装置，所述装置包括：

存储器单元，其配置为存储左图像和右图像，所述左图像和所述右图像各自描绘来自不同视角的相同场景；

译码器，其配置为从所述存储器单元中检索所述左图像和所述右图像，其中所述译码器进一步配置为基于所述左图像与所述右图像之间的空间定向差确定深度图；

及

耦合至所述译码器的处理器，所述处理器配置为识别所述左图像或所述右图像中由用户选择的一部分，其中由所述用户选择的所述部分包括第一深度，其中所述处理器进一步配置为基于所述所确定的深度图确定在由所述用户选择的所述部分周围的增强区域，其中所述增强区域包括从所述左图像或所述右图像中具有在所述第一深度的阈值以内的深度的所述所选择部分开始的所述左图像或所述右图像的连续部分，且其中所述处理器进一步配置为增强所述增强区域。

24.根据权利要求23所述的装置，其中所述处理器进一步配置为劣化所述左图像或所述右图像中未由所述用户选择的一部分。

25.根据权利要求24所述的装置，其中所述处理器进一步配置为模糊所述左图像或所述右图像中未由所述用户选择的所述部分。

26.根据权利要求23所述的装置，其中所述译码器进一步配置为：

放大所述视差图；及

基于所述经放大的视差图确定所述深度图。

27.根据权利要求26所述的装置，其中所述译码器配置为确定所述左图像中的块与所述右图像中的对应块之间的距离，且其中如果第一块和第二块在阈值以内是相同的，那么所述第一块与所述第二块相对应。

28.根据权利要求23所述的装置，其中所述处理器进一步配置为：

29.根据权利要求23所述的装置，其中所述处理器进一步配置为以下中的至少一者：锐化所述增强区域，将所述增强区域移动到所述左图像或所述右图像的不同部分，或调整所述增强区域的色彩。