CN104902254B

CN104902254B - 用于立体图像的视差图估计的方法及装置

Info

Publication number: CN104902254B
Application number: CN201510093118.8A
Authority: CN
Inventors: S·乌基尔; V·穆尼恩德尔; K·A·戈文达拉奥
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-03-03
Filing date: 2015-03-02
Publication date: 2017-07-07
Anticipated expiration: 2035-03-02
Also published as: US9390508B2; EP2916291B1; JP5996013B2; CN104902254A; US20150248769A1; EP2916291A1; JP2015173441A

Abstract

在示例实施例中，提供了方法、装置和计算机程序产品。所述方法包含：促进接收第一图像和第二图像。针对多个视差值确定与所述第一图像和第二图像的像素相关联的第一总代价量和第二总代价量。基于所述第一总代价量和第二总代价量生成第一视差图和第二视差图。基于第一总代价量，生成针对第一图像的视差值的置信图。基于在第一图像的颜色分割中的置信像素的数量，确定在第一图像中的一个或多个无穷区域。通过确定针对第一图像的像素的过滤的视差值，生成第三视差图，其中针对一个或多个无穷区域的像素的过滤的视差值是预定义视差值。

Description

用于立体图像的视差图估计的方法及装置

技术领域

各种实施例一般涉及用于立体图像的视差图估计的方法、装置及计算机程序产品。

背景技术

各种电子设备，例如相机、移动电话和其它多媒体设备广泛地用于捕获场景图像。一些电子设备能够捕获立体图像，以及使用该立体图像进行场景的视差图估计。视差图估计是确定立体图像之间的像素中的位移的过程。通常，视差图包含在对象轮廓周围的错误的视差和被表示为孔洞或无纹理区域的丢失视差。通常地，使用各种方法，诸如基于最小生成树(MST)的聚合框架、基于水平/垂直的聚合框架或诸如此类，来进行视差图中的视差的完善和填充。然而，完善对象轮廓以及解决由于孔洞和无纹理区域导致的视差估计中的误差已经是一种挑战。

发明内容

在权利要求书中阐述了示例实施例的各种方面。

在第一方面中，提供了一种方法，所述方法包括：促进接收第一图像和第二图像，所述第一图像和所述第二图像与场景相关联；确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量(volume)，以及确定针对多个视差值的与所述第二图像的像素相关联的第二总代价量；基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图；基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；至少基于所述第一图像的多个颜色分割(colorsegments)和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域(infinity regions)；以及通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

在第二方面中，提供了一种装置，所述装置包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为使用所述至少一个处理器使得所述装置执行至少：促进接收第一图像和第二图像，所述第一图像和所述第二图像与场景相关联；确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量，以及确定针对多个视差值的与所述第二图像的像素相关联的第二总代价量；基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图；基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；至少基于所述第一图像的多个颜色分割和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域；以及通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

在第三方面中，提供了一种计算机程序产品，所述计算机程序产品包括：至少一个计算机可读存储介质，所述计算机可读存储介质包括指令集，当由一个或多个处理器执行所述指令集时，所述指令集使得装置执行至少：促进接收第一图像和第二图像，所述第一图像和所述第二图像与场景相关联；确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量，以及确定针对所述多个视差值的与所述第二图像的像素相关联的第二总代价量；基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图；基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；至少基于所述第一图像的多个颜色分割和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域；以及通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

在第四方面中，提供了一种装置，所述装置包括：用于促进接收第一图像和第二图像的构件，所述第一图像和所述第二图像与场景相关联；用于促进接收第一图像和第二图像的构件，所述第一图像和所述第二图像与场景相关联；用于确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量，以及确定针对所述多个视差值的与所述第二图像的像素相关联的第二总代价量的构件；用于基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图的构件；用于基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图的构件，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；用于至少基于所述第一图像的多个颜色分割和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域的构件；以及用于通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图的构件，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

在第五方面中，提供了一种计算机程序，所述计算机程序包括计算机指令，当由装置执行所述程序指令时，所述程序指令使得所述装置：促进接收第一图像和第二图像，所述第一图像和所述第二图像与场景相关联；确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量，以及确定针对所述多个视差值的与所述第二图像的像素相关联的第二总代价量；基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图；基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；至少基于所述第一图像的多个颜色分割和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域；以及通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

附图说明

在附图的图中，作为示例而不是为了限制来说明各种实施例，在附图中：

图1说明了依照示例实施例的设备；

图2说明了依照示例实施例的用于立体图像的视差图估计的装置；

图3A说明了依照示例实施例的立体图像的第一图像的示例表示；

图3B说明了依照示例实施例的第一图像的示例视差图；

图4说明了依照示例实施例的第一图像的多个颜色分割的示例表示；

图5A说明了依照示例实施例的与一个或多个无穷区域相关联的二值掩码的示例表示；

图5B说明了依照示例实施例的与遮挡孔洞相关联的二值掩码的示例表示；

图6说明了依照示例实施例的基于第一视差图生成的完善视差图；

图7是依照示例实施例的描述用于视差图估计的示例方法的流程图；以及

图8A和图8B是依照示例实施例的描述用于视差图估计的示例方法的流程图。

具体实施方式

通过参照图1到附图8A-8B，将理解示例实施例和它们潜在的效果。

图1说明了依照示例实施例的设备100。然而，应当理解的是，如被说明的以及下文描述的设备100仅是说明可以受益于各种实施例的一种类型的设备，因此不应当被认为限制实施例的范围。照此，应当了解的是，以下结合设备100描述的组件中的至少一些组件可以是非必需的，以及因此，在示例实施例中，可以包含比结合图1的示例实施例所描述的那些组件更多、更少或不同的组件。设备100可以是许多类型的移动电子设备中的任何一种类型的移动电子设备，例如，便携式数字助理(PDA)、寻呼机、移动电视、游戏设备、蜂窝电话、所有类型的计算机(例如，膝上型计算机、移动计算机或台式机)、相机、音频/视频播放器、无线电、全球定位系统(GPS)设备、媒体播放器、移动数字助理或上述的任何组合，以及其它类型的通信设备。

设备100可以包含：天线102(或多个天线)，其与传送器104和接收器106可操作地通信。设备100还可以包含：装置，诸如控制器108或其它处理设备，该装置分别向传送器104提供信号和从接收器106接收信号。该信号可以包含：依照可适用的蜂窝系统的空中接口标准的信令信息，并且/或还可以包含：对应于用户语音的数据、接收的数据和/或用户生成的数据。在这点上，设备100能够使用一个或多个空中接口标准、通信协议、调制类型和接入类型进行操作。作为说明，设备100能够依照许多第一代、第二代、第三代和/或第四代通信协议或诸如此类中的任何一个通信协议进行操作。例如，设备100能够依照第二代(2G)无线通信协议IS-136(时分多址接入(TDMA))、GSM(全球移动通信系统)以及IS-95(码分多址接入(CDMA))，或依照第三代(3G)无线通信协议(诸如，通用移动通信系统(UMTS)、CDMA 1000、宽带CDMA(WCDMA)、时分同步CDMA(TD-SCDMA)，依照3.9G无线通信协议(诸如演进的通用陆地无线电接入网(E-UTRAN))，依照第四代无线通信协议或诸如此类进行操作。作为一种可替代方案(或另外)，设备100能够依照非蜂窝通信机制进行操作。例如，计算机网络(诸如互联网)、局域网、广域网以及诸如此类；短距无线通信网络，诸如包含网络、网络、电气与电子工程师协会(IEEE)802.11x网络以及诸如此类；有线通信网络，诸如公共交换电话网(PSTN)。

控制器108可以包括电路，该电路实现设备100的音频和逻辑功能(还有其它的)。例如，控制器108可以包含但不限于：一个或多个数字信号处理器设备、一个或多个微处理器设备、一个或多个具有伴随的数字信号处理器(多个)的处理器(多个)、一个或多个不具有伴随的数字信号处理器(多个)的处理器(多个)、一个或多个专用计算机芯片、一个或多个现场可编程门阵列(FPGA)、一个或多个控制器、一个或多个专用集成电路(ASIC)、一个或多个计算机(多个)、各种模拟-至-数字变换器、数字-至-模拟变换器，和/或其它支持电路。可以根据这些设备的各自能力，在它们之间分配设备100的控制和信号处理功能。因此，控制器108还可以包含在调制和传输之前卷积编码和交织消息和数据的功能。另外，控制器108可以包含内部语音编码器，以及可以包含内部数据调制解调器。此外，控制器108可以包含用于操作一个或多个软件程序的功能，该软件程序可以被存储在存储器中。例如，控制器108能够操作连通性程序，诸如常规网络浏览器。连通性程序于是可以允许设备100根据诸如无线应用协议(WAP)、超文本传输协议(HTTP)和/或诸如此类来传送和接收网络内容，诸如基于位置的内容和/或其它网页内容。在示例实施例中，可以将控制器108具体化为多核处理器，诸如双核或四核处理器。然而，可以将任何数量的处理器包含在控制器108中。

设备100还可以包括用户接口，该用户接口包含输出设备，诸如振铃器110、耳机或扬声器112，麦克风114，显示器116和用户输入接口，用户接口可以耦合到控制器108。用户输入接口，其允许设备100接收数据，可以包含允许设备100接收数据的多种设备中的任何设备，诸如小键盘118、触摸显示器、麦克风或其它输入设备。在包含小键盘118的实施例中，小键盘118可以包含数字(0-9)和有关键(#，*)，以及用于操作设备100的其它硬键和软键。可替代地或另外地，小键盘118可以包含：常规的QWERTY小键盘布置。小键盘118还可以包含：具有相关联功能的各种软键。另外或可替代地，设备100可以包含：接口设备，诸如控制杆或其它用户输入接口。设备100还包含：电池120，诸如振动电池组，以用于向需要操作设备100的各种电路供电，以及可选地提供机械振动作为可检测的输出。

在一些实施例中，设备100包含与控制器108通信的媒体捕获单元，诸如相机、视频和/或音频模块。媒体捕获单元可以是用于捕获用于存储、显示或传输的图像、视频和/或音频的任何构件。在媒体捕获单元是相机模块122的示例实施例中，相机模块122可以包含：能够从所捕获的图像形成数字图像的数字相机。照此，相机模块122包含：用于从捕获图像创建数字媒体文件的所有硬件(诸如镜头或其它光学组件(多个))和软件。可替代地，当设备100的存储设备存储供控制器108运行的以软件形式的指令以从所捕获的图像创建数字图像文件时，相机模块122可以包含：查看图像所需的硬件。在示例实施例中，相机模块122还可以包含：处理单元，诸如协处理器，其在处理图像数据中辅助控制器108，以及用于压缩和/或解压缩图像数据的编码器和/或解码器。编码器和/或解码器可以根据JPEG标准格式或另外的类似格式进行编码和/或解码。对于视频而言，编码器和/或解码器可以使用多种标准格式中的任何标准格式，诸如例如，与H.261、H.262/MPEG-2、H.263、H.264、H.264/MPEG-4、MPEG-4等相关联的标准。在一些情况下，相机模块122可以向显示器116提供实时图像数据。此外，在示例实施例中，显示器116可以位于设备100的一侧上，以及相机模块122可以包含，相对于显示器116被放置在设备100的相对侧上的镜头以使得相机模块122能够捕获在设备100的一侧的图像以及向位于设备100的另一侧的用户呈现此类图像的视图。

设备100还可以包含：用户身份模块(UIM)124。UIM 124可以是具有内置处理器的存储设备。UIM 124可以包含：例如，订户身份模块(SIM)、通用集成电路卡(UICC)、通用订户身份模块(USIM)、可移动的用户身份模块(R-UIM)或任何其它智能卡。UIM 124典型地存储有关于移动订户的信息元素。除了UIM 124外，设备100可以装备有存储器。例如，设备100可以包含：易失性存储器126，诸如包含用于数据的暂时存储的高速缓存区域的易失性随机访问存储器(RAM)。设备100还可以包含：其它非易失性存储器128，其可以是嵌入式的，和/或可以是可移动的。非易失性存储器128可以另外或可替代地包括电可擦除可编程只读存储器(EEPROM)、闪速存储器、硬盘或诸如此类。存储器可以存储由设备100使用的任何数量的信息块，和数据，以实现设备100的功能。

图2说明了依照示例实施例的针对立体图像的视差图估计的装置200。可以例如在图1的设备100中使用装置200。然而，应当注意的是，还可以在各种其它设备(移动和固定两者)上使用装置200，因此，实施例不应当局限于在诸如图1的设备100的设备上的应用。可替代地，可以在包含例如以上列出的那些设备的设备组合上使用这些实施例。因此，可以全部在单个设备上(例如设备100)或在设备的组合中使用各种实施例。此外，应当注意的是，以下描述的设备或单元可以不是强制性的，以及因此在某些实施例中可以省略一些设备或单元。

装置200包含：至少一个处理器202或以其他方式与处理器202通信，和至少一个存储器204。至少一个存储器204的示例包含但不限于易失性和/或非易失性存储器。易失性存储器的一些示例包含但不限于随机存取存储器、动态随机存取存储器、静态随机存取存储器以及诸如此类。非易失性存储器的一些示例包含但不限于硬盘、只读存储器、电可擦除可编程只读存储器、闪速存储器以及诸如此类。存储器204可以被配置为存储信息、数据、应用、指令或诸如此类，以用于使得装置200能够依照本发明的各种示例实施例来实现各种功能。例如，存储器204可以被配置为缓冲用于由处理器202处理的包括媒体内容的输入数据。另外地或可替代地，存储器204可以被配置为存储用于由处理器202执行的指令。

处理器202的示例可以包含控制器108。可以以多种不同方式来具体化处理器202。处理器202可以被具体化成多核处理器、单核处理器；或多核处理器和单核处理器的组合。例如，处理器202可以被具体化成各种处理构件中的一个或多个处理构件，诸如协处理器、多核处理器、控制器、数字信号处理器(DSP)、具有或不具有伴随的DSP的处理电路，或包含集成电路的各种其它处设备，诸如例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、多控制器单元(MCU)、硬件加速器、专用计算机芯片，或诸如此类。在一些实施例中，多核处理器可以被配置为运行存储在存储器204中的指令或处理器202能够访问的指令。可替代地或另外，处理器202可以被配置为运行硬编码的功能。照此，不管是由硬件或软件方法或由其组合来配置，当相应地配置时，处理器202可以表示能够根据各种实施例来执行操作的(例如，物理上被具体化在电路中的)实体。例如，如果处理器202被具体化为ASIC、FPGA或诸如此类中的两个或更多个ASIC、FPGA或诸如此类，则处理器202可以是被特定地配置为用于执行本申请描述的操作的硬件。可替代地，作为另一示例，如果处理器202被具体化为软件指令的执行器时，当执行该指令时，该指令可以特定地配置处理器202以执行本申请所描述的算法和/或操作。然而，在一些情况下，处理器202可以是特定设备(例如，移动终端或网络实体)的处理器，该特定设备适用于通过用于执行本申请所述的算法和/或操作的指令进一步配置处理器202来使用实施例。处理器202可以包含(除了其它之外)时钟、算术逻辑单元(ALU)和逻辑门，它们被配置为支持处理器202的操作。

用户接口206可以与处理器202通信。用户接口206的示例包含但不限于输入接口和/或输出接口。输入接口被配置为接收用户输入的指示。输出接口向用户提供能够听见的、视觉、机械或其它输出和/或反馈。输入接口的示例包含但不限于键盘、鼠标、控制杆、小键盘、触摸屏、软键等。输出接口的示例包含但不限于显示器，诸如发光二极管显示器、薄膜晶体管(TFT)显示器、液晶显示器、主动矩阵有机发光二极管(AMOLED)显示器、麦克风、扬声器、振铃器、振动器等。在示例实施例中，用户接口206可以包含(除了其它设备或单元之外)扬声器、麦克风、显示器和键盘、触摸屏等中的任何或全部。在这点上，例如，处理器202可以包括：用户接口电路，其被配置为控制用户接口206(诸如例如，扬声器、振铃器、麦克风和/或诸如此类)的一个或多个单元的至少一些功能。处理器202和/或包括处理器202的用户接口电路可以被配置为通过存储在处理器202可以访问的存储器(例如，至少一个存储器204和/或诸如此类)上的计算机程序指令(例如，软件和/或固件)控制用户接口206的一个或多个单元的一个或多个功能。

在示例实施例中，装置200可以包含电子设备。电子设备的一些示例包含通信设备、具有或不具有通信能力的媒体捕获设备、计算设备等。电子设备的一些示例可以包含：移动电话、个人数字助理(PDA)等。计算设备的一些示例可以包含：膝上型计算机、个人计算机等。在示例实施例中，电子设备可以包含：具有用户接口电路和用户接口软件的用户接口，例如用户接口206，该用户接口电路和用户接口软件被配置为促进用户通过使用显示器来控制该电子设备的至少一个功能，以及还被配置为响应于用户输入。在示例实施例中，电子设备可以包含：显示器电路，其被配置为显示电子设备的用户接口206的至少一部分。显示器和显示电路可以被配置为促进用户控制电子设备的至少一个功能。

在示例实施例中，电子设备可以被具体化为包含收发器。收发器可以是依照软件或以其他方式被具体化在硬件中的软件或硬件和软件的组合进行操作的任何设备或进行操作的任何电路。例如，在软件控制下进行操作的处理器202，或被具体化为被特定配置为执行本申请所述操作的ASIC或FPGA的处理器202，或它们的组合，从而配置该装置或电路以执行收发器的功能。收发器可以被配置为接收媒体内容。媒体内容的示例可以包含：音频内容、视频内容、数据和它们的组合。

在示例实施例中，电子设备可以被具体化以包含多个图像传感器，诸如图像传感器208和图像传感器210。尽管在图2的示例表示中，示出了仅两个图像传感器208和210，但是电子设备可以包含超过两个图像传感器。图像传感器208和210可以与处理器202和/或装置200的其它组件通信。图像传感器208和210可以与其它成像电路和/或软件通信，以及被配置为捕获数字图像或捕获视频或其它图形媒体。图像传感器208和210和其它电路相组合可以是设备200的至少一个相机模块(诸如相机模块122)的示例。在示例实施例中，图像传感器208和210可以附带有对应的镜头以捕获场景的两个视图，诸如立体视图。在另一个示例实施例中，可以有具体化装置200或以其他方式装置200可以访问的仅一个图像传感器208或210，其能够通过从不同方位(从不同角度)捕获场景的两个图像来捕获该场景的立体图像对。

这些组件(202-210)可以经由中央电路系统212彼此通信以促进立体图像的视差图估计。中央电路系统212可以是各种设备，其被配置为(除了其它之外)在装置200的组件(201-210)之间提供或使得能够通信。在某些实施例中，中央电路系统212可以是中央印刷电路板(PCB)，诸如母版、主板、系统板或逻辑板。中央电路系统212还可以或可替代地包含其它印刷电路插件(PCA)或通信通道介质。

在示例实施例中，使得装置200执行立体图像的视差图估计。在这个示例实施例中，处理器202被配置为使用存储器204的内容，以及非必须地使用本申请中描述的其它组件，以使得装置200促进接收第一图像，和第二图像。在这个示例实施例中，第一图像(交替地用作“图像I1”)和第二图像(交替地用作“图像I2”)与场景相关联。此处，‘场景’指的是能够被捕获的图像或视频的一个或多个对象的布置(自然、人工、有序的或各种各样)，或能够生成一个或多个对象的布置(自然、人工、排序的或各种各样)的预览。在这个示例实施例中，第一图像和第二图像是由设备(例如，捕获图像传感器208和210的相机模块)捕获的场景的立体图像对。在这个示例实施例中，第一图像和第二图像被存在于装置200或装置200可以访问的传感器208和210捕获。这里，‘立体图像对’指的是从稍微水平分离的点来捕获的场景的两个图像，从而生成该场景的左视图图像和右视图图像。在一些示例实施例中，第一图像和第二图像可以被预记录或存储在装置200中，或可以从在装置200外部的源来接收。在此类示例实施例中，使得装置200从外部存储介质(诸如DVD、光盘(CD)、闪速驱动器、存储卡)或通过互联网、等从外部存储位置来接收第一图像和第二图像。在示例实施例中，处理构件可以被配置为促进场景的第一图像和第二图像的捕获。处理构件的示例可以包含：处理器202，其可以是控制器108的示例，以及图像传感器208和210。

在示例实施例中，处理器208被配置为使用存储器204的内容以及非必须地使用本文描述的其它组件以使得装置200确定针对多个视差值的与第一图像的像素相关联的第一总代价量，以及还使得装置200确定针对该多个视差值的与第二图像的像素相关联的第二总代价量。在示例实施例中，通过计算针对多个视差值的在第一图像的像素与第二图像的对应像素之间的代价量来确定第一总代价量。在示例实施例中，代价量是针对图像I1的每个像素和图像I2的对应像素的匹配代价的集合，其中每个匹配代价对应于视差值(来自多个视差值)。在示例实施例中，通过计算针对图像(例如，图像I2)的代价量来确定第二总代价量。在这个示例中，该代价量包含针对n个数量的视差值计算的针对图像(I1和I2)的对应像素的n个数量的匹配代价。在一个示例中，匹配代价可以指的是，在图像I1和I2中的两个对应像素之间的相似度(或距离)，其中根据强度、颜色或其它图像特征来测量相似度(或距离)。在一个示例中，使用在图像I1中的像素和在图像I2中的像素之间的色差方法来计算代价量。

在示例实施例中，处理器208被配置为使用存储器204的内容以及非必须地使用本文描述的其它组件以使得装置200基于基于树的聚合方法(例如，线段树方法或最小生成树方法)或非基于树的聚合方法(例如，基于水平和垂直引导图像的聚合等)来确定第一总代价量和第二总代价量。在一个示例实施例中，使得装置200基于第一线段树来聚合代价量以确定第一总代价量，以及使得装置200基于第二线段树来聚合代价量以确定第二总代价量。在示例实施例中，对于图像(例如图像I1)，针对在多个视差值(d1，d2…dn)中的每个视差值处的图像I1的每个像素(在第一线段树中，其由节点来表示)执行聚合代价以生成第一总代价量。类似地，在示例实施例中，图像I2，针对在多个视差值(d1，d2…dn)中的每个视差值处的图像I2的每个像素(在第二线段树中，其由节点来表示)执行聚合代价以生成第二总代价量。在一个示例中，使用如在Qingxiong Yang的“A Non-Local Cost Aggregation Methodfor Stereo Matching,”in CVPR2012,pp.1402–1409中,以及在Mei,Xing等人的“Segment-Tree based Cost Aggregation for Stereo Matching”in Computer Vision andPattern Recognition(CVPR),2013 IEEE Conference on IEEE,2013中阐述的代价聚合方法来确定线段树(第一线段树和第二线段树)和第一总代价量和第二总代价量。在一个示例实施例中，处理构件可以被配置为确定与图像I1的像素相关联的第一总代价量和与图像I2的像素相关联的第二总代价量。处理构件的示例可以包含：处理器202，其可以是控制器108的示例。

在示例实施例中，使得装置200基于第一总代价量生成第一图像的第一视差图，以及使得装置200基于第二总代价量生成第二图像的第二视差图。术语‘视差’指的是立体图像(例如第一图像和第二图像)的对应像素的视差值之间的差异。在一个示例实施例中，在第一图像上执行代价聚合方法以确定输出第一视差图的第一总代价量。类似地，在一个示例实施例中，在第二图像上执行代价聚合方法以确定输出第二视差图的第二总代价量。使用如在Qingxiong Yang,“A Non-Local Cost Aggregation Method for StereoMatching,”in CVPR2012,pp.1402–1409中阐述的代价聚合方法来生成第一视差图和第二视差图。在示例实施例中，处理构件可以被配置为生成图像I1的第一视差图和图像I2的第二视差图。处理构件的示例可以包含：处理器202，其可以是控制器108的示例。

在示例实施例中，使得装置200基于第一总代价量生成针对第一视差图中的第一图像的像素的视差值的置信图。在一个示例实施例中，置信图表示第一图像的置信像素的集合和非置信像素的集合。在一个示例实施例中，对于生成置信图而言，使得装置200基于第一总代价量来确定对应于针对第一视差图中的第一图像的像素的视差值的置信值。在一个示例中，置信图表示用于区分图像I1中的置信像素的集合和非置信像素的集合的置信值。在一个示例中，使得装置200基于第一总代价量来计算针对第一视差图中的每个像素的置信值。在示例实施例中，基于以下给出的表达式(1)来计算针对图像I1的像素(p)的置信值：

其中，C(p)是针对像素p的置信值，d_p是针对像素p的视差值，A(p,d)是针对在视差d处的像素p的第一集合代价量(其中d针对多个视差值d1，d2…dn(除了d_p外)而变化)以及σ是常数。

在示例实施例中，对于生成置信图而言，还使得装置200正规化对应于针对第一图像的像素的视差值的置信值，以生成正规化的置信值，使得对于具有平坦代价曲线的无纹理区域(在第一图像内)而言，正规化的置信值给予零值。在示例实施例中，可以通过执行抵消(offset)代价(其被确定为在平坦代价曲线值上计算的置信值)的减法来执行正规化第一视差图的像素的置信值。由以下表达式(2)给出针对与第一图像相关联的像素(p)的正规化的置信值：

其中C′(p)是针对像素p的正规化置信值，C(p)是针对像素p的置信值，以及L是在第一图像中的视差的数量。

在示例实施例中，对于生成置信图而言，还使得装置200将正规化的置信值与置信阈值进行比较，以向第一图像的像素分配二进制置信值。在示例实施例中，通过调节常数σ(参数西格玛)(可以经验地来计算σ)来选择置信阈值。例如，可以在预定的置信范围0-1内选择置信阈值(例如0.75)。在这个示例中，将第一图像的每个像素的正规化的置信值与置信阈值(例如，0.75)进行比较。对于低于置信阈值(例如，0.75)的像素的正规化的置信值被分配二进制值‘0’，对于高于置信阈值(例如，0.75)的像素的正规化的置信值被分配二进制值‘1’。在示例实施例中，第一图像的每个像素被分配二进制置信值(二进制值‘0’或‘1’)以实现置信图。这里，置信图还可以被称为‘二进制置信图’，因为针对在置信图中的每个像素的置信值是以二进制值‘0’和‘1’的形式来实现的。在这个示例中，在置信图中的值‘0’表示非置信像素的集合，以及在置信图中的值‘1’表示置信像素的集合。在示例实施例中，处理构件可以被配置为基于第一总代价量来生成针对第一图像的像素的置信图。处理构件的示例可以包含：处理器202，其可以是控制器108的示例。

在示例实施例中，使得装置200基于第一图像的多个颜色分割，以及在该多个颜色分割中的置信像素的数量，来确定在该第一图像中的一个或多个无穷区域。例如，如果在多个颜色分割中的颜色分割中，置信像素的数量大于存在于该颜色分割中的总像素的阈值百分数，则该颜色分割可以被确定为无穷区域。在示例实施例中，术语在图像中的‘无穷区域’指的是图像中的区域，在该区域中，与该区域相关联的像素可以被认为具有零视差值。无穷区域的示例可以包含但不限于：与例如天空、朴素简单的墙等的对象相关联的低纹理区域或无纹理区域。在示例实施例中，使得装置200基于各种分割方法来确定与场景的第一图像相关联的多个颜色分割。在示例实施例中，图像的颜色分割指的是具有相同视差值的像素被分组在一起以形成分割使得每个分割表示同质的颜色的过程。可以通过各种合适的技术(诸如，但不限于，基于均值漂移树(MST)的分割，基于线段树的分割等)来确定多个颜色分割。

在另一个示例实施例中，针对确定在第一图像中的一个或多个无穷区域而言，使得装置200确定在第一视差图中的遮挡像素。在一个示例中，使得装置200基于将第一视差图和第二视差图进行比较来确定在图像I1中的遮挡像素。在这个示例中，来自第一视差图的像素和来自第二视差图的像素经受相互一致性检查(还被称为左右(LR)检查)以确定遮挡像素。应当注意的是，可以借助于从表达式(1)和(2)确定的置信图来确定置信像素的数量。在示例实施例中，处理构件可以被配置为基于将第一视差图和第二视差图进行比较来确定遮挡像素的数量。在这个示例实施例中，针对确定在第一图像中的一个或多个无穷区域而言，使得装置200基于第一图像的多个颜色分割的大小，在该多个颜色分割中的置信像素的数量和遮挡像素的数量，来判定一个或多个无穷区域。在示例实施例中，处理构件可以被配置为确定在第一视差图中的遮挡像素，以及基于第一图像的多个颜色分割的大小，在该多个颜色分割中的置信像素的数量和遮挡像素的数量来判定一个或多个无穷区域。处理构件的示例可以包含：处理器202，其可以是控制器108的示例。

在示例实施例中，针对判定一个或多个无穷区域而言，使得装置200通过将多个颜色分割的大小与阈值大小进行比较来确定来自第一图像的多个颜色分割的颜色分割的集合。例如，阈值大小可以是第一图像的大小的2％。阈值大小(2％)仅是作为表示的目的而被提及，以及不应当认为是限制性的，因为阈值大小可以是任何值。在示例实施例中，使得装置200将多个颜色分割中的每个颜色分割与阈值大小进行比较以检查多个颜色分割的大小是否高于该阈值大小。如果颜色分割的大小高于该阈值大小，则使得装置200选择该颜色分割作为颜色分割的集合的一部分。

在示例实施例中，针对判定一个或多个无穷区域而言，使得装置200计算针对颜色分割的集合的第一因子和第二因子的比率。在示例实施例中，基于在个体颜色分割中不是遮挡像素的置信像素的数量来计算针对颜色分割的集合中的个体颜色分割的第一因子，以及基于在个体颜色分割中不是遮挡像素的全部像素来计算针对颜色分割的集合中的个体颜色分割的第二因子。使得装置200基于将该比率与阈值比率进行比较将颜色分割的集合中的一个或多个颜色分割分类成一个或多个无穷区域。在示例表示中，基于表达式C_N＝C-O_C来计算第一因子，其中C_N是第一因子，C是在颜色分割S中的置信像素的数量，O是在颜色分割S中的遮挡像素的数量，以及基于表达式O_C＝O∩C(O交集C)来计算O_C，其O_C是在颜色分割S中的置信像素内的遮挡像素的数量。在示例实施例中，第一因子(C_N)表示在颜色分割S中的不是遮挡像素的置信像素的数量。此外，基于表达式S_N＝S–O_C来计算第二因子(S_N)。在示例实施例中，第二因子S_N表示在颜色分割S中的不是遮挡像素的全部像素。在示例实施例中，针对确定一个或多个无穷区域而言，使得装置200计算针对颜色分割的集合中的每个颜色分割的在第一因子和第二因子之间的比率，基于表达式Ts＝|C_N|/|S_N|来计算该比率，其中Ts是针对颜色分割S的在第一因子(C_N)和第二因子(S_N)之间的比率。

在示例实施例中，针对判定一个或多个无穷区域而言，使得装置200基于将针对颜色分割的集合所计算的(第一因子和第二因子的)比率与阈值比率进行比较，将颜色分割的集合的一个或多个颜色分割分类成一个或多个无穷区域。在示例实施例中，可以基于检查比率Ts是小于还是大于该阈值比率，将颜色分割S分类成无穷区域。例如，如果比率Ts小于阈值比率，则颜色分割S被分类成无穷区域。在示例实施例中，使得装置200将针对在第一图像中的一个或多个无穷区域的像素的视差值设置为等于预定义视差值(例如，0或1)。例如，在示例实施例中，针对在一个或多个无穷区域中的像素的视差值可以被设置为零(0)。在示例实施例中，如果比率Ts大于或等于阈值比率，则与非置信像素相比，颜色分割S被认为具有更多数量的置信像素。在示例实施例中，在比率Ts大于或等于阈值比率的此类情况下，在颜色分割S中的非置信像素被分类成遮挡孔洞。在示例实施例中，处理构件可以被配置为确定一个或多个无穷区域。处理构件的示例可以包含：处理器202，其可以是控制器108的示例。

在示例实施例中，使得装置200通过基于基于树的聚合方法来确定针对第一图像的像素的视差值，基于第一视差图来生成第三视差图。在示例实施例中，第三视差图是从第一视差图获得的求精的(过滤的)视差图。在示例实施例中，使得装置200执行第一视差图的过滤连同在第一视差图中填充丢失的视差以及解算在第一图像中的一个或多个无穷区域。在示例实施例中，执行第一视差图的过滤，其中确定针对第一视差图的像素的新的视差值(还被称为‘过滤的视差值’)。在示例实施例中，基于表达式(3)来计算针对像素p的视差值：

其中d_p是针对像素p的过滤的视差值，d_q是图像I1(第一图像)的像素q的视差值，D(p,q)是在第一线段树中的像素p和像素q之间的距离，b_q是与置信图相关联的像素q的二进制值，N_p是针对像素p的正规化项，以及σ是常数。在示例实施例中，基于表达式(4)确定正规化项N_p：

从以上表达式(3)，应当注意的是，基于在图像I1中的其它像素q的视差值以及沿着第一线段树的像素q和像素p之间的距离来计算针对像素p的过滤的视差值。还应当注意的是，在执行该过滤(例如应用表达式(3))之前，属于一个或多个无穷区域的像素的视差值被硬编码为零(0)视差值。例如，针对属于一个或多个无穷区域的所有像素而言，d_q是零，以及因此属于一个或多个无穷区域的像素对(在确定d_q中的)过滤过程没有任何影响。还应当注意的是，如果q是遮挡的孔洞，则针对像素q的二进制值b_q被设置为零(0)，如果q是属于置信像素的像素或属于一个或多个无穷区域的像素，则针对像素q的二进制值b_q被设置为一(1)。

在表达式(3)中，项b_q表示像素q的二进制值，其中q表示在图像I1中的所有像素。在示例实施例中，b_q(q∈I1)表示二值掩码，在表达式(3)中应用该二值掩码以计算针对图像I1的像素的过滤的视差值。应当注意的是，针对在图像I1中的遮挡像素/孔洞，b_q是零，以及针对在第一图像中的具有有效视差的像素，b_q是1。在示例实施例中，针对属于一个或多个无穷区域的所有像素，b_q也是1。还应当注意的是，在示例实施例中，针对属于一个或多个无穷区域的像素的过滤的视差值被硬编码为零(0)，以及针对属于无穷区域的这些像素而言，不使用表达式(3)。在另一个示例实施例中，当与一个或多个无穷区域相关联的二值掩码已经应用于第一视差图时，对属于第一视差图的不同于在一个或多个无穷区域中的像素的像素执行该过滤。在一个或多个无穷区域中的像素对过滤过程没有任何影响，因为一个或多个无穷区域的视差值是零。

在各种示例实施例中，基于表达式(3)确定针对第一图像的像素(不同于属于无穷区域的像素)的新的视差值(过滤的视差值)；以及针对属于无穷区域的像素，新视差值被设置为统一值，例如零(0)。还应当注意的是，通过使用表达式(3)，还确定了针对属于遮挡孔洞或遮挡像素的像素的视差值。例如，针对属于遮挡孔洞的像素，使用图像I1的其它有效像素(置信像素)的视差值以及与在第一线段树中的该像素的它们的距离，来确定针对该像素的视差值。在示例实施例中，在通过运行表达式(3)的单个步骤中，确定针对置信像素的过滤的视差值以及针对遮挡像素、非置信像素和属于遮挡孔洞的像素的视差值。因此，基于针对图像I1的像素的过滤的视差值来生成第三视差图，以及基于第一视差图来获得求精的视差图。

在另一个示例实施例中，使得装置200通过基于“全图像引导过滤方法”确定针对第一图像的像素(不同于无穷区域的像素)的视差值，基于第一视差图来生成第三视差图。在示例实施例中，使得装置200通过在第一图像中使用水平和垂直聚合来计算权重，来执行‘全图像引导过滤’以引导第一图像的像素的视差值的过滤。在Qingxiong Yang,“Full-Image Guided Filtering for Fast Stereo Matching”in IEEE signal processingletters,Vol.20,No.3,2013年3月的文献中阐述了“全图像引导过滤方法”的一种此类示例。在这个示例实施例中，使用“全图像引导过滤方法”对针对第一图像的不同于属于无穷区域的像素的像素的视差值进行过滤，以及使用在第三视差图中的预定义视差值(例如，零视差)分配给针对属于无穷区域的像素的视差值。

在图3A-3B至图6中进一步描述了第三视差图的估计的一些示例表示，这些表示仅是出于例如示例目的，以及不应当被认为是限制各种实施例的范围。

图3A说明了依照示例实施例的第一图像300的示例表示。在示例实施例中，第一图像300可以是立体图像对的左视图图像或右视图图像中的一个。如在图3A中说明的，第一图像300可以被认为是右视图图像。在示例实施例中，立体相机可以用于捕获立体图像对的第一图像300和第二图像(未示出)。在示例实施例中，可以由设备100(图1)的媒体捕获模块(诸如相机模块122)，或诸如传感器208和210的传感器连同装置200的其它组件(图2)，来捕获第一图像300。在其它示例中，可以由相机(诸如能够捕获立体图像对的多基线相机，阵列相机，光场相机和全光相机)来捕获第一图像300。

在示例实施例中，第一图像300包括：具有相对于第二图像的不同视差的对象。例如，如在图3A中说明的，第一图像300包含：诸如人302的对象、由数字304和306表示的山、草308、树310、建筑物312、水体314和在背景中的天空316，其中在每个对象中的像素区域可以具有相对于第二图像的不同视差。在示例实施例中，可以在与第一图像300相关联的视差图的形式上来确定在第一图像300中的对象的像素的视差值。在图3B中示出了与第一图像300相关联的视差图。

图3B说明了依照示例实施例的第一图像300的示例视差图。应当注意的是，示例表示320仅是出于示例的目的而被示出的；以及它的目的不是表示与如图3A中示出的图像300相关联的准确的视差图，而是仅用于促进一些示例实施例的描述。在示例实施例中，视差图320，诸如第一视差图(如参照图2解释的)，包含与第一图像300中的各种对象的像素相关联的视差值的信息。例如，第一图像300的第一视差图320被示出为包含不同的区域322、324、326和328，其中每个区域具有不同的视差。通过使区域322、324、326和328的阴影变化以表示针对这些区域的不同视差来指示区域322、324、326和328，以及此类表示仅是示例的目的。例如，区域322的一些部分可以具有50的视差值，以及区域324的一些部分可以具有20的视差值。类似地，第一图像也可以与视差图(未示出)(诸如第二视差图(如参照图2解释的))相关联，该第二视差图包含与第二图像中的各种对象相关联的视差信息。

在示例实施例中，第一视差图，诸如视差图320，可以包含具有无效视差的很少区域(例如，低纹理区域)以及具有丢失视差的很少区域(还被称为‘遮挡孔洞’)。此外，在视差图320中示出的对象可以不具有一致性的轮廓。出于表示的目的，例如在视差图320中的区域322和324的区域被描绘为具有错误的视差。例如，区域322被描绘为具有错误的轮廓。在示例表示中，区域326和328被描绘为具有遮挡孔洞。在示例实施例中，为了生成求精的视差图(例如，如参照图2解释的第三视差图)，使得装置200确定在视差图320中的针对错误的视差值的视差值以及确定针对丢失的视差的视差值。如参照图2解释的，针对确定第三视差图而言，使得装置200基于在图像300中的多个颜色分割来确定存在于图像300中的一个或多个无穷区域。参照图4来解释针对图像300的多个颜色分割的确定。

图4说明了依照示例实施例的与第一图像300相关联的多个颜色分割的示例表示(由400示出)。应当注意的是，示例表示400仅是出于示例的目的而被示出；以及它的目的不是表示与如图3A中示出的图像300相关联的准确的颜色分割，而是仅是用于促进一些示例实施例的描述。如参照图2解释的，针对图像的‘多个颜色分割’指的是基于在第一图像300的像素之间的颜色强度中的差异而分割的不重叠的同质颜色分割。示例表示400被描绘为包含多个颜色分割中的一些颜色分割，诸如颜色分割402、404、406和408。通过使阴影变化来描绘颜色分割402、404、406和408以便区分颜色分割402、404、406和408的像素强度/颜色模式。应当注意的是，可以使用各种技术(包含但不限于基于均值漂移树的分割和基于线段树的分割)来确定多个颜色分割。在示例实施例中，可以基于以下假设来确定多个颜色分割：在同质颜色分割内不存在大的视差不连续性，但是此类不连续性可以出现在同质颜色分割的边界。

在示例实施例中，针对确定在第一图像300中的一个或多个无穷区域而言，确定第一图像300的多个颜色分割。在示例实施例中，确定针对第一图像300的第一线段树和针对第二图像的第二线段树。在一个示例中，通过将图像300的像素分组到多个颜色分割中、针对图像300的多个颜色分割中的每个颜色分割来创建子树以及将针对在图像300中的多个颜色分割中的每个颜色分割的子树进行链接以形成第一线段树，来生成第一线段树。类似地，在这个示例中，通过将第二图像(图像I2)的像素分组成图像I2的多个颜色分割、针对图像I2的多个颜色分割中的每个颜色分割来创建子树以及将针对图像I2的多个颜色分割中的每个颜色分割的子树进行链接以形成第二线段树，来构建第二线段树。如参照图2解释的，通过将多个颜色分割的大小与阈值大小进行比较来确定来自多个颜色分割的颜色分割的集合，以及将来自颜色分割的集合的一个或多个颜色分割分类为一个或多个无穷区域。在示例实施例中，使得装置200基于视差图320、在视差图320中的一个或多个无穷区域的信息、在视差图320中的遮挡像素以及针对第一图像300生成的置信图，来生成第三视差图。参照图5A和图5B和图6来解释第三视差图的生成过程。

图5A说明了依照示例实施例的与一个或多个无穷区域相关联的二值掩码500的示例表示。应当注意的是，二值掩码500仅是出于表示的目的而示出的；以及它的目的不是表示与如在图3A中示出的图像300相关联的准确的二值掩码，而是仅用于促进一些示例实施例的描述。二值掩码500表示在第一视差图中的一个或多个无穷区域。例如，二值掩码500被描绘为包含无穷区域502和置信区域504和506。应当注意的是，在第三视差图中，针对二值掩码500内的像素的视差值被设置为零。二值掩码500表示一个或多个无穷区域，诸如无穷区域502，以及在二值掩码500内的像素的视差值被设置为零；以及因此在确定区域504和506的像素的过滤的视差值中，无穷区域502的像素没有影响。如参照图2描述的，通过执行基于如参照图2解释的表达式(3)的过滤来确定针对其它像素(例如属于区域504和506的像素)的过滤的视差值。在无穷区域502中的像素对针对区域504和506的像素的过滤过程没有影响，因为针对无穷区域502的像素的视差值被设置为零。

图5B说明了依照示例实施例的与遮挡孔洞以及低置信区域相关联的二值掩码520的示例表示。应当注意的是，二值掩码520仅是出于表示的目的而示出的，以及它的目的不是表示与如在图3A中示出的图像300相关联的准确的二值掩码，而是仅用于促进一些示例实施例的描述。二值掩码520被描绘为包含区域522，该区域522具有有效的视差像素和一组遮挡孔洞，诸如孔洞526和低置信孔洞524。在示例实施例中，基于表达式(3)或通过全图像引导过滤方法来确定针对孔洞和低置信孔洞/像素的像素的视差值。在执行针对第一图像300的像素的视差值的确定以及对遮挡孔洞/像素进行过滤以及设置针对属于无穷区域的像素的预定义视差值后，生成求精的视差图，诸如第三视差图(如在图2中解释的)。在图6中示出了求精的视差图。

图6说明了依照示例实施例的第一视差图的求精的视差图600。应当注意的是，示例表示600仅是出于表示的目的而示出的；以及它的目的不是表示从第一视差图320获得的准确的求精的视差图，而是仅用于促进一些示例实施例的描述。视差图600被描绘为包含多个区域，诸如区域602、604、606和608。与在图3B中描绘的视差图320中的区域322、324、326和328相比，区域602、604、606和608被描绘为具有准确的视差，以及区域602被描绘为具有一致性的轮廓。视差图600包含无穷区域，诸如区域602，以及具有置信视差像素的区域，诸如604、606和608。出于示例的目的，由不同的阴影表示诸如区域602的无穷区域和诸如区域604、606和608的置信视差区域。在执行了如参照图2解释的过滤和孔洞填充过程之后，可以生成视差图600的示例表示。

图7说明了依照示例实施例的描绘用于视差图估计的示例方法700的流程图。在示例实施例中，方法700包含场景的两个图像的视差估计。针对方法700的描述，示例参照图2。可以由例如图2的装置200来执行在流程图中描绘的方法700。

在705，方法700包含促进接收第一图像和第二图像。在示例实施例中，第一图像和第二图像与场景相关联，以及是该场景的立体图像对。第一图像和第二图像由图像传感器(例如图像传感器208和210)捕获。

在710，方法700包含确定针对多个视差值的与第一图像的像素相关联的第一总代价量，以及确定针对该多个视差值的与第二图像的像素相关联的第二总代价量。在示例实施例中，通过计算针对该多个视差值的在第一图像的像素与第二图像的对应像素之间的代价量来确定第一总代价量。在示例实施例中，代价量是针对图像I1的每个像素和图像I2中的对应像素的匹配代价的集合，其中每个匹配代价对应于(来自多个视差值的)视差值。在示例实施例中，代价量是针对图像I1的每个像素和图像I2中的对应像素的匹配代价的集合，其中每个匹配代价对应于(来自多个视差值的)视差值。在这个示例中，该代价量包含针对n个数量的视差值计算的针对图像(I1和/或I2)的对应像素的n个数量的匹配代价。在一个示例中，匹配代价可以指的是，在图像I1和I2中的两个对应像素之间的相似度(或距离)，其中根据强度、颜色或其它图像特征来测量相似度(或距离)。在一个示例中，使用在第一图像中的像素和在第二图像中的像素之间的色差方法来计算代价量。在示例实施例中，基于第一线段树来聚合代价量以生成针对第一图像的第一总代价量，以及基于第二线段树来聚合代价量以生成针对第二图像的第二总代价量

在715，方法700包含基于第一总代价量生成第一图像的第一视差图，以及基于第二总代价量生成第二图像的第二视差图。在示例实施例中，对第一图像执行基于树的代价聚合方法，以确定输出第一视差图的第一总代价量。在示例实施例中，对第二图像执行基于树的代价聚合方法，以确定输出第二视差图的第二总代价量。

在720，方法700包含基于第一总代价量，生成针对在第一视差图中的第一图像的像素的视差值的置信图。在示例实施例中，置信图表示来自第一图像的像素的置信像素的集合。在示例实施例中，对于生成置信图而言，基于第一总代价量来确定对应于针对在第一视差图中的像素的视差值的置信值。在示例实施例中，置信图表示用于区分在图1中的置信像素的集合和的非置信像素的集合的置信值。例如，在置信图中的置信值可以是二进制值0和1。在示例实施例中，可以将二进制值‘1’分配给置信像素，以及可以将二进制值‘0’分配给非置信像素。

在725，方法700包含基于第一图像的多个颜色分割和在该多个颜色分割中的置信像素的数量，确定在第一图像中的一个或多个无穷区域。一个或多个无穷区域的示例可以包含但不限于与场景相关联的低纹理区域或无纹理区域，诸如天空、朴素简单的墙等。在示例实施例中，术语‘无穷区域’还可以指图像中的区域，在该区域中，与该区域相关联的像素可以被认为具有零视差值。例如，如果在多个颜色分割中的颜色分割中，置信像素的数量大于在该颜色分割中的总像素的阈值百分数，则该颜色分割可以被确定为无穷区域。

在730，方法700包含：基于第一视差图生成第三视差图。在示例实施例中，第三视差图是基于第一视差图获得的求精的视差图(如在图6中描绘的)。在示例实施例中，方法700包含：确定针对第一图像的像素的过滤的视差值。在示例实施例中，针对第一图像的是一个或多个无穷区域的一部分的那些像素的过滤的视差值被确定为等于预定的视差值(例如，零视差值)。在示例实施例中，基于如参照图2描述的基于树的聚合方法(例如基于表达式(3))来计算针对第一图像的像素(该像素不同于在一个或多个无穷区域中的像素)的过滤的视差值。在另一个示例实施例中，方法700包含：基于如参照图2描述的全图像引导过滤方法来确定针对第一图像的像素(该像素不同于属于一个或多个无穷区域的像素)的过滤的视差值，而将预定义视差值(例如，零视差值)分配给针对在第一图像中的一个或多个无穷区域的像素的过滤的视差值。

图8A和图8B说明了依照示例实施例的描绘用于视差图估计的示例方法800的流程图。针对方法800的描述，示例参照图2。方法800描绘了由例如图2的装置200执行的流程图。

在805，方法800包含促进接收第一图像和第二图像。在示例实施例中，第一图像和第二图像是场景的立体图像对。在一个示例中，第一图像由第一图像传感器(例如图像传感器208)捕获，以及第二图像由第二图像传感器(例如图像传感器210)捕获。

在810，方法800包含确定针对多个视差值(d1，d2…dn)的在第一图像的像素和第二图像的对应像素之间的代价量。在示例实施例中，代价量包含：针对多个视差值d1，d2…dn的针对第一图像的像素和在第二图像中的第一图像的像素的对应像素的多个匹配代价。

在815，方法800包含：基于第一线段树来聚合代价量以确定针对多个视差值的与第一图像相关联的第一总代价量，以及基于第二线段树来聚合代价量以确定针对多个视差值(d1，d2…dn)的与第二图像相关联的第二总代价量。框810和815的操作的示例是在框710处执行的操作。

在820，方法800包含：基于第一总代价量，生成第一图像的第一视差图，以及还包含基于第二总代价量，生成第二图像的第二视差图。在这个示例中，使用代价聚合方法来生成第一图像的第一视差图和第二图像的第二视差图。框820的操作的示例是在框715处执行的操作。

在825，方法800包含：基于第一总代价量确定对应于针对在第一视差图中的第一图像的像素的视差值的置信值。在830，方法800包含：正规化置信值以生成正规化的置信值。在835，方法800包含：将正规化的置信值与置信阈值进行比较，以针对在第一视差图中的像素分配二进制置信值(例如，0或1)。参照图2解释了确定置信值、正规化置信值和分配二进制置信值的一些示例。例如，是置信像素的一些像素可以被分配‘1’的二进制置信值，而非置信像素可以被分配‘0’的二进制置信值。

在840，方法800包含：基于将第一视差图和第二视差图进行比较，确定在第一视差图中的遮挡像素。在这个示例中，来自第一视差图的像素和来自第二视差图的像素经受相互一致性检查(还被称为左右(LR)检查)以确定遮挡像素。

在845，方法800包含：基于将多个颜色分割的大小与阈值大小进行比较来确定颜色分割的集合。在这个示例中，基于本领域中已知的各种合适的分割方法来计算第一图像的多个颜色分割。在示例实施例中，图像的颜色分割指的是，将具有相同强度值的像素分组在一起以形成分割的过程，每个分割由颜色来表示。可以通过各种合适的技术(诸如但不限于：基于均值漂移树(MST)的分割，基于线段树的分割等)来确定多个颜色分割。在一个示例中，阈值大小可以是第一图像的大小的2％。阈值大小(2％)被提及仅是作为表示的目的，以及不应当认为是限制性的，因为阈值大小可以是任何值。在示例实施例中，方法800包括将多个颜色分割中的每个颜色分割与阈值大小进行比较以检查多个颜色分割的大小是否高于该阈值大小。如果颜色分割的大小高于该阈值大小，则选择该颜色分割作为颜色分割的集合的一部分。

在850，方法800包含：计算针对第一图像的颜色分割的集合的第一因子和第二因子的比率(T)。在示例实施例中，基于在个体颜色分割中的不是遮挡像素的置信像素的数量来计算针对颜色分割的集合的个体颜色分割的第一因子(C_N)，以及基于在个体颜色分割中的不是遮挡像素的全部像素来计算第二因子(S_N)。参照图2解释了第一因子和第二因子的比率的一些示例。在850，针对颜色分割的集合的所有颜色分割来计算第一因子和第二因子的比率(T)。

在855，方法800包含：基于将该比率与阈值比率进行比较，将颜色分割的集合中的一个或多个颜色分割分类为一个或多个无穷区域。将针对颜色分割的集合的比率与阈值比率进行比较，以检查该比率是否小于阈值比率。在示例实施例中，框855的操作包含：针对颜色分割的集合中的每个颜色分割执行框860和865的操作。在860，如果针对颜色分割的比率小于阈值比率，则颜色分割的集合的该颜色分割被分类为‘无穷区域’。针对在第一图像中的一个或多个无穷区域中的像素的视差值被设置为等于预定义视差值。在865，方法800包含：如果针对颜色分割的比率大于或等于阈值比率，则将在颜色分割的集合中的非置信像素分类为遮挡孔洞/像素。应当注意的是，如果比率T大于或等于阈值比率，则与非置信像素相比，所选择的颜色分割被认为具有更多数量的置信像素，以及从而整个颜色分割不被分类为无穷区域，而是仅非置信像素被分类为遮挡孔洞或像素。

在操作870，方法800包含：生成针对第一视差图的第三视差图。操作870是由框730执行的操作的示例。在870，方法800包含：基于基于树的聚合方法(例如，如基于如参照图2解释的表达式(3))来确定针对第一图像的像素的视差值。在示例实施例中，在870，方法800包含：确定针对第一图像的像素的过滤的视差值。在示例实施例中，针对第一图像的是一个或多个无穷区域的一部分的像素的过滤的视差值被确定为等于预定视差值(例如，零视差值)，以及基于如参照图2描述的基于树的聚合方法(例如，基于表达式(3))来计算针对第一图像的像素(该像素不同于在一个或多个无穷区域中的像素)的过滤的视差值。在另一个示例实施例中，方法800可以包含：基于如参照图2描述的全图像引导过滤方法而不是基于树的聚合方法来确定针对第一图像的像素(该像素不同于属于一个或多个无穷区域的像素)的过滤的视差值。

应当注意的是，为了促进图7和图8A-8B的流程图的论述，在本申请中，某些操作被描述为以某一顺序执行的有区别的构成步骤。此类实现方式仅是示例并且在范围没有限制。某些操作可以被组合在一起并且在单个操作中来执行，以及能够以与在本申请中阐述的示例中使用的顺序不同的顺序来执行某些操作。此外，以自动化的方式来执行方法700和800的某些操作。这些操作基本上不涉及与用户交互。可以通过以手工方式或半自动的方式来执行方法700和800的其它操作。这些操作涉及经由一个或多个用户接口呈现与用户交互。

可以例如由图2的装置200来执行在这些流程图中描绘的方法。可以通过各种构件，诸如硬件、固件、处理器、电路和/或与包含一个或多个计算机程序指令的软件的执行相关联的其它设备，来实现流程图中的操作以及流程图中的操作的组合。例如，在各种实施例中描述的过程中的一个或多个过程可以由计算机程序指令来具体化。在示例实施例中，在各种实施例中描述的计算机程序指令(其具体化这些过程)可以由装置的至少一个存储设备来存储，以及可以由该装置的至少一个处理器来执行。可以将任何此类计算机程序指令加载到计算机或其它可编程的装置(例如，硬件)上以产生机器，使得所产生的计算机或其它可编程装置具体化用于实现在流程图中指定的操作的构件。还可以将这些计算机程序指令存储在计算机可读存储器中(与诸如载波或电磁信号的传输介质相对)，该计算机程序指令可以指导计算机或其它可编程装置以特定方式来执行功能，使得存储在计算机可读存储器中的指令产生制造品，该制造品的运行实现流程图中指定的操作。还可以将计算机程序指令加载到计算机或其它可编程装置上以使得在该计算机或其它可编程装置上执行一系列的操作，以产生计算机实现的过程，使得在计算机或其它可编程装置上执行的指令提供用于实现流程图中的操作的操作。借助于装置200来描述这些方法的操作。然而，能够通过使用任何其它的装置来描述和/或实践这些方法的操作。

没有以任何方式限制下面出现的权利要求书的范围、解释或应用，在本文中公开的示例实施例中的一个或多个示例实施例的一个技术效果是改进立体图像的视差估计。各种示例实施例能够通过执行视差图的快速过滤来纠正错误的视差。各种示例实施例能够过滤诸如遮挡孔洞的丢失的视差以及同时执行一种通过(pass)过滤以用于确定针对图像的像素的求精的视差值。针对图像中的其它区域的像素的视差值的估计，各种示例实施例能够通过排除图像中的无纹理区域的影响来执行视差估计，从而使得视差估计更加鲁棒。

可以在软件，硬件，应用逻辑，或软件、硬件和应用逻辑的组合中，来实现上述各种实施例。软件、应用逻辑和/或硬件可以位于至少一个存储器、至少一个处理器、装置或计算机程序产品上。在示例实施例中，可以在各种传统计算机可读介质中的任何传统计算机可读介质上维护应用逻辑、软件或指令集。在本申请的上下文中，“计算机可读介质”可以是能够含有、存储、传递、传播或传输由指令执行系统、装置或设备(诸如，计算机)(其中在图1和/或图2中描述和描绘的装置的一种示例)使用的或与之结合使用的指令的任何介质或构件。计算机可读介质可以包括计算机可读存储介质，计算机可读存储介质可以是能够含有或存储由指令执行系统、装置或设备(例如计算机)使用或与之结合使用的指令的任何介质或构件。

如果需要，可以以不同的顺序和/或彼此并行地执行在本文中论述的不同功能。此外，如果需要，上述功能的一个或多个功能可以是非必需的或可以被组合。

尽管已在独立权利要求中阐述了本发明的各种方面，但是其他方面包括来自所描述的实施例和/或具有独立权利要求特征的从属权利要求的特征的其他组合，以及不是仅在权利要求书中明确阐述的组合。

在本文中还应当注意的是，尽管以上描述了本发明的示例实施例，但是这些描述不应被视为限制性的含义。相反，在不背离如所附权利要求书中限定的本公开的范围的请求下，存在可以做出的多种变型和修改。

Claims

1.一种用于图像处理的方法，包括：

促进接收第一图像和第二图像，所述第一图像和所述第二图像与场景相关联；

确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量，以及确定针对所述多个视差值的与所述第二图像的像素相关联的第二总代价量；

基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图；

基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；

至少基于所述第一图像的多个颜色分割和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域；以及

通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

2.根据权利要求1所述的方法，还包括：

确定针对所述多个视差值的在所述第一图像的像素与所述第二图像的对应像素之间的代价量，其中针对所述多个视差值的在所述第一图像的像素与所述第二图像的对应像素之间的代价量包括针对所述多个视差值的针对所述第一图像的所述像素和所述第二图像中的所述第一图像的所述像素的所述对应像素的多个匹配代价，

其中基于第一线段树来聚合所述代价量以确定所述第一总代价量，以及其中基于第二线段树来聚合所述代价量以确定所述第二总代价量。

3.根据权利要求1所述的方法，其中生成所述置信图包括：

基于所述第一总代价量，确定对应于针对所述第一视差图中的所述第一图像的所述像素的视差值的置信值；

正规化对应于针对所述第一图像的所述像素的所述视差值的所述置信值，以生成正规化的置信值；以及

将所述正规化的置信值与置信阈值进行比较，以将二进制置信值分配给所述第一图像的所述像素，其中如果针对所述第一图像的像素的正规化的置信值大于所述置信阈值，则针对该像素的二进制置信值被分配为‘0’，以及其中如果针对所述第一图像的所述像素的正规化的置信值小于或等于所述置信阈值，则针对该像素的二进制置信值被分配为‘1’。

4.根据权利要求1所述的方法，还包括：基于均值漂移分割方法或基于线段树的方法，确定所述第一图像的所述多个颜色分割。

5.根据权利要求1所述的方法，其中确定在所述第一图像中的所述一个或多个无穷区域还包括：

基于将所述第一视差图与所述第二视差图进行比较来确定在所述第一视差图中的遮挡像素；以及

基于所述第一图像的所述多个颜色分割的大小，在所述多个颜色分割中的置信像素的数量和遮挡像素的数量来判定所述一个或多个无穷区域。

6.根据权利要求5所述的方法，其中判定所述一个或多个无穷区域包括：

基于将所述多个颜色分割的大小与阈值大小进行比较，确定所述多个颜色分割的颜色分割的集合；

计算针对颜色分割的所述集合的第一因子和第二因子的比率，其中基于在个体颜色分割中不是遮挡像素的置信像素的数量来计算针对颜色分割的所述集合中的所述个体颜色分割的所述第一因子，以及基于在所述个体颜色分割中不是遮挡像素的全部像素来计算针对颜色分割的所述集合中的所述个体颜色分割的所述第二因子；以及

基于将所述比率与阈值比率进行比较将颜色分割的所述集合中的一个或多个颜色分割分类成所述一个或多个无穷区域。

7.根据权利要求6所述的方法，其中将颜色分割的所述集合中的颜色分割分类成所述一个或多个无穷区域中的无穷区域包括：

将针对颜色分割的所述集合中的所述颜色分割的所述比率与所述阈值比率进行比较，以及执行以下中的一个：

如果所述比率小于所述阈值比率，则颜色分割的所述集合中的所述颜色分割被分类成所述无穷区域；以及

如果所述比率大于或等于所述阈值比率，则颜色分割的所述集合中的所述颜色分割中的非置信像素被分类成遮挡孔洞。

8.根据权利要求1至7中的任何一项所述的方法，其中基于基于树的聚合方法来确定针对所述第一图像的所述像素的过滤的视差值。

9.根据权利要求2至7中的任何一项所述的方法，其中基于以下表达式来确定针对所述第一图像的像素的过滤的视差值：

d_{p} = \frac{1}{N_{p}} \underset{q &Element; I}{Σ} e^{- \frac{D (p, q)}{σ}} d_{q} b_{q}

其中d_p是针对所述第一图像的像素p的过滤的视差值，d_q是针对所述第一图像的像素q的视差值，D_(p,q)是在第一线段树中的像素p和像素q之间的距离，b_q是与所述置信图相关联的像素q的二进制置信值，N_p是针对像素p的正规化项，以及σ是常数。

10.据权利要求1至7中的任何一项所述的方法，其中基于全图像引导过滤方法来确定针对所述第一图像的所述像素的所述过滤的视差值。

11.据权利要求1至7中的任何一项所述的方法，其中所述预定义视差值是零视差值。

12.据权利要求1至7中的任何一项所述的方法，其中所述第一图像和所述第二图像是所述场景的立体图像对。

13.一种用于图像处理的装置，包括：

用于促进接收第一图像和第二图像的构件，所述第一图像和所述第二图像与场景相关联；

用于确定针对多个视差值的与所述第一图像的像素相关联的第一总代价量，以及确定针对所述多个视差值的与所述第二图像的像素相关联的第二总代价量的构件；

用于基于所述第一总代价量生成所述第一图像的第一视差图，以及基于所述第二总代价量生成所述第二图像的第二视差图的构件；

用于基于所述第一总代价量，生成针对在所述第一视差图中的所述第一图像的所述像素的视差值的置信图的构件，所述置信图表示来自所述第一图像的所述像素的置信像素的集合；

用于至少基于所述第一图像的多个颜色分割和在所述多个颜色分割中的置信像素的数量，确定在所述第一图像中的一个或多个无穷区域的构件；以及

用于通过确定针对所述第一图像的所述像素的过滤的视差值，基于所述第一视差图生成第三视差图的构件，其中针对在所述第一图像中的所述一个或多个无穷区域的像素的过滤的视差值被确定为预定义视差值。

14.根据权利要求13所述的装置，其中所述装置还包括：

用于确定针对所述多个视差值的在所述第一图像的像素与所述第二图像的对应像素之间的代价量的构件，其中针对所述多个视差值的在所述第一图像的像素与所述第二图像的对应像素之间的代价量包括针对所述多个视差值的针对所述第一图像的所述像素和所述第二图像中的所述第一图像的所述像素的所述对应像素的多个匹配代价，

15.根据权利要求13所述的装置，其中用于生成所述置信图的构件还包括：

用于基于所述第一总代价量，确定对应于针对所述第一视差图中的所述第一图像的所述像素的视差值的置信值的构件；

用于正规化对应于针对所述第一图像的所述像素的所述视差值的所述置信值，以生成正规化的置信值的构件；以及

用于将所述正规化的置信值与置信阈值进行比较，以将二进制置信值分配给所述第一图像的所述像素的构件，其中如果针对所述第一图像的像素的正规化的置信值大于所述置信阈值，则针对该像素的二进制置信值被分配为‘0’，以及其中如果针对所述第一图像的所述像素的正规化的置信值小于或等于所述置信阈值，则针对该像素的二进制置信值被分配为‘1’。

16.根据权利要求13所述的装置，其中所述装置还包括：用于基于均值漂移分割方法或基于线段树的方法，确定所述第一图像的所述多个颜色分割的构件。

17.根据权利要求13所述的装置，其中用于确定在所述第一图像中的所述一个或多个无穷区域的构件还包括：

用于基于将所述第一视差图与所述第二视差图进行比较来确定在所述第一视差图中的遮挡像素的构件；以及

用于基于所述第一图像的所述多个颜色分割的大小，在所述多个颜色分割中的置信像素的数量和遮挡像素的数量来判定所述一个或多个无穷区域的构件。

18.根据权利要求17所述的装置，其中用于判定所述一个或多个无穷区域的构件还包括：

用于基于将所述多个颜色分割的大小与阈值大小进行比较，确定所述多个颜色分割的颜色分割的集合的构件；

用于计算针对颜色分割的所述集合的第一因子和第二因子的比率的构件，其中基于在个体颜色分割中不是遮挡像素的置信像素的数量来计算针对颜色分割的所述集合中的所述个体颜色分割的所述第一因子，以及基于在所述个体颜色分割中不是遮挡像素的全部像素来计算针对颜色分割的所述集合中的所述个体颜色分割的所述第二因子；以及

用于基于将所述比率与阈值比率进行比较将颜色分割的所述集合中的一个或多个颜色分割分类成所述一个或多个无穷区域的构件。

19.根据权利要求18所述的装置，其中用于将颜色分割的所述集合中的颜色分割分类成所述一个或多个无穷区域中的无穷区域的构件还包括：

用于将针对颜色分割的所述集合中的所述颜色分割的所述比率与所述阈值比率进行比较以及执行以下中的一个的构件：

20.根据权利要求13至19中的任何一项所述的装置，其中基于基于树的聚合方法来确定针对所述第一图像的所述像素的过滤的视差值。

21.根据权利要求14至19中的任何一项所述的装置，其中基于以下表达式来确定针对所述第一图像的像素的过滤的视差值：

d_{p} = \frac{1}{N_{p}} \underset{q &Element; I}{Σ} e^{- \frac{D (p, q)}{σ}} d_{q} b_{q}

22.据权利要求13至19中的任何一项所述的装置，其中基于全图像引导过滤方法来确定针对所述第一图像的所述像素的所述过滤的视差值。

23.据权利要求13至19中的任何一项所述的装置，其中所述预定义视差值是零视差值。

24.据权利要求13至19中的任何一项所述的装置，其中所述第一图像和所述第二图像是所述场景的立体图像对。