CN106887021B

CN106887021B - 立体视频的立体匹配方法、控制器和系统

Info

Publication number: CN106887021B
Application number: CN201510937847.7A
Authority: CN
Inventors: 刘媛; 刘振华; 刘殿超; 师忠超; 王刚
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2020-11-24
Anticipated expiration: 2035-12-15
Also published as: CN106887021A

Abstract

一种立体视频的立体匹配方法、控制器和系统，方法包括：对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；对第一帧分割块和第二帧分割块进行帧间匹配；至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值。

Description

立体视频的立体匹配方法、控制器和系统

技术领域

本公开涉及图像处理领域，且更具体地，涉及一种立体视频的立体匹配方法、控制器和系统。

背景技术

随着立体视觉的发展，立体匹配的速度和准确度也成为研究的重要方向。立体匹配主要需要解决的问题是如何将真实对象点在左眼图像和右眼图像的两幅图像/视频中的投影点对应起来，即通过一幅图像/视频帧的每个像素点，如何准确找出在另一幅图像/视频帧中的对应点，计算对应点对的图像/视频帧的坐标差值，得出视差值。

在用双目摄像机拍摄立体视频的情况下，立体视频可以包括在时间上连续的多对视频帧。同一时刻的一对视频帧可以包括左眼帧图像和右眼帧图像两个图像。针对每一对视频帧的左眼帧图像和右眼帧图像需要进行立体匹配。目前大多数的双目视频立体匹配算法都是将视频逐帧分开，对于每一对视频帧用图像立体匹配的方法来进行该对视频帧的立体匹配，而对于下一对视频帧，再用图像立体匹配的方法来进行该下一对视频帧的立体匹配。这种方法除了效率低下的问题，还存在严重的抖动问题，即虽然视频场景变化很小，但是视差图像跳动很明显，也就是说从时间轴的角度来说不够平稳。为了解决这一问题，近些年来，一些研究者考虑将时间信息考虑进来做视频的立体匹配，例如在图像帧的一个局部窗口，设计一个时空的代价聚合函数，这种方法的缺点在于需要逐像素计算代价聚合的值，因而时间效率有限。还有一些研究者先估计视频的运动信息(例如，视频的光流)来指导视差图的计算，但是检测诸如光流的运动信息的误差也常常比较大，因而视差图的检测也会造成进一步误差。

另一方面，由于置信传播算法在全局优化方面的成功应用，使双目立体匹配精度得到较大的提高。置信传播算法的优点是根据区域的特点自动调节消息传输的距离远近，它不仅考虑了相邻像素点对目标像素点的影响，还考虑了不相邻像素点对目标像素点的影响，同时能很好的处理低纹理区域和深度不连续区域，在低纹理区域，消息可以传输很远；在不连续区域，消息的传输很快停止。这些方法通常首先利用局部匹配实现粗匹配，找出其中正确的匹配点对(种子点)，用这些匹配点对进行全局匹配处理，以计算其他像素点的视差值，最终获得精度更高的稠密视差图。但是，目前已有的置信传播算法都是基于静止图像的立体匹配，而且置信传播算法的时间效率不高。

因此，需要改进的视频立体匹配的技术。

发明内容

根据本发明的一个方面，提供一种立体视频的立体匹配方法，包括：对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；对第一帧分割块和第二帧分割块进行帧间匹配；至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值。

根据本发明的另一方面，提供一种立体视频的立体匹配系统，包括：拍摄装置，被配置为拍摄第一帧图像和要与第一帧图像进行立体匹配的第一相对帧图像、以及第二帧图像要与第二帧图像进行立体匹配的第二相对帧图像；控制器，被配置为接收所述拍摄装置发送的第一帧图像和要与第一帧图像进行立体匹配的第一相对帧图像、以及第二帧图像要与第二帧图像进行立体匹配的第二相对帧图像；并对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；对第一帧分割块和第二帧分割块进行帧间匹配；至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值。

根据本发明的另一方面，提供一种立体视频的立体匹配控制器，包括：图像分割装置，被配置为对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；帧间匹配装置，被配置为对第一帧分割块和第二帧分割块进行帧间匹配；立体匹配装置，被配置为至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值。

如此，根据本发明的各个方面，将先前帧的视差信息用到当前帧的视差计算将大幅降低时间成本，并会产生时间上的连贯的视频视差图。

附图说明

图1示出应用根据本发明的实施例的视频立体匹配算法的系统硬件场景图。

图2示出了根据本发明的第一实施例的视频立体匹配方法的示意流程图。

图3示出了根据本发明的第二实施例的视频立体匹配方法的示意流程图。

图4示出了根据本发明的各个实施例的两层的图模型的示例。

图5示出了根据本发明的各个实施例的贝叶斯概率网络的示意图。

图6示出了根据本发明的第三实施例的计算同一时刻的一对帧图像的视差值的示意流程图。

图7A示出了根据本发明的第三实施例的置信传播算法的传播示意图。

图7B示出了根据本发明的第三实施例的考虑种子点的可靠度来进行置信传播算法的示意图。

图7C示出了根据本发明的实施例的考虑两个像素点之间的传播是非对称的方式来进行置信传播算法的示意图。

图8示出了根据本发明的第三实施例的基于可靠度的置信传播算法的计算同一时刻的一对帧图像的视差值的示意图。

图9示出了根据本发明的第四实施例的立体视频的立体匹配控制器的方框图。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

注意，接下来要介绍的示例仅是一个具体的例子，而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

如图1所示的一种视频立体匹配系统包括：拍摄装置100，被配置为拍摄第一图102(1)和第二图102(2)；控制器101，被配置为执行根据本发明的实施例的立体匹配算法。该立体匹配算法可以包括接收所述拍摄装置100发送的第一图和第二图，并计算第一图的像素和第二图的像素之间的匹配代价；预估第一图和第二图中的参考图像中的像素的视差值和对应的可靠度，其中，所述可靠度表示该像素的预估的视差值的正确的概率；根据所述参考图像中的两个像素之间的所述视觉特征的差异度和距离和该两个像素对应的可靠度来计算该两个像素之间的有方向的传播能量系数；基于所述有方向的传播能量系数来实施置信传播算法以获得像素的更新的视差值。由此，可以通过更新的视差值来构建最终的视差图。

在此，如果该拍摄装置为双目视频摄像机，则可以拍摄得到至少作为第一帧图像的先前时刻的左图和作为第一相对帧图像的先前时刻的右图、以及作为第二帧图像的当前时刻的左图和作为第二相对帧图像的当前时刻的右图。在以下实施例的说明中，采用示例而非限制的先前时刻的左图和右图以及当前时刻的左图和右图来给出说明。但实际上，随着科技的发展，可能出现多维摄像机，而本发明公开的视频立体匹配技术也可以应用于多维视频立体匹配中。

在此，控制器101可以包括通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。处理器101可以以单个芯片、芯片组、集成电路、单片机等的形式。通用处理器可以是微处理器，但是作为替换，该控制器可以是任何商业上可获得的处理器、微控制器或状态机。控制器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。控制器内部还可以包括存储器(未示出)。存储器可以存储至少一个计算机可执行指令，用于在由控制器执行时本技术所描述的实施例中的各个功能和/或方法的步骤。存储器还可以临时或永久地存储各种数据和指令。

当然，图1所示的硬件场景图仅是一个示例而非限制，本领域技术人员可以基于本公开的描述来构造任何适当的硬件场景。

图2所示的立体视频的立体匹配方法200包括：步骤201，对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；步骤202，对第一帧分割块和第二帧分割块进行帧间匹配；步骤203，至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值。

在此，由于视频帧之间在时间上和空间上存在一定的连续性，例如视频帧通常是例如24帧/1秒(不限于此)，即每个连续帧之间相差例如1/24秒，因此在这1/24秒之间的当前帧图像中的各个像素点、分割块等分割元素的视觉特征和视差值等特征与先前帧图像中的那些可能变化不大，因此如果能利用这种变化不大的特征信息，将先前帧图像的已知的视差值一定程度地应用于当前帧图像的视差值计算，能够一定程度地减少计算量，加快视频立体匹配的速度。因此，根据本发明的各个实施例，首先通过帧间匹配来找到先前的第一帧图像中的具体分割块在当前的第二帧图像中是哪个分割块，然后考虑帧间匹配的先前的第一帧分割块和当前的第二帧分割块之间的相似度，可以基于第一帧图像的视差值来获得与第一帧图像的视差值具有一定相似关系的第二帧图像的视差值。即，如果匹配的第一帧分割块与匹配的第二帧分割块非常相似、甚至相同，那可能将匹配的第一帧分割块的视差值适应地或直接地应用为匹配的第二帧分割块的视差值。如此，将先前帧的视差信息用到当前帧的视差计算将大幅降低时间成本，并会产生时间上的连贯的视频视差图。

注意，在本文中，用“帧间匹配”来表示时间上不同的两个视频帧之间的图像匹配，即寻找先前的第一帧图像中的具体分割元素在当前的第二帧图像中是哪个分割元素，以与静态双目图像之间的立体匹配区分。帧间匹配的方式很多，可以采用传统的运动估计法、光流法等等，在此不一一详述。该静态双目图像之间的立体匹配指的是双目图像的左图中的分割元素是右图中的那个分割元素，从而得到对应点的位置及其视差值。因此，在本文，用“立体匹配”表示左图和右图之间的匹配。

当然，在此，第一帧图像在时间上先于第二帧图像，两者可以是紧挨着连续的两帧，也可以是相隔一帧或几帧的两帧。而在双目摄像机的情况下，该第一帧图像可以例如是先前的左图像，而要与第一帧图像进行立体匹配的第一相对帧图像可以例如是先前的右图像，而第二帧图像可以例如是当前的左图像，而要与第二帧图像进行立体匹配的第二相对帧图像可以例如是当前的右图像。

在一个实施例中，所述至少部分地根据第一帧分割块之间的相似度以及帧间匹配的第一帧分割块和第二帧分割块之间的相似度来基于第一帧图像的视差值来获得第二帧图像的视差值的步骤203可以包括：步骤2031(未示出)，针对所述第一帧图像和所述第二帧图像，构建两层的图模型，其中，第一帧图像是第一层，第二帧图像是第二层，分割块是图的节点，第一帧图像内的连接两个节点的边是内边，连接第一帧图像和第二帧图像之间的节点的边是外边；步骤2032(未示出)，至少部分地根据第一帧分割块之间的相似度以及帧间匹配的第一帧分割块和第二帧分割块之间的相似度来计算所述图模型中的内边和外边的权值；步骤2033(未示出)，在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值。

在此，除了考虑帧间匹配的第一帧分割块和第二帧分割块之间的相似度以外还考虑据第一帧分割块之间的相似度，可以根据第一帧分割块之间的相似度以及由此得到的分割块的视差值的相似度，来更好地从第一帧图像的视差值来获得第二帧图像的视差值。

在此，在该实施例中，采用建立图模型和概率估算的方法来从第一帧图像的视差值来获得第二帧图像的视差值。但是，本发明不限于该方法，只是利用这样的二层图模型和概率估算的方法可以更直观地表示第一帧分割块之间的关系和第一帧分割块和第二帧分割块之间的关系对第二帧图像的视差值的影响。事实上，如果第一帧分割块之间的相似度以及由此得到的分割块的视差值的相似度很高，则可以直接或按比例使用第一帧图像的视差值作为第二帧图像的视差值，而不需要建立复杂的图模型和概率模型等。

在一个实施例中，所述帧间匹配的第一帧分割块和第二帧分割块之间的相似度可以通过帧间匹配分割块的像素数量、对齐重叠的像素数量、和在视觉特征上的相似度以及重心的距离来确定。通常，帧间匹配分割块的像素数量在第一帧图像和第二帧图像中相差越小(即越相似)，说明越可能是同一个物体，因此相似度可能越大；帧间匹配分割块的对齐重叠的像素数量在第一帧图像和第二帧图像中相差越小(即越相似)，说明越可能是同一个物体，因此相似度可能越大，在此对齐可以通过将分割块的重心、中心、边、或角等对齐来实现；帧间匹配分割块的视觉特征在第一帧图像和第二帧图像中相差越小(即，越相似)，说明越可能是同一个物体，因此相似度可能越大；帧间匹配分割块的重心距离在第一帧图像和第二帧图像中越小(即，两个重心越重合)，说明越可能是同一个物体，因此相似度可能越大。当然，本领域技术人员还可以基于这个思想来构思除了像素数量、对齐重叠的像素数量、和在视觉特征上的相似度以及重心的距离以外的更多的因素来确定图像间的相似度。

在一个实施例中，所述第一帧分割块之间的相似度可以通过各第一帧分割块在视觉特征上的相似度来确定。例如，视觉特征可以是颜色、色差、灰度、形状、纹理等等。虽然在此仅考虑了同一图像内的分割块之间的视觉特征上的相似度来考察图像内的分割块的相似度，但是本领域技术人员还可以基于本思想来构思除了视觉特征以外的其他特征、例如直方图、各种图像变换等来寻找图像内的分割块的相似度关系。

在一个实施例中，在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值的步骤2033可以包括：基于图模型的外边，计算时间域一致性，所述时间域一致性表示第一帧图像和第二帧图像中的帧间匹配分割块的视差值相似的程度；基于图模型的内边，计算空间域一致性，所述空间域一致性表示相邻的第二帧分割块之间的视差值相似的程度；计算表示第二帧图像和要与第二帧图像进行立体匹配的第二相对帧图像之间的立体匹配代价的似然值；确定时间域一致性、空间域一致性和似然值的线性加权值，并进行线性加权得到总和；求使得所述总和达到最大值的视差值作为第二帧图像的视差值。

上述在图模型上，通过二层图模型和贝叶斯概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值仅是一个示例，而非限制，事实上，在得知了帧间匹配的第一帧分割块和第二帧分割块之间的相似度、甚至优选地加上第一帧分割块之间的相似度之后，可以根据第一帧图像的视差图来构造很多种图模型和概率估算的模型，例如一层图模型、马尔可夫网络模型等等。

在一个实施例中，对第一帧分割块和第二帧分割块进行帧间匹配的步骤202可以包括：第一次帧间匹配步骤，针对每一个第一帧分割块，在第二帧图像中找到一个帧间匹配的第二帧分割块，使得第一帧分割块和所找到的第二帧分割块之间的相似度最大；第二次帧间匹配步骤，针对每一个第二帧图像分割块，在第一帧图像中找到一个帧间匹配的第一帧分割块，使得第二帧分割块和所找到的第一帧分割块之间的相似度最大；如果一个第一帧分割块和一个第二帧分割块在所述第一次和第二次帧间匹配步骤中都是帧间匹配的，则确定所述第一帧分割块和所述第二帧分割块是帧间匹配的。

上述具体步骤也仅是视频中的帧间匹配的一个示例，事实上，视频中的帧间匹配可以采用其他帧间匹配方法，例如全搜索法(Full Search)、三步法(Three-step searchalgorithm)、四步法(Four-step search algorithm)、钻石算法(diamond searchalgorithm)等。

在一个实施例中，该方法200还可以包括获得第一帧图像的视差值，其中，所述获得第一帧图像的视差值可以包括：计算第一帧分割块和要与第一帧图像进行立体匹配的第一相对帧图像的分割块之间的立体匹配代价；预估第一帧分割块的视差值和对应的可靠度，其中，所述可靠度表示该分割块的预估的视差值的正确的概率；根据两个第一帧分割块之间的所述视觉特征的差异度和距离和该两个第一帧分割块对应的可靠度来计算该两个第一帧分割块之间的有方向的传播能量系数；基于所述有方向的传播能量系数来实施置信传播算法以获得第一帧分割块的更新的视差值。根据本发明的实施例的获得第一帧图像的视差值的上述方法还会在稍后参考图6-8来相似介绍。当然，获得第一帧图像的视差值的方法不限于此，还可以采用现有技术中的其他立体匹配方法来获得。

在一个实施例中，所述分割块包括超像素块，在另一实施例中，所述分割块包括像素点。优选地，在本公开中，利用超像素块来进行上述帧间匹配、立体匹配等动作可以提高效率、减少计算量。在此，超像素块指的是：图像按照图像像素的视觉特征(例如，颜色/灰度)被分割成小的图像块，在同一个小图像块中，像素的视觉特征相同或者非常相似，这样的小图像块被称之为“超像素”。在视频图像的这种具有时间上连续和空间上相似的特点的图像序列，利用视觉特征相似或相同的超像素块作为分割块单位，相比于采用像素点为单位，可以减少计算量并提高效率。

而在上述获得第一帧图像的视差值的方法中，分割块可以是像素点，由此，可以精确地得出第一帧图像的视差值，因为该第一帧图像是第二帧图像、甚至后续帧图像的视差值的基础，因此，利用更精细的像素点为单位来获得视差值是优选的。当然，分割块的单位不限于此，还可以利用其他图像分割的方法来得到其他类型的分割块。

该第二实施例可以是一个可选的实施例，其中，该第一帧图像例如是先前的左图像，而要与第一帧图像进行立体匹配的第一相对帧图像例如是先前的右图像，而第二帧图像例如是当前的左图像，而要与第二帧图像进行立体匹配的第二相对帧图像例如是当前的右图像，分割块是超像素块，建立的图模型是二层图模型，且利用贝叶斯概率网络来通过置信传播方式计算视差图。

具体地，在步骤3011中，对双目摄像机的左摄像头拍摄的先前帧的左图和当前帧的左图进行超像素块分割，使得视频帧被按照图像像素的视觉特征(例如颜色/灰度)分割成超像素块。基于超像素块的分割可以使用现有的非专利文献P.F.Felzenszwalb andD.P.Huttenlocher.Efficient graph-based image segmentation.InternationalJournal of Computer Vision,59(2):167–181,2004提出的方法。分割的原则如下：定义一个图模型，其中的“节点”对应于图像的像素，而“边”连接相邻的8连通像素。通过图像的颜色梯度给出了两节点间的边的权值。在图模型上建立最小生成树(Minimum SpanningTree，MST)，图像像素/区域按其大小和一个尺度参数进行合并。

图4示出了根据本发明的各个实施例的两层的图模型的示例。图4的左侧示出了先前的T时刻的左图的超像素块分割结果以及当前的T+1时刻的左图的超像素块分割结果。利用不同的颜色的块表示不同的超像素块。

回到图3，在步骤3012中，左图和右图可以是极线校正过的，使得左图和右图可以位于同一极线上，以便更准确地计算左图的各个像素和右图的各个像素之间的匹配代价。匹配代价可以用任意一种已知的匹配代价函数来计算，例如绝对差和(Sumof AbsoluteDifferences，SAD),平方差和(Sum of Squared Differences，SSD),绝对差零均值和(Zeromean Sum of Absolute Differences，ZSAD),平方差零均值和(Zeromean Sum ofSquared Differences，ZSSD),伯奇和托马西(Birchfield and Tomasi，BT),互信息(Mutual Information，MI),Census等等。为了提高初始视差图的精度，也可进一步利用多种匹配代价函数融合得到更高精度的匹配代价函数。同时，通过一定大小的窗口中，利用窗口叠加来增强匹配代价的可靠性也是一种提高精度的常见方法。

在步骤3013中，将先前的左图像帧和当前的左图像帧的超像素块进行帧间匹配。可以根据非专利文献C.Couprie,C.Farabet,Y.LeCun,and L.Najman,Causal Graph-basedVideo Segmentation,in ICIP,2013的方法进行帧间匹配。具体地，在第一次帧间匹配步骤中，针对先前的每一个左图像帧超像素块，在当前的左图像帧中找到一个帧间匹配的左图像帧超像素块，使得先前的左图像帧超像素块和当前的左图像帧超像素块之间的相似度最大；在第二次帧间匹配步骤中，针对当前的每一个左图像帧超像素块，在先前的左图像帧中找到一个帧间匹配的左图像帧超像素块，使得当前的左图像帧超像素块和先前的左图像帧超像素块之间的相似度最大；如果一个先前的左图像帧超像素块和一个当前的左图像帧超像素块在所述第一次和第二次帧间匹配步骤中都是帧间匹配的，则确定所述先前的左图像帧超像素块和所述当前的左图像帧超像素块是帧间匹配的。

在步骤3014中，构建两层的图模型，如图4的右侧所示。其中图的节点是视频帧中的超像素块(作为分割块)，“内边”连接同一层(例如同一图像)图模型中两个节点，“外边”是根据超像素块的帧间匹配结果，连接不同层(例如，先前的图像和当前的图像)的两个节点。“内边”的权值可以由同一图内的超像素块的视觉特征的相似度决定；“外边”的权值可以由帧间匹配分割块的像素数量、对齐重叠的像素数量、和在视觉特征上的相似度以及重心的距离等来确定，可以用如下公式(1)定义该权值如下：

其中，|r_i|表示超像素块r_i包含的像素数量，|r_j|表示超像素块r_j包含的像素数量，|r_i∩r_j|表示将超像素块r_i和r_j对齐后重叠的像素的个数，d(c_i,c_j)是超像素块r_i和r_j的重心的距离，a_ij是超像素块r_i和r_j在视觉特征上的相似度。当然，该公式仅是示例，事实上，还可以基于帧间匹配分割块的像素数量、对齐重叠的像素数量、和在视觉特征上的相似度以及重心的距离中的一种或多种或其他因素来构造另外的公式，在此不一一举例。

如果两层的节点没有匹配成功，则该两个节点间的外边的权值为0。这也可以理解为，不对没有帧间匹配的超像素块对计算外边的权值，因为如果没有帧间匹配，则两个超像素块之间没有相似关系，可以认为这两个超像素块不是同一个物体，因此不会考虑将一个超像素块的视差值应用于计算另一超像素块的视差值，因此，没有必要求这两者之间的关系。

建立二层图模型仅是示例而非限制，只是建立二层图模型能够使得先前帧和当前帧之间的关系更直观。

在步骤3015中，将用贝叶斯概率网络将来诠释上述的图模型。根据贝叶斯理论，设计一个贝叶斯网络如图5所示。图5示出了根据本发明的各个实施例的贝叶斯概率网络的示意图。该贝叶斯网络可以建立在以下两个假设的基础上：1)先前帧视频的视差值将会影响当前帧视频的视差值；2)右视频帧的视差值能够通过左视频帧和视差图恢复得到。也就是说，通过先前帧的视差图来获得当前帧的视差图，然后，可以基于当前的左图的视差值和当前帧的视差图来计算当前的右图的视差值。

基于图5的贝叶斯概率网络，可以得到：

这里，概率

从而，

其中，d_t表示当前t时刻的图像帧的视差值，d_t-1表示先前的t-1时刻的图像帧的视差值，

表示t时刻的右图的视觉特征值(例如颜色/灰度值)，

表示t时刻的右图的视觉特征值(例如颜色/灰度值)。

上面方程的右边的三项分别对应时间域一致性、空间域一致性和似然值，它们可以被分别定义如下：

时间域一致性：

空间域一致性：

似然值：

其中，i,j表示分别在先前帧和当前帧中的N个超像素块中的超像素块，i,i′表示左图L中的超像素块，H₁、H₂、H₃是表示exp函数的带宽的系数，ρ₁、ρ₃是权重系数。π_i是空间域的内边，w_ij是外边，

是左图的像素的视觉特征值(例如颜色/灰度值)，

是右图的像素的视觉特征值(例如颜色/灰度值)，

这里时间域一致性表示连续两帧被匹配上的超像素块的视差值是否是比较相似的；空间域一致性表示在同一帧中，相邻超像素块的视差值是否是比较接近；而似然值是视觉特征值(例如颜色/灰度)决定的匹配代价。匹配代价的定义是现有技术中已知的，在此不赘述。

用

和

分别表示

和

从而可以得到以下能量方程：

这里α,β和γ是线性加权的权值，满足α+β+γ＝1。权值α,β和γ可以根据超像素块的立体匹配的结果自适应地设定，例如，超像素块的立体匹配的精度如果比较低，则γ可以设定较高的值；但如果超像素块的立体匹配的精度很高，则γ可以设定为0，这样可以较大程度的减少时间消耗。

基于上述能量方程，优化方程如下：

可以用已有的技术和方法解此方程，例如用动态规划和图割的方法去解视差值d_t，达到置信传播的目的。

如此，将先前帧的视差信息用到当前帧的视差计算将大幅降低时间成本，并会产生时间上的连贯的视频视差图。另一方面，利用超像素块作为视差值的求解单元也将降低时间成本。此外，将时空信息引入到视差值的全局优化过程，可以帮助实现无闪烁和时间上一致的视差图。

立体匹配方法600包括：步骤601，计算第一图的像素和第二图的像素之间的匹配代价；步骤602，预估第一图和第二图中的参考图像中的像素的视差值6021和对应的可靠度6022，其中，所述可靠度6022表示该像素的预估的视差值的正确的概率；步骤603，根据所述参考图像中的两个像素之间的所述视觉特征的差异度和距离和该两个像素对应的可靠度来计算该两个像素之间的有方向的传播能量系数；步骤604基于所述有方向的传播能量系数来实施置信传播算法以获得像素的更新的视差值。

在步骤601中，例如左图的第一图和例如右图的第二图可以是极线校正过的，使得左图和右图可以位于同一极线上，以便更准确地计算左图的各个像素和右图的各个像素之间的匹配代价。匹配代价可以用任意一种已知的匹配代价函数来计算，例如绝对差和(Sumof Absolute Differences，SAD),平方差和(Sum of Squared Differences，SSD),绝对差零均值和(Zeromean Sum of Absolute Differences，ZSAD),平方差零均值和(ZeromeanSum of Squared Differences，ZSSD),伯奇和托马西(Birchfield and Tomasi，BT),互信息(Mutual Information，MI),Census等等。为了提高初始视差图的精度，也可进一步利用多种匹配代价函数融合得到更高精度的匹配代价函数。同时，通过一定大小的窗口中，利用窗口叠加来增强匹配代价的可靠性也是一种提高精度的常见方法。

在步骤602中，利用得到的匹配代价，预估左图和右图中的参考图像中的每个像素的视差值和对应的可靠度。这里，左图和右图中取一个作为参考图像，并计算该参考图像中的每个像素的视差值和对应的可靠度。另外，这里可以仅得到初步的粗略的视差值，为了提高计算效率而不太考虑准确度的话，可以采用简单有效的方法来计算，例如胜者为王(Winner Takes All，WTA)算法。

优选地，在得到初始的视差值的同时，也相应地求出该初始的视差值的可靠度的得分。可靠度可以表示该像素的预估的视差值的正确的概率。在此，关于可靠度在立体匹配中的应用可参考文献X.Hu,P.Mordohai,A quantitative evaluation of confidencemeasures for stereo vision,in PAMI 34(6012),2121-2133。在该文献中提到很多种计算可靠度的算法。例如，可靠度的计算可以采用基于规则的算法或者学习预测算法来完成。

如果采用基于规则的算法可以包括以下步骤：基于每个像素点及其相邻的像素，提取匹配代价的曲线的可靠性特征；对每个像素点进行投票，其中，f_in是像素i的第n个可靠性特性，f_in的值越大表示像素i的初始的预估视差值在第n个可靠性特性上表现出更高的可靠性，如果f_in的值大于预定阈值，则像素i得到投票；将像素i的总投票∑_nf_in作为像素i的初始的预估视差值的可靠度得分。在此，可靠性特性指的是由于不同的视差值评估方法得到不同初始视差值而得到的对应于不同初始视差值的不同可靠性特性。因此，利用投票的方式能够对各个不同的初始视差值评估方法的可靠性特性进行统计，得到更为准确的可靠性。如果采用学习预测的算法可以包括以下步骤：收集包括多个样本的训练集，每一个样本包括匹配的像素对及其正确的视差值，每个样本还有一个正负标签，表示按照胜者为王(WTA)算法得到的预估视差值是否正确；基于匹配代价的曲线的可靠性特征，利用机器学习的算法来学习一个分类器，以预测一个预估的视差值是否可靠。

当然，计算预估的视差值和相应的可靠度的方法不限于上述，本领域技术人员还可以采用已知的其他方法。

在该实施例中，用像素点作为单位来进行初始视差值的预估和可靠度的计算以及后续的传播能量系数和传播模型的建立，这是考虑到精细度，利用像素点可以获得精细的视差值。然而，在追求速度而不太考虑精细度的情况下，也可以采用比像素点更大的图像块作为单位，例如具有相同或类似视觉特征(颜色/灰度)的超像素块等等。

下面结合图7A-7C和图8详细介绍步骤603的根据所述参考图像中的两个像素之间的所述视觉特征的差异度和距离和该两个像素对应的可靠度来计算该两个像素之间的有方向的传播能量系数的原理。

置信传播算法通常首先利用局部匹配实现粗匹配，找出其中正确的匹配点对(种子点)，用这些匹配点对进行全局匹配处理，以计算其他像素点的视差值，最终获得精度更高的稠密视差图。这种方法的最基本的步骤就是计算像素点之间的关系，即如何将种子点的信息传播到其他点，将多少种子点的信息来进行置信传播。如图7A所示，用传播能量系数来表征在置信传播算法中从种子点向其他像素点的信息传播的能量的多少，即种子点能将多少信息能量传播到其他像素点。

不同于其中相同地对待任何种子点的传统置信传播算法，根据本发明的实施例，可以考虑不同种子点的各自的可靠度来区别对待不同种子点以进行置信传播算法。如图7B所示，从种子点1向像素点3的传播能量系数由于种子点1和2的可靠度不同而不同于从种子点2向像素点3的传播能量系数。

不同于其中两个像素点之间的传播能量系数对称的传统置信传播算法，根据本发明的实施例，两个像素点之间的传播能量系数由于该两个像素点各自的可靠度而可以是非对称的。如图7C所示，从种子点1向像素点2的传播能量系数由于种子点1和2的可靠度不同而可能不同于从种子点2向像素点1的传播能量系数。因此，在本发明的实施例中，传播能量系数可以是有方向性的向量。

如图8所示，a,b,c,…,i表示9个像素点，在传统的置信传播算法中，像素b到e(b→e)，和e到b(e→b)的能量传播系数是相同的。而在本发明的实施例中，因为像素b和e在预估初始视差值的时候的可靠度是不相同的，所以b→e和e→b的能量传播系数也可以是不同的。从而将不相同的能量传播系数加载到有向的图模型中，得到最终的视差值。

具体地，在步骤603中，根据所述参考图像中的两个像素之间的所述视觉特征的差异度和距离和该两个像素对应的可靠度来计算该两个像素之间的有方向的传播能量系数。基本的规则可以是：两个像素之间的所述视觉特征的差异度越小，传播能量系数越大，两个像素之间的距离越小，传播能量系数越大，且两个像素对应的可靠度越高，传播能量系数越大。以下列举具体的公式来表示传播能量系数和两个像素之间的所述视觉特征的差异度和距离和两个像素对应的可靠度之间的关系，但本发明不限于该具体的公式，而是其他满足上述基本规则的公式都是可以构思的。

在一个实施例中，基于图像像素的视觉特征、空间位置，以及上述得到的可靠度得分，计算传播能量系数。在此，视觉特征可以包括灰度、颜色等视觉信息，空间位置可以包括欧式距离等距离度量。在一个实施例中，用w_ij表示像素i和像素j之间的初始传播能量系数，其可以被定义为：

这里Δc(i，j)＝‖I(i)-I(j)‖和Δg(i,j)＝‖i-j‖分别代表像素i和像素j之间的颜色/灰度等的差异度和在图像坐标中的欧式距离。该差异度也反映了两个像素在视觉特征上的相似度，即差异度越小，相似度越高。λ_c和λ_g是两个平衡参数。

另一方面，用r_i表示像素i的可靠度得分，表示该像素的预估视差值的正确的概率。即，可靠度得分越高，表示预估的视差值越有可能是正确的。传播能量系数p_ij则可被定义为如下内积形式：

p_ij＝<r_i，w_ij>……(11)

其中<r_i,w_ij>表示可靠度的得分r_i和初始传播能量系数w_ij的内积。

也就是说，在本实施例中，传播能量系数考虑了像素的初始视差值的可靠度得分。另外，由于考虑的传播起始的像素点的可靠度得分，因此，从传播起始的像素点到其他像素点的传播能量系数与从其他像素点到该像素点的传播能量系数可能是不同的、非对称的，因此可以理解为该传播能量系数是有方向的。

另外，在此，由于可以利用每个像素的初始视差值及其可靠度得分，因此，可以更准确地使得每个像素都可以作为种子点(而非传统技术中的仅一部分像素作为种子点)以及考虑其对传播能量系数的影响，因此可以得到更准确的传播能量系数，从而之后得到更准确的视差值和立体匹配结果。

当然，上述具体的传播能量系数的计算公式仅是示例，而事实上，可以构思其他公式，只要使得传播能量系数考虑像素的初始视差值的可靠度得分，使得可靠度得分越高，从该像素传播出去的传播能量系数越大。

在步骤604中，基于所述有方向的传播能量系数来实施置信传播算法以获得像素的更新的视差值。

具体地，首先，建立一个有方向的图模型G＝(V，E)，这里V是图模型的节点，也就是参考图像的像素，图模型中的节点之间的边

的权值用传播能量系数p_ij表示。图模型的每条边是一个有方向的点对[i,j]，表示从像素i到像素j的有向边。这里暂不考虑自循环(self loop)，即对所有的节点v∈V，

在此，有方向的图模型是为了体现节点和节点之间的有方向且有权值的传播关系，事实上，其他类型的模型——只要体现了这种关系——也是可以使用的。

然后，在该图模型上实施置信传播算法以获得像素的更新的视差值。

具体地，基于构建的有向图模型和传播能量系数矩阵，可以定义一个随机游走模型，使得该模型有唯一的稳定分布，例如传送随机游走(teleporting random walk)模型。用Π表示一个对角矩阵，该对角矩阵的对角元素是随机游走的稳定分布，计算传播概率矩阵Θ＝(Π^1/2PΠ^-1/2+Π^-1/2PΠ^1/2)/2其中P是传播能量系数矩阵。用y(i)表示像素i的所述的视差值预估的计算函数，那么像素最终的视差计算函数为f＝(I-αΘ)^-1y(i)，这里α是范围为[0,1]的参数。注意，此处y(i)可以是矩阵形式，例如竖向量式的矩阵。

上述随机游走模型可以从例如文献D.Zhou,J.Huang,and B.Scholkopf,Learningfrom Labeled and Unlabeled Data on a Directed Graph,in ICML,6005中找到。但是，除了随机游走模型以外，还可以使用其他模型来在所述图模型上实施置信传播算法。

总的来说，通过利用可靠度得分，该立体匹配算法不需要如传统算法那样，仅单独地检测种子点，而是所有像素的视差值在考虑可靠度的同时进行置信传播。初始预估的视差值如果具有较高的可靠度得分，则说明该像素对越有可能是正确的匹配对，将会更容易影响其他像素的视差更新，从而将减轻从不太可靠的像素出发的误传播带来的影响，从而得到更准确的视差值。从而，本发明的实施例的改进的全局立体匹配算法更容易取得更高精度的视差图像。

由此，可以通过上述实施例的立体匹配方法来精确地得出第一帧图像的视差值，因为该第一帧图像是第二帧图像、甚至后续帧图像的视差值的基础，因此，通过取得更精细的更高精度的第一帧图像的视差图可以得到更高精度的后续帧的视差图。

当然，在另一实施例中，也可以不以像素点为单位来进行该先前帧图像的立体匹配以获得视差值，而是以超像素块为单位，如结合图1-5所描述的对图像进行超像素块的分割以基于先前帧的信息来进行当前帧的立体匹配，在这种情况下，可以一次对先前图像进行超像素块分割以得到超像素块，并将这种分割块用于先前帧的立体匹配的时差值计算和用于当前帧的立体匹配的方法的基础。在以超像素块为单位进行先前图像的视差值的计算时，可以以超像素块的灰度/颜色等视觉特征信息的平均值(或总和或中位值或其他表示整个超像素块的信息的算法)来实施上述结合图6-8描述的先前帧图像的立体匹配。

图9所示的立体视频的立体匹配控制器900包括：图像分割装置901，被配置为对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；帧间匹配装置902，被配置为对第一帧分割块和第二帧分割块进行帧间匹配；立体匹配装置903，被配置为至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值。

因此，根据本发明的各个实施例，首先通过帧间匹配来找到先前的第一帧图像中的具体分割元素在当前的第二帧图像中是哪个分割元素，然后考虑先前的第一帧图像和当前的第二帧图像之间的帧间匹配上的分割块之间的相似度，可以基于第一帧图像的视差值来获得与第一帧图像的视差值具有一定相似关系的第二帧图像的视差值。即，如果匹配的第一帧分割块与匹配的第二帧分割块非常相似、甚至相同，那可能将匹配的第一帧分割块的视差值适应地或直接地应用为匹配的第二帧分割块的视差值。如此，将先前帧的视差信息用到当前帧的视差计算将大幅降低时间成本，并会产生时间上的连贯的视频视差图。

在一个实施例中，立体匹配装置903可以被配置为：针对所述第一帧图像和所述第二帧图像，构建两层的图模型，其中，第一帧图像是第一层，第二帧图像是第二层，分割块是图的节点，第一帧图像内的连接两个节点的边是内边，连接第一帧图像和第二帧图像之间的节点的边是外边；至少部分地根据第一帧分割块之间的相似度以及帧间匹配的第一帧分割块和第二帧分割块之间的相似度来计算所述图模型中的内边和外边的权值；，在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值。

在一个实施例中，所述帧间匹配的第一帧分割块和第二帧分割块之间的相似度可以通过帧间匹配分割块的像素数量、对齐重叠的像素数量、和在视觉特征上的相似度以及重心的距离来确定。

在一个实施例中，所述第一帧分割块之间的相似度可以通过各第一帧分割块在视觉特征上的相似度来确定。例如，视觉特征可以是颜色、色差、灰度、形状、纹理等等。

在一个实施例中，立体匹配装置还可以被配置为：基于图模型的外边，计算时间域一致性，所述时间域一致性表示第一帧图像和第二帧图像中的帧间匹配分割块的视差值相似的程度；基于图模型的内边，计算空间域一致性，所述空间域一致性表示相邻的第二帧图分割块之间的视差值相似的程度；计算表示第二帧图像和要与第二帧图像进行立体匹配的第二相对帧图像之间的立体匹配代价的似然值；确定时间域一致性、空间域一致性和似然值的线性加权值，并进行线性加权得到总和；求使得所述总和达到最大值的视差值作为第二帧图像的视差值。

在一个实施例中，帧间匹配装置902可以被配置为进行：第一次帧间匹配步骤，针对每一个第一帧分割块，在第二帧图像中找到一个帧间匹配的第二针分割块，使得第一帧分割块和所找到的第二帧分割块之间的相似度最大；第二次帧间匹配步骤，针对每一个第二帧分割块，在第一帧图像中找到一个帧间匹配的第一帧分割块，使得第二帧分割块和所找到的第一帧分割块之间的相似度最大；如果一个第一帧分割块和一个第二帧分割块在所述第一次和第二次帧间匹配步骤中都是帧间匹配的，则确定所述第一帧分割块和所述第二帧分割块是帧间匹配的。

在一个实施例中，该控制器900还可以包括获得第一帧图像的视差值的装置(未示出)，其中，所述获得第一帧图像的视差值的装置可以被配置为：计算第一帧分割块和要与第一帧图像进行立体匹配的第一相对帧图像的分割块之间的立体匹配代价；预估第一帧分割块的视差值和对应的可靠度，其中，所述可靠度表示该分割块的预估的视差值的正确的概率；根据两个第一帧分割块之间的所述视觉特征的差异度和距离和该两个第一帧分割块对应的可靠度来计算该两个第一帧分割块之间的有方向的传播能量系数；基于所述有方向的传播能量系数来实施置信传播算法以获得第一帧分割块的更新的视差值。

在一个实施例中，所述分割块包括超像素块，在另一实施例中，所述分割块包括像素点。优选地，在本公开中，利用超像素块来进行上述帧间匹配、立体匹配等动作可以提高效率、减少计算量。

而在上述获得第一帧图像的视差值的方法中，分割块可以是像素点，由此，可以精确地得出第一帧图像的视差值，因为该第一帧图像是第二帧图像、甚至后续帧图像的视差值的基础，因此，利用更精细的像素点为单位来获得视差值是优选的。

因此，在利用上述优选的获得先前帧的更高精度的视差图之后，可以基于该更高精度的先前帧的视差图来利用之前描述的立体匹配方法获得更精确的当前帧的视差图。

当然，上述的具体实施例仅是例子而非限制，且本领域技术人员可以根据本发明的构思从上述分开描述的各个实施例中合并和组合一些步骤和装置来实现本发明的效果，这种合并和组合而成的实施例也被包括在本发明中，在此不一一描述这种合并和组合。

注意，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

另外，本文中的各个实施例中的步骤和装置并非仅限定于某个实施例中实行，事实上，可以根据本发明的概念来结合本文中的各个实施例中相关的部分步骤和部分装置以构思新的实施例，而这些新的实施例也包括在本发明的范围内。

以上所述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于硬件的电路、专用集成电路(ASIC)或处理器。

可以利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行所述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其他这样的配置。

结合本公开描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬碟、可移动碟、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此公开的方法包括用于实现所述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

所述的功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光碟存储、磁碟存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他切实介质。如在此使用的，碟(disk)和盘(disc)包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软碟和蓝光盘，其中碟通常磁地再现数据，而盘利用激光光学地再现数据。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储(和/或编码)在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此所述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其他远程源传输软件。

此外，用于进行在此所述的方法和技术的模块和/或其他适当的手段可以在适当时由用户终端和/或基站下载和/或其他方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此所述的方法的手段的传送。或者，在此所述的各种方法可以经由存储部件(例如RAM、ROM、诸如CD或软碟等的物理存储介质)提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此所述的方法和技术提供给设备的任何其他适当的技术。

其他例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上所述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种立体视频的立体匹配方法，包括：

对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；

对第一帧分割块和第二帧分割块进行帧间匹配；

至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值，其中，所述至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值的步骤包括：针对所述第一帧图像和所述第二帧图像，构建两层的图模型，其中，第一帧图像是第一层，第二帧图像是第二层，分割块是图的节点，第一帧图像内的连接两个节点的边是内边，连接第一帧图像和第二帧图像之间的节点的边是外边；至少部分地根据第一帧分割块之间的相似度以及帧间匹配的第一帧分割块与第二帧分割块之间的相似度来计算所述图模型中的内边和外边的权值；在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值。

2.根据权利要求1所述的方法，其中，帧间匹配的所述第一帧分割块和第二帧分割块之间的相似度通过帧间匹配的所述第一帧分割块和第二帧分割块的像素数量、对齐重叠的像素数量、和在视觉特征上的相似度以及重心的距离中的一种或多种来确定。

3.根据权利要求1所述的方法，其中，所述第一帧分割块之间的相似度通过各第一帧分割块在视觉特征上的相似度来确定。

4.根据权利要求1所述的方法，其中，在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值的步骤包括：

基于图模型的外边，计算时间域一致性，所述时间域一致性表示帧间匹配的第一帧分割块和第二帧分割块的视差值相似的程度；

基于图模型的内边，计算空间域一致性，所述空间域一致性表示第二帧图像中相邻的第二帧分割块之间的视差值相似的程度；

计算表示第二帧图像和要与第二帧图像进行立体匹配的第二相对帧图像之间的立体匹配代价的似然值；

确定时间域一致性、空间域一致性和似然值的线性加权值，并进行线性加权得到总和；

求使得所述总和达到最大值的视差值作为第二帧图像的视差值。

5.根据权利要求1所述的方法，其中，对第一帧分割块和第二帧分割块进行帧间匹配的步骤包括：

第一次帧间匹配步骤，针对每一个第一帧分割块，在第二帧图像中找到一个帧间匹配的第二帧分割块，使得第一帧分割块和所找到的第二帧分割块之间的相似度最大；

第二次帧间匹配步骤，针对每一个第二帧分割块，在第一帧图像中找到一个帧间匹配的第一帧分割块，使得第二帧分割块和所找到的第一帧分割块之间的相似度最大；

如果一个第一帧分割块和一个第二帧分割块在所述第一次和第二次帧间匹配步骤中都是帧间匹配的，则确定所述第一帧分割块和所述第二帧分割块是帧间匹配的。

6.根据权利要求1所述的方法，还包括获得第一帧图像的视差值，

其中，所述获得第一帧图像的视差值包括：

计算第一帧分割块和要与第一帧图像进行立体匹配的第一相对帧图像的分割块之间的立体匹配代价；

预估第一帧分割块的视差值和对应的可靠度，其中，所述可靠度表示该分割块的预估的视差值的正确的概率；

根据两个第一帧分割块之间的视觉特征的差异度和距离和该两个第一帧分割块对应的可靠度来计算该两个第一帧分割块之间的有方向的传播能量系数；

基于所述有方向的传播能量系数来实施置信传播算法以获得第一帧分割块的更新的视差值。

7.根据权利要求1-6中的任一项所述的方法，其中，所述第一帧分割块和第二帧分割块包括超像素块和像素点中的至少一种。

8.一种立体视频的立体匹配系统，包括：

拍摄装置，被配置为拍摄第一帧图像和要与第一帧图像进行立体匹配的第一相对帧图像、以及第二帧图像要与第二帧图像进行立体匹配的第二相对帧图像；

控制器，被配置为接收所述拍摄装置发送的第一帧图像和要与第一帧图像进行立体匹配的第一相对帧图像、以及第二帧图像要与第二帧图像进行立体匹配的第二相对帧图像；并对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；对第一帧分割块和第二帧分割块进行帧间匹配；至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度来基于第一帧图像的视差值来获得第二帧图像的视差值，其中，所述至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度来基于第一帧图像的视差值来获得第二帧图像的视差值的步骤包括：针对所述第一帧图像和所述第二帧图像，构建两层的图模型，其中，第一帧图像是第一层，第二帧图像是第二层，分割块是图的节点，第一帧图像内的连接两个节点的边是内边，连接第一帧图像和第二帧图像之间的节点的边是外边；至少部分地根据第一帧分割块之间的相似度以及帧间匹配的第一帧分割块与第二帧分割块之间的相似度来计算所述图模型中的内边和外边的权值；在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值。

9.一种立体视频的立体匹配控制器，包括：

图像分割装置，被配置为对立体视频中的第一帧图像和第二帧图像分别进行图像分割以生成第一帧分割块和第二帧分割块，所述第一帧图像在时间上先于第二帧图像；

帧间匹配装置，被配置为对第一帧分割块和第二帧分割块进行帧间匹配；

立体匹配装置，被配置为至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值，其中，所述至少部分地根据帧间匹配的第一帧分割块和第二帧分割块之间的相似度以基于所述第一帧图像的视差值来获得所述第二帧图像的视差值的步骤包括：针对所述第一帧图像和所述第二帧图像，构建两层的图模型，其中，第一帧图像是第一层，第二帧图像是第二层，分割块是图的节点，第一帧图像内的连接两个节点的边是内边，连接第一帧图像和第二帧图像之间的节点的边是外边；至少部分地根据第一帧分割块之间的相似度以及帧间匹配的第一帧分割块与第二帧分割块之间的相似度来计算所述图模型中的内边和外边的权值；在图模型上，通过概率估算来基于第一帧图像的视差值来获得第二帧图像的视差值。