CN1864406A

CN1864406A - 用于多视图视频编码的基于语义的运动估计

Info

Publication number: CN1864406A
Application number: CNA2004800287735A
Authority: CN
Inventors: S·维杜拉; R·普里; A·J·塔巴塔拜
Original assignee: Sony Electronics Inc
Current assignee: Sony Electronics Inc
Priority date: 2003-08-07
Filing date: 2004-08-02
Publication date: 2006-11-15
Anticipated expiration: 2024-08-02
Also published as: KR20060055534A; JP2007502053A; US20050031035A1; CN1864406B; US7778328B2; EP1661384A2; EP1661384A4; WO2005018217A3; EP1661384B1; WO2005018217A2

Abstract

描述用于多视图序列视频编码的运动估计方法和设备。在一个实施例中，运动估计方法包括：标识多视图视频序列第一帧中的一个或多个像素，以及基于有效编码和语义精确度之间期望相关性的指示，限制与多视图视频序列第二帧相关联的搜索范围。语义精确度取决于捕获多视图视频序列的摄像机的几何构型的使用。该方法还包括在限制的搜索范围内搜索第二帧以匹配在第一帧中标识的像素。

Description

用于多视图视频编码的基于语义的运动估计

相关申请

本申请要求2003年8月7日提交的美国临时申请No.60/493,883的优先权，其全部内容通过引用结合于本文中。

技术领域

本发明一般涉及视频编码。更具体地说，本发明涉及执行用于多视图视频编码的运动估计。

版权通知/许可

背景技术

已经证明运动估计和补偿是减少视频序列总比特率的有效方法。运动估计是用于估计帧之间图像采样(例如像素)运动的过程。使用运动估计，编码器试图将一个帧中的像素块与另一个帧中相应的像素相匹配。在给定搜索区域中发现最相似块之后，相应像素位置的变化接近于并表示为运动数据，诸如运动向量。运动补偿是用于确定预测图像并计算预测图像和原始图像之间误差的过程。使用运动补偿，编码器将运动数据应用到图像，并计算预测图像。预测图像和输入图像之间的不同称为误差信号。

常规运动估计和补偿方法已经由各种编码器(例如MPEG-x编码器、H.26x编码器等)所使用，实现单个视图视频序列的有效交叉时间压缩。不过，虽然从压缩的角度看这些方法产生的匹配可能是有效的，但是因为它们不需要表示视频序列中底层的“真实”运动，所以它们通常在语义上不正确。

发明内容

描述了用于多视图序列视频编码的运动估计方法和设备。示例性运动估计方法包括：标识多视图视频序列第一帧中的一个或多个像素，以及基于有效编码和语义精确度之间期望相关性的指示，限制与多视图视频序列第二帧相关联的搜索范围。语义精确度取决于捕获多视图视频序列的摄像机几何构型(configuration)的使用。该方法还包括在限制的搜索范围内搜索第二图像，以匹配在第一帧中标识的像素。

附图说明

从下面给出的详细描述和本发明各种实施例的附图中，将更全面地理解本发明，不过，这些实施例不应用于将本发明限制在具体实施例上，而只是用于解释和理解。

图1是编码系统一个实施例的框图。

图2是用于对多视图视频序列执行运动估计的过程的一个实施例的流程图。

图3是使用播种方法定义运动估计的搜索范围的过程的一个实施例的流程图。

图4举例说明多视图视频序列的两个示例帧。

图5举例说明对多视图视频序列尝试用不同运动估计方法所获得的比特率的比较。

图6是适用于实践本发明实施例的计算机环境的框图。

具体实施方式

在本发明实施例的下列详细描述中，附图中相同标号指示相同元件，并通过举例说明的方式，示出可实践本发明的具体实施例。这些实施例描述得相当详细，以使本领域专业技术人员能够实践本发明，并且要理解，可利用其他实施例，并可在不脱离本发明范围的情况下进行逻辑的、机械的、电子的、功能的和其他变化。因此，下列详细描述没有限制的意思，并且本发明的范围仅由所附权利要求书定义。

从本发明的操作概述开始，图1举例说明了编码系统100的一个实施例。编码系统100根据诸如MPEG-x和H-26x等视频编码标准执行多视图编码。编码系统100可用硬件、软件或二者的组合来实现。在软件实现中，可以在各种常规计算机可读介质上存储和分配编码系统100。在硬件实现中，可用数字逻辑(例如集成电路)实现编码系统100的模块。可在计算机外设中的专用数字逻辑装置中优化一些功能，以从主计算机上卸载处理负担。

编码系统100包括信号接收器102、运动估计器104、运动补偿器106、编码模块108、缓冲器110和帧重建器112。帧接收器102负责接收带有多视图视频序列的视频信号，并将多视图视频序列中所包含的各个帧转发到运动估计器104。

运动估计器104负责将多视图视频序列的当前帧与从以前帧重建的并存储在缓冲器110中的帧相比较，并估计当前帧相对于以前帧的运动。具体地说，运动估计器104搜索重建的以前帧，以匹配当前帧的每个像素(或像素块)，来计算每个像素或块的运动向量。所得到的运动向量传递到编码系统100的输出。

运动补偿器106负责读取运动向量和重建的以前帧，计算当前帧的预测图像，并从当前帧中减去预测图像，结果产生剩余帧。

编码模块108负责使剩余帧经历各种编码操作，以压缩信号，并将压缩信号传递到编码系统100的输出。编码操作的示例可包括，例如离散余弦变换(DCT)与自适应量化相结合、差分编码、游程长度编码(RLC)、可变长度编码(VLC)等。

帧重建器112负责将剩余帧加到预测图像上，以获得重建的当前帧，并在缓冲器110中存储重建的当前帧，以由运动估计器104和运动补偿器106的进一步使用。

在一个实施例中，运动估计器104包括块标识器114、搜索范围确定器116、搜索器118和运动向量计算器120。块标识器114负责从信号接收器102接收多视图视频序列的帧，将该当前帧分成块(或各个像素)，并将每个块(或像素)传递到搜索范围确定器116。

搜索范围确定器116负责在正在编码的多视图视频序列的以前帧内定义搜索范围，以为了匹配块执行搜索。搜索范围确定器116基于用于捕获多视图序列的摄像机几何构型来确定搜索范围。在用于确定搜索范围时，摄像机的几何构型定义多视图的几何限制，其能够使匹配的语义精确度更高，并有助于降低搜索的复杂性。

在一个实施例中，通过核面几何描述多视图几何限制。具体地说，根据核面几何，对于观看相同景物的一对视图来说，真实语义匹配沿核线(epipolar line)对应于第二视图中像素的第一视图中的任何像素。因此，搜索确定器116使用以前帧中核线的位置来确定相关块的搜索范围。更具体地说，搜索确定器116基于有效编码和匹配的语义精确度之间的期望相关性来确定如何相对于核线的位置限制搜索范围。也就是说，对于较高语义精确度，搜索确定器116将搜索范围限制为较接近核线。对于较高的编码有效性，搜索确定器116将搜索范围定义为覆盖核线周围的较大区域。在一个实施例中，有效编码和匹配的语义精确度之间的期望相关性由用户指定(例如，根据编码系统100所用于的应用的需要)，并且可在任一时间进行修改。

搜索器118负责在确定的搜索范围内为了匹配块搜索以前帧，并且运动向量计算器120负责计算该块的运动向量。

因此，编码系统100将多视图几何限制与基于块的匹配结合起来，以实现更好的匹配语义精确度。这里将该方法称为基于语义的运动估计。另外，编码系统100可以改变限制的硬度，以允许用户控制有效压缩和匹配的语义精确度之间的相关性。

图2和图3是根据本发明的各种实施例可由图1所示运动估计器104执行的运动估计过程的流程图。该过程可由可包括硬件(例如电路、专用逻辑等)、软件(诸如在通用计算机系统或专用机器上运行)、或二者的组合的处理逻辑来执行。对于软件实现的过程来说，流程图的描述能够使本领域专业技术人员开发这种包括在适当配置的计算机(计算机的处理器执行来自包括存储器的计算机可读介质的指令)上执行该过程的指令的程序。计算机可执行指令可用计算机编程语言来编写，或可用固件逻辑来实施。如果用遵循公认标准的编程语言编写，那么这种指令可以在各种硬件平台上执行，并用于到各种操作系统的接口。此外，本发明实施例的描述没有参考任何特定编程语言。要理解到，可用各种编程语言来实现本文所描述的发明。此外，在本领域中，通常说到以一种形式或另一种形式的软件(例如程序、过程、进程、应用、模块、逻辑等)用来采取行动或产生结果。这种表达只不过是说明软件是由使计算机处理器执行动作或产生结果的计算机来执行的简述方式。要理解到，在不脱离本发明范围的情况下，可将更多或更少的操作结合到图2和图3所说明的过程中，并且这里所示和描述的块排列并没有暗示特定顺序。

图2是用于对多视图视频序列执行运动估计的过程200的一个实施例的流程图。

参考图2，处理逻辑始于标识多视图视频序列第一帧中的一个或多个像素(处理块202)。第一帧是当前在处理的帧。一个或多个像素可以表示块或单个像素。

在处理块204中，处理逻辑访问多视图视频序列的第二帧，并计算第二帧中对应于第一帧上述像素的核线。第二帧是以前处理的帧(例如由运动估计器104重建并存储在缓冲器110中)。在一个实施例中，其中对第一帧的各个像素执行运动估计，核线对应相关像素。在另一个实施例中，其中对第一帧中的块执行运动估计，核线对应相关块中预定义位置的像素。在一个实施例中，利用基本矩阵(已知的F矩阵)计算核线，这是核面几何的代数表示。核线的计算可表示为：

l₁＝Fx₀其中l₁是对应第一图像中像素x₀的第二图像中的核线。

本领域专业技术人员要理解，在不缺少一般性原则的情况下，可以使用任何其他已知的方法计算核线。接下来，处理逻辑利用所计算的核线来定义搜索范围，以找到第二图像中的匹配像素。具体地说，在处理块206中，处理逻辑基于有效编码和匹配的语义精确度之间期望相关性的指示，来限制相对于核线的搜索范围。具体地说，期望相关性定义搜索范围到核线的接近度(例如，如果语义精确度的重要性超过有效编码的重要性，则处理逻辑将搜索范围限制为更接近核线，反之亦然)。在一个实施例中，有效编码和语义精确度之间期望相关性的指示由用户通过处理逻辑提供的用户界面来指定。在一个实施例中，原始种子用于进一步相对于核线上具体位置限制搜索范围，下面将进行更详细描述。在另一个实施例中，不使用种子。而是，调整(rectify)第一和第二帧以满足帧中任一像素的性质，在另一帧中的相应核线必须是水平的，并且扫描线与像素的位置对准。调整是计算单应性或两个帧中每个帧的2D投影扭曲(warp)并应用这些扭曲的过程。可使用各种算法来计算调整单应性，并由此扭曲这些帧。

在处理块208中，处理逻辑在处理块208确定的搜索范围内搜索第二帧，以匹配来自第一帧的一个或多个像素。

然后，在处理块210中，处理逻辑基于像素位置的变化计算运动向量。

图3是使用播种方法为运动估计定义搜索范围的过程300的一个

实施例的流程图。

参考图3，处理逻辑开始于从用户那接收有效编码和匹配的语义精确度之间期望相关性的指示(处理块302)。在一个实施例中，通过向用户传递允许用户指示这两个因子之间期望相关性的用户界面来接收指示。例如，用户界面可给出两个因子的累积权童或百分比(例如100％)，并允许用户在两个因子之间分配累积权重或百分比(例如，用户可将20％分配给有效编码因子而将80％分配给语义精确度因子)。备选地，用户界面可提供由用户激活的滑尺，以指定两个因子之间的期望相关性。

在处理块304中，处理逻辑为正编码的块找到核线上原始种子的位置。在一个实施例中，利用差异向量找到原始种子。通过立体算法对第一图像的每个像素计算差异向量，以在另一视图中找到语义上最精确的匹配，另一视图以相同快照及时但从不同角度捕获同一景物。当可得到这种差异向量时，相关差异向量用作原始种子。

在处理块306中，处理逻辑基于有效编码和匹配的语义精确度之间的期望相关性，确定原始种子和核线周围窗口的参数。在一个实施例中，辨别正编码的块的最佳匹配的度量可表示如下：

\overset{&RightArrow;}{mv} best = \underset{\underset{mv &Element; S_{dlsp}^{w}}{&RightArrow;}}{\arg \min} [SAD (\overset{&RightArrow;}{mv}) + λ_{x} . {mvbits}^{x} ({mv}_{d}^{x}) + λ_{y} . {mvbits}^{y} ({mv}_{d}^{y})]

其中mv^x _d、mv^y _d对应于从差异向量播种位置的运动向量位移，分别平行和垂直于核线。S^w _disp对应于由差异向量提供的种子位置周围搜索窗口(大小w×w)中所有候选预测值的集合。SAD表示要编码的块和由候选

指示的预测值块之间绝对差的逐像素总和。mvbits(mv_d)表示对差分运动向量(其是运动向量大小的增函数)进行编码所需的比特数。λ是对应于目标质量的适当拉格朗日乘子。

通过减小λ_x相对于λ_y的相对值，处理逻辑可以强制匹配更接近核线，确保更好的语义正确性。λ_y＝∞的情况对应于沿核线的搜索。该特殊情况涉及只使用多视图几何形状来获得核线，排除了获得差异向量的需要。

将差异向量用作运动搜索的种子使得种子周围的搜索窗口相当小，并使匹配具有好的压缩效率和语义精确度。另外，使用较小的搜索窗口使得搜索过程复杂度降低了。此外，因为好的语义匹配通常接近核线，因此搜索主要变成1-D(而不是标准运动估计中的2-D搜索)，由此进一步降低了搜索过程的复杂度。

图4举例说明多视图视频序列两个示例帧。对于帧402中正在编码的点来说，在以前帧404中找到差异种子。窗口406举例说明常规的运动估计，其中在差异种子周围定义的搜索范围不基于核线的位置限制。窗口408举例说明了结合核面几何限制以影响在差异种子周围并接近于核线定义的搜索范围的运动估计。窗口410举例说明了通过将搜索范围限定在沿核线而把高语义精确度作为目标的运动估计。

图5举例说明对多视图视频序列尝试不同运动估计方法所获得的比特率的比较。第一个柱形示出标准运动估计情况下的比特率，其中运动搜索将差异向量用作运动搜索的种子。该方法使用种子周围的小搜索窗口，并提供具有好压缩效率的匹配。其对应于当水平和垂直拉格朗日乘子的相对权重相似时的情况，产生最大压缩。

柱形2和柱形3示出的情况是极其偏向(bias towards)保持匹配接近于核线(较大的水平拉格朗日乘子)。这些使得语义精确度更好，因为匹配限制于更接近核限制，不过从而降低了压缩效率。

图6的下列描述打算提供计算机硬件和其他适于实现本发明的操作组件的概述，而不打算限定可适用的环境。图6举例说明适于用作编码系统100或只用作图1运动估计器104的计算机系统的一个实施例。

计算机系统640包括耦合到系统总线665的处理器650、存储器655和输入/输出性能660。存储器655配置为存储当由处理器650执行时完成这里所述方法的指令。输入/输出660也包括各种类型的计算机可读介质，包括可由处理器650访问的任何类型的存储装置。本领域专业技术人员会立即认识到，术语“计算机可读介质”还包括对数据信号进行编码的载波。还要注意的是，系统640由在存储器655中执行的操作系统软件控制。输入/输出和相关的介质660存储本发明操作系统和方法的计算机可执行指令。图1所示运动估计器104可以是耦合到处理器650的单独组件，或者可以用由处理器650执行的计算机可执行指令实施。在一个实施例中，计算机系统640可为ISP(因特网服务供应商)的一部分，或通过输入/输出660耦合到ISP以通过因特网传送或接收图像数据。非常明显的是，本发明不限于因特网访问和基于因特网Web的站点；也考虑直接耦合以及专用网络。

要理解到，计算机系统640是许多可能的具有不同体系结构的计算机系统的一个示例。典型的计算机系统通常至少会包括处理器、存储器和将存储器耦合到处理器的总线。本领域的专业技术人员将立即理解到，本发明可以用其他包括多处理器系统、小型计算机、大型计算机等计算机系统配置实践。本发明也可在分布式计算环境中实践，在这种环境中由通过通信网络链接的远程处理装置执行任务。

已经描述了选择最佳比例因子的各种方面。虽然这里已经举例说明和描述了具体实施例，但是本领域的那些专业技术人员将要理解到，实现相同目的而计算的任何配置可代替所示的具体实施例。该申请意欲含盖本发明的任何修改或变体。

Claims

1.一种运动估计方法，包括：

标识多视图视频序列第一帧中的一个或多个像素；

基于有效编码和语义精确度之间期望相关性的指示，限制与所述多视图视频序列第二帧相关联的搜索范围，所述语义精确度取决于捕获所述多视图视频序列的摄像机的几何构型的使用；以及

在限制的搜索范围内搜索第二帧，以匹配在第一帧中标识的所述一个或多个像素。

2.如权利要求1所述的方法，其中相对于对应于第一帧中所述一个或多个像素的核线的第二帧中的位置，限制所述搜索范围，相应核线的位置取决于所述摄像机的所述几何构型。

3.如权利要求1所述的方法，其中第一帧中的所述一个或多个像素表示块。

4.如权利要求2所述的方法，还包括：

计算第二帧中的所述核线。

5.如权利要求4所述的方法，其中利用基本矩阵计算所述核线。

6.如权利要求2所述的方法，其中限制所述搜索范围包括：

找到所述核线上原始种子的位置；以及

基于有效编码和语义精确度之间的所述期望相关性，确定覆盖所述原始种子和所述核线的窗口的参数。

7.如权利要求6所述的方法，其中利用差异向量找到所述原始种子的位置。

8.如权利要求1所述的方法，还包括：

接收来自用户的有效编码和语义精确度之间所述期望相关性的所述指示。

9.如权利要求8所述的方法，包括：

向用户传递便于用户输入有效编码和语义精确度之间所述期望相关性的用户界面。

10.如权利要求9所述的方法，其中所述用户界面提供滑尺，以使所述用户能够指定有效编码和语义精确度之间所述期望相关性。

11.如权利要求9所述的方法，其中所述用户界面允许所述用户在任何时候修改之前指定的有效编码和语义精确度之间的相关性。

12.一种计算机可读介质，其提供指令，当在处理器上执行所述指令时使所述处理器执行一种方法，所述方法包括：

标识多视图视频序列第一帧中的一个或多个像素；

基于有效编码和语义精确度之间期望相关性的指示，限制与所述多视图视频序列的第二帧相关联的搜索范围，所述语义精确度取决于捕获所述多视图视频序列的摄像机的几何构型的使用；以及

13.如权利要求12所述的计算机可读介质，其中相对于对应于第一帧中所述一个或多个像素的核线的第二帧中的位置，限制所述搜索范围，相应核线的位置取决于所述摄像机的所述几何构型。

14.如权利要求12所述的计算机可读介质，其中第一帧中的所述一个或多个像素表示块。

15.如权利要求13所述的计算机可读介质，其中所述方法还包括：

计算第二帧中的所述核线。

16.如权利要求15所述的计算机可读介质，其中利用基本矩阵计算所述核线。

17.如权利要求13所述的计算机可读介质，其中限制所述搜索范围包括：

找到所述核线上原始种子的位置；以及

18.如权利要求17所述的计算机可读介质，其中利用差异向量找到所述原始种子的位置。

19.如权利要求12所述的计算机可读介质，其中所述方法还包括：

20.一种计算机化系统，包括：

存储器；以及

耦合到所述存储器的至少一个处理器，所述至少一个处理器执行一组指令，所述指令使所述至少一个处理器：

标识多视图视频序列第一帧中的一个或多个像素；

21.如权利要求20所述的系统，其中相对于对应于第一帧中所述一个或多个像素的核线的第二帧中的位置，限制所述搜索范围，相应核线的位置取决于所述摄像机的所述几何构型。

22.如权利要求20所述的系统，其中第一帧中的所述一个或多个像素表示块。

23.如权利要求21所述的系统，其中所述处理器将通过找到所述核线上原始种子的位置来限制所述搜索范围，并基于有效编码和语义精确度之间的所述期望相关性，确定覆盖所述原始种子和所述核线的窗口的参数。

24.如权利要求23所述的系统，其中所述处理器将利用差异向量找到所述原始种子的位置。

25.如权利要求20所述的系统，其中所述处理器还将向用户传递便于用户输入有效编码和语义精确度之间所述期望相关性的用户界面。

26.一种运动估计设备，包括：

块标识器，标识多视图视频序列第一帧中的一个或多个像素；

搜索范围确定器，基于有效编码和语义精确度之间期望相关性的指示，限制与所述多视图视频序列第二帧相关联的搜索范围，所述语义精确度取决于捕获所述多视图视频序列的摄像机的几何构型的使用；以及

搜索器，在限制的搜索范围内搜索第二图像，以匹配在第一帧中标识的所述一个或多个像素。

27.如权利要求26所述的设备，其中相对于对应于第一帧中所述一个或多个像素的核线的第二帧中的位置，限制所述搜索范围，相应核线的位置取决于所述摄像机的所述几何构型。

28.如权利要求26所述的设备，其中第一帧中的所述一个或多个像素表示块。

29.如权利要求27所述的设备，其中所述搜索范围确定器还将计算第二帧中的所述核线。

30.如权利要求27所述的设备，其中所述搜索范围确定器还将通过如下方式限制所述搜索范围：找到所述核线上原始种子的位置，并基于有效编码和语义精确度之间的所述期望相关性，确定覆盖所述原始种子和所述核线的窗口的参数。

31.如权利要求26所述的设备，其中所述搜索范围确定器还将向用户传递便于用户输入有效编码和语义精确度之间所述期望相关性的用户界面。