CN101243692B

CN101243692B - 对多视角视频进行编码的方法和设备

Info

Publication number: CN101243692B
Application number: CN200680030315.4A
Authority: CN
Inventors: 河泰铉; 俞弼皓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-08-22
Filing date: 2006-08-19
Publication date: 2010-05-26
Anticipated expiration: 2026-08-19
Also published as: EP1917814A1; WO2007024072A1; MX2008002391A; JP2009505604A; CN101243692A; EP1917814A4

Abstract

提供了一种使用最少量的关于多视角视频的信息来对多视角视频进行编码的方法和设备。所述方法包括：根据预定标准将多个B帧分类为至少两组；顺序地对分类的B帧进行编码。因此，可使用最少量的关于多视角视频的信息来向很多用户同时提供逼真的多视角视频。

Description

对多视角视频进行编码的方法和设备

技术领域

根据本发明的方法和设备涉及对多视角视频序列进行编码，更具体地讲，涉及使用最少量的关于多视角视频的信息对多视角相机拍摄的多视角视频进行编码。

背景技术

在实现高质量的信息和电信服务中，真实性是重要的因素。可使用基于三维(3D)图像的视频通信来获得真实性。3D成像系统在教育、娱乐、医疗手术、视频会议等具有很多潜在应用。为了向很多观察者提供远方场景的更生动和精确的信息，将三个或更多个相机放置在稍微不同的视点以产生多视角序列。

很多研究组已经开发了3D图像处理和显示系统反映了对3D图像的当前兴趣。在欧洲，通过若干项目(比如DISTIMA)已经开始了对3DTV的研究，目的在于开发一种用于捕获、编码、发送和显示数字立体图像序列的系统。这些项目已经产生另一项目PANORAMA，其目标在于增强在3D远程呈现通信中的可视信息。这些项目还产生另一项目ATTEST，其中，研究关于3D内容获取、3D压缩和传输以及3D显示系统的各种技术。在ATTEST项目中，应用运动图像专家组2(MPEG-2)和数字视频广播(DVB)标准以使用时间可伸缩性来发送3D内容。为了获得时间可伸缩性，基本层被用于传输2D内容，高级层被用于发送3D内容。

1996年修改了MPEG-2标准，以定义多视角类(multiview profile，MVP)。MVP以MPEG-2语法定义用于多相机序列和获取相机参数的时间可伸缩模式的使用。

表示多视角视频信号的基本层流可以以减小的帧率被编码，可被用于在帧间插入另外帧的增强层流可被定义为在两种流都可用时允许以全帧率再现。一种对增强层进行编码的非常有效的方式在于基于基本层帧或者最近重构的增强层帧来确定对增强层帧中的每一宏块执行运动补偿估计的最佳方法。

使用时间可伸缩性语法对这种多视角视频信号进行立体和多视角信道编码的处理很简单。为此，来自具体相机视角的帧(通常是左眼帧)被定义为基本层，来自其他相机视角的帧被定义为增强层。基本层表示同时的单视场序列。对于增强层，尽管在封闭的区域内不能进行视差补偿估计，但是仍旧可在相同信道内使用运动补偿估计来保持重构的图像的质量。由于MPEG-2MVP主要为立体序列定义，所以它不支持多视角序列，并且本质上难于扩展到多视角序列。

图1是传统的MPEG-2 MVP的编码器和解码器的框图。MPEG-2提供的可伸缩性被用于用图像处理装置同时对具有不同分辨率或格式的图像解码。在MPEG-2支持的可伸缩性中，时间可伸缩性被用于通过增加帧率来提高视觉质量。考虑到时间可伸缩性，MVP被应用到立体序列。

图1所示的编码器和解码器是利用时间可伸缩性的立体视频编码器和解码器。立体视频中的左图像被输入到基本视角编码器，右图像被输入到时间辅助视角编码器。

时间辅助视角编码器提供时间可伸缩性，并且是用于在基本层的图像之间交织图像的层间编码器。

当左图像被单独编码和解码时，可获得二维(2D)视频。当左图像和右图像被同时编码和解码时，可获得立体视频。为了传输或存储视频，需要系统复用器和系统解复用器以结合或者分离这两种图像的序列。

图2是使用MPEG-2 MVP的传统立体视频编码器和解码器的框图。

通过运动补偿和离散余弦变换(DCT)来对基本层的图像进行编码。以相反的处理来对编码的图像进行解码。时间辅助视角编码器用作基于基本层的解码的图像执行预测的时间层间编码器。

换句话说，可执行两次视差补偿的估计，或者各执行一次视差估计和运动补偿的估计。与基本层的编码器和解码器一样，时间辅助视角编码器包括视差和运动补偿的DCT编码器和解码器。

此外，因为运动估计/补偿编码处理需要运动估计器和补偿器，所以视差补偿的编码处理需要视差估计器和补偿器。除了基于块的运动/视差估计和补偿之外，编码处理还包括对估计的图像和原始图像之间的差执行DCT、对DCT系数执行量化并执行可变长度编码。另一方面，解码处理包括可变长度解码、逆量化和逆DCT。

因为对双向运动补偿的画面(B画面)执行双向运动估计，所以MPEG-2编码是非常有效的压缩方法。由于MPEG-2编码提供非常有效的时间可伸缩性，所以B画面可被用于对右图像序列进行编码。结果，可产生高度压缩的右序列。

图3示出基于视差的预测编码，其中，对双向运动估计使用两次视差估计。

使用不可伸缩的MPEG-2编码器来对左图像进行编码，基于解码的左图像使用MPEG-2时间辅助视角编码器来对右图像进行编码。

换句话说，使用两个参考图像(例如两个左图像)来预测右图像，并且右图像被编码成B画面。在这种情况下，两个参考图像中的一个是与右图像同时显示的等时的(isochronal)左图像，另一个是跟随着所述等时的左图像的左图像。

与运动估计/补偿一样，这两种预测具有三种预测模式：前向模式、后向模式和内插模式。前向模式表示基于等时的左图像的视差估计，后向模式表示基于紧跟着所述等时的左图像的左图像的视差估计。在这种情况下，使用两个左图像的视差矢量来预测右图像。只考虑视差矢量，这种估计方法被称作预测编码。因此，编码器为右图像的每一帧估计两个视差矢量，解码器使用这两个视差矢量根据左图像对右图像进行解码。

图4示出用于双向估计的使用视差矢量和运动矢量的预测编码。在图4所示的预测编码中，使用通过图3的双向估计获得的B画面。然而，在所述双向估计中各使用视差估计和运动估计一次。也就是说，使用利用等时的左图像的视差估计和利用了先前右图像的运动估计。

此外，和图3的基于视差的预测编码一样，双向估计也包括三种估计模式，即，前向模式、后向模式和内插模式。所述前向模式表示基于解码的右图像的运动估计，后向模式表示基于解码的左图像的视差估计。

如上所述，由于MPEG-2MVP没有考虑多视角视频编码器，所以不适合于对多视角视频编码。因此，需要用于同时向很多人提供立体和逼真的多视角视频的多视角视频编码器。

发明内容

本发明提供了一种有效地对逼真的多视角视频进行编码并同时向很多人提供编码的多视角视频的方法和设备。

本发明还提供一种使用如下所述的预测结构来对多视角视频进行编码的方法和设备，所述预测结构使用最少量的关于多视角视频的信息。

本发明提供了一种有效地对多视角视频进行编码以同时向很多人提供逼真的多视角视频的方法和设备。

本发明还提供一种使用如下所述的B帧预测结构来对多视角视频进行编码的方法和设备，所述B帧预测结构使用最少量的关于多视角视频的信息。

根据本发明的一方面，提供了一种对多视角视频进行编码的方法，所述方法包括：根据预定标准将多个B帧分类为至少两组；顺序地对分类的所述多个B帧进行编码。

所述预定标准可以是每个B帧所参考的帧的数量。作为选择，所述预定标准可以是每个B帧所参考的参考帧的数量和参考帧的位置。

所述B帧可被分类为参考两个水平相邻的帧、两个垂直相邻的帧或者一个水平相邻的帧和一个垂直相邻的帧预测的第一组B帧、参考两个水平相邻的帧和一个垂直相邻的帧或者一个水平相邻的帧和两个垂直相邻的帧预测的第二组B帧、和参考两个水平相邻的帧和两个垂直相邻的帧预测的第三组B帧，其中，所述一个或两个水平相邻的帧是从与参考B帧处在相同时间水平的多视角视频获得的一个或多个帧，所述一个或两个垂直相邻的帧是从与参考B帧处在相同视角位置的多视角视频获得的一个或多个帧。

对分类的多个B帧进行顺序编码的步骤可包括：顺序地对第一组B帧、第二组B帧和第三组B帧进行编码。

可基于包括B帧的视频编码结构来执行所述顺序编码，所述顺序编码的步骤还可包括：在根据多个视角水平布置的帧之间进行视差估计和在根据时间流逝垂直布置的帧之间执行运动估计，并且，所述视频编码结构可被水平和垂直扩展。

在所述包括B帧的视频编码结构中，具有n个视角的视频编码结构可通过去除第n-1列帧而被构造成具有n-1个视角的视频编码结构，其中n是奇数。

根据本发明的另一方面，提供了一种对多视角视频进行编码的设备，所述设备包括：预测单元，预测输入的多视角视频的视差矢量和运动矢量；视差和运动补偿单元，使用预测的视差矢量和运动矢量来补偿图像；残差图像编码单元，接收原始图像和通过视差和运动补偿单元产生的补偿的图像，从原始图像减去补偿的图像，并对从所述减法中获得的残差图像进行编码；熵编码单元，使用视差矢量、运动矢量和编码的残差图像来产生多视角视频的比特流；其中，所述预测单元根据预定标准将多个B帧分类为至少两组，并顺序地对分类的所述多个B帧进行预测。

根据本发明的另一方面，提供了一种记录有用于执行实现所述方法的程序的计算机可读记录介质。

附图说明

通过参照附图对本发明示例性实施例的详细描述，本发明的上述和其他特征和优点将会更清楚，其中：

图1是现有技术中运动图像专家组2(MPEG-2)多视角类(MVP)的编码器和解码器的框图；

图2是现有技术中使用MPEG-2 MVP的立体视频编码器和解码器的框图；

图3示出现有技术中对双向运动估计使用两次视差估计的基于视差的预测编码；

图4示出现有技术中对双向估计使用视差矢量和运动矢量的预测编码；

图5是根据本发明示例性实施例的对多视角视频进行编码的设备的框图；

图6示出根据本发明示例性实施例的多视角视频的单位编码结构；

图7A到图7F示出在根据本发明示例性实施例的多视角视频编码中使用的三种类型的B画面；

图8示出根据本发明示例性实施例的多视角视频的水平扩展的单位编码结构；

图9示出图8的多视角图像的预测顺序；

图10示出根据本发明示例性实施例的用于运动估计和视差估计的具有奇数视角的视频编码结构；

图11示出根据本发明示例性实施例的用于运动估计和视差估计的具有偶数视角的视频编码结构；

图12是示出根据本发明示例性实施例的对多视角视频进行编码的方法的流程图。

具体实施方式

现在将参考附图来更全面地描述本发明，本发明的示例在附图中示出。然而，可以以多种不同的形式来实现本发明，并且本发明并不限于这里阐述的示例性实施例，相反，提供这些示例性实施例以使得本公开更加彻底和完整，并完全向本领域的技术人员传达本发明的构思。

图5是根据本发明示例性实施例的对多视角视频进行编码的设备的框图。

参考图5，所述设备包括多视角图像缓冲器510、预测单元520、视差/运动补偿单元530、残差图像编码单元540和熵编码单元550。

所述设备可从多个相机系统或通过另一方法来接收多视角视频源。接收的多视角视频被存储在多视角图像缓冲器510中。所述多视角图像缓冲器510向预测单元520和残余图像编码单元540提供多视角视频。

预测单元520包括视差估计单元522和运动估计单元524。预测单元520对多视角视频执行运动估计和视差估计。预测单元520以由图6到图11示出的箭头所指示的方向估计视差矢量和运动矢量，并向视差/运动补偿单元530提供估计的视差矢量和运动矢量。

如在图6到图11所示的多视角视频编码结构中所示，预测单元520可通过有效地使用多视角视差矢量和运动矢量来设置用于执行运动估计和视差估计的方向，所述视差矢量和运动矢量在多视角视频源基于时间轴扩展时被产生。换句话说，MPEG-2编码结构可基于视角轴而被扩展以使用多视角视频的空间/时间相关性。

视差/运动补偿单元530使用由视差估计单元522和运动估计单元524估计的运动矢量和视差矢量来执行视差估计和运动估计。视差/运动补偿单元530使用估计的运动矢量和视差矢量来重构图像，并向残差图像编码单元540提供重构的图像。

为了提供更好的视觉质量和立体视觉，残差图像编码单元540对通过从多视角图像缓冲器510提供的原始图像减去视差/运动补偿单元530补偿和重构的图像而获得的残差图像进行编码，并向熵编码单元550提供编码的残差图像。

熵编码单元550接收来自预测单元520的估计的视差矢量和运动矢量以及来自残差图像编码单元540的编码的残差图像，并产生多视角视频源的比特流。

图6示出根据本发明示例性实施例的多视角视频的单位编码结构。图6所示的核心预测结构或单位预测结构是基于存在三个视角的假设。方框表示多视角视频中的图像帧。水平箭头表示根据相机的位置或视角的帧序列，垂直箭头表示根据时间的帧序列。I画面表示“帧内预测画面”，与MPEG-2/4或H264中的I帧相同。P和B画面分别表示“预测画面”和“双向预测画面”，与MPEG-2/4或H.264中的P帧和B帧相似。

在多视角视频编码中由运动估计和视差估计共同来估计P和B画面。在图6中，画面帧之间的箭头表示预测方向。水平箭头表示视差估计，垂直箭头表示运动估计。根据本发明示例性实施例，存在3种类型的B画面，现在将参考图7A到图7F来对此进行描述。

图7A到图7F示出在根据本发明示例性实施例的多视角视频编码中使用的三种类型的B画面。

根据本发明示例性实施例，存在3种类型的B画面：B、B1和B2画面。在图7中，B、B1和B2画面表示使用两种或更多垂直或水平相邻的帧预测的画面帧。

使用如图7A所示的两个水平相邻的帧、如图7B所示的两个垂直相邻的帧或者由图7C所示的一个水平相邻的帧和一个垂直相邻的帧来预测B画面。

使用如图7D所示的两个水平相邻的帧和一个垂直相邻的帧、如图7E所示的两个垂直相邻的帧和一个水平相邻的帧来预测B1画面。使用如图7F所示的四个水平或垂直相邻的帧来预测B2画面。

现在将参考图6来描述根据本发明示例性实施例的指示多视角视频的预测顺序的单位编码结构。参考图6，基本预测顺序依次是I、P、B、B1和B2画面。

首先，I帧601被帧内预测。通过参考I帧601来预测P帧603，通过参考I帧601来预测P帧610。

使用与B帧602水平相邻的I帧601和P帧603来预测B帧602。使用与B帧604和B帧607垂直相邻的I帧601和P帧610来预测B帧604和B帧607。使用与B帧612水平相邻的P帧610和与B帧612垂直相邻的P帧603来预测B帧612。

然后，预测B1帧。具体地讲，使用与B1帧606水平相邻的B帧604以及与B1帧606垂直相邻的P帧603和B帧612来预测B1帧606。使用与B1帧609水平相邻的B帧607以及与B1帧609垂直相邻的P帧603和B帧612来预测B1帧609。使用与B1帧611水平相邻的P帧610和B帧612以及与B1帧611垂直相邻的B帧602来预测B1帧611。

最后，预测B2帧。具体地讲，使用与B2帧605水平相邻的B帧604和B1帧606以及与B2帧605垂直相邻的B帧602和B1帧611来预测B2帧605。另外，使用与B2帧608水平相邻的B帧607和B1帧609以及与B2帧608垂直相邻的B帧602和B1帧611来预测B2帧608。

如上参考图6和图7A至图7F所述，根据本发明示例性实施例，不仅参考B帧还参考B1和B2帧来执行双向预测。由于可增加B类型的帧的数量，所以可使得对多视角图像进行编码所需的信息量最小化。因此，根据本发明示例性实施例，为了有效地对多视角图像进行编码，根据图7A到图7F所示的帧的类型来对B帧进行分组，并以如上所述的B帧-＞B1帧-＞B2帧的预测顺序来对B帧进行编码。

图8示出根据本发明示例性实施例的多视角视频的水平扩展的单位编码结构。图8示出具有5个视角的输入图像源的预测框结构。

图9示出了图8的多视角图像的预测顺序。在图9中，相同列的帧在相同的时间被预测。参考图9，首先I帧801被帧内预测。然后预测第二列的P帧803和P帧816，并预测第三列的B帧802、806、811、818和P帧805。接下来，预测B1帧817、808和813、以及B帧804和820。然后预测第五列的B2帧807和812、B1帧810、819和815。最后预测B2帧809和814。因此，根据本发明示例性实施例的预测顺序依次是I、P、B、B1、B2、P、B、B1和B2画面。

图10是示出根据本发明示例性实施例的用于运动估计和视差估计的具有奇数视角的视频编码结构。

图11是示出根据本发明示例性实施例的用于运动估计和视差估计的具有偶数视角的视频编码结构。

可通过在图10的五个视角的视频编码结构中去除第四列的预测帧来获得图11的视频编码结构。根据本发明示例性实施例的视频编码结构可被水平和垂直扩展。

因此，根据本发明示例性实施例，可通过去除第n-1列的预测帧来将n视角(n是奇数)视频编码结构重构为(n-1)视角视频编码结构。

图12是根据本发明示例性实施例的对多视角视频进行编码的方法的流程图。已经参考图6到图11描述了所述方法。具体地讲，以如下所述的方法对B帧进行编码。

根据预定标准，多个B帧被划分成至少两组(S1210)。所述预定标准可以是每个B帧所参考的帧的数量，或者可以是每个B帧所参考的帧的数量和参考帧的位置。

B帧可被分类为参考两个水平相邻的帧、两个垂直相邻的帧或者一个水平相邻的帧和一个垂直相邻的帧预测的第一组B帧、参考两个水平相邻的帧和一个垂直相邻的帧或者一个水平相邻的帧和两个垂直相邻的帧预测的第二组B帧、以及参考两个水平相邻的帧和两个垂直相邻的帧预测的第三组B帧。

对如上分组的B帧顺序地进行编码(S1220)。在这种情况下，可以按第一组、第二组和第三组的顺序对B帧进行编码。

如上所述，本发明提供了一种有效地对多视角视频进行编码以同时向很多用户提供逼真的多视角视频的方法和设备。

本发明还提供了一种使用利用最少量的关于多视角视频的信息的B帧预测结构来对多视角视频进行编码的方法和设备。

本发明还可实现为计算机可读记录介质上的计算机可读代码。所述计算机可读记录介质是能够存储稍后能由计算机系统读出的数据的任何数据存储装置。所述计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储装置和载波(比如通过互联网的数据传输)。

计算机可读记录介质还可分布在联网的计算机系统上，从而以分布式方式来存储和执行计算机可读代码。

尽管已经参照本发明示例性实施例具体显示和描述了本发明，但是本领域的普通技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可在形式和细节上对本发明进行各种改变。

Claims

1.一种对多视角视频进行编码的方法，所述方法包括：

根据预定标准将多个B帧分类为至少两组；

顺序地对分类的所述多个B帧进行编码，

其中，基于所述多个B帧中的每个B帧所参考的帧的数量和视角位置来对所述多个B帧进行分类，

其中，基于包括所述多个B帧的视频编码结构来顺序地进行编码，

其中，所述顺序地进行编码的步骤包括：在根据多个视角水平布置的帧之间进行视差估计和在根据时间流逝垂直布置的帧之间执行运动估计，

其中，水平布置的帧是从处于相同时间水平的多视角视频获得的帧，垂直布置的帧是从处于相同视角位置的多视角视频获得的帧。

2.如权利要求1所述的方法，其中，所述多个B帧被分类为参考两个水平相邻的帧、两个垂直相邻的帧或者一个水平相邻的帧和一个垂直相邻的帧预测的第一组B帧、参考两个水平相邻的帧和一个垂直相邻的帧或者一个水平相邻的帧和两个垂直相邻的帧预测的第二组B帧、以及参考两个水平相邻的帧和两个垂直相邻的帧预测的第三组B帧，

其中，所述一个或两个水平相邻的帧是从与第一组、第二组或第三组的B帧处在相同时间水平的多视角视频获得的一个或多个帧，所述一个或两个垂直相邻的帧是从与第一组、第二组或第三组的B帧处在相同视角位置的多视角视频获得的一个或多个帧。

3.如权利要求2所述的方法，其中，顺序地对分类的多个B帧进行编码的步骤包括：顺序地对第一组B帧、第二组B帧和第三组B帧进行编码。

4.如权利要求1所述的方法，

其中，视频编码结构在水平和垂直方向中的至少一个方向上是可扩展的。

5.如权利要求4所述的方法，其中，所述多个视角包括n个视角，其中，n是奇数。

6.如权利要求5所述的方法，其中，在第n-1视角获得的帧不被用于视差估计和运动估计。

7.如权利要求5所述的方法，其中，在所述视频编码结构中，在多个视角中除了第一视角之外的视角获得的帧不包括I帧，在第k视角获得的帧只包括B帧，其中，k是小于n的偶数。

8.一种对多视角视频进行编码的设备，所述设备包括：

预测单元，预测输入的多视角视频的视差矢量和运动矢量；

视差和运动补偿单元，使用视差矢量和运动矢量来补偿图像；

残差图像编码单元，接收输入的多视角视频和通过视差和运动补偿单元产生的补偿的图像，从原始图像减去补偿的图像，并对从所述减法中获得的残差图像进行编码；

熵编码单元，使用视差矢量、运动矢量和编码的残差图像来产生多视角视频的比特流；

其中，所述预测单元根据预定标准将多个B帧分类为至少两组，并顺序地对分类的所述多个B帧进行预测，

其中，基于包括所述多个B帧的视频编码结构来顺序地执行编码，

其中，所述顺序地执行编码的步骤包括：在根据多个视角水平布置的帧之间进行视差估计和在根据时间流逝垂直布置的帧之间执行运动估计，

9.如权利要求8所述的设备，其中，所述多个B帧被分类为参考两个水平相邻的帧、两个垂直相邻的帧或者一个水平相邻的帧和一个垂直相邻的帧预测的第一组B帧、参考两个水平相邻的帧和一个垂直相邻的帧或者一个水平相邻的帧和两个垂直相邻的帧预测的第二组B帧、以及参考两个水平相邻的帧和两个垂直相邻的帧预测的第三组B帧，

其中，所述一个或两个水平相邻的帧是以与第一组、第二组或第三组的B帧处在相同时间水平的多视角视频获得的一个或多个帧，所述一个或两个垂直相邻的帧是以与第一组、第二组或第三组的B帧处在相同视角位置的多视角视频获得的一个或多个帧。

10.如权利要求9所述的设备，其中，预测单元顺序地对第一组B帧、第二组B帧和第三组B帧进行预测。

11.如权利要求8所述的设备，

12.如权利要求11所述的设备，其中，所述多个视角包括n个视角，其中，n是奇数。

13.如权利要求12所述的设备，其中，在第n-1视角获得的帧不被用于视差估计和运动估计。

14.如权利要求12所述的设备，其中，在所述视频编码结构中，在多个视角中除了第一视角之外的视角获得的帧不包括I帧，在第k视角获得的帧只包括B帧，其中，k是小于n的偶数。