CN101990103A

CN101990103A - 用于多视点视频编码的方法和装置

Info

Publication number: CN101990103A
Application number: CN 201010542866
Authority: CN
Inventors: 布礼文; 黄嘉文; 张国威; 吴家豪; 刘雨
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2010-11-10
Filing date: 2010-11-10
Publication date: 2011-03-23
Anticipated expiration: 2030-11-10
Also published as: CN101990103B

Abstract

本发明涉及用于多视点视频编码的方法和装置。特别地，本发明描述了视差补偿预测，以通过为近似除平移视差外的实际的视差效应提供的拉伸、压缩和剪切(SCSH)视差补偿来利用多视点视频编码中的视点间的相互关系。本发明提供了二次采样块匹配视差估计技术，以实现利用了用于传统混合视频编码结构中的子像素运动和视差估计的内插参考帧的SCSH视差补偿。

Description

用于多视点视频编码的方法和装置

技术领域

本发明总体上涉及数字视频编码，且更具体的涉及多视点视频编码(MVC)。

背景技术

三维(3D)图像和视频不仅提供了更多的信息，还能给观众更好的体验。在数字娱乐中，由3D视频提供的用户深度感知以及相关的现实感已成为越来越具有吸引力的特征。这引起了对3D技术方案的日益增加的需求，且带动了用于3D电影和3DTV的图像采集、视频压缩和视频显示技术的快速发展。

有两种流行的3D视频类型-立体视频和多视点视频。立体视频具有两个视点，通常是左和右，其模仿人类的立体视觉以提供深度感知。多视点视频具有两个或两个以上的视点，这些视点具有由用户选择或通过自动方式选择的视角。使用不同的视频显示技术的各种3D显示系统可用于播放3D视频的电影院和家庭娱乐市场。多视点视频编码是实现高效率的编码、存储和传输这样的视频数据的一项关键技术，如在以下文献中所描述：“Introduction to Multiview Video Coding”，ISO/IEC JTC 1/SC 29/WG11 Doc.N9580，2008年1月，安塔利亚，土耳其，在此通过引用的方式将其整体并入到本文中。

在MVC中，摄像机之间的相对位置通常是公知的。计算机视觉的方法可用于执行3D形状重建，以从其他视点预测一个视点的内容。该步骤包括边缘检测、深度估计、变换参数估计、3D渲染和其他相关操作。由于计算量巨大，以至于在视频编码应用中不能采用这些技术。即使一个视景中的三维信息是可用的，仍需要特定的3D加速计算机图形硬件来进行高质量的3D渲染，以实时的获取期望的视点。例如，以下文献报道了由具有30台个人电脑的集群构建的实时三维形状重建系统：T.Matsuyama，W.Xiaojun，T.Takai和T.Wada，“Real-time dynamic 3-D object shape reconstruction and high-fidelity texture mapping for 3-D video”，IEEE期刊，Circuit Syst.，Video Technol.，第14卷，第3期，第357-369页，2004年3月，在此通过引用的方式将其并入本文中。因此，用于手持设备的实时数字视频应用是不切实际的。

以下文献描述了MPEG-2：ITU-T和ISO/IEC_JTC-1，“Generic coding of moving pictures and associated audio information-Part 2：Video”，ITU-T Recommendation H.262-ISO/IEC 13818-2(MPEG-2)，1995年，在此通过引用的方式将其并入本文中。以下文献描述了H.264/AVC：T.Wiegand，G.J.Sullivan，G.

和A.Luthra，“Overview of the H.264/AVC video coding standard”，IEEE期刊，Circuit Syst.，Video Technol.，第13卷，第7期，第560-576页，2003年7月，在此通过引用的方式将其并入本文中。通过暂时地或空间地交叉两个视点，MPEG-2和H.264/AVC都可支持多达两个视点，但编码效率不是很好。为充分利用不同视点的相关性，开发了来自联合视频组(JVT)的H.264/AVC的MVC扩展。它扩充了H.264/AVC的现有框架，而不是使用计算机视觉(CV) 的范式。由于与运动补偿预测(MCP)相似，所以采用基于块的视差补偿预测(DCP)来进行视点间预测。有很多预测技术，例如，如以下文献描述的多参考帧(MRF)：T.Wiegand，X.Zhang和B.Girod，“Long-term memory motion compensated prediction”，IEEE期刊，Circuit Syst.，Video Technol.，第9卷，第2期，第70-84页，1999年2月，在此通过引用的方式将其并入本文中；如以下文献描述的可变块大小(VBS)：G.J.Sullivan和R.L.Baker在Proceedings of Global Telecommunications Conference上发表的“Rate-distortion optimized motion compensation for video compression using fixed or variable size blocks”，亚利桑那州凤凰城，美国，1991年，第85-90页，在此通过引用的方式将其并入本文中；如以下文献描述的子像素MCP：T.Wedi和H.G.Musmann，“Motion-and Aliasing-Compensated Prediction for Hybrid Video Coding”，IEEE期刊，Circuit Syst.，Video Technol.，第13卷，第7期，第577-586页，2003年7月，在此通过引用的方式将其并入本文中；如以下文献描述的分层预测结构：H.Schwarz，D.Marpe和T.Wiegand在IEEE Int.Conf.Multimedia and Expo(ICME 2006)上发表的“Analysis of hierarchical B pictures and MCTF”，多伦多，加拿大，2006年7月，在此通过引用的方式将其并入本文中。上述多种预测技术和快速运动估计算法已可用于MCP。视点之间的差别被认为是由于照相机从一个位置摇摄到另一个位置而引起的。通过残留编码对预测误差进行编码。MVC扩展的主要贡献是提供有效DCP的图片组(GOP)结构，如在以下文献中所描述：P.Merkle，A.Smolic，K.Muller和T.Wiegand，“Efficient Prediction Structures for Multiview Video Coding”，IEEE期刊，Circuit Syst.，Video Technol.，第17卷，第11期，第1461-1473页，2007年11月；以及M.Kitahara，H.Kimata，S.Shimizu，K.Kamikura，Y.Yashimata，K.Yamamoto，T.Yendo，T.Fujii和M.Tanimoto在IEEE Int.Conf.Multimedia and Exposition(ICME 2006)上发表的“Multi-view videocoding using view interpolation and reference picture selection”，多伦多，加拿大，2006年7月，在此通过引用的方式将上述文献并入本文中。率失真(RD)的改进与如以下文献中所描述的同时联播相类似：Y.J.Jeon，J.Lim和B.M.Jeon，“Report of MVC performance under stereo condition”，Doc.JVT-AE016，联合视频工作组，伦敦，英国，2009年6月，在此通过引用的方式将其并入本文中。以下文献也提出了在标准内的一些方法：T.Frajka和K.Zeger，“Residual image coding for stereo image compression”，0ptical Engineering，第42卷，第1期，第182-189页，2003年1月；J.Kim，Y.Kim，K.Sohn，“Stereoscopic video coding and disparity estimation for low bitrate applications based on MPEG-4 multiple auxiliary components”，Signal Processing：Image Communication，第23卷，第6期，第405-416页，2008年7月；以及X.M.Li，D.B.Zhao，X.Y.Ji，Q.Wang和W.Gao在Proc.IEEE Int.Conf.Image Process.(ICIP)发表的“A fast inter frame prediction algorithm for multiview video coding”，第3卷，2007年9月，第417-420页，在此通过引用的方式将上述文献并入本文中。为了视差估计，他们通常分析视点间的相关性，以使视差向量与实际视差相匹配。

传统的基于块的视点间预测方法的是纯粹的平移，并没有采用视点间的视差效应。如果可得到与视点间的形变效应相匹配的候选块，则应该改进预测准确度和编码效率。为了将一个视点变换到另一个视点，提出了在以下文献中所描述的基于网格的方法：R.S.Wang和Y.Wang，“Multiview Video Sequence Analysis，Compression，and Virtual Viewpoint Synthesis”，IEEE期刊，Circuit Syst.，Video Technol.，第10卷，第3期，第397-410页，2000年4月；以及S.R.Han，T.Yamasaki，K.Aizawa，“Time-Varying Mesh Compression Using an Extended Block Matching Algorithm”，IEEE期刊，Circuit Syst.，Video Technol.，第17卷，第11期，第1506-1518页，2007年11月，在此通过引用的方式将上述文献并入本文中。通过采用由视差效应形成的形变，提高了预测精度，但是运用网格的复杂度仍然很高。不生成网格，而通过提供具有各种形变的预测块或者帧来近似形变是可能的。在各种形变效应中，拉伸、压缩和剪切(SCSH)效应是视点之间最常见的形变，特别是当照相机处于横向或垂直位置时。这种方法在过去并不十分具有吸引力，因为它通常需要插值运算以获得变形的块或帧。最近，与以下文献所描述的二次采样块匹配技术展示了一种以低复杂度的方式对变焦运动补偿预测的好的近似：L.M.Po，K.M.Wong，K.W.Cheung和K.H.Ng，“Subsampled Block-Matching for Zoom Motion Compensated Prediction”，在IEEE期刊，Circuit Syst.，Video Technol.上发表，在此通过引用的方式将上述文献并入本文中。通过进一步归纳二次采样块匹配理念，可通过专门设计的二次采样网格获得各类变形。在这项工作中，为MVC的视点间预测提出了被二次采样块匹配的SCSH。

立体视觉

它是人类能够利用他的左眼和右眼来感知3D空间的方式之一。有许多方法来向左眼和右眼分别提供左图像和右图像。目前电影制作正普遍采用立体视觉，并且其在数字娱乐中的应用正变得越来越流行。

在立体视觉系统中，以彼此相隔几厘米的方式移动两个图像采集设备。由于从每个图像采集设备到对象的视角不同，所以左边的视点不同于右边的视点。3D重建取决于以下因素：匹配对应于左视点和右视点之间的视景中同一个对象的部分，以及估计对应点的深度。

图1显示了通常用于立体计算机视觉的简单的视差模型，其中，P 110是被观察的对象，C_L 120和C_R 123是投影的中心，t_c是眼睛之间的距离，f是常见的焦距。P_L 130和P_R 133是投影的位置。投影位置P_L 130的位移x_L与投影位置P_R 133的位移x_R之间的差值被称为视差。通过该视差可以估计深度Z。

为立体图像和视频压缩提供与变形相匹配的预测可以提高编码效率。如果不需要任意的视点渲染，则3D重建不是必要的。由于立体视觉具有照相机之间的固定关系，所以属性应对所有立体图像和视频有效。从图1所显示的视差模型来看，应遵守以下属性：

(i)对于远处的对象来说，视差较小。

(ii)如果深度不变，则视差不变。

(iii)视差与深度成反比。

从(i)和(ii)来看，平行于观察平面运动的远处的对象和平面对象(例如，视景中的平面)的左视点和右视点之间的差别应被完全地平移。传统的块匹配技术可以给出很好的预测。然而，第(iii)点意味着，依赖于到照相机的距离，不同视点间的同一3D对象将发生不同程度的变形。下面将讨论有关现有视频编码标准在处理立体和多视点内容中的限制的更多细节：

立体和多视点视频编码

用于最近可以在市场上买到的消费者立体数码照相机的立体图像和视频编码方法的效率不高。H.264/AVC具有支持任意照相机位置的大量视点的MVC扩展。MVC扩展具有两个新的特征--立体感强和多视点多。通过使用用来假定两个横向放置的照相机的两个视点来支持立体视频。尽管在开发阶段一些新的编码工具被提供给JVT，然而没有具体的新的编码工具被采用。MVC编码器和H.264/AVC编码器的主要区别在于编码结构。分层编码用来形成如图2和3所示的用于立体和多视点视频编码的高效的预测结构。

图2显示了立体视频编码的预测结构。实心箭头表示传统的帧间预测。双虚线箭头表示视点间预测。虚线箭头是可选的视点间预测。

图3显示了具有6个视点的多视点视频编码的预测结构。视点0 310是基本视点。视点2 320、4 360、5 340是P视点，视点1 350、3 330是B视点。

在立体的情况下，只在左视点中有I帧。在右视点中没有I帧。在MVC的情况下，通过双向预测可以预测B视点中的所有帧，这样可以进一步的降低比特率。视点间预测用于消除不同视点间的冗余。它可以通过重新排列编码顺序来实现，这样可以有效的参考来自不同视点的帧。

图4显示了实现图2所示的预测结构的预测顺序的例子。

基于块匹配的运动补偿预测

基于块匹配的运动补偿预测(MCP)是对现代视频编码方案的高效编码作出贡献的核心技术。在MCP中，帧被划分成非重叠的块。运动估计适用于基于先前编码帧中的数据为每个块找到预测。通过从当前块中减去预测可产生残留块。只对残留块和再现预测所需的数据(运动向量)进行编码。压缩性能很大程度上取决于预测精度。在H.264/AVC中，为提高预测精度而采用了一些MCP工具。子像素MCP能够使更准确的运动向量高达1/4像素精度。利用专门设计的维纳滤波器，可使得混叠效应很小，这样可显著的提高编码效率。图5显示了具有1/2像素运动向量精度的块匹配运动估计，以说明子像素MCP的基本思想。从内插帧可获得用来匹配的块。利用MRF技术，MCP不仅可以参考先前的解码帧，还可以参考来自更长一段时间的、解决了临时阻断的问题的帧。图6显示了具有MRF的临时阻断和MCP的例子。例如，对于当前帧640，要被匹配的高亮显示的块641和642不能在前一个时间段的参考帧630中进行最佳匹配。由于视景中的对象在不同的时间段移动和变化，所以可能会发生临时阻断。由于不同时间段的多参考帧的可用性，所以找到最佳匹配的可能性大大增加。

块匹配视差补偿预测

在立体和多视点视频编码中，帧利用不同的照相机拍摄位置来捕获在同一时刻的同一视景。视点之间的相互关系与具有运动视差效应的单一视点的视频序列非常相似。视点之间的区别取决于视差效应。如果可以像MCP 中的运动那样利用视差信息，则可显著提高不同视点的编码效率。H.264/AVC的MVC扩展使用与用于单一视点编码的编码工具相同的一组编码工具来处理视差补偿预测(DCP)。用于DCP中的是来自其他视点的参考帧，而不是来自同一视点的先前帧。实际上，编码比特流中没有额外的参数。参考帧参数表示视点间帧，运动向量参数保持视差向量。

基于块匹配的视差补偿预测的局限性

传统的视差补偿预测基于假定平移运动模型的块匹配，在平移运动模型中，块中所有像素的视差向量都相同。然而，视差模型是基于像素的，而不是基于块。每个像素都有不同的视差向量，这是因为帧中每个像素的深度可以有所不同。为了比较平移模型和像素视差模式的区别，图7和图8显示了两个立体图像对。在图7中，通过视差效应可以看到两个对象的深度信息，并且它们的2D形状完全相同。在这种情况下，对象内的深度信息丢失，并且视景变成平面对象的两个层次。在图8中，两个视点中对象的形状有很小的差别，并且对象内的深度保持不变。还考虑了图9所提供的现实世界中的例子。从图10可以看到，图9的一部分的放大版本，垂直的对象(例如，墙壁1010和1020)似乎是在视点之间被横向拉伸或压缩。从图11可以看出，横向的对象(例如，天花板1110和1120)似乎是在视点间被剪切。基于这种观察，结合基于块的方法和SCSH效用以提供基于像素的视差模型的效应是可能的。

尽管通过如图12所示的简单的基于帧的方法，可以直观的实现SCSH视差补偿预测，但是，生成这些SCSH帧的复杂度和对内存的要求使其不切实际。为了使当前帧1210与视点间参考帧1220匹配，对视点间参考帧 1220进行不同程度的压缩，并将其压缩成压缩帧1231，并对视点间参考帧1220进行不同程度的拉伸，并将其拉伸成拉伸帧1232。另外，还对视点间参考帧1220进行不同程度的左侧剪切，并将其剪切成左侧剪切帧1241，还对视点间参考帧1220进行不同程度的右侧剪切，并将其剪切成右侧剪切帧1242。压缩帧1231、拉伸帧1232、左侧剪切帧1241和右侧剪切帧1242，即所谓的“SCSH帧”，用于与当前帧1210相匹配以进行运动预测。例如，实心箭头指的是当前帧1210和这些SCSH帧的匹配。生成这些SCSH帧并使这些SCSH帧与当前帧1210相匹配需要大量的内存和计算。因此，需要有一个更加实际的方法，该方法可以实际的执行。

发明内容

本发明的第一方面是提供一种用于SCSH视差补偿预测的更实际的方法，其降低了对内存的要求，并具有较低的运算复杂度。

本发明的第二方面是模拟拉伸、压缩和剪切，以使块与用于视点间预测的内插参考帧的二次采样相匹配。通过模拟变形，例如，考虑到的拉伸、压缩和剪切，视差补偿预测可获得更准确的视差模型，其提高了多视点视频编码的压缩效率。换句话说，本发明增加了用于多视点视频编码的视差补偿预测的预测精度。

本发明的另一个方面是模拟视差效应，以使得在不使用高阶运动模型的情况下，也可以考虑到例如拉伸、压缩和剪切的变形，其中，高阶运动模型是为单一视点视频而开发的，例如仿射的、透视的、多项式的、弹性的。所有这些都需要参数估计，而参数估计太复杂以至于无法实用。尽管为了通过匹配视点之间的相应的点来采用视差效应，而提出了基于网格的方法，但是这也需要参数。因此，本发明通过避免这种类型的参数估计而降低了建立运动或视差模型的复杂度。

由于通过在子像素残差估计的内插帧上的块匹配步骤执行SCSH残差估计，所以不需要额外的内存。另外，可容易的将本发明配置于现有视频编码标准，例如，H.264/AVC及其MVC扩展，或可容易的将其采用到未来的视频编码标准，例如，H.265或HVC。

本发明接收代表多个多视点视频帧的视频信号，多视点视频帧的数量在1到N的范围内，其中，N是大于或等于2的整数；本发明从N个多视点视频帧中选择一个多视点视频帧作为参考视频帧；本发明以M比例将该参考视频帧内插成内插参考视频帧，以使得所述参考视频帧的像素数量增加M倍，这样所述参考视频帧的每个像素都生成M乘以M个子像素；本发明还通过采样内插参考视频帧生成二次采样参考块，以将变形引入到二次采样参考块中。

本发明进一步将每个多视点视频帧划分成多个块，每个块的大小为A乘以B，以使得一个或多个处理器以逐块的方式处理数据，而非逐帧的方式处理数据，其中，A和B分别是整数。

通过当采样内插参考视频帧时调整横向采样率，变形可具有横向效应。通过当采样内插参考视频帧时应用剪切因子，变形可具有剪切效应。当为了采样内插参考视频帧而将所述横向采样率选择为高于垂直采样率时，横向效应是压缩。可选的，当为了采样内插参考视频帧而将所述横向采样率选择为低于垂直采样率时，横向效应是拉伸。

本发明进一步提供了一个或多个附加参考帧，以使得在没有变形的情况下就可以内插和采样每个附加参考帧。本发明进一步为对应于变形的色度组件生成像素定位。此外，通过使用各种采样率，可将一个或多个缩放效应应用到所述二次采样参考块。本发明进一步在经过变形的内插和采样后的一个或多个参考帧和经过没有变形的内插和采样后的多个附加参考帧之间进行视差向量搜索。

如下面的实施方式所示出的，也公开了本发明的其他方面。

附图说明

下文将结合以下附图对这些和其他目标、方面以及该要求保护的发明的实施方式进行详细的描述。

图1显示了通常用于立体计算机视觉的简单的视差模型。

图2显示了立体视频编码的预测结构。

图3显示了具有6个视点的多视点视频编码的预测结构。

图4显示了实现图2所示的预测结构的预测顺序的例子。

图5显示了具有1/2像素运动向量精度的块匹配运动估计。

图6显示了临时阻断和具有MRF的MCP的例子。

图7显示了立体图像对，其中，在不同的视点中对象的形状保持不变。

图8显示了立体图像对，其中，在不同的视点中对象的形状不同。

图9显示了现实世界的立体图像对的例子。

图10显示了现实世界的立体图像对的例子，其为图9中的墙壁的放大。

图11显示了现实世界的立体图像对的例子，其为图9中的天花板的放大。

图12显示了用于SCSH视差补偿预测的基于简单帧的方法。

图13显示了从内插帧获得放大了4/3倍的块的例子。

图14显示了块匹配平移和缩放MCP(BTZMCP)的二次采样网格。

图15显示了在放大因子为4/3的参考帧上的块匹配。

图16显示了在压缩因子为3/4的参考帧上的块匹配。

图17显示了在拉伸因子为5/4的参考帧上的块匹配。

图18显示了在横向剪切因子为1的参考帧上的块匹配。

图19显示了在横向剪切因子为-1的参考帧上的块匹配。

图20a显示了在横向剪切因子为0.5的参考帧上的块匹配。

图20b显示了在横向剪切因子为1且压缩因子为3/4的参考帧上的块匹配。

图20c显示了在横向剪切因子为-1且拉伸因子为5/4的参考帧上的块匹配。

图21显示了根据一些实施方式的具有多视点视频编码能力的通用设备。

图22显示了本发明中的多视点视频编码的实施方式的流程图。

图23显示了举例说明如何将本发明用于示例性的编码器系统的示例性实施方式的框图。

图24显示了举例说明如何将本发明用于示例性的译码器系统的示例性实施方式的框图。

具体实施方式

用于运动补偿预测(MCP)的二次采样块匹配

尽管通过应用仿射变换或通过提供具有SCSH效应的参考帧可实现SCSH效应，然而如以上所讨论的，运算复杂度和对内存的要求非常高。二次采样块匹配用于有效地为缩放运动补偿预测提供缩放参考帧。它以各种二次采样率对已能进行子像素MCP的内插帧进行二次采样，以获得具有不同缩放效应的块。它不需要额外的操作来获得缩放块，也不需要用来存储缩放帧的额外的存储空间。鉴于缩放块的可用性，运动模型扩展到平移和缩放，以进行块匹配平移和缩放MCP(BTZMCP)。可将MCP概括为包括缩放参考帧的情况，其中，

是进行子像素MCP的先前解码帧

的内插形式。缩放因子a被确定为运动估计步骤中的附加参数，如：

(a, m, v_{i, n}) = \arg \min_{a, m, v} {BDM}_{B_{i, n}} (F_{n} (s), {\tilde{f}}_{m} (s / a - v)) - - - (1)

当a＞1时，

是放大参考帧。当a＜1时，

是缩小参考帧。在块匹配MCP中，因为每个块B_i，n可以有自己的缩放因子a，所以单个帧可由具有不同缩放因子的放大块和缩小块组成。因此，如等式(1)所描述的该BTZMCP可以更好的模拟现实世界的情况，其中，视景的不同区域或对象在成像平面上的投影可能表现出不同程度的缩放效应。图13显示了从内插帧获得放大了4/3倍的块1310的例子。

不同的二次抽样模式用于实现更多的变化。对于四分之一像素的MCP来说，可通过以下变换来获得BTZMCP的二次采样网格：

[\begin{matrix} x^{'} & y^{'} & 1 \end{matrix}] = [\begin{matrix} 4 & 0 & u \\ 0 & 4 & v \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}] - - - (2)

其中，(x，y)和(x′，y′)分别是当前块和参考块中的像素的对应坐标。(u，v)是内插帧中的平移运动向量。图14显示了二次采样网格1410，并且没有对该二次采样网格1410施加缩放效应。由二次采样网格给出的块被称为二次采样块，换句话说，二次采样块由二次采样网格选择的子像素形成。

为提供缩放候选块，将二次采样因子引入到变换矩阵中，这样BTZMCP的二次采样网格就变为：

[\begin{matrix} x^{'} & y^{'} & 1 \end{matrix}] = [\begin{matrix} s & 0 & u \\ 0 & s & v \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}] - - - (3)

其中，s＝(1，2，...，M)是与缩放级别相关的二次采样率，并且可能的缩放等级为4/S。当s＝3时，就可得到如图15所示的缩放块1510。基于以上变换，就可以定义用于SCSH的二次采样网格。

由二次采样块匹配的SCSH

针对视点间预测，特别是立体视频编码，提出了由二次采样块匹配的SCSH。与在BTZMCP中不同，在由二次抽样块匹配的SCSH中，行和列方向的二次采样率都相同，SCSH的二次采样网格不对称。拉伸和压缩(SC)与缩放不同，这样只改变了横向二次采样率。将SC的子采样网格定义为：

[\begin{matrix} x^{'} & y^{'} & 1 \end{matrix}] = [\begin{matrix} sc & 0 & u \\ 0 & 4 & v \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}] - - - (4)

其中，sc＝(1，2，...，M)。图16和图17分别举例说明了用于压缩和拉伸的二次采样网格。不用执行额外的内插就能实现压缩和拉伸。对于二次采样网格1610来说，横向采样率与垂直采样率不相同。横向采样率是对每3个子像素采样，而垂直采样率是对每4个子像素采样。这样就产生了比例为0.75x的横向比例。

此外，通过下面的变换矩阵也可实现剪切(SH)：

[\begin{matrix} x^{'} & y^{'} & 1 \end{matrix}] = [\begin{matrix} 4 & sh & u \\ 0 & 4 & v \\ 0 & 0 & 1 \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}] - - - (5)

其中，sh＝(-H，...，-1，0，1，...，H)是根据y坐标改变x坐标的剪切因子。剪切因子可以为负数或正数，这样就可以向左剪切或向右剪切。图18和19举例说明了剪切二次采样网格的例子。也可使用更精确的剪切因子，例如，h＝(-H/2，...，-1/2，0，1/2，....，H/2)，并且截去了少量位置。图20a举例说明了剪切因子为0.5的二次采样网格。

图20b举例说明了剪切因子为1且压缩因子为3/4的二次采样网格。图20c举例说明了剪切因子为-1且拉伸因子为5/4的二次采样网格。应用到二次采样网格的变形可为缩放、剪切、拉伸和压缩的各种组合。在这些示例性的实施方式中，变形是如图20b所示的拉伸和压缩的组合以及如图20c所示的剪切和拉伸的组合。

在一个实施方式中，变换应用于二次采样网格，而非参考帧。因此，如果生成的网格在编码器中被硬编码，则不包括变换和内插操作。所包括的总开销为：(i)表示SCSH参数的比特，其可与诸如BTZMCP的参考帧序号合并，以及(ii)表示宏块中的SCSH打开或者关闭的标记，其可与块模式序号合并。另外，如果照相机的位置是向上和向下，而不是向左和向右，则SCSH效应是横向的，而不是垂直的。

在一个实施方式中，将参考帧序号偏移15。如果想为SCSH帧预备12个候选帧，则参考帧16到27会致力于成为SCSH帧。为了确定使用哪个SCSH参数，从而采用哪个二次采样网格，使用下面的查找表：

表I-SCSH参数查找表

	0-15	16	17	18	19	20	21	22	23	24	25	26	27
														参考帧序号	0-15	0	0	0	0	0	0	0	0	0	0	0	0
横向二次采样率	4	3	5	2	6	4	4	4	4	3	3	5	5
														剪切因子	0	0	0	0	0	1	-1	2	-2	1	-1	1	-1

交替模间序号用来对SCSH效应的打开和关闭进行切换。例如，如果模间序号是1，则这表示没有SCSH的16x16模式，并且SCSH效应被关闭，此时按原始的H.264/AVC对视频帧进行编码。如果模间序号是16，则这表示具有SCSH的16x16模式，并且SCSH效应被打开，此时根据如表I所示的SCSH参数查找表对视频帧进行编码。为了表现SCSH效应，重新计算了用于色度组件的像素位置。对于比特流编码来说，为了进行比特流编码，参考帧序号和模式序号都被包括在内。

图21显示了根据一些实施方式的具有多视点视频编码能力的通用设备。通用设备2100具有一个或多个执行诸如控制和处理功能的处理器2110。通用设备2100进一步包括一个或多个存储单元2120，所述存储单元2120存储诸如一个或多个程序、指令和数据的信息。所述一个或多个处理器2110被配置为根据如在此所公开的本发明执行多视点视频编码。

图22显示了本发明中的多视点视频编码的实施方式的流程图。多视点视频设备在接收步骤2210期间接收视频信号，该视频信号是多视点视频。在多视点视频的各个时间段，有多个多视点视频帧是可用的，所述多个多视点视频帧代表在该时间段的同一视景的不同视点。例如，如果有通过N个视频照相机捕捉的N个视点，那么在每个时间段将有N个多视点视频帧。

多视点视频设备通过在选择步骤2220中选择一个或多个多视点视频帧作为参考帧来执行视差向量搜索。此外，这些多视点视频帧被划分成多个块，例如，16x16个块，从而以块匹配的方式在这些多视点视频帧间执行视差向量搜索。

通过在内插步骤2230中内插参考视频帧生成内插参考视频帧。依照M比例将参考视频帧中的像素内插成多个子像素。例如，如果比例为4，其也被称为四分之一像素的MCP，则像素将被内插成4x4个子像素。在采样步骤2240中，将内插参考视频帧采样成多个二次采样参考块。对这些二次采样参考块提供变形处理。由如上面所提到的变换执行变形的提供，这样就可以提供SCSH效应。

变形的横向效应表现为压缩或拉伸的形式，并且这通过在横向和垂直方向使用不同的采样率来实现。如果横向采样率高于垂直采样率，就会有一个沿横向方向的压缩。如果横向采样率低于垂直采样率，就会有一个沿横向方向的拉伸。对于剪切来说，应用了剪切因子，从而可以向左或向右剪切二次采样参考块。

多视点视频编码可以切换SCSH效应的打开和关闭，以使得二次采样参考块可能或不可能具有任何变形。通过改变采样率，多视点视频编码可向二次采样参考块提供不同的缩放效应。

对用于视点间预测的SCSH的分析

将通过多个实施方式介绍由二次采样块匹配的SCSH的视点间预测增益。首先，将会对SCSH的直接改进与传统的基于块的视点间预测方法进行比较。其次，为了显示SCSH效应在实际中的应用，还提供了在通用MVC 配置中的SCSH的改进。

实验配置

SCSH适用于只有P帧的大型块模式(16x16、16x8和8x16)。在实验中，将会使用在JVT中使用的、用于开发H.264MVC扩展的四个序列：ba11room，exit，vassar和rena。所述序列具有视频图形阵列(VGA)(640x480)的分辨率。每个序列都有很多视点，并且两个连续的序列作为立体对。将使用来自每个视点的前100帧。开启诸如VBS和率失真优化(RDO)的H.264/AVC的编码工具。将搜索窗口设置为±32，并在该搜索窗口内进行详尽的搜索。左视点用作基本视点，而右视点是由视点间预测或者帧间预测所预测的交替的视点。由于MVC的特殊编码结构，右视点中的P帧仅使用视点间预测，且B帧仅使用帧间预测。测试没有B帧的GOP结构和具有7个分层的B帧的GOP结构。使用的方法计算平均比特率降低和平均信噪比(PSNR)提高。

SCSH视点间预测的直接改进

为研究直接改进，GOP结构IIII用于基本视点，PPPP用于交替视点。因为P帧只使用视点间预测，所以可直接将SCSH的性能与传统的块匹配方法进行比较。表II显示了各个序列的交替视点的RD性能比较。从该表中可以看出，改进相当显著，平均比特率大约降低1.89-4.84％，且平均PSNR大约提高0.08-0.24dB。此外，在SCSH中，模式选择分布具有更多的帧间预测模式，而不是跳跃模式和帧内模式。如同在RDO中那样，模式选择是基于拉格朗日函数的。虽然平移只进行预测而不提供精确的预测，但是残余编码的成本可能甚至高于跳跃模式或帧内模式。表III显示了对量化参数(QP)为22和37的模式分布的比较。从中可以看出，在所有的情况下，对16x16、16x8和8x16模式的选择具有显著的增长。具有较大QP时，跳跃模式的减少就较多。具有较小QP时，帧内模式的减少就较多。由于SCSH只适用于这些帧间模式，所以SCSH通过提供更好的预测而阻止了大量的帧内和跳跃模式选择。

表II-JM17和SCSH之间的视点间预测的RD比较

表III-JM17和SCSH之间的模式分布比较

SCSH视点间预测的综合改进

从以上的分析可以看出，SCSH显著的改进了视点间预测。实际上，MVC使用如图2和图3所示的包括分层的B帧的预测结构。然而，视点间预测通常不会用作已经给出了非常好的预测的帧间预测和双向预测。由于SCSH只适用于P帧，所以对于B帧，改进将摊薄。在该部分，如图2所示的配置GOP结构，也就是说，将7个分层的B帧添加到I帧和P帧之间。表IV显示了包括交替视点中的所有帧的该交替视点的RD性能。尽管削弱了改进，但是仍然降低了0.72-2.25％的比特率，且提高了0.03-0.13dB的PSNR。

表IV-JM17和SCSH之间的综合RD性能比较

图23显示了举例说明如何将本发明用于范例的编码器系统的典型实施方式的框图。由运动估计模块2370在考虑了视差和平移运动的情况下处理输入多视点视频信号2310。运动估计模块2370进行包括视差和SCSH视差估计的平移运动估计。运动估计模块2370使用来自子像素运动估计的内插帧，以生成参考帧。运动估计模块2370使用来自缓冲器2135的多参考帧和视点间帧。将内插应用于缓冲器2335中存储的帧以生成内插帧。缓冲器2335中的这些多参考帧也作为输出视频信号，这是因为它们代表了来自视频中不同时间段的帧。在被存储到缓冲器2335之前，这些多参考帧和视点间帧由模块2320在诸如变换、按比例缩放和量化的步骤中进行处理，以获得诸如量化系数和变换系数的参数2315，且随后需要模块2330在诸如按比例缩放、逆变换或逆量化的步骤中再对这些帧进行处理，以及再由去块滤波器2360对这些帧进行去块处理。

由熵编码模块2380处理从运动估计模块2370获得的运动与视差数据2325和诸如量化系数的参数2315。帧内预测模块2350和运动与视差补偿模块2340分别用于进行帧内预测和帧间预测。该运动与视差补偿模块2340从运动估计模块2370接收运动与视差数据2325，并从缓冲器2335接收临时多参考帧。进行帧内预测和帧间预测后，可向模块2320和2330中的诸如按比例缩放、量化与逆量化、变换与逆变换的步骤提供输出。

图24显示了举例说明如何将本发明用于范例的译码器系统的典型实施方式的框图。在解码器端，由熵解码器2410对解码器所接收到的输入信号进行解码。该熵解码器2410通过识别解码信号的模式序号来确定是否将SCSH效应切换到打开或关闭。在由熵解码器2410处理后，解码信号再由逆量化和逆变换2420处理。为获得解码帧2470，使用解码帧2470作为参考帧2440进行动态补偿2430。SCSH参数与参考帧序号相关，所以可从参考帧序号中提取SCSH参数。在解码器中对SCSH参数的采样模式列表进行硬编码，该SCSH参数与编码器中的SCSH参数相同。从逆量化和逆变换2420生成的信号经过从运动补偿2430或帧内预测2450的输出的处理，来生成处理后的信号。运动补偿2430包括平移运动、缩放运动和视差。该处理后的信号由滤波器2460进行进一步的处理，且该处理后的信号用于帧内预测2450。由滤波器2460滤波后，可生成解码帧2470。

本发明的实施方式可以软件、硬件、应用逻辑或软件、硬件和应用逻辑的组合的形式实现。该软件、应用逻辑和/或硬件可驻留在集成电路芯片、模块或存储器中。如果需要，软件、硬件和/或应用逻辑的一部分可驻留在集成电路芯片上，软件、硬件和/或应用逻辑的一部分可驻留在模块上，以及软件、硬件和/或应用逻辑的一部分可驻留在存储器中。在一个示例性的实施方式中，应用逻辑、软件或指令集保持在各种传统的非暂时的计算机可读介质中的任意一个上。

可由一个或多个可编程处理器来实行本说明书中所描述的步骤和逻辑流程，所述处理器执行一个或多个计算机程序，以通过处理输入数据和生成输出来执行功能。也可由专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)实行该步骤和逻辑流程。

可由可编程处理器、计算机、片上系统或者它们的组合通过处理输入数据和生成输出来实现本说明书中所描述的装置或设备。装置或设备可包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。装置或设备除了包括硬件外，还可包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行环境(例如，虚拟机)或它们中的一个或多个的组合的代码。

本文中所使用的术语“处理器”广义上涉及响应并处理指令的逻辑电路。例如，适用于本发明的处理器包括通用和专用处理器，如微处理器以及任何种类的数字计算机的任何一个或多个处理器。一般来说，处理器将从一个或多个存储器设备(如只读存储器、随机存取存储器、非暂时性计算机可读介质或其组合)接收指令和数据。可选的，处理器可包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(被配置为实行上面所描述的功能的专用集成电路)。当处理器是计算机时，元件通常包括一个或多个用于运行或执行指令的微处理器，以及一个或多个用于存储指令和数据的存储设备。

可以存储用于如本说明书中所描述的本发明的步骤的数据和指令的计算机可读介质可为任何媒介，或能通过指令执行系统、装置或设备或者与所述指令执行系统、装置或设备连接来容纳、存储、通信、传播或传输使用的指令的设备，如计算机。计算机可读介质可包括计算机可读存储介质，该计算机可读存储介质可为任何能通过指令执行系统、装置或设备或者与所述指令执行系统、装置或设备连接来容纳、存储、通信、传播或传输使用的指令的媒介或设备，如计算机。计算机可读媒介可包括所有形式的非易失性存储器、媒介和存储器设备，例如，其包括半导体存储设备(例如， EPROM、EEPROM和闪存设备)、磁光盘(例如，内部硬盘或可移动硬盘)、磁光盘以及CD-ROM和DVD-ROM磁盘。

可以用包括编译或解释语言、陈述性或程序语言的任何编程语言来编写计算机程序(例如，也称为程序、软件、软件应用、脚本或代码)，并且它可以配置为任何形式，包括作为独立的程序或作为模块、组件、子程序、对象或其他适用于计算环境的单元。计算机程序可被配置为在一台计算机上执行，或者在位于同一地点或分布在多个地点且通过通信网络相互连接的多台计算机上执行。

可以在计算机系统中实现如在本说明书中所描述的实施方式和/或特征，该计算机系统包括诸如作为数据服务器的后端组件；或包括诸如应用服务器的中间件组件；或包括诸如具有图形用户界面或Web浏览器的客户端计算机的前端组件，其中用户可通过所述图形用户界面或Web浏览器与如本说明书中所描述的一个实施方式交互；或包括一个或多个这样的后端组件、中间件组件或前端组件的任意组合。该系统的组件能够以任何形式相互连接，或通过数字数据通讯介质(例如，通信网络)相互连接。通信网络的例子包括本地区域网络(“LAN”)和广域网(“WAN”)，例如，互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此之间相隔遥远，并通常通过通信网络交互。客户端和服务器依靠运行在各自的计算机上的和具有相互的客户端-服务器关系的计算机程序建立起关系。

整个说明书包括许多具体的实施细节。这些具体的实施细节不应解释为对本发明或可要求保护的范围的限制，而应作为对本发明的特定实施方式所特有的特征的描述。

在不同的实施方式的上下文中描述的某些功能也可被合并成单个实施方式，并作为单个实施方式来执行。相反，也可分别的在多个实施方式中或以任何合适的二次组合的方式执行在单个实施方式的上下文中描述的多个特征。此外，尽管将特征描述为出现在特定的组合中，并且甚至初始要求保护的技术方案也是如此，但是，来自如所描述的组合或要求保护的组合的一个或多个特征可以在某些情况下从组合中排除，并且，要求保护的组合可以进一步的进行二次组合或二次组合的变形。尽管在独立权利要求中阐明了本发明的各个方面，但是，本发明的其他方面包括来自实施方式和/或来自具有独立权利要求的特征的从属权利要求的特征的其他组合，并且不单是权利要求中所明确阐明的组合。

可以不同的顺序和/或彼此并行的执行本说明书中所描述的某些功能。此外，如果需要，一个或多个上述功能是可选的或者可以被合并。

上面的描述提供了本发明的示例性的实施方式，但是不应以限制的思维来理解。相反，在不偏离如在所附权利要求中所限定的本发明的范围的情况下，可以作出变化和修改。

可使用根据本发明的教导编程的通用或专用计算机或微处理器实现本发明。基于本公开的教导，软件领域的从业人员可很容易的编写出运行在通用或专用计算机或微处理器上的计算机指令或软件代码。

在一些实施方式中，本发明包括存储有计算机指令或软件代码的计算机存储介质，所述计算机指令或软件代码可用于对计算机或微处理器编程以执行本发明的任何步骤。存储介质可包括，但不限于，软盘、光盘、蓝光光盘、DVD、CD-ROM、磁光盘、ROM、RAM、闪存设备或者适用于存储指令、代码和/或数据的任何类型的媒介或设备。

所提供的本发明的上述描述是为了举例说明和描述的目的。详尽无遗的公开本发明或者将本发明限制到精确的范围并不是我们的意图。许多修改和变化对本领域的从业人员来说是显而易见的。

选中和描述实施方式是为了最好的解释本发明的原则及其实际应用，从而使其他本领域技术人员理解具有各种实施方式和适合于特定的预期用途的各种修改的本发明。我们想要通过下面的权利要求及其等价物来限定本发明的范围。

Claims

1.一种多视点视频编码设备，包括：

一个或多个处理器，其被配置为：

接收代表多个多视点视频帧的视频信号，多视点视频帧的数量在1到N的范围内，其中，N是大于或等于2的整数；

从N个所述多视点视频帧中选择一个多视点视频帧作为参考视频帧；

以M比例将该参考视频帧内插成内插参考视频帧，以使得所述参考视频帧的像素数量增加M倍，并且所述参考视频帧的每个像素都生成M乘以M个子像素；以及

通过采样所述内插参考视频帧生成二次采样参考块，以将变形引入到所述二次采样参考块中。

2.如权利要求1所述的多视点视频编码设备，其中，所述一个或多个处理器进一步被配置为：

将每个所述多视点视频帧划分成多个块，每个块的大小为A乘以B，以使得所述一个或多个处理器以逐块的方式处理数据，而非逐帧的方式处理数据，其中，A和B分别是整数。

3.如权利要求1所述的多视点视频编码设备，其中：

通过当采样所述内插参考视频帧时调整横向采样率，所述变形具有横向效应。

4.如权利要求1所述的多视点视频编码设备，其中：

通过当采样所述内插参考视频帧时应用剪切因子，所述变形具有剪切效应。

5.如权利要求1所述的多视点视频编码设备，其中，所述一个或多个处理器进一步被配置为：

提供一个或多个附加参考帧，以使得在没有变形的情况下就能内插和采样每个所述附加参考帧。

6.如权利要求1所述的多视点视频编码设备，其中，所述一个或多个处理器进一步被配置为：

为对应于变形的色度组件生成像素定位。

7.如权利要求1所述的多视点视频编码设备，其中：

通过使用各种采样率，将一个或多个缩放效应应用到所述二次采样参考块。

8.如权利要求1所述的多视点视频编码设备，其中，所述一个或多个处理器进一步被配置为：

在经过变形的内插和采样后的一个或多个参考帧和经过没有变形的内插和采样后的多个附加参考帧之间进行视差向量搜索。

9.如权利要求3所述的多视点视频编码设备，其中：

当为了采样所述内插参考视频帧而将所述横向采样率选择为高于垂直采样率时，所述横向效应是压缩。

10.如权利要求3所述的多视点视频编码设备，其中：

当为了采样所述内插参考视频帧而将所述横向采样率选择为低于垂直采样率时，所述横向效应是拉伸。

11.一种多视点视频编码方法，包括：

12.如权利要求11所述的多视点视频编码方法，进一步包括：

13.如权利要求11所述的多视点视频编码方法，其中：

14.如权利要求11所述的多视点视频编码方法，其中：

15.如权利要求11所述的多视点视频编码方法，进一步包括：

16.如权利要求11所述的多视点视频编码方法，进一步包括：

为对应于变形的色度组件生成像素定位。

17.如权利要求11所述的多视点视频编码方法，其中：

18.如权利要求11所述的多视点视频编码方法，进一步包括：

19.如权利要求13所述的多视点视频编码方法，其中：

20.如权利要求13所述的多视点视频编码方法，其中：