CN104937940A

CN104937940A - 保留视频编码中的舍入误差

Info

Publication number: CN104937940A
Application number: CN201380069498.0A
Authority: CN
Inventors: L.比沃拉斯基
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-11-01
Filing date: 2013-11-01
Publication date: 2015-09-23
Also published as: WO2014071096A1; US20140119446A1; EP2901701A1

Abstract

输入接收包括多个视频图像帧的视频信号，每个帧包括多个较高分辨率样本。投影生成器生成帧序列中的每帧的相应不同的投影，每个投影包括多个较低分辨率样本，其中不同投影的较低分辨率样本表示在视频图像平面中空间地重叠的、不同的但重叠的较高分辨率样本组。帧间预测编码是基于用于每个预测的运动向量，在所述帧的不同帧的投影之间进行的。运动向量从对应于较高分辨率样本的较高分辨率尺度被按比例缩小到对应于较低分辨率样本的较低分辨率尺度。确定由这种缩放所产生的舍入误差的指示，并将它发信号传送到接收端。

Description

保留视频编码中的舍入误差

背景技术

过去，被称为“超级分辨率”的技术已经在卫星成像中被用来将所捕获的图像的分辨率提升超过图像捕获元件的固有的分辨率。如果卫星（或它的某些部件）移动对应于像素的一小部分的量以便捕获空间上重叠的样本的话，这是可以实现的。在重叠的区域中，较高分辨率样本可以通过在该区域重叠的两个或更多个较低分辨率样本的数值之间进行外推（例如，通过取平均值）而生成。较高分辨率样本尺寸是重叠区域的尺寸，较高分辨率样本的数值是外推的数值。

在图1中示意性地图示这个想法。考虑具有从地面上的1kmx1km的区域捕获样本的单个正方形像素P的卫星的情形。如果卫星然后移动以使得由像素所捕获的区域在平行于像素P的边缘之一的方向上移位半公里，并且然后取得另一个样本，则卫星然后拥有覆盖宽度为0.5km的重叠区域P'的两个样本。随着这个过程进行并且在移位方向上以0.5km的间隔取得样本，并且还潜在地执行垂直于原始移位的、偏移半个像素的连续扫描，这有可能构建0.5kmx0.5km的分辨率的图像，而不是1kmx1km的分辨率的图像。将会意识到的是，给出这个示例是为了图示的目的--也有可能构建精细得多的分辨率，并且根据更复杂的运动模式来做到这一点。

最近，已经提出将超级分辨率的概念用于视频编码。它的一种潜在应用类似于上文所描述的情景--如果用户的摄像机在帧之间物理地移位对应于非整数数量的像素（例如，因为它是手持式摄像机）并且这个运动可被检测到（例如，通过使用运动估计算法或运动传感器），那么有可能通过在两帧的像素在其中部分重叠的像素样本之间进行外推而创建具有比摄像机的图像捕获元件的固有分辨率更高的分辨率的图像。

另一种潜在应用是故意地降低每帧的分辨率并且在帧之间引入人工移位（与由于摄像机的实际运动而造成的移位相反）。这使得每帧的比特率能够降低。参照图2，比如说，摄像机捕获某个较高分辨率的像素P'（可能是在初始量化阶段之后）。在每帧F中以该分辨率进行编码将带来某个比特率。在某个时间t处的第一帧F(t)中，编码器因此创建具有尺寸P的像素的帧的较低分辨率版本，并且以较低分辨率传输和编码这些像素。例如，在图2中，每个较低分辨率像素是通过对四个较高分辨率像素的数值进行平均而被创建的。在随后的帧F(t+1)中，编码器进行同样的工作，但是其中将光栅移位较低分辨率像素之一的一小部分，例如，在所示出的示例中，在水平方向和垂直方向上移位半个像素。在解码器处，然后可以再次通过在两帧的较低分辨率样本的重叠区域之间进行外推而重新创建较高分辨率像素尺寸P'。更复杂的移位模式也是可能的。例如，模式可以在第一帧的第一位置处开始，然后在第二帧中水平地将光栅移位半个像素（较低分辨率像素），然后在第三帧中在垂直方向上将光栅移位半个像素，然后在第四帧中在水平方向上返回半个像素，然后在垂直方向上返回，以从第一位置重复该循环。在这种情形下，对于将被重建的每个较高分辨率像素而言，在解码器处存在可用于在其之间进行外推的四个样本。

发明内容

本发明的实施例接收包括多个视频图像帧的输入视频信号，每帧包括多个较高分辨率样本。然后，对于所述帧的序列中的每帧，生成不同的、相应的“投影(projection)”。每个投影包括多个较低分辨率样本，其中不同投影的较低分辨率样本表示不同的、但重叠的较高分辨率样本组，其在视频图像平面中空间地重叠。视频信号被编码成一个或多个编码流，并通过网络传输到接收端。

编码包括基于对于每个预测的运动向量，在帧的不同帧的投影之间的帧间预测编码。这也包括将运动向量从对应于较高分辨率样本的较高分辨率尺度按比例缩小到对应于较低分辨率样本的较低分辨率尺度。此外，确定由所述缩放所产生的舍入误差的指示。把这个舍入误差的指示发信号传送到接收端。

本发明的其他实施例针对于对包括多个视频图像帧的视频信号进行解码。通过网络接收来自传输端的视频信号，所述视频信号包括视频图像的多个不同投影。每个投影包括多个较低分辨率样本，其中不同投影的较低分辨率样本表示在视频图像平面中空间地重叠的、不同的但重叠的部分。视频信号被解码，以便对投影进行解码。然后，生成以较高分辨率来表示视频图像的较高分辨率样本。对于因此生成的每个较高分辨率样本而言，这是通过根据来自不同投影的较低分辨率样本中的一些较低分辨率样本之间的重叠区域来形成较高分辨率样本而实现的。在根据投影生成较高分辨率样本后，该视频信号以较高的分辨率输出到屏幕。

解码包括基于从传输端接收的、针对每个预测的运动向量，在帧的不同帧的投影之间进行帧间预测。这还包括将在预测中使用的运动向量从对应于较低分辨率样本的较低分辨率尺度按比例放大到对应于较高分辨率样本的较高分辨率尺度。此外，从传输端接收舍入误差，并且当执行运动向量的所述按比例放大时并入（incorporate）这个舍入误差。

各种实施例可以在传输端、接收端系统处被体现，或作为计算机程序代码在传输侧或接收侧运行，或可作为方法被实践。计算机程序可以被体现在计算机可读介质上。计算机可读介质可以是存储介质。

附图说明

为了更好地理解各种实施例并且示出它们可以如何付诸实施，作为示例，参考以下附图，其中，

图1是超级分辨率方案的示意表示。

图2是超级分辨率方案的另一个示意表示。

图3是通信系统的示意框图。

图4是编码器的示意框图。

图5是解码器的示意框图。

图6是编码系统的示意表示。

图7是解码系统的示意表示。

图8是包括多个流的编码视频信号的示意表示。

图9是在两帧之间进行运动预测的示意图示。

图10是在帧序列上进行运动预测的示意图示。

图11是运动向量加上超级分辨率移位的示意表示，以及

图12是将被编码的视频信号的另一个示意表示。

具体实施方式

本发明的实施例提供一种在视频编码中使用的基于超级分辨率的压缩技术。在帧序列上，以视频信号表示的图像被划分成多个不同的较低分辨率的“投影”，根据所述投影，可以重建帧的较高分辨率版本。每个投影是帧中的某个相应不同帧的版本，但具有比原始帧更低的分辨率。每个不同投影的较低分辨率样本在视频图像的参考栅格内具有相对于彼此的不同的空间对齐，以使得不同投影的较低分辨率样本重叠但不是完全一致。例如，每个投影是基于定义较低分辨率样本的尺寸和形状的相同光栅栅格的，但在不同投影的每一个投影中，向光栅应用不同的偏移或“移位”，所述移位是在相对于光栅取向的水平和/或垂直方向上的较低分辨率样本尺寸的一小部分。不论移位步长是多少（例如，1/2或1/4 像素），每帧仅被细分成一个投影。

在图12中示意地图示一个示例。在该页的上部所图示的是将被编码的视频信号，其包括多个帧F，每个帧F表示在时间t, t+1, t+2, t+3…中的连续时刻处的视频图像(其中时间作为帧索引来度量，并且t是时间中的任意点)。

一个给定的帧F(t)包括由较高分辨率的光栅定义的多个较高分辨率样本S'，较高分辨率的光栅由图12中的虚线栅格线示出。光栅是栅格结构，当向帧应用该栅格结构时，它把帧划分成样本，每个样本由栅格的对应单元所定义。注意，样本并不一定意指与图像捕获元件的物理像素相同的尺寸的样本，也不一定意指将在其上输出视频的屏幕的物理像素尺寸。例如，可以以甚至更高的分辨率捕获样本，然后将所述样本进行量化降低，以产生样本S'。

帧序列F(t)、F(t+1)、F(t+2)、F(t+3) 中的每个帧然后被转换成相应不同的投影 (a) 到 (d)。投影中的每一个包括通过将较低分辨率的光栅应用到相应的帧而定义的较低分辨率样本S，如由覆盖在图12中的较高分辨率栅格上的实线所图示的。再次，光栅是栅格结构，当它被应用到帧时，它把所述帧划分成样本。每个较低分辨率样本S表示一组较高分辨率样本S'，并且其分组取决于较低分辨率光栅的栅格间隔和对齐，每个样本由栅格的对应单元定义。栅格可以是正方形或长方形栅格，并且较低分辨率样本在形状上可以是正方形或长方形（正如较高分辨率样本一样），但是这不一定必须是这种情形。在所示出的示例中，每个较低分辨率样本S覆盖四个较高分辨率样本S'的相应的2x2的正方形。另一个示例是16个较高分辨率样本的4x4的正方形。

每个较低分辨率样本S表示相应的一组较高分辨率样本S' （每个较低分辨率样本覆盖整数数量的较高分辨率样本）。较低分辨率样本S的数值可以通过组合较高分辨率样本的数值（例如通过取平均值，诸如平均数或加权平均数（但是不排除更复杂的关系））而被确定。可替换地，较低分辨率样本的数值可以通过取较高分辨率样本中的某个代表性样本的数值或将较高分辨率数值的代表性子集进行平均而被确定。

在第一投影 (a)中的较低分辨率样本的栅格具有在帧平面中相对于以被编码的信号表示的视频图像的下面的较高分辨率光栅的某种第一对齐。为了参考，这在此可被称为(0,0)的移位。由随后的帧F(t+1)、F(t+2)、F(t+3)的每个另外的投影(b)到(d)所形成的较低分辨率样本的栅格然后分别在帧平面中被移位相应不同的量。对于每个连续的投影，移位是在水平或垂直方向上的较低分辨率样本尺寸的一小部分。在所示出的示例中，在第二投影(b)中，较低分辨率的栅格向右移位半个（较低分辨率）样本，即，相对于参考位置（0,0）移位（+1/2,0）。在第三投影(c)中，较低分辨率的栅格向下移位另外半个样本，即，相对于第二移位再移位（0,+ 1/2）或相对于参考位置移位（+1/2,+ 1/2）。在第四投影中，较低分辨率的栅格向左移位另外半个样本，即，相对于第三投影移位（-1/2,0）或相对于参考位置移位（0,+1/2）。合在一起，这些移位组成移位模式。

在图12中，这是通过参考第一投影(a)的较低分辨率样本 S(m,n)而被图示的，其中m和n分别是较低的分辨率栅格在水平和垂直方向上的坐标索引（取第一投影(a)的栅格作为参考）。作为第二投影(b)的样本的、对应的、移位的较低分辨率样本然后被定位在其自身相应的栅格内的位置（m,n），这对应于相对于第一投影的位置(m+1/2,n)。作为第三投影(c)的样本的、另一个对应的、移位的较低分辨率样本被定位在第三投影的相应的栅格内的位置（m,n），这对应于相对于第一投影的栅格的位置(m+1/2,n+1/2)。作为第四投影(d)的样本的、又一个对应的、移位的较低分辨率样本被定位在其自身的位置（m,n），这对应于相对于第一投影的位置(m,n+1/2)。每个投影被形成在相应不同的帧中。

每个投影中的较低分辨率样本的数值通过组合由该较低分辨率样本所覆盖的较高分辨率样本的数值（即，通过组合该较高分辨率样本表示的相应一组较低分辨率样本的数值）而被取得。这是基于相应的组，针对每个投影的每个较低分辨率样本而完成的，从而在帧序列上生成图像的多个不同的减小分辨率的版本。

所述模式在多个帧序列上重复进行。每帧的投影被编码，并以编码视频信号发送到解码器，例如，通过诸如互联网之类的基于分组的网络而传输。可替换地，编码视频信号可被存储以供随后由解码器进行解码。

在解码器处，帧序列的不同投影然后可被用来根据较低分辨率样本的重叠区域重建较高分辨率样本尺寸。例如，在关于图12描述的实施例中，来自不同投影的任何一组的四个重叠样本定义唯一的交集。图12中的阴影区域S'对应于来自投影(a)、(b)、(c)和(d)的较低分辨率样本 S(m,n)的交集。对应于这个重叠或交集的较高分辨率样本的数值可以通过在考虑中的区域处重叠的较低分辨率样本的数值之间进行外推（例如，通过取平均值，诸如平均数或加权平均数）而被找到。其他的较高分辨率样本中的每一个都可以从较低分辨率样本的类似交集中找到。

在帧序列上，视频图像可被细分成完整的一组投影，例如，当移位是半个样本时，在一个四帧的序列上提供四个投影，并且在四分之一移位的情形下，在十六个帧上提供十六个投影。因此，总体上，将其所有投影包括在一起的帧仍然可以重新创建相同的分辨率，就好像没有应用超级分辨率技术一样，尽管这要花费更长的时间来构建该分辨率。

然而，视频图像被分解为分开的图形（description），它们可以被分开地或不同地操纵。对于将视频分成多个投影而言，可以存在许多潜在有利的用途，例如，如下所述。

● 每个投影可被分开地编码作为单独的流。投影中的至少一个投影或一些投影并且潜在地全部投影都被独立地编码，而不是相对于流中的任何其他一个流被编码，即，它们是可被独立解码的。

● 在这之后，为了增强鲁棒性，不同投影可以通过网络作为分开的相应流来被发送。因此，如果流中的一个或一些在传输中丢失或被故意地丢弃，则解码器至少仍然可以根据剩余的一个或多个流来重新创建视频的较低分辨率版本。

● 提供了用于通过省略或丢弃一个或多个投影而进行缩放的新的机会，即，新形式的分层编码。

● 每帧的编码信号中带来的比特数量减小。

还要注意，在实施例中，多个投影是通过预定的移位模式而创建的，不会通过网络将所述预定的移位模式从编码器发信号传送到解码器，并且所述预定的移位模式不被包括在编码比特流中。投影的顺序可以确定与移位模式相组合的移位位置。也就是，所述投影的每个投影都可以是所述帧的序列中的相应不同的帧，并且所述帧序列中的每帧的投影可以是不同投影的预定模式中的相应投影，其中所述模式在连续的所述帧的序列上重复。解码器然后被配置成基于在接收端处预存储的或预编程的预定模式（而不是基于从传输端接收的、任何流中的预定模式）来重新生成视频的较高分辨率版本。

然而，当被转换成较低分辨率投影的帧通过使用帧间预测编码（即，运动预测）而被编码时，在发信号传送运动向量时可能发生问题。为了编码较低分辨率投影，运动向量从较高分辨率尺度缩小到较低分辨率尺度。然而，可以假设在解码器处运动估计是由编码器在较高分辨率尺度上完成的，所以解码器将需要较高分辨率的运动向量来执行重建。当运动向量在编码器处从较高分辨率尺度缩小到较低分辨率尺度并且然后在解码器处被按比例放大回较高分辨率尺度时，这将会引入舍入误差。

在两帧之间的这种舍入误差是可容忍的，但当该误差经过成倍的帧而传播时，那么它可能变成一个问题。该问题将通过参照图9和10的示例所图示的、本发明的下面描述的实施例而被解决。

首先，参照图3的示意性框图，描述可以在其中采用各种实施例的示例通信系统。

通信系统包括第一传输端12和第二接收端22。例如，每个端12、22可包括以下的一项：移动电话或智能电话、平板电脑、膝上型计算机、台式计算机或其他家用电器（诸如电视机、机顶盒、立体声系统等）。第一和第二端12、22每个操作地耦合到通信网络32，并且第一传输端12由此被布置成传输将被第二接收端22接收的信号。当然，传输端12也可以能够接收来自接收端22的信号，并且反之亦然，但为了讨论的目的，传输在本文是从第一端12的角度描述的，而接收在本文是从第二端22的角度描述的。通信网络32可包括例如基于分组的网络（诸如广域网和/或局域网）和/或移动蜂窝网。

第一端12包括计算机可读介质14，诸如闪存或其他电子存储器、磁存储装置和/或光学存储装置。第一端12还包括具有一个或多个核的处理器或CPU形式的处理设备16；收发信机，诸如至少具有发射机18的有线或无线调制解调器；以及视频摄像机15，其可以或可以不被放置在与所述端12的其余部分相同的罩壳中。存储介质14、视频摄像机15和发射机18每个都操作地耦合到处理设备16，并且发射机18经由有线或无线链路操作地耦合到网络32。类似地，第二端22包括计算机可读存储介质24(诸如,电子、磁和/或光学存储装置)；以及具有一个或多个核的CPU形式的处理设备26。第二端包括诸如至少具有接收机28的有线或无线调制解调器之类的收发信机；以及屏幕25，其可以或可以不放置在与所述端22的其余部分相同的罩壳内。第二端的存储介质24、屏幕25和接收机28每个都操作地耦合到相应的处理设备26，并且接收机28经由有线或无线链路操作地耦合到网络32。

在第一端12上的存储介质14至少存储被布置成在处理设备16上执行的视频编码器。当编码器被执行时，其接收来自视频摄像机15的“原始的（raw）”(未编码的)输入视频信号，对所述视频信号进行编码以便把它压缩成较低比特率的流，并输出编码视频以用于经由发射机18和通信网络32传输到第二端22的接收机28。第二端22上的存储介质至少存储被布置在其自身的处理设备26上执行的视频解码器。当解码器被执行时，其接收来自接收机28的编码视频信号，并对其进行解码，以用于向屏幕25输出。可被使用来指代编码器和/或解码器的通用术语是编解码器。

图6给出了可被存储在传输端12和在传输端12上运行的编码系统的示意性框图。编码系统包括投影生成器60和编码器40，例如，它们被实现为软件模块（但是没有排除以下选项，即：在专用硬件电路中实现功能性的某些或者全部）。投影生成器具有输入，所述输入被布置成接收来自摄像机15的输入视频信号，其包括如图12的上部所图示的、将被编码一系列帧。编码器40具有输入，其操作地耦合到投影生成器60的输出；以及输出，其被布置成将视频信号的编码版本供应给发射机18以用于通过网络32进行传输。

图4给出编码器40的示意性框图。编码器40包括操作地耦合到来自投影生成器60的输入的前向变换模块42、操作地耦合到前向变换模块42的前向变换模块44、其每个都操作地耦合到前向量化模块44的帧内预测编码模块45和帧间预测（运动预测）编码模块46以及熵编码器48，其操作地耦合到帧内以及帧间预测编码模块45和46并且被布置成将所编码的输出供应给发射机18以用于通过网络32进行传输。

在操作中，投影生成器60将输入视频信号细分成多个投影，从而生成针对每个连续帧的相应投影，如以上参照图12讨论的。

每个投影可以被单独地传递到编码器40，并且被视作分开的流。对于编码，每个投影可被划分成多个块（每个块具有多个较低分辨率样本 S的尺寸）。

在给定的投影内，前向变换模块42把每个块从空间域表示变换成变换域表示（典型地，频域表示）以便把该块的样本转换成一组变换域的系数。这样的变换的示例包括傅立叶变换、离散余弦变换（DCT）和Karhunen-Loève变换（KLT），它们的细节对于本领域技术人员来说是熟悉的。每个块的变换系数然后被传递到前向量化模块44，在前向量化模块44中，这些系数被量化为离散的量化电平（该电平比初始地用来表示系数值的电平更粗）。已变换的、已量化的块然后通过预测编码阶段45或46进行编码，并且然后通过无损编码阶段（诸如熵编码器48）进行编码。

熵编码器48的作用在于它需要较少的比特来编码较小的、频发的数值，所以，之前的阶段的目的是用尽可能多的小的数值来表示视频信号。

量化器44的目的在于量化的数值将是更小的，因此，其只需要更少的比特来编码。变换的目的在于，在变换域中，存在趋向于量化为零或小的数值的更多数值，从而当通过随后的阶段被编码时将降低比特率。

编码器可被布置成以帧内预测编码模式或帧间预测编码模式（即，运动预测）进行编码。如果使用帧间预测，则帧间预测编码模块46相对于之前的帧F(t-1)的一部分而对来自某一帧F(t)的块的已变换的、已量化的系数进行编码。所述块被说成是根据之前的帧预测的。因此，编码器仅仅需要传输在块的预测版本和实际的块之间的差（在本领域被称为残差）以及运动向量。因为残差值趋向于是较小的，所以当它们被传递到熵编码器48时只需要较少的比特来编码。

之前的帧的一部分的位置由运动向量确定，运动向量由帧间预测模块46中的运动预测算法确定。

在实施例中，来自某一帧的某一投影的块是根据在之前的帧中具有不同移位的不同投影而预测的。例如，参照图12，来自帧F(t+1)、F(t+2)和/或F(t+3) 的投影(b)、(c)和/或(d)的块分别是根据帧F(t-1)中的投影(a)的一部分而预测的。因此，编码器只需要根据相对于基本投影的残差来对除一个以外的所有的投影进行编码。在不同投影之间进行预测的这样的情形下，表示帧之间的运动的运动向量可被加到表示不同投影之间的移位的向量上，以便得到正确的预测。这在图11中示意地图示。

可替换地，运动预测可以在来自不同帧的两个对应的投影之间，即，在投影的相应帧内具有相同移位的所述投影之间。例如，参照图12，来自帧F(t+4)的投影(a)的块可以根据帧F(t)的投影(a)预测，来自帧F(t+5)的投影(b)的块可以根据帧F(t)的投影(b)预测等等（在这个示例中，模式以每4个投影重复进行）。在这种情形下，所述移位在任何给定的预测中所使用的帧之间是相同的，而所以不需要进行图11上示出的那种添加。可使用这样的实施例的另一个原因在于，需要的是，在携带不同投影的流之间不存在依赖性，所以携带投影中的一个或多个投影的流可以被丢弃，而（一个或者多个）剩余的流仍然可以被独立地解码。

如果使用帧间预测，则替代地，已变换的、已量化的样本受到帧内预测模块45的处理。在这种情形下，来自当前的帧F(t)的块的已变换的、已量化的系数相对于在相同帧内的块（典型地，相邻的块）而被编码。编码器然后仅仅需要传输在块的预测版本与相邻的块之间的残差差值。再次，因为残差值趋向于是较小的，所以当它们被传递到熵编码器48时只需要较少的比特来编码。帧内预测模块45在同一帧中的同一投影的块之间进行预测。

预测可以有利地呈现用于减小残差大小的更多机会，因为来自不同预测的对应的配对样本将趋向于是类似的，并且因此导致小的残差。

一旦由帧内预测编码模块45或帧间预测编码模块46进行编码，不同投影的样本的块被传递到熵编码器48，在熵编码器48中，它们受到另外的无损编码阶段的处理。由熵编码器48输出的编码视频然后被传递到发射机18，该发射机18把编码视频33通过网络32（例如，基于分组的网络，诸如互联网）传输到接收端22的接收机28。

图7给出可被存储在接收端22并在接收端22上运行的解码系统的示意性框图。解码系统包括解码器50和超级分辨率模块70，例如，它们被实现为软件模块（但是没有排除以下选项，即：在专用硬件电路中实现功能性的某些或者全部）。解码器50具有被布置成接收来自接收机28的编码视频的输入，以及操作地耦合到超级分辨率模块70的输入的输出。超级分辨率模块70具有被布置成将解码视频供应到屏幕25的输出。

图5给出解码器50的示意性框图。解码器50包括熵解码器58、以及帧内预测解码模块55和帧间预测（运动预测）解码模块54、逆量化模块54和逆变换模块52。熵解码器58操作地耦合到来自接收机28的输入。帧内预测解码模块55和帧间预测解码模块56的每一个操作地耦合到熵解码器58。逆量化模块54操作地耦合到帧内和帧间预测解码模块55和56，并且逆变换模块52操作地耦合到逆量化模块54。逆变换模块被操作地耦合，以向超级分辨率模块70供应输出。

在操作中，每个投影可被单独地传递到解码器50，并被视作是分开的流。

熵解码器58按照熵编码技术对编码视频信号33的每个投影执行无损解码操作，并把所产生的输出传递到帧内预测解码模块55或帧间预测解码模块56中的一个，以用于进一步解码，这取决于在编码时使用的是帧内预测还是帧间预测（运动预测）。

如果使用的是帧间预测，则帧间预测模块56使用在编码信号中所接收的运动向量基于之前的帧的一部分在帧的投影之间预测来自某一帧的某个块。如果需要的话，可以加上运动向量和移位，如图11所示。然而，在实施例中，如果运动预测在具有相同投影的帧之间（例如，如果移位模式是四帧长度，在帧F(t)与F(t+4)之间等等），则并不需要加上运动向量和移位。

如果使用的是帧内预测，则帧内预测模块55根据在同一帧中的某个块来预测另一个块。

解码的投影然后被传递到逆量化模块54（其中量化电平被转换成去量化的（de-quantized）尺度）以及被传递到逆变换模块52（其中去量化的系数从变换域转换到空间域中的样本）。已去量化的、已逆变换的样本被供应到超级分辨率模块70。

超级分辨率模块70使用来自同一帧的不同投影的较低分辨率样本，以将其“粘合在一起”成为由被解码的信号所表示的视频图像的较高分辨率版本。正如所讨论的，这可以通过把来自序列中的不同帧的不同投影的较低分辨率样本进行重叠，并生成对应于重叠区域的较高分辨率样本而实现。较高分辨率样本的数值通过在重叠的较低分辨率样本的数值之间进行外推（例如，通过取平均值）而找到。例如，参见在图12中分别来自帧F(t)到F(t+3)的四个不同投影(a)到(d)的四个较低分辨率样本 S重叠的阴影区域。这允许在解码器侧重建较高分辨率样本 S'。

该过程将牵涉到带来某些降级。例如，参照图12，每个较低分辨率样本表示原始输入帧的四个较高分辨率样本，并且具有(0,0)、(0,+1/2)、(+1/2,+1/2)和(+1/2,0)的移位的四个投影在时间上散布在不同的连续帧上。在这种情形下，来自四个不同投影的四个较低分辨率样本的唯一组合在解码器处是可得到的，以用于重新创建每个较高分辨率样本，并且在解码器侧被重建的较高分辨率样本尺寸可以是与在编码器侧的原始输入帧的较高分辨率样本尺寸相同的。然而，用来实现这个分辨率的数据在时间上是散布的，以致于信息在时域中丢失。如果仅创建两个投影（例如，具有(0,0)和(+1/2,+1/2)的移位），则出现另一个示例。在这种情形下，信息也丢失。然而，在任一种情形下，丢失可被看作为感知上可容忍的。一般地，在解码器侧重建的较高分辨率样本不需要具有与在编码器侧的原始输入帧的较高分辨率样本一样大的尺寸。

这个过程对被解码的视频信号中所有的帧执行。如在图12中，在不同帧中提供不同投影，解码器在多个帧序列上重复该模式。已重建的、较高分辨率的帧输出以用于供应给屏幕25，以使得视频被显示给接收端22的用户。

在实施例中，不同投影可以以分开的分组流通过网络32从传输端12传输到接收端22。因此，每个投影以构成相应的流的分开的一组分组来传输，例如，相应的流由被包括在该流的分组中的针对每个流的分开的流标识符来区分。流中的至少一个流被独立地编码，即，通过使用自含的编码，而不是相对于携带其他投影的任何其他流来进行编码。在实施例中，流中的更多流或全部流可以按这种方式被编码。

图8给出将从在传输端12上运行的编码器传输到在接收端22上运行的解码器的编码视频信号33的示意图。编码视频信号33包括对于每个块的多个已编码的、已量化的样本。此外，编码视频信号被划分成分别携带不同的投影(a)、(b)、(c)、(d)的分开的流33a、33b、33c和33d。在一个示例应用中，编码视频信号可以作为诸如VoIP呼叫之类的实况播送的（实时）视频电话呼叫的一部分在传输端12与接收端22之间进行传输（VoIP呼叫也可以包括视频）。

在不同的流中进行传输的优点在于这些流中的一个或多个流可被丢弃，或这些流的分组被丢弃，而仍然有可能至少根据剩余投影之一来解码视频的较低分辨率版本，或潜在地根据剩余投影的子集来解码较高分辨率（但不是全分辨率）版本。流或分组可能是被故意丢弃的或者可能是在传输中丢失的。

投影可以因为各种原因在各种传输阶段中被丢弃。投影可以被传输端12丢弃。可以配置成响应于来自接收端22的以下反馈来丢弃投影，即：在接收端处没有足够的资源（例如，没有足够的处理周期或下行链路宽度）来操控视频的全分辨率版本或较高分辨率版本，或接收端的用户不一定需要全分辨率或较高分辨率；或响应于来自网络32的以下反馈来丢弃投影，即：在网络的一个或多个元件处没有足够的资源来操控视频的全分辨率或较高分辨率版本（例如，存在网络拥塞，以使得一个或多个路由器具有足够满的分组队列从而导致它抛弃分组或整个流，或中间服务器没有足够的处理资源或上行链路或下行链路带宽）。在传输端12没有足够的资源来以全分辨率或较高分辨率进行编码（例如，没有足够的处理周期或上行链路带宽）的场合，可能出现另一种丢弃的情形。可替换地或另外地，响应于来自接收端22的、没有足够的资源来操控全分辨率或较高分辨率或这样的分辨率在接收端22处是不一定需要的网络条件（例如，拥塞）或信息，携带不同投影的流中的一个或多个流可能被网络32的中间元件（诸如路由器或中间服务器）丢弃。

例如，比如说，信号在编码器侧被拆分成四个投影(a)到(d)，每个投影在分开的流中。如果接收端22接收全部四个流，则解码系统可以重新创建该帧的全分辨率版本。然而，如果一个或多个流被丢弃，例如携带投影(b)和(d)的流被丢弃，则解码系统仍然可以仅仅通过在来自剩余流的投影(a)和(c)的重叠样本之间进行外推而重建视频的较高分辨率（但不是全分辨率）版本。可替换地，如果仅剩余一个流，例如携带投影（a）的流，则其可以被单独用来仅仅显示帧的较低分辨率版本。因此，可以基于将视频信号拆分成不同投影而提供新形式的分层或者缩放编码。

在实施例中，编码器使用由编码器侧和解码器侧两者所采取的预定移位模式，而不必在它们之间通过网络发信号进行通知，例如，它们两者都被预编程为使用如以上关于图12描述的诸如(0,0)、(0,+1/2)、(+1/2,+1/2)和(+1/2,0)之类的模式。在这种情形下，不必在一个或者多个编码流中将移位模式发信号传送到解码器侧。这样做的优点在于，不必担心包含移位指示的分组或流可能丢失或被丢弃，否则这将会在解码器处导致该重建方案中的故障。然而，使用预定模式不是必要的，并且在替换实施例中，可将移位或移位模式的指示发信号传送到解码器侧。

按照如上文所举例说明的方案，基于超级分辨率的技术可以有利地被用来减小对于发信号传送编码视频所需要的每单位时间的比特数和/或用来提供新形式的分层编码。

然而，如之前所提到的，有个问题可能与这样的方案相关联，因为当使用基于运动预测的帧间预测编码时，舍入误差被引入到运动向量中。在图9和10中，作为示例，图示了这个问题。

图9示出正在被编码的块B。块B包括通过以下而形成的多个较低分辨率样本 S，即：组合相应组的较高分辨率样本 S'。为了图示的目的，在这个示例中，每个块B包括四个较低分辨率样本的相应2x2正方形，并且每个较低的分辨率根据较高分辨率样本 S'的相应2x2正方形形成。然而，可以使用更大的块尺寸（例如，4x4、8x8），并且较低分辨率样本的其他尺寸也是可能的（例如，4x4）。

块B根据另一帧（典型地，之前的帧）的一部分来预测。这个部分典型地与所述块具有相同的尺寸，但不限于与块结构的任何一个整个的块共处一个位置（即，一般可以偏移块的一小部分）。

在实施例中，帧间预测在投影序列内具有相同位置的帧投影之间执行。在图12的示例中，模式以每四帧重复进行，所以序列长度(n)是四帧的长度。在这种情形下，对于给定的投影或流的运动预测可以仅仅在每四帧之间，或在间隔四帧的整数倍的帧之间，或更一般地在帧F(t)与F(t+n)（或t+整数倍的n）之间。所以，在图12中，运动预测仅仅在下述帧之间执行：在被简化为具有与投影(a)对齐的投影的帧之间；在被简化为具有与投影(b)对齐的投影的帧之间；在被简化为具有与投影(c)对齐的投影的帧之间；在被简化为具有与投影(d)对齐的投影的帧之间。也就是，运动预测仅在序列的不同实例中的相同投影之间进行。所有的投影(a)可被看作为形成一组投影，所有的投影(b)形成另一组投影等等。

在实施例中，在分开的流中携带每组投影，每个流具有一组其自身自含的运动预测。所以，在图8和12的示例中，来自序列中的位置(a)的所有投影被编码成它们自身相应的流33a，来自序列中的位置(b)的所有投影被编码成分开的相应的流33b，来自序列中的位置(c)的所有投影被编码成另一个分开的相应的流33c，以及来自序列中的位置(d)的所有投影被编码成又一个分开的相应的流33d。这样，如果携带任何一个投影的流丢失（故意丢失或以其他方式丢失），则每个剩余的流仍然是可独立解码的，因为其不依赖于丢失的信息。

在编码器40处的运动预测模块46生成运动向量，所述运动向量表示在块B和该块B相对于其而被预测的之前的帧的一部分之间的、视频图像平面中的空间偏移。正如本领域技术人员熟悉的，选择根据其来预测块的部分的位置，以使得在所述块与所述部分（即，最接近的匹配）之间的残差差值最小化。

运动预测模块46 可访问较高分辨率样本 S'（由图4的较下方的箭头所表示的）。因此，初始地，运动预测模块46在较高分辨率尺度上确定基于图像的较高分辨率版本的“真实的”运动向量m'。也就是说，以较高分辨率样本尺寸的单位表示。

对于在投影中的给定的一个投影的流中进行发信号传送，运动向量然后基于由投影表示的图像的较低分辨率版本来按比例缩小到较低分辨率尺度。也就是说，以较低分辨率样本尺寸的单位表示。按比例缩小的运动向量m表示相同的物理距离，但是在较低的分辨率（较粗的）尺度上。

如果确定较高分辨率运动向量m'分别为在水平和垂直方向上的(x',y')的较高分辨率样本，并且较低分辨率样本的每一个在尺寸上是fxf的较高分辨率样本以使得在投影之间的移位是较低分辨率像素的1/f，那么在水平和垂直坐标轴上将该向量按比例缩小到1/f。这个较低分辨率向量m（例如，由坐标（x,y）所指代的）将等于按照正在使用的运动预测算法的精度而被舍入的(x'/f,y'/f)。

例如，如果较高分辨率运动向量m'被确定为分别在水平和垂直方向上是(+10,-9)的较高分辨率样本，以及较低分辨率样本的每个在尺寸上是2x2的较高分辨率样本以使得在投影之间的移位是较低分辨率像素的一半，那么在水平和垂直坐标轴上将该向量按比例缩小到1/2，这将是(+5,-4.5)。

然而，因为运动向量的较低分辨率版本以比运动向量的较高分辨率版本粗两倍（或更一般地f倍）的尺度而表达，所以将存在舍入误差。因此，在给定的示例中，比如说运动预测算法以整数的样本尺寸单位操作，较低分辨率运动向量m可被舍入到(+5,-4)或(+5,-4.5)。

这在帧的每个块上重复进行。在一个或者多个编码比特流33中，将针对每个预测的块的运动向量发信号传送到接收端22上的解码器50。

在解码器侧，解码器50中的帧间预测模块56然后从发信号传送的信息中获知：块B是根据偏移(x,y)的较低分辨率样本（例如，(+5,-4)）的部分而预测的。它使用这个信息根据某一帧（例如，F(t)）中偏移那个量的某个部分来预测另一帧（例如，F(t+4)或F(t+n)）中的较低分辨率样本的块B。

如果打算的是，仅有单个投影的帧将可独立地解码作为独立的流或信号（即，所以任一组投影是具有该选项的信号的独立版本，而不一定与其他组的投影相组合来得到较高分辨率），则可能期望按比例缩小的运动向量。例如，比如说，仅仅接收到携带序列中的类型(a)的投影的一个流。在这种情形下，解码器甚至不需要必须知道该解码器可以根据其来重新创建较高分辨率的其他流，而它只把所接收的流看作为单个低分辨率流。在这种情形下，使得所接收的运动向量以与较低分辨率样本相同的尺度来表示是合期望的，并且解码器因此具有独立地将其视作编码信号的选项，而不必按比例放大到较高分辨率，除非那是期望的或可用的。

然而，还留有以下问题：当运动向量在经过许多帧在数个帧间预测内积累地相加时，舍入误差将传播。这在图10中示意地图示。随着每次从一帧到下一帧的连续预测（对于所考虑的投影或流），由舍入所产生的误差将在解码器处变得越来越糟糕。

为了解决这个问题，编码器40中的运动预测模块46被配置成标识舍入误差，并把这个误差发信号传送到在接收端22上的解码器50，例如，把它作为边信息包括在相关的编码比特流中。发信号传送舍入误差是有利的，因为在解码器处，运动估计可被假设为已经以较高分辨率完成。在这种情形下，解码器将必须使用高分辨率运动向量来执行正确的重建。

例如，如果较低分辨率样本尺寸是2x2的较高分辨率样本，以使得在投影之间的移位是半个（较低分辨率）像素，那么舍入误差可被表达为在水平和垂直方向的每一方向上的单个1比特余数 0或1。如果较低分辨率样本尺寸是4x4 的较高分辨率样本，以使得在投影之间的移位是四分之一个（较低分辨率）像素，那么余数可以通过使用在水平和垂直方向的每一方向上两个比特00、01、10或11来表达。因此，可以用编码比特流中仅仅几个额外的比特来保留舍入误差。

在解码器50处，运动预测模块56然后将余数与较低分辨率运动向量m相加，并使用这个结果来得到向量的更精确版本。这进而又被用来预测块B。例如，在半个像素移位的情形下，解码器确定舍入误差是0或1乘以半个较低分辨率样本。例如，如果所接收的运动向量m是(+5,-4) 的较低分辨率样本，以及舍入误差是(0,1)，则重建的较高分辨率运动向量将是(+5,-4.5)的较低分辨率样本--或被按比例放大到较高分辨率尺度的完全重新创建的(+10,-9)(而不是+10,-8)。注意，解码器可以通过向上舍入或向下舍入而知道编码器是否工作（例如，解码器基于这一点被预编程），以使得求和将包括加上或减去余数（视情况而定）。可替换地，符号可以被发信号传送。还要注意，运动预测算法可能能够根据非整数样本偏移进行预测，所以即使按照较低分辨率样本来表达，4.5或类似的精度也可能是有用的。

编码器-解码器系统因此可以从以下能力获益，即：将视频信号划分成不同的可独立解码的较低分辨率投影或流，而不会由于运动向量的舍入而带来误差传播。

将会意识到的是，以上的实施例仅仅是作为示例而描述的。

注意，以较高分辨率样本的尺度（即，以较高分辨率样本的单位）来表示的较高的分辨率运动向量m'不一定意味着它被限制于整数数量的这样的样本。类似地，以较低分辨率样本的尺度（即，以较低分辨率样本的单位）表示的较低的分辨率运动向量m不一定意味着它被限制于整数数量的这样的样本。例如，某些运动预测算法允许运动向量以半个样本表示。在这种情形下，较高分辨率运动向量m'可以是(+10,-9.5) 的较高分辨率样本。按比例缩小到1/2后，这将是(+5,-4.25)，除非如果在编码器处相同的运动预测算法仍然只允许半个样本，那么这将被舍入成(+5,+4)或(+5,-4.5)。在这样的情形下，发信号传送舍入误差仍然是有利的。

各种实施例不限于根据2x2或4x4样本形成的较低分辨率样本，对应的样本既不是任何特定数量，也不是正方形或矩形样本，也不是任何特定的样本形状。用来形成较低分辨率样本的栅格结构不限于是正方形或矩形栅格，而其他形式的栅格也是可能的。不需要栅格结构定义被统一地确定尺寸和形状的样本。只要在来自两个或更多个不同投影的两个或更多个较低分辨率样本之间存在重叠，就可以根据较低分辨率样本的交集找到较高分辨率样本。

在实施例中，编码是无损的。这可以通过保留边缘样本而实现，即，除了较低分辨率投影以外，从每帧的边缘显式地编码和发送单独的、较高分辨率样本（边缘样本不能通过使用以上讨论的超级分辨率技术而被完全地重建）。可替换地，边缘样本不需要以这样的方式来保留。替代地，通过使用用于边缘周围的区域的更传统的编码，将视频拆分成投影的基于超级分辨率的技术可以仅仅被应用于在某一帧内部的、该帧的一部分（该帧的某些部分但不是全部）。这也可以是无损的。

在其他实施例中，编码不需要是无损的--例如，在帧边缘处的某些降级是可以容忍的。

各种实施例可以作为编码器或解码器的固有部分被实现，例如，作为对于H.264 或H.265标准的更新、作为预处理阶段和后处理阶段（例如，作为对于H.264 或H.265标准的附加）而被并入其中。此外，各种实施例不限于VoIP通信或通过任何特定类别的网络的通信，而是可以用在能够传送数字数据的任何网络中或用在用于将编码数据存储在有形存储介质上的系统中。

一般地，本文所描述的功能中的任何功能可以通过使用软件、固件、硬件（例如，固定逻辑电路）或这些实现方案的组合而被实现。如在本文中所使用的术语“模块”、“功能性”、“部件”和“逻辑”一般表示软件、固件、硬件或它们的组合。在软件实现方案的情形下，模块、功能性或逻辑表示程序代码，当在处理器（例如，一个或多个CPU）上执行所述程序代码时，其完成指定的任务。程序代码可被存储在一个或多个计算机可读存储器设备中。下面所描述的技术特征是平台独立的，这意指所述技术可以在具有各种各样的处理器的各种各样的商业计算平台上实现。

例如，用户端还可以包括使得用户端的硬件执行操作的实体（例如，软件），例如，处理器功能块等等。例如，用户端可包括有形的、计算机可读介质，其可被配置成保存使得用户端，并且更具体地，使得用户端的操作系统和相关联的硬件执行操作的指令。因此，所述指令运行来配置操作系统和相关联的硬件以执行操作，并且以这种方式导致操作系统和相关联的硬件的转换，以执行功能。指令可以由计算机可读介质通过各种各样的不同配置提供给用户端。

计算机可读介质的一个这样的配置是信号承载介质，并且因此被配置成将指令（例如，作为载波）诸如经由网络传输到计算设备。计算机可读介质也可以被配置为计算机可读存储介质，并且因此它不是信号承载介质。计算机可读存储介质的示例包括随机存取存储器（RAM）、只读存储器（ROM）、光盘、闪存、硬盘存储器或者可以使用磁、光学和其他技术来存储指令和其他数据的其他存储设备。

虽然本主题以特定于结构特征和/或方法动作的语言被描述的，但应当理解的是，在所附权利要求中限定的主题不一定限于上文所讨论的特定特征或动作。而是，上文所讨论的特定特征和动作是作为实现权利要求的示例形式而公开的。

Claims

1.一种传输端，包括：

输入，其用于接收包括多个视频图像帧的视频信号，每帧包括多个较高分辨率样本；

投影生成器，其被配置成生成所述帧的序列中的每帧的相应不同的投影，每个投影包括多个较低分辨率样本，其中不同投影的较低分辨率样本表示在视频图像平面上空间地重叠的、不同的但重叠的较高分辨率样本组；

编码器，其被布置成将视频信号编码成一个或多个编码流；以及

发射机，其被布置成通过网络将所述一个或多个编码流传输到接收端；

其中所述编码器被配置成基于针对每个预测的运动向量，在所述帧的不同帧的投影之间执行帧间预测编码，用于将所述运动向量从对应于所述较高分辨率样本的较高分辨率尺度按比例缩小到对应于所述较低分辨率样本的较低分辨率尺度，以确定由缩放而产生的舍入误差的指示，以及将所述舍入误差的指示发信号传送到所述接收端。

2.如权利要求1所述的传输端，其中所述编码器被配置成在一个或多个编码流的至少一个编码流中将所述舍入误差作为边信息来发信号传送。

3.如权利要求1或2所述的传输端，其中所述帧序列中的每一帧的投影是在视频图像平面上具有不同的空间对齐的投影模式中的相应一个投影，其中所述模式在所述帧序列的连续实例中重复进行。

4.如权利要求3所述的传输端，其中所述帧间预测是在视频图像平面内具有相同的空间对齐的、但来自所述序列的不同实例的投影之间进行的。

5.如权利要求4所述的传输端，其中所述模式至少包括在视频图像平面内具有第一空间对齐的第一投影和在视频图像平面内具有第二空间对齐的第二投影；并且所述帧间预测是在所述序列的不同实例的第一投影之间以及在所述序列的不同实例的第二投影之间进行的。

6.如任何前述权利要求的传输端，其中所述编码器被配置成通过将不同投影编码成分开的相应编码流而对视频信号进行编码；以及

所述发射机被配置成把将分开的编码流的每一个通过网络传输到所述接收端。

7.如权利要求3或从属于它的任何权利要求的传输端，其中：

所述帧间预测是在视频图像平面内具有相同的空间对齐的、但来自所述序列的不同实例的投影之间进行的；

所述编码器被配置成通过将具有相同的空间对齐的投影编码成相同的相应编码流而对视频信号进行编码，并且具有不同空间对齐的投影被编码成分开的相应编码流；以及

所述发射机被配置成将所述分开的编码流中的每一个通过网络传输到所述接收端。

8.如权利要求3或从属于它的任何权利要求的传输端，其中所述模式是预定的，而不会在所述流中的任何一个流中将所述模式从编码系统发信号传送到解码系统。

9.如权利要求1的传输端，其中所述较低分辨率样本由栅格结构所定义，以及所述投影生成器被配置成通过向所述栅格结构应用一个或多个不同的空间移位而生成所述投影，每个移位是所述较低分辨率样本中的一个较低分辨率样本的一小部分。

10.一种用于对包括多个视频图像帧的视频信号进行解码的计算机程序产品，所述计算机程序产品被体现在计算机可读存储介质上并且包括代码，所述代码被配置成当其在接收端上执行时，执行以下操作：

通过网络接收来自传输端的视频信号，所述视频信号包括视频图像的多个不同投影，每个投影包括多个较低分辨率样本，其中不同投影的较低分辨率样本表示在视频图像平面中空间地重叠的、不同的但重叠的部分；

对所述视频信号进行解码，以便解码所述投影；

通过以下来生成以较高分辨率表示所述视频图像的较高分辨率样本，即：对于因此被生成的每个较高分辨率样本，根据来自所述不同投影的较低分辨率样本中的一些较低分辨率样本之间的重叠区域而形成所述较高分辨率样本；以及

在根据所述投影生成较高分辨率样本后，将所述视频信号以较高分辨率输出到屏幕；

其中所述解码包括基于针对每个预测从所述传输端接收的运动向量，在所述帧的不同帧的投影之间进行帧间预测，以及将在预测中使用的所述运动向量从对应于较低分辨率样本的较低分辨率尺度按比例放大到对应于所述较高分辨率样本的较高分辨率尺度；以及

其中所述代码进一步被配置成从所述传输端接收舍入误差的指示，以及被配置成在执行所述运动向量的所述按比例放大时并入所述舍入误差。