CN104854621A

CN104854621A - 将视频编码成较低分辨率流

Info

Publication number: CN104854621A
Application number: CN201380057467.3A
Authority: CN
Inventors: L.比沃拉斯基
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2012-11-01
Filing date: 2013-10-30
Publication date: 2015-08-19
Also published as: WO2014070945A1; EP2901684A1; US20140119456A1

Abstract

一种发射终端，包括：输入端，用于接收包括表示在不同的各时间的视频图像的多个帧的视频信号，每个帧包括多个较高分辨率样本；投影发生器，被配置成生成视频图像的多个不同投影，每个投影包括表示在较低分辨率下的视频图像的多个较低分辨率样本，其中，不同投影的较低分辨率样本表示较高分辨率样本的不同但重叠的群组，所述群组在视频图像的平面中在空间上重叠；编码器，被配置成通过将不同的投影编码成单独的各已编码流来对视频信号进行编码；以及发射机，被配置成通过网络将单独的已编码流中的每一个发射到接收终揣。

Description

将视频编码成较低分辨率流

背景技术

过去，称为“超分辨率”的技术已在卫星成像中被用来提高所捕捉图像的分辨率超过图像捕捉元件的固有分辨率。这可以在卫星（或其某个部件）移动对应于像素的几分之一的量的情况下实现，从而捕捉在空间上重叠的样本。在重叠区中，可以通过对与该区重叠的两个或更多较低分辨率样本的值之间进行外推（例如通过求平均）来生成较高分辨率样本。较高分辨率样本尺寸是重叠区的尺寸，并且较高分辨率样本的值是外推值。

该构思在图1中示意性地图示出。考虑具有单个正方形像素P的卫星的情况，其从地面上的1km×1km的区域捕捉样本。如果卫星然后移动，使得被像素捕捉的区域在平行于像素P的边缘中的一个的方向上移位半公里，并且然后获取另一样本，则卫星于是具有覆盖宽度0.5km的重叠区P'的两个可用样本。随着此过程的发展，在移位的方向上以0.5km间隔获取样本，并且潜在地还执行垂直于原始移位偏移半个像素的连续扫描，有可能构建0.5 km×0.5 km而不是1km×1km分辨率的图像。将认识到的是本示例是出于说明性目的给出的——还有可能构建精细得多的分辨率，并且从更复杂的运动模式这样做。

最近，已提出超分辨率的概念以便在视频编码中使用。其一个潜在应用类似于上文所述的情形——如果用户的照相机在帧之间在物理上移位对应于非整数像素（例如因为其是手持式照相机）的量，并且此运动可以被检测到（例如，使用运动估计算法），则有可能通过在其中两个帧的像素部分地重叠的像素样本之间进行外推而创建具有比照相机的图像捕捉元件的固有分辨率更高的分辨率的图像。

另一潜在应用是故意地降低每个帧的分辨率，并且在帧之间引入人为移位（与由于照相机的实际运动而引起的移位相反）。这使得能够降低每帧的位速率。参考图2，比方说照相机捕捉某个较高分辨率的像素P'（可能在初始量化级之后）。每个帧F中的该分辨率下的编码将招致某个位速率。在某个时间t处的第一帧F(t)中，编码器因此创建具有尺寸P的像素的帧的较低分辨率版本，并且在较低分辨率下将这些进行发射和编码。例如，在图2中，通过对四个较高分辨率像素的值进行平均来创建每个较低分辨率像素。在后续帧F(t+1)中，编码器做同样的事，但是光栅移位较低分辨率像素中的一个的几分之一，在所示的示例中例如在水平和垂直方向上的半个像素。在解码器处，然后可以通过在两个帧的较低分辨率样本的重叠区之间进行外推来再次地重新创建较高分辨率像素尺寸P'。更复杂的移位模式也是可能的。例如，该模式可在第一帧中的第一位置处开始，然后使光栅在第二帧中水平地移位半个（较低分辨率）像素，然后使光栅在第三帧中在垂直方向上移位半个像素，然后在第四帧中在水平方向上返回半个像素，然后在垂直方向上返回以从第一位置起重复该循环。在这种情况下，存在四个样本可用于在解码器处针对要重构的每个较高分辨率像素在该四个样本之间进行外推。

发明内容

本发明的实施例接收视频信号作为输入，该视频信号包括表示在不同的各时间的视频图像的多个帧，每个帧包括多个较高分辨率样本。生成视频图像的多个不同投影，每个投影包括表示在较低分辨率下的视频图像的多个较低分辨率样本。不同投影的较低分辨率样本表示较高分辨率样本的不同但重叠的群组，所述群组在视频图像的平面中在空间上重叠。通过将不同的投影编码成单独的各已编码流来对视频信号进行编码，并且通过网络将单独编码流中的每一个发射到接收终端。

本发明的其他实施例将视频信号解码，该视频信号包括表示在不同的各时间的视频图像的多个帧，每个帧包括多个较高分辨率样本。通过网络从发射终端接收多个单独的已编码视频流，已编码视频流中的每一个包括视频图像的多个不同投影中的各自不同的一个。每个投影包括表示在较低分辨率下的视频图像的多个较低分辨率样本，其中，不同投影的较低分辨率样本表示较高分辨率样本的不同但重叠的群组，所述群组在视频图像的平面中在空间上重叠。将已编码视频流解码从而将投影解码。对于如下这样生成的每个较高分辨率样本，通过从来自各帧的不同投影的较低分辨率样本中的一些之间的重叠区形成较高分辨率样本来生成表示在较高分辨率下的视频图像的较高分辨率样本。在从投影进行的生成之后在较高分辨率下将视频信号输出到屏幕。

可在发射终端、接收终端系统处或者作为将在发射或接收侧运行的计算机程序代码来体现各种实施例，或者可实施为方法。可在有形、计算机可读存储介质上体现计算机程序。

在另外的实施例中，可提供用于转发视频信号的网络元件，该视频信号包括表示在不同的各时间的视频图像的多个帧，每个帧包括多个较高分辨率样本。该网络元件包括收发机设备，其被布置成通过网络从发射终端接收多个单独的已编码视频流，已编码视频流中的每一个包括视频图像的多个不同投影中的各自不同的一个。每个投影包括表示在较低分辨率下的各帧的多个较低分辨率样本，其中，不同投影的较低分辨率样本表示较高分辨率样本的不同但重叠的群组，所述群组在视频图像的平面中在空间上重叠。该网络元件还包括处理设备，该处理设备被配置成根据网络、网络元件和接收终端中的一个的条件来确定是否丢弃所述已编码视频流中的至少一个，使已编码视频中的一个或多个剩余。该收发机被布置成将一个或多个剩余的流通过网络转发到接收终端，但被处理设备丢弃的已编码视频流中的任何一个不这样。

附图说明

为了更好地理解各种实施例并示出其如何可以付诸实现，以示例的方式对附图进行参考，在所述附图中：

图1是超分辨率方案的示意性表示，

图2是超分辨率方案的另一示意性表示，

图3是通信系统的示意性框图，

图4是编码器的示意性框图，

图5是解码器的示意性框图，

图6是编码系统的示意性表示，

图7是解码系统的示意性表示，

图8是包括多个流的已编码视频信号的示意性表示，

图9是要编码的视频信号的示意性表示，

图10是要编码的视频信号的另一示意性表示，

图11是运动矢量与超分辨率移位的加法的示意性表示，以及

图12是要编码的视频信号的另一示意性表示。

具体实施方式

本发明的实施例提供了用于在视频编码中使用的基于超分辨率的压缩技术。在帧序列内，将在视频信号中表示的图像划分成可以从其重构帧的较高分辨率版本的多个不同较低分辨率“投影”。每个投影是帧中的各自不同的一个的版本，但是具有比原始帧低的分辨率。每个不同投影的较低分辨率样本在视频图像的参考网格内具有相对于彼此的不同空间对准，使得不同投影的较低分辨率样本重叠但并不重合。例如，每个投影基于定义较低分辨率样本的尺寸和形状的同一光栅网格，但是在不同投影中的每一个中光栅被施加以不同的偏移或“移位”，该移位在相对于光栅定向的水平和/或垂直方向上是较低分辨率样本尺寸的几分之一。每个帧被细分成仅一个投影，无论移位步长如何，例如½还是¼像素。

在图12中示意性地图示出示例。在页面的顶部处图示出的是要编码的视频信号，包括多个帧F，每个帧F表示在连续时刻t、t+1、t+2、t+3...处的视频图像（其中，作为帧索引来测量时间，并且t是任何的任意时间点）。

给定帧F(t)包括多个较高分辨率样本S'，其由图12中的点网格线所示的较高分辨率光栅定义。光栅是在施加于帧时将其划分成样本的网格结构，每个样本由网格的相应单元定义。注意，样本不一定意味着与图像捕捉元件的物理像素相同尺寸的样本，也不是将在其上面输出视频的屏幕的物理像素尺寸。例如，可以在甚至更高的分辨率下捕捉样本，并且然后向下量化以产生样本S'。

然后将帧序列F(t)、F(t+1)、F(t+2)、F(t+3)中的每一个转换成不同的各投影（a）至（d）。投影中的每一个包括通过对各帧施加较低分辨率光栅而定义的多个较低分辨率样本S，如覆盖在图12中的较高分辨率网格上的实线所图示的。再次地，光栅是在施加于帧时将其划分成样本的网格结构。每个较低分辨率样本S表示一组较高分辨率样本S'，分组取决于较低分辨率光栅的网格间距和对准，每个样本由网格的相应单元定义。网格可以是正方形或矩形网格，较低分辨率样本在形状方面可以是正方形或矩形的（如较高分辨率样本一样），但不一定必须是这种情况。在所示示例中，每个较低分辨率样本S覆盖四个较高分辨率样本S'的各二乘二正方形。另一示例将是十六的四乘四正方形。

每个较低分辨率样本S表示各组较高分辨率样本S'（每个较低分辨率样本覆盖整体数个较高分辨率样本）。在实施例中，通过将较高分辨率样本的值组合、例如通过求平均、诸如均值或加权均值（但不排除更复杂的关系）来确定较低分辨率样本S的值。替换地，可以通过取较高分辨率样本中的典型的一个的值或对较高分辨率值的典型子集进行平均来确定较低分辨率样本的值。

第一投影（a）中的较低分辨率样本的网格在帧的平面中具有相对于在被编码的信号中表示的视频图像的底层较高分辨率光栅的某个、第一对准。作为参考，在这里将其称为（0,0）的移位。然后将分别由后续帧F(t+1)、F(t+2)、F(t+3)的每个另外的投影（b）至（d）形成的较低分辨率样本的网格在帧的平面中移位不同的各量。针对每个连续投影，该移位是在水平或垂直方向上的较低分辨率样本尺寸的几分之一。在所示示例中，在第二投影（b）中，将较低分辨率网格向右移位半个（较低分辨率）样本，即相对于参考位置（0, 0）的（+½, 0）的移位。在第三投影（c）中，将较低分辨率网格向下移位另一半样本，即相对于第二移位的（0, +½）的移位或者相对于参考位置的（+½, +½）的移位。在第四投影中，将较低分辨率网格向左移位另一半样本，即相对于第三投影的（-½, 0）的移位或相对于参考位置的（0, +½）。这些移位一起构成移位模式。

在图12中，这通过参考第一投影（a）的较低分辨率样本S(m,n)来举例说明，其中，m和n分别是水平和垂直方向上的较低分辨率网格的坐标索引，以第一投影（a）的网格作为参考。然后作为第二投影（b）的样本的相应已移位较低分辨率样本位于其自己的各网格内的位置（m, n）处，该位置对应于相对于第一投影的位置（m+½, n）。作为第三投影（c）的样本的另一相应已移位较低分辨率样本位于第三投影的各网格内的位置（m, n）处，该位置对应于相对于第一投影网格的位置（m+½, n+½）。作为第四投影（d）的样本的再另一相应已移位较低分辨率样本位于其自己的各位置（m, n）处，该位置对应于相对于第一投影的位置（m, n+½）。在不同的各帧中形成每个投影。

通过将该较低分辨率样本所覆盖的较高分辨率样本的值组合、即通过将该较高分辨率样本表示的各组较低分辨率样本的值组合来获取每个投影中的较低分辨率样本的值。基于各组针对每个投影的每个较低分辨率样本完成此操作，从而生成在帧序列内的图像的多个不同降低分辨率版本。

该模式在多个帧序列内重复。对每个帧的投影进行编码并在已编码视频信号中将其发送到解码器，例如通过诸如因特网之类的基于分组的网络发射。替换地，可存储已编码视频信号以便稍后由解码器解码。

在解码器处，然后可以使用帧序列的不同投影从较低分辨率样本的重叠区重构较高分辨率样本尺寸。例如，在相对于图12所述的实施例中，来自不同投影的任何一组的四个重叠样本定义唯一交集。图12中的阴影区S'对应于来自投影（a）、（b）、（c）和（d）的较低分辨率样本S(m,n)的交集。可以通过在正在讨论中的区处重叠的较低分辨率样本的值之间进行外推（例如通过求平均，诸如均值或加权均值）来找到对应于此重叠或交集的较高分辨率样本的值。可以从较低分辨率样本的类似交集找到其他较高分辨率样本中的每一个。

在帧序列内，可以将视频图像细分成投影的全集，例如当移位是半个样本时，在四个帧序列内提供四个投影，并且在四分之一移位的情况下，提供十六个帧内的十六个投影。因此，总而言之，一起包括所有其投影的帧仍可重新创建同一分辨率，如同未应用超分辨率技术一样，虽然花费更长的时间来构建该分辨率。

然而，视频图像被分解成单独的描述或子帧，所述单独的描述或子帧可以被单独地或不同地操纵。存在用于将视频划分成多个投影的许多用途，例如如下。

• 可将每个投影作为单独流单独地进行编码。投影中的至少一个或一些以及潜在地全部在其自己的权限内而不是相对于流中的任何其他一个被编码，即可独立地解码。

• 在此之后，为了增强稳健性，通过网络将不同的投影作为单独的各流发送。因此，如果流中的一个或一些在传输中丢失或被故意地丢弃，则解码器仍可以从剩余的一个或多个流重新创建视频的至少较低分辨率版本。

• 提供了用于通过省略或丢弃一个或多个投影来进行缩放的新机会，即新形式的分层编码。

• 通过在不同帧中的不同投影之间进行预测从而相对于前一帧的投影中的另一基础投影而对一个帧的投影进行编码，提供了用于预测编码的另外的机会。

• 在不同帧的投影之间的预测的情况下，可以将承载基础投影的流（其被用于预测其他投影）标记为高优先级。这可帮助网络层确定何时丢弃投影的其余部分并仅从基础层重构帧。

• 减少了在每帧已编码信号中招致的位数。

还注意到，在实施例中，用预定移位模式来创建多个投影，其未通过网络用信号从编码器发送到解码器且未包括在已编码位流中。投影的顺序可与移位模式相组合地确定移位位置。也就是说，所述投影中的每一个可以是所述帧序列中的各自不同的一个的，并且所述帧序列中的每一个的投影可以是不同投影的预定模式中的各自的一个，其中，所述模式在所述帧的连续序列内重复。然后将解码器配置成基于在接收终端处预先存储或预先编程而不是在流中的任何一个中从发射终端接收到的预定模式来重新生成视频的较高分辨率版本。

本发明的替换实施例将给定帧划分成可以从其重构帧的较高分辨率版本的多个不同较低分辨率投影。每个投影是与原始帧相比具有较低分辨率的同一帧的版本。同一帧的每个不同投影的较低分辨率样本在帧内具有相对于彼此的不同空间对准，使得不同投影的较低分辨率样本重叠但并不重合。例如，每个投影基于定义较低分辨率样本的尺寸和形状的同一光栅网格，但是光栅在不同投影中的每一个中被施加以不同的偏移或“移位”，该移位在相对于光栅定向的水平和/或垂直方向上是较低分辨率样本尺寸的几分之一。

在图9和10中示意性地示出了示例。在页面的顶部处图示出的是要编码的视频信号，包括多个帧F，每个帧F表示在连续时刻...t-1、t、t+1、...的视频图像（其中，作为帧索引来测量时间，并且t是任何的任意时间点）。

给定的输入帧F(t)包括多个较高分辨率样本S'，其由图9中的点网格线所示的较高分辨率光栅定义。然后将同一帧F(t)分成多个不同投影（a）至（d）。该同一帧F(t)的投影中的每一个包括通过将较低分辨率光栅施加于帧而定义的多个较低分辨率样本S，如覆盖在图9中的较高分辨率网格上的实线所图示的。每个较低分辨率样本S表示一组较高分辨率样本S'，分组取决于较低分辨率光栅的网格间距和对准，每个样本由网格的相应单元定义。

类似于相对于图12所述的实施例，每个较低分辨率样本S表示各组较高分辨率样本S'（每个较低分辨率样本覆盖整体数个较高分辨率样本）。可通过将较高分辨率样本的值组合来确定较低分辨率样本S的值，在实施例中，通过求平均，诸如均值或加权均值（但是不排除更复杂的关系）；或者替换地，通过获取较高分辨率样本中的典型的一个的值，或者对较高分辨率值的典型子集进行平均。

第一投影（a）中的较低分辨率样本的网格在帧F(t)内、即在帧的平面中具有某个、第一对准。作为参考，在这里将其称为（0,0）的移位。然后将同一帧F(t)的每个另外的投影（b）至（d）形成的较低分辨率样本的网格在帧的平面中移位不同的各量。针对每个连续投影，该移位是在水平或垂直方向上的较低分辨率样本尺寸的几分之一。在所示示例中，类似于图12的模式，在第二投影（b）中，将较低分辨率网格向右移位半个（较低分辨率）样本，即相对于参考位置（0, 0）的（+½, 0）的移位。在第三投影（c）中，将较低分辨率网格向下移位另一半个样本，即相对于第二移位的（0, +½）的移位或者相对于参考位置的（+½, +½的移位。在第四投影中，将较低分辨率网格向左移位另一半个样本，即相对于第三投影的（-½, 0）的移位或相对于参考位置的（0, +½）。这些移位一起构成移位模式。然而，在本实施例中，移位全部在不同的帧内施加，而不是从一个帧到下一个。

在图9中，这通过参考第一投影（a）的较低分辨率样本S(m,n)来举例说明，再次地，其中，m和n分别是水平和垂直方向上的较低分辨率网格的坐标索引，以第一投影（a）的网格作为参考。类似于相对于图12所述的模式，作为第二投影（b）的样本的相应已移位较低分辨率样本然后位于其自己的各自网格内的位置（m, n）处，该位置对应于相对于第一投影的位置（m+½, n）。作为第三投影（c）的样本的另一相应已移位较低分辨率样本位于第三投影的各自网格内的位置（m, n）处，该位置对应于相对于第一投影的网格的位置（m+½, n+½）。作为第四投影（d）的样本的再另一相应已移位较低分辨率样本位于其自己的各自位置（m, n）处，该位置对应于第一投影的位置（m, n+½）。然而，在本实施例中，每个投影是从同一帧形成的，而不是以连续的帧。

注意，不一定需要按照任何特定顺序来生成同一帧内的不同投影，并且可以将任何一个认为是“参考位置”。描述同一模式的其他方式可以是等价的。其他模式也是可能的，例如基于4×4较高分辨率样本的较低分辨率样本尺寸在四分之一样本移位（较低分辨率样本尺寸的四分之一）的模式中移位。

再次地，通过将该较低分辨率样本所覆盖的较高分辨率样本的值组合、即通过将该较高分辨率样本表示的各组较低分辨率样本的值组合来获取每个投影中的较低分辨率样本的值。基于各组针对每个投影的每个较低分辨率样本完成此操作，从而生成同一帧的多个不同降低分辨率版本。还针对多个帧重复该过程。

效果是每个二维帧现在有效地变成三维“平板”（slab）或立方体的，如图10中示意性地示出的。

对每个帧的投影进行编码并在已编码视频信号中将其发送到解码器，例如通过诸如因特网之类的基于分组的网络发射。替换地，可存储已编码视频信号以便稍后由解码器解码。

在解码器处，然后可以使用同一帧的多个不同投影从较低分辨率样本的重叠区重构较高分辨率样本尺寸。例如，在相对于图9所述的实施例中，来自不同投影的任何一组的四个重叠样本定义唯一交集。图9中的阴影区S'对应于来自投影（a）、（b）、（c）和（d）的较低分辨率样本的交集。可以通过在正在讨论中的区处重叠的较低分辨率样本的值之间进行外推（例如通过求平均，诸如均值或加权均值）来找到对应于此重叠或交集的较高分辨率样本的值。可以从较低分辨率样本的类似交集找到其他较高分辨率样本中的每一个。

可将每个帧细分成投影全集，例如当移位是半个样本时，将每个帧表示在四个投影中，并且在四分之一移位的情况下表示到十六个投影中。因此，总而言之，一起包括所有其投影的帧仍可表示同一分辨率，如同未应用超分辨率技术一样。

然而，不同于常规视频编码方案，将帧分解成单独的描述或子帧，所述单独的描述或子帧可以被单独地或不同的操纵。存在用于其的许多用途，例如如下。

• 再次地，可将每个投影作为单独流单独地进行编码。

• 再次地，为了增强稳健性，将每个投影作为单独流通过网络发送。

• 提供了用于缩放的另外的机会。

• 提供了用于通过在同一帧的投影之间进行预测从而将帧的投影中的一个或多个相对于该的投影中的基础的另一个进行编码而进行预测编码的另外的机会。

• 为了增强稳健性，可以使用不同的投影作为基础投影。

• 可确定基础投影的选择，从而优化流的性质，例如以减小残差（在实施例中使其最小化），从而减小已编码信号中的位速率。

• 在投影之间的预测的情况下，可以将基础投影（其被用于预测其他投影）标记为高优先级。这可帮助网络层确定何时丢弃投影的其余部分并仅从基础层重构帧。

并且，再次地，可用预定移位模式来创建多个投影，其未通过网络用信号从编码器发送到解码器且未包括在已编码位流中。

参考图3的示意性框图来描述其中可采用各种实施例的示例通信系统。

通信系统包括第一、发射终端12和第二、接收终端22。例如，每个终端12、22可包括移动电话或智能电话、平板电脑、膝上型计算机、台式计算机或诸如电视机、机顶盒、立体音响系统等其他家用电器中的一个。第一和第二终端12、22每个可操作地耦合到通信网络32，并且第一、发射终端12从而被布置成发射将被第二、接收终端22接收的信号。当然，发射终端12还可能能够从接收终端22接收信号且反之亦然，但是出于讨论的目的，在这里从第一终端12的角度描述发射，并且从第二终端22的角度描述接收。通信网络32可包括例如基于分组的网络，诸如广域因特网和/或局域网和/或移动蜂窝式网络。

第一终端12包括有形、计算机可读存储介质14，诸如闪存或其他电子存储器、磁存储器件和/或光学存储器件。第一终端12还包括具有一个或多个核的处理器或CPU形式的处理设备16；收发机，诸如至少具有发射机18的有线或无线调制解调器；以及视频照相机15，其可以或可以不被容纳在与终端12的其余部分相同的外壳内。存储介质14、视频照相机15和发射机18每个可操作地耦合到处理设备16，并且发射机18经由有线或无线链路可操作地耦合到网络32。类似地，第二终端22包括有形、计算机可读存储介质24，诸如电子、磁和/或光学存储器件；以及具有一个或多个核的CPU形式的处理设备26。第二终端包括收发机，诸如至少具有接收机28的有线或无线调制解调器；以及屏幕25，其可以或可以不被容纳在与终端12的其余部分相同的外壳内。第二终端的存储介质24、屏幕25和接收机28每个可操作地耦合到各处理设备26，并且接收机28经由有线或无线链路可操作地耦合到网络32。

第一终端12上的存储介质14至少存储被布置成在处理设备16上执行的视频编码器。在被执行时，编码器从视频照相机15接收“原始”（未编码）输入视频信号，对视频信号进行编码从而将其压缩成较低位速率流，并且输出已编码视频以便经由发射机18和通信网络32发射到第二终端22的接收机28。第二终端22上的存储介质至少存储视频解码器，该解码器被布置成在其自己的处理设备26上执行。在被执行时，解码器从接收机28接收已编码视频信号，并将其解码以便输出到屏幕25。可用来指代编码器和/或解码器的通用术语是编解码器。

图6给出可存储在发射终端12上并在其上面运行的编码系统的示意性框图。编码系统包括投影发生器60和编码器40，在实施例中实现为软件模块（但不排除在专用硬件电路中实现一些或所有功能的选项）。投影发生器具有输入端，其被布置成从照相机15接收输入视频信号，该输入视频信号包括如图12或9的顶部处所图示的要编码的一系列帧。编码器40具有可操作地耦合到投影发生器60的输出端的输入端以及被布置成向发射机18供应视频信号的已编码版本以便通过网络32传输的输出端。

图4给出编码器40的示意性框图。编码器40包括可操作地耦合到来自投影发生器60的输入端的前向变换模块42、可操作地耦合到前向变换模块42的前向变换模块44、每个都可操作地耦合到前向量化模块44的帧内预测编码模块45和帧间预测（运动预测）编码模块46以及可操作地耦合到帧内和帧间预测编码模块45和46并被布置成向发射机18供应已编码输出以便通过网络32传输的熵编码器48。

在操作中，投影发生器60将输入视频信号细分成多个投影，如上文相对于图12所讨论的那样针对每个连续帧生成各投影，或者以上文相对于图9和10所讨论的方式将每个帧细分成多个投影。

使每个投影单独地通过编码器40并作为单独流处理。对于编码而言，可将每个投影划分成多个块（每个块包括多个较低分辨率样本S）。

在给定投影内，前向变换模块42将较低分辨率样本的每个块从空间域表示变换成变换域表示，通常为频域表示，从而将该块的样本转换成一组变换域系数。此类变换的示例包括傅立叶变换、离散余弦变换（DCT）和卡南-洛维变换（KLT），本领域的技术人员将熟悉其细节。然后使每个块的已变换系数通过前向量化模块44，在那里其被量化到离散量化水平上（比最初用来表示系数值更粗糙的水平）。然后通过预测编码级45或46和然后的无损编码级（诸如熵编码器48）对已变换量化块进行编码。

熵编码器48的效果是其要求较少的位对较小的频繁出现的值进行编码，因此前级的目的是在尽可能多的小值方面表示视频信号。

量化器44的目的是量化值将较小，并且因此要求较少的位以进行编码。变换的目的是在变换域中常常存在量化成零或小值的更多值，从而在通过后续级进行编码时减小位速率。

可将编码器布置成在帧间预测编码模式或帧间预测编码模式（即运动预测）下进行编码。如果使用帧间预测，则帧间预测模块46相对于前一帧F(t-1)的一部分对来自一个帧F(t)的块的已变换量化系数进行编码。将该块说成是根据前一帧预测的。因此，编码器只需发射块的预测版本与实际块之间的差（在本领域中称为残差）以及运动矢量。由于残差值常常较小，所以其在通过熵编码器48时要求较少的位以进行编码。

所述前一帧的部分的位置由运动矢量确定，该运动矢量由帧间预测模块46中的运动预测算法确定。

在实施例中，根据前一帧中的具有不同移位的不同投影来预测来自一个帧的一个投影的块。例如参考图12，根据帧F(t-1)中的投影（a）的一部分来预测分别来自帧F(t+1)、F(t+2)和/或F(t+3)的投影（b）、（c）和/或（d）的块；或者参考图9，根据帧F(t-1)中的投影（a）的一部分来预测来自帧F(t)的投影（b）、（c）和/或（d）的块。因此，编码器只需在相对于基础投影的残差方面对投影中的除一个之外的全部进行编码。在不同投影之间的预测的这种情况下，可将表示帧之间的运动的运动矢量与表示不同投影之间的移位的矢量相加，以便获得正确的预测。这在图11中示意性地图示出。

替换地，在其中将每个帧分成多个投影的本发明的实施例中，运动预测可以是在来自不同帧的两个相应投影之间，即在在其各自帧内具有相同移位的投影之间。例如参考图9，可根据帧F(t-1)的投影（a）来预测来自帧F(t)的投影（a）的块，可根据帧F(t-1)的投影（b）来预测来自帧F(t)的投影（b）的块，以此类推。

如果使用帧间预测，则已变换量化样本替代地经受帧内预测模块45。在这种情况下，相对于同一帧内的块（通常为相邻块）对来自当前帧F(t)的块的已变换量化系数进行编码。编码器然后只需发射块的预测版本与相邻块之间的残差差。再次地，由于残差值常常较小，所以其在通过熵编码器时要求较少的位以进行编码。

在本发明的实施例中，帧内预测模块45在同一帧的同一投影的块之间进行预测，例如在图12的情况下。替换地，帧内预测模块45可在来自同一帧的不同投影的块之间进行预测。也就是说，相对于投影中的一个基础投影中的相应块对来自投影中的一个或多个的块进行编码。例如，可根据投影中的一个或多个中的每个较低分辨率样本在基础投影中的对等样本来预测它，例如使得根据第一投影（a）中的样本S(m, n)且类似地针对每个块的其他样本预测投影（b）、（c）和（d）中的每个较低分辨率样本S(m, n)。因此，编码器只需在相对于基础投影的残差方面对投影中的除一个之外的全部进行编码。

该预测可呈现用于减小残差的大小的更多机会，因为来自不同投影的相应对等样本将常常是类似的，并且因此导致小的残差。在实施例中，可将帧内预测模块45配置成选择投影中的哪个投影以用作基础投影和选择哪个投影来相对于基础投影进行编码。例如，因此帧内预测模块可以替代地选取投影（c）作为基础投影，并且然后相对于投影（c）对投影（a）、（b）和（d）进行编码。可将帧内预测模块45配置成选择哪个投影是基础投影，以便使残差最小化或者至少将其减小，例如通过尝试全部可能性或其子集并选择导致最小总残差位速率的那个来进行编码。

一旦被帧内预测编码模块45或帧间预测编码模块46编码，不同投影的样本的块就被传递至熵编码器48，在那里，其经受进一步的无损编码级。由熵编码器48输出的已编码视频然后被传递至发射机18，该发射机18将已编码视频33通过网络32（在实施例中诸如因特网之类的基于分组网络）而发射到接收终端22的接收机28。

图7给出了可存储在接收终端22上并在其上面运行的解码系统的示意性框图。该解码系统包括解码器50和超分辨率模块70，在实施例中实现为软件模块（但不排除在专用硬件电路中实现一些或所有功能的选项）。解码器50具有被布置成从接收机28接收已编码视频的输入端以及可操作地耦合到超分辨率模块70的输入端的输出端。超分辨率模块70具有被布置成向屏幕25供应已解码视频的输出端。

图5给出解码器50的示意性框图。解码器50包括熵解码器58以及帧内预测解码模块55和帧间预测（运动预测）解码模块54、逆量化模块54和逆变换模块52。熵解码器58可操作地耦合到来自接收机28的输入端。帧内预测解码模块55和帧间预测解码模块56中的每一个可操作地耦合到熵解码器58。逆量化模块54可操作地耦合到帧内和帧间预测解码模块55和56，并且逆变换模块52可操作地耦合到逆量化模块54。逆变换模块可操作地耦合以向超分辨率模块70供应输出。

在操作中，可使每个投影单独地通过解码器50并作为单独流处理。

熵解码器58根据熵编码技术对已编码视频信号33的每个投影执行无损解码操作，并且取决于在编码中使用帧内预测还是帧间预测（运动预测），将结果产生的输出传递到帧内预测解码模块55或帧间预测解码模块56以用于进一步解码。

如果使用帧间预测，则帧间预测模块56使用在已编码信号中接收到的运动矢量来基于前一帧的一部分预测来自一个帧的块。如所讨论的，此预测可以是在不同帧中的不同投影之间或不同帧中的同一投影。在前一种情况下，如图11中所示地将运动矢量和移位相加。

如果使用帧内预测，则帧内预测模块55根据同一帧中的另一块来预测一块。在实施例中，这包括基于另一、基础投影的块来预测一个投影的块。

然后使已解码投影通过其中将已量化水平转换到解量化标度上的逆量化模块54以及其中将解量化系数从变换域转换成空间域中的较低分辨率样本的逆变换模块52。该解量化、逆变换样本被继续供应到超分辨率模块70。

超分辨率模块使用来自同一帧的不同投影的较低分辨率样本来将正在解码的信号所表示的视频图像的较高分辨率版本“缝合（stich）在一起”。如所讨论的，这可以通过从不同投影（来自不同帧或同一帧）取重叠的较低分辨率样本并生成与重叠区相应的较高分辨率样本来实现。例如通过取平均。通过在重叠较低分辨率样本的值之间进行外推来找到较高分辨率样本的值。例如参见图12和9中由来自四个不同投影（a）至（d）的四个较低分辨率样本S所重叠的阴影区。这允许在解码器侧重构较高分辨率样本S'。

在其他实施例中，该过程可涉及到某种退化。例如，如果每个较低分辨率样本表示原始输入帧的四个较高分辨率样本，但是如图12中那样在不同连续帧内在时间上展开具有（0,0）；（0, +½）；（+½, +½）；以及（+½, 0）的移位的四个投影，则情况可以如此。在这种情况下，来自四个不同投影的四个较低分辨率样本的唯一组合可在解码器处用于要重新创建的每个较高分辨率样本，并且在解码器侧重构的较高分辨率样本尺寸可与在编码器侧的原始输入帧的较高分辨率样本尺寸相同。然而，用来实现此分辨率的数据随时间推移而展开，使得信息在时域中丢失。只要例如用（0,0）和（+½, +½）的移位来创建两个投影，就出现另一示例。在这种情况下，信息也丢失。然而，在任一种情况下，可认为该损失在感知上是可容忍的。一般地，在解码器侧重构的较高分辨率样本尺寸不需要与编码器侧的原始输入帧的较高分辨率样本尺寸一样高。

在其他实施例中，从多个投影重构帧的过程可以是无损的。例如，如果每个较低分辨率样本如图9中所示那样表示原始输入帧的四个较高分辨率样本，并且例如分别用（0,0）；（0, +½）；（+½, +½）；以及（+½, 0）的移位来创建四个投影，则情况可以如此。这意味着来自四个不同投影的四个较低分辨率样本的唯一组合将在解码器处可用于要重新创建的每个较高分辨率样本。在这种情况下，在解码器侧重构的较高分辨率样本尺寸可与编码器侧的原始输入帧的较高分辨率样本尺寸相同。

在被解码的视频信号中的所有帧内执行此过程。如果如在图12中那样在不同的帧中提供不同的投影，则解码器在帧的多个序列内重复该模式。输出重构的较高分辨率帧以便供应到屏幕25，使得视频被显示给接收终端22的用户。

在单独的分组流中将不同的投影通过网络32从发射终端12发射到接收终端22。因此，每个投影在构成各流的单独的分组集合中发射，在实施例中以用于包括在该流的分组中的每个流的单独流标识符来区分。流中的至少一个被独立地编码，即使用自包含编码，而不是相对于承载其他投影的流中的任何其他流。在实施例中，可以以这种方式对流中的更多或全部进行编码，或者替换地，可相对于流中的一个中的基础投影对一些其他流进行编码。

图8给出如将从在发射终端12上运行的编码器发射到在接收终端22上运行的解码器的已编码视频信号33的示意性表示。已编码视频信号33包括用于每个块的多个已编码量化样本。进一步地，已编码视频信号被划分成分别承载不同投影（a）、（b）、（c）、（d）的单独流33a、33b、33c和33d。在一个应用中，可将已编码视频信号作为实况（实时）视频电话呼叫的一部分发射，所述实况（实时）视频电话呼叫诸如发射和接收终端12、22之间的VoIP呼叫（VoIP呼叫还可以包括视频）。

在不同流中进行发射的结果是可以丢弃流中的一个或多个，或者丢弃那些流的分组，并且仍有可能将来自剩余投影中的一个的视频的至少较低分辨率版本或者潜在地来自剩余投影的子集的较高（而并非完全）分辨率版本解码。这些流或分组可被故意地丢弃，或者可在传输中丢失。

可由于各种原因而在传输的各种阶段将投影丢弃。投影可被发射终端12丢弃。可将其配置成响应于来自接收终端22的在接收终端处不存在足以处理视频的全或较高分辨率版本的资源（例如不足的处理循环或下行链路带宽）或者接收终端的用户不一定要求全或较高分辨率的反馈；或者响应于来自网络32的在网络的一个或多个元件处不存在足以处理视频的全或较高分辨率的版本的资源（例如存在网络拥塞，使得一个或多个路由器具有足够满而使得其丢弃分组或整个流的分组队列，或者中间服务器具有不足的处理资源或者上行或下行链路带宽）反馈而这样做。可发生丢弃的另一情况，其中，发射终端12不具有足以在全或较高分辨率下进行编码的资源（例如不足的处理循环或上行链路带宽）。替换地或另外，承载不同投影的流中的一个或多个可被诸如路由器或中间服务器之类的网络32的中间元件响应于网络条件（例如拥塞）或来自接收终端22的不存在足以处理全或较高分辨率的资源或者在接收终端22处不一定要求此类分辨率的信息而丢弃。

例如，比方说信号在编码器侧被分成四个投影（a）至（d），每个投影在单独的流中。如果接收终端22接收到全部四个流，则解码系统可以重新创建该帧的全分辨率版本。然而，如果一个或多个流被丢弃，例如承载投影（b）和（d）的流，则解码系统仍可以通过仅在来自剩余流的投影（a）和（c）的重叠样本之间进行外推来重构视频的较高（但并非全）分辨率版本。替换地，如果仅剩余例如承载投影（a）一个流，则其可以单独地用来仅显示帧的较低分辨率版本。因此，可基于将视频信号分成不同的投影而提供新形式的分层或缩放编码。

如果使用投影之间的预测，则如果能够避免的话基础投影将不会被丢弃，但是可丢弃根据基础投影预测的其他投影中的一个、一些或全部。为此，可通过在基础投影的已编码流中包括作为边信息的标签而将基础投影标记为优先级。然后可将诸如路由器或服务器之类的网络32的元件配置成读取标签（或注意到其不存在）以确定可以丢弃哪些流和如果可能的话不应丢弃哪些（即应避免丢弃较高优先级基础流。）。

在一些实施例中，可以使用层级预测，由此，根据基础投影来预测一个投影，然后进而根据每个先前预测的投影来预测一个或多个另外的投影。例如，因此可根据第一投影（a）来预测第二投影（b），并且可根据第二投影（b）来预测第三投影（c），并且进而可根据投影（c）来预测第四投影（d）。如果存在超过四个投影，则可包括另外的水平。可用与每个投影在投影层级结构中的顺序相对应的各优先级来标记每个投影，并且可根据此层级标签来执行投影或承载投影的流的任何丢弃。

在实施例中，编码器使用编码器侧和解码器侧两者所假定的预定移位模式而不必通过网络在其之间用信号发送，例如两者都被预编程为使用如上文相对于图12和9所述的诸如（0, 0）；（0, +½）；（+½, +½）；（+½, 0）之类的模式。在这种情况下，不必在一个或多个已编码流中将移位模式用信号发送到解码器侧。其结果是不存在包含移位指示的分组或流可能丢失或被丢弃的问题，否则这将引起解码器处的重构方案中的故障。

替换地，如果将编码系统配置成选择哪个投影用作基础投影，则可能是这样：在已编码信号中包括关于移位模式的指示。如果任何预期指示在传输中丢失，则可将解码系统配置成单独地使用投影中的默认的一个，因此至少能够显示较低分辨率版本。

将认识到的是以上实施例仅仅是以示例的方式描述的。

例如，各种实施例不限于由2×2或4×4样本对应的样本或任何特定数目形成的较低分辨率样本，也不限于正方形或矩形样本或任何特定形状的样本。用来形成较低分辨率样本的网格结构不限于是正方形或矩形网格，并且其他形式的网格是可能的。也不需要网格结构定义均匀地形成尺寸或形状的样本。只要在来自两个或更多不同投影的两个或更多较低分辨率样本之间存在重叠，就可以从较低分辨率样本的交集中找到较高分辨率样本。

在实施例中，该编码是无损的。这可通过保留边缘样本（即除较低分辨率投影之外，还将来自每个帧的边缘的单独较高分辨率样本明确地进行编码并发送（不能使用上文所讨论的超分辨率技术来完全重构边缘样本））来实现。替换地，不需要以这种方式来保留边缘样本。替代地，对边缘周围的区使用更常规的编码，可仅对帧的内部中的帧部分（帧的一些但并非全部）应用将视频分成投影的基于超分辨率的技术。这也可以是无损的。

在其他实施例中，编码不需要是无损的——例如可容忍帧边缘处的某种退化。

可以将各种实施例实现为编码器或解码器的固有部分，例如结合为对H.264或H.265标准的更新，或者作为预处理或后处理级，例如作为对H.264或H.265标准的附加部分。进一步地，各种实施例不限于VoIP通信或通过任何特定种类的网络的通信，而是可以在能够传送数字数据的任何网络中或在用以在存储介质上存储已编码数据的系统中使用。

一般地，可使用软件、固件、硬件（例如，固定逻辑电路）或这些实施方式的组合来实现本文所述的功能中的任何一个。本文所使用的术语“模块”、“功能”、“部件”和“逻辑”一般地表示软件、固件、硬件或其组合。在软件实施方式的情况下，模块、功能或逻辑表示程序代码，其当在处理器（例如CPU或多个CPU）上执行时执行指定任务。可以将该程序代码存储在一个或多个计算机可读存储器件中。下面描述的技术的特征是平台独立的，意味着可在具有多种处理器的多种商业计算平台上实现这些技术。

例如，用户终端还可包括促使用户终端的硬件执行操作的实体（例如软件），例如处理器功能块等。例如，用户终端可包括计算机可读介质，其可被配置成保持促使用户终端且更特别是用户终端的操作系统和关联硬件执行操作的指令。因此，这些指令用于将操作系统和关联硬件配置成执行操作，并且以这种方式导致操作系统和关联硬件的变换以执行功能。这些指令可由计算机可读介质通过多种不同配置提供给用户终端。

计算机可读介质的一个此类配置是信号运载介质，并且因此被配置成诸如经由网络将这些指令（例如作为载波）发射到计算设备。还可将该计算机可读介质配置为计算机可读存储介质，并且因此不是信号运载介质。计算机可读存储介质的示例包括随机存取存储器（RAM）、只读存储器（ROM）、光盘、闪存、硬盘存储器以及可使用磁、光学及其他技术来存储指令及其他数据的其他存储器件。

虽然已用特定于结构特征和/或方法动作的语言描述了主题，但应理解的是在所附权利要求中定义的主题不一定限于上述特定特征或动作。相反地，上文描述的特定特征和动作是作为实现权利要求的示例形式而公开的。

Claims

1.一种发射终端，包括：

输入端，用于接收视频信号，该视频信号包括表示在不同的各时间的视频图像的多个帧，每个帧包括多个较高分辨率样本；

投影发生器，被配置成生成视频图像的多个不同投影，每个投影包括表示在较低分辨率下的视频图像的多个较低分辨率样本，其中，不同投影的较低分辨率样本表示较高分辨率样本的不同但重叠的群组，所述群组在视频图像的平面中在空间上重叠；

编码器，被配置成通过将不同的投影编码成单独的各已编码流来对视频信号进行编码；以及

发射机，被配置成通过网络将单独的已编码流中的每一个发射到接收终端。

2.权利要求1的发射终端，其中，所述投影中的每一个是所述帧序列中的各自不同的一个的，其中，所述帧序列中的每一个的投影是不同投影的模式中的各自的一个，并且其中，所述模式在所述帧的连续序列内重复。

3.权利要求2的发射终端，其中，所述模式是预定的，并未在流中的任何一个中用信号从编码系统发送到解码系统。

4.任何一项前述权利要求的发射终端，其中，已编码流中的至少一个可独立于所述已编码流中的所有其他流而解码。

5.任何一项前述权利要求的发射终端，其中，所述编码器被配置成通过在不同帧的投影之间施加预测编码来对各帧中的一个或多个进行编码，由此，相对于另一帧的投影中的另一、基础投影对一个帧的投影进行编码。

6.权利要求5的发射终端，其中，所述编码系统被配置成插入标签，该标签将承载基础投影的流标记为优先级。

7.任何一项前述权利要求的发射终端，其中，所述发射机被配置成响应于发射终端、网络以及接收终端中的一个的条件而丢弃所述流中的一个或一些。

8.一种用于转发包括表示在不同的各时间的视频图像的多个帧的视频信号的网络元件，该网络元件包括：

收发机设备，其被布置成通过网络从发射终端接收多个单独的已编码视频流，已编码视频流中的每一个包括视频图像的多个不同投影中的各自不同的一个，每个投影包括表示在较低分辨率下的视频图像的多个较低分辨率样本，其中，不同投影的较低分辨率样本表示较高分辨率样本的不同但重叠的群组，所述群组在视频图像的平面中在空间上重叠；以及

处理设备，其被配置成根据网络、网络元件和接收终端中的一个的条件来确定是否丢弃所述已编码视频流中的至少一个，使已编码视频流中的一个或多个剩余；

其中，所述收发机被布置成将一个或多个剩余流通过网络转发到接收终端，但被处理设备丢弃的已编码视频流中的任何一个不这样。

9.权利要求8的网络元件，其中，已编码视频流中的至少一个包括指示该流的优先级的标签，并且所述处理设备被配置成根据该标签而丢弃已编码视频流中的至少一个。

10.一种用于对视频信号进行解码的计算机程序产品，该视频信号包括表示在不同的各时间的视频图像的多个帧，每个帧包括多个较高分辨率样本，该计算机程序产品被体现在计算机可读存储介质上，并且包括代码，该代码被配置成使得当在接收终端上执行时执行以下操作：

通过网络从发射终端接收多个单独的已编码视频流，已编码视频流中的每一个包括视频图像的多个不同投影中的各自不同的一个，每个投影包括表示在较低分辨率下的视频图像的多个较低分辨率样本，其中，不同投影的较低分辨率样本表示在视频图像的平面中在空间上重叠的不同但重叠的部分；

将已编码视频流解码从而将投影解码；

对于以下这样生成的每个较高分辨率样本，通过从来自不同投影的较低分辨率样本中的一些之间的重叠区形成较高分辨率样本来生成表示在较高分辨率下的视频图像的较高分辨率样本；以及

在从投影进行的生成之后，在较高分辨率下向屏幕输出视频信号；

其中，所述投影中的每一个是所述帧序列中的各自不同的一个的，并且所述帧序列中的每一个的投影是不同投影的预定模式中的各自的一个，其中，所述模式在所述帧的连续序列内重复；以及

所述代码被配置成基于在接收终端处预先存储或预先编程而不是在所述流中的任何一个中从发射终端接收到的预定模式来执行所述生成。