CN110121065B

CN110121065B - 空间排序视频编码应用中的多向图像处理

Info

Publication number: CN110121065B
Application number: CN201910108184.6A
Authority: CN
Inventors: J·H·金; 张大忠; 袁航; 翟杰夫; 陈鸣; 周小松; C·Y·昌; 吴锡荣
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2018-02-05
Filing date: 2019-02-03
Publication date: 2021-02-09
Anticipated expiration: 2039-02-03
Also published as: US20190246141A1; US10652578B2; CN110121065A; DE102019201370A1

Abstract

本发明题为“空间排序视频编码应用中的多向图像处理”。图像处理技术可加快对包含在多视图图像数据内的视口数据的编码。根据此类技术，编码器可以根据解码器提供的视口位置数据移位多向图像数据的内容。编码器可以通过预测编码对移位的多向图像数据进行编码，并且将编码的多向图像数据和识别移位量的数据传送给解码器。这样做可将视口位置移动到图像数据中比视口位置自然占据的位置更早编码的位置，从而可以加速编码。在解码时，解码器可以将其当前视口位置与编码器提供的视口位置数据与编码视频数据进行比较。解码器可以对编码的视频数据进行解码，并且提取解码视频数据的对应于当前视口位置的部分进行显示。

Description

空间排序视频编码应用中的多向图像处理

背景技术

本公开涉及用于多向成像应用的编码技术。

一些现代成像应用可以从关于相机的多个方向捕获图像数据。一些相机在图像捕获期间旋转，这允许相机通过扩展相机有效视场的角度扫描捕获图像数据。一些其他相机具有多个成像系统，其可以在多个不同的视场中捕获图像数据。在任一情况下，可以创建聚合图像，其合并从这些多个视野捕获的图像数据。

各种呈现应用可用于多向内容。一个呈现应用涉及提取和显示包含在多向图像中的内容的一个子集。例如，观察者可以采用头戴式显示器并改变显示器的取向以识别多向图像中观察者感兴趣的部分。或者，观察者可以采用静止显示器并通过用户界面控件识别多向图像中观察者感兴趣的部分。在这些呈现应用中，显示设备从多向图像中提取图像内容的一部分(为方便起见称为“视口”)并予以显示。显示设备不会显示多向图像在视口占据的区域之外的其他部分。

在此类应用中，因此，显示设备接收超过需要显示的数据的图像数据。当通过视频压缩技术对接收的数据进行编码时，在将多向图像提供给显示器以进行呈现之前，可以采用解码设备完整地解码多向图像的压缩图像数据。解码此类图像数据需要处理延迟，该延迟可延缓视口数据的呈现。

因此，发明人认为本领域需要一种视频编码技术，该技术编码多向图像的数据，但避免在为显示应用生成视口数据时出现不必要的延迟。

附图说明

图1示出了根据本公开的一个方面的系统。

图2示意性地示出了根据本公开的一个方面的用于宿终端的呈现应用。

图3示出了根据本公开的一个方面的一种方法。

图4示出了可以由源终端编码的全向视频帧。

图5示出了可由图3的方法获得的移位帧。

图6是根据本公开的一个方面的编码系统的功能框图。

图7是根据本公开的一个方面的解码系统的功能框图。

图8是根据本公开的一个方面的编码系统的功能框图。

图9是根据本公开的一个方面的解码系统的功能框图。

图10示出了根据本公开的一个方面的一种方法。

图11示出了可以由源终端编码的全向视频帧。

图12示出了在本公开的一个方面中，可以通过图10的方法操作图11的示例性视口数据获得的移位帧。

图13示出了在本公开的另一个方面中，可以通过图10的方法操作图11的示例性视口数据获得的移位帧。

图14至图16示出了适用于本公开技术的示例性多向图像格式。

具体实施方式

本公开的各方面提供了图像处理技术，其加速视口数据的编码，同时避免在为显示应用生成视口数据时的不必要延迟。根据此类技术，编码器可以根据解码器提供的视口位置数据移位多向图像数据的内容。编码器可以通过预测编码对移位的多向图像数据进行编码，并且将编码的多向图像数据和识别移位量的数据传送给解码器。这样做可将视口位置移动到图像数据中比视口位置自然占据的位置更早编码的位置，从而可以加速编码。在解码时，解码器可以将其当前视口位置与编码器提供的视口位置数据与编码视频数据进行比较。解码器可以对编码的视频数据进行解码，并且提取解码视频数据的对应于当前视口位置的部分进行显示。

图1示出了根据本公开的一个方面的系统100。这里，系统100示出为包括通过网络130互连的源终端110和宿终端120。源终端110可以向宿终端120传输全向视频的编码表示。宿终端120可以接收编码视频，对其进行解码，并且显示解码视频的选定部分。

图1将源终端110示出为在对其进行编码之前捕获本地环境的图像数据的多向相机。在另一方面，源终端110可以从外部源(未示出)接收全向视频诸如流服务或存储设备。

宿终端120可以确定由多向图像表示的三维空间中的视口位置。宿终端120可以例如基于终端在自由空间中的取向选择要显示的解码视频的一部分。图1示出了作为头戴式显示器的宿终端120，但是在其他方面，宿端子120可以是另一种类型的显示设备，诸如静止平板显示器、智能电话、平板电脑、游戏设备或便携式媒体播放器。可以为每个这样的显示类型提供不同类型的用户控件，观察者通过所述控件识别视口。除非在本文另有说明，否则宿终端的设备类型与本讨论无关。

网络130表示从源终端110延伸到宿终端120的任何数量的计算机和/或通信网络。网络130可包括电路交换和/或分组交换通信网络的一个或组合。网络130可以通过任何数量的有线和/或无线通信介质在源终端110和宿终端120之间传送数据。除非本文另有说明，否则网络130的架构和操作与本讨论无关。

图1示出了一种通信配置，其中编码视频数据沿着单个方向从源终端110传输到宿终端120。本公开的各方面适用于从终端110到终端120以及从终端120到终端110以双向方式交换编码视频数据的通信设备。本公开的原理适用于视频的单向和双向交换两者。

图2示意性地示出了根据本公开的一个方面的用于宿终端200的呈现应用。这里，全向视频表示为好像其沿着设置在宿终端200周围的球形表面210存在。基于宿终端200的取向，终端200可以选择视频的一部分(为方便起见，称为“视口”)并显示所选择的部分。随着宿终端200的取向改变，终端200可以从视频中选择不同的部分。例如，图2示出了视口沿着表面210从第一位置230改变到第二位置240。

本公开的各方面可根据多个编码协议中的任一个应用视频压缩技术。例如，源终端110(图1)可以根据ITU-T编码协议诸如H.265(HEVC)、H.264(AVC)或前导编码协议对视频数据进行编码。通常，这种协议将各个视频帧解析成视频的空间阵列，这里称为“图块”，并且它们以常规编码顺序诸如光栅扫描顺序对像素块进行编码。

图3示出了根据本公开的一个方面的一种方法300。根据方法300，宿终端120可以向源终端110传输数据，识别由宿终端120显示的视口的位置(消息310)。响应于视口位置数据，方法300可以以对应于视口位置数据的量移位全向图像的图块(框320)。方法300可以预测性地对移位帧进行编码(框330)，并且随后，向宿终端120传输移位帧的编码视频以及识别视口位置的数据(消息340)。

宿终端120可以接收编码的视频数据并对其进行解码(框350)宿终端120还可以从对应于视口的解码帧中提取数据并予以显示(框360)。

图3中的方法300可以在视频编码会话过程中以多次迭代重复。预期宿终端120将以周期性间隔报告其视口位置(消息310)，并且在此类视口位置报告之间，源终端110将在已经移位以考虑当前视口位置之后对视频序列的新接收帧进行编码(框310)。如本文所述，预测视频编码通常通过相对于被指定用作参考帧的先前编码的帧差分地表示输入帧来利用视频序列中的时间冗余。在一方面，方法300还可以移位参考帧以对应于新接收的视口位置(框370)。这样，可以在输入帧的取向和参考帧的取向之间保持对准，这可以减小在预测编码期间导出的运动矢量的大小。

图4示出了可以由源终端110编码的全向视频帧400。这里，帧400被示出为已解析为多个图块410.0至410.n。每个图块都以光栅扫描顺序编码。因此，可以在图块410.1的内容之前对图块410.0的内容进行编码，图块410.1的内容可以在图块410.2的内容之前编码。可以通过沿公共行对每个图块进行编码并继续对后续行中的图块编码，直到编码最后一行的图块410.n，从而继续该过程。通常，图块410.0至410.n是参照针对源图像400定义的原点420定义的。

如所讨论的，宿终端120(图1)可以在其被源终端110(图1)编码、传输到宿终端120并解码之后从帧400提取视口430。宿终端120可以在本地显示视口400。宿终端120可以向源终端110传输识别帧400的区域内的视口430的位置的数据。例如，宿终端120可以传输示出为偏移x和偏移y的偏移数据，其用于标识在帧400区域内的视区430的位置。

图5示出了可以通过图3的方法300操作图4的示例帧400获得的移位帧500。在该示例中，方法400可以将帧数据400移位整数个图块，以将视口530定位为尽可能靠近帧500的原点520。当帧数据移位时，逐个图块编码过程可能导致移位帧500第一行中的图块510.0至510.3首先编码，然后编码后续行的图块510.4至510.7和510.8至510.n。视频数据的移位预期将使视口530的图像内容进入编码的第一行。

编码视频数据的解码也可以以光栅扫描顺序进行。因此，当对帧500的编码视频数据进行解码时，预期第一行中的图块510.0至510.3的解码视频数据将在后续行的图块510.4至510.7和510.8至510.n的解码视频数据可用之前可用。这样，可以以较低的延迟获得和显示视口530的解码视频数据。

全向图像中的数据移位可导致图像内容“环绕”图像边界。因此，当图块410.4至410.7(图4)从中间行位置移动到顶行位置中的图块510.0至510.3时，先前占据顶行位置的图块410.0至410.3环绕图像的最低位置。在图4和图5的示例中，视区430被移位一行，并且因此，图4中顶行的图块410.0至410.3被移位一行位置到图5的图块510.8至510.n的底行。

类似地，图块可以沿着柱状方向移位，其中图块从源图像中的低柱状位置400环绕到移位图像500中的对应高柱状位置。因此，在图4和图5的示例中，视口430可移位一个柱状位置以在移位图像中占据图块510.0。由于移位，占据图块410.0、410.4和410.8的图像内容可以分别移位到柱状位置510.3、510.7和510.n.图5示出了在移位之后源原点540的位置。

当源终端110对移位帧500进行编码时(框330，图3)，源终端110可以在编码视频数据中包括标识编码帧内的视口位置的元数据。例如，如图5所示，编码视频数据可包括用于标识编码帧内视口位置的偏移X’和偏移Y'指示符。

在图3的方法300的操作期间，可出现通信延迟，其导致宿终端120处的视口从宿终端在消息310中传送视口位置的时间改变为宿终端120在框360中显示视口数据的时间。在一个方面，方法300的操作可以迭代地执行，其中宿终端120以各种间隔标识其视口位置，并且作为响应宿终端120接收编码移位帧。此外，源终端110和宿终端120可参与跟踪由宿终端120在消息310中标识的视口位置报告的各种迭代的信令。在这样的方面，当宿终端120在框350中对移位帧进行解码时，其可以提取对应于在显示时存在的视口位置的图像内容。例如，宿终端120可确定当前视口位置是否不同于框320中源终端110使用的视口位置以及不同程度。这样，即使在存在通信延迟时，宿终端120也可以针对当前定义的视口提取并显示视频内容。

源设备110可以多种方式报告视口的位置。在一个方面，可使用x和y偏移标识视口位置，如图5所示(偏移x’，偏移y')。在另一方面，可使用旋转角度θ、

和α标识视口位置(图2)。实际上，可以针对编码协议定义语法以支持通过这些技术中的任何技术进行的编码。一种这样的语法在下面的表1中定义：

表1

图6是根据本公开的一个方面的编码系统600的功能框图。系统600可包括图像源610、图像处理系统620、视频编码器630、视频解码器640、参考图片存储器650和预测器660。图像源610可以生成图像数据作为多向图像，包含沿多个方向围绕参考点延伸的视场的图像数据。图像处理系统620可执行图像处理操作以调节图像用于编码。在一个方面，图像处理系统620可以根据视口位置数据移位多向图像的内容，如前面的讨论中所述。视频编码器630可通常通过利用图像数据中的空间和/或时间冗余生成其输入图像数据的编码表示。视频编码器630可输出输入数据的编码表示，其在传输和/或存储时消耗比原始源视频更少的带宽。

视频解码器640可以反转由视频编码器630执行的编码操作，以从编码视频数据获得重构的图片。通常，由视频编码器630应用的编码过程是有损过程，这使得重构图片在与原始图片相比时具有各种误差。视频解码器640可重构被指定为“参考图片”的选定编码图片的图片，并且将解码参考图片存储在参考图片存储器650中。在没有传输错误的情况下，解码的参考图片将复制由解码器(图6中未示出)获得的解码的参考图片。

预测器660可以在编码时为新输入图片选择预测参考。对于被编码的输入图片的每个部分(为了方便称为“像素块”)，预测器660可以选择编码模式并且识别参考图片的可用作被编码的像素块的预测参考搜索的部分。编码模式可以是帧内编码模式，在这种情况下，可以从被编码的图片的先前编码(和解码)部分中提取预测参考。或者，编码模式可以是帧间编码模式，在这种情况下，可以从另一个先前编码和解码的图片中提取预测参考。

当识别适当的预测参考时，预测器660可以将预测数据提供给视频编码器630。视频编码器630可针对由预测器660提供的预测数据差分地编码输入视频数据。通常，预测操作和差分编码在逐个像素块的基础上操作。表示输入像素块和预测像素块之间的像素方面差异的预测残差可经受进一步编码操作以进一步减小带宽。

如所指出的，视频编码器630输出的编码视频数据在传输和/或存储时应比输入数据消耗更少的带宽。编码系统600可将编码视频数据输出到输出设备670诸如收发器，其可以通过通信网络130(图1)传输编码的视频数据。或者，编码系统600可将编码数据输出到存储设备(未示出)诸如电子、磁和/或光存储介质。

收发器670还可从解码终端(图7)接收视口位置数据，并且将视口位置数据提供给图像处理器620。

图7是根据本公开的一个方面的解码系统700的功能框图。解码系统700可包括收发器710、视频解码器720、图像处理器730、视频接收器740、参考图片存储器750和预测器760。收发器710可从信道接收编码视频数据并将其路由到视频解码器720。视频解码器720可参考由预测器760提供的预测数据对编码视频数据进行解码。视频解码器720可以在由生成编码视频的编码系统的图像处理器220(图2)确定的表示中输出解码的视频数据。图像处理器730可以根据解码系统处当前有效的视口取向从解码视频提取视频数据。图像处理器730可以将提取的视口数据输出到视频接收设备740。

如所指示的，视频接收设备740可以消耗由解码系统700生成的解码视频。视频接收器740可以由例如呈现解码视频的显示设备诸如视频接收器120实现。在其他应用中，视频接收器740可以由计算机应用程序例如游戏应用程序、虚拟现实应用程序和/或视频编辑应用程序实现，其将解码的视频集成到其内容中。在一些应用中，视频接收器可以针对其应用处理解码视频的整个多向视场，但在其他应用中，视频接收器740可以处理来自解码视频的所选内容子集。例如，当在平板显示器上呈现解码视频时，仅显示所选多向视频的子集可能就足够了。在另一个应用中，解码视频可以以多向格式例如在天文馆中呈现。

收发器710还可以从图像处理器620提供的编码终端(图6)发送视口位置数据。

图8是根据本公开的一个方面的编码系统800的功能框图。系统800可包括像素块编码器810、像素块解码器820、环路滤波器系统830、参考图片存储器840、预测器850、控制器860和语法单元870。像素块编码器和解码器810、820和预测器850可以迭代地操作已经根据前述实施方案之一移位的图片的各个像素块。通常，像素块将通过将图块解析为更小的单元进行编码来生成。预测器850可以预测在新呈现的输入像素块的编码期间使用的数据。像素块编码器810可以通过预测编码技术对新像素块进行编码，并且将编码像素块数据呈现给语法单元870。像素块解码器820可以对编码像素块数据进行解码，从而从中生成解码的像素块数据。环路滤波器830可以对从像素块解码器820获得的解码像素块组装的解码图片执行各种滤波操作。滤波图片可以存储在参考图片存储器840中，其中其可以用作稍后接收的像素块的预测源。语法单元870可以组装来自编码像素块数据的数据流，该数据流符合管理编码协议。

编码器810可包括减法器812、变换单元814、量化器816和熵编码器818。像素块编码器810可在减法器812处接受输入数据的像素块。减法器812可以从预测器850接收预测的像素块，并且从其生成表示输入像素块和预测像素块之间差异的像素残差阵列。变换单元814可将变换应用于从减法器812输出的样本数据，以将数据从像素域转换到变换系数的域。量化器816可以执行由变换单元814输出的变换系数的量化。量化器816可以是均匀或非均匀量化器。熵编码器818可以通过例如通过可变长度码字对输出进行编码减小系数量化器输出的带宽。

变换单元814可根据控制器860确定的各种变换模式进行操作。例如，变换单元814可以应用离散余弦变换(DCT)、离散正弦变换(DCT)、沃尔什-哈达玛变换、哈尔变换、Daubechies小波变换等。在一方面，控制器860可以选择要由变换单元815应用的编码模式M，可以相应地配置变换单元815并且可以显式地或隐式地在编码视频数据中用信号通知编码模式M。

量化器816可以根据由控制器860提供的量化参数Q_P来操作。在一方面，量化参数Q_P可作为多值量化参数应用于变换系数，其可例如在变换域像素块内的不同系数位置上变化。因此，量化参数Q_P可以被提供为量化参数阵列。

如其名称所指示的，熵编码器818可以执行从量化器816输出的数据的熵编码。例如，熵编码器818可以执行游程长度编码、霍夫曼编码、哥伦布编码等。

像素块解码器820可反转像素块编码器810的编码操作。例如，像素块解码器820可包括去量化器822、反变换单元824和加法器826。像素块解码器820可从量化器816的输出中获得其输入数据。尽管允许，但是像素块解码器820不需要执行熵编码数据的熵解码，因为熵编码是无损事件。去量化器822可以反转像素块编码器810的量化器816的操作。去量化器822可以执行由解码信号Q_P指定的均匀或非均匀去量化。类似地，反变换单元824可以反转变换单元814的操作。去量化器822和反变换单元824可以使用与像素块编码器810中的对应物相同的量化参数Q_P和变换模式M。量化操作可能会在各个方面截断数据，并且因此，当与在像素块编码器810中呈现给量化器816的数据相比时，由去量化器822恢复的数据可能将具有编码误差。

加法器826可以反转由减法器812执行的操作。其可以从预测器850接收与减法器812用于生成残差信号的相同预测像素块。加法器826可将预测像素块添加到由反变换单元824输出的重构残差值，并且可以输出重构像素块数据。

环路滤波器830可以对恢复的像素块数据执行各种滤波操作。例如，环路滤波器830可以包括解块滤波器832和样本自适应偏移(“SAO”)滤波器833。解块滤波器832可在重构像素块之间的接缝处对数据进行滤波，以减少由于编码而出现的像素块之间的不连续性。SAO滤波器可以根据SAO“类型”例如基于边缘方向/形状和/或像素/颜色分量水平向像素值添加偏移。环路滤波器830可根据控制器860选择的参数进行操作。

参考图片存储器840可以存储滤波的像素数据，以用于稍后预测其他像素块。针对不同的预测模式，使预测器850可获得不同类型的预测数据。例如，对于输入像素块，帧内预测从输入像素块所在的相同图片的解码数据中获取预测参考。因此，参考图片存储器840可以在编码时存储每个图片的解码像素块数据。对于相同输入像素块，帧间预测可以从指定作为参考图片的先前编码和解码的图片中获取预测参考。因此，参考图片存储器840可存储这些解码的参考图片。

如所讨论的，预测器850可向像素块编码器810提供预测数据以用于生成残差。预测器850可以包括帧间预测器852、帧内预测器853和模式判断单元852。帧间预测器852可以接收表示要编码的新像素块的像素块数据，并且可从存储器840中搜索参考图片数据，以查找参考图片中的像素块数据，以用于对输入像素块进行编码。帧间预测器852可支持多个预测模式诸如P模式编码和B模式编码。帧间预测器852可以选择帧间预测模式和候选预测参考数据的标识，该候选预测参考数据提供与被编码的输入像素块最接近的匹配。帧间预测器852可以生成预测参考元数据诸如运动矢量，以识别哪些参考图片的哪个部分被选择作为输入像素块的预测源。

帧内预测器853可以支持帧内(I)模式编码。帧内预测器853可以从与被编码的像素块相同的图片中的像素块数据中搜索，该像素块提供与输入像素块最接近的匹配。帧内预测器853还可以生成预测参考指示符，以识别图片的哪个部分被选择作为输入像素块的预测源。

模式判断单元852可以选择要应用于输入像素块的最终编码模式。通常，如上所述，模式判断单元852选择在给定目标比特率的情况下解码视频时将达到最低失真的预测模式。当选择编码模式以满足编码系统800遵循的其他策略诸如满足特定信道行为，或者支持随机接入或数据刷新策略，可能出现例外。当模式判断选择最终编码模式时，模式判断单元852可以将所选择的参考块从存储器840输出到像素块编码器810和解码器820，并且可以向控制器860提供所选择的预测模式的标识以及与所选模式相对应的预测参考指示符。

控制器860可以控制编码系统800的整体操作。控制器860可以基于输入像素块的分析和外部约束诸如编码比特率目标和其他操作参数，为像素块编码器810和预测器850选择操作参数。与本讨论相关，当其选择量化参数Q_P、使用均匀或非均匀量化器和/或变换模式M时，其可将那些参数提供给语法单元870，语法单元可在系统800输出的编码视频数据的数据流中包括表示这些参数的数据。控制器860还可以在系统可以通过其生成参考图像的不同操作模式之间进行选择，并且可以包括识别选择用于编码数据的每个部分的模式的元数据。

在操作期间，控制器860可以在每个像素块的基础上或以更大的粒度(例如，每个图片、每个分片、每个最大编码单元(“LCU”)或另一个区域)以图像数据的不同粒度修改量化器816和变换单元815的操作参数。在一方面，可在编码图片内基于每个像素修改量化参数。

另外，如所讨论的，控制器860可以控制环路滤波器830和预测单元850的操作。对于预测单元850，这种控制可以包括模式选择(λ、待测模式、搜索窗口、失真策略等)，并且对于环路滤波器830，还包括选择滤波器参数、重新排序参数、加权预测等。

本讨论的原理可与已针对多向视频提出的其他编码操作协同使用。例如，预测器850可以使用球形投影中的输入像素块数据和参考像素块数据执行预测搜索。这种预测技术的操作可以如2016年12月23日提交的美国专利申请15/390,202和2017年2月27日提交的美国专利申请15/443,342中所述的执行，所述两个专利申请转让给本申请的受让人，其公开内容通过引用方式并入本文。

图9是根据本公开的一个方面的解码系统900的功能框图。解码系统900可包括语法单元910、像素块解码器920、环路滤波器930、参考图片存储器940、预测器950、控制器960和重新格式化单元970。语法单元910可以接收编码视频数据流，并且可以将编码数据解析为其组成部分。表示编码参数的数据可以提供给控制器960，而表示编码残差的数据(图8的像素块编码器810输出的数据)可以提供给像素块解码器920。像素块解码器920可反转像素块编码器810(图8)提供的编码操作。环路滤波器930可以对重构的像素块数据进行滤波。重构的像素块数据可以被组装成图片以供显示并从解码系统900输出作为输出视频。该图片还可以存储在预测缓冲器940中以用于预测操作。预测器950可以将预测数据提供给像素块解码器920，如通过在编码视频数据流中接收的编码数据所确定的。

像素块解码器920可包括熵解码器922、去量化器924、反变换单元926和加法器928。熵解码器922可以执行熵解码以反转由熵编码器818(图8)执行的过程。去量化器924可以反转像素块编码器810(图8)的量化器916的操作。类似地，反变换单元926可以反转变换单元814(图8)的操作。它们可以使用在编码视频数据流中提供的量化参数Q_P和变换模式M。由于量化可能截断数据，当与在像素块编码器810(图8)中呈现给其对应量化器916的数据相比时，由去量化器924恢复的数据可能将具有编码误差。

加法器928可以反转由减法器810(图8)执行的操作。其可以从预测器950接收预测像素块，如由编码视频数据流中的预测参考所确定的。加法器928可将预测像素块添加到由反变换单元926输出的重构残差值，并且可以输出重构像素块数据。

环路滤波器930可以对重构的像素块数据执行各种滤波操作。如图所示，环路滤波器930可以包括解块滤波器932和SAO滤波器934。解块滤波器932可在重构像素块之间的接缝处对数据进行滤波，以减少由于编码而出现的像素块之间的不连续性。SAO滤波器934可以根据SAO“类型”例如基于边缘方向/形状和/或像素等级向像素值添加偏移。其他类型的环路滤波器也可以以类似的方式使用。理想情况下，解块滤波器932和SAO滤波器934的操作将模仿编码系统800(图8)中的对应物的操作。因此，在没有传输错误或其他异常的情况下，从解码系统900的环路滤波器930获得的解码图片将与从编码系统800(图8)的环路滤波器810获得的解码图片相同；这样，编码系统800和解码系统900应在其相应的参考图片存储器840、940中存储一组公共参考图片。

参考图片存储器940可以存储滤波的像素数据，以用于稍后预测其他像素块。参考图片存储器940可以在其编码用于帧内预测时存储每个图片的解码像素块数据。参考图片存储器940还可存储解码的参考图片。

如所讨论的，预测器950可以将变换的参考块数据提供给像素块解码器920。预测器950可提供由编码视频数据流中提供的预测参考指示符确定的预测像素块数据。

控制器960可以控制编码系统900的整体操作。控制器960可以基于在编码视频数据流中接收的参数设置像素块解码器920和预测器950的操作参数。与本讨论相关，这些操作参数可以包括用于去量化器924的量化参数Q_P和用于反变换单元910的变换模式M。如所讨论的，可以在图像数据的各种粒度下例如基于每个像素块、每个图片、每个分片、每个LCU，或者基于为输入图像定义的其他类型的区域设置接收的参数。

在一个实施方案中，可以基于它们与解码器报告的视口的关系来不同地执行像素块的编码。返回图5，例如，属于视口530所在图块510.0、510.1的像素块(未示出)可以以比其他图块510.2至510.n的像素块的编码相对更高的质量执行。通常，通过降低在编码期间使用的量化参数实现这种更高质量的编码，这导致比使用更高量化参数时更低的数据丢失。

图10示出了根据本公开的一个方面的一种方法1000。根据方法1000，宿终端120可以向源终端110传输数据，识别由宿终端120显示的视口的位置(消息1010)。响应于视口位置数据，方法1000可以以对应于视口位置数据的量移位全向图像的帧数据(框1020)。方法1000可以预测性地对移位帧进行编码(框1030)，并且随后，向宿终端120传输移位帧的编码视频以及识别视口位置的数据(消息1040)。

宿终端120可以接收编码的视频数据并对其进行解码(框1050)宿终端120还可以从对应于视口的解码帧中提取数据并予以显示(框1060)。

图11示出了可以由源终端110编码的全向视频帧1100。如所讨论的，宿终端120(图1)可以在其被源终端110(图1)编码、传输到宿终端120并解码之后从帧1100提取视口1110，然后在本地显示视口1110。宿终端120可以向源终端110传输识别帧1100的区域内的视口1110的位置的数据。在图11的示例中，宿终端120可传输偏移和取向数据，如本示例中的偏移-θ、偏移-

和偏移-α所示，以标识帧1100的区域内的视口1110的位置和取向。

图12示出了可以通过图10的方法1000操作图11的示例视口数据获得的移位帧1200。在该示例中，方法1000将使帧数据1100移位以在帧1200的原点1220处定位视口1210。这样做使得帧1200的数据根据视口数据移位。移位之后，先前在视口1210位置处的图像数据将位于帧1200的原点1220处(由视口1230表示)。预期视频编码过程将首先在原点1220对视频数据进行编码，然后在帧1200上以光栅扫描顺序进行。

编码视频数据的解码预期也以光栅扫描顺序进行。因此，当解码帧1200的编码视频数据时，将首先针对位于帧的原点1220附近的视频数据创建解码视频数据。移位视口1230的解码视频数据应比显示器其他部分的解码视频数据更早可用于显示。

尽管未在图10中示出，方法1000还适应参考帧的移位，如图3中所讨论的。

在一个方面，如图13所示，移位视口数据可包括填充数据以适应源设备和宿设备之间的通信延迟。例如，使用图11的帧数据1100，将视口数据1310移位到编码的新帧1300的原点1320，移位量可以适应围绕移位视口1330外围的填充区域(如Δ所示)。将视口数据1310移位到由接近原点1320的Δx、Δy位置表示的位置，而不是将视口数据1310直接移位到帧1300的原点1320。预期如果解码时解码器的实际视口位置已移动至包括来自移位视口数据1330周围填充区域的数据，在对帧1300进行解码期间，解码器将比没有使用填充区域的情况下更早地访问填充数据。在不使用填充区域的方面，可能出现一些使用情况，其中实际视口位置移动至包括帧1300的空间远离位置诸如帧1300的底部区域处的数据，其仅在帧1300被完整解码之后变得可用。

本公开的原理适用于各种格式的多向图像。

图14示出了根据一个方面的示例性多向图像格式。多向图像1430可以由沿轴枢转的相机1410生成。在操作期间，相机1410可以在其沿着预先确定的角度距离1420(优选地，整个360°)枢转时捕获图像内容，并且可以将捕获的图像内容合并为360°图像。捕获操作可产生多向图像1430，其表示沿着将圆柱形视场分割为二维数据阵列的分片1422划分的多向视场。在多向图像1430中，图像1430的边缘1432、1434的任一者上的像素表示相邻图像内容，即使其出现在多向图像1430的不同边缘上。

图15示出了根据另一个方面的示例性多向图像格式。在图15的方面，相机1510可具有图像传感器1512至1516，其从公共参考点捕获不同视场中的图像数据。相机1510可输出多向图像1530，其中图像内容根据立方图捕获操作1520进行布置，其中传感器1512至1516在关于相机1510的不同视场1521至1526(通常为6个)中捕获图像数据。不同视场1521至1526的图像数据可以根据立方图布局1530接合在一起。在图15所示的示例中，根据相应视图1521至1526之间的图像内容的“接缝”，可以在多向图片1530中捕获、接合和布置与左视图1521、前视图1522、右视图1523、后视图1524、顶视图1525和底视图1526相对应的六个子图像。因此，如图15所示，来自前图像1532的与来自左图像1531、右图像1533、顶部图像1535、底部图像1536每一者的像素相邻的像素表示分别与邻接子图像内容相邻的图像内容。类似地，来自右图像1533和后图像1534的彼此相邻的像素表示相邻图像内容。此外，来自后方图像1534的终端边缘1538的内容与来自左图像的相对终端边缘1539的内容相邻。图像1530也可以具有不属于任何图像的区域1537.1至1537.4。图15所示的表示通常称为“立方图”图像。

立方图图像的编码可以以多种方式发生。在一个编码应用中，立方图图像1530可以被直接编码，其包括不具有图像内容的空区域1537.1至1537.4的编码。在这种情况下，当根据图3或图10描述的技术移位视口图像时，图像移位可以将视口数据移位到先前由空区域1537.4占据的区域中。

在其他编码应用中，可以重新压缩立方图图像1530以在编码之前消除空区域1537.1至1537.4，如图像1540所示。图3或图10中所述的技术也可应用于压缩的图像帧1540。可以根据解码器报告的视口位置数据移位图像数据，然后进行编码。在解码时，可以首先解码解码图像数据，然后根据偏移向后移位并在显示之前解压缩。

图16示出了另一个示例性的多向图像格式1630。图16的帧格式可以由另一种称为全景相机的全向相机1600生成。全景相机通常由一对鱼眼镜头1612、1614和关联成像设备(未示出)组成，每个成像设备布置用于以半球形视野捕获图像数据。从半球形视场捕获的图像可以接合在一起以在完整360°视场中表示图像数据。例如，图16示出了多向图像1630，其包含来自相机的半球形视野1622、1624的图像内容1631、1632，并且在接缝1635处接合。上文描述的技术还可以以这种格式1630应用于多向图像数据。

前述讨论已在视频编码器和解码器的情境下描述了本公开的各方面的操作。这些部件常常作为电子设备来提供。视频编码器和/或解码器可在集成电路诸如专用集成电路、现场可编程门阵列和/或数字信号处理器中实施。另选地，它们可在相机设备、个人计算机、笔记本电脑、平板电脑、智能电话或计算机服务器上执行的计算机程序中实施。此类计算机程序通常存储在物理存储介质诸如电子、磁性和/或基于光学的存储设备中，在那里它们被读取到处理器并且被执行。解码器通常封装在消费电子设备诸如智能电话、平板电脑、游戏系统、DVD播放器、便携式媒体播放器等中；并且其也可以封装在消费软件应用诸如视频游戏、媒体播放器、媒体编辑器等中。并且，当然，这些部件可被提供作为根据需要在专用硬件部件和经编程的通用处理器上分配功能的混合系统。

Claims

1.一种图像编码方法，包括：

响应于来自解码器的识别视口的位置的数据，移位多向图像数据以将由所述视口位置数据识别的内容放置在预定图块位置，

通过预测编码按逐个图块顺序对经移位的多向图像数据进行编码，并且

向解码器传输经编码的移位的多向图像数据和识别移位量的数据。

2.根据权利要求1所述的编码方法，其中：

所述预定图块位置对应于比在没有所述移位的情况下在其中编码由所述视口位置数据识别的所述内容的图块更早编码的图块。

3.根据权利要求2所述的编码方法，其中所述经移位的多向图像数据的所述预测编码对图像的包含所述视口的图块在高于所述图像的不包含所述视口的图块的编码的质量等级进行编码。

4.根据权利要求1所述的编码方法，其中所述移位将所述视口的位置置于经移位的多向图像数据的原点，并且编码从经移位的多向图像数据的所述原点开始。

5.根据权利要求1所述的编码方法，其中所述移位将所述视口的位置置于偏移某个填充量的经移位的多向图像数据的原点处，并且编码在经移位的多向图像数据的所述原点处开始。

6.根据权利要求1所述的编码方法，还包括移位参考帧，所述参考帧根据视口位置为多向图像数据的所述预测编码提供预测参考。

7.根据权利要求1所述的编码方法，其中所述视口位置数据表示先前编码帧的解码器处的显示条件。

8.根据权利要求1所述的编码方法，其中所述视口位置数据包含x和y偏移数据。

9.根据权利要求1所述的编码方法，其中所述视口位置数据包含角度偏移数据。

10.根据权利要求1所述的编码方法，其中多向图像数据是立方图图像。

11.根据权利要求1所述的编码方法，其中多向图像数据为全向图像。

12.一种图像编码器，包括：

图像处理器，其响应于来自解码器的识别视口位置的数据，移位多向图像数据，将由所述视口位置数据识别的内容放置在预定图块位置，输出包括经移位的多向图像数据的视频数据，

视频编码器，其具有耦接到所述图像处理器的视频数据输出端的输入端，以按逐个图块顺序对所述视频数据进行预测编码，以及

发射器，其具有用于来自所述视频编码器的编码视频数据以及用于识别由所述图像处理器施加的移位量的数据的输入端。

13.根据权利要求12所述的编码器，其中：

14.根据权利要求12所述的编码器，其中：

所述图像处理器将所述视口的位置置于经移位的多向图像数据的原点处，并且

所述视频编码器在经移位的多向图像数据的所述原点处开始编码。

15.根据权利要求12所述的编码器，其中：

所述视频包括参考图片缓冲器，其存储用于预测视频编码操作的参考帧，并且

所述视频编码器根据所述视口位置数据移位所述参考帧。

16.根据权利要求12所述的编码器，其中：

所述图像处理器将所述视口的位置移位至偏移某个填充量的经移位的多向图像数据的原点处，并且

17.根据权利要求12所述的编码器，其中所述视口位置数据表示先前编码帧的所述解码器处的显示条件。

18.根据权利要求12所述的编码器，其中所述视口位置数据包含x和y偏移数据。

19.根据权利要求12所述的编码器，其中所述视口位置数据包含角度偏移数据。

20.根据权利要求12所述的编码器，还包括用于生成所述多向图像数据作为立方图图像的图像源。

21.根据权利要求12所述的编码器，还包括用于生成所述多向图像数据作为全向图像的图像源。

22.一种图像解码方法，包括：

解码从编码器接收的编码的多向图像数据，

通过将从所述编码器接收的视口位置数据与先前传送给所述编码器的视口位置数据进行比较，从经解码的多向图像数据中提取数据子集，其中从所述编码器接收的所述视口位置数据指示由先前传送给所述编码器的所述视口位置数据识别的内容被移位到的预定图块位置，并且所提取的数据子集对应于经移位的内容；以及

显示所提取的数据子集。

23.根据权利要求22所述的解码方法，还包括：

将解码的多向图像数据存储在参考图片缓冲器中，并且

将所提取的数据子集的位置作为新的视口位置传送给所述编码器。

24.根据权利要求22所述的解码方法，其中所述解码在逐个图块的基础上进行，所述图块表示解码的多向图像数据的不同空间区域。

25.根据权利要求22所述的解码方法，其中

所述解码在多向图像数据的原点处开始；以及

从包括所述原点的解码的多向图像数据的位置提取该子集。

26.一种终端，包括：

接收器，其具有用于编码的多向图像数据和视口位置数据的输入端；

视频解码器，其具有耦接到所述接收器的输出端的用于经编码的多向图像数据的输入端；

图像处理器，其用于通过将从编码器接收的视口位置数据与先前传送给所述编码器的视口位置数据进行比较，从所述视频解码器输出的解码的多向图像数据中提取数据子集，其中从所述编码器接收的所述视口位置数据指示由先前传送给所述编码器的所述视口位置数据识别的内容被移位到的预定图块位置，并且所提取的数据子集对应于经移位的内容；和

显示器，所述显示器用于显示所提取的数据子集。

27.根据权利要求26所述的终端，其中所述视频解码器包括用于存储解码的多向图像数据的参考图片缓冲器，并且

所述终端包括收发器，其用于将所提取的数据子集的位置作为新的视口位置传送给编码器。

28.根据权利要求26所述的终端，其中所述视频解码器在逐个图块的基础上操作，图块表示解码的多向图像数据的不同空间区域。

29.根据权利要求26所述的终端，其中：

所述视频解码器在多向图像数据的原点处开始解码；以及

所述图像处理从包括所述原点的解码的多向图像数据的位置提取该子集。

30.根据权利要求26所述的终端，其中所述终端是头戴式显示器。