CN109804631B

CN109804631B - 一种用于编码和解码视频信号的装置和方法

Info

Publication number: CN109804631B
Application number: CN201680089791.7A
Authority: CN
Inventors: 赵志杰; 约翰尼斯·索尔斯; 麦蒂尔斯.韦恩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2021-09-14
Anticipated expiration: 2036-09-30
Also published as: US20190230368A1; IL265458A; WO2018059654A1; US10848771B2; JP6835397B2; MX2019003557A; BR112019005213A2; EP3513561A1; CA3037398A1; AU2016424515A1; CN109804631A; IL265458B1; BR112019005213B1; KR102210274B1; RU2729966C1; MY194445A; AU2016424515B2; JP2019534603A; CA3037398C; IL265458B2

Abstract

一种用于编码视频信号的装置和方法。参考帧的一个区域以及根据另一个区域生成的扩展区域用于通过帧间预测对当前帧进行编码。本发明还公开了一种用于解码已编码视频信号的装置和方法。

Description

一种用于编码和解码视频信号的装置和方法

技术领域

本发明大体涉及视频编码领域。更具体地，本发明涉及一种用于编码和解码视频信号视频编码块的装置和方法。

背景技术

360°全景视频信号包括围绕单视点捕捉所有方向中场景的序列。这通常使用布置在彼此相近且设有不同取景方向的多个摄像头实现。所述捕捉内容然后拼接在一起，并可以被认为是围绕所述视点的带有纹理的球体，这表示某个时间点的360°场景或全景视频信号。然而，这种球体无法直接使用当前视频编解码器处理，当前视频编解码器通常要求场景的平面(2D)矩形图像。因此，为了使用当前视频编解码器处理全景视频信号，必须将球体转换为上述2D格式。

为将球体转换为包括一个或多个区域的2D格式，可以使用以下任意投影。

球面投影定义与根据地球创建世界地图类似的矩形投影。样本密度因“高度”不同而有所不同。球体极点是极端情况，被映射到行。几何失真将遍及所生成的图像。

在基于立方体的投影中，球体被映射到立方体的平面或区域。每个区域看起来都像一般2D图像，无可见几何失真。然而，区域边界区域存在较强几何失真。以矩形格式排列区域的方法有很多种。

在基于二十面体的投影中，球体被映射到二十面体的平面或区域。每个区域看起来都像一般2D图像，无可见几何失真。同样，在这种情况下，二十面体的区域边界区域也存在较强几何失真。然而，这种情况下的失真没有基于立方体格式的投影的失真强烈，这是因为相邻平面之间的夹角较小。以矩形格式排列二十面体平面的方法有很多种。

立方体格式和二十面体格式都包括未失真区域，这些未失真区域共享相同的摄像头中心和边缘。

编码和解码包括多个区域的全景视频信号时，会产生以下问题。假定有两个设有相同摄像头中心且共享边界的平面或区域，即平面A和平面B。平面A和平面B的图像随时间记录，并排列在所述全景视频信号的后续帧中。然后，编码这个全景视频信号。

如果平面A和平面B的图像在序列中未排列在相邻位置，则无法在其共享边界间执行运动补偿。然而，即使排列方式确保他们在全景视频信号中共享与在3D空间中相同的边界，所述全景视频信号中的共同边界间仍然存在几何失真。这会降低所述全景视频信号平面A和平面B图像边界区域处的运动补偿性能。

因此，需要一种用于编码和解码包括两个或多个对应于不同图像平面的区域的视频信号(例如全景视频信号)的改进装置和方法。

发明内容

本发明的目的在于提供一种用于编码和解码视频信号的改进装置和方法。

上述和其它目的通过独立权利要求的主题来实现。根据从属权利要求、说明书以及附图，进一步的实现形式是显而易见的。

这里使用的视频信号或视频序列是一组呈现运动图片的后续帧。换言之，视频信号或视频序列包括多个帧(也称为图片或图像)。

这里使用的编码树单元(coding tree unit，简称CTU)表示预定义大小的视频序列编码结构的基础，包含帧的一部分(例如64×64像素)。CTU可以划分为几个编码单元(coding unit，简称CU)。

这里使用的编码单元(coding unit，简称CU)表示预定义大小的视频序列的基本编码结构，包括属于CTU的帧的一部分。CU可以进一步划分为多个CU。

这里使用的预测单元(prediction unit，简称PU)表示一种编码结构，是对CU进行划分的结果。

这里使用的块表示一组像素。所述块可以具有任何形状，特别是正方形或矩形。

本发明所描述的设备和方法可以用于图片之间的帧间预测，以利用自然视频序列的时间冗余。在当前图片与参考图片之间观察到的信息更改通常趋近于所述图像平面内的平移运动，如线性运动。基于块的运动补偿是这种范式的主要实现，其中参考图片被划分为矩形块，并且块内的每个像素将呈现相同运动。因此，整个块(又称为预测块)的运动可使用单个运动矢量描述。整个参考图片上的运动矢量集合定义一个矢量场，这表示为运动矢量场。

根据第一方面，本发明涉及一种用于编码视频信号的装置，所述视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括所述第一图像平面的图像内容的第一区域和包括所述第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；所述装置包括：

区域扩展单元，用于生成参考帧的第一区域的扩展区域，所述扩展区域包括多个扩展像素，其中，对于每个扩展像素，所述区域扩展单元用于基于参考帧的第二区域的像素的像素值，确定扩展像素的像素值；

帧间预测编码单元，用于在候选参考块集合之间选择一个参考块，所述候选参考块集合包括：整体或部分位于参考帧的第一区域的扩展区域中的候选参考块，所述帧间预测编码单元用于基于所述视频编码块像素的像素值和所选的参考块像素的像素值，编码当前帧的第一区域的视频编码块像素的像素值。

因此，提供了一种用于编码视频信号的改进装置。更具体地，根据第一方面，所述编码装置允许基于其相邻区域扩展参考帧的第一区域，由此补偿共同边缘间的几何失真。当前帧的第一区域中块的运动补偿可以基于第一区域及其在所述参考帧中的扩展区域进行。无需附加信令，这是因为可以根据所述序列帧中的空间位置推导出几何失真补偿的执行方法。本发明的实施例可直接用于所述立方体、二十面体或其它格式的360°序列的运动补偿，所述格式包括多个未失真平面，共享边缘和相同的摄像头中心。例如，如果场景中存在摄像头移动现象或移动物体，则本发明的实施例允许提高所述编码性能。

所述参考帧可以是一个重建帧。通过编码多个连续帧中的任意帧，然后解码所述编码帧，即可获取所述参考帧。

所述第一图像平面和所述第二图像平面可以呈平面间角度(例如介于1°与90°之间)的夹角布置。

在一种实现方式，一个帧包括一系列子帧，每个子帧仅包括所有区域的子集(例如仅一个区域)。每个子帧都可用于更新各个区域子集。

所述第一区域和所述第二区域可以是邻近区域。特别地，它们可以是相邻区域。

根据第一方面，在所述编码装置的第一种可能的实现方式中，对于每个扩展像素，所述区域扩展单元用于使用映射基于参考帧的第二区域的像素的像素值确定所述扩展像素的像素值：

-用于将参考帧的第二区域的像素映射到所述第一图像平面(第一种变体形式)；

或

-用于将所述扩展像素映射到所述第二图像平面(第二种变体形式)。

在这种可能的实现方式的第一种变体形式中，根据所述参考帧的第二区域的像素确定所述扩展像素。在所述第二种变体形式中，根据所述扩展像素确定所述第二区域的像素(例如，使用与第一种变体形式相关几何变换相反的几何变换)。

还应注意，在所述映射中，一个图像平面的像素可能不完全取决于另一个图像平面中的像素。相反，它可能取决于位于另一个平面的两个或多个邻近像素之间的另一个图像平面的几何点。因此，例如，所述区域扩展单元可以用于基于位于第一图像平面中所述几何点附近的一组像素(如，两个像素、三个像素或四个像素)的像素值，确定所述扩展像素的像素值，其中所述第二区域的像素映射到所述第一图像平面。

根据第一方面的第一种实现方式，在所述编码装置的第二种可能的实现方式中，所述映射包括或等效于以下步骤：将所述参考帧的第二区域的像素p_B投射到三维空间中的点p_3D，其中，点p_3D位于连接参考帧的第二区域的像素p_B与摄像头位置C的行的连线上；执行旋转，以将所述参考帧的第二区域的图像平面旋转到相对于所述参考帧的第一区域的图像平面的平行方向；将点p_3D投射到所述参考帧的第一区域的图像平面中的点p_A，其中，所述参考帧的第一区域的图像平面中的点p_A定义扩展像素。

根据第一方面的所述第一种或第二种实现方式，在所述编码装置的第三种可能的实现方式中，所述映射基于以下单应性矩阵(即homography matrix)H_B2A：

其中，K_A和K_B分别表示所述参考帧的第一区域和第二区域的摄像头校准矩阵，θ表示所述参考帧的第一区域的图像平面与第二区域的图像平面之间的夹角，R(θ)表示旋转，Z表示与摄像头位置C的距离。例如，可以对所述第二图像平面的xy坐标采用单应性矩阵，或直接在像素坐标上采用单应性矩阵。

根据第一方面或根据第一方面的任意一种实现方式，在所述编码装置的第四种可能的实现方式中，所述编码装置还包括参考帧缓冲器，用于存储所述参考帧的第一区域以及所述参考帧的第一区域的扩展区域。

根据第一方面或根据第一方面的任意一种实现方式，在所述编码装置的第五种可能的实现方式中，所述第一区域对应于立方体或二十面体的第一个平面，所述第二区域对应于立方体或二十面体(即icosahedron)的不同平面。所述平面可以是外平面或内平面。

根据第二方面，本发明涉及一种用于解码已编码视频信号的装置，所述已编码视频信号包括：第一图像平面的视频内容和第二图像平面(例如呈平面间角度的夹角布置；例如介于1°与90°之间)的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括第一图像平面的图像内容的第一区域和包括第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；所述装置包括：

帧间预测重建单元，用于根据当前帧的第一区域的已编码视频编码块，重建当前帧的第一区域的视频编码块像素的像素值和参考块像素的像素值，其中参考块整体或部分位于参考帧的第一区域中，或整体或部分位于参考帧的第一区域的扩展区域中。

根据第二方面，在所述解码装置的第一种可能的实现方式中，对于每个扩展像素，所述区域扩展单元用于使用映射基于参考帧的第二区域的像素的像素值确定扩展像素的像素值，所述映射：

-用于将参考帧的第二区域的像素映射到参考帧的第一区域的图像平面；

或

-用于将所述扩展像素映射到第二图像平面。

根据第二方面的所述第一种实现方式，在所述解码装置的第二种可能的实现方式中，所述映射包括以下步骤：将所述参考帧的第二区域的像素p_B投射到三维空间中的点p_3D，其中，点p_3D位于连接参考帧的第二区域的像素p_B与摄像头位置C的行的连线上；执行旋转，以将参考帧的第二区域的图像平面旋转到相对于参考帧的第一区域的图像平面的平行方向；将点p_3D投射到参考帧的第一区域的图像平面中的点p_A，其中，参考帧的第一区域的图像平面中的点p_A定义扩展像素。

根据第二方面的所述第一种或第二种实现方式，在所述解码装置的第三种可能的实现方式中，所述映射基于以下单应性矩阵H_B2A：

其中，K_A和K_B分别表示所述参考帧的第一区域和第二区域的摄像头校准矩阵，θ表示参考帧的第一区域的图像平面与第二区域的图像平面之间的夹角，R(θ)表示旋转，Z表示与摄像头位置C的距离。

根据第二方面或根据第二方面的任意一种实现方式，在所述解码装置的第四种可能的实现方式中，所述解码装置还包括参考帧缓冲器，用于存储参考帧的第一区域以及参考帧的第一区域的扩展区域。

根据第二方面或根据第二方面的任意一种实现方式，在所述解码装置的第五种可能的实现方式中，所述第一区域和所述第二区域对应于立方体或二十面体的不同平面。

根据第三方面，本发明涉及一种用于编码视频信号的方法，所述视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括第一图像平面的图像内容的第一区域和包括第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；其中，所述方法包括：

生成参考帧的第一区域的扩展区域，所述扩展区域包括多个扩展像素，其中，对于每个扩展像素，所述生成所述扩展区域包括：基于参考帧的第二区域的像素的像素值确定所述扩展像素的像素值；

在候选参考块集合之间选择一个参考块，所述候选参考块集合包括：整体或部分位于参考帧的第一区域的扩展区域中的候选参考块；

基于所述视频编码块像素的像素值和所选的参考块像素的像素值，编码当前帧的第一区域的视频编码块像素的像素值。

同样，所述第一图像平面和所述第二图像平面可以呈平面间角度(如介于1°与90°之间)的夹角布置。

根据第四方面，本发明涉及一种用于解码已编码视频信号的方法，所述已编码视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括第一图像平面的图像内容的第一区域和包括第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；其中，所述方法包括：

基于当前帧的第一区域的已编码视频编码块，重建当前帧的第一区域的视频编码块像素的像素值和参考块像素的像素值，其中参考块整体或部分位于参考帧的第一区域中，或整体或部分位于参考帧的第一区域的扩展区域中。

根据本发明的第四方面所述的解码方法可以由根据本发明的第二方面所述的解码装置执行。根据本发明的第四方面所述的方法的其它特征可以直接从根据本发明的第二方面及其不同实现方式所述的解码装置的功能中得到。

根据本发明第四方面所述的解码方法的一个实现方式中，或根据本发明第二方面所述的解码装置中，所述区域扩展单元用于根据每个视频解码块的块层、帧层、GOP(图像组)层、PPS(图像参数集合)层或SPS(序列参数集合)层标志/信息执行区域扩展。根据所述标志状态，可启用或禁用区域扩展操作。

根据第五方面，本发明涉及一种计算机程序，包括：程序代码，其中，当所述程序代码在计算机上执行时，执行根据第三方面所述的编码方法或根据第四方面所述的解码方法。

本发明可以硬件和/或软件的方式来实现。

附图说明

本发明的具体实施例将结合以下附图进行描述，其中：

图1示出了一实施例提供的一种用于编码视频信号的装置的示意图；

图2示出了一实施例提供的一种用于解码视频信号的装置的示意图；

图3示出了一实施例提供的一种用于生成在编码装置和解码装置中实施的扩展区域的几何变换的示意图；

图4示出了一实施例提供的可以使用编码装置和解码装置处理的视频信号帧的示意图；

图5示出了一实施例提供的可以使用编码装置和解码装置处理的视频信号帧的区域的几何关系的示意图；

图6示出了一实施例提供的编码装置和解码装置生成的包含扩展区域的视频信号区域的示意图；

图7示出了一实施例提供的编码装置和解码装置生成的包含帧内扩展区域的视频信号区域的示意图；

图8示出了一实施例提供的一种用于编码视频信号的方法的示意图；

图9示出了一实施例提供的一种用于解码视频信号的方法的示意图。

在各附图中，相同的或至少功能等同的特征使用相同的标号。

具体实施方式

以下结合附图进行描述，所述附图是本发明的一部分，并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是，在不脱离本发明范围的情况下，可以利用其它方面，并做出结构或逻辑上的改变。因此，以下详细的描述并不视为具有限制意义，因为本发明的范围由所附权利要求书界定。

例如，可以理解的是与所描述方法有关的披露对于用于执行所述方法的对应设备或系统也同样适用，反之亦然。例如，如果描述了特定方法步骤，则对应设备可以包括用于执行所描述的方法步骤的单元，即使此类单元没有在图中明确描述或图示。此外，应理解，本文所描述的各种示例性方面的特性可以相互组合，除非另外明确说明。

图1示出了一实施例提供的一种用于编码视频信号视频编码块的装置100的示意图，其中，所述视频信号包括多个帧，每一帧包括多个区域，包括第一区域和第二区域。每个区域都与不同的图像平面相关联，并且可分为多个视频编码块，其中，每个视频编码块都包括多个像素，每个像素都与一个像素值相关联。在一实施例中，所述视频编码块可以是宏块、编码树单元、编码单元、预测单元和/或预测块。

所述编码装置100包括区域扩展单元111a、111b，所述区域扩展单元111a、111b用于生成参考帧的第一区域的扩展区域，所述参考帧包括多个扩展像素，这将在下文进行更详细地描述。对于每个扩展像素，所述区域扩展单元111a、111b用于基于参考帧的第二区域的像素的像素值，确定扩展像素的像素值。

所述解码装置100还包括帧间预测单元113、115和编码单元101、119。所述帧间预测单元113、115用于基于参考帧的第一区域的像素和参考帧扩展区域的扩展像素，执行当前已处理帧的第一区域的视频编码块的运动补偿，即基于参考帧中共置视频编码块生成已预测视频编码块；所述编码单元101、119用于基于已预测视频编码块生成已编码视频编码块。所述编码单元101、119包括变换和量化单元101和/或熵编码单元119，这将在下文进行更详细地描述。

图1中示出的所述编码装置100的实施例按如下方式运行。所述视频信号帧包括多个区域，例如3x2个立方体区域，可以划分为多个不重叠视频编码块。对于当前已处理的每个视频编码块，由提供残余视频编码块的减去单元102减去预测值块，即已预测的当前视频编码块。然后，由图1中示出的所述变换和量化单元101对残余视频编码块进行变换和量化，由所述熵编码单元119对熵进行编码。由所述参考解码器120提供已编码的视频编码块。所述参考解码器120包括逆变换和量化单元103，可以对所述变换和量化单元101的操作进行反向转换(此时可能会引起量化错误)。增加单元105将残余视频编码块与预测值块结合起来，以获取重建视频编码块，可用于使用帧内预测单元117针对相同帧的其它视频编码块执行帧内预测。

所述重建视频编码块可由环路滤波单元107进行环路滤波(由所述编码装置100的控制单元选择)并存储在参考帧缓冲器109中。在该阶段，所述重建视频编码块还可用于其它帧的视频编码块的帧间预测。如果所述参考帧缓冲器109被访问，则所述区域扩展单元111a、111b能够提供包括当前视频编码块所述区域的扩展区域，如上文所述并将在下文进行更详细地描述。尽管图1中出于说明目的示出了两个区域扩展单元111a、111b，仍将容易理解，图1中示出的所述两个区域扩展单元111a、111b也能够以单个单元的形式实现。

如前所述，由所述帧间预测单元115使用所述区域扩展单元111a、111b提供的数据来执行运动补偿。为此，图1中示出的所述编码装置100还包括运动估计单元113。在其它实施例中，所述运动估计单元113可作为所述帧间预测单元115的组成部分实现。通常，所述编码装置100的控制单元(图1未示出)选择当前已处理的视频编码块和预测模式，即帧内预测或帧间预测，来预测当前已处理视频编码块。图2中示出的所述解码装置200也需要该信息，因此，还由所述熵编码单元119将该信息熵编码到比特流中。

图2示出了一实施例提供的一种用于解码已编码视频信号的装置200的示意图，其中，所述视频信号包括多个帧，每一帧包括多个区域，包括第一区域和第二区域。每个区域都与不同的图像平面相关联，并且可分为多个视频编码块，其中，每个视频编码块都包括多个像素，每个像素都与一个像素值相关联。

所述解码装置200包括解码单元203、219，所述解码单元203、219用于解码当前帧的第一区域的视频编码块，以提供残余视频编码块。所述解码单元203、219包括逆变换和量化单元203和/或熵编码单元219，这将在下文进行更详细地描述。

所述解码装置200还包括区域扩展单元211，所述区域扩展单元211用于生成参考帧的第一区域的扩展区域，所述扩展区域包括多个扩展像素，其中，对于每个扩展像素，所述区域扩展单元211用于基于参考帧的第二区域的像素的像素值，确定扩展像素的像素值，这将在下文进行更详细地描述。

所述解码装置200还包括帧间预测单元215。所述帧间预测单元215用于基于参考帧的第一区域的像素和参考帧扩展区域的扩展像素，执行当前帧的第一区域的视频编码块的运动补偿，即基于参考帧中共置视频编码块生成已预测视频编码块。

所述解码装置200还包括重建单元209。所述重建单元209用于基于已预测视频编码块和残余视频编码块，重建当前帧的视频编码块。

图2中示出的所述解码装置200的实施例按如下方式运行。所述视频信号的当前帧可以划分为多个不重叠视频编码块。当前已处理视频编码块的残差，即残余视频编码块，由所述熵编码单元219结合帧间预测和帧内预测的相应参数进行解码。所述残余视频编码块由所述逆变换和量化单元203处理，由所述增加单元205添加到已预测视频编码块，以生成重建视频编码块。所述重建视频编码块被提供给帧内预测单元217，以对相同帧的其它视频编码块进行帧内预测。此外，所述重建视频编码块可由环路滤波单元207进行环路滤波(由所述解码装置200的控制单元选择)并存储在参考帧缓冲器209中。在该阶段，所述重建视频编码块还可用于其它帧的视频编码块的帧间预测。如果所述参考帧缓冲器209被访问，所述区域扩展单元211能够提供参考帧内区域的扩展区域，如上文所述并将在下文进行更详细地描述。所述参考帧缓冲器209用于按输出顺序输出已处理的帧。

有关上文所述编码装置100和解码装置200其中一些已知单元的更多细节，参考教科书《高效率视频编码》，Mathias Wien著，第一版，施普林格出版社(总部设于德国柏林和海德堡)，2015年，所述教科书以全文引入的方式并入本文中。

在一实施例中，所述编码装置100的区域扩展单元111a、111b和所述解码装置200的区域扩展单元211用于参考帧的第一区域的扩展区域的各扩展像素，以使用映射基于参考帧的第二区域的像素的像素值确定扩展像素的像素值，所述映射用于将参考帧的第二区域的像素映射到参考帧的第一区域的图像平面，由此补偿共同边缘间的几何失真。

图3示出了在所述编码装置100的区域扩展单元111a、111b以及所述解码装置200的区域扩展单元211中实现的映射或几何变换，允许补偿参考帧的第一区域与相邻第二区域的共同边缘间的几何失真。这里，假设所述第一区域(也称为与图像平面A相关联的区域A)和所述第二区域(也称为与图像平面B相关联的区域B)具有相同的摄像头位置或摄像头中心C并共享一个边界。

从图3可以看出，3D空间中的点p_3D位于通过摄像头中心C的射线上，二等分图像平面A和图像平面B。因此，图像平面B中的点p_B可以投射或映射到图像平面A中的点p_A。对于该操作，不要求了解3D点p_3D与摄像头中心C之间的距离。

在数学上，这可以通过以下方式表示。所述点p_3D可以表示为3D空间中的一个矢量，即p_3D＝(X,Y,Z)^T。所述点p_3Dh的齐次变换表示p_3D可以表示为p_3Dh＝(p_3D,1)^T。

所述图像平面B上齐次变换表示p_3Dh的投影记为p_imBh，可以表示如下：

其中，K_B是与所述图像平面B相关联的摄像头的校准矩阵。上述等式可以用以下形式进行稍有不同地表示：

由于所述齐次坐标仅按比例定义，因此提供归一化齐次图像坐标p_imBh＝(x_B,y_B,1)^T时，可以省略比例因子Z^-1。这种归一化形式还可以直接通过以下方式获得：

如果已知点与摄像头之间的距离，那么可以通过以下方式反转投影：

在这种情况下，还可以丢弃比例因子Z^-1。然后，通过上述方式获得的点可以投射到图像平面A。然而，由于图像平面A方向与图像平面B方向不同，因此，首先必须在摄像头中心C周围执行旋转R，以使图像平面A与图像平面B对齐。此旋转R根据图像平面A与图像平面B之间的夹角θ定义，还可以表示为关于各个坐标轴的旋转组合，即：

R(θ)＝R_xR_yR_z

所述旋转还可以使用齐次坐标表示如下：

因此，所述图像平面B中的点p_B可以投射或映射到所述图像平面A中的相应点p_A：

因此，用于将一点从所述图像平面(image plane)A传输到所述图像平面B的单应性矩阵H_B2A可以表示如下：

从上述用于确定所述单应性矩阵H_B2A的等式中可以看出，与所述摄像头C的距离Z退出等式，这是因为执行单应性时不一定需要该信息。

有关上文所述变换的更多细节，参考教科书《计算机视觉中的多视图几何》，Richard Harley和Andrew Zisserman著，第二版，剑桥大学出版社，2003年，所述教科书以全文引入的方式并入本文中。

因此，在一实施例中，在所述编码装置100的区域扩展单元111a、111b和所述解码装置200的区域扩展单元211中实现的映射或几何变换包括以下步骤：将所述参考帧的第二区域的像素或点p_B投射到三维空间中的点p_3D，其中，点p_3D位于连接参考帧的第二区域的像素p_B与摄像头位置C的行的连线上；执行旋转，以将参考帧的第二区域的图像平面B旋转到相对于参考帧的第一区域的图像平面A的平行方向；将点p_3D投射到参考帧的第一区域的图像平面A中的点p_A，其中，参考帧的第一区域的图像平面A中的点p_A定义扩展像素。

因此，在另一实施例中，在所述编码装置100的区域扩展单元111a、111b和所述解码装置200的区域扩展单元211中实现的映射或几何变换基于以下单应性矩阵H_B2A：

在下文中，将在360°视频信号上下文中阐述上述方法，其中，所述区域表示立方体的六个平面，即其中所述360°视频信号已映射到定义立方体的六个区域。所述立方体的平面或区域排列在一个帧中。帧400的其中一种可能的排列如图4所示，包括所述立方体区域401-1至401-6和已填充图像边界403。每个立方体区域401-1至401-6都可以定义为具有四个相邻或邻近区域的主平面或区域，如图5所示，其中，所述立方体区域401-1已被选择为主平面。在没有本发明提供的几何校正的情况下，图5中示出的区域的边界将存在几何失真。

为了简单起见，假设所述不同立方体区域的分辨率相同。此外，假设含坐标(p_x,p_y)^T的各个主点位于各个立方体区域的中心。在这样的实施例中，所述校准矩阵K_A和K_B可以通过以下方式表示：

以及

其中，f表示焦距，所述焦距可以使用几何考量确定，其数值等于w/2，其中，w表示立方体区域的宽度，单位为像素。

对于本实施例，假设所述第一区域的图像平面A与笛卡尔坐标系x-y平面，而所述第二区域的图像平面B位于所述笛卡尔坐标系的y-z平面中。在本实施例中，用于使所述图像平面A与所述图像平面B对齐的旋转指以y轴为中心旋转90°。在这种情况下，所述单应性矩阵H_B2A可以通过以下方式表示：

同样，在这种情况下，还可以丢弃比例因子f^-1。

因此，在一实施例中，在所述编码装置100的区域扩展单元111a、111b和所述解码装置200的区域扩展单元211中实现的映射或几何变换基于以下所述单应性矩阵H_B2A：

在一实施例中，图4中示出的所述六个立方体区域401-1至401-6中的每个区域都可以在各个相邻区域的像素的像素值的基础上进行扩展。从图6中可以看出，对于所述立方体区域401-1，可以在其邻近左平面401-2基础上设立扩展区域401-1a，在其邻近上平面401-4的基础上设立扩展区域401-1b，在其邻近右平面401-3的基础上设立扩展区域401-1c，在其邻近下平面401-5的基础上设立扩展区域401-1d。

在一实施例中，所述扩展区域可以始终由所述编码装置100的区域扩展单元111a、111b和所述解码装置200的区域扩展单元211提供，以执行帧间预测。然而，相关人员将会理解，所述补偿块不一定与所述原始块不同。例如，对于应针对其执行运动补偿的块，这位于平面(图5中示出的主平面)边缘。基于应预测的块的所述位置，扩展执行运动补偿所处的区域。所述四个邻近区域可与主要区域结合使用，以生成扩展区域，即主要区域及其扩展区域。因此，没有修改主要区域的所述区域。仅修改了主要区域周围根据其它区域生成的区域。只要所述运动补偿在所述主要区域401-1中进行，该行为与不存在本发明实施例提供的区域扩展的情况下执行的行为相同。当所述运动补偿搜索超出所述主要区域的边缘时，所述行为将会有所不同，这里，使用来自所述扩展区域的信息。

类似单应性适用于其它区域。每个立方体区域都可以通过上文所述方式扩展。然而，该操作会导致扩展区域互相重叠。因此，在一实施例中，所述扩展区域可以存储在单独的附加参考图片或帧中，如图7所示。必须在编码和解码期间使用的参考图片基于当前已处理的块的空间位置导出。因此，不需要附加信令(所述参考图片列表中的图片数量保持不变)。更具体地，尽管在图7示出的示例中，六张参考图片而不是只有一张被视为可用，但是只有一张参考图片可用于指定预测块；同样，在一实施例中，所述块可分配给单个区域及其相应的扩展区域(这反过来根据所述块的位置确定)。在一实施例中，根据已处理块的位置，该操作可以使用相对应的附加参考图片以透明的方式替换所述编码装置100使用的参考图片。所述编码装置100和所述解码装置200没有“意识”到存在更多的参考图片。只有实际YUV缓冲器被访问时，才会执行所述替换操作。可以针对应预测图片的参考图片列表中的过去和未来参考图片执行所述替换操作。

因此，本发明的实施例只会略微增加所述计算复杂度。另外，要求执行操作，直到创建所述扩展区域。所述内存需求可能增加，这是因为要求存储6张图片，而不是只存储1张图片。然而，这是一个具体实施问题。不需要更有效的实施例来存储所有额外6张图片，但是可以只存储要求用于每个区域周围所述小区域的数据。另一可替代实施例包括对每个块和搜索位置采用所述扩展。这不需要附加存储器，然而，这会致使计算复杂度提高，因为必须针对每个已搜索位置执行所述补偿。

本发明的实施例还对360°视频信号的“环绕式处理”做出说明。每个区域边界都可采用其邻居的信息进行扩展。这也适用于与所360°图像的边界一致的区域边界。如图7所示，所述扩展区域401-1不需要填充。相反，所述填充区域可以填充另一个立方体区域的内容。所述扩展区域的大小可以根据所述编码装置100在运动补偿期间使用的搜索范围推导，因此可确保其大小与所述图片边界填充大小相匹配。

图8示出了一实施例提供的一种用于编码视频信号的方法800的示意图，其中，所述视频信号包括多个帧，每一帧包括多个区域，包括第一区域和第二区域。每个区域都与不同的图像平面相关联，并且可分为多个视频编码块，其中，每个视频编码块都包括多个像素，每个像素都与一个像素值相关联。

所述编码方法800包括以下步骤：通过基于所述参考帧中第二区域的像素的像素值确定所述扩展像素的像素值，来生成参考帧中第一区域的扩展区域(801)，所述参考帧包括多个扩展像素；基于参考帧中第一区域的像素和参考帧中扩展区域的扩展像素，执行当前帧中第一区域的视频编码块的运动补偿(803)；基于已预测视频编码块，生成当前帧中的已编码视频编码块(805)。

简言之，参考帧的一个区域以及根据所述参考帧的另一个区域生成的扩展区域用于通过帧间预测对当前帧进行编码。

图9示出了一实施例提供的一种用于解码视频信号的方法900的示意图，其中，所述视频信号包括多个帧，每一帧包括多个区域，包括第一区域和第二区域。每个区域都与不同的图像平面相关联，并且可分为多个视频编码块，其中，每个视频编码块都包括多个像素，每个像素都与一个像素值相关联。

所述解码方法900包括以下步骤：解码当前帧的第一区域的视频编码块(901)，以提供残余视频编码块；通过基于参考帧中第二区域的像素的像素值确定扩展像素的像素值，来生成参考帧中第一区域的扩展区域(903)；基于参考帧中第一区域的像素和参考帧中扩展区域的扩展像素，执行当前帧中第一区域的视频编码块的运动补偿(905)；基于已预测视频编码块和残余视频编码块，重建当前帧中的所述视频编码块(907)。

本文主要结合两个区域描述了建议技术，但是所述建议技术可以自如地应用于包含两个以上区域的视频内容的视频信号。具体地，区域可以使用其它几个区域的图像内容进行扩展。

尽管本发明的特定特征或方面可能已经仅结合几种实施方式或实施例中的一种进行公开，但此类特征或方面可以和其它实施方式或实施例中的一个或多个特征或方面相结合，只要对任何给定或特定的应用有需要或有利即可。而且，在一定程度上，术语“包括”、“有”、“具有”或这些词的其它变形在详细的说明书或权利要求书中使用，这类术语和所述术语“包括”是类似的，都是表示包括的含义。同样，术语“示例性地”、“例如”和“如”仅表示为示例，而不是最好或最佳的。可以使用术语“耦合”和“连接”及其派生词。应当理解，这些术语可以用于指示两个元件彼此协作或交互，而不管它们是直接物理接触还是电接触，或者它们彼此不直接接触。

尽管本文中已说明和描述特定方面，但本领域普通技术人员应了解，多种替代和/或等效实现形式可在不脱离本发明的范围的情况下替代所示和描述的特定方面。本申请旨在覆盖本文论述的特定方面的任何修改或变更。

尽管以上权利要求书中的元件是利用对应的标签按照特定顺序列举的，但是除非对权利要求的阐述另有暗示用于实施部分或所有这些元件的特定顺序，否则这些元件不必限于以所述特定顺序来实施。

通过以上启示，对于本领域技术人员来说，许多替代、修改和变化是显而易见的。当然，本领域技术人员容易认识到除本文所述的应用之外，还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明，但本领域技术人员将认识到在不偏离本发明的范围的前提下，仍可对本发明作出许多改变。因此，应理解，只要是在所附权利要求书及其等效物的范围内，可以用不同于本文具体描述的方式来实施本发明。

Claims

1.一种用于编码视频信号的装置(100)，其特征在于，所述视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括第一图像平面的图像内容的第一区域和包括第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；所述装置(100)包括：

区域扩展单元(111a、111b)，用于生成参考帧的第一区域的扩展区域，所述扩展区域包括多个扩展像素，其中，对于每个扩展像素，所述区域扩展单元用于基于参考帧的第二区域的像素的像素值，确定扩展像素的像素值；

帧间预测编码单元(101、115、119)，用于在候选参考块集合中选择一个参考块，所述候选参考块集合包括：整体或部分位于所述参考帧的第一区域的扩展区域中的候选参考块，所述帧间预测编码单元用于基于所述视频编码块像素的像素值和所选的参考块像素的像素值，编码当前帧的第一区域的视频编码块像素的像素值；

对于每个扩展像素，所述区域扩展单元(111a、111b)用于通过将所述参考帧的第二区域的像素映射到所述第一图像平面的方式，基于所述参考帧的第二区域的像素的像素值确定扩展像素的像素值；

其中，所述映射是通过将所述参考帧的第二区域的像素投射到3D空间中的点来实现的，所述3D空间的点位于通过摄像头中心的射线上。

2.根据权利要求1所述的编码装置(100)，其特征在于，所述映射包括以下步骤：将所述参考帧的第二区域的像素p_B投射到三维空间中的点p_3D，其中，点p_3D位于连接所述参考帧的第二区域的像素p_B与摄像头位置C的连线上；执行旋转，以将所述参考帧的第二区域的图像平面旋转到相对于所述参考帧的第一区域的图像平面的平行方向；将点p_3D投射到所述参考帧的第一区域的图像平面中的点p_A，其中，所述参考帧的第一区域的图像平面中的点p_A定义扩展像素。

3.根据权利要求1或2所述的编码装置(100)，其特征在于，所述映射基于以下单应性矩阵H_B2A：

其中，K_A和K_B分别表示所述参考帧的第一区域和第二区域的摄像头校准矩阵，θ表示所述参考帧的第一区域的图像平面与第二区域的图像平面之间的夹角，R(θ)表示旋转，Z表示与摄像头位置C的距离。

4.根据权利要求1或2所述的编码装置(100)，其特征在于，所述编码装置(100)还包括参考帧缓冲器(109)，用于存储参考帧的第一区域以及所述参考帧的第一区域的扩展区域。

5.根据权利要求1或2所述的编码装置(100)，其特征在于，所述第一区域对应于立方体或二十面体的第一平面，所述第二区域对应于立方体或二十面体的不同平面。

6.一种用于解码已编码视频信号的装置(200)，其特征在于，所述已编码视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括所述第一图像平面的图像内容的第一区域和包括所述第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；所述装置(200)包括：

区域扩展单元(211)，用于生成参考帧的第一区域的扩展区域，所述扩展区域包括多个扩展像素，其中，对于每个扩展像素，所述区域扩展单元(211)用于基于参考帧的第二区域的像素的像素值，确定扩展像素的像素值；

帧间预测重建单元(203、215、219)，用于根据当前帧的第一区域的已编码视频编码块，重建当前帧的第一区域的视频编码块像素的像素值和参考块像素的像素值，其中所述参考块整体或部分位于参考帧的第一区域中，或整体或部分位于参考帧的第一区域的所述扩展区域中；

对于每个扩展像素，所述区域扩展单元(211)用于通过将所述参考帧的第二区域的像素映射到所述参考帧的第一区域的图像平面的方式，基于参考帧的第二区域的像素的像素值确定扩展像素的像素值；其中，所述映射是通过将所述参考帧的第二区域的像素投射到3D空间中的点来实现的，所述3D空间的点位于通过摄像头中心的射线上。

7.根据权利要求6所述的解码装置(200)，其特征在于，所述映射包括以下步骤：将所述参考帧的第二区域的像素p_B投射到三维空间中的点p_3D，其中，点p_3D位于连接所述参考帧的第二区域的像素p_B与摄像头位置C的行的连线上；执行旋转，以将所述参考帧的第二区域的图像平面旋转到相对于所述参考帧的第一区域的图像平面的平行方向；将点p_3D投射到所述参考帧的第一区域的图像平面中的点p_A，其中，所述参考帧的第一区域的图像平面中的点p_A定义扩展像素。

8.根据权利要求6或7所述的解码装置(200)，其特征在于，所述映射基于以下单应性矩阵H_B2A：

9.根据权利要求6或7所述的解码装置(200)，其特征在于，所述解码装置(200)还包括参考帧缓冲器(209)，用于存储所述参考帧的第一区域以及所述参考帧的第一区域的所述扩展区域。

10.根据权利要求6或7所述的解码装置(200)，其特征在于，所述第一区域和所述第二区域对应于立方体或二十面体的不同平面。

11.根据权利要求6或7所述的解码装置，其特征在于，所述区域扩展单元(211)用于根据每个视频解码块的块层、帧层、GOP(图像组)层、PPS(图像参数集合)层或SPS(序列参数集合)层标志/信息执行区域扩展；根据所述标志状态，启用或禁用区域扩展操作。

12.一种用于编码视频信号的方法(800)，其特征在于，所述视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括所述第一图像平面的图像内容的第一区域和包括所述第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；其中，所述方法包括：

基于所述视频编码块像素的像素值和所选的参考块像素的像素值，编码当前帧的第一区域的视频编码块像素的像素值；

对于每个扩展像素，通过将所述参考帧的第二区域的像素映射到所述参考帧的第一区域的图像平面的方式，基于参考帧的第二区域的像素的像素值确定扩展像素的像素值；

13.一种用于解码已编码视频信号的方法 (900)，其特征在于，所述已编码视频信号包括：第一图像平面的视频内容和第二图像平面的视频内容的视频内容，所述视频内容以多个连续帧形式提供；其中，所述多个连续帧的每一帧都包括：包括所述第一图像平面的图像内容的第一区域和包括所述第二图像平面的图像内容的第二区域，所述第一区域和所述第二区域都包括多个像素，每个像素都与一个像素值相关联；其中，所述方法包括：

基于当前帧的第一区域的已编码视频编码块，重建当前帧的第一区域的视频编码块像素的像素值和参考块像素的像素值，其中参考块整体或部分位于参考帧的第一区域中，或整体或部分位于参考帧的第一区域的扩展区域中；

14.根据权利要求13所述的解码方法，其特征在于，所述区域扩展单元(211)用于根据每个视频解码块的块层、帧层、GOP(图像组)层、PPS(图像参数集合)层或SPS(序列参数集合)层标志/信息执行区域扩展；根据所述标志状态，启用或禁用区域扩展操作。

15.一种计算机存储介质，其特征在于，包括：计算机程序指令，其中，当所述计算机程序指令在计算机上执行时，执行权利要求12所述的方法(800)或权利要求13所述的方法(900)。