CN108012155B

CN108012155B - 预拼接图像的视频编码方法、视频解码方法和相关的装置

Info

Publication number: CN108012155B
Application number: CN201710551047.0A
Authority: CN
Inventors: 张翠姗; 黄昱豪; 张智凯; 刘子明
Original assignee: MediaTek Inc
Current assignee: Xueshan Technology Co ltd
Priority date: 2016-10-27
Filing date: 2017-07-07
Publication date: 2020-01-07
Anticipated expiration: 2037-07-07
Also published as: CN108012155A; US10432856B2; US20180124312A1; TW201817235A; TWI655861B

Abstract

本发明公开一种预拼接图像的视频编码方法、视频解码方法和相关的装置。预拼接图像的视频编码方法，用于视频编码系统，其中每个预拼接图像由全景视频捕获设备的两个摄相机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，所述方法包括：接收包括当前预拼接图像中的当前块的全景视频源数据；接收与用于形成所述预拼接图像的拼接处理相关的拼接信息，其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及使用与所述拼接处理相关的所述拼接信息来编码所述当前块。本发明所提供的预拼接图像的视频编码方法、视频解码方法和相关的装置，能够提高视频压缩技术的效率。

Description

预拼接图像的视频编码方法、视频解码方法和相关的装置

技术领域

本发明涉及视频编码。具体来说，本发明涉及从全景视频捕获设备的多个摄像机生成的预拼接图像的视频压缩技术。

背景技术

360度视频，也称为沉浸式视频(immersive video)，是一种新兴的技术，它能提供“身临其境的感觉(feeling as sensation of present)”。通过围绕用户覆盖全景(panoramic view)的环绕场景，特别是360度视野，使用户获得沉浸感。“身临其境的感觉”可以进一步通过立体渲染来提高。因此，全景视频被广泛应用于虚拟现实(VirtualReality，VR)应用中。

沉浸式视频涉及使用多个摄像机来捕获一个场景，以覆盖全景，例如360度视野。沉浸式摄像机通常使用一组摄像机，用于捕获360度视野。该组摄像机可以由少至一个摄相机组成。然而，通常两个或更多个摄相机用于沉浸式摄相机。必须同时拍摄所有视频，并记录该场景的单独的片段(也称为单独视角)。此外，该组摄相机通常被布置成水平地捕获视图，而相机的其他布置也是可能的。

必须校准该组摄像机以避免可能的未对准(misalignment)。校准是校正透镜失真并描述世界坐标和摄像机坐标之间的变换的处理。校准处理是必要的，以允许正确拼接视频。为了创建一个360度的视频，必须拼接各个视频录像。图像拼接在本领域中已得到完整的研究，包括混合(blending)或接缝(seam)处理。

图1为与给定时间实例相对应的来自全景视频的图像的示例。全景视频使用四台摄像机进行拍摄，每台摄像机的主轴相对于相邻摄像机旋转约90度。四个非拼接图像(non-stitched image)的集合110来自四个摄像机的四个图像(112,114,116和118)。每个摄像机覆盖非常宽的视野(即，使用广角镜头)，使得来自相邻摄像机的图像具有实质的重叠区域。然后将在给定情况下对应于全景视频的图像集合拼接以形成预拼接图像(pre-stitchedpicture)120。预拼接图像120是在进入视频压缩系统以进行后续压缩之前被拼接的。

对于全景视频，特别是360度视频，可以使用多个摄像机来捕获多个视频。为了渲染全虚拟现实环境所需的数据，需要大量的带宽或存储空间。随着视频分辨率的不断增加，所需的带宽或存储空间变得非常大。因此，期望开发用于360度视频(特别是预先拼接的全景视频)的高效视频压缩技术。

发明内容

有鉴于此，本发明提供一种预拼接图像的视频编码方法、视频解码方法和相关的装置。

依据本发明一实施方式，提供一种预拼接图像的视频编码方法，用于视频编码系统，其中每个预拼接图像由全景视频捕获设备的两个摄相机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，所述方法包括：接收包括当前预拼接图像中的当前块的全景视频源数据；接收与用于形成所述预拼接图像的拼接处理相关的拼接信息，其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及使用与所述拼接处理相关的所述拼接信息来编码所述当前块。

依据本发明另一实施方式，提供一种预拼接图像的视频编码的装置，用于视频编码系统，其中每个预拼接图像由全景视频捕获装置的两个摄像机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，所述装置包括一个或多个电子电路或处理器，所述一个或多个电子电路或所述处理器用于执行以下步骤：接收包括当前预拼接图像中的当前块的全景视频源数据；接收与用于形成所述预拼接图像的拼接处理相关的拼接信息，其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及使用与所述拼接处理相关的所述拼接信息来编码所述当前块。

依据本发明另一实施方式，提供一种预拼接图像的视频解码方法，用于视频解码系统，其中每个预拼接图像由全景视频捕获设备的两个摄相机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，该方法包括：接收压缩数据，所述压缩数据包括当前预拼接图像中的当前块的编码当前块；解析编码参数，其中至少一个编码参数与拼接信息相关，所述拼接信息与形成所述预拼接图像的拼接处理相关，并且其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及使用与所述拼接处理相关的所述拼接信息来解码所述当前块。

依据本发明另一实施方式，提供一种预拼接图像的视频解码的装置，用于视频解码系统，其中每个预拼接图像由全景视频捕获装置的两个摄像机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，所述装置包括一个或多个电子电路或处理器，所述一个或多个电子电路或所述处理器用于执行以下步骤：接收压缩数据，所述压缩数据包括当前预拼接图像中的当前块的编码当前块；解析编码参数，其中至少一个编码参数与拼接信息相关，所述拼接信息与形成所述预拼接图像的拼接处理相关，并且其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及使用与所述拼接处理相关的所述拼接信息来解码所述当前块。

本发明所提供的预拼接图像的视频编码方法、视频解码方法和相关的装置，能够提高视频压缩技术的效率。

对于已经阅读后续由各附图及内容所显示的较佳实施方式的本领域的技术人员来说，本发明的各目的是明显的。

附图说明

图1为与给定时间实例相对应的来自全景视频的图像的示例，其中使用四个摄像机来捕获全景视频，并且每个摄像机的主轴相对于相邻摄像机的主轴旋转大约90°。

图2为两个球面图像中相同对象的失真(distortion)的示例，其中由于两个预先拼接的全景图像之间的投影特性，常规帧间预测将无法预测相应的区域。

图3A为根据本发明的实施例的包含基于投影的帧间预测的编码器系统的示例性框图，其中该系统包括三种预测模式：基于投影的帧间预测、常规帧间预测和帧内预测。

图3B为对应于图3A中的编码器的解码器系统的示例性框图。

图4A为根据本发明的实施例的包含基于投影的帧间预测的编码器系统的另一示例性框图，其中常规帧间预测与基于投影的帧间预测组合以形成基于投影的帧间预测和常规帧间预测的联合帧间预测。

图4B为与图4A中的编码器对应的解码器系统的示例性框图。

图5为两幅全景图像的示例，其中当前图像中的块与前一图像中表示相同对象的相应块看起来非常不同。

图6A为在编码器侧的基于投影的帧间预测的示例性流程图，其中基于投影的帧间预测模式与常规帧间预测模式相互分离。

图6B为在解码器侧的基于投影的帧间预测的示例性流程图。

图7A为根据本发明的一实施例的在编码器侧的基于投影的帧间预测和常规帧间预测的联合帧间预测的示例性流程图。

图7B为在解码器侧的基于投影的帧间预测和常规帧间预测的联合帧间预测的示例性流程图。

图8为根据本发明的基于投影的帧间预测的示例。

图9为预拼接图像中的拼接问题的示例，其中接缝出现在预拼接图像中。

图10A为根据本发明的实施例的包含基于接缝的帧间预测的编码器系统的示例性框图。

图10B为与图10A中的编码器对应的解码器系统的示例性框图。

图11A为根据本发明的包含基于接缝的帧间预测的编码器系统的另一示例性框图。

图11B为与图11A中的编码器相对应的解码器系统示例性框图。

图12为基于缝的帧间预测的示例，其中在YUV颜色空间中调整接缝一侧上的参考块的亮度或颜色。

图13为根据本发明的实施例的YUV缩放的示例，其中在参考块中存在接缝，并且在相应的当前块中没有接缝。

图14为根据本发明的实施例的YUV缩放的示例，其中当前块中存在接缝，并且相应的参考块中没有接缝。

图15为根据本发明的实施例的YUV缩放的示例，其中当前块和相应的参考块中没有接缝。然而，当前块和参考块位于接缝的不同侧。

图16A为在编码器侧的基于接缝的帧间预测的示例性流程图，其中基于接缝的帧间预测与常规帧间预测是相互分离的。

图16B为在解码器侧的基于接缝的帧间预测的示例性流程图，其中基于接缝的帧间预测与常规帧间预测是相互分离的。

图17A为在编码器侧的基于接缝的帧间预测和常规帧间预测的联合帧间预测的示例性流程图。

图17B为在解码器侧的基于接缝的帧间预测和常规帧间预测的联合帧间预测的示例性流程图，其中基于接缝的帧间预测与常规帧间预测相结合。

图18为根据本发明的实施例的的预拼接图像的视频编码的示例性流程图。

图19为根据本发明的实施例的视频解码器中的预拼接图像的视频解码的示例性流程图。

具体实施方式

下面的描述为实施本发明的示范性实施例。以下实施例仅用来说明本发明的一般原理，并非用来限制本发明的范围。本发明的范围应以权利要求书所界定的为准。

如前所述，通常使用与单独视角(separate perspective)相关的多个摄像机来捕获360度视频。为了创建一个360度视频，必须拼接各个(individual)视频录像。拼接处理的计算量相当大。因此，拼接处理通常以非实时方式来执行，其中必须将各个视频传送或存储以用于稍后的拼接处理。或者，拼接处理可以在高性能设备上执行，而不是捕获360度视频的本地设备。例如，拼接任务可以由云服务器或其他设备执行，用于由例如沉浸式摄像机的移动全景捕获设备捕获的视频。根据用于捕获360度全景视频的摄像机数量，要发送或存储的视频数量可能非常大，并且视频将需要非常高的带宽或非常大的存储空间。

基于投影的(projection-based)帧间预测

如上所述，将在给定实例处对应于全景视频的图像集合拼接以形成预拼接图像。拼接处理可以包括校准、投影、接缝检测、混合等。在本发明中，公开了有效地压缩预先拼接的内容的技术。在预先拼接的帧中，相同的对象在两个全景帧中可能看起来非常不同。如果应用常规的帧间或帧内预测(convention Inter or Intra prediction)，由于球面图像(spherical image)的失真(distortion)，编码效率将显著降低。图2为两个球面图像(210和220)中相同对象的失真的示例。如图2所示，球面图像210中的被拍摄头部(subjecthead)212，从在球面图像220中的被拍摄头部222看起来实质上失真了。如果将常规帧间预测应用于相应的区域，根据常规帧间预测，基于平移运动模型(translational movementmodel)的运动估计在这两个对应区域之间几乎找不到任何好的匹配。因此，公开了基于投影的帧间预测以用于压缩预先拼接的全景内容。

图3A为根据本发明的包含基于投影的帧间预测的编码器系统的示例性框图。该系统包括三种预测模式：基于投影的帧间预测320、常规帧间预测325(或缩写为帧间预测)和帧内预测330。基于投影的帧间预测320是根据本发明的新的预测模式。稍后将讨论基于投影的帧间预测的细节。帧间预测325对应于常规帧间预测模式，其利用运动估计(ME)和运动补偿(MC)以基于先前重构的图像为当前帧310生成时域预测(temporal prediction)。先前重构的图像也称为参考图像，并被存储在帧缓冲器380中。如现有技术中已知的那样，常规帧间预测的运动估计使用平移运动模型，其中运动可以由相关的运动向量来指定。帧内预测330使用与当前块相同的切片或图像中的重构像素来生成当前块的预测器(predictor)。开关345用于在基于投影的帧间预测320、帧间预测325和帧内预测330之间进行选择。使用加法器340从当前帧的对应信号中减去所选择的预测，以产生预测残差。使用离散余弦变换和量化(附图中表示为“DCT/Q”)350和随后的熵编码360来处理基于投影的预测残差，以产生视频比特流。由于在编码器侧也需要重构图像来形成参考图像。因此，使用逆量化和逆离散余弦变换(附图中表示为“IQ/IDCT”)352，以产生重构的预测残差。然后使用另一个加法器342将重构的残差与由开关345所选择的预测相加，以形成重构的视频数据。在重构的视频被存储到帧缓冲器380中之前，通常使用环路滤波370(例如，去块滤波和样本自适应偏移)来减少由于压缩而导致的编码伪影。

图3B为对应于图3A中的编码器的解码器系统的示例性框图。如图3A所示，编码器侧还包括用于在编码器侧重构参考视频的解码器循环。除了熵解码器361之外，大多数解码器组件都用在编码器侧。此外，由于可以从视频比特流获得运动向量，因此帧间预测解码器326只需要运动补偿，并且不需要搜索最佳运动向量。类似地，可以基于在比特流中传输的运动模型参数来识别基于投影的帧间预测解码器321的参考块，而不需要搜索最佳运动模型参数。

图4A为根据本发明的包含基于投影的帧间预测的编码器系统的另一示例性框图。该系统与图3A相似。然而，常规帧间预测与基于投影的帧间预测相组合，以形成基于投影的帧间预测和常规帧间预测的联合帧间预测420。在这种情况下，开关445可以在基于投影的帧间预测和常规帧间预测的联合帧间预测420和帧内预测330之间进行选择。

图4B为与图4A中的编码器对应的解码器系统的示例性框图。解码器系统与图3B相似。然而，常规帧间预测解码器326与基于投影的帧间预测解码器321相组合，以形成基于投影的帧间预测和常规帧间预测的联合帧间预测解码器421。在这种情况下，开关445可以在基于投影的帧间预测和常规帧间预测的联合帧间预测解码器421和帧内预测解码器331之间选择。

如前所述，由于不同的摄像机视角，不同全景图像中的相同对象可能看起来实质上失真了。例如，图5中为两幅全景图像(510和520)。其中图像510表示先前编码的预先拼接的全景图像，图像520表示待编码的当前的预先拼接的全景图像。区域512和区域522分别对应于图像510和图像520中的相同对象。但是，这两个区域的外观看起来是截然不同的。使用平移运动模型的常规运动估计将不能预测这两个区域之间的对应关系(即，使用区域512作为预测区域522的预测器)。根据本发明，公开了基于投影的帧间预测，其基于转换矩阵(translation matrix)将参考图像中的预测器投影到当前区域的坐标。具体来说，运动搜索是基于球面坐标-(滚动，俯仰，偏航)域530，而不是(x，y)域。换句话说，使用平移矩阵R将区域或块512投影到区域或块524，R对应于滚动(roll)矩阵、俯仰(pitch)矩阵和偏航(yaw)矩阵的乘积，即R＝R_z·R_y·R_x，

滚动矩阵、俯仰矩阵和偏航矩阵的推导在本领域中是已知的，因此这里省略进一步的细节。对于当前图像中将要编码的当前区域或块，可以基于球面坐标在参考图像中搜索投影预测器。图6A为编码器侧的基于投影的帧间预测的示例性流程图，其中在步骤610中选择基于投影的帧间预测模式。在步骤612中选择像素的当前块以进行处理。在步骤614中，在(滚动，俯仰，偏航)域中执行运动搜索，其中识别出预测器候选。此外，参考全景图像中的每个预测器候选都被投影到(滚动，俯仰，偏航)坐标中的当前块上。在每个预测器候选被投影到当前块之后，如步骤616所示，可以在当前块和投影预测器候选块之间生成相应的残差。可以确定与编码该残差相关的成本(cost)，其中该成本以与相应的预测器候选相关的速率和失真的形式来评估。如本领域已知的，速率可以包括编码相应的残差的编码比特和其他相关信息。失真与使用有损编码处理(例如，量化)来编码残差相关。因此，在步骤618中，计算每个预测器候选的速率失真(Rate-Distortion，R-D)成本。将当前预测器候选的速率失真成本与先前的最佳预测器候选进行比较。如果当前预测器候选可以得到较低的速率失真成本，则在步骤620中，使用当前预测器候选来更新最佳预测器候选。在步骤622中，检查搜索终止标准。如果满足标准(即，从步骤622的“是”路径)，则终止运动搜索处理。否则(即，从步骤622的“否”路径)，继续步骤614中的运动搜索。搜索终止标准可以对应于最佳预测器候选已足够好或搜索处理完成。例如，如果失真低于阈值，则可以将最佳预测器候选视为已足够好。或者，如果已经搜索了指定窗口内的所有可能的预测器候选，则可以认为搜索处理已完成。结束

尽管仅在图6A中仅展示了编码器中的基于投影的帧间预测模式的流程图，编码器也可以包括例如常规帧间预测和帧内预测等其他预测模式。如果编码器选择另一模式，则将执行用于其他编码模式的相应编码处理。如图6A所示，假设基于投影的帧间预测模式被实现为编码模式模块，其与常规帧间预测模式的编码模式模块是相互分离的。图6A中的流程图旨在说明实现本发明实施例的一个编码器示例。在不脱离本发明的精神的情况下，可以重新排列或重新组合这些步骤以实现基于投影的帧间预测。此外，该流程图旨在说明与本发明相关的关键处理步骤，并且可能不包括在编码器中执行的所有详细步骤。例如，如本领域已知的，必须在比特流中发送与运动向量相关的信息，以便可以在解码器侧恢复运动向量。

图6B为解码器侧的基于投影的帧间预测的示例性流程图。在步骤630中，解码器确定正在处理的当前块是否是以基于投影的帧间预测模式被编码的。如果是使用基于投影的帧间预测来对当前块进行编码(即，从步骤630的“是”路径)，则执行解码步骤632至步骤638。否则(即，从步骤630的“否”路径)，跳过解码步骤632至步骤638，并且在这种情况下，这意味着编码器使用基于非投影的模式。解码器将必须使用相应的模式(例如，常规帧间预测或帧内预测模式)。在步骤632中，处理像素的当前块。如在视频编码领域中已知的，对当前块的编码比特进行解析。在步骤634中，解码与投影模型相关的在(滚动，俯仰，偏航)域中的运动信息以及当前块的残差，其中如果任何语法或符号在编码器侧被熵编码，则可以使用熵解码。在步骤636中，通过将参考全景图像中的预测器投影到在(滚动，俯仰，偏航)坐标中当前块上，根据在(滚动，俯仰，偏航)域中的运动信息从参考图像生成预测器。在步骤638中，组合解码的残差和投影预测器以重构当前块。

类似地，尽管在图6B中仅展示了解码器中的基于投影的帧间预测模式的流程图，解码器也可以包括例如常规帧间预测和帧内预测等其他预测模式。如果从比特流解码的模式指示其他模式，则将执行用于另一编码模式的相应解码处理。如图6B所示，假设基于投影的帧间预测模式被实现为解码模式模块，其与常规帧间预测模式的解码模式模块是相互分离的。

图7A为在编码器侧的基于投影的帧间预测和常规帧间预测的联合帧间预测的示例性流程图，其中在步骤710中选择基于投影的帧间预测和常规帧间预测的联合帧间预测。在步骤712中选择像素的当前块以进行处理。在步骤724中，检查y方向上的当前块位置是否在[t1，t2]所规定的范围内。如果y方向上的当前块位置在[t1，t2]内(即，从步骤724的“是”路径)，则执行与常规帧间预测相对应的步骤726，其中在(x，y)域中执行运动搜索。如果y方向上的当前块位置在范围[t1，t2]之外(即，从步骤724的“否”路径)，则执行对应于基于投影的帧间预测的开始的步骤714，其中在(滚动，俯仰，偏航)域中执行运动搜索。在由垂直范围[t1，t2]指定的垂直中心附近，则失真不太严重，预测器候选可能不需要投影。通过在(滚动，俯仰，偏航)域或(x，y)域中的运动搜索得到预测器候选之后，在步骤716中，可以生成当前块和预测器候选之间的残差。可以确定与编码残差相关的成本，其中该成本以编码残差和相关信息所需的速率以及编码残差导致的失真的形式来评估。因此，在步骤718中，计算预测器候选的速率失真成本。将当前预测器候选的速率失真成本与先前的最佳预测器候选进行比较。如果当前预测器候选可以得到较低的速率失真成本，则在步骤720中，使用当前预测器候选来更新最佳预测器候选。在步骤722中，检查搜索终止标准。如果满足标准，则终止运动检索处理。否则，编码器处理返回步骤724以检查在y方向上的当前块位置是否在[t1，t2]指定的范围内，以确定是否使用基于投影的帧间预测或常规帧间预测。搜索终止标准可以对应于最佳预测器候选已足够好或搜索处理完成。例如，如果失真低于阈值，则可以将最佳预测器候选视为已足够好。或者，如果已经搜索了指定窗口内的所有可能的预测器候选，则可以认为搜索处理已完成。

图7B为在解码器侧的基于投影的帧间预测和常规帧间预测的联合帧间预测示例性流程图。在步骤730中，解码器确定正在处理的当前块是否是以基于投影的帧间预测模式来编码的。如果是使用基于投影的帧间预测来对当前块进行编码的(即，从步骤730的“是”路径)，则执行解码步骤732。否则(即，从步骤730的“否”路径)，则跳过其余步骤。在步骤732中，处理像素的当前块。在步骤734中，检查y方向上的当前块位置是否在[t1，t2]内。如果y方向上的当前块位置在[t1，t2]内(即，从步骤734的“是”路径)，则执行与常规帧间预测相对应的步骤742和步骤744，其中在(x，y)域执行运动补偿。如果y方向上的当前块位置不在[t1，t2]内(即，从步骤734的“否”路径)，则执行对应于基于投影的帧间预测的步骤736和步骤738。在步骤736中解码与投影模型相关的(滚动，俯仰，偏航)域中的运动信息以及当前块的残差，其中如果在编码器侧对任何语法或符号进行熵编码，则可以使用熵解码。在步骤738中，通过将参考全景图像中的预测器投影到(滚动，俯仰，偏航)坐标中的当前块上，根据(滚动，俯仰，偏航)域中的运动信息，从参考图像生成预测器。在步骤740中，组合解码残差和基于投影的帧间预测的投影预测器(从步骤738)或常规帧间预测的预测器(从步骤744)，以重构当前块。

图8为根据本发明的基于投影的帧间预测的示例。使用平移矩阵R将参考块512投影到(滚动，俯仰，偏航)域上以形成投影预测器524。可以根据滚动矩阵、俯仰矩阵和偏航矩阵的乘积得到平移矩阵，即R＝R_z·R_y·R_x，如等式(1)-(3)所述。对于该示例中的该特定参考块，滚动、俯仰和偏航角分别对应于0°、70°和0°。

基于接缝(Seam-based)的帧间预测

由于两个视图中的照明不能保证是相同的，所以拼接两个图像可能导致可见的接缝。而且，不同帧中的接缝位置可能不同。此外，由于相同连续前景的两个图像之间的背景变化，可能导致接缝的产生。由于在接缝周围预测可能无法正常工作，与接缝相关的边缘不连续性或亮度差/色差，可能会降低压缩效率。图。图9为预拼接图像中的接缝问题的示例，其中在预拼接图像910中出现了接缝912。在另一个预拼接图像中接缝位置可能不同，并且在另一个预拼接图像中接缝周围的亮度/颜色也可能与接缝的相应的相邻区域不同。因此，本发明的另一种方法公开了基于接缝的帧间预测来解决这个问题，从而提高了预拼接图像的压缩效率。

图10A为根据本发明的实施例的包含基于接缝的帧间预测的编码器系统的示例性框图。该系统包括三种预测模式：基于接缝的帧间预测1020、常规帧间预测1025(或帧间预测)和帧内预测1030。基于接缝的帧间预测1020是根据本发明的新的预测模式。稍后将讨论基于接缝的帧间预测的细节。帧间预测1025对应于利用运动估计和运动补偿的常规帧间预测模式，以基于先前重构的图像为当前帧1010生成时域预测。先前重构的图像也称为参考图像，被存储在帧缓冲器1080中。如现有技术中已知的那样，常规帧间预测的运动估计使用平移运动模型，其中运动可以由相关的运动向量来指定。帧内预测1030使用与当前块相同的切片或图像中的重构像素来生成当前块的预测器。开关1045用于在基于接缝的帧间预测1020、帧间预测1025和帧内预测1030中进行选择。使用加法器1040从当前帧的对应信号中减去所选择的预测，以产生预测残差。使用离散余弦变换和量化(附图中表示为“DCT/Q”)1050和随后的熵编码1060来处理基于接缝的预测残差，以产生视频比特流。由于在编码器侧还需要重构图像来形成参考图像。因此，使用逆量化和逆离散余弦变换(附图中表示为“IQ/IDCT”)1052，以产生重构的预测残差。然后使用加法器1042将重构的残差与由开关1045选择的预测相加，以形成与当前帧相关的重构视频数据。在将重构的视频存储在帧缓冲器1080中之前，通常使用环路滤波1070(例如，去块滤波和采样自适应偏移)来减少编码由于压缩造成的编码伪影。

图10B为与图10A中的编码器对应的解码器系统的示例性框图。如图10A所示，编码器侧还包括用于在编码器侧重构参考视频的解码器循环。除了熵解码器1061之外，大多数解码器组件都用在编码器侧。此外，由于可以从视频比特流获得运动向量，因此帧间预测解码器1026只需要运动补偿，并且不需要搜索最佳运动向量。类似地，可以基于在比特流中传输的运动模型参数来识别基于接缝的帧间预测解码器1021的参考块，而不需要搜索最佳运动模型参数。

图11A为根据本发明的包含基于接缝的帧间预测的编码器系统的另一示例性框图。该系统与图10A相似。然而，常规帧间预测与基于接缝的帧间预测相组合，以成为基于接缝的帧间预测和常规帧间预测的联合帧间预测1120。在这种情况下，开关1145可以在基于接缝的帧间预测和常规帧间预测的联合帧间预测1120和帧内预测1030之间进行选择。

图11B为与图11A中的编码器相对应的解码器系统的示例性框图。解码器系统与图10B相似。然而，常规帧间预测解码器1026与基于接缝的帧间预测解码器1021相组合，以形成基于接缝的帧间预测和常规帧间预测的联合帧间预测解码器1121。在这种情况下，开关1145可以在基于接缝的帧间预测和常规帧间预测的联合帧间预测解码器1121和帧内预测解码器1031之间选择。

基于接缝的帧间预测的细节描述如下。基于接缝的帧间预测可以应用于YUV颜色空间中的颜色预拼接图像(color pre-stitched picture)。当当前块不跨越(cross)接缝、但参考块跨越接缝时，可以调整接缝一侧的参考区域的亮度或颜色，以减少残差。在这个例子中，接缝位置是已知的。图12为基于缝的帧间预测的示例，其中在YUV颜色空间中调整接缝一侧的参考块的亮度或颜色。在图12中，参考帧1210用于导出当前帧1220的基于接缝的帧间预测器。例如，当前块1222由相应的块1212来预测。然而，在对应于当前块的参考块中存在接缝，其具有相对连续的亮度或颜色。根据本发明的实施例，参考块的接缝的一侧的亮度或颜色被缩放，以便提供更好的预测器来提高预测的准确性。因此，缩放接缝一侧的参考块的YUV像素以为当前块提供缩放的预测器1224。其中，YUV颜色空间仅作为示例，也可以使用其他颜色空间。

缩放可以被实现为线性函数：I'＝a*I+b，其中I对应于原始像素强度，I'对应于缩放的像素强度，a和b是缩放参数。参数a可以称为乘法因子，参数b可以称为偏移因子。图13为根据本发明的实施例的YUV缩放的示例。如图13所示，参考帧1310用于导出当前帧1320的基于接缝的帧间预测器。例如，当前块1322由相应的块1312来预测。然而，参考块中存在接缝，并且在当前块中没有接缝。根据以下等式来缩放接缝一侧的参考块的YUV像素以为当前块提供缩放的预测器1324：

Y’＝Y*0.25+5(例如，50＝180*0.25+5) (4)

U’＝U*1+0(例如，0＝0*1+0) (5)

V’＝V*1+0(例如，0＝0*1+0) (6)

如图13所示，原始预测器1312中的接缝将块分割成两个区域(即，1312a和1312b)。跨越预先拼接的帧中的接缝的明显的亮度/颜色差异，可能是由对应于被拼接的两个视图的两个图像的照明的差异或者在相同连续前景的两个拼接图像之间的背景变化引起的。因此，根据本发明的一个实施例，可以调整接缝一侧的像素强度，以产生的更好的帧间预测器。在该示例中，根据等式(4)-(6)来缩放区域1312a中的像素。另一方面，区域1312b中的像素将被直接使用而不缩放。因此，生成新的预测器1324，并且使用新的预测器来预测当前块1322。

图14为根据本发明的YUV缩放的另一示例。如图14所示，参考帧1410用于导出当前帧1420的基于接缝的帧间预测器。例如，当前块1422由对应的块1412来预测。然而，在当前块中存在接缝，并且参考块中没有接缝。根据以下等式缩放对应的接缝的一侧的参考块的YUV像素以为当前块提供缩放的预测器1424：

Y’＝Y*3+30(例如，180＝50*3+30) (7)

U’＝U*1+0(例如，0＝0*1+0) (8)

V’＝V*1+0(例如，0＝0*1+0) (9)

如图14所示，确定原始预测器1412中的对应的接缝位置。接缝将块分成两个区域(即1412a和1412b)。虽然原始预测器似乎具有连续的亮度/颜色，但是当前块具有明显的接缝。因此，可以调整接缝一侧的原始预测器的像素强度，以产生更好的帧间预测器。在该示例中，根据等式(7)-(9)对区域1412a中的像素进行缩放。另一方面，区域1412b中的像素将被直接使用而不缩放。因此，生成新的预测器1424，并且使用新的预测器来预测当前块1422。

图15为根据本发明的YUV缩放的示例。如图15所示，参考帧1510用于导出当前帧1520的基于接缝的帧间预测器。例如，当前块1522由对应的块1512来预测。当当前块或参考块中没有接缝时，由于它们位于接缝的不同侧，因此这两个块的亮度/颜色看起来非常不同。根据以下等式来缩放参考块的YUV像素以为当前块提供缩放的预测器1524：

Y’＝Y*3+30(例如，180＝50*3+30) (10)

U’＝U*1+0(例如，0＝0*1+0) (11)

V’＝V*1+0(例如，0＝0*1+0) (12)

在图15的示例中，由于整个参考块与当前块位于接缝的相反侧，因此将缩放应用于整个参考块

图16A为在编码器侧的基于接缝的帧间预测的示例性流程图，其中在步骤1610中，选择基于接缝的帧间预测。在步骤1612中，选择像素的当前块进行处理。在步骤1614中，解析来自输入数据的接缝信息。在步骤1616中，检查输入数据是否包括接缝信息。如果存在接缝信息(即，从步骤1616的“是”路径)，则在步骤1618中开始基于接缝的缩放处理，其中执行运动搜索以找到参考块来作为与当前块匹配的预测器候选。如果不存在接缝信息(即，从步骤1616的“否”路径)，则处理结束，这意味着不执行YUV缩放。在这种情况下，可以应用例如常规帧间预测或帧内预测等其他编码模式。在步骤1620中，检查接缝是否跨越任何预测器候选或当前块，以及任何预测器候选和当前块是否位于接缝的不同侧。如果接缝跨越预测器候选(例如，图13)、接缝跨越当前块(例如，图14)、或预测器候选和当前块位于接缝的不同侧(例如，图15)，如步骤1622所示，对预测器候选执行基于接缝的YUV缩放。否则(即从步骤1620的“否”路径，对应于没有接缝跨越任何预测器候选或当前块、并且预测器候选总是与当前块位于接缝的相同侧的情况)，则不需要基于接缝的YUV缩放，在这种情况下跳过步骤1622。在步骤1622中对预测器候选执行基于接缝的YUV缩放之后，评估或估计与每个预测器候选相关的残差和相关的编码位。该系统在步骤1624中选择最佳预测器。可以基于本领域众所周知的速率失真优化(RDO)处理来选择最佳预测器候选，并且本发明中省略了具体的细节。

尽管图16A中仅展示了编码器中的基于接缝的帧间预测模式的流程图，编码器也可以包括例如常规帧间预测和帧内预测等其他预测模式。如果编码器选择另一种模式，则将执行用于其他编码模式的相应编码处理。如图16A所示，假设基于接缝的帧间预测模式被实现为编码模式模块，其与常规帧间预测模式的编码模式模块是相互分离的。

图16B为在解码器侧的基于接缝的帧间预测的示例性流程图。在步骤1630中，解码器确定正在处理的当前块是否是以基于接缝的帧间预测模式被编码的。如果是使用基于接缝的帧间预测来对当前块进行编码(即，从步骤1630的“是”路径)，则在步骤1632中，通过处理像素的当前块，开始YUV缩放处理。否则(即从步骤1630的“否”路径)，基于接缝的帧间预测解码处理被终止，这意味着使用其他的解码模式。在步骤1632中处理像素的当前块。如在视频编码领域中已知的，对当前块的编码比特进行解析。在步骤1634中解码当前块的接缝信息，如果在编码器侧对任何语法或符号进行了熵编码，则可以使用熵解码。此外，在步骤1636中，从比特流中解码YUV缩放参数。然后在步骤1638中，根据解码的YUV缩放参数对当前块的预测器进行缩放，以生成缩放的预测器。然后在步骤1640中，将缩放的预测器与解码的残差组合以重构当前块。

类似地，尽管在图16B中仅展示了解码器中的基于接缝的帧间预测模式的流程图，解码器也可以包括例如常规帧间预测和帧内预测等其他预测模式。如果从比特流解码的模式指示其他模式，则将执行用于另一编码模式的相应解码处理。如图16B所示，假设基于接缝的帧间预测模式被实现为解码模式模块，其与常规帧间预测模式的解码模式模块是相互分离的。

图17A为在编码器侧的基于接缝的帧间预测和常规帧间预测的联合帧间预测的示例性流程图，其中在步骤1710中选择基于接缝的帧间预测和常规帧间预测的联合帧间预测。在步骤1712中，选择像素的当前块以进行处理。在步骤1714中，从输入数据中解析出接缝信息。在步骤1716中，检查输入数据是否包括接缝信息。如果不存在接缝信息(即，从步骤1716的“否”路径)，则执行常规帧间预测(即，步骤1726)。否则(即从步骤1716的“是”路径)，在步骤1718中开始基于接缝的帧间预测，其中执行运动搜索以找出参考块来作为与当前块匹配的预测器候选。在步骤1720中，检查接缝是否跨越任何预测器候选或当前块，以及任何预测器候选和当前块是否位于接缝的不同侧。如果接缝跨越预测器候选(例如，图13)、接缝跨越当前块(例如图14)、或预测器候选和当前块位于接缝的不同侧(例如图15)，如步骤1722所示，对预测器候选执行基于接缝的YUV缩放。否则(即从步骤1720的“否”路径，对应于没有接缝跨越任何预测器候选或当前块、并且预测器候选与当前块位于接缝的同一侧的情况)，则不需要基于接缝的YUV缩放，并跳过步骤1722。在步骤1722中对预测器候选执行基于接缝的YUV缩放之后，评估或估计与每个预测器候选相关的残差和相关的编码位。该系统在步骤1724中选择最佳预测器。可以基于本领域众所周知的速率失真优化处理来选择最佳预测器候选，并且本发明中省略了具体的细节。

图17B为在解码器侧的基于接缝的帧间预测和常规帧间预测的联合帧间预测的示例性流程图。在步骤1730中，解码器确定正在处理的当前块是否是以基于接缝的帧间预测模式来编码的。如果是使用基于接缝的帧间预测来对当前块进行编码的(即，从步骤1730的“是”路径)，则解码处理前进至步骤1732，以进行基于缝的解码处理。否则(即，从步骤1730的“否”路径)，解码处理前进至结束，以跳过基于接缝的帧间预测解码，这意味着是使用其他编码模式。在步骤1732中，处理像素的当前块。如在视频编码领域中已知的，对当前块的编码比特进行解析。在步骤1734，解码当前块的接缝信息，如果在编码器侧对任何语法或符号进行了熵编码，则可以使用熵解码。在步骤1735中，检查是否存在接缝信息。如果存在接缝信息(即，步骤1735的“是”路径)，则执行步骤1736。否则(即，步骤1735的“否”路径)，在步骤1742中执行基于常规帧间预测的重构。在步骤1736中，检查接缝是否跨越任何预测器候选或当前块，以及是否有任何预测器候选和当前块位于接缝的不同侧。如果接缝跨越预测器候选(例如，图13)、接缝跨越当前块(例如，图14)、或者预测器候选和当前块位于接缝的不同侧(例如，图15)，如步骤1738所示，通过解码YUV缩放参数来对预测器候选执行基于接缝的YUV缩放。否则(即从步骤1736的“否”路径，对应于没有接缝跨越任何预测器候选或当前块，并且预测器候选与当前块位于接缝的相同的一侧的情况)，不需要基于接缝的YUV缩放，并且将执行常规帧间预测(即，步骤1742)。为了在常规帧间预测模式中重构，将非缩放预测器添加到从比特流导出的残差上以形成重构块。在步骤1738中，从比特流解码YUV缩放参数之后，根据解码的YUV缩放参数对当前块的预测器进行缩放，以在步骤1740中生成缩放的预测器。然后在步骤1742中，组合缩放的预测器与解码的残差以重构当前块。

图18为根据本发明的实施例的预拼接图像的视频编码的示例性流程图。流程图中所示的步骤以及本发明的其他流程图，可以采用在编码器侧和/或解码器侧的一个或多个处理器(例如，一个或多个CPU)上的可执行的程序代码来实施。流程图中所示的步骤也可以基于例如被配置为执行流程图中的步骤的一个或多个电子设备或处理器的硬件来实现。根据该方法，在步骤1810中，编码器接收包括当前预拼接图像中的当前块的全景视频源数据。在步骤1820中接收与用于形成预拼接图像的拼接处理相关的拼接信息，其中拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合。在步骤1830中，使用与拼接处理相关的拼接信息对当前块进行编码。

图19为根据本发明的实施例的视频解码器中的预拼接图像的视频解码的示例性流程图。在步骤1910中，解码器接收包括当前预拼接图像中的当前块的编码当前块(codedcurrent block)的压缩数据。在步骤1920中，从压缩数据解析编码参数，其中至少一个编码参数与拼接信息相关，拼接信息与形成预拼接图像的拼接处理相关，并且其中拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合。然后在步骤1930中，通过利用与拼接处理相关的拼接信息来解码当前块。

以上所示的流程图旨在作为示例来说明本发明的实施例。本领域技术人员可以通过修改每个步骤、重新安排步骤的顺序、拆分步骤或组合某些步骤来实践本发明，而不脱离本发明的精神。

如上述所述的本发明的实施例，可以使用硬件、软件或其组合来实现。例如，本发明的一实施例可以是集成到视频压缩芯片中的电路或集成到视频压缩软件中的程序代码，以执行所描述的处理。本发明的实施例也可以是将在数字信号处理器上执行的程序代码来执行所描述的处理。本发明还涉及一系列的由计算机处理器、数字信号处理器、微处理器和现场可编程门阵列(FPGA)执行的功能。根据本发明，这些处理器可以被配置为执行特定任务，通过执行定义特定方法的计算机可读软件代码或固件代码来实现。软件代码或固件代码可以用不同的编程语言和不同的格式或样式来开发。软件代码也可以为不同的目标平台所编译。然而，软件代码的不同的代码格式、风格和语言，以及配置代码的其他方式以执行任务，均不脱离本发明之精神和范围。

本发明可以以其它具体形式实施而不背离其精神或本质特征。所描述的实施例在所有方面都仅是说明性的而不是限制性。本发明的范围因此由所附权利要求为准而不是由前面的描述所界定。因此，各种修改、改编以及所描述的实施例的各种特征的组合可以在不脱离本发明的范围如权利要求书中阐述的情况下实施。

Claims

1.一种预拼接图像的视频编码方法，用于视频编码系统，其中每个预拼接图像由全景视频捕获设备的两个摄相机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，其特征在于，所述方法包括：

接收包括当前预拼接图像中的当前块的全景视频源数据；

接收与用于形成所述预拼接图像的拼接处理相关的拼接信息，其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及

使用与所述拼接处理相关的所述拼接信息来编码所述当前块，其中所述拼接信息对应于与接缝检测相关的接缝信息，并且通过利用所述接缝信息，基于接缝的帧间预测用于编码所述当前块。

2.根据权利要求1所述的方法，其特征在于，所述拼接信息对应于与投影处理相关的匹配结果，并且通过将参考预拼接图像中的参考块投影到所述当前块的坐标，应用基于投影的帧间预测以编码所述当前块。

3.根据权利要求2所述的方法，其特征在于，基于被指定为滚动、俯仰和偏航的球面坐标，所述基于投影的帧间预测执行对所述当前块的运动搜索。

4.根据权利要求3所述的方法，其特征在于，由球面运动向量指示的预测器候选使用平移矩阵投影到所述当前块的所述坐标，其中所述球面运动向量由滚动、俯仰和偏航值组成，并且所述平移矩阵是基于滚动、俯仰和偏航值得出的。

5.根据权利要求4所述的方法，其特征在于，

从所述当前块和每个预测器候选的投影预测器导出与每个预测器候选相关的残差，并计算与每个预测器候选相关的速率失真成本，并根据所述速率失真成本选择最佳预测器候选以作为所述当前块的当前预测器。

6.根据权利要求2所述的方法，其特征在于，仅当所述当前块的y位置在指定范围之外时，将所述基于投影的帧间预测应用于所述当前块；否则，将常规帧间预测应用于所述当前块，并且对于常规帧间预测，在(x，y)域中执行最佳预测器的运动搜索。

7.根据权利要求6所述的方法，其特征在于，所述指定范围对应于垂直方向上的中间范围。

8.根据权利要求1所述的方法，其特征在于，从所述全景视频源数据解析所述接缝信息，并且如果所述接缝信息存在，则执行运动搜索以识别预测器候选；并且检查接缝是否跨越任何预测器候选或所述当前块，以及检查任何预测器候选和所述当前块是否位于所述接缝的不同侧。

9.根据权利要求8所述的方法，其特征在于，如果所述接缝跨越任何预测器候选或所述当前块，则通过缩放在所述接缝一侧的所述预测器候选的像素强度，调整所述预测器候选的亮度、颜色或二者以与所述当前块相匹配；并且如果任何预测器候选和所述当前块位于所述接缝的不同侧，通过缩放所述预测器候选中的所有像素的像素强度，来调整所述预测器候选的亮度、颜色或二者以与所述当前块相匹配。

10.根据权利要求8所述的方法，其特征在于，从所述当前块和每个预测器候选的缩放的预测器导出与每个预测器候选相关的残差，并且计算与每个预测器候选相关的速率失真成本，并且根据所述速率失真成本选择最佳预测器候选以作为所述当前块的当前预测器。

11.根据权利要求1所述的方法，其特征在于，从所述全景视频源数据解析所述接缝信息，并且如果所述接缝信息不存在，常规帧间预测用于编码所述当前块。

12.一种预拼接图像的视频编码的装置，用于视频编码系统，其中每个预拼接图像由全景视频捕获装置的两个摄像机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，所述装置包括一个或多个电子电路或处理器，其特征在于，所述一个或多个电子电路或所述处理器用于执行以下步骤：

接收包括当前预拼接图像中的当前块的全景视频源数据；

13.一种预拼接图像的视频解码方法，用于视频解码系统，其中每个预拼接图像由全景视频捕获设备的两个摄相机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，其特征在于，该方法包括：

接收压缩数据，所述压缩数据包括当前预拼接图像中的当前块的编码当前块；

解析编码参数，其中至少一个编码参数与拼接信息相关，所述拼接信息与形成所述预拼接图像的拼接处理相关，并且其中所述拼接信息包括校准数据、匹配结果、接缝位置、混合水平、传感器数据或其组合；以及

使用与所述拼接处理相关的所述拼接信息来解码所述当前块，其中所述拼接信息对应于与接缝检测相关的接缝信息，并且通过利用所述接缝信息，基于接缝的帧间预测用于编码所述当前块。

14.根据权利要求13所述的方法，其特征在于，所述拼接信息对应于与投影处理相关的匹配结果，并且通过将参考预拼接图像中的参考块投影到所述当前块的坐标，应用基于投影的帧间预测以解码所述当前块。

15.根据权利要求14所述的方法，其特征在于，基于被指定为滚动、俯仰和偏航的球面坐标，所述基于投影的帧间预测执行对所述当前块的运动补偿。

16.根据权利要求15所述的方法，其特征在于，从所述压缩数据解码球面运动向量，将由所述球面运动向量指示的预测器使用平移矩阵投影到所述当前块的所述坐标以形成投影预测器，并且其中所述球面运动向量由滚动、俯仰和偏航值组成，并且基于所述滚动、俯仰和偏航值导出所述平移矩阵。

17.根据权利要求16所述的方法，其特征在于，从所述压缩数据导出所述当前块的残差，并且从所述当前块的所述残差和所述投影预测器重构所述当前块。

18.根据权利要求14所述的方法，其特征在于，仅当所述当前块的y位置在指定范围之外时，应用所述基于投影的帧间预测来解码所述当前块；否则，应用常规帧间预测来解码所述当前块，并且组合由(x，y)域中的运动向量指示的预测器与从所述压缩数据导出的残差，以重构所述当前块。

19.根据权利要求18所述的方法，其特征在于，所述指定范围对应于垂直方向上的中间范围。

20.根据权利要求13所述的方法，其特征在于，从所述压缩数据解析所述接缝信息，检查接缝是否跨越所述当前块的当前预测器或者所述当前块，以及检查所述当前预测器和所述当前块是否位于所述接缝的不同侧。

21.根据权利要求20所述的方法，其特征在于，如果所述接缝跨越所述当前块的所述当前预测器或所述当前块，则通过缩放在所述接缝一侧的所述当前预测器的像素强度，来调整所述当前预测器的亮度、颜色或二者以与所述当前块相匹配，以形成缩放的预测器；并且如果所述当前预测器和所述当前块位于所述接缝的不同侧，通过缩放所述当前预测器中的所有像素的像素强度，来调整所述当前预测器的亮度、颜色或二者以与所述当前块相匹配，以形成所述缩放的预测器；并且组合所述缩放的预测器与从所述压缩数据解码的残差，以重构所述当前块。

22.根据权利要求20所述的方法，其特征在于，如果所述接缝不跨越所述当前块的当前预测器或所述当前块，或者所述当前预测器和所述当前块位于所述接缝的同一侧，则组合没有缩放的所述当前预测器与从所述压缩数据解码的残差，以重构所述当前块。

23.根据权利要求13所述的方法，其特征在于，从所述压缩数据解析接缝信息，并且如果所述接缝信息不存在，则常规帧间预测用于解码所述当前块。

24.一种预拼接图像的视频解码的装置，用于视频解码系统，其中每个预拼接图像由全景视频捕获装置的两个摄像机捕获的至少两个图像形成，并且由两个相邻摄像机捕获的两个相邻图像至少包括重叠图像区域，所述装置包括一个或多个电子电路或处理器，其特征在于，所述一个或多个电子电路或所述处理器用于执行以下步骤：