CN116600114A

CN116600114A - 全景视频编码方法、装置、设备及可读存储介质

Info

Publication number: CN116600114A
Application number: CN202310596099.5A
Authority: CN
Inventors: 蒋铼; 郭苡辰; 徐迈
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-15

Abstract

本公开涉及一种全景视频编码方法、装置、设备及可读存储介质。相较于现有技术，本公开实施例通过对全景视频进行视窗预测，预测得到全景视频的多个候选视窗以及每个候选视窗的重要性系数，考虑了视频的主观质量，进一步，基于多个候选视窗进行显著性预测，得到视窗显著图，解决了对整帧进行显著性处理存在的算力浪费或码率浪费的问题，基于全景视频的多个候选视窗、每个候选视窗的重要性系数、视窗显著图以及预设的编码树单元的码率分配规则，计算全景视频中的每个编码树单元的分配码率，基于每个编码树单元的分配码率对全景视频进行编码，在保证主观观看质量的条件下大幅度节省了码率，不局限于在线编码场景，可以应用于离线观看场景，适用性强。

Description

全景视频编码方法、装置、设备及可读存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种全景视频编码方法、装置、设备及可读存储介质。

背景技术

在平面视频编码中，R-λ方法是最先进的码率控制方法。

现有全景视频编码方案中，主要通过以下三种方法进行优化：1)基于空间失真优化的方案，很多全景视频编码方法考虑到了圆柱体投影(Equirectangular Projection，ERP)格式带来的空间失真，提出根据一些投影友好的峰值信噪比(Peak Signal to NoiseRatio，PSNR)权重来修正R-λ方法在全景视频中的应用；2)基于主观质量提升的方案，一些全景视频编码方法通过考虑视频帧的显著区域来进行主观质量提升；3)基于视窗自适应的方案，考虑到观看者在观看全景视频的过程中只能看到视窗内的图像，一些在线的全景视频编码方法提出要将更多码率分配给视窗区域。

但是，上述方法1)没有考虑到视频的主观质量，主观质量较差，方法2)对整帧进行显著性处理的方法存在算力浪费或码率浪费，方法3)仅限于在线编码场景，不能直接应用于离线观看场景。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种全景视频编码方法、装置、设备及可读存储介质。

第一方面，本公开实施例提供一种全景视频编码方法，所述方法包括：

对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数；

基于所述多个候选视窗进行显著性预测，得到视窗显著图；

基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率；

基于所述每个编码树单元的分配码率对全景视频进行编码。

在一些实施例中，所述对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，包括：

对于全景视频的任意连续的两帧图像，分别对所述两帧图像进行卷积特征提取，得到所述两帧图像的空间特征；

将所述两帧图像的空间特征输入双向编解码模块，得到所述两帧图像的全景特征，所述两帧图像的全景特征包括所述两帧图像的帧内特征以及所述两帧图像的帧间特征；

对所述两帧图像的全景特征输入全连接层进行映射，得到所述两帧图像的视窗以及视窗信息，所述两帧图像的视窗信息包括所述两帧图像的视窗坐标以及所述视窗在两帧图像之间的移动向量；

分别对所述两帧图像的视窗进行筛选，确定出所述全景视频中的两帧图像的多个候选视窗以及所述两帧图像的多个候选视窗之间的匹配关系。

在一些实施例中，所述将所述两帧图像的空间特征输入双向编解码模块，得到所述两帧图像的全景特征，包括：

将所述两帧图像的空间特征输入双向编解码模块中的编码器进行帧内特征提取，得到所述两帧图像的帧内特征；

将所述两帧图像的帧内特征输入双向编解码模块中的编码器进行帧间特征提取，得到所述两帧图像的帧间特征。

在一些实施例中，所述基于所述多个候选视窗进行显著性预测，得到视窗显著图，包括：

将多个候选视窗输入初始化卷积组进行特征提取，得到输入图像特征；

对所述输入图像特征进行残差特征提取，得到多级空间特征图；

基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图；

对所述多层级特征图进行特征尺寸变换以及特征信息融合，得到视窗显著图。

在一些实施例中，所述对所述输入图像特征进行残差特征提取，得到多级空间特征图，包括；

将所述输入图像特征依次通过串联的多个残差模块，得到初始多级空间特征图；

通过卷积块注意力模块对所述初始多级空间特征图进行修正，得到多级空间特征图。

在一些实施例中，所述基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图，包括：

将所述多级空间特征图输入特征金字塔，所述特征金字塔的每一层级特征图均包含递增的通道数和递减的特征图尺寸，通过所述特征金字塔对关注点进行预测，得到多层级特征图。

在一些实施例中，所述基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，包括：

基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元对应的权重；

确定每个编码树单元的失真度和固定码率；

基于每个编码树单元对应的权重、所述每个编码树单元的失真度以及固定码率，计算出所述全景视频中的每个编码树单元的分配码率

第二方面，本公开实施例提供一种全景视频编码装置，包括：

第一得到模块，用于对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数；

第二得到模块，用于基于所述多个候选视窗进行显著性预测，得到视窗显著图；

计算模块，用于基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率；

编码模块，用于基于所述每个编码树单元的分配码率对全景视频进行编码。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面所述的方法。

第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如第一方面所述的方法。

本公开实施例提供的全景视频编码方法、装置、设备及可读存储介质，通过对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，基于所述多个候选视窗进行显著性预测，得到视窗显著图，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码。本公开实施例相较于现有技术，有如下优点：通过对所述全景视频进行视窗预测，预测得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，考虑了视频的主观质量，主观质量较好，进一步，基于所述多个候选视窗进行显著性预测，得到视窗显著图，解决了对整帧进行显著性处理存在的算力浪费或码率浪费的问题，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码，节省了码率，不局限于在线编码场景，可以应用于离线观看场景，适用性强。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的全景视频编码方法流程图；

图2为本公开另一实施例提供的全景视频编码方法流程图；

图3为本公开另一实施例提供的全景视频编码方法流程图；

图4为本公开实施例提供的全景视频编码框架示意图；

图5为本公开实施例提供的视窗预测流程示意图；

图6为本公开实施例提供的显著性预测流程示意图；

图7为本公开实施例提供的全景视频编码装置的结构示意图；

图8为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

在平面视频编码中，R-λ方法是最先进的码率控制方法。

现有全景视频编码方案中，主要通过三种方法进行优化：1)基于空间失真优化的方案，很多全景视频编码方法考虑到了圆柱体投影(Equirectangular Projection，ERP)格式带来的空间失真，提出根据一些投影友好的峰值信噪比(Peak Signal to Noise Ratio，PSNR)权重来修正R-λ方法在全景视频中的应用；2)基于主观质量提升的方案，一些全景视频编码方法通过考虑视频帧的显著区域来进行主观质量提升；3)基于视窗自适应的方案，考虑到观看者在观看全景视频的过程中只能看到视窗内的图像，一些在线的全景视频编码方法提出要将更多码率分配给视窗区域。

针对该问题，本公开实施例提供了一种全景视频编码方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的全景视频编码方法流程图。如图1所示，该方法包括如下几个步骤：

S101、对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数。

本步骤中，电子设备对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数。如图4所示，将原始全景视频帧作为输入，通过卷积网络和基于自注意力机制的深度学习模型(transformer)结合，对所述全景视频进行视窗预测，预测得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数。

S102、基于所述多个候选视窗进行显著性预测，得到视窗显著图。

在得到所述全景视频的多个候选视窗后，电子设备根据所述多个候选视窗进行显著性预测，得到视窗显著图。如图4所示，电子设备利用残差卷积网络进行了候选视窗内部的显著性检测。

S103、基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率。

本步骤中，电子设备根据所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率。如图4所示，电子设备根据所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，得到每个编码树单元(coding tree unit，CTU)的编码权重，结合R-λ方法计算所述全景视频中的每个编码树单元的分配码率，实现了视窗自适应的编码树单元遍历和码率分配。

S104、基于所述每个编码树单元的分配码率对全景视频进行编码。

在计算所述全景视频中的每个编码树单元的分配码率后，电子设备根据所述每个编码树单元的分配码率对全景视频进行编码。对于不同的编码树单元，分配不同的码率，节省了码率，保证了视窗内视频的主观质量，根据所述每个编码树单元的分配码率对全景视频进行编码，可以适用于离线场景。

本公开实施例通过对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，基于所述多个候选视窗进行显著性预测，得到视窗显著图，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码。本公开实施例相较于现有技术，有如下优点：通过对所述全景视频进行视窗预测，预测得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，考虑了视频的主观质量，主观质量较好，进一步，基于所述多个候选视窗进行显著性预测，得到视窗显著图，解决了对整帧进行显著性处理存在的算力浪费或码率浪费的问题，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码，节省了码率，不局限于在线编码场景，可以应用于离线观看场景，适用性强。

图2为本公开另一实施例提供的全景视频编码方法流程图，如图2所示，该方法包括如下几个步骤：

S201、对于全景视频的任意连续的两帧图像，分别对所述两帧图像进行卷积特征提取，得到所述两帧图像的空间特征。

如图5所示，候选视窗预测的网络结构包含三个模块：球面残差模块、双向编解码模块和球面匹配模块。对于全景视频的任意连续的两帧图像(t-k)帧和t帧，将(t-k)帧和t帧同时输入到球面残差模块中进行卷积特征提取，可分别得到这两帧的空间特征U_t-k和U_t。具体来说，球面残差模块使用的是多层级残差网络连接，用于融合多层级特征，从而得到全景视频帧的结构信息。

S202、将所述两帧图像的空间特征输入双向编解码模块，得到所述两帧图像的全景特征，所述两帧图像的全景特征包括所述两帧图像的帧内特征以及所述两帧图像的帧间特征。

如图5所示，将U_t-k和U_t送入双向编解码模块，用于进一步从时空角度提取全景特征。在一些实施例中，所述两帧图像的全景特征包括所述两帧图像的帧内特征以及所述两帧图像的帧间特征。

在一些实施例中，S202可以包括但不限于S2021、S2022：

S2021、将所述两帧图像的空间特征输入双向编解码模块中的编码器进行帧内特征提取，得到所述两帧图像的帧内特征。

在双向编解码模块中，首先用编码器进行帧内特征提取，得到所述两帧图像的帧内特征。

S2022、将所述两帧图像的帧内特征输入双向编解码模块中的编码器进行帧间特征提取，得到所述两帧图像的帧间特征。

进一步，将所述两帧图像的帧内特征送入解码器进行帧间特征提取，使两帧信息在解码器中，利用互注意力机制进行帧间交互，最终得到帧间特征和/>

S203、对所述两帧图像的全景特征输入全连接层进行映射，得到所述两帧图像的视窗以及视窗信息，所述两帧图像的视窗信息包括所述两帧图像的视窗坐标以及所述视窗在两帧图像之间的移动向量。

在得到所述两帧图像的全景特征之后，电子设备对所述两帧图像的全景特征输入全连接层进行映射，得到所述两帧图像的视窗以及视窗信息，所述两帧图像的视窗信息包括所述两帧图像的视窗坐标以及所述视窗在两帧图像之间的移动向量。具体的，在电子设备得球面匹配模块中，将所述两帧图像的帧间特征送入全连接层，映射得到两帧视窗的所述两帧图像的视窗以及视窗信息，视窗信息包括两帧图像的视窗坐标v_t-k、v_t以及所述视窗在两帧图像之间的移动向量s_t-k、s_t。

S204、分别对所述两帧图像的视窗进行筛选，确定出所述全景视频中的两帧图像的多个候选视窗以及所述两帧图像的多个候选视窗之间的匹配关系。

对于所述两帧图像的视窗，电子设备通过匈牙利算法对所述两帧图像的视窗进行筛选，确定出所述全景视频中的两帧图像的多个候选视窗以及所述两帧图像的多个候选视窗之间的匹配关系。

S205、将多个候选视窗输入初始化卷积组进行特征提取，得到输入图像特征。

如图6所示，显著性预测的网络结构包括编码器、特征金字塔、解码器。编码器包括初始化模块(即初始化卷积组)、串联的多个残差模块、卷积块注意力模块(convolutionalblock attention module，CBAM)。电子设备基于编码器将多个候选视窗输入初始化卷积组进行特征提取，得到输入图像特征，初始化卷积组包括一个7×7卷积层和一个最大池化层。

S206、对所述输入图像特征进行残差特征提取，得到多级空间特征图。

电子设备对所述输入图像特征进行残差特征提取，得到多级空间特征图。

在一些实施例中，S206可以包括但不限于S2061、S2062：

S2061、将所述输入图像特征依次通过串联的多个残差模块，得到初始多级空间特征图。

电子设备将输入图像特征依次通过串联的多个残差模块，基于残差模块分别提取分级的空间特征，得到初始多级空间特征图。

S2062、通过卷积块注意力模块对所述初始多级空间特征图进行修正，得到多级空间特征图。

每两个相邻的残差模块中还插入了卷积块注意力模块，通过卷积块注意力模块对所述初始多级空间特征图进行适应性修正，得到多级空间特征图。

S207、基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图。

电子设备利用多级空间特征图中的低级、中级、高级特征信息，通过不同尺寸的感受野来预测人的关注点。感受野(Receptive Field)的定义：卷积神经网络每一层输出的特征图上的像素点映射回输入图像上的区域大小。也就是说，特征图上一点，相对于输入图像的大小，即卷积神经网络特征所能看到输入图像的区域。

在一些实施例中，所述基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图，包括：将所述多级空间特征图输入特征金字塔，所述特征金字塔的每一层级特征图均包含递增的通道数和递减的特征图尺寸，通过所述特征金字塔对关注点进行预测，得到多层级特征图。

如图6所示，金字塔每一层中的特征图都包含递增的通道数(如64,128,256,512)和递减的特征图尺寸(如1/4,1/8,1/16,1/32)，电子设备将所述多级空间特征图输入特征金字塔，通过所述特征金字塔对关注点进行预测，得到多层级特征图。

S208、对所述多层级特征图进行特征尺寸变换以及特征信息融合，得到视窗显著图。

在得到多层级特征图之后，电子设备对所述多层级特征图进行特征尺寸变换以及特征信息融合，得到视窗显著图。如图6所示，电子设备基于解码器对所述多层级特征图进行上采样从而将特征图尺寸大小恢复一致，并将多层级显著性估计进行融合。特征金字塔中每一层的特征被输入到解码器中相应的解码模块中，每一个解码模块由数个“上采样-卷积”单元构成。每一个“上采样-卷积”单元由一个上采样层和一个卷积层构成，用于恢复特征图的尺寸。特征金字塔每一层的特征图含有递增的通道数，解码器中对应的每一个解码模块也包含着递增的“上采样-卷积”单元数(如2,3,4,5)来满足多层级的需求。经过多层级的解码模块后恢复尺寸的数张显著性估计图被联结起来，通过一个卷积核大小为1的卷积层以及非线性的软阈值函数(softmax)后生成了最终输出的显著性图。

在一些实施例中，电子设备通过显著性预测模型得到输出的显著性图。其中，模型的损失函数是由m级解码器组合输出的显著图的损失组合而成：

其中和S_m分别代表m级预测的显著图和相关的真实数据生成的显著图。/>包含和/>两个部分，分别代表/>和S_m间的KL(Kullback-Leibler)散度和CC(correlationcoefficient)相关系数，D_KL和R_CC分别代表/>和/>的计算。此外，λ₁和λ₂两个超参在训练过程中根据测试结果不断调整，分别是/>和/>是权重系数。

S209、基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率。

具体的，S209和S103的实现过程和原理一致，此处不再赘述。

S210、基于所述每个编码树单元的分配码率对全景视频进行编码。

具体的，S210和S104的实现过程和原理一致，此处不再赘述。

本公开实施例相较于现有技术，有如下优点：通过对所述全景视频进行视窗预测，预测得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，考虑了视频的主观质量，主观质量较好，进一步，基于所述多个候选视窗进行显著性预测，得到视窗显著图，解决了对整帧进行显著性处理存在的算力浪费或码率浪费的问题，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码，节省了码率，不局限于在线编码场景，可以应用于离线观看场景，适用性强。

图3为本公开另一实施例提供的全景视频编码方法流程图，如图3所示，该方法包括如下几个步骤：

S301、对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数。

具体的，S301和S101的实现过程和原理一致，此处不再赘述。

S302、基于所述多个候选视窗进行显著性预测，得到视窗显著图。

具体的，S302和S102的实现过程和原理一致，此处不再赘述。

S303、基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元对应的权重。

本步骤中，电子设备根据所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元对应的权重。具体的，电子设备进行编码树单元遍历，在编码树单元遍历过程中，根据编码树单元的像素是否在候选视窗中，对第i个编码树单元(CTU)中的第j个像素分配像素权重w_i,j。如果像素j在候选视窗中，将根据公式为像素j分配像素权重，否则将像素j的像素权重设为接近于0的正数。

得到像素权重w_i,j后，第i个编码树单元的权重则可根据下式计算：

S304、确定每个编码树单元的失真度和固定码率。

进一步，电子设备确定每个编码树单元的失真度和固定码率。针对F_t帧图像，在固定码率R下的码率分配的优化目标为最小化候选视窗中的第i个编码树单元的失真度d_i。

S305、基于每个编码树单元对应的权重、所述每个编码树单元的失真度以及固定码率，计算出所述全景视频中的每个编码树单元的分配码率。

电子设备根据每个编码树单元对应的权重、所述每个编码树单元的失真度以及固定码率，计算出所述全景视频中的每个编码树单元的分配码率。

具体的，优化目标可表达如下：

其中d_i和r_i分别代表每个CTU的失真和分配码率。这里使用双曲模型来表达失真和码率间的关系：

其中c_i和k_i是与全景视频内容相关的参数，在每一帧编码结束后更新并用于同一帧级的下一帧。根据CTU权重w_i，视窗自适应失真定义如下：

根据R-λ方法，上式可转化为非限制优化问题：

将上式求导并令其导数为零，可得到：

假设a_i＝c_ik_i，那么对于第i个CTU的分配码率分配如下：

根据每帧的分配码率R可得到：

最后，使用循环泰勒展开(recursive Taylor expansion,简称RTE)根据上式则可计算出每个CTU的分配码率r_i。

S306、基于所述每个编码树单元的分配码率对全景视频进行编码。

具体的，S306和S104的实现过程和原理一致，此处不再赘述。

本公开实施例通过对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，基于所述多个候选视窗进行显著性预测，得到视窗显著图。进一步，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元对应的权重，确定每个编码树单元的失真度和固定码率。进而基于每个编码树单元对应的权重、所述每个编码树单元的失真度以及固定码率，计算出所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码。本公开实施例相较于现有技术，有如下优点：通过对所述全景视频进行视窗预测，预测得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，考虑了视频的主观质量，主观质量较好，进一步，基于所述多个候选视窗进行显著性预测，得到视窗显著图，解决了对整帧进行显著性处理存在的算力浪费或码率浪费的问题，基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，基于所述每个编码树单元的分配码率对全景视频进行编码，节省了码率，不局限于在线编码场景，可以应用于离线观看场景，适用性强。

图7为本公开实施例提供的全景视频编码装置的结构示意图。该全景视频编码装置可以是如上实施例的电子设备，或者全景视频编码装置可以该电子设备中的部件或组件。本公开实施例提供的全景视频编码装置可以执行全景视频编码方法实施例提供的处理流程，如图4所示，全景视频编码装置70包括：第一得到模块71、第二得到模块72、计算模块73、编码模块74；其中，第一得到模块71用于对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数；第二得到模块72用于基于所述多个候选视窗进行显著性预测，得到视窗显著图；计算模块73用于基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率；编码模块74用于基于所述每个编码树单元的分配码率对全景视频进行编码。

可选的，所述第一得到模块71对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数时，具体用于：对于全景视频的任意连续的两帧图像，分别对所述两帧图像进行卷积特征提取，得到所述两帧图像的空间特征；将所述两帧图像的空间特征输入双向编解码模块，得到所述两帧图像的全景特征，所述两帧图像的全景特征包括所述两帧图像的帧内特征以及所述两帧图像的帧间特征；对所述两帧图像的全景特征输入全连接层进行映射，得到所述两帧图像的视窗以及视窗信息，所述两帧图像的视窗信息包括所述两帧图像的视窗坐标以及所述视窗在两帧图像之间的移动向量；分别对所述两帧图像的视窗进行筛选，确定出所述全景视频中的两帧图像的多个候选视窗以及所述两帧图像的多个候选视窗之间的匹配关系。

可选的，所述第一得到模块71将所述两帧图像的空间特征输入双向编解码模块，得到所述两帧图像的全景特征时，具体用于：将所述两帧图像的空间特征输入双向编解码模块中的编码器进行帧内特征提取，得到所述两帧图像的帧内特征；将所述两帧图像的帧内特征输入双向编解码模块中的编码器进行帧间特征提取，得到所述两帧图像的帧间特征。

可选的，所述第二得到模块72基于所述多个候选视窗进行显著性预测，得到视窗显著图时，具体用于：将多个候选视窗输入初始化卷积组进行特征提取，得到输入图像特征；对所述输入图像特征进行残差特征提取，得到多级空间特征图；基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图；对所述多层级特征图进行特征尺寸变换以及特征信息融合，得到视窗显著图。

可选的，所述第二得到模块72对所述输入图像特征进行残差特征提取，得到多级空间特征图时，具体用于：将所述输入图像特征依次通过串联的多个残差模块，得到初始多级空间特征图；通过卷积块注意力模块对所述初始多级空间特征图进行修正，得到多级空间特征图。

可选的，所述第二得到模块72基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图时，具体用于：将所述多级空间特征图输入特征金字塔，所述特征金字塔的每一层级特征图均包含递增的通道数和递减的特征图尺寸，通过所述特征金字塔对关注点进行预测，得到多层级特征图。

可选的，所述计算模块73基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率时，具体用于：基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元对应的权重；确定每个编码树单元的失真度和固定码率；基于每个编码树单元对应的权重、所述每个编码树单元的失真度以及固定码率，计算出所述全景视频中的每个编码树单元的分配码率。

图7所示实施例的全景视频编码装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的电子设备。本公开实施例提供的电子设备可以执行全景视频编码方法实施例提供的处理流程，如图8所示，电子设备80包括：存储器81、处理器82、计算机程序和通讯接口83；其中，计算机程序存储在存储器81中，并被配置为由处理器82执行如上所述的全景视频编码方法。

另外，本公开实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的全景视频编码方法。

此外，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的全景视频编码方法。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

基于所述多个候选视窗进行显著性预测，得到视窗显著图；

基于所述每个编码树单元的分配码率对全景视频进行编码。

另外，该电子设备还可以执行如上所述的全景视频编码方法中的其他步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种全景视频编码方法，其特征在于，包括：

基于所述多个候选视窗进行显著性预测，得到视窗显著图；

基于所述每个编码树单元的分配码率对全景视频进行编码。

2.根据权利要求1所述的方法，其特征在于，所述对所述全景视频进行视窗预测，得到所述全景视频的多个候选视窗以及每个候选视窗的重要性系数，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述两帧图像的空间特征输入双向编解码模块，得到所述两帧图像的全景特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述多个候选视窗进行显著性预测，得到视窗显著图，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述输入图像特征进行残差特征提取，得到多级空间特征图，包括；

6.根据权利要求4所述的方法，其特征在于，所述基于所述多级空间特征图在不同尺寸下的感受野对关注点进行预测，得到多层级特征图，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述全景视频的多个候选视窗、所述每个候选视窗的重要性系数、所述视窗显著图以及预设的编码树单元的码率分配规则，计算所述全景视频中的每个编码树单元的分配码率，包括：

确定每个编码树单元的失真度和固定码率；

基于每个编码树单元对应的权重、所述每个编码树单元的失真度以及固定码率，计算出所述全景视频中的每个编码树单元的分配码率。

8.一种全景视频编码装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。