CN116016927A

CN116016927A - 一种考虑时域相关性和熵平衡的低延时全景视频编码方法

Info

Publication number: CN116016927A
Application number: CN202310000880.1A
Authority: CN
Inventors: 朱策; 杨栩; 罗雷; 郭红伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-04-25

Abstract

本发明属于全景视频编码技术领域，具体涉及一种考虑时域相关性和熵平衡的低延时全景视频编码方法。本发明通过分析低延时编码结构下的帧间参考关系并建立对应的球面域失真传播链，将当前编码单元的失真影响因子用于调整编码参数，以达到优化编码的目标。同时，本发明根据熵平衡原则来为球面不同区域赋予相应的权重来调整该区域的失真影响大小，本发明能够极大提升编码率失真性能，同时显著降低编码时间。

Description

一种考虑时域相关性和熵平衡的低延时全景视频编码方法

技术领域

本发明属于全景视频编码技术领域，具体涉及一种考虑时域相关性和熵平衡的低延时全景视频编码方法。

背景技术

全景视频是一种使用相机阵列或3D摄像机进行全方位360度进行拍摄的视频，用户在观看视频的时候，可以随意调节视频上下左右方位进行观看，全景视频具有高帧率、高分辨率(至少4K)、宽视域的特征，存储和传输全景视频非常消耗资源。低延时层次编码结构采用循环GOP(Group Of Pictures)结构，一个GOP分为3层，每一层的编码帧采用相同的量化参数，每一帧有多个参考帧，分别为时域上的前一帧，以及已经编码的邻近3个关键帧。H.266/VVC中GOP大小增大至8,编码帧的播放顺序POC(Picture Order Count)与编码顺序EOC(Encoding Order Count)相同。

全景视频图像需要投影到二维平面上后，再通过传统编码器进行编码。ERP投影是当前最常用的一种投影方式，也是360Lib默认的投影方式，该投影会在球面高纬度区域产生拉伸形变，通过插值填充而产生过采样。

H.266/VVC中的编码过程为：

1)编码单元划分

2)预测模式选择，假设各编码单元间相互独立

式中λ_i为第i个编码单元对应的拉格朗日乘子，P_i为编码参数(比如量化参数，编码模式等)，J_i为第i个编码单元的率失真代价，编码器通过最小率失真代价J_i来进行编码模式选择，这里的编码模式主要指帧内及帧间预测模式。

3)变换：预测残差进行哈达玛变化

3)量化：对变换后的残差进行量化，引入量化失真

Q_STEP＝2^(QP-4)/6

Q_STEP为量化步长，与量化参数的关系式为上式。

现有的基于360Lib的VTM编码器没有考虑全景视频投影失真带来的过采样问题。同时VTM编码器为了简化问题，没有考虑编码单元间的时域相关性，而且球面域的失真影响大小不仅跟编码参考帧结构有关，还与球面投影失真有关，所以率失真性能还有较大的提升空间。

发明内容

针对上述问题，本发明提供一种考虑时域相关性和熵平衡的低延时全景视频编码方法。本发明通过分析低延时编码结构下的帧间参考关系并建立对应的球面域失真传播链，将当前编码单元的失真影响因子用于调整编码参数，以达到优化编码的目标。同时，本发明根据熵平衡原则来为球面不同区域赋予相应的权重来调整该区域的失真影响大小。

本发明的技术方案为：

一种考虑时域相关性和熵平衡的低延时全景视频编码方法，包括以下步骤：

S1、向编码器输入待编码序列；

S2、判断当前是否为第一帧，若是，则执行：

计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比；

依据帧级QP计算帧级拉格朗日乘子；

编码完当前帧，输入下一张图片重复S2；

否则，进入步骤S3；

S3、计算当前编码帧像素均值和方差值；

S4、判断当前帧像素方差值与上一帧的差值是否小于第一阈值，同时帧级时域相关性是否大于第二阈值，若是，则进入S5，否则进入S6；

S5、当前帧的编码量化参数增加1；

S6、按顺序编码CTU；

S7、判断当前帧数是否大于3，若是，进入步骤S9，否则进入S8；

S8、基于R-λ模型调整拉格朗日乘子，进入S11；

S9、基于R-λ模型和前一帧的时域相关性调整CTU拉格朗日乘子；

S10、计算当前CTU的量化参数并编码CTU；

S11、判断是否是最后一个CTU，若是，则编码完当前帧，进入步骤S12，否则，回到步骤S6；

S12、获取当前帧保存的每个CTU的编码失真和运动补偿预测误差，计算当前帧内各个CTU的时域失真影响因子；

S13、判断是否是最后一帧，若是，则进入S14，否则输入下一张图片并回到S2；

S14、当前全景视频序列编码完成。

进一步的，步骤S2中，计算面积拉伸比的方法为：定义全景视频球体半径为r，则纬度为θ的球面环带区域面积为：

S_s(θ)＝2π·r²·cosθ·sindθ

投影2D平面后，得到拉伸区域的面积为：

则面积拉伸比为：

进一步的，步骤10的具体方法为：

其中，λ_θi为R-λ模型调整后的拉格朗日乘子，k为时域相关性性。

本发明的有益效果为：根据全景视频的球面图像在投影过程中在不同纬度区域发生不同程度的几何变形，通过插值填充导致像素冗余，进而破坏熵分布的问题，根据码率控制模型来调整编码参数，能极大的提升编码性能能够极大提升编码率失真性能，同时显著降低编码时间。

附图说明

图1是全景视频投影示意图。

图2是本发明的方法流程示意图。

具体实施方式

下面结合附图来对本发明进行详细描述。

编码器通过率失真优化(RDO)技术为输入视频选择一组最优的编码参数以及率失真代价最小的编码模式，其目标是在一定码率限制条件下尽可能降低编码失真或者在一定编码失真限定条件下尽可能减少编码比特。本发明所提出的编码方法具体实现方式如图2所示。

对于输入的第一帧图像，需要计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比，具体方法为：

定义r为球体半径，可以计算纬度为θ球面环带区域面积为

S_s(θ)＝2π·r²·cosθ·sindθ

对应于投影2D平面，该拉伸区域的面积为

投影前后的面积比为

可以看出，该比值随着纬度的增加而减小，在赤道区域，也即纬度θ为0处，该面积比为1，没有拉伸。假设赤道区域的熵在投影前后没有发生改变，越趋近于极点，熵变化越大。

同时第一帧依据帧级QP计算帧级拉格朗日乘子来进行编码。

对于第二帧及以后的编码帧图像，先计算当前编码帧像素均值和方差：

其中，P、D分别表示均值和方差，P_i,j表示每一个像素点的像素值，分辨率为n*m。

根据当前编码帧像素方差与前一帧差值，若差值小于阈值50，再同时判断帧级时域相关性是否大于0.8，若满足条件，则前帧的编码量化参数增加1，再编码CTU；

若当前编码帧像素方差与前一帧差值大于阈值50，并且帧数小于3，则通过码率控制中的R-λ模型调整后拉格朗日乘子：

VVC标准参考代码VTM采用的率失真模型为

D＝c·R^-k

其中，c和k为模型参数。D和R分别为编码失真和编码比特，分别用均方误差MSE(Mean Square Error)和bpp(Bit Per Pixel)表示，其中MSE通过原始帧和重建帧对应像素的均方误差求得。根据R-λ模型有

λ_i为第i个编码单元对应的拉格朗日乘子，为率失真曲线的斜率。拉格朗日乘子λi与码率Ri之间的关系

上式中参数在编码完一帧或者一个编码树单元CTU后会自动更新。大量的实验表明，参数1/α_i和-1/β_i分别为大于1的浮点数和小于0的负数。由于熵分布模型不需要准确的码率分配，同时为了降低复杂度，参数1/α_i和-1/β_i分别取值为1和-1。上式简化为

λ_i＝R_i ^-1

则通过码率控制中的R-λ模型调整后拉格朗日乘子

其中θ对应的纬度值如图1所示，为0时表示赤道区域。

否则根据R-λ模型和前一帧的时域相关性调整CTU拉格朗日乘子；时域相关性的定义是：视频编码中，在帧间预测过程中，当前编码帧的编码质量受到参考帧质量的影响，也就是说参考帧的失真会影响后续编码帧的失真，从而形成时域上的相关性。

这里使用编码树单元的重建失真和运动补偿预测误差失真的比值来度量视频编码中的时域相关性性，即：

编码块的失真D_cur与编码块的运动补偿预测误差

对于当前编码块来说，在真正编码之前无法获得其失真。为了做到零时延，考虑使用前一帧对应位置编码树单元信息近似代替当前块的时域依赖性。这样做的原因是相邻两帧的图像特点一般比较相近，同时根据当前帧和前一帧的像素均值和方差的差来判断图像是否发生场景切换从而决定是否使用该失真影响因子。需要说明的是，因为第一帧采用帧内编码，没有参考时域上的相关信息，所以不对其进行调整。用同样的思路计算帧级时域相关性K_frame。

根据时域相关性k以及R-λ模型调节每个编码树单元的拉格朗日乘子的方法是，通过将原本的拉格朗日乘子除以调整权重后得到新的拉格朗日乘子λ_n，进而实现时域率失真优化：

其中λ_ERP(θi)为R-λ模型调整后的拉格朗日乘子。同时，时域相关性强的编码树单元，k越大，那么调整后的拉格朗日乘子就越小，也就意味着其失真将会被减小，有利于后续帧达到更高的率失真性能；反之，时域依赖性弱的编码树单元就会被相对的编差一些。再通过下式计算编码量化参数：

QP_θi＝4.5499·log(λ_θi)-0.0956+0.5

0.5为四舍五入的取整操作，其余数据为模型参数。

在本发明的方案中，对于低延时编码结构下，由于球面投影后会出现图象拉伸失真，失真区域通过插值填充冗余像素，从而破坏原有的熵分布，在球面编码比特均匀分布的假设下，根据R-λ模型计算编码参数，达到熵平衡的目标。

本发明根据图像像素均值和方差等统计特征用于判断全景视频图像场景是否发生变化，如果图像场景没有发生切换，则使用前一帧已编码块的重建失真信息和运动补偿预测误差信息来估计当前待编码帧的失真传播影响因子，并用于调整编码参数从而实现时域率失真优化；反之，则用编码器自带算法编码。这是提升率失真性能的关键。

下面使用实验结果说明本发明方案的有效性，全景视频码率控制算法集成到基于360lib的H.266/VVC参考软件VTM14.0中，编码器配置为LOW-DELAY，实验条件遵守国际编码标准组织JCT-VC建议的标准全景视频序列作为测试视频，包括8K、6K和4K三类中的全部14个视频序列，对比的指标有BD-Rate，及编码时间。其中当BD-Rate为负值时，代表相同重建质量下码率减少，技术具有增益，当BD-Rate为正值时，代表相同重建质量下码率增加，技术存在损失。此处分别以给定QP时VVC编码器的编码质量为对比的基准。

表1对比了本发明算法和基准的率失真性能对比，可以看出本发明平均BD-RATE节省6.6％左右。

表1与360lib vtm14.0基准率失真性能对比

表2对比了本发明算法和基准的编码时间，可以看出本发明节约时间14.62％。

表2编码时间对比