CN116016927A - 一种考虑时域相关性和熵平衡的低延时全景视频编码方法 - Google Patents

一种考虑时域相关性和熵平衡的低延时全景视频编码方法 Download PDF

Info

Publication number
CN116016927A
CN116016927A CN202310000880.1A CN202310000880A CN116016927A CN 116016927 A CN116016927 A CN 116016927A CN 202310000880 A CN202310000880 A CN 202310000880A CN 116016927 A CN116016927 A CN 116016927A
Authority
CN
China
Prior art keywords
coding
frame
panoramic video
distortion
ctu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310000880.1A
Other languages
English (en)
Inventor
朱策
杨栩
罗雷
郭红伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202310000880.1A priority Critical patent/CN116016927A/zh
Publication of CN116016927A publication Critical patent/CN116016927A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明属于全景视频编码技术领域,具体涉及一种考虑时域相关性和熵平衡的低延时全景视频编码方法。本发明通过分析低延时编码结构下的帧间参考关系并建立对应的球面域失真传播链,将当前编码单元的失真影响因子用于调整编码参数,以达到优化编码的目标。同时,本发明根据熵平衡原则来为球面不同区域赋予相应的权重来调整该区域的失真影响大小,本发明能够极大提升编码率失真性能,同时显著降低编码时间。

Description

一种考虑时域相关性和熵平衡的低延时全景视频编码方法
技术领域
本发明属于全景视频编码技术领域,具体涉及一种考虑时域相关性和熵平衡的低延时全景视频编码方法。
背景技术
全景视频是一种使用相机阵列或3D摄像机进行全方位360度进行拍摄的视频,用户在观看视频的时候,可以随意调节视频上下左右方位进行观看,全景视频具有高帧率、高分辨率(至少4K)、宽视域的特征,存储和传输全景视频非常消耗资源。低延时层次编码结构采用循环GOP(Group Of Pictures)结构,一个GOP分为3层,每一层的编码帧采用相同的量化参数,每一帧有多个参考帧,分别为时域上的前一帧,以及已经编码的邻近3个关键帧。H.266/VVC中GOP大小增大至8,编码帧的播放顺序POC(Picture Order Count)与编码顺序EOC(Encoding Order Count)相同。
全景视频图像需要投影到二维平面上后,再通过传统编码器进行编码。ERP投影是当前最常用的一种投影方式,也是360Lib默认的投影方式,该投影会在球面高纬度区域产生拉伸形变,通过插值填充而产生过采样。
H.266/VVC中的编码过程为:
1)编码单元划分
2)预测模式选择,假设各编码单元间相互独立
Figure BDA0004034441650000011
式中λi为第i个编码单元对应的拉格朗日乘子,Pi为编码参数(比如量化参数,编码模式等),Ji为第i个编码单元的率失真代价,编码器通过最小率失真代价Ji来进行编码模式选择,这里的编码模式主要指帧内及帧间预测模式。
3)变换:预测残差进行哈达玛变化
3)量化:对变换后的残差进行量化,引入量化失真
QSTEP=2(QP-4)/6
QSTEP为量化步长,与量化参数的关系式为上式。
现有的基于360Lib的VTM编码器没有考虑全景视频投影失真带来的过采样问题。同时VTM编码器为了简化问题,没有考虑编码单元间的时域相关性,而且球面域的失真影响大小不仅跟编码参考帧结构有关,还与球面投影失真有关,所以率失真性能还有较大的提升空间。
发明内容
针对上述问题,本发明提供一种考虑时域相关性和熵平衡的低延时全景视频编码方法。本发明通过分析低延时编码结构下的帧间参考关系并建立对应的球面域失真传播链,将当前编码单元的失真影响因子用于调整编码参数,以达到优化编码的目标。同时,本发明根据熵平衡原则来为球面不同区域赋予相应的权重来调整该区域的失真影响大小。
本发明的技术方案为:
一种考虑时域相关性和熵平衡的低延时全景视频编码方法,包括以下步骤:
S1、向编码器输入待编码序列;
S2、判断当前是否为第一帧,若是,则执行:
计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比;
依据帧级QP计算帧级拉格朗日乘子;
编码完当前帧,输入下一张图片重复S2;
否则,进入步骤S3;
S3、计算当前编码帧像素均值和方差值;
S4、判断当前帧像素方差值与上一帧的差值是否小于第一阈值,同时帧级时域相关性是否大于第二阈值,若是,则进入S5,否则进入S6;
S5、当前帧的编码量化参数增加1;
S6、按顺序编码CTU;
S7、判断当前帧数是否大于3,若是,进入步骤S9,否则进入S8;
S8、基于R-λ模型调整拉格朗日乘子,进入S11;
S9、基于R-λ模型和前一帧的时域相关性调整CTU拉格朗日乘子;
S10、计算当前CTU的量化参数并编码CTU;
S11、判断是否是最后一个CTU,若是,则编码完当前帧,进入步骤S12,否则,回到步骤S6;
S12、获取当前帧保存的每个CTU的编码失真和运动补偿预测误差,计算当前帧内各个CTU的时域失真影响因子;
S13、判断是否是最后一帧,若是,则进入S14,否则输入下一张图片并回到S2;
S14、当前全景视频序列编码完成。
进一步的,步骤S2中,计算面积拉伸比的方法为:定义全景视频球体半径为r,则纬度为θ的球面环带区域面积为:
Ss(θ)=2π·r2·cosθ·sindθ
投影2D平面后,得到拉伸区域的面积为:
Figure BDA0004034441650000031
则面积拉伸比为:
Figure BDA0004034441650000032
进一步的,步骤10的具体方法为:
Figure BDA0004034441650000033
其中,λθi为R-λ模型调整后的拉格朗日乘子,k为时域相关性性。
本发明的有益效果为:根据全景视频的球面图像在投影过程中在不同纬度区域发生不同程度的几何变形,通过插值填充导致像素冗余,进而破坏熵分布的问题,根据码率控制模型来调整编码参数,能极大的提升编码性能能够极大提升编码率失真性能,同时显著降低编码时间。
附图说明
图1是全景视频投影示意图。
图2是本发明的方法流程示意图。
具体实施方式
下面结合附图来对本发明进行详细描述。
编码器通过率失真优化(RDO)技术为输入视频选择一组最优的编码参数以及率失真代价最小的编码模式,其目标是在一定码率限制条件下尽可能降低编码失真或者在一定编码失真限定条件下尽可能减少编码比特。本发明所提出的编码方法具体实现方式如图2所示。
对于输入的第一帧图像,需要计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比,具体方法为:
定义r为球体半径,可以计算纬度为θ球面环带区域面积为
Ss(θ)=2π·r2·cosθ·sindθ
对应于投影2D平面,该拉伸区域的面积为
Figure BDA0004034441650000041
投影前后的面积比为
Figure BDA0004034441650000042
可以看出,该比值随着纬度的增加而减小,在赤道区域,也即纬度θ为0处,该面积比为1,没有拉伸。假设赤道区域的熵在投影前后没有发生改变,越趋近于极点,熵变化越大。
同时第一帧依据帧级QP计算帧级拉格朗日乘子来进行编码。
对于第二帧及以后的编码帧图像,先计算当前编码帧像素均值和方差:
Figure BDA0004034441650000043
Figure BDA0004034441650000044
其中,P、D分别表示均值和方差,Pi,j表示每一个像素点的像素值,分辨率为n*m。
根据当前编码帧像素方差与前一帧差值,若差值小于阈值50,再同时判断帧级时域相关性是否大于0.8,若满足条件,则前帧的编码量化参数增加1,再编码CTU;
若当前编码帧像素方差与前一帧差值大于阈值50,并且帧数小于3,则通过码率控制中的R-λ模型调整后拉格朗日乘子:
VVC标准参考代码VTM采用的率失真模型为
D=c·R-k
其中,c和k为模型参数。D和R分别为编码失真和编码比特,分别用均方误差MSE(Mean Square Error)和bpp(Bit Per Pixel)表示,其中MSE通过原始帧和重建帧对应像素的均方误差求得。根据R-λ模型有
Figure BDA0004034441650000051
λi为第i个编码单元对应的拉格朗日乘子,为率失真曲线的斜率。拉格朗日乘子λi与码率Ri之间的关系
Figure BDA0004034441650000052
上式中参数在编码完一帧或者一个编码树单元CTU后会自动更新。大量的实验表明,参数1/αi和-1/βi分别为大于1的浮点数和小于0的负数。由于熵分布模型不需要准确的码率分配,同时为了降低复杂度,参数1/αi和-1/βi分别取值为1和-1。上式简化为
λi=Ri -1
则通过码率控制中的R-λ模型调整后拉格朗日乘子
Figure BDA0004034441650000055
Figure BDA0004034441650000053
Figure BDA0004034441650000054
其中θ对应的纬度值如图1所示,为0时表示赤道区域。
否则根据R-λ模型和前一帧的时域相关性调整CTU拉格朗日乘子;时域相关性的定义是:视频编码中,在帧间预测过程中,当前编码帧的编码质量受到参考帧质量的影响,也就是说参考帧的失真会影响后续编码帧的失真,从而形成时域上的相关性。
这里使用编码树单元的重建失真和运动补偿预测误差失真的比值来度量视频编码中的时域相关性性,即:
Figure BDA0004034441650000061
编码块的失真Dcur与编码块的运动补偿预测误差
Figure BDA0004034441650000062
对于当前编码块来说,在真正编码之前无法获得其失真。为了做到零时延,考虑使用前一帧对应位置编码树单元信息近似代替当前块的时域依赖性。这样做的原因是相邻两帧的图像特点一般比较相近,同时根据当前帧和前一帧的像素均值和方差的差来判断图像是否发生场景切换从而决定是否使用该失真影响因子。需要说明的是,因为第一帧采用帧内编码,没有参考时域上的相关信息,所以不对其进行调整。用同样的思路计算帧级时域相关性Kframe
根据时域相关性k以及R-λ模型调节每个编码树单元的拉格朗日乘子的方法是,通过将原本的拉格朗日乘子除以调整权重后得到新的拉格朗日乘子λn,进而实现时域率失真优化:
Figure BDA0004034441650000063
其中λERP(θi)为R-λ模型调整后的拉格朗日乘子。同时,时域相关性强的编码树单元,k越大,那么调整后的拉格朗日乘子就越小,也就意味着其失真将会被减小,有利于后续帧达到更高的率失真性能;反之,时域依赖性弱的编码树单元就会被相对的编差一些。再通过下式计算编码量化参数:
QPθi=4.5499·log(λθi)-0.0956+0.5
0.5为四舍五入的取整操作,其余数据为模型参数。
在本发明的方案中,对于低延时编码结构下,由于球面投影后会出现图象拉伸失真,失真区域通过插值填充冗余像素,从而破坏原有的熵分布,在球面编码比特均匀分布的假设下,根据R-λ模型计算编码参数,达到熵平衡的目标。
本发明根据图像像素均值和方差等统计特征用于判断全景视频图像场景是否发生变化,如果图像场景没有发生切换,则使用前一帧已编码块的重建失真信息和运动补偿预测误差信息来估计当前待编码帧的失真传播影响因子,并用于调整编码参数从而实现时域率失真优化;反之,则用编码器自带算法编码。这是提升率失真性能的关键。
下面使用实验结果说明本发明方案的有效性,全景视频码率控制算法集成到基于360lib的H.266/VVC参考软件VTM14.0中,编码器配置为LOW-DELAY,实验条件遵守国际编码标准组织JCT-VC建议的标准全景视频序列作为测试视频,包括8K、6K和4K三类中的全部14个视频序列,对比的指标有BD-Rate,及编码时间。其中当BD-Rate为负值时,代表相同重建质量下码率减少,技术具有增益,当BD-Rate为正值时,代表相同重建质量下码率增加,技术存在损失。此处分别以给定QP时VVC编码器的编码质量为对比的基准。
表1对比了本发明算法和基准的率失真性能对比,可以看出本发明平均BD-RATE节省6.6%左右。
表1与360lib vtm14.0基准率失真性能对比
Figure BDA0004034441650000071
Figure BDA0004034441650000081
表2对比了本发明算法和基准的编码时间,可以看出本发明节约时间14.62%。
表2编码时间对比
Figure BDA0004034441650000082
Figure BDA0004034441650000091
Figure BDA0004034441650000101

Claims (4)

1.一种考虑时域相关性和熵平衡的低延时全景视频编码方法,其特征在于,包括以下步骤:
S1、向编码器输入待编码序列;
S2、判断当前是否为第一帧,若是,则执行:
计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比;
依据帧级QP计算帧级拉格朗日乘子;
编码完当前帧,输入下一张图片重复S2;
否则,进入步骤S3;
S3、计算当前编码帧像素均值和方差值;
S4、判断当前帧像素方差值与上一帧的差值是否小于第一阈值,同时帧级时域相关性是否大于第二阈值,若是,则进入S5,否则进入S6;
S5、当前帧的编码量化参数增加1;
S6、按顺序编码CTU;
S7、判断当前帧数是否大于3,若是,进入步骤S9,否则进入S8;
S8、基于R-λ模型调整拉格朗日乘子,进入S10;
S9、基于R-λ模型和前一帧的时域相关性调整拉格朗日乘子;
S10、计算当前CTU的量化参数并编码CTU;
S11、判断是否是最后一个CTU,若是,则编码完当前帧,进入步骤S12,否则,回到步骤S6;
S12、获取当前帧保存的每个CTU的编码失真和运动补偿预测误差,计算当前帧内各个CTU的时域失真影响因子;
S13、判断是否是最后一帧,若是,则进入S14,否则输入下一张图片并回到S2;
S14、当前全景视频序列编码完成。
2.根据权利要求1所述的一种考虑时域相关性和熵平衡的低延时全景视频编码方法,其特征在于,步骤S2中,计算面积拉伸比的方法为:定义全景视频球体半径为r,则纬度为θ的球面环带区域面积为:
Ss(θ)=2π·r2·cosθ·sindθ
投影2D平面后,得到拉伸区域的面积为:
Figure FDA0004034441640000021
则面积拉伸比为:
Figure FDA0004034441640000022
3.根据权利要求1所述的一种考虑时域相关性和熵平衡的低延时全景视频编码方法,其特征在于,步骤S8中,基于R-λ模型调整拉格朗日乘子具体为:
D=c·R-k
其中,c和k为模型参数,D和R分别为编码失真和编码比特,分别用均方误差MSE和bpp表示,其中MSE通过原始帧和重建帧对应像素的均方误差求得,根据R-λ模型有
Figure FDA0004034441640000023
λi为第i个编码单元对应的拉格朗日乘子,为率失真曲线的斜率;拉格朗日乘子λi与码率Ri之间的关系
Figure FDA0004034441640000024
上式中参数在编码完一帧或者一个编码树单元CTU后会自动更新;由于熵分布模型不需要准确的码率分配,令参数1/αi和-1/βi分别取值为1和-1,将上式简化为
λi=Ri -1
则通过码率控制中的R-λ模型调整后拉格朗日乘子
Figure FDA0004034441640000025
Figure FDA0004034441640000031
Figure FDA0004034441640000032
其中θ为对应的纬度值。
4.根据权利要求3所述的一种考虑时域相关性和熵平衡的低延时全景视频编码方法,其特征在于,步骤9的具体方法为:
Figure FDA0004034441640000033
其中,
Figure FDA0004034441640000034
为R-λ模型调整后的拉格朗日乘子,k为时域相关性因子。
CN202310000880.1A 2023-01-03 2023-01-03 一种考虑时域相关性和熵平衡的低延时全景视频编码方法 Pending CN116016927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310000880.1A CN116016927A (zh) 2023-01-03 2023-01-03 一种考虑时域相关性和熵平衡的低延时全景视频编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310000880.1A CN116016927A (zh) 2023-01-03 2023-01-03 一种考虑时域相关性和熵平衡的低延时全景视频编码方法

Publications (1)

Publication Number Publication Date
CN116016927A true CN116016927A (zh) 2023-04-25

Family

ID=86018819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310000880.1A Pending CN116016927A (zh) 2023-01-03 2023-01-03 一种考虑时域相关性和熵平衡的低延时全景视频编码方法

Country Status (1)

Country Link
CN (1) CN116016927A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506631A (zh) * 2023-06-20 2023-07-28 深圳比特微电子科技有限公司 一种视频编码方法、视频编码装置和可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506631A (zh) * 2023-06-20 2023-07-28 深圳比特微电子科技有限公司 一种视频编码方法、视频编码装置和可读存储介质
CN116506631B (zh) * 2023-06-20 2023-09-22 深圳比特微电子科技有限公司 一种视频编码方法、视频编码装置和可读存储介质

Similar Documents

Publication Publication Date Title
CN111918068B (zh) 基于视频序列特征和QP-λ修正的时域率失真优化方法
US6192081B1 (en) Apparatus and method for selecting a coding mode in a block-based coding system
CN103918262B (zh) 基于结构相似度的码率失真优化感知视频编码方法和系统
US11979565B2 (en) Content-adaptive online training method and apparatus for post-filtering
WO2024082580A1 (zh) 一种考虑时域失真传播的低复杂度全景视频编码方法
CN105872544B (zh) 低延迟视频编码中时域率失真优化方法
JP2011525094A (ja) ビデオ符号化のための、スライス依存性に基づくレート制御モデル適合化
US20130235938A1 (en) Rate-distortion optimized transform and quantization system
CN108235025B (zh) 自适应帧间参考结构的拉格朗日乘子优化方法
CN116349225B (zh) 视频解码方法和装置、电子设备和存储介质
US20120263237A1 (en) Video encoder and video decoder
WO2024082579A1 (zh) 一种考虑时域失真传播的零时延全景视频码率控制方法
CN116016927A (zh) 一种考虑时域相关性和熵平衡的低延时全景视频编码方法
KR100905059B1 (ko) 동영상 부호화에 있어서 비트 발생 가능성 예측을 이용한블록 모드 결정 방법 및 장치
CN115118976A (zh) 一种图像编码方法、可读介质及其电子设备
US20050141616A1 (en) Video encoding and decoding methods and apparatuses using mesh-based motion compensation
CN116114248B (zh) 用于视频编码的方法和设备及计算机可读存储介质
JP4532607B2 (ja) ブロック・ベースのコード化システムにおいてコード化モードを選択するための装置および方法
CN116723330B (zh) 一种自适应球域失真传播链长度的全景视频编码方法
WO2019141007A1 (zh) 图像编码中的预测方向选取方法、装置和存储介质
CN106878753B (zh) 一种使用纹理平滑信息的3d视频残差编码模式选择方法
US20110182343A1 (en) Encoder
US12058314B2 (en) Block-wise content-adaptive online training in neural image compression with post filtering
CN114554224B (zh) 基于核心参考帧的块级拉格朗日乘子优化方法
US20240291980A1 (en) Content-adaptive online training method and apparatus for post-filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination