CN113099227B

CN113099227B - 一种联合优化码率分配和率失真性能的视频编码方法

Info

Publication number: CN113099227B
Application number: CN202110269496.2A
Authority: CN
Inventors: 牟轩沁; 李杨
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-08-16
Anticipated expiration: 2041-03-12
Also published as: CN113099227A

Abstract

本发明公开了一种联合优化码率分配和率失真性能的视频编码方法，本发明依据结构相似度的计算公式，对图像块的结构相似度失真进行从像素到图像子块再到图像块进行逐步简化计算，理论推导得出结构相似度失真和均方误差失真的理论关系模型。一方面，通过该理论关系模型，可构建基于结构相似度失真的R‑D‑λ联合关系，求解得到基于结构相似度失真的R‑D模型参数，从而实现对码率分配问题的求解。另一方面，该理论关系模型使得高复杂度的基于结构相似度失真的率失真优化可以通过低复杂度的基于均方误差失真的率失真优化进行。且率失真优化所采用的码率与失真的权衡因子由码率分配的求解所确定，实现了码率分配和率失真性能的联合优化。

Description

一种联合优化码率分配和率失真性能的视频编码方法

技术领域

本发明属于视频编码优化技术领域，具体涉及一种联合优化码率分配和率失真性能的视频编码方法。

背景技术

当前视频直播、视频点播和视频聊天等众多视频应用在人们日常生活中日益普及。面对视频传输和存储所带来的高昂成本，如何在有限的编码码率下获得更高的视频质量是视频编码领域的重要研究问题。

这一问题的解决主要依靠两个重要技术。第一个是研究如何将有限的编码比特数分配给各个编码单元使得编码后的失真最小，即码率分配问题。具体的，以编码一个视频帧为例，给定编码总比特数为R_c，分配给该视频帧中第k个编码单元的比特为R_k，对应产生的失真为D_k。一般设D_k是以R_k为自变量的连续可导凸函数，即D_k＝D_k(R_k)。则码率分配问题可以表述为如下有约束的最优化问题：

第二个技术是在对一个具体编码单元的编码过程中，权衡编码码率和编码失真的关系，从大量候选编码模式选择出具有率失真表现最优的编码模式，即率失真优化。该问题的解决需首先确定率失真代价函数。以第k个编码单元为例，其率失真代价函数可表述为：

D_k(mode)+λ·R_k(mode) (22)

式中D_k(mode)与R_k(mode)分别为编码模式mode所产生的实际失真与比特数，通过实际编码过程产生。因此，率失真优化问题的核心在于确定两者的权衡因子λ。

在上述两个问题的求解中，传统方法使用原始视频帧和编码后的重建视频帧像素之间的均方误差失真(Mean Squared Error，MSE)作为D_k的度量。这一方案的优点是码率分配问题和率失真优化问题在拉格朗日优化方法下是严格统一的。具体的，公式(1)等价于求解如下无约束最优化问题：

对比公式(2)与公式(3)可以发现，比特分配问题取得最优解时，每个编码单元的率失真性能亦取得最优。因此，基于均方误差失真的比特分配问题与率失真优化问题都归一到优化问题(3)的求解。

然而，均方误差失真与人类对失真的主观感知并不一致。即均方误差失真最小时人类的主观感知失真并非最小。为解决这一问题，很多考虑到了人类视觉特性的失真指标被采纳到视频编码的优化中。这其中最典型的是Z.Wang等人提出的结构相似度(Structural SIMilarity,SSIM)指标(Z.Wang,A.C.Bovik,H.R.Sheikh,E.P.Simoncelliet al.,“Image quality assessment:from error visibility to structuralsimilarity,”IEEE transactions on Image Processing,vol.13,no.4,pp.600–612,2004.)。该指标计算了原始图像与失真图像的局部亮度、对比度、结构差异，从而获得与人类感知更一致的质量评价表现。因此，结构相似度被广泛用于视频编码的失真度量。

但在结构相似度用于视频编码优化时存在一个难题。结构相似度的计算复杂度高，如果在率失真优化中直接使用结构相似度作为失真度量，则需要对大量编码模式计算基于结构相似度的率失真代价，时间成本高，难以用于实际应用。因此很多研究将结构相似度用于比特分配问题(公式(1))中的D_k度量，而率失真优化问题(公式(2))中的D_k度量仍使用传统基于均方误差的失真。具体的，如T.-S.Ou等人的研究(T.-S.Ou,Y.-H.Huang,andH.H.Chen,“SSIM-based perceptual rate control for video coding,”IEEETransactions on Circuits and Systems for Video Technology,vol.21,no.5,pp.682–691,May 2011.)、Gao等人的研究(W.Gao,S.Kwong,Y.Zhou,and H.Yuan,“SSIM-based gametheory approach for rate-distortion optimized intra frame CTU-level bitallocation,”IEEE Transactions on Multimedia,vol.18,no.6,pp.988–999,Jun2016.)、以及Zhou等人的研究(M.Zhou,X.Wei,S.Wang,S.Kwong,C.-K.Fong,P.Wong,W.Yuen,and W.Gao,“SSIM-based global optimization for CTU-level rate controlin HEVC,”IEEE Transactions on Multimedia,2019.)均仅构建基于结构相似度的R-D关系模型，求解最优化比特分配，而未能对基于结构相似度的率失真优化进行求解。这一问题导致均方误差率失真代价最小的编码模式被选择，此时基于结构相似度的率失真性能并不是最优的。

为解决这一问题，很多研究提出构建结构相似度失真D_SSIM到均方误差失真D_MSE的关系模型，使得在基于结构相似度的率失真优化过程中，可以使用复杂度更低的基于均方误差的率失真代价进行模式选择优化。现有的D_SSIM-D_MSE模型主要包括两个。一个为Yeo等人(C.Yeo,H.L.Tan,and Y.H.Tan,“On rate distortion optimization using SSIM,”IEEETransactions on Circuits and Systems for Video Technology,vol.23,no.7,pp.1170–1181,Jul 2013.)提出使用1/SSIM作为结构相似度失真度量，相应的D_SSIM-D_MSE模型如下：

式中，

为原始图像块的方差，C₂是防止除以0的常数。第二个模型为Wang等人(S.Wang,A.Rehman,Z.Wang,S.Ma,and W.Gao,“Perceptual video coding based onSSIM-inspired divisive normalization,”IEEE Transactions on Image Processing,vol.22,no.4,pp.1418–1429,2013.)提出的DCT域模型。该模型可表述为：

式中，S为与图像块DCT系数相关的参数，具体计算为：

式中，X_t(i)和Y_t(i)分别是原始图像块和重建图像块第t个子块的第i个DCT系数。这两个模型被广泛用于基于结构相似度的率失真优化的研究中。然而，这两个模型的精确度都不高。此外，基于这两个模型的大量研究都只研究了率失真优化问题，而未能构建基于结构相似度失真的R-D模型，因此基于结构相似度的比特分配问题未被得到解决。

因此，现有的研究普遍存在的问题是码率分配问题和率失真优化问题未能实现在结构相似度失真度量下的统一。一个例外是Li和Mou(Li,Yang,and Xuanqin Mou."SSIM-Based CTU-Level Joint Optimal Bit Allocation and Rate DistortionOptimization."arXiv preprint arXiv:2004.13369(2020).)通过实验发现一种基于哈达玛变换的D_SSIM-D_MSE线性模型，并用于实现码率分配问题和率失真优化问题的联合优化求解。但该研究的问题在于所提出的线性模型缺乏理论依据，精度不高。

发明内容

本发明的目的在于克服上述不足，提供一种联合优化码率分配和率失真性能的视频编码方法，通过高精确度的结构相似度失真和均方误差失真的线性关系模型，实现码率分配和率失真性能基于结构相似度的联合优化，以在相同编码码率下取得更优的视频质量。

为了达到上述目的，本发明包括以下步骤：

S1，在视频编码过程中，根据结构相似度，计算图像块的失真程度；

S2，建立结构相似度失真与均方误差失真的关系模型；

S3，根据结构相似度失真与均方误差失真的关系模型，实现码率分配和率失真性能的联合优化。

S2中，结构相似度失真与均方误差失真的关系模型为：

式中，D_SSIM为图像块的基于结构相似度的失真，D_MSE则为传统均方误差失真，ρ_t为图像块中第i个子块均方误差与量化步长之间的线性斜率，W_i为图像块第i个像素处的与局部图像内容相关的权重。

W_i的计算方法如下：

式中，L为常数，ω_l代表尺寸为11×11的高斯滤波器，l＝1,2,…L，

和

分别为原始视频帧与编码后重建视频帧的局部方差。

S3的具体方法如下：

S31，基于结构相似度失真与均方误差失真的关系模型D_SSIM-D_MSE，对图像块构建基于D_SSIM的联合R-D-λ关系，求解得到基于D_SSIM的R-D模型参数，进而求解码率分配的最优解；

S32、基于构相似度失真与均方误差失真的关系模型D_SSIM-D_MSE，将高复杂度的基于D_SSIM的率失真优化映射为低复杂度的基于D_MSE的率失真优化。

S31中，构建的基于D_SSIM的R-D关系为包含两个未知模型参数的连续可导凸函数，基于D_SSIM的拉格朗日乘子等于D_SSIM对于编码比特R的负导数，据此可构建仅包含两个未知参数的基于D_SSIM的联合R-D-λ关系；

编码结束后得到实际的编码失真D_SSIM和编码比特R，通过结构相似度失真与均方误差失真的关系模型D_SSIM-D_MSE推导得到与实际编码结果相对应的基于D_SSIM的拉格朗日乘子，联合R-D-λ关系中的仅两个的模型参数未知，得到唯一求解。

基于D_SSIM的联合R-D-λ关系的具体计算方法如下：

将包含两个未知模型参数的R-D_SSIM模型用符号f表示，则基于D_SSIM的联合R-D-λ关系表示如下：

式中，α和β是两个未知的R-D模型参数，λ_SSIM为基于结构相似度的拉格朗日乘子。

λ_SSIM的具体计算方法如下：

λ_SSIM是不参与实际编码过程的未知参数，通过导数链式法则将其映射到实际参与编码过程的拉格朗日乘子λ_MSE：

将结构相似度失真与均方误差失真的关系模型D_SSIM-D_MSE型代入到映射中，计算得出λ_SSIM。

α和β的具体计算方法如下：

在基于D_SSIM的联合R-D-λ关系中，D_SSIM与R为编码后可获得的实际编码失真和编码比特，则基于D_SSIM的联合R-D-λ关系为仅包含两个未知参数α和β的方程组，α和β可被唯一求解。

S32中的具体计算方法如下：

通过结构相似度失真与均方误差失真的关系模型D_SSIM-D_MSE，将基于D_SSIM的率失真代价映射为基于D_MSE的率失真代价，且率失真代价中的拉格朗日乘子由码率分配的最优解以及结构相似度失真与均方误差失真的关系模型D_SSIM-D_MSE确定。

与现有技术相比，本发明依据结构相似度的计算公式，对图像块的结构相似度失真进行从像素到图像子块再到图像块进行逐步简化计算，理论推导得出结构相似度失真和均方误差失真的理论关系模型。一方面，通过该理论关系模型，可构建基于结构相似度失真的R-D-λ联合关系，求解得到基于结构相似度失真的R-D模型参数，从而实现对码率分配问题的求解。另一方面，该理论关系模型使得高复杂度的基于结构相似度失真的率失真优化可以通过低复杂度的基于均方误差失真的率失真优化进行。且率失真优化所采用的码率与失真的权衡因子由码率分配的求解所确定，实现了码率分配和率失真性能的联合优化。

具体实施方式

下面对本发明做进一步说明。

本发明涉及一种视频编码优化方案。一个具体实施例为：基于结构相似度SSIM计算一个图像帧中每个最大编码单元(Largest Coding Unit,LCU)的失真程度；使用该失真在视频编码中代替传统基于均方误差失真，在高效视频编码(High Efficiency VideoCoding，HEVC)的编码端进行LCU级的码率分配和率失真性能的联合优化。具体包括以下步骤：

步骤1、基于SSIM计算一个图像帧中每个LCU的失真程度。

具体的，SSIM对比了原始图像和失真图像在亮度、对比度和结构三个方面的相似程度。具体的，使用x指代原始图像，使用y指代失真图像，SSIM的计算公式为：

其中，i指代一个图像帧中的第i个像素，C₁和C₂是防止除以0的常数，μ、σ²和σ_xy分别是均值、方差和协方差，三者通过以下公式计算：

其中，L＝121，ω_l(l＝1,2,…L)代表11×11的高斯滤波器。

SSIM是一个取值范围从0到1的图像质量评价指标，数值越大质量越高。因此，一个LCU基于SSIM的失真指标通过下式计算：

式中，M为此LCU的像素数量，i∈unit指示位于此LCU中的所有像素。

步骤2、基于公式推导构建结构相似度失真和均方误差失真之间的关系模型。

具体的，首先假设原始图像和失真图像的

从而可以将SSIM的计算简化如下：

将公式(28)代入到公式(10)中，可得如下SSIM的计算公式：

式中使用

指示像素之间的平方误差，W_i指示与每个像素周围图像内容相关的权重，即：

将公式(11)代入公式(9)，一个LCU基于结构相似度的失真可以计算为：

式中W_i中的方差是按照公式(8)在图像一个局部区域内通过高斯加权计算得出，又进一步在公式(12)中被高斯模糊滤波。因此W_i在一个小区域内的值是相近的。因此，可以使用一个子块的W_i的均值作为子块所有像素权重的估计，即公式(13)可以进一步简化为：

式中，blk_t指代一个LCU中的第t个子块,本实施例中所采用的子块尺寸为4×4。

根据已有研究(H.Wang and S.Kwong,“Rate-distortion optimization of ratecontrol for H.264 with adaptive initial quantization parameterdetermination,”IEEE Transactions on Circuits and Systems for VideoTechnology,vol.18,no.1,pp.140–144,2008.)，一个图像块的均方误差失真与量化步长成线性关系。在本实例中，该关系可表述为：

式中，ρ_t为线性参数，Q_t是子块blk_t所采用的量化步长。

根据公式(15)，一个LCU的均方误差失真可以计算为：

另一方面，将公式(15)代入到公式(14)中，此LCU的结构相似度失真可计算为：

由于一个LCU中各个子块的量化步长一般是一致的，因此依据公式(16)和公式(17)可得到如下D_SSIM-D_MSE关系：

式中使用Θ指代

至此，推导得出D_SSIM与D_MSE的理论关系模型。

在公式(18)中，ρ_t与图像内容相关。由于前后编码帧的图像内容是相似的，本实施例使用前一编码帧相同位置LCU的编码结果

作为当前LCU的ρ_t的估计值。为了补偿此估计值所带来的误差，本实施例使用最小二乘法在时域相邻LCU之间进行参数回归。具体的，该参数回归方法表述为：

D_SSIM＝θ·Θ·D_MSE+η (39)

式中，θ和η为通过最小二乘法随编码过程在时域相邻LCU之间更新的线性模型参数。

步骤3、基于步骤2所述D_SSIM-D_MSE线性关系模型，构建基于结构相似度失真的R-D模型，求解基于结构相似度失真的最优化码率分配。

具体的，本实施例使用幂函数模型为每个CTU构建基于结构相似度失真的R-D模型。该模型可被表述为：

D_SSIM＝α·R^β (40)

式中，α和β为待计算的模型参数。

由于拉格朗日乘子λ等于失真相对于码率的负导数，依据公式(14)可以得到如下基于结构相似度的R-λ关系：

λ_SSIM＝-αβ·R^β-1 (41)

对公式(19)使用导数链式法则，则可得到如下基于结构相似度的拉格朗日乘子λ_SSIM和基于均方误差的拉格朗日乘子λ_MSE的关系：

λ_SSIM＝θ·Θ·λ_MSE. (42)

根据公式(20)、(21)、(22)可得到如下基于结构相似度失真的R-D-λ联合关系：

在此联合关系中，在一个LCU编码结束后，R和D_SSIM为已知的编码结果，λ_MSE为已知的编码过程实际使用的拉格朗日乘子，因此仅有α和β两个未知数。故可通过如下公式计算得到其唯一解：

计算得到的基于结构相似度的R-D模型参数将作为下一编码帧相同位置LCU的模型参数的估计，同时使用拉格朗日乘子法求解最优化码率分配问题。具体的，一帧中所有LCU的模型参数α和β已知时，根据公式(21)可反推出如下R-λ_SSIM关系：

基于公式(25)可计算出所有LCU在给定λ_SSIM时所对应的比特。根据拉格朗日乘子法，比特分配问题的最优解要求一帧中所有图像块具有相同的λ_SSIM。因此，利用公式(25)，本实施例通过二分法搜索满足比特约束时所对应的最优λ_SSIM。

步骤3、基于步骤2所述D_SSIM-D_MSE线性关系模型，进行基于结构相似度失真的率失真优化。

具体的，将公式(19)代入到公式(2)中，基于结构相似度的率失真代价的最小化问题可进一步等价于：

式中m指代编码模式。

根据公式(26)，在基于结构相似度失真的率失真优化中，无需为大量候选编码模式计算具有高复杂度的结构相似度失真。只需按照传统编码方法，为候选编码模式计算具有低复杂度的基于均方误差失真的率失真代价；同时，在该率失真代价中使用一个与结构相似度失真相关的新的拉格朗日乘子。具体的，这一新的拉格朗日乘子为：

式中，λ_SSIM为基于结构相似度的拉格朗日乘子。该乘子即为基于结构相似度失真的码率分配问题求解所得到的最优拉格朗日乘子。

步骤6、在步骤5所述方法进行率失真优化编码后，开始对下一编码帧进行编码。

具体为，重复步骤4所述方法得到当前编码帧所有LCU的R-D_SSIM模型参数作为下一帧相同位置LCU模型参数的估计，重复步骤4所述的拉格朗日乘子法计算得出基于结构相似度的比特分配问题的最优的λ_SSIM；重复步骤5所述的基于结构相似度的率失真优化。

Claims

1.一种联合优化码率分配和率失真性能的视频编码方法，其特征在于，包括以下步骤：

S1，在视频编码过程中，基于SSIM计算一个图像帧中每个LCU的失真程度；

SSIM对比了原始图像和失真图像在亮度、对比度和结构三个方面的相似程度，使用x指代原始图像，使用y指代失真图像，SSIM的计算公式为：

其中，L＝121，ω_l(l＝1,2,…L)代表11×11的高斯滤波器；

SSIM是一个取值范围从0到1的图像质量评价指标，数值越大质量越高，因此，一个LCU基于SSIM的失真指标通过下式计算：

式中，M为此LCU的像素数量，i∈unit指示位于此LCU中的所有像素；

S2、基于公式推导构建结构相似度失真和均方误差失真之间的关系模型；

具体的，首先假设原始图像和失真图像的

从而可以将SSIM的计算简化如下：

将公式(2)代入到公式(4)中，可得如下SSIM的计算公式：

式中使用

将公式(5)代入公式(3)，一个LCU基于结构相似度的失真可以计算为：

式中W_i中的方差是按照公式(2)在图像一个局部区域内通过高斯加权计算得出，又进一步在公式(6)中被高斯模糊滤波，因此W_i在一个小区域内的值是相近的，因此，可以使用一个子块的W_i的均值作为子块所有像素权重的估计，即公式(7)可以进一步简化为：

式中，blk_t指代一个LCU中的第t个子块,本实施例中所采用的子块尺寸为4×4；

一个图像块的均方误差失真与量化步长成线性关系，该关系可表述为：

式中，ρ_t为线性参数，Q_t是子块blk_t所采用的量化步长；

根据公式(9)，一个LCU的均方误差失真可以计算为：

另一方面，将公式(9)代入到公式(8)中，此LCU的结构相似度失真可计算为：

由于一个LCU中各个子块的量化步长一般是一致的，因此依据公式(10)和公式(11)可得到如下D_SSIM-D_MSE关系：

式中使用Θ指代

至此，推导得出D_SSIM与D_MSE的理论关系模型；

S3，基于D_SSIM-D_MSE线性关系模型，构建基于结构相似度失真的R-D模型，求解基于结构相似度失真的最优化码率分配；

使用幂函数模型为每个CTU构建基于结构相似度失真的R-D模型，该模型可被表述为：

D_SSIM＝α·R^β (13)

式中，α和β为待计算的模型参数；

由于拉格朗日乘子λ等于失真相对于码率的负导数，依据公式(8)可以得到如下基于结构相似度的R-λ关系：

λ_SSIM＝-αβ·R^β-1 (14)

对公式D_SSIM＝θ·Θ·D_MSE+η使用导数链式法则，θ和η为通过最小二乘法随编码过程在时域相邻LCU之间更新的线性模型参数，则可得到如下基于结构相似度的拉格朗日乘子λ_SSIM和基于均方误差的拉格朗日乘子λ_MSE的关系：

λ_SSIM＝θ·Θ·λ_MSE. (15)

根据公式(13)、(14)、(15)可得到如下基于结构相似度失真的R-D-λ联合关系：

在此联合关系中，在一个LCU编码结束后，R和D_SSIM为已知的编码结果，λ_MSE为已知的编码过程实际使用的拉格朗日乘子，因此仅有α和β两个未知数，故可通过如下公式计算得到其唯一解：

计算得到的基于结构相似度的R-D模型参数将作为下一编码帧相同位置LCU的模型参数的估计，同时使用拉格朗日乘子法求解最优化码率分配问题，一帧中所有LCU的模型参数α和β已知时，根据公式(14)可反推出如下R-λ_SSIM关系：

基于公式(18)可计算出所有LCU在给定λ_SSIM时所对应的比特，根据拉格朗日乘子法，比特分配问题的最优解要求一帧中所有图像块具有相同的λ_SSIM，利用公式(18)，通过二分法搜索满足比特约束时所对应的最优λ_SSIM；

S4、基于D_SSIM-D_MSE线性关系模型，进行基于结构相似度失真的率失真优化；

将公式D_SSIM＝θ·Θ·D_MSE+η代入到公式D_k(mode)+λ·R_k(mode)中，D_k(mode)与R_k(mode)分别为编码模式mode所产生的实际失真与比特数，λ为权衡因子，基于结构相似度的率失真代价的最小化问题可进一步等价于：

式中m指代编码模式；

根据公式(19)，在基于结构相似度失真的率失真优化中，无需为大量候选编码模式计算具有高复杂度的结构相似度失真，只需按照传统编码方法，为候选编码模式计算具有低复杂度的基于均方误差失真的率失真代价；同时，在该率失真代价中使用一个与结构相似度失真相关的新的拉格朗日乘子，这一新的拉格朗日乘子为：

式中，λ_SSIM为基于结构相似度的拉格朗日乘子，该乘子即为基于结构相似度失真的码率分配问题求解所得到的最优拉格朗日乘子。