CN102300094B

CN102300094B - 一种视频编码方法

Info

Publication number: CN102300094B
Application number: CN 201110262029
Authority: CN
Inventors: 苏荔; 王茜; 黄庆明; 秦磊; 蒋树强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Shanghai united information Polytron Technologies Inc
Priority date: 2011-09-06
Filing date: 2011-09-06
Publication date: 2013-04-03
Anticipated expiration: 2031-09-06
Also published as: CN102300094A

Abstract

本发明提供了一种视频编码方法，包括：1)根据每个宏块的受关注程度确定待选编码模式编码的视频与原始视频之间的视频失真D；2)根据视频失真D计算率失真优化(RDO)模型；3)根据RDO模型进行视频编码。本发明的上述方法考虑了人的主观视觉特性，能够在保证人的主观视频质量的条件下有效降低码率。

Description

一种视频编码方法

技术领域

本发明涉及数字视频信号的处理，具体地说，涉及一种视频编码方法。

背景技术

近年来，随着通信技术，网络媒体的迅速发展，视频数据呈爆炸式增长。尽管多媒体处理器计算能力不断增强，存储容量不断增大，网络带宽不断提高，依然满足不了不断增长的用户需要。如何利用有限的带宽资源，最大限度的满足用户对视频质量的要求成为一个很有意义的研究课题。

视频信号具有庞大的数据量，在实际应用中必须经过压缩之后才能进行传输与存储。因此人们看到的通常是解压之后的重建视频信号。码率控制算法的作用就是使视频压缩码率符合目标码率的同时，能够获得尽可能好的重建视频质量。率失真优化(RDO)在码率控制算法中占据重要位置，传统的率失真优化系统是从信号处理的角度出发度量重建视频的失真，并未充分考虑到人的视觉特性。在人的视觉系统中，人不仅仅关注一个个孤立的信号点，更关注信号之间的时空相关性。例如图像的局部对比度，结构基元等。并且，人对视频信号中的不同区域的失真敏感度也不相同。通常人更关注的是运动中的物体及画面的主体对象，而对背景失真的感知度会有一定程度的降低。充分利用人的视觉特性的目的就是在保证视频的主观质量的前提下，有效地降低编码比特率。Z.Chen，W.Lin，K.Ngan在2010年ICME的第784-789页的“Perceptual video coding：challenges and approaches，”一文中总结了近年来基于视觉感知的视频编码的发展状况和遇到的挑战，其指出基于视觉感知的视频编码是未来视频编码发展的一个重要方向。

目前，已有一些方法致力于视频编码RDO模型的改进。Xiang Li、NorbertOertel、Andreas Hutter和AndreKaup在2009年CSVT的第19卷的第193-205页的“Laplace distribution based lagrangian rate distortion optimization for hybridvideo coding，”一文中提出了一种基于变换残差拉普拉斯分布的动态RDO模型。但该模型并未充分考虑人的主观视觉特性，依然是使用传统的失真度量方法，难以在保证人的主观视频质量的条件下有效降低码率。

发明内容

本发明的目的在于在有限带宽的条件下，使解码后的视频质量最大限度的满足人的视觉要求。

根据本发明一个方面，提供了一种视频编码方法，包括：

1)根据每个宏块的受关注程度确定待选编码模式编码的视频与原始视频之间的视频失真D；

2)根据视频失真D计算率失真优化(RDO)模型；

3)根据RDO模型进行视频编码。

上述方法中，优选地，所述步骤1)进一步包括：

11)利用根据关注度加权后的像素的均值、无偏估计标准差和协方差计算结构相似性度量SSIM；

12)根据SSIM计算基于关注度的失真D_Assim；

13)根据基于关注度的失真D_Assim和每个宏块的受关注程度确定视频失真D。

上述方法中，优选地，所述步骤12)中进一步包括：

121)基于窗口的重要程度，根据所述SSIM计算基于关注度的结构相似性度量ASSIM；

122)根据所述基于关注度的结构相似性度量ASSIM计算所述基于关注度的失真D_Assim。

上述方法中，优选地，所述步骤2)进一步包括：

21)用量化参数的函数表达所述视频失真D；

22)用量化参数的函数表达视频编码比特率；

23)根据所述视频失真D和视频编码比特率二者的量化参数的函数表达确定拉格朗日乘数λ；

24)根据视频失真D和所述拉格朗日乘数λ计算RDO模型。

上述方法中，优选地，所述

其中aaa、bbb和ccc为常数，

为视频中图像的变换残差标准差，QP为量化参数。

上述方法中，优选地，对于分式

的取值小于10的情况，所述分式

的值取10。

本发明的上述方法考虑了人的主观视觉特性，能够在保证人的主观视频质量的条件下有效降低码率。

附图说明

图1是根据本发明优选实施例的构建率失真模型的方法的流程图；

图2是不同量化参数QP下变换残差标准差和比特率的关系示意图；

图3是比特率和变换残差标准差的比率a_sd与量化参数QP的关系示意图。

具体实施方案

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的视频编码方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明中使用了充分表征人的主观视觉特性的失真度量方法，并考虑了人的选择性关注度的特点会对不同区域的图像带来不同的失真敏感度，动态调节每个编码宏块的权重。具体而言：由于在一个视频序列中，人对不同区域的关注度也是不同的。人对高关注度的区域的失真具有更高的敏感度。因此，在本发明中，对于低比特率的情况，将主要的码率资源分配给高关注度的区域，以有效的提高人的主观视觉下的视频质量。优选地，使用了一种更符合人的主观视觉的失真度量工具。考虑到在传统的视频编码率失真模型中用均方误差作为编码失真的度量工具，其主要是从信号处理的角度出发，并没有很好的考虑到人对不同失真敏感程度不同的视觉特点；在本方法中，从人的视觉角度出发，更好的考虑了各失真信号点的相关性，及图像的结构和对比度等特性。优选地，本发明将视频序列的变换残差标准差引入到编码的率失真模型中，对于不同的视频输入序列能够动态的调整率失真的拉格朗日参数。由此克服了现有的编码系统中，由经验得出率失真所用的拉格朗日参数，没有充分考虑到不同视频内容的特性的缺陷。

在现在的视频编码系统中，提供多种宏块编码模式以供选择。包括{Intra16x16，Intra8x8，Intra4x4，inter16x16，inter16x8，inter8x16，inter8x8，inter8x4，inter4x8，inter4x4，SKIP，DIRECT}。选择一个最小失真的编码模式，可以带来最好的视频质量；然而，这往往引起很高的编码比特率。如何选择一个最适合的模式是编码中的关键问题。这个问题可以描述为在限定码率R_C的条件下，求最小的失真：

min{D}满足R≤R_C (1)

式(1)中的D和R分别代表失真和码率。用拉格朗日乘数法解决约束条件下求极值问题，可将上述公式转化为：

min{J}，其中J＝D+λR (2)

式(2)中，J为拉格朗日代价函数，λ为拉格朗日乘数。在传统的视频编码系统中，拉格朗日乘数λ由大量实验或标准的率失真模型获得。

图1中示出了根据本发明优选实施例的构建率失真模型的方法的流程图，下面结合图1详细介绍该过程。该方法中首先确定视频失真D，然后，根据视频失真D计算拉格朗日乘数λ，由此获得动态的更贴近于人的主观视觉的率失真模型。具体地：

首先，根据每个宏块的受关注程度确定视频失真D。

在人的视觉感知系统中，人对图像中不同区域的失真敏感度是不同的。首先获得每一帧图像对应的关注度图。其中一帧中的每个像素点都在关注度图中有一个对应的关注度数值。该数值越大，代表这个点的受到的关注越高，从而人对此像素点的失真敏感度也越强。将人对像素点的关注度引入到结构相似性度量(SSIM)计算当中，通过给每个像素加权重，来调节该点在失真计算时的重要程度。

根据如下公式计算SSIM：

SSIM (x, y) = \frac{(2 μ_{x} μ_{y} + C_{1}) (2 σ_{xy} + C_{2})}{(μ_{x}^{2} + μ_{y}^{2} + C_{1}) (σ_{x}^{2} + σ_{y}^{2} + C_{2})} - - - (3)

其中参数C₁，C₂由为实验得出的经验数值，其例如分别为6.5和58.5。x，y为输入视频序列。x_i为序列x的第i个像素点。μ_x，μ_y分别为两个序列像素点的均值，

例如μ_x的计算公式下式4)，μ_y与之类似：

μ_{x} = Σ_{i = 0}^{N} ω_{i} x_{i} - - - (4)

其中N为SSIM计算的窗口的大小。

σ_x是像素点的无偏估计标准差：

σ_{x} = {(Σ_{i = 1}^{N} ω_{i} {(x_{i} - μ_{x})}^{2})}^{\frac{1}{2}} - - - (5)

σ_xy为x，y的协方差，计算的方法是：

σ_{xy} = Σ_{i = 1}^{N} ω_{i} (x_{i} - μ_{x}) (y_{i} - μ_{y}) - - - (6)

在上述计算公式中，ω_i为像素点i的权重，其约束条件为

该权重由图像的关注度参数计算得出。

ω_{i} = \frac{a_{i}}{Σ_{j = 1}^{N} a_{j}} - - - (7)

其中，a_i，a_j对应着像素点i，j的关注度数值。由此，得到了一个窗口内的引入了选择性关注度的SSIM值。

在计算一个宏块的相似度时，考虑到人的主观关注度，每个窗口的重要性有所不同，根据该优选实施例，其重要程度由累计该窗口内的每个像素点的关注度得到。本发明使用改进的基于关注度的结构相似性度量ASSIM代替传统视频编码中的均方误差来作为失真度量工具。

其计算公式为：

ASSIM = \frac{γ_{i} {SSIM}_{i}}{Σ_{bloc k_{i} &Element; macroblock} γ_{i}} - - - (8)

式中block_i表示该宏块内的窗口，γ_i为窗口block_i的重要度，由累计该窗口内的每个像素点的关注度得到，SSIM_i为窗口block_i的结构相似性度量。macroblock表示待计算的宏块。

结构相似性度量参数ASSIM衡量了两个信号之间的相似度，这两个信号之间的基于关注度的结构失真计算为：

D_Assim＝1-ASSIM^ρ(9)

式中ρ的取值范围为(0.5，2.5)，优选地，ρ＝1。

由于人关注的一般是图像上的某个区域，而不仅仅是一个独立的像素点。因此，统计每个宏块的受关注程度，用于宏块级别的编码模式选择。

A_{i} = Σ_{j &Element; {MB}_{i}} a_{j} - - - (10)

其中，A_i为宏块i的关注度，a_j为属于宏块i的像素点的关注度。接着，将A_i标准化到(0，1]的范围内。将A_i用于宏块编码模式选择的率失真优化函数，来调节选择宏块模式时失真的权重。

由此，获得了视频失真D＝D_Assim×(α₁+β₁×A_i)。其中分式(α₁+β₁×A_i)表示较低的关注度A_i能容忍较大的失真，从而会选择消耗较低比特率的编码模式。相应的，具有较高关注度A_i的宏块对失真更敏感，从而会选择失真较小的编码模式。参数α₁和β₁用于调整关注度参数的权重，例如可以取值为α₁＝0.5，β₁＝1。

本领域普通技术人员可以理解，获得上述视频失真参数D的过程中采用了引入了视觉关注度的ASSIM，但是这并不是必须的，还可以采用其他实现方案，例如采用误差的平方和(SSD)、绝对误差和(SAD)或普通SSIM作为失真的衡量标准。另外，上面的实现方案中考虑了窗口的重要性，当然，这也不是必须的。

然后，根据上面计算的D_Assim确定拉格朗日乘数λ，具体包括下列步骤：

1)使用传统方法编码大量视频，并记录其使用的量化参数QP和其对应的D_Assim，从而得出D_Assim与量化参数QP统计上的函数关系：

D_Assim＝α·e^β·QP(11)

其中，α的取值范围是[10^-4，10^-3]，β的取值范围是[0.05，0.5]。

2)确定编码比特率R和量化参数QP的关系。

对于一个视频序列来说，它的DCT变换残差是不稳定的，而变换残差的标准差是一个相对稳定的特征量。视频序列中前后几帧内容相似的图像，其变换残差的标准差变化也不大。其计算公式如下：

σ_{sd} = \sqrt{E (x^{2}) - {[E (x)]}^{2}} - - - (12)

其中，σ_sd为一帧图像的变换残差标准差。x为一帧中一个残差变化系数。在图2中给出了在不同量化参数QP下，变换残差标准差和比特率的关系。可以看出，在同一QP下，变换残差标准差和比特率符合一致性关系，可设关系为：

R = a_{sd} \cdot (σ_{sd}^{τ} + b) - - - (13)

式中R为编码比特率，τ，b为常数，例如，τ的取值范围[0.7，1.2]，b＝-11.5。拟合参数a_sd和量化参数QP的关系，如图3。图中横坐标为量化参数QP，纵坐标为R和的斜率a_sd，图中的点对应由实验得到的数值，由此可得到拟合曲线，进而得到a_sd和QP的关系函数：

a_sd＝0.47×e^(51-QP)/6.43(14)

将式(14)代入式(13)，得到基于视频内容的编码比特率R和量化参数QP的关系：

R = 0.47 \times e^{(51 - QP) / 6.43} \times (σ_{sd}^{τ} + b) - - - (15)

3)根据D_Assim和R二者分别与量化参数QP的关系确定拉格朗日乘数λ。

由传统的率失真公式得到率失真拉格朗日参数计算式如下：

λ = - \frac{dDssim}{dR} = - \frac{&PartialD; Dssim / &PartialD; QP}{&PartialD; R / &PartialD; QP} - - - (16)

将式(11)和式(15)代入式(16)，得到：

λ = \frac{aaa}{σ_{sd}^{τ} + bbb} \times e^{ccc \cdot QP} - - - (17)

式中aaa、bbb和ccc为常数，其取值范围例如：aaa的取值范围是[10^-7，10^-6]，ccc的取值范围是[0.2，0.5]，bbb的取值范围是[9，12]。

本领域普通技术人员可以理解，上述实施例中是采用根据基于关注度的结构失真D_Assim计算的拉格朗日参数，但是也可以采用传统方法获得的拉格朗日参数。

根据以上获得的视频失真参数D_Assim和拉格朗日乘数λ，即可获得一个动态的更贴近于人的主观视觉的率失真模型。

但是，当σ_sd非常小的时候，宏块被指派为skip模式的概率会非常高，这会带来不好的编码效果。为了避免这种情况，优选地，设置了一个约束条件为

由于帧的变换残差标准差σ_sd不能在编码当前帧之前得到，因此本发明采用当前帧前5个已编码帧的平均σ_sd来估计当前帧的σ_sd。

由此，获得了完整的基于人的主观视觉特性的视频编码RDO模型。

J＝D_Assim×(α₁+β₁×A_i)+λR(18)

在视频编码中，宏块的编码模式选择过程中，根据式(18)计算每个宏块编码模式的率失真代价，选出代价最小的编码模式作为宏块的编码模式进行编码。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种视频编码方法，包括：

1）根据每个宏块的受关注程度确定待选编码模式编码的视频与原始视频之间的视频失真D；包括：

11）利用根据关注度加权后的像素的均值、无偏估计标准差和协方差计算结构相似性度量SSIM；

12）根据SSIM计算基于关注度的失真DA_ssim；

13）根据基于关注度的失真D_Assim和每个宏块的受关注程度确定视频失真D；

2）根据视频失真D计算率失真优化RDO模型；包括：

21）用量化参数的函数表达所述视频失真D；

22）用量化参数的函数表达视频编码比特率；

23）根据所述视频失真D和视频编码比特率二者的量化参数的函数表达确定拉格朗日乘数λ；

24）根据视频失真D和所述拉格朗日乘数λ计算RDO模型；

3）根据RDO模型进行视频编码。

2.根据权利要求1所述的方法，其特征在于，所述步骤12）中进一步包括：

121）基于窗口的重要程度，根据所述SSIM计算基于关注度的结构相似性度量ASSIM；

122）根据所述基于关注度的结构相似性度量ASSIM计算所述基于关注度的失真D_Assim。

3.根据权利要求1所述的方法，其特征在于，所述步骤23）中包括：

所述

其中aaa、bbb和ccc为常数，aaa的取值范围是[10^-7,10^-6]，ccc的取值范围是[0.2,0.5]，bbb的取值范围是[9,12]，

为视频中图像的变换残差标准差，QP为量化参数。

4.根据权利要求3所述的方法，其特征在于，

对于分式

的取值小于10的情况，所述分式

的值取10。