CN103179394B

CN103179394B - 一种基于区域视频质量平稳的i帧码率控制方法

Info

Publication number: CN103179394B
Application number: CN201310022051.XA
Authority: CN
Inventors: 胡海苗; 李波; 张永飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-01-21
Filing date: 2013-01-21
Publication date: 2016-02-17
Anticipated expiration: 2033-01-21
Also published as: CN103179394A

Abstract

一种基于区域视频质量平稳的I帧码率控制方法，首先将视频图像划分为运动区域和非运动区域，针对不同区域间不同的帧间依赖性特点，分别建立了帧间依赖性模型；其次综合考虑I帧与前向和后向P帧之间的相互关系，针对不同区域分别建立了平稳视频质量的优化模型，通过求解模型为各区域中每个宏块选取合适的量化参数。本发明在客观质量相近的前提下，能有效抑制视频“闪烁”现象，实现了平稳视频质量的I帧码率控制。

Description

一种基于区域视频质量平稳的I帧码率控制方法

技术领域

本发明涉及一种视频码率控制方法，尤其涉及一种基于区域视频质量平稳的I帧码率控制方法，属于视频编码领域。

背景技术

数字视频，因其直观、准确、高效和易辨识等优点，已成为日常工作和文化娱乐的重要组成，并已成为城市治安管理和国防安全保障的重要信息来源。然而，随着远程视频监控、视频会议等面向异构网络视频应用的迅速增长，网络带宽受限和带宽波动等问题对视频编码技术提出了更高要求。码率控制作为连接视频编码器与网络的双向接口，旨在根据不同的视频内容和不同的网络带宽调整视频编码器的量化参数，使得输出码流满足网络限制的同时，尽量提高视频编码的效率。因此，码率控制对提升网络视频应用的灵活性具有重要意义。

现有视频编码标准所定义的码流结构是一种分层的结构，包括图像组（GroupofPicture，GOP）、图像帧、宏块（MacroBlock，MB）等层。这能有效提高视频码流的网络适应性。针对这种层次化的码流结构，码率控制相应地可以分为GOP层、帧层和宏块层等三类。通常在一个GOP中，I帧作为“起始帧”，它的编码不需要参考其他图像而仅利用空域上的信息，并可以作为随机访问的参考点以及错误扩散的隔断点，这使得视频码流在网络应用中更为灵活。因此，在GOP层码率控制中，针对I帧的码率控制是研究的关键。

然而，在针对H.264/AVC的码率控制方法JVT-G012中对I帧的码率控制没有考虑图像自身的特性，只考虑了可用带宽、GOP长度以及前一个GOP中P帧的平均量化参数（QuantizationParameter，QP）等信息，往往无法达到理想的控制效果。并且，由于I帧编码没有利用时域信息，针对I帧的率失真优化旨在保证原始视频与重建视频之间的失真达到最小，而没有考虑帧间失真连续性的问题。因此，当GOP切换时，由于I帧与P帧之间编码模式的差异，会造成质量“跳变”，这种周期性的质量“跳变”会引起视频“闪烁”的现象。

这种视频“闪烁”是由帧内编码模式所引起，无法被彻底排除。当网络带宽较低（编码质量较差）或者GOP长度较短（GOP切换较频繁）时，视频“闪烁”现象较为明显。在电视节目实况直播、实时视频监控、视频会议等诸多实时视频应用中，观赏者需要长时间关注视频画面，视频“闪烁”现象无疑会影响主观观赏的效果，容易引起人眼的视觉疲劳。

为了有效抑制视频“闪烁”现象，需要重点考虑两个关键因素，即视频“闪烁”现象的区域差异性以及I帧与后向P帧之间的依赖关系，下面对这两个因素进行详细分析。

（1）区域差异性

视频“闪烁”现象具有明显的区域特性，主要有两方面原因。第一，视频图像自身的纹理复杂程度和运动的剧烈程度具有明显的区域特性，相对于纹理复杂和含有运动的区域而言，平坦和静止区域的视频“闪烁”程度更加明显，这是因为在帧间编码时，位于静止和平坦区域的宏块通常会采用SKIP模式，直接使用参考帧中相应位置的重建宏块来代替当前宏块，因而SKIP模式在帧间编码时能够较好地保持相邻视频之间的质量连续性，然而当GOP切换时，位于同样区域的宏块都需要进行帧内编码，而由于编码模式和率失真特性的不同，会造成不同程度的量化失真，这就导致了平坦和静止区域的“闪烁”现象更为明显。第二，视频“闪烁”现象本身是一种主观视觉效果，而人眼对不同区域质量变化的敏感程度不同。例如，对于同一视频图像中过亮或者过暗的区域，人眼视觉敏感性较弱；此外，人眼对于高频部分的信息损失相对于中、低频部分而言，其视觉敏感性较弱。

视频“闪烁”现象的示例如图2所示（图2（a）为原始视频，其中左墙边缘、中间走廊、右墙边缘区域的PSNR值变化情况如图2（c）所示）），虽然测试序列自身内容变化较为平稳，并且采用相同的量化参数，重建视频的整体客观质量也相近，三帧图像的PSNR值（PeakSignalNoiseRatio，峰值信噪比）几乎相同，但是，在GOP切换时“闪烁”现象依然十分明显，如图2（b）所示，（图2（b）为重建视频），尤其相对于视频中运动的部分（两个行走的人）以及明亮的区域（天花板两侧的光源处），图中所圈出的平坦和静止的区域，其主观“闪烁”现象更加明显，能够被人眼所清晰察觉。另外，因客观质量“跳变”程度的不同而引起的视频“闪烁”程度也有所不同，例如，图2（a）中三个不同区域PSNR值的差值如图2（c）所示（图2（c）为相邻帧不同区域之间PSNR值之差），其中相对于中间走廊区域而言，左边和后边墙壁边缘区域的客观质量“跳变”程度以及视频“闪烁”程度都比较明显。

因此，为了有效抑制GOP切换时视频“闪烁”现象，需要根据不同区域的率失真特性和人眼视觉特性分别进行处理，以保证I帧与相邻P帧对应区域之间质量的连续性。

（2）帧间依赖性

抑制视频“闪烁”现象的关键在于保持相邻帧中对应区域之间质量的连续性。而“连续性”本身是一个相对的概念，即后者相对前者而言两者之间的差异较小。如图3所示，当GOP切换时，当前GOP中的起始I帧（第t帧）不仅与前一个GOP中最后一个P帧（第t-1帧）相邻，而且I帧的质量还会影响后向P帧（第t+1帧）的质量，进而传递影响到当前GOP中最后一个P帧（第t+4帧），而第t+4帧作为当前GOP中最后一个P帧（相当于前一个GOP中的第t-1帧的位置），它与下一个GOP中的起始I帧相邻，因此当前GOP内各帧之间的质量波动会影响到下一个GOP。当一个GOP内I帧与后向P帧之间存在悬殊的质量差异时，这种GOP内部的质量悬殊差异会在后向GOP中扩散，从而导致后向GOP与GOP之间编码质量出现“此起彼伏”的现象。因此，I帧作为“承上启下”的关键帧，在对其建立平稳视频质量率失真优化模型时，不仅需要考虑I帧“承上”与已编码帧之间的相关性，以保持当前I帧（第t帧）与前向已编码P帧（第t-1帧）之间质量的连续性，而且还需要考虑它“启下”与未编码帧之间的依赖性，以避免I帧（第t帧）与后向P帧（第t+1帧）之间质量的悬殊差异。

在一个GOP中，I帧与P帧之间存在较强的帧间依赖关系。由于I帧压缩效率远低于P帧的压缩效率，相对于P帧而言，I帧所占的码流量较大。为了保证后向P帧的编码质量，可以增加I帧的压缩比来提高后向P帧的码率分配。相反，后向P帧在编码时需要参考I帧，其编码质量又依赖于I帧的编码结果。因此，对于帧间依赖性的准确描述有助于保持I帧与P帧主观视频质量的连续性，是实现平稳视频质量码率控制的重点。

虽然，已有一些针对“闪烁”问题的I帧码率控制算法被相继提出，然而这些方法都是“帧层”码率控制方法，即假设只要保持各帧之间整体客观质量一致即可消除视频“闪烁”现象，而没有考虑视频“闪烁”现象的区域差异性。此外，这些方法仅考虑了I帧与前向P帧之间的相关性，而忽视了I帧与后向P帧之间的依赖关系。因此，这些方法无法获得理想的“闪烁”抑制效果。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于区域视频质量平稳的I帧码率控制方法，该码率控制方法将I帧划分为运动区域和非运动区域分别进行控制，并综合考虑I帧与前向已编码P帧之间的相关性以及I帧与后向未编码P帧之间的依赖性，能够获得平稳的视频质量。

本发明技术解决方案：一种基于区域视频质量平稳的I帧码率控制方法，如图1所示，包括如下步骤：

(A)所述的码率控制方法，通过一个阈值以及I帧与前向相邻P帧对应位置宏块之间亮度值的绝对差之和将图像划分为运动区域和非运动区域，绝对差之和大于阈值的宏块，属于运动区域，否则属于非运动区域；

(B)在所述的针对运动区域的码率控制中，为运动区域中的每个宏块选取合适的量化参数，使得通过该量化参数进行编码后当前重建宏块的峰值信噪比（PeakSignalNoiseRatio，PSNR），接近于前向已编码相邻P帧中对应位置宏块的PSNR值，同时，接近于后向未编码相邻P帧中对应位置宏块的PSNR值；

(C)在所述的针对非运动区域的码率控制中，为非运动区域中的每个宏块选取合适的量化参数，使得通过该量化参数进行编码后当前重建宏块的PSNR值，接近于前向已编码相邻P帧中对应位置宏块的PSNR值，而且，接近于前向已编码相邻I帧中对应位置宏块的PSNR值，同时，接近于后向未编码相邻P帧中对应位置宏块的PSNR值。

所述步骤(A)中采用以下公式(1)来划分运动区域和非运动区域：

MR (k) = \{\begin{matrix} 1, & Diff (k) &GreaterEqual; \frac{1}{NMB} Σ_{x = 1}^{NMB} Diff (x) \\ 0, & else \end{matrix} - - - (1)

Diff (k) = \frac{1}{16 \times 16} \underset{(i, j) &Element; k}{Σ} | I^{'} (i, j) - I (i, j) |

其中NMB为当前帧中总的宏块数目。当MR(k)等于1时表示第k个宏块属于运动区域，否则属于非运动区域，I(i,j)为当前帧中经过低通滤波处理后(i,j)位置的像素值，I′(i,j)为前一相邻帧中经过低通滤波处理后(i,j)位置的像素值。

所述步骤(B)和步骤(C)中采用以下公式(2)来计算各个宏块的量化参数：

{QP}_{k}^{I} = \underset{{QP}_{k}^{I} &Element; Q}{\arg \min} {D_{var}^{Fw} ({QP}_{k}^{I}) + D_{var}^{Bw} ({QP}_{k}^{I})}

D_{var}^{Bw} ({QP}_{k}^{I}) = | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PSNR}_{k}^{P} ({QP}_{k}^{I}, {QP}_{k}^{P}) |

其中，表示当前I帧中第k个宏块的量化参数，表示后向未编码P帧中第k个宏块的量化参数，表示当前I帧与已编码P帧之间的质量差异，表示当前I帧与后向未编码P帧之间的质量差异，表示当前I帧中第k个宏块的PSNR值，表示前向相邻已编码P帧中第k个宏块的实际PSNR值，表示前向相邻的已编码I帧中第k个宏块的实际PSNR值，是后向未编码P帧中第k个宏块PSNR值的预测值，MR(k)通过公式（1）计算得到，v是一个加权因子，当前I帧中第k个宏块的PSNR值大于前向相邻P帧中第k个宏块的PSNR值时，v取较小值，在本实施例中v=1.0，否则v取较大值，在本实施例中v=1.5。

所述步骤(B)和步骤(C)采用以下公式(3)来预测后向未编码P帧中每个宏块PSNR值的预测值：

其中，表示当前I帧中第k个宏块的量化参数，表示后向未编码P帧中第k个宏块的量化参数，是后向未编码P帧中第k个宏块PSNR值的预测值，为前向相邻P帧中第k个宏块采用量化参数进行编码得到的视频恢复质量，为当前I帧中第k个宏块采用量化参数进行编码所得到的恢复图像质量，MR(k)通过公式（1）计算得到，模型参数α和β可以根据实验结果通过线性回归的方法获得，Δ为一个常数，在本实施例中Δ取值为-2。

所述步骤(B)和步骤(C)中采用以下公式(4)来计算当前I帧中每个宏块的PSNR值：

{PSNR}_{k}^{I} ({QP}_{k}^{I}) = γ \times C_{k}^{I} \times {QP}_{k}^{I} + μ - - - (4)

其中，为第k个宏块的量化参数,为I帧中第k个宏块的PSNR值,γ和μ分别为模型的两个参数，它们可以根据编码结果通过线性回归的方式求得，表示I帧中第k个宏块的复杂度，它通过以下公式（5）计算得到：

C_{k}^{I} = \sqrt[3]{1 / G_{k}^{I}}

（5）

G_{k}^{I} = \frac{1}{256} {Σ_{i = 1}^{15} Σ_{j = 1}^{15} (| I_{i, j} - I_{i + 1, j} | + | I_{i, j} - I_{i, j + 1} |)}

其中，I_i，j表示第i行和第j列的像素值。

上述第一个GOP中I帧的量化参数根据每个像素分得到的码率和当前I帧的复杂度信息来确定，在本实施例中根据图像的梯度信息来确定当前I帧的复杂度；第二个GOP中I帧的量化参数等于第一个I帧量化参数和前向相邻P帧量化参数的平均值。

本发明与现有技术相比的优点在于：为了抑制GOP切换时的视频“闪烁”现象，本发明综合考虑I帧与已编码P帧之间的相关性以及I帧与后向未编码P帧之间的依赖性，提出了一种基于区域视频质量平稳的I帧码率控制方法。首先，提出了一种基于区域的帧间依赖性模型，针对运动区域和非运动区域间不同的帧间依赖性特点，分别为其建立了相应的帧间依赖性模型。其次，结合提出的帧间依赖性模型，提出了一种平稳视觉质量的优化模型，通过求解模型为每个宏块选取合适的量化参数，从而有效抑制了视频“闪烁”现象。实验表明，所提方法实现了平稳视频质量的I帧码率控制，与同类方法相比，在客观质量相近的前提下，主观观赏效果显著提高。

附图说明

图1为本发明的实现流程图；

图2为视频“闪烁”现象示例图；

图3为GOP中I帧的帧间相关性和帧间依赖性示意图；

图4为PSNR值与量化参数之间的关系（QP=26:2:40）图；

图5为PSNR值与图像复杂度之间的关系图，复杂度通过公式（11）计算；

图6为I帧与P帧之间的失真和码率的依赖关系图，其中（a）为Silent序列的帧级依赖关系，（b）为Soccer序列帧级依赖关系；

图7为Silent序列中I帧与P帧之间不同区域的失真依赖关系图，其中（a）为非运动区域帧间依赖关系，（b）为运动区域帧间依赖关系；

图8为I帧与P帧之间不同区域的失真依赖关系抽象模型图，其中（a）为非运动区域帧间依赖关系，（b）为运动区域帧间依赖关系。

具体实施方式

下面结合实施例对本发明进一步详细说明。

1．联合帧间相关性和帧间依赖性的平稳质量模型

本发明综合考虑前向已编码帧和后向未编码帧两方面因素（如图3所示），并针对视频“闪烁”现象所具有的区域特性，提出了一种基于帧间依赖性和相关性的平稳视频质量优化模型，将视频划分为运动区域和非运动区域，并根据不同区域的率失真特性和帧间依赖关系分别建立了不同的优化模型。

值得注意的是，在现有的视频压缩标准（例如，H.264/AVC等）中，由于广泛采用了帧间预测编码技术，使得后向未编码帧的质量依赖于已编码帧的质量，而已编码帧所消耗的码率又会影响到后向未编码帧的码率分配，这就造成了在一个GOP内各帧之间存在较强的依赖性，而这种依赖性在I帧与P帧之间更为明显。因此，实现GOP内视频质量的平稳性，需要对I帧与P帧之间的依赖关系进行准确建模。I帧与后向P帧之间依赖性将在下一节重点阐述，本节重点关注与前向已编码帧之间的相关性。

首先，综合考虑计算复杂性和准确性两方面因素，本发明根据相邻两帧亮度值的差值来划分运动区域和非运动区域。首先为了避免高频噪声的影响，对当前帧进行低通滤波处理（本实施例中采用3×3均值滤波器），I(i,j)为滤波后(i,j)位置的像素值，I′(i,j)为前一相邻帧中经过低通滤波处理后(i,j)位置的像素值。第k个宏块的帧间差值可以由以下公式计算得到。

Diff (k) = \frac{1}{16 \times 16} \underset{(i, j) &Element; k}{Σ} | I^{'} (i, j) - I (i, j) | - - - (1)

根据得到的帧差信息通过下式将视频划分为运动区域和非运动区域，其中NMB为宏块总数。当MR(k)为1表示该宏块属于运动区域，否则属于非运动区域。

MR (k) = \{\begin{matrix} 1, & Diff (k) &GreaterEqual; \frac{1}{NMB} Σ_{x = 1}^{NMB} Diff (x) \\ 0, & else \end{matrix} - - - (2)

针对非运动区域而言，一方面，相邻帧之间能保持较好的相似性，在P帧编码时，可以根据已编码帧中对应位置的信息直接对当前帧进行预测，尤其当目标码率较低时，非运动区域往往采用SKIP模式进行编码，例如在图3中，非运动区域（例如背景书架部分）大多采用SKIP模式进行编码。因此，当没有发生场景变化时，已编码帧的视频质量会传递影响到后向未编码帧的视频质量。另一方面，受其他运动区域编码结果以及噪声（纹理和光照等会存在细微的变化）等的影响，在一个GOP中非运动区域的视频质量难免会存在一定的波动。因此，针对I帧中非运动区域的视频质量，不仅需要与前一个P帧对应区域的视频质量保持一致，而且还需要尽量减少与前一个GOP中对应区域平均视频质量之间的差异。因此，为了保持与前向已编码帧之间的质量连续性，在本发明所提出的针对非运动区域的平稳质量优化模型中，不仅参考了前一帧对应区域的编码质量，而且还参考了前一个GOP中I帧对应区域的编码质量。

综合考虑前向相关性和后向依赖性的影响，建立了针对非运动区域平稳质量优化模型，旨在保证I帧与相邻P帧之间质量的连续性。

{QP}_{k}^{I} = \underset{{QP}_{k}^{I} &Element; Q}{\arg \min} {D_{var}^{Fw} ({QP}_{k}^{I}) + D_{var}^{Bw} ({QP}_{k}^{I})}

D_{var}^{Fw} ({QP}_{k}^{I}) = v \times | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PPSNR}_{k}^{I} | + v \times | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PPSNR}_{k}^{P} | - - - (3)

D_{var}^{Bw} ({QP}_{k}^{I}) = | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PSNR}_{k}^{P} ({QP}_{k}^{I}, {QP}_{k}^{P}) |

其中，表示当前I帧中第k个宏块的量化参数，表示当前第k个宏块的PSNR值，本发明建立了一个线性PSNR值-量化参数（PSNR-QP模型）用于描述不同宏块的失真特性，具体模型将在下文论述；表示当前I帧与已编码帧之间的质量差异，包含与相邻P帧对应位置质量和前一个GOP中I帧对应位置质量之间的差异两部分，其中和在对当前I帧编码之前已获知；表示当前I帧与后向未编码P帧之间的质量差异，其中是根据I帧与P帧之间的依赖性模型预测得到的后向P帧的PSNR值，本发明针对非运动区域和运动区域不同的帧间依赖关系特性，提出了一种基于区域的帧间依赖性模型，具体模型将在下一节论述；v是一个加权因子，它取决于当前I帧编码质量与前一帧编码质量之间的关系。实验表明，相邻两帧之间视频质量由差变好和质量由好变差，这两种质量“跳变”所引起的“闪烁”程度不一样，当视频质量由好变差时，更容易引起视频“闪烁”现象。这主要是由于人眼对图像中高频分量和低频分量的敏感程度不同，当质量由好变差时，视频图像低频部分信息的损失容易被人眼所察觉。因此，在本发明中当小于或者时，v取较大值，即v=1.5，否则v取较小值，即v=1.0。

针对运动区域而言，相邻帧对应位置之间像素差异较大，在对其采用帧间模式进行编码时需要进行运动估计，在参考帧中搜索与当前帧相匹配的区域，例如在图3中，运动区域在GOP中均采用帧间模式编码。由于运动估计和运动补偿无法获得精确的结果，相对于非运动区域而言，当采用相同量化参数时运动区域的量化失真更为明显。并且，在一个GOP中，运动区域的视频质量会存在较大的波动。因此，针对运动区域的平稳质量优化模型，只需要与前一帧之间视频质量保持一致。同时，考虑到I帧与后向P帧之间的依赖关系，运动区域的平稳质量模型如公式（4）所示。

({QP}_{k}^{I}) = \underset{{QP}_{k}^{I} &Element; Q}{\arg \min} {D_{var}^{Fw} ({QP}_{k}^{I}) + D_{var}^{Bw} ({QP}_{k}^{I})}

D_{var}^{Fw} ({QP}_{k}^{I}) = v \times | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PPSNR}_{k}^{P} | - - - (4)

D_{var}^{Bw} ({QP}_{k}^{I}) = | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PSNR}_{k}^{P} ({QP}_{k}^{I}, {QP}_{k}^{P}) |

通过求解非运动区域和运动区域的平稳质量模型（公式（3）和公式（4）），为非运动区域和运动区域的优化选取量化参数，以抑制I帧视频“闪烁”现象。

2．线性PSNR-QP模型

如何准确地建立I帧失真模型是实现I帧码率控制的关键。假设图像预测残差的DCT变换（DiscreteCosineTransform，离散余弦变换）系数符合柯西分布，则可得失真量化步长（Distortion-Quantizationstepsize，D-Qs）模型：

D＝b×Qs^a（5）

其中，D为失真，用MSE来度量；a和b分别为模型的两个参数；Qs代表量化步长。而量化步长与量化参数QP可以通过以下公式进行转换：

Qs = c \times 2^{QP / 6} - - - (6)

其中c根据不同的QP取不同的固定值。由PSNR值的计算公式可得：

PSNR = 10 \lg \frac{255}{MSE} = 10 \lg \frac{255}{b \times {Qs}^{a}} = 10 (\lg \frac{255}{b} - a \times lgc - a \times \lg 2 \times \frac{QP}{6})) - - - (7)

因此，由上式可以得到PSNR值与QP之间的线性模型，

{PSNR}_{k}^{I} ({QP}_{k}^{I}) = γ \times {QP}_{k}^{I} + μ - - - (8)

其中，为I帧中第k个宏块的PSNR值；为第k个宏块的量化参数；γ和μ分别为模型的两个参数，它们可以根据编码结果通过线性回归的方式求得。PSNR值与QP之间的线性关系可以从图4清晰地观察到。

为了使得模型具有通用性，使其能适用于不同的视频内容，在上述模型中加入对图像复杂度的度量，改进后的公式为：

{PSNR}_{k}^{I} ({QP}_{k}^{I}) = γ \times {C_{k}^{I} \times QP}_{k}^{I} + μ - - - (9)

其中表示I帧中第k个宏块的复杂度。由于I帧编码不参考时域上的信息，因此，I帧图像复杂度的度量只能利用空域上相邻宏块的信息。现有针对I帧的图像复杂度量主要包括图像的梯度、宏块直方图的熵值以及宏块DCT系数之和三种，其中基于图像梯度的度量方法由于实现简单、度量准确而被广泛采用，因此，本发明将梯度信息作为复杂度的度量，以下为梯度的计算公式，

G_{k}^{I} = \frac{1}{256} {Σ_{i = 1}^{15} Σ_{j = 1}^{15} (| I_{i, j} - I_{i + 1, j} | + | I_{i, j} - I_{i, j + 1} |)} - - - ((10))

其中I_i,j表示第i行和第j列的像素值。由实验可知，而I帧编码得到的PSNR值不与图像的梯度呈线性关系，而与图像梯度的立方根倒数呈线性关系，实验结果如图5所示。

因此，本发明采用下式来度量I帧图像的复杂度，

C_{k}^{I} = \sqrt[3]{1 / G_{k}^{I}} - - - (11)

3．基于区域的帧间依赖性模型

对于帧间依赖性的准确描述有助于保持I帧与P帧主观视频质量的连续性，是实现平稳视频质量码率控制的重点。帧间依赖性问题可以被转换成一个多阶段动态规划问题，每帧图像相当于动态规划中的一个阶段，每个阶段中的状态相当于使用可用量化参数进行编码输出的码率和失真信息，而在每个阶段编码时又依赖于前一阶段的编码结果。然而对于该问题的求解，需要对每帧使用所有可能的量化参数进行实际编码，并根据各帧之间使用不同的量化参数组合进行编码之后得到的总体率失真代价值来确定各帧的量化参数，因此需要多次编码才能获得最优的求解，其计算复杂度随着GOP中编码帧数的增加而呈指数形式的增长，不适用于实时视频压缩应用。

为了减少计算复杂度，一种简化的帧间依赖性率失真模型被提出，模型参数只需要通过选取少数率失真数据采样点即可确定。该模型建立的基础在于假设编码重建帧之间的差异较小（帧与帧之间具有较强的相关性并且运动估计能获得精确的运动矢量）。然而，这种假设适用于静止或者运动平缓的视频序列，但对于运动剧烈的视频序列，由于运动估计和运动补偿难免存在误差，这种假设不适用。该结论可以通过实验来证明，在该实验中I帧和P帧分别取固定量化参数（QP=28:1:42）进行编码，编码结果如图6所示（视频格式为CIF格式，GOP长度为15帧，其中图6（a）为Silent序列，图6（b）为Soccer序列），其中横坐标表示I帧使用不同的量化参数编码得到的PSNR值和码率，纵坐标表示当I帧固定量化参数后，P帧使用不同量化参数编码得到的PSNR值和码率，其中圆点为I帧QP与P帧取相同QP时的输出结果，由图6可知，无相机运动的Silent序列与有运动相机运动的Soccer序列相比，两者的帧间依赖性有明显的区别。

虽然，现有的帧间依赖性模型是基于编码重建帧之间的差异较小的假设，并且该模型是针对整帧图像建立的，因而具有一定的局限性。但它直观地揭示并描述了帧间依赖关系的特征，这为进一步研究I、P帧之间的依赖关系提供了很好的切入点。

由图6可以观察到，对于有相机运动的视频序列（Soccer）而言，其I帧与P帧之间的依赖关系较弱，P帧的编码质量基本不受I帧编码质量的影响。相反的，对于无相机运动的视频序列（Silent）而言，其I帧与P帧之间的依赖关系较强，尤其当I帧的量化参数小于P帧的量化参数时，P帧的编码质量随着I帧编码质量的增加（量化参数的减小）而线性增加。由此可见，相对于具有相机运动的视频序列而言，在无相机运动的视频序列中，已编码帧的编码结果会对后向未编码帧产生更大的影响，它们之间的帧间依赖关系更为明显。

视频图像中既包含运动不规则的目标运动区域，又包含较为平稳或者静止的背景区域，它们之间的帧间依赖关系具有明显的区别。根据区域划分的结果，I帧与P帧间不同区域的失真依赖关系如图7所示（Silent序列，格式为CIF格式，固定I帧和P帧QP为28:2:42，Diff由公式（1）计算得到，圆点为I帧与P帧取相同QP时的输出结果）。由图可知，对于运动剧烈的区域，如图7（b）所示，P帧的编码质量不受I帧编码质量的影响，当P帧取定量化参数时，随着I帧质量的变化（I帧量化步长的变化），P帧中运动区域的编码质量基本保持恒定。而对于非运动区域，如图7（a）所示，其编码质量会随着I帧编码质量的变化而变化，尤其当I帧的量化参数小于P帧的量化参数时，P帧中非运动区域的编码质量与I帧编码质量呈线性关系，即随着I帧编码质量的增加（量化参数的减小）而线性增加，而当I帧的量化参数大于P的量化参数时，P帧中非运动区域的编码质量不受I帧编码质量的影响，当P帧取定量化参数时，其编码质量基本保持恒定。

因此，基于上述观察结论，本发明提出了一种基于区域的帧间依赖性模型，根据运动区域和非运动区域之间不同的帧间依赖特点，分别建立了帧间依赖性模型，实现了对帧间依赖问题的准确描述。下面详细阐述所提出的帧间依赖性模型。

假设I帧原始图像为f_I(x,y)，其重建图像为f″_I(x,y)，I帧之后的第一个P帧原始图像为f_P(x,y)，其预测图像和重建图像分别为f′_P(x,y)和f″_P(x,y)，则P帧的帧误差如下式所示，具体的推导过程参见附录部分。

E_P＝f_P(x,y)-f_I(x,y)+(f_I(x,y)-f″_I(x+i,y+j))-e″_P(x,y)（12）

其中(i，j)为运动矢量。由上式可知，P帧的帧误差主要取决于三部分，即原始I帧与原始P帧之间的差值，原始I帧与P帧预测帧之间的差值，以及P帧残差的量化失真。

对于运动区域和非运动区域，P帧的帧误差各不相同。对于非运动区域而言，相邻帧之间对应位置像素值的差值较小，此时运动矢量(i,j)可以近似为(0,0)，且可以忽略P帧预测残差的量化失真，则根据公式（12），P帧中非运动区域的误差可表示为：

E_{P}^{NM} \approx f_{P} (x, y) - f_{I} (x, y) + (f_{I} (x, y) - f_{I}^{''} (x, y))

（13）

E_{P}^{NM} \approx f_{P} (x, y) - f_{I} (x, y) + E_{I}^{NM} \approx E_{I}^{NM}

其中，为I帧中非运动区域的误差。由此可见，P帧中非运动区域的误差紧密依赖于I帧中非运动区域的误差。

并且，当I帧的量化步长小于P帧的量化步长时，即Q_I＜Q_P，对于相同的误差而言，采用较为精细的量化步长（Q_I）而产生的失真小于采用较粗糙的量化步长（Q_P）而产生的失真。因此，的量化失真随着的量化失真的变化而线性变化。相反地，当I帧的量化步长大于P帧的量化步长时，即Q_I＞Q_P，对于相同的误差而言，采用较为粗糙的量化步长（Q_I）量化之后，再采用更为精细的量化步长（Q_P）进行量化，前后两者之间的量化失真不存在依赖关系，P帧的失真仅由较精细的量化步长（Q_P）决定。因此，综合考虑Q_I＜Q_P和Q_I＞Q_P两种情况，P帧的失真仅由I帧和P帧中较小的量化步长，即min{Q_I,Q_P}，所决定。

假设P帧取定量化参数QP_P，则P帧中非运动区域的失真随着I帧量化参数QP_I的变化而变化，其帧间失真依赖关系可以抽象为以下的模型（模型示意如图8（a）所示），本发明采用PSNR值来度量视频的失真程度。

其中，表示在I帧中第k宏块取不同量化参数QP后得到的PSNR值，它通过公式（9）计算得到；当I帧取定量化参数后，P帧中第k个宏块取不同的量化参数所得到的PSNR值用表示；α和β为模型的两个参数，它们可以根据实验结果通过线性回归的方法获得；Δ为常数，将非运动区域的帧间失真依赖模型划分为两部分，两部分间失真依赖关系具有明显的不同特征，根据实验结果，本发明Δ取值为-2。

而对于运动区域，相邻帧之间对应位置像素值的差较大，并且运动矢量(i,j)不可忽略。此外，对于运动剧烈的区域，运动估计无法获得精确的运动矢量，预测图像与原始图像之间的残差e_P(x,y)也不可忽略。因此，则根据公式（12），P帧中运动区域的误差可以表示为：

E_{P}^{M} = f_{P} (x, y) - f_{I} (x, y) + (f_{I} (x, y) - f_{I}^{''} (x, y) + f_{I}^{''} (x, y) - f_{I}^{''} (x + i, y + j)) - e_{P}^{''} (x, y)

（15）

E_{P}^{M} = f_{P} (x, y) - f_{I} (x, y) {+ E}_{I}^{M} + (f_{I}^{''} (x, y) - f_{I}^{''} (x + i, y + j)) - e_{P}^{''} (x, y)

相对于f_P(x,y)-f_I(x,y)、f″_I(x,y)-f″_I(x+i,y+j)和e″_P(x,y)三项而言，可以忽略不计，对于运动区域而言，不受的影响。特别地，对于P帧中运动不规则的区域，有可能采用帧内编码模式进行编码，而此时，这些区域仅利用本帧空域上的相关性信息进行编码，而没有利用帧间相关性信息，这些区域的失真完全独立于已编码I帧的失真。因此，对于运动区域而言，P帧运动区域的失真不随着I帧量化参数的变化而变化，而只取决于P帧自身的率失真特性。基于上述定性的分析，运动区域的帧间失真依赖关系可以简化为以下的模型（模型示意如图8（b）所示）。

{PSNR}_{k}^{P} ({QP}_{k}^{I}, {QP}_{k}^{P}) = {PSNR}_{k}^{P} ({QP}_{k}^{P}) - - - (16)

其中，由于相邻P帧之间（无论是运动区域还是非运动区域）具有较强的帧间相关性，因此，可以参考前一个GOP中最后一个P帧的失真模型。

综合公式（14）和公式（16），所提出的基于区域的帧间依赖性模型如公式（17）所示。对于非运动区域而言，其失真依赖性模型的参数可以根据已编码的信息利用线性回归的方法进行更新，由于非运动区域能保持较好的帧间相关性，因此，参数更新所使用的统计信息可以从之前已编码的GOP中相应位置宏块的编码结果中获得。

以上公开的仅为本发明的具体实施例。根据本发明提供的技术思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。

Claims

1.一种基于区域视频质量平稳的I帧码率控制方法，所述码率控制方法将I帧划分为运动区域和非运动区域分别进行控制，其特征在于包括如下步骤：

(A)将图像划分为运动区域和非运动区域，所述划分方法先设定一个阈值，对于I帧中每一个宏块，计算该宏块与前一个P帧中对应位置宏块之间亮度值的绝对差之和，当绝对差之和大于阈值时，该宏块属于运动区域，否则该宏块属于非运动区域；

(B)在针对运动区域的码率控制中，为运动区域中的每个宏块选取量化参数，使得通过所述量化参数进行编码后，当前重建宏块的峰值信噪比PSNR接近于前向已编码相邻P帧中对应位置宏块的PSNR值，同时接近于后向未编码相邻P帧中对应位置宏块的PSNR值；

(C)在针对非运动区域的码率控制中，为非运动区域中的每个宏块选取量化参数，使得通过所述量化参数进行编码后，当前重建宏块的PSNR值接近于前向已编码相邻P帧中对应位置宏块的PSNR值，而且接近于前向已编码相邻I帧中对应位置宏块的PSNR值，同时接近于后向未编码相邻P帧中对应位置宏块的PSNR值。

2.如权利要求1所述的一种基于区域视频质量平稳的I帧码率控制方法，其特征在于：所述步骤(A)中采用以下公式(1)来划分运动区域和非运动区域：

M R (k) = \{\begin{matrix} 1, & D i f f (k) &GreaterEqual; \frac{1}{N M B} Σ_{x = 1}^{N M B} D i f f (x) \\ 0, & e l s e \end{matrix} - - - (1)

D i f f (k) = \frac{1}{16 \times 16} \underset{(i, j) &Element; k}{Σ} | I^{'} (i, j) - I (i, j) |

其中NMB为当前帧中总的宏块数目，当MR(k)等于1时表示第k个宏块属于运动区域，否则属于非运动区域，I(i,j)为当前帧中经过低通滤波处理后(i,j)位置的像素值，I'(i,j)为前一相邻帧中经过低通滤波处理后(i,j)位置的像素值。

3.如权利要求1所述的一种基于区域视频质量平稳的I帧码率控制方法，其特征在于：所述步骤(B)和步骤(C)中采用以下公式(2)来计算各个宏块的量化参数：

{QP}_{k}^{I} = \underset{{QP}_{k}^{I} &Element; Q}{\arg m i n} {D_{v a r}^{F w} ({QP}_{k}^{I}) + D_{v a r}^{B w} ({QP}_{k}^{I})}

(2)

D_{var}^{B w} ({QP}_{k}^{I}) = | {PSNR}_{k}^{I} ({QP}_{k}^{I}) - {PSNR}_{k}^{P} ({QP}_{k}^{I}, {QP}_{k}^{P}) |

其中，表示当前I帧中第k个宏块的量化参数，表示后向未编码P帧中第k个宏块的量化参数，表示当前I帧与已编码P帧之间的质量差异，表示当前I帧与后向未编码P帧之间的质量差异，表示当前I帧中第k个宏块的PSNR值，表示前向相邻已编码P帧中第k个宏块的实际PSNR值，表示前向相邻的已编码I帧中第k个宏块的实际PSNR值，是后向未编码P帧中第k个宏块PSNR值的预测值，MR(k)通过公式(1)计算得到，ν是一个加权因子，当前I帧中第k个宏块的PSNR值大于前向相邻P帧中第k个宏块的PSNR值时，ν＝1.0，否则ν＝1.5。

4.如权利要求1所述的一种基于区域视频质量平稳的I帧码率控制方法，其特征在于：所述步骤(B)和步骤(C)采用以下公式(3)来预测后向未编码P帧中每个宏块PSNR值的预测值：

其中，表示当前I帧中第k个宏块的量化参数，表示后向未编码P帧中第k个宏块的量化参数，是后向未编码P帧中第k个宏块PSNR值的预测值，为前向相邻P帧中第k个宏块采用量化参数进行编码得到的视频恢复质量，为当前I帧中第k个宏块采用量化参数进行编码所得到的恢复图像质量，MR(k)通过公式(1)计算得到，模型参数α和β可以根据实验结果通过线性回归的方法获得，△为一个常数。

5.如权利要求1所述的一种基于区域视频质量平稳的I帧码率控制方法，其特征在于：所述步骤(B)和步骤(C)中采用以下公式(4)来计算当前I帧中每个宏块的PSNR值：

{PSNR}_{k}^{I} ({QP}_{k}^{I}) = γ \times C_{k}^{I} \times {QP}_{k}^{I} + μ - - - (4)

其中，为第k个宏块的量化参数,为I帧中第k个宏块的PSNR值,模型参数γ和μ根据编码结果通过线性回归的方式求得，表示I帧中第k个宏块的复杂度，它通过以下公式(5)计算得到：

C_{k}^{I} = \sqrt[3]{1 / G_{k}^{I}} - - - (5)

G_{k}^{I} = \frac{1}{256} {Σ_{i = 1}^{15} Σ_{j = 1}^{15} (| I_{i, j} - I_{i + 1, j} | + | I_{i, j} - I_{i, j + 1} |)}

其中，I_i,j表示第i行和第j列的像素值。

6.如权利要求1所述的一种基于区域视频质量平稳的I帧码率控制方法，其特征在于：第一个GOP中I帧的量化参数根据每个像素分得到的码率和当前I帧的复杂度信息来确定；第二个GOP中I帧的量化参数等于第一个I帧量化参数和前向相邻P帧量化参数的平均值。