CN101945275A

CN101945275A - 一种基于感兴趣区域的视频编码方法

Info

Publication number: CN101945275A
Application number: CN 201010256567
Authority: CN
Inventors: 高伟; 孙翼
Original assignee: ZHENJIANG TANGQIAO MICROELECTRONICS CO Ltd
Current assignee: ZHENJIANG TANGQIAO MICROELECTRONICS CO Ltd
Priority date: 2010-08-18
Filing date: 2010-08-18
Publication date: 2011-01-12
Anticipated expiration: 2030-08-18
Also published as: CN101945275B

Abstract

本发明涉及一种基于感兴趣区域的视频编码方法，其视频编码器接收一个宏块的原始视频数据，ROI区域预处理模块按用户预定义的ROI区域划分，将一帧图像中的所有宏块分为ROI区域宏块和非ROI区域宏块。如用户未定义ROI区域，将采用图像内容分析方法，将一帧中的所有宏块进行分类。ROI区域预处理模块计算拉格朗日乘子。量化参数调整模块根据人眼视觉对当前宏块的敏感程度，对宏块集初始量化参数进行调整。视频编码器根据调整后的量化参数，编码当前宏块。一帧中所有宏块编码结束后，多宏块集合比特分配模块将根据宏块集编码统计信息，为各个宏块集分配目标比特，并最终计算出每个宏块集的初始量化参数。

Description

一种基于感兴趣区域的视频编码方法

技术领域

本发明涉及一种基于感兴趣区域的视频编码方法，应用于视频图像编码领域，本发明可应用于视频监控和视频会议等领域的低速率视频编码。

背景技术

低速率视频传输是PSTN、移动通信等带宽受限网络环境下的重要传输业务之一，由于受到网络带宽的限制，图像质量总是不尽如人意。低速率视频编码不仅用于窄带网络环境，随着高清视频引入视频监控、视频会议等应用，现有宽带网络也无法满足高清视频码流的传输，对低速率视频编码同样有很大的需求。

感兴趣区域(ROI，Range of Interesting)视频编码是低速率视频编码的一个重要研究领域，由于人眼具有视觉感兴趣区的特点，即人眼对一幅图像的不同区域感兴趣的程度不同，例如对3G移动终端、视频电话和视频会议中常见的头肩序列视频，人脸就是感兴趣区域。基于感兴趣区域的视频编码方法，充分利用视频图像接收者的这一主观特性以及图像的内容，可以有效提高低速率编码的图像主观感受质量。

感兴趣区域的码率控制技术能够实现编码比特在感兴趣区域的优先分配，是感兴趣区域视频编码过程的重要组成部分。在视频编码中，码率控制技术通常用来调整图像质量和输出码率的大小。经典的码率控制算法主要有MPEG-2 TM5[1][2]，H.263 TMN8[3][4]，MPEG-4VM8[5][6]，以及H.264[7].此外，Zhihai He等人基于码率与DCT零系数个数的线性关系提出了rho域的码率控制算法[8][9]。这些码率控制算法通过建立Q域或Rho域的率失真模型以及分级的比特分配方案，获得了良好的率失真性能。然而，上述码率控制算法不能直接用于感兴趣区域的视频编码，无法在感兴趣区域和非感兴趣区域之间有效分配比特。

除了分配更多的比特，使用适当的宏块预测模式也能够提高感兴趣区域的质量。新一代的视频编码标准H.264，AVS[10]均采用了多种帧内、帧间预测模式，并通过率失真优化的方法为当前宏块选择最优的预测模式。在模式选择过程中，J＝D+λ·R作为率失真最优的判决依据，其中，D表示失真，R表示编码比特，λ是拉格朗日乘子[7]，J表示率失真成本。拉格朗日乘子法将编码比特一定前提下失真最小的约束性问题转化为求解J最小的非约束性问题。在H.264/AVS标准对应的参考软件中，上式中的λ与QP存在唯一的映射关系[11]。只有使用码率控制计算出的宏块量化参数，才能查表得到对应的λ值，率失真优化的模式选择才能进行。换句话说，宏块预测模式的选择受到码率控制的影响，这种影响在低码率下甚至超过了宏块图像内容本身对预测模式选择的影响。普通的宏块预测模式选择技术并不考虑当前宏块的感兴趣程度，无法提高感兴趣区域的主观质量。

发明内容

所要解决的问题：

在低速率的视频编码中，由于带宽的限制，编码图像质量会受到明显损伤。为了提高编码性能，以及保持良好的图像主观质量，通常采用基于感兴趣区域的视频编码。码率控制技术和模式选择技术是视频编码过程中的重要组成部分。本发明提出一种基于感兴趣区域的码率控制方法，在保持较低输出码率的同时，增加了感兴趣区域的编码比特，能够明显提高感兴趣区域的主观质量。本发明还提出一种基于感兴趣区域的模式选择方法，通过改变率失真成本计算公式J＝D+λ·R中的拉格朗日参数λ值，调整预测失真D和编码比特R在率失真成本J中的比重，有利于为感兴趣区域中的宏块选择失真较少的预测模式，从而提高感兴趣区域的主观质量。使用本发明提出的感兴趣区域视频编码技术能够在保持低速率编码的同时明显提高感兴趣区域的主观质量。

技术方案：

一种基于感兴趣区域的视频编码方法，包括以下四个步骤：

一、感兴趣区域(ROI)预处理

ROI预处理模块按照用户预定义的ROI区域划分，将一帧图像中的所有宏块分为两类，即ROI区域宏块和非ROI区域宏块；ROI区域的形状不必是严格的矩形，但为了之后的编码，需要以宏块为单位；如果用户未定义ROI区域，那么本发明采用图像内容分析方法，根据宏块中图像内容的复杂度，对一帧中的所有宏块进行分类；

这里定义f_act为宏块纹理的复杂度，f_mot为宏块运动复杂度；f_act、f_mot的计算如式(1)-(4)所示，其中B^k _i，j表示第k帧中宏块的第(i，j)像素，i，j∈{0，15}，

表示第k-1帧的重建图像中对应宏块的第(i，j)像素；

f_act＝δ_v+δ_h (1)

δ_{v} = \frac{1}{n (n - 1)} Σ_{i = 0}^{n - 2} Σ_{j = 0}^{n - 1} | {B^{k}}_{i, j} - {B^{k}}_{i + 1, j} | - - - (2)

δ_{h} = \frac{1}{n (n - 1)} Σ_{i = 0}^{n - 1} Σ_{j = 0}^{n - 2} | {B^{k}}_{i, j} - {B^{k}}_{i, j + 1} | - - - (3)

f_{mot} = Σ_{i = 0}^{n} Σ_{j = 0}^{n - 1} | {B^{k}}_{i, j} - {B^{\tilde{k} - 1}}_{i, j + 1} | - - - (4)

根据f_act和f_mot，一帧中所有宏块可以分为A，B，C，D四类；由于人眼视觉对含有丰富边缘和运动的区域较为敏感，因此各类宏块感兴趣程度依次为A，B，C，D，如表1所示；

表1

优先级	边缘宏块	纹理宏块
			运动剧烈宏块	A最高优先级	C较低优先级
背景宏块	B较高优先级	D最低优先级

二、感兴趣区域(ROI)宏块编码模式选择

在编码过程中，根据ROI预处理过程得到的宏块分类信息，通过对拉格朗日参数λ的调整可以实现ROI宏块预测模式的选择；

拉格朗日参数λ的计算位于当前宏块帧内预测和运动估计之前，根据前面得到的宏块分类信息，计算当前宏块的拉格朗日参数λ；首先由相同宏块集合的上一个宏块的QP，通过λ与QP之间唯一的映射关系得到一个初始值λ_p[11]，该λ_p值根据当前宏块的分类信息进行如式5调整：

通过改变率失真成本计算公式J＝D+λ·R中的λ值，调整预测失真D和编码比特R在率失真成本J中的比重，从而使感兴趣区域的宏块选择失真较小的预测模式，而非感兴趣区域的宏块选择编码比特较少的预测模式；

三、感兴趣区域(ROI)比特分配和初始量化参数计算

1、ROI比特分配过程采用下式为各个宏块集合分配目标比特Ri^T，i表示第i个宏块集：

{R_{i}}^{T} = = ζ_{i} ω_{i} \log \frac{{σ_{i}}^{2}}{ζ_{i}} + \frac{ζ_{i} ω_{i} R}{Σ_{i = 1}^{S} ζ_{i} ω_{i}} - \frac{ζ_{i} ω_{i} Σ_{i = 1}^{S} ζ_{i} ω_{i} \log \frac{{σ_{i}}^{2}}{ζ_{i}}}{Σ_{i = 1}^{S} ζ_{i} ω_{i}} - - - (10)

式5中R表示信道带宽，ζ_i＝θ_i/α_i，其中α_i为常数；σ_i ²为DCT系数的方差，θ_i＝R_i/(1-ρ_i)，其中ρ_i表示DCT系数零系数的比重，R_i表示第i个宏块集的实际编码比特，ρ_i、θ_i和σ_i均可从编码过程中计算得到，ω_i为加权系数，感兴趣区域赋予较大的ω_i；

2、ROI初始量化参数的计算采用Rho域的率失真函数：

Rⁱ _T(ρ)＝θⁱ _p·(1-ρⁱ) (11)

式中Rⁱ _T(ρ)表示前面计算得到的当前宏块集的目标比特，ρⁱ表示DCT系数零系数的比重，θⁱ是一个与图像复杂度有关的常数，θⁱ _p表示下一帧对应宏块集θⁱ的预测值：

{θ^{i}}_{p} = \frac{{R^{i}}_{l - 1}}{384 \cdot {N^{i}}_{m} - {ρ^{i}}_{l - 1}} - - - (12)

式中Nⁱ _m表示当前宏块集中包含的宏块个数，Rⁱ _l-1和ρⁱ _l-1分别表示前一帧对应宏块集的实际编码比特和DCT零系数的比重；根据式6，可以得到下一帧的目标ρⁱ值，经过[8，9]定义的ρ-QP对应关系，得到感兴趣区域的量化参数值；

四、宏块量化参数的进一步调整

在实际编码过程中，宏块累计编码比特与目标比特之间存在偏差，为了达到预分配的目标比特，需要对初始量化参数进行调整；根据当前宏块实际累计编码比特与目标比特之间的差值，决定对应的量化参数增加值，如下式所示：

ΔQP＝(abs(ttCodedBits-targetBits))＞＞Offset； (13)

其中ttCodedBits表示当前宏块累计编码比特；targetBits表示当前宏块累计目标比特；Offset为一个实验得到的常数，通常设置为5。

有益效果：

本发明提出的感兴趣区域视频编码方法能够自动检测图像的感兴趣区域，能够根据图像中的宏块是否位于感兴趣区域选择失真最小或编码比特最小的预测模式，能够将目标比特有效分配给感兴趣区域和非感兴趣区域，并根据分配的目标比特为宏块计算量化参数。

本发明提出的感兴趣区域视频编码方法在保持较低输出码率的同时，增加了感兴趣区域的编码比特，能够明显提高感兴趣区域的主观质量。我们通过在180kbps编码CIF图像foreman，对使用感兴趣区域视频编码方法和普通的视频编码方法进行比较，如图1所示。图1(a)(c)为使用普通的视频编码方法得到的重建图像，图1(b)(d)为使用本发明提出的感兴趣区域视频编码方法得到的重建图像。注意图像中人像的面部轮廓以及背景中的墙壁直线状边缘，在图1(b)(d)中都有更加清晰地表达。使用本发明提出的感兴趣区域视频编码方法的重建图像的主观效果明显好于普通的视频编码方法。

附图说明

图1(a)(c)为使用普通的视频编码方法得到的重建图像；

图1(b)(d)为使用本发明提出的感兴趣区域视频编码方法得到的重建图像；

图2为本发明工作原理图；

具体实施方式

本发明提出的一种基于感兴趣区域视频编码方法应用于视频编码器的编码循环中。

如图2所示，一种基于感兴趣区域(ROI)的视频编码方法的工作原理：

首先，视频编码器接收一个宏块的原始视频数据，感兴趣区域预处理模块采用图像内容分析方法，将一帧中的所有宏块进行分类。然后，模式选择模块根据当前宏块所属的宏块类别计算拉格朗日乘子。视频编码器使用该乘子选择宏块预测模式。

然后，量化参数调整模块根据人眼视觉对当前宏块的敏感程度，对宏块集初始量化参数进行调整。视频编码器根据调整后的量化参数，编码当前宏块。当前宏块的统计信息如宏块集的累计编码比特数，零DCT系数个数等将被采集。

最后，一帧中所有宏块编码结束后，比特分配模块根据宏块集编码统计信息，为各个宏块集分配目标比特，并最终计算出每个宏块集的初始量化参数。

本发明提出的一种基于感兴趣区域的视频编码方法包括预处理，模式选择，比特分配和初始量化参数计算，宏块量化参数调整四个步骤。预处理模块根据图像内容复杂度将所有宏块分类；模式选择模块根据宏块是否位于感兴趣区域改变模式选择策略；比特分配和初始量化参数计算模块将目标比特分配给感兴趣区域和非感兴趣区域，而且根据分配的目标比特为感兴趣区域和非感兴趣区域的宏块计算量化参数；量化参数调整模块根据人眼视觉对当前宏块的敏感程度调整宏块量化参数。

一、感兴趣区域(ROI)预处理

ROI预处理模块按照用户预定义的ROI区域划分，将一帧图像中的所有宏块分为两类，即ROI区域宏块和非ROI区域宏块；ROI区域的形状不必是严格的矩形，但为了之后的编码，需要以宏块为单位。如果用户未定义ROI区域，那么本发明采用图像内容分析方法，根据宏块包含像素内容的复杂度，对一帧中的所有宏块进行分类。

定义f_act为宏块纹理的复杂度，f_mot为宏块运动复杂度。f_act、f_mot的计算如式(1)-(4)所示，其中B^k _i，j表示第k帧中宏块的第(i，j)像素，i，j∈{0，15}，

表示第k-1帧的重建图像中对应宏块的第(i，j)像素。

f_act＝δ_v+δ_h (1)

δ_{v} = \frac{1}{n (n - 1)} Σ_{i = 0}^{n - 2} Σ_{j = 0}^{n - 1} | {B^{k}}_{i, j} - {B^{k}}_{i + 1, j} | - - - (2)

δ_{h} = \frac{1}{n (n - 1)} Σ_{i = 0}^{n - 1} Σ_{j = 0}^{n - 2} | {B^{k}}_{i, j} - {B^{k}}_{i, j + 1} | - - - (3)

f_{mot} = Σ_{i = 0}^{n} Σ_{j = 0}^{n - 1} | {B^{k}}_{i, j} - {B^{\tilde{k} - 1}}_{i, j + 1} | - - - (4)

根据f_act和f_mot，一帧中所有宏块可以分为A，B，C，D四类。由于人眼视觉对运动和含有丰富边缘的区域较为敏感，因此各类宏块感兴趣程度依次为A，B，C，D，如表1所示；

表1

在实际编码过程中，由于上述ROI区域前处理过程，完全在宏块编码开始之前，因此宏块预测模式的选择能够依据上述宏块分类信息进行。

二、感兴趣区域(ROI)宏块编码模式选择

在编码过程中，根据ROI预处理过程得到的宏块分类信息，通过对拉格朗日参数λ的调整可以实现ROI宏块编码模式的选择。

拉格朗日参数计算位于当前宏块帧内预测和运动估计之前，根据前面得到的宏块分类信息，计算当前宏块的拉格朗日参数λ。首先由相同宏块集合的上一个宏块的QP得到一个初始λ_p，该λ_p值根据当前宏块的分类信息进行如式5调整：

三、感兴趣区域(ROI)比特分配和量化参数的计算

1、ROI比特分配

ROI比特分配过程采用了基于最小平均失真的方法，为了补偿理想Rho域率失真模型与实际编码结果的差别，本发明采用了反馈机制自适应的调整分配给每个ROI区域的比特大小。

由于整幅图像分类为多个宏块集合，宏块集合之间的质量差异过大会影响整幅图像的质量，减小多个宏块集合编码视频质量差别的问题可以表达为多个宏块集合的平均失真最小化的问题，如式1所示，式中S表示宏块集合的个数：

\min_{R} \frac{1}{S} Σ_{i = 1}^{S} D_{i} (R_{i})

S.t.

Σ_{i = 1}^{S} R_{i} \leq R - - - (6)

由[8-9]的Rho域率失真函数可知，

R(ρ)＝θ·(1-ρ) (7)

D(ρ)＝σ²e^-α(1-ρ) (8)

上述最小化问题可以表达为：

\min_{R} \frac{1}{S} Σ_{i = 1}^{S} D_{i} (ρ_{i})

S.t.

Σ_{i = 1}^{S} θ_{i} (1 - ρ_{i}) \leq R - - - (9)

使用拉格朗日最优化方法求解式4所示最小化问题，可以得到各个宏块集合分配目标比特Ri^T，i表示第i个宏块集：

{R_{i}}^{T} = = ζ_{i} ω_{i} \log \frac{{σ_{i}}^{2}}{ζ_{i}} + \frac{ζ_{i} ω_{i} R}{Σ_{i = 1}^{S} ζ_{i} ω_{i}} - \frac{ζ_{i} ω_{i} Σ_{i = 1}^{S} ζ_{i} ω_{i} \log \frac{{σ_{i}}^{2}}{ζ_{i}}}{Σ_{i = 1}^{S} ζ_{i} ω_{i}} - - - (10)

式5中R表示信道带宽，ζ_i＝θ_i/α_i，其中α_i为常数。σ_i ²为DCT系数的方差，θ_i＝R_i/(1-ρ_i)，其中ρ_i表示DCT系数零系数的比重，R_i表示第i个宏块集的实际编码比特，ρ_i、θ_i和σ_i均可从编码过程中计算得到。ω_i为加权系数，感兴趣区域赋予较大的ω_i。

2、宏块集量化参数计算

宏块集量化参数的计算采用Rho域的率失真函数[8-9]：

R_i ^T(ρ)＝θ_i ^p·(1-ρ_i) (11)

式中R^T _i(ρ)表示前面计算得到的当前宏块集的目标比特，ρ_i表示DCT系数零系数的比重，θ_i是一个与图像复杂度有关的常数，θ_i ^p表示下一帧对应宏块集θ_i的预测值：

{θ_{i}}^{p} = \frac{{R_{i}}^{l - 1}}{384 \cdot {N_{i}}^{m} - {ρ_{i}}^{l - 1}} - - - (12)

式中N_i ^m表示当前宏块集中包含的宏块个数，R_i ^l-1和ρ_i ^l-1分别表示前一帧对应宏块集的实际编码比特和DCT零系数的比重。根据式6，可以得到下一帧的目标ρ_i值，经过[8，9]定义的ρ-QP对应关系，得到当前宏块集的初始QP值。

四、宏块量化参数的进一步调整

在实际编码过程中，宏块累计编码比特与目标比特之间存在偏差，为了达到已分配的目标比特，需要对初始量化参数进行调整；本发明根据当前宏块实际累计编码比特与目标比特之间的差值，决定对应的量化参数增加值，如下式所示：

ΔQP＝(abs(ttCodedBits-targetBits))＞＞Offset； (13)

根据上面的描述，本领域的工程技术人员可以将本发明提出的感兴趣区域视频编码方法应用于一个非基于感兴趣区域的普通视频编码器。

[1]MPEG-2 video test model 5.ISO/IEC/JTC1/SC29/WG11，MPEG93/457，April.1993

[2]J.W.Lee and Y.S.Ho.“Target bit matching for MPEG-2 video rate control”，Proceedings of Tencon 1998，New Delhi，India，vol.1，pp：66-99，Dec.1998

[3]J.Robas-Corbera and S.Lei.“Rate control in DCT video coding for low-delay communications”，IEEE Trans.On Circuits and Systems for Video Technology，1999，vol.9(1)，pp：172-185

[4]Video Codec.Test Model Near-Term，TMN8.ITU-T/SG16/VCEG/Q15 A59，Portland，USA，Jun 1997

[5]Vetro，H.Sun，and Yao Wang.“MPEG-4 rate control for multiple video objects”，IEEE Transactions on Circuits and Systems for Video Technology，vol.9，pp.186-199，February 1999

[6]T.Chiang and Y.Q.Zhang，“A new rate control scheme using quadratic rate distortion medel”，IEEE Transactions on Circuits and Systems for video Technology，vol 7(1)，pp：246-250，Feb.1997

[7]“Adaptive basic unit layer rate control for JVT，”presented at the 7th.JVT Meeting，Pattaya II JVT-G012-rl Thailand，Mar.2003.

[8]He，Zhihai，A unified approach to rate-distoriton analysis and rate control for visual coding and communication for the degree of Doctor of Philosophy，University of California，Santa Barbara

[9]He，Zhihai，Yong Kwan Kim，Sanjit K.Mitra，“Low-delay rate control for DCT video coding via p-domain source modeling”，IEEE Transactions on Circuits and systems for video technology，2001，vol.11(8)，pp：928-940

[10]Audio Video Coding Standard Workgroup of China (AVS).Video Coding Standard FCD1.0，Nov.2003.

[11]Joint video team reference software，version 98.http://bs.hhi.de/～suehring/tml/download/.

Claims

1.一种基于感兴趣区域的视频编码方法，其特征在于：包括以下四个步骤：

一、感兴趣区域(ROI)预处理

表示第k-1帧的重建图像中对应宏块的第(i，j)像素；

f_act＝δ_v+δ_h (1)

δ_{v} = \frac{1}{n (n - 1)} Σ_{i = 0}^{n - 2} Σ_{j = 0}^{n - 1} | {B^{k}}_{i, j} - {B^{k}}_{i + 1, j} | - - - (2)

δ_{h} = \frac{1}{n (n - 1)} Σ_{i = 0}^{n - 1} Σ_{j = 0}^{n - 2} | {B^{k}}_{i, j} - {B^{k}}_{i, j + 1} | - - - (3)

f_{mot} = Σ_{i = 0}^{n} Σ_{j = 0}^{n - 1} | {B^{k}}_{i, j} - {B^{\tilde{k} - 1}}_{i, j + 1} | - - - (4)

表1

优先级边缘宏块纹理宏块运动剧烈宏块 A最高优先级 C较低优先级背景宏块 B较高优先级 D最低优先级

二、感兴趣区域(ROI)宏块编码模式选择

三、感兴趣区域(ROI)比特分配和初始量化参数计算

{R_{i}}^{T} = = ζ_{i} ω_{i} \log \frac{{σ_{i}}^{2}}{ζ_{i}} + \frac{ζ_{i} ω_{i} R}{Σ_{i = 1}^{S} ζ_{i} ω_{i}} - \frac{ζ_{i} ω_{i} Σ_{i = 1}^{S} ζ_{i} ω_{i} \log \frac{{σ_{i}}^{2}}{ζ_{i}}}{Σ_{i = 1}^{S} ζ_{i} ω_{i}} - - - (10)

式5中R表示信道带宽，ζ_i＝θ_i/α_i，其中α_i为常数；σ_i ²为DCT系数的方差，θ_i＝R_i/(1-ρ_i)，其中ρ_i表示DCT系数零系数的比重，Ri表示第i个宏块集的实际编码比特，ρ_i、θ_i和σ_i均可从编码过程中计算得到，ω_i为加权系数，感兴趣区域赋予较大的ω_i；

2.ROI初始量化参数的计算采用Rho域的率失真函数：

Rⁱ _T(ρ)＝θⁱ _p·(1-ρⁱ) (11)

{θ^{i}}_{p} = \frac{{R^{i}}_{l - 1}}{384 \cdot {N^{i}}_{m} - {ρ^{i}}_{l - 1}} - - - (12)

四、宏块量化参数的进一步调整

ΔQP＝(abs(ttCodedBits-targetBits))＞＞Offset； (13)