CN101489141B

CN101489141B - 基于主观质量失真预测的自适应帧内宏块刷新方法

Info

Publication number: CN101489141B
Application number: CN 200910095725
Authority: CN
Inventors: 陈耀武; 马汉杰; 周怡然
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2009-01-20
Filing date: 2009-01-20
Publication date: 2010-08-04
Anticipated expiration: 2029-01-20
Also published as: CN101489141A

Abstract

本发明公开了一种基于主观质量失真预测的自适应帧内宏块刷新方法，包括以下步骤：1)输入视频图像并将其划分成宏块；2)从网络传输的物理层获取当前输入的视频图像码流传输信道的状态信息；3)从输入的视频图像中提取视觉感知权重图；4)根据视频图像的宏块编码比特长度和当前输入的视频图像码流传输信道的状态信息构建以宏块为单位的视频图像的误码概率图；5)结合视频图像的视觉权重图和误码概率图，对视频图像进行主观质量失真预测；6)根据主观质量失真预测，强制执行宏块刷新判决。本发明通过对视频编码图像主观质量的预测，自适应判决帧内宏块刷新的位置和频率，达到视频编码效率和码流容错性之间的平衡，提高所传输视频图像的整体主观质量。

Description

基于主观质量失真预测的自适应帧内宏块刷新方法

技术领域

本发明涉及数字视频信号编码领域，具体来说是一种基于主观质量失真预测的自适应帧内宏块刷新方法。

背景技术

随着Internet和无线通信网络的迅速发展，网络视频通信已成为近年来的研究热点。主流的视频编码国际标准如MPEG-2、MPEG-4以及H.261、H.263和H.264都采用了时域空域预测技术和可变长熵编码技术来提高编码效率，所以编码视频数据对信息损失和信道误码非常敏感，在视频数据发生包丢失或比特错误的情况下容易发生错误在时间和空间上延续和扩散的现象，导致解码端的重建视频质量急剧下降。而且，通常通信信道状态还具有可变性，如误码率、丢包率、带宽和延迟等等都是时变的，在无线信道中尤其显著。这些使得编码视频码流的抗误码能力成为了视频编码领域急需考虑的问题之一。帧内宏块刷新是一种能提高视频流容错性的有效技术，因为帧内宏块刷新不使用参考帧，切断了视频码率在时间上的依赖，从而遏制了错误在时间上的扩散。但是也因为不使用参考帧来消除时间冗余，过多的帧内宏块会使码率急剧增加而影响编码效率，同时也会增加编码端的通信延时。因此，给定目标比特码率下，如何判决帧内宏块刷新的位置和频率，从而在编码效率和容错性之间取得平衡就显得十分重要。

而且，人眼是视频图像的最终接收端，所以视频图像主观质量为图像编码的最终评价标准。在视频应用中，肤色区域，如人的脸部和手部等区域，是人眼关注的区域。R.-L.Hsu和M.Abdel-Mottaleb于2002年在文献[1]R.-L.Hsu，M.Abdel-Mottaleb，A.K.Jain.Face detection in color images.IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24(5)：696-706.中提出的椭圆肤色区域检测模型基于视频编码常用的YCbCr颜色空间，具有使用简单和高效的特点，是应用较广泛的肤色检测模型。运动是另外一个人眼注意的因素。人眼对运动区域比静止区域要敏感，而且全局运动时，运动速度快的区域比运动速度慢的区域敏感。Liu在文献[2]Y.Liu，Z.G.Li，Y.C.Soh.A novel rate control scheme for low delayvideo communication of H.264/AVC standard.IEEE Transactions on Circuitsand Systems for Video Technology，2007，17(1)：68-78.中使用空域和时域的MAD(Mean Absolute Difference)值来预测图像的运动复杂度。

另外，人眼对同一图像中的不同位置区域的关注度也不一样。Lee等在文献[3]S.Lee，M.S.Pattichis，A.C.Bovik.Foveated video qualityassessment.IEEE Transactions on Multimedia，2002，4(1)：129-132.中提出视网膜中央凹的光感受器随着离心度的增大，其密度会快速下降。观察图像时，通常图像的中央区域先受到关注。

发明内容

本发明提供了一种基于主观质量失真预测的自适应帧内宏块刷新方法，主要是结合视觉感知模型和无线信道状态信息，预测视频编码图像主观质量失真；最后根据视频编码图像主观质量失真预测值，自适应设定强制帧内宏块刷新的位置，从而达到编码效率和容错性之间的平衡，提高传输后的视频编码主观图像质量。

一种基于主观质量失真预测的自适应帧内宏块刷新方法，包括以下步骤：

1.输入视频图像，并将输入的视频图像划分成宏块。

2.从网络传输的物理层获取当前输入的视频图像码流传输信道的状态信息，包括当前信道的误码率和丢包率。因为实时传输协议可以动态测量当前传输信道的状态信息。

3.从输入的视频图像中提取视觉感知权重图。

视觉感知权重图由肤色权重、运动权重和空间位置权重三个因素构成，先分别计算输入视频图像每个宏块的肤色权重图、运动权重图和空间位置权重图，然后再根据当前输入的视频图像的场景对应的影响因素，给肤色权重、运动权重和空间位置权重每个因素分别赋以对应的权值，并将加权后的肤色权重、运动权重和空间位置权重累加，得到总体的视频图像的视觉感知权重图。

4.据宏块编码比特长度和信道状态信息构建以宏块为单位的视频图像的误码概率图。

5.结合视频图像的视觉权重图和误码概率图，对视频图像的宏块进行主观质量失真预测。

当前帧视频图像数据在传输时出错后，解码端通常利用前一帧视频图像的信息来重建当前帧视频图像，根据当前输入的视频图像和前一帧输入的视频图像的差，结合宏块视觉权重图和误码概率图，预测当前宏块地主观质量失真。

6.根据视频图像的宏块主观质量失真预测，强制执行宏块刷新判决。

统计视频图像的同一坐标位置的宏块的累积主观质量失真预测值，当视频图像的某一坐标位置的宏块失真预测累积值达到或超过经验阈值Δ_n，Δ_n取0.5时，判定该坐标位置的宏块刷新判决为帧内编码模式，强制执行宏块刷新判决，设置编码器中该坐标位置的宏块的编码模式为帧内编码模式，切断编码码流在时间上的依赖，提高码流的容错性。

本发明自适应帧内宏块刷新方法综合考虑了视频图像内容和信道状态信息两个因素，通过对视频编码图像主观质量的预测，自适应判决帧内宏块刷新的位置和频率，达到了视频编码效率和码流容错性之间的平衡，从而提高所传输视频图像的整体主观质量。

附图说明

图1为本发明方法所在系统的结构示意图；

图2为本发明方法流程图；

图3为本发明所采用的肤色权重算法流程图；

图4为本发明所采用的运动权重算法流程图；

图5为本发明所采用的空间位置权重算法流程图；

图6为本发明所采用的误码概率算法流程图。

具体实施方式

下面结合附图对本发明一种基于主观质量失真预测的自适应帧内宏块刷新方法通过实施例进行详细说明。

如图1所示，本发明方法所在系统工作流程如下：

视频图像输入至视频编码器中；

视频编码器根据本发明方法一种基于主观质量失真预测的自适应帧内宏块刷新方法得到判决结果选择视频图像的编码模式；

编码完成后编码码流送入至编码码流缓存区等待发送；

发送端将编码码流发送后通过传输信道传输；

接收端收到编码码流后将编码码流送入至解码码流缓存区等待解码；

解码器对收到的编码码流进行解码；解码后的视频图像输出。

如图2所示，所述基于主观质量失真预测的自适应帧内宏块刷新方法包括以下步骤：

1.输入视频图像，将输入的视频图像按宏块进行划分。

2.从网络传输的物理层获取当前输入的视频图像码流传输信道的状态信息，包括当前信道的误码率和丢包率等，因为实时传输协议可以动态测量当前传输信道的状态信息。

3.从输入的视频图像中提取视觉感知权重图。

视觉感知权重图由肤色权重、运动权重和空间位置权重三个因素构成，先分别计算输入视频图像的肤色权重图、运动权重图和空间位置权重图，然后再根据当前输入的视频图像的场景对应的影响因素，给每个因素赋以对应的权值，并将三者累加，得到总体的视觉感知权重图。

如图3所示，视频图像的肤色权重计算步骤如下：

1)输入视频图像，并将视频图像转换到YCbCr颜色空间；

采用基于YCbCr颜色空间的椭圆肤色检测模型从视频输入图像中检测出肤色区域；

2)将输入的视频图像按宏块划分，以宏块为单位，统计每个宏块中肤色区域，得到每个宏块的肤色权重；

3)设宏块肤色权重的经验阈值为64，将每个宏块的肤色权重与经验阈值比较，令大于经验阈值的宏块肤色权重值为1，小于经验阈值的宏块肤色权重值设为0，将视频图像的肤色权重二值化，对照相应宏块的坐标生成以宏块为单位的视频图像的肤色权重图。

如图4所示，视频图像的运动权重计算步骤如下：

1)输入视频图像，将输入的视频图像按宏块进行划分；

计算输入的当前帧视频图像的每个宏块和输入的前一帧视频输入图像的每个宏块中的象素的平均绝对偏差(MAD)，得到宏块MAD值；

2)计算输入的当前帧视频图像和输入的前一帧视频图像所有象素整体的平均绝对偏差(MAD)，得到全局MAD值；

3)将每个宏块的宏块MAD值除以全局MAD值，得到的结果为每个宏块的运动权值，对照相应宏块的坐标生成以宏块为单位的视频图像的运动权重图。

如图5所示，视频图像的空间位置权重计算步骤如下：

1)输入视频图像，将输入的视频图像按宏块进行划分；

按照人眼视网膜中央凹原理生成对应的空间位置权重分布图；

2)根据输入视频图像的分辨率选择空间位置权重分布图，对照相应宏块的坐标得到以宏块为单位的视频图像的空间位置权重图。

生成三个因素对应的感知权重图后，根据当前视频输入图像场景对应的影响因素，每个因素赋以对应的权值，然后将三者累加，得到总体的视觉感知权重图。计算式(1)所示：

Wp_mb(i，j，n)＝w_sp_s(i，j，n)+w_mp_m(i，j，n)+w_fovp_fov(i，j，n) (1)

式中(i，j，n)表示第n帧视频图像中的宏块坐标，左上角第一个宏块为(0，0)起始坐标，横坐标向右，纵坐标向下，一直到右下角最后一个宏块，Wp_mb表示宏块的视觉感知权重，w_s，w_m，w_fov分别表示肤色、运动和空间位置三个要素的权重，不同的场景取值不同。当视频图像处于运动场景时，三个要素权重的取值为：w_s＝2，w_m＝2，w_fov＝1；当视频图像处于静止场景时，三个要素权重的取值为：w_s＝2，w_m＝1，w_fov＝1。p_s表示以宏块为单位的肤色视觉权重值，p_m表示以宏块为单位的运动视觉权重值，p_fov以宏块为单位的空间位置视觉权重值。

4.据宏块编码比特长度和信道状态信息构建以宏块为单位的视频图像的误码概率图；

具体过程如图6所示：

1)统计视频图像各宏块的比特长度；

2)从网络层获取当前信道的预测误码率；

3)根据式(2)计算宏块的误码概率，得到误码概率图；

P_mb(i，j，n)＝S(i，j，n)p_BER (2)

式中P_mb表示宏块的丢包和误码概率，S(i，j，n)表示宏块的编码比特长度，p_BER表示当前通信信道的误码率。

1)首先根据式(3)计算当前输入视频图像和前一帧重建视频图像象素差的绝对值，如下式所示：

D_{mb} (i, j, n) = \frac{1}{256} | \hat{B} (i, j, n) - \hat{B} (i, j, n - 1) | - - - (3)

式中D_mb表示宏块的失真预测，

表示一个宏块的原始图像象素值。

2)然后从视频图像的感知权重图和误码概率图中获取对应的感知权重和误码概率，生成主观质量失真预测值，如下式所示：

D_{ep_mb}(i，j，n)＝Wp_mb(i，j，n)D_mb(i，j，n)P_mb(i，j，n)

式中：D_{ep_mb}表示宏块的主观质量失真预测，Wp_mb表示宏块的视觉感知权重，D_mb表示宏块的失真预测，P_mb表示宏块的误比特率。

6.根据宏块主观质量失真预测，强制执行宏块刷新判决；

根据式(4)统计同一坐标位置的宏块的累积主观质量失真预测值；

Σ_{m = n_{0}}^{n} D_{ep_mb} (i, j, m) &GreaterEqual; Δ_{n} - - - (4)

式中，n₀表示该位置宏块最后一次INTRA编码的帧序号，该位置宏块每次INTRA编码后，累积主观质量失真预测值就清零，重新开始计算，n表示该位置宏块当前帧序号，m是公式表达所需的中间变量，表示从n₀到n中间的值。

当某一坐标位置的失真预测累积值达到或超过经验阈值Δ_n，Δ_n取0.5时，该坐标位置的宏块刷新判决为帧内编码模式，强制执行宏块刷新判决，设置编码器中该坐标位置的宏块的编码模式为帧内编码模式，切断编码码流在时间上的依赖，提高码流的容错性。

Claims

1.一种基于主观质量失真预测的自适应帧内宏块刷新方法，包括以下步骤：

(1)输入视频图像，将输入的视频图像划分成宏块；

(2)从网络传输的物理层获取当前输入的视频图像码流传输信道的状态信息，包括当前信道的误码率和丢包率；

(3)从输入的视频图像中提取视觉感知权重图；

(4)根据视频图像的宏块编码比特长度和当前输入的视频图像码流传输信道的状态信息构建以宏块为单位的视频图像的误码概率图；

(5)结合视频图像的视觉感知权重图和误码概率图，对视频图像进行主观质量失真预测；

(6)根据视频图像主观质量失真预测，强制执行宏块刷新判决；

统计视频图像的同一坐标位置的宏块的累积主观质量失真预测值，当视频图像的某一坐标位置的宏块的累积主观质量失真预测值达到或超过经验阈值Δ_n时，该坐标位置的宏块刷新判决为帧内编码模式，强制执行宏块刷新判决，设置编码器中该坐标位置的宏块的编码模式为帧内编码模式。

2.根据权利要求1所述的自适应帧内宏块刷新方法，其特征在于，所述的视觉感知权重图由肤色权重、运动权重和空间位置权重三个因素构成，视觉感知权重图的计算方法如下：

先分别计算输入的视频图像每个宏块的肤色权重图、运动权重图和空间位置权重图，然后再根据当前输入的视频图像的场景对应的影响因素，给肤色权重、运动权重和空间位置权重每个因素分别赋以对应的权值，并将加权后的肤色权重、运动权重和空间位置权重累加，得到总体的视频图像的视觉感知权重图。

3.根据权利要求1所述的自适应帧内宏块刷新方法，其特征在于，所述的累积主观质量失真预测值的经验阈值Δ_n取0.5。