CN102164281B

CN102164281B - 一种基于视觉显著度模型的视频编码码率控制方法

Info

Publication number: CN102164281B
Application number: CN 201110078756
Authority: CN
Inventors: 胡瑞敏; 阮若林; 陈皓; 夏洋; 王中元; 胡金晖
Original assignee: Wuhan University WHU
Current assignee: Kean electric Polytron Technologies Inc
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2012-08-08
Anticipated expiration: 2031-03-30
Also published as: CN102164281A

Abstract

本发明涉及视频通信技术领域，尤其涉及一种基于视觉显著度模型的视频编码码率控制方法。本发明根据视频图像自身的特性和人眼视觉感知特性对视频图像进行显著度建模，并根据该模型提取视频场景的显著度区域；结合视频场景显著度区域的大小改进H.264现有的帧级码率分配机制，计算分配当前帧的目标比特率；在宏块级码率分配中，结合当前编码宏块的纹理信息丰富程度、运动剧烈程度和宏块的显著度建立基于显著度模型的宏块级码率分配机制；重复上述步骤，直至当前帧编码完毕。本发明根据人眼视觉的选择注意机制和视频场景的显著度显著进行码率分配，符合人眼视觉的编码特性。本发明在码率受限的情况下可以获得更好的的主观视频图像质量。

Description

一种基于视觉显著度模型的视频编码码率控制方法

技术领域

本发明涉及视频通信技术领域，尤其涉及一种基于视觉显著度模型的视频编码码率控制方法。

背景技术

视频编码的目的就是要用尽可能低的码率获得尽可能高的用户感受质量，视频编码码率控制机制是根据传输信道的速率和缓冲区的大小来动态调节编码宏块的编码参数，以充分利用所提供的网络资源，并在防止拥塞发生的情况下有效保证用户获得最佳的主客观感受质量。传统的码率分配都是根据图像内容的复杂程度进行比特分配，但是并未考虑人眼视觉对图像的显著程度，因而导致在码率受限的情况下许多图像中重要的区域由于没有得到充分的码率资源而模糊不清。因此，利用人眼视觉特性结合视频图像自身特点建模进行码率分配机制的研究具有重要意义。

发明内容

针对上述存在的技术问题，本发明的目的是提供一种基于视觉显著度模型的视频编码码率控制方法，在码率受限的情况下有效保证视频场景中显著度区域的主观质量，根据视频图像自身特性和人眼视觉相关特性建立基于视觉显著度模型来指导视频编码码率分配，提高码率受限情况下显著度区域的主观图像质量。

为达到上述目的，本发明采用如下的技术方案：

(1)根据Itti等人2003年在48届SPIE年会论文集中发表的文章“Realistic avatar eye andhead animation using a neurobiological model of visual attention”中提出的视觉显著度模型，融合视频图像自身特性，建立修正的显著度计算模型，计算像素点的显著度值SM：SM＝λ₁·I+λ₂·C+λ₃·F+λ₄·O+λ₅·M

其中，λ₁，λ₂，λ₃，λ₄，λ₅为对应的加权系数，此处均取值为1，I、C、F、O、M分别代表图像强度、颜色、闪烁、方向、运动特性对应的显著度子图；

(2)根据显著度计算模型得到的融合显著度图提取当前帧的显著度区域，记为ROA(frm_i)，并计算显著度区域ROA(frm_i)的大小；

(3)根据视频帧的显著度区域改进H264现有的帧级码率分配机制，重新计算当前帧的目标比特数；

(4)计算在考虑实际带宽条件的当前帧目标比特数R′(frm_i)：

R^{'} ({frm}_{i}) = \frac{R}{f} + γ (Tbl (i) - Buffer (i))

其中R是可用信道带宽，f是帧率，γ是常数，其典型值在B帧时为0.5，否则为0.25，Tbl(i)是目标比特流，Buffer(i)是缓冲区大小；

(5)计算在考虑GOP剩余比特数的当前帧目标比特数R″(frm_i)：

R^{''} ({frm}_{i}) = \frac{W_{p} (n_{i}) T_{r} (n_{i, j})}{W_{p} (n_{i}) N_{p, r} + W_{b} (n_{i}) N_{b, r}}

其中W_p(n_i)为P帧的复杂度，W_b(n_i)为B帧的复杂度，T_r(n_i，j)为剩余比特，N_p，r和N_b，r分别是剩余的P帧和B帧数；

(6)根据R′(frm_i)和R″(frm_i)，考虑前、后帧显著度区域大小，计算当前帧目标比特数R(frm_i)：

R ({frm}_{i}) = [β * R^{''} ({frm}_{i}) + (1 - β) R^{'} ({frm}_{i})] * \frac{ROA ({frm}_{i})}{ROA ({frm}_{i - 1})}

其中β是为常数，其典型值在B时为0.5，否则为0.9，ROA(frm_i-1)是前一帧的显著度区域；

(7)根据宏块像素的显著度值计算得到的整个宏块的显著度值SM(MB_i)，利用SM(MB_i)和宏块的MAD值MAD(MB_i)计算宏块的复杂度MAD_SM(MB_i)：

MAD_SM(MB_i)＝SM(MB_i)*MAD(MB_i)；

(8)根据宏块的复杂度MAD_SM(MB_i)建立全局优化的宏块级码率分配模型，计算当前宏块的比特数R(MB_i)：

R ({MB}_{i}) = [\frac{R ({frm}_{i})}{N_{mb}} - m_{head}] * \frac{{MAD}_{SM} ({MB}_{i})}{\underset{k &Element; [1, N_{mb}]}{Σ} {MAD}_{SM} ({MB}_{k})}

其中N_mb一帧中宏块的数目，m_head头信息所占的比特数；

(9)重复步骤(7)～(8)，若是最后一个宏块，则更新码率控制模型的参数，结束操作。

本发明具有以下优点和积极效果：

本发明与H.264/中采用的技术相对照，效果是积极且明显的；提高了解码图像的主观质量特别是视频图像的显著度区域的主观质量。

附图说明

图1是本发明提供的基于视觉显著度模型的视频编码码率控制方法的流程图。

具体实施方式

一种基于视觉显著度模型的视频编码码率控制方法，其特征在于：先根据视频图像自身的特性和人眼视觉感知特性对视频图像进行显著度建模，并根据该模型提取视频场景的显著度区域；其次，结合视频场景显著度区域的大小改进H.264现有的帧级码率分配机制，计算分配当前帧的目标比特率；然后，在宏块级码率分配中，结合当前编码宏块的纹理信息丰富程度、运动剧烈程度和宏块的显著度建立基于显著度模型的宏块级码率分配机制，最后，重复上述步骤，直至当前帧编码完毕，具体步骤如下：

(1)根据Itti等人2003年在48届SPIE年会论文集中发表的文章“Realistic avatar eye andhead animation using a neurobiological model ofvisual attention”中提出的视觉显著度模型，利用图像自身的强度、颜色、闪烁、方向、运动等特性，分别计算得到各种显著度子图，最后融合这五种特性的显著度子图得到融合的显著度图，计算得到像素点的显著度值SM：SM＝λ₁·I+λ₂·C+λ₃·F+λ₄·O+λ₅·M

(4)计算在考虑实际带宽条件的当前帧目标比特数R′(frm_i)：

R^{'} ({frm}_{i}) = \frac{R}{f} + γ (Tbl (i) - Buffer (i))

其中R是可用信道带宽，f是编码帧率，γ是常数，其典型值在B帧时为0.5，否则为0.25，Tbl(i)是目标比特流，Buffer(i)是缓冲区大小；

(5)计算在考虑GOP(图像组)剩余比特数的当前帧目标比特数R″(frm_i)：

R^{''} ({frm}_{i}) = \frac{W_{p} (n_{i}) T_{r} (n_{i, j})}{W_{p} (n_{i}) N_{p, r} + W_{b} (n_{i}) N_{b, r}}

其中W_p(n_i)为P帧的复杂度，W_b(n_i)为B帧的复杂度，T_r(n_i，j)为剩余比特，N_p，r和N_b，r分别是GOP中剩余的P帧和B帧数；

R ({frm}_{i}) = [β * R^{''} ({frm}_{i}) + (1 - β) R^{'} ({frm}_{i})] * \frac{ROA ({frm}_{i})}{ROA ({frm}_{i - 1})}

其中β是为常数，其典型值在B时为0.5，否则为0.9，ROA(frm_i-1)是前一帧的显著度区域大小；

(7)根据宏块像素的显著度值计算得到的整个宏块的显著度值，记为SM(MB_i)，并根据宏块的SM(MB_i)和MAD(MB_i)(宏块的MAD值)计算宏块的复杂度，记为MAD_SM(MB_i)：

MAD_SM(MB_i)＝SM(MB_i)*MAD(MB_i)；

(8)根据宏块的复杂度MAD_SM(MB_i)建立全局优化的宏块级码率分配模型，计算当前宏块的比特数，记为R(MB_i)：

R ({MB}_{i}) = [\frac{R ({frm}_{i})}{N_{mb}} - m_{head}] * \frac{{MAD}_{SM} ({MB}_{i})}{\underset{k &Element; [1, N_{mb}]}{Σ} {MAD}_{SM} ({MB}_{k})}

其中N_mb一帧中宏块的数目，m_head头信息所占的比特数；

本发明与H.264/中采用的技术相对照，效果是积极且明显的；提高解码图像的主观质量特别是视频图像的显著度区域的主观质量。

实施例

本实施例采用H264/AVC的参考软件JM12.2作为编解码器，视频传输采用3GPP/3GPP2无线IP信道，以下为本发明实施例的具体步骤：

(1)根据Itti等人2003年在48届SPIE年会论文集中发表的文章“Realistic avatar eye andhead animation using a neurobiological model of visual attention”中提出的视觉显著度模型，利用图像自身的强度、颜色、闪烁、方向、运动等特性，分别计算得到各种显著度子图，最后融合这五种特性的显著度子图得到融合的显著度图，计算得到像素点的显著度值SM：SM＝λ₁·I+λ₂·C+λ₃·F+λ₄·O+λ₅·M

(4)计算在考虑实际带宽条件的当前帧目标比特数R′(frm_i)：

R^{'} ({frm}_{i}) = \frac{R}{f} + γ (Tbl (i) - Buffer (i))

R^{''} ({frm}_{i}) = \frac{W_{p} (n_{i}) T_{r} (n_{i, j})}{W_{p} (n_{i}) N_{p, r} + W_{b} (n_{i}) N_{b, r}}

R ({frm}_{i}) = [β * R^{''} ({frm}_{i}) + (1 - β) R^{'} ({frm}_{i})] * \frac{ROA ({frm}_{i})}{ROA ({frm}_{i - 1})}

MAD_SM(MB_i)＝SM(MB_i)*MAD(MB_i)；

R ({MB}_{i}) = [\frac{R ({frm}_{i})}{N_{mb}} - m_{head}] * \frac{{MAD}_{SM} ({MB}_{i})}{\underset{k &Element; [1, N_{mb}]}{Σ} {MAD}_{SM} ({MB}_{k})}

其中N_mb一帧中宏块的数目，m_head头信息所占的比特数；

本实施例使用的是适合无线传输的典型标准QCIF视频序列：Foreman、Carphone、Akiyo，这些视频序列是头肩系列，具有不同的纹理以及运动特征，显著区域主要集中在图像的中央。编码器的主要参数为：编码模式为IPPP，编码帧率为15frame/s，视频序列的编码帧数均为100帧，不使用多参考帧运动预测，每个视频数据包的大小限定为100个字节。实验采用了ITU推荐的3G无线视频通用测试环境，使用误码模式文件来模拟实际信道的比特误码，其中Foreman和Carphone序列使用比特率为128kbit/s、误比特率为5.0×10^-4、移动速度为3km/h的误码模式文件，而Akiyo序列则使用比特率为64kbit/s、误比特率为5.1×10^-4、移动速度为3km/h的误码模式文件。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案，都落入本发明的保护范围。

Claims

1.一种基于视觉显著度模型的视频编码码率控制方法，其特征在于，包括以下步骤：

(1)根据Itti等人2003年在48届SPIE年会论文集中发表的文章“Realistic avatar eye andhead animation using a neurobiological model ofvisual attention”中提出的视觉显著度模型，融合视频图像自身特性，建立修正的显著度计算模型，计算像素点的显著度值SM：SM＝λ₁·I+λ₂·C+λ₃·F+λ₄·O+λ₅·M

(2)根据显著度计算模型得到的融合显著度图提取当前帧的显著度区域ROA(frm_i)；

(3)根据视频帧的显著度区域改进H.264现有的帧级码率分配机制，重新计算当前帧的目标比特数；

(4)计算在考虑实际带宽条件的当前帧目标比特数R′(frm_i)：

R^{'} ({frm}_{i}) = \frac{R}{f} + γ (Tbl (i) - Buffer (i))

(5)计算在考虑GOP图像组剩余比特数的当前帧目标比特数R″(frm_i)：

R^{''} ({frm}_{i}) = \frac{W_{p} (n_{i}) T_{r} (n_{i, j})}{W_{p} (n_{i}) N_{p, r} + W_{b} (n_{i}) N_{b, r}}

R ({frm}_{i}) = [β * R^{''} ({frm}_{i}) + (1 - β) R^{'} ({frm}_{i})] * \frac{ROA ({frm}_{i})}{ROA ({frm}_{i - 1})}

其中β是为常数，其典型值在B帧时为0.5，否则为0.9，ROA(frm_i-1)是前一帧的显著度区域；

(7)根据宏块像素的显著度值计算得到整个宏块的显著度值SM(MB_i)，利用SM(MB_i)和宏块的MAD值MAD(MB_i)计算宏块的复杂度MAD_SM(MB_i)：

MAD_SM(MB_i)＝SM(MB_i)*MAD(MB_i)；

R ({MB}_{i}) = [\frac{R ({frm}_{i})}{N_{mb}} - m_{head}] * \frac{M {AD}_{SM} ({MB}_{i})}{\underset{k &Element; [1, N_{mb}]}{Σ} {MAD}_{SM} ({MB}_{k})}

其中N_mb一帧中宏块的数目，m_head头信息所占的比特数；