CN103024387A

CN103024387A - 一种基于感知的多视点视频码率控制方法

Info

Publication number: CN103024387A
Application number: CN2012105483589A
Authority: CN
Inventors: 蒋刚毅; 廖义; 郁梅; 彭宗举; 邵枫
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2013-04-03
Anticipated expiration: 2032-12-17
Also published as: CN103024387B

Abstract

本发明公开了一种基于感知的多视点视频码率控制方法，特点是通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制，在视点层，采用预先编码一个图像组的方式来确定各视点间的比特分配；在图像组层，根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数；在帧层，根据预测的复杂度确定每帧的目标比特数；在宏块层，根据视觉感知特性修改率失真模型，确定宏块的比特分配；优点是通过本发明的码率控制方法后有效地提高了视频质量的稳定性和视觉敏感区域的质量，在视觉最敏感的区域的峰值信噪比提高了0.18～0.54dB，主观效果也明显提高。

Description

一种基于感知的多视点视频码率控制方法

技术领域

本发明涉及一种多视点视频码率控制技术，尤其是涉及一种基于感知的多视点视频码率控制方法。

背景技术

多视点视频是由多个摄像机从不同视点拍摄同一场景得到的一组视频信号，它能够提供给用户以视点的选择和场景的交互，满足人们对立体感和真实性的视觉需求。作为新一代网络多媒体的发展方向，它将应用于自由视点视频、立体电视、立体视频会议、多视点视频点播等领域。然而，多视点视频巨大的数据量，已成为制约其广泛应用的瓶颈，为此，联合视频组（JVT,Joint Video Team）提出了多视点视频编码MVC(Multi-viewVideo Coding)的概念，之后它又发布了联合多视点视频编码平台JMVC(Joint Multi-viewVideo)，将其作为MVC性能的公共测试平台。JMVC测试模型采用了分层B帧编码结构，通过参考帧控制模块进行运动估计和视差估计，极大地提高了多视点视频编码效率，但是JMVC尚未给出码率控制模型。码率控制通过调整量化参数使编码比特数符合信道的传输，故码率分配又称比特分配。

目前，已有学者基于JMVC平台提出了多视点视频编码的码率控制，但是他们并没有考虑分层B帧的特殊结构，也没有充分考虑人眼视觉特性，这种编码的码率控制精度不够高，导致编码出来的视频质量的稳定性不够高，且视觉敏感区域的质量也不够高。

发明内容

本发明所要解决的技术问题是提供一种在保证码率控制精度的前提下，能够有效地提高视频质量的稳定性和视觉敏感区域质量的多视点视频码率控制方法。

本发明解决上述技术问题所采用的技术方案为：一种基于感知的多视点视频码率控制方法，通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制，在视点层，采用预先编码一个图像组的方式来确定各视点间的比特分配；在图像组层，根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数；在帧层，根据预测的复杂度确定每帧的目标比特数；在宏块层，根据视觉感知特性修改率失真模型，确定宏块的比特分配，具体包括以下步骤：

①．以多视点相机拍摄得到的YUV序列作为编码对象，YUV序列由3个颜色分量组成，其中Y表示亮度值，U和V分别表示第一色度和第二色度，用来描述色彩及饱和度；

②．根据人眼对前景区域和运动区域的敏感性对预编码的YUV序列提取视觉注意力模型，将每个场景分为4类区域，分别标记出其对于人眼的重要程度；

③．对各视点都先编码一个图像组，获取各视点图像组之间消耗比特的比例，将获取到的各视点图像组之间消耗比特的比例作为各视点之间比特分配的比例；

④．根据当前视点的可用信道带宽和当前视点的编码初始参数信息，对第i个图像组的目标比特数和第i个图像组的初始量化参数进行计算，令T_r(i,0)表示开始编码第i个图像组前总的目标比特数，则

T_{r} (i, 0) = \frac{u (i, 0)}{F_{r}} \times N_{gop} - (\frac{B_{s}}{8} - B_{c} (i - 1, N_{gop})),

u(i,0)表示编码第i个图像组时可用的信道带宽，F_r表示视频帧率，N_gop表示一个图像组中的帧数，B_s表示缓冲区的初始大小，B_c(i-1,N_gop)表示编码完第(i-1)个图像组后的缓冲区饱和度；第i个图像组的初始量化参数记为QP(i,0)，则

QP (i, 0) = \frac{{Sum}_{QB}}{N_{B}} - 1 - \frac{{8 T}_{r} (i - 1, N_{gop})}{T_{r} (i, 0)} - \frac{N_{gop}}{15},

其中，Sum_QB表示前一个图像组中所有B帧的量化参数的和，N_B为前一个图像组中B帧的总数，T_r(i-1,N_gop)是编码完第(i-1)个图像组后的剩余比特数，T_r(i,0)表示开始编码第i个图像组前总的目标比特数，N_gop表示一个图像组中的帧数；

⑤．根据当前图像组中缓冲区占用度、当前图像组中剩余比特数和当前图像组中每帧的复杂度来分配当前图像组中每帧的目标比特数；

⑥．根据当前帧中的剩余比特数和当前帧中每个宏块的复杂度，计算当前帧中每个宏块的目标比特数和当前帧中每个宏块的量化参数，并根据步骤②中划分的不同区域，修改编码宏块模式选择率失真代价函数，确定当前帧中每个宏块的比特分配；

⑦．返回步骤⑤继续执行，直至当前图像组中的所有帧完成比特分配；

⑧．返回步骤④继续执行，直至当前视点中的所有图像组完成比特分配；

⑨．返回步骤③继续执行，直至所有视点完成比特分配。

步骤②的具体过程为：

②-1．用深度估计软件DERS5.1求取YUV序列对应的深度序列，前景即深度值较小的区域，背景即深度值较大的区域；令前景和背景两个类别的均方差记为g(t)，则g(t)=w₀(t)×w₁(t)×[u₀(t)-u₁(t)]²，其中t表示一个动态变化的深度值，w₀(t)表示前景区域占整个场景的比例，w₁(t)表示背景区域占整个场景的比例，u₀(t)表示前景亮度值的平均值，u₁(t)表示背景亮度值的平均值；对t属于[0,255]范围内的深度值进行遍历，将g(t)取得最大值时的t值定义为第一阈值Th₁，将深度值大于第一阈值Th₁的像素点划分为前景区域，否则划分为背景区域；

②-2．对YUV序列，令D(j,n)表示第j帧第n个宏块与第j-1帧第n个宏块的亮度值之差，则

D (j, n) = \frac{1}{256} Σ_{h = 0}^{15} Σ_{w = 0}^{15} [I_{(j, n)} (w, h) - I_{(j - 1, n)} (w, h)],

其中I_(j，n)(w,h)表示第j帧第n个宏块中像素位置为(w,h)的亮度值，I_(j-1，n)(w,h)表示第j-1帧第n个宏块中像素位置为(w,h)的亮度值，当D(j,n)大于预先设定的第二阈值Th₂时，判定当前宏块为一个运动宏块，否则为静止宏块；同时，在一个宏块中，如果运动像素的个数少于5个则判定为静止区域；如果一个运动宏块周围全部为静止宏块，说明该运动宏块对于全局不够明显，则也判定为静止区域；

②-3．根据步骤②-1和步骤②-2的划分规则，将场景分为4类区域：前景运动区、前景静止区、背景运动区、背景静止区，其对于人眼重要程度分别标记为P=3、P=2、P=2、P=1。

步骤⑤的具体过程为：

⑤-1．根据编码完第(i-1)个图像组后的缓冲区的占用度，计算第i个图像组第j帧的第一候选目标比特数，记为

则

\tilde{f} (i, j) = \frac{u (i, 0)}{F_{r}} + γ \times (Tbl (i, j) - B_{c} (i, j)),

其中u(i,0)表示编码第i个图像组时可用的信道带宽，F_r表示视频帧率，Tbl(i,j)表示缓冲区的目标饱和度，B_c(i,j)表示缓冲区的实际饱和度，γ取常数0.75；

⑤-2．在恒定带宽的情况下，编码第i个图像组第j帧前的目标比特数T_r(i,j)需进行逐帧更新，T_r(i,j)=T_r(i,j-1)-A(i,j-1)，其中j>0，T_r(i,j-1)表示编码第i个图像组第j-1帧前的目标比特数，A(i,j-1)表示编码第i个图像组的第j-1帧消耗的比特数；

⑤-3．根据当前图像组中剩余比特数T_r(i,j)和当前图像组中第j帧的预测复杂度计算第i个图像组第j帧的第二候选目标比特数，令R_r1为第j帧的前向参考帧消耗的比特数，P_r1为第j帧的前向参考帧的峰值信噪比，R_r2为第j帧的后向参考帧消耗的比特数，P_r2为第j帧的后向参考帧的峰值信噪比，将第i个图像组第j帧的预测复杂度记为C(i,j)，则令第i个图像组第j帧的第二候选目标比特数为

则

\hat{f} (i, j) = \frac{C (i, j)}{C (i, j) + C_{ave} (i, j) \times N_{RB}} \times T_{r} (i, j),

其中，C_ave(i,j)表示已编码B帧的预测复杂度的平均值，N_RB表示未编码的B帧数目；

⑤-4．将步骤⑤-1中求取的第i个图像组第j帧的第一候选目标比特数和步骤⑤-3中求取的第i个图像组第j帧的第二候选目标比特数

进行加权，获取第i个图像组第j帧的目标比特数，记为f(i,j)，

f (i, j) = β \times \hat{f} (i, j) + (1 - β) \times \tilde{f} (i, j),

其中β取常数0.9。

步骤⑥的具体过程为：

⑥-1．获取第j帧第n个宏块的目标比特数，记为f_mb(j,n)，其中T_mb(j,n)表示编码第j帧第n个宏块前该帧中的剩余比特数，MAD(j,n)表示第j帧中第n个宏块的复杂度，MAD(j,k)表示第j帧中第k个宏块的复杂度，n≤k≤N_mb，N_mb表示一帧中宏块的数目；

⑥-2．根据二次率失真模型计算第j帧第n个宏块的量化步长，记为Q_step(j,n)，

f_{mb} (j, n) = a_{1} \times \frac{MAD (j, n)}{Q_{step} (j, n)} + a_{2} \times \frac{MAD (j, n)}{{Q_{step}}^{2} (j, n)},

其中f_mb(j,n)表示第j帧第n个宏块的目标比特数，a₁、a₂表示二次率失真模型的参数，从而计算出Q_step(j,n)，再根据量化参数与量化步长之间的关系计算出第j帧中第n个宏块的量化参数QP(j,n)，QP(j,n)=4+6log₂Q_step(j,n)；

⑥-3．在编码宏块模式选择率失真代价函数中，记第j帧第n个宏块的拉格朗日参数为λ_Mode(j,n)，取

λ_{Mode} (j, n) = 0.85 \times α_{P} (j, n) \times (1 + β_{P} (j, n)) \times 2^{\frac{QP (j, n) - 12}{3}},

其中α_P(j,n)表示步骤②-3中标记的对于人眼重要程度P的值对λ_Mode(j,n)的加权系数，且α_P(j,n)的值随着P的值变化而变化，β_P(j,n)表示对于人眼重要程度P的值所对应的区域占第j帧的比例，QP(j,n)表示第j帧中第n个宏块的量化参数；

⑥-4．为防止各类型区域的码率分配偏差过大引起块效应，对第j帧中第n个宏块的量化参数QP(j,n)做范围限制，令

QP (j, n) = \max {\overset{&OverBar;}{QP} - 2, \min {QP (j, n), \overset{&OverBar;}{QP} + 2}},

其中

表示紧邻第j帧第n个宏块的左上方、正上方、右上方和左边的四个已编码宏块的量化参数的平均值；

⑥-5．对当前帧中的下一个宏块重复执行步骤⑥-1到⑥-4，直至当前帧中所有宏块完成编码。

与现有技术相比，本发明的优点在于本发明针对多视点视频编码分层B帧的特殊结构，在总码率限制的条件下，在帧层根据两个参考帧的信息进行复杂度预测，使场景较复杂的帧得到了更多的比特，从而使视频质量更加稳定；本发明在宏块层根据人眼对运动区域和前景区域较敏感的特性，对人眼较敏感的区域多分配码率（比特），不太敏感的区域少分配码率（比特），同时合理地对目标码率进行控制，在保证码率控制精度的前提下，大大提高了视觉敏感区域的主观质量和客观评价指标峰值信噪比；实验结果表明，与原始方法相比，整体视频质量较稳定，在视觉最敏感的区域的峰值信噪比提高了0.18~0.54dB，主观效果也明显提高。

附图说明

图1为本发明方法的总体实现框图；

图2为多视点视频分层B帧的结构示意图；

图3a为Leavelaptop序列第5视点的彩色图像；

图3b为Leavelaptop序列第6视点的彩色图像；

图3c为Leavelaptop序列第7视点的彩色图像；

图4a为Breakdancers序列第0视点的彩色图像；

图4b为Breakdancers序列第1视点的彩色图像；

图4c为Breakdancers序列第2视点的彩色图像；

图5a为Ballet序列第4视点的彩色图像；

图5b为Ballet序列第5视点的彩色图像；

图5c为Ballet序列第6视点的彩色图像；

图6a为Breakdancers序列的3个视点各编码一个图像组消耗比特的比例的统计图；

图6b为Breakdancers序列的3个视点各编码81帧消耗比特的比例的统计图；

图7a为Ballet序列的3个视点各编码一个图像组消耗比特的比例的统计图；

图7b为Ballet序列的3个视点各编码81帧消耗比特的比例的统计图；

图8为Leavelaptop序列的P=3区域的峰值信噪比波动图；

图9为Breakdancers序列的P=3区域的峰值信噪比波动图；

图10为Ballet序列的P=3区域的峰值信噪比波动图；

图11a为Leavelaptop序列的原始方法的重构图像；

图11b为Leavelaptop序列的本发明方法的重构图像；

图11c为Leavelaptop序列的原始方法的重构图像局部区域；

图11d为Leavelaptop序列的本发明方法的重构图像局部区域；

图12a为Breakdancers序列的原始方法的重构图像；

图12b为Breakdancers序列的本发明方法的重构图像；

图12c为Breakdancers序列的原始方法的重构图像局部区域；

图12d为Breakdancers序列的本发明方法的重构图像局部区域；

图13a为Ballet序列的原始方法的重构图像；

图13b为Ballet序列的本发明方法的重构图像；

图13c为Ballet序列的原始方法的重构图像局部区域；

图13d为Ballet序列的本发明方法的重构图像局部区域。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种基于感知的多视点视频码率控制方法，其总体实现框图如图1所示，通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制，在视点层，采用预编码一个图像组的方式来确定各视点间的比特分配；在图像组层，根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数；在帧层，根据预测的复杂度确定每帧的目标比特数；在宏块层，根据视觉感知特性修改率失真模型，确定宏块的比特分配。

图2给出了多视点视频分层B帧的结构示意图，图中水平方向表示各帧所处的不同时间，垂直方向表示各帧所处的不同视点，视点分为3类：I-view、B-view和P-view；图像组长度取定值8，每个图像组的第一帧为关键帧。

本发明的具体步骤如下：

在本实施例中，采用德国HHI实验室提供的三维视频测试序列“LeaveLaptop”和美国微软提供的三维视频测试序列“Breakdancers”、“Ballet”；编码各序列时，将“LeaveLaptop”序列的第5、6、7视点分别做为I-view、B-view和P-view，将“Breakdancers”序列的第0、1、2视点分别做为I-view、B-view和P-view，将“Ballet”序列的第4、5、6视点分别做为I-view、B-view和P-view；图3a、图3b和图3c分别给出了“LeaveLaptop”的第5视点、第6视点和第7视点的彩色图像；图4a、图4b和图4c分别给出了“Breakdancers”的第0视点、第1视点和第2视点的彩色图像；图5a、图5b和图5c分别给出了“Ballet”的第4视点、第5视点和第6视点的彩色图像；

②．根据人眼对前景区域和运动区域的敏感性对预编码的YUV序列提取视觉注意力模型，将每个场景分为4类区域，分别标记出其对于人眼的重要程度，其具体过程为：

D (j, n) = \frac{1}{256} Σ_{h = 0}^{15} Σ_{w = 0}^{15} [I_{(j, n)} (w, h) - I_{(j - 1, n)} (w, h)],

其中I_(j，n)(w,h)表示第j帧第n个宏块中像素位置为(w,h)的亮度值，I_(j-1，n)(w,h)表示第j-1帧第n个宏块中像素位置为(w,h)的亮度值，当D(j,n)大于预先设定的第二阈值Th₂时，判定当前宏块为一个运动宏块，否则为静止宏块，其中第二阈值Th₂=2.5；同时，在一个宏块中，如果运动像素的个数少于5个则判定为静止区域；如果一个运动宏块周围全部为静止宏块，说明该运动宏块对于全局不够明显，则也判定为静止区域；

②-3．根据步骤②-1和步骤②-2的划分规则，将场景分为4类区域：前景运动区、前景静止区、背景运动区、背景静止区，其对于人眼重要程度分别标记为P=3、P=2、P=2、P=1；

③．对各视点都先编码一个图像组，获取的各视点图像组之间消耗比特的比例情况如图6a、6b和图7a、7b所示，可以看出，各视点图像组之间消耗比特的比例与编码81帧消耗比特的比例基本一致；而且，在不同量化参数下，该比例基本保持不变，因此将获取到的各视点图像组之间消耗比特的比例作为各视点之间比特分配的比例；

T_{r} (i, 0) = \frac{u (i, 0)}{F_{r}} \times N_{gop} - (\frac{B_{s}}{8} - B_{c} (i - 1, N_{gop})),

QP (i, 0) = \frac{{Sum}_{QB}}{N_{B}} - 1 - \frac{{8 T}_{r} (i - 1, N_{gop})}{T_{r} (i, 0)} - \frac{N_{gop}}{15},

⑤．根据当前图像组中缓冲区占用度、当前图像组中剩余比特数和当前图像组中每帧的复杂度来分配当前图像组中每帧的目标比特数，其具体过程为：

则

\tilde{f} (i, j) = \frac{u (i, 0)}{F_{r}} + γ \times (Tbl (i, j) - B_{c} (i, j)),

则

\hat{f} (i, j) = \frac{C (i, j)}{C (i, j) + C_{ave} (i, j) \times N_{RB}} \times T_{r} (i, j),

⑤-4．将步骤⑤-1中求取的第i个图像组第j帧的第一候选目标比特数

和步骤⑤-3中求取的第i个图像组第j帧的第二候选目标比特数

f (i, j) = β \times \hat{f} (i, j) + (1 - β) \times \tilde{f} (i, j),

其中β取常数0.9；

⑥．根据当前帧中的剩余比特数和当前帧中每个宏块的复杂度，计算当前帧中每个宏块的目标比特数和当前帧中每个宏块的量化参数，并根据步骤②中划分的不同区域，修改编码宏块模式选择率失真代价函数，确定当前帧中每个宏块的比特分配，其具体过程为：

f_{mb} (j, n) = a_{1} \times \frac{MAD (j, n)}{Q_{step} (j, n)} + a_{2} \times \frac{MAD (j, n)}{{Q_{step}}^{2} (j, n)},

λ_{Mode} (j, n) = 0.85 \times α_{P} (j, n) \times (1 + β_{P} (j, n)) \times 2^{\frac{QP (j, n) - 12}{3}},

其中α_P(j,n)表示步骤②-3中标记的对于人眼重要程度P的值对λ_Mode(j,n)的加权系数，β_P(j,n)表示对于人眼重要程度P的值所对应的区域占第j帧的比例，QP(j,n)表示第j帧中第n个宏块的量化参数；

QP (j, n) = \max {\overset{&OverBar;}{QP} - 2, \min {QP (j, n), \overset{&OverBar;}{QP} + 2}},

其中表示紧邻第j帧第n个宏块的左上方、正上方、右上方和左边的四个已编码宏块的量化参数的平均值；

⑥-5．对当前帧中的下一个宏块重复执行步骤⑥-1到⑥-4，直至当前帧中所有宏块完成编码；

⑨．返回步骤③继续执行，直至所有视点完成比特分配。

以下就利用本发明方法对“LeaveLaptop”、“Breakdancers”和“Ballet”序列的控制性能进行比较。

将采用本发明方法的控制性能与原始方法的控制性能进行对比。原始方法是将JVT-G012算法拓展到JMVC7.0平台上，不做其他任何改进。先利用多级固定QP(22,27,32,37)进行编码获得开启码率控制后所需的目标码率，再对本发明方法与原始方法进行实验比较，共编码81帧，实验结果如表1所示，其中码率控制精度即实际码率相对于目标码率的偏差，记为RCE，

其中R_target和R_actual分别表示目标码率和实际码率。

从表1可以看出，原始方法的控制精度在1.03%之内，而本发明方法控制精度在1.01%之内，平均控制精度两者基本一致，且都在有效控制范围。同时，对P=3区域的峰值信噪比进行了对比，本发明方法在该区域的平均峰值信噪比比原始方法提高了0.18~0.54dB，在低码率情况下该效果更加明显，这是由于在视觉敏感区域分配了更多的码率（比特）。图8、9、10分别给出了3个序列在编码后P=3区域（即前景运动区）的峰值信噪比波动，由于本发明方法根据帧层复杂度进行了码率分配，故峰值信噪比曲线波动幅度更小，即质量更稳定，且本发明方法的峰值信噪比曲线一直处于原始方法之上，说明本发明方法的视觉敏感区域质量明显好于原始方法。从图11a~d可以看出，原始方法中人物失真较明显，本发明方法中人物的脸部和衣服比原始方法更加清晰，从图12a~d可看出，原始方法中该舞者的手臂和衣服都有较明显的锯齿状，而本发明方法中边缘质量更好，图13a~d中从芭蕾演员整体效果看，本发明方法都好于原始方法。这是由于本发明方法对于人眼比较敏感的运动区域和前景区域分配了更多的比特，主观质量明显提高了很多。而且，虽然本发明方法对各区域进行有差别的比特分配，但并没有因此而产生块效应的情况。

表1 本发明方法与原始方法的码率控制精度和P=3区域的峰值信噪比比较

Claims

1.一种基于感知的多视点视频码率控制方法，其特征在于通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制，在视点层，采用预先编码一个图像组的方式来确定各视点间的比特分配；在图像组层，根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数；在帧层，根据预测的复杂度确定每帧的目标比特数；在宏块层，根据视觉感知特性修改率失真模型，确定宏块的比特分配，具体包括以下步骤：

T_{r} (i, 0) = \frac{u (i, 0)}{F_{r}} \times N_{gop} - (\frac{B_{s}}{8} - B_{c} (i - 1, N_{gop})),

u(i,0)表示编码第i个图像组时可用的信道带宽，F_r表示视频帧率，N_gop表示一个图像组中的帧数，Bs表示缓冲区的初始大小，B_c(i-1,N_gop)表示编码完第(i-1)个图像组后的缓冲区饱和度；第i个图像组的初始量化参数记为QP(i,0)，则

QP (i, 0) = \frac{{Sum}_{QB}}{N_{B}} - 1 - \frac{{8 T}_{r} (i - 1, N_{gop})}{T_{r} (i, 0)} - \frac{N_{gop}}{15},

⑨．返回步骤③继续执行，直至所有视点完成比特分配。

2.如权利要求1所述的一种基于感知的多视点视频码率控制方法，其特征在于所述的步骤②的具体过程为：

D (j, n) = \frac{1}{256} Σ_{h = 0}^{15} Σ_{w = 0}^{15} [I_{(j, n)} (w, h) - I_{(j - 1, n)} (w, h)],

3.如权利要求1所述的一种基于感知的多视点视频码率控制方法，其特征在于所述的步骤⑤的具体过程为：

则

\tilde{f} (i, j) = \frac{u (i, 0)}{F_{r}} + γ \times (Tbl (i, j) - B_{c} (i, j)),

⑤-3．根据当前图像组中剩余比特数T_r(i,j)和当前图像组中第j帧的预测复杂度计算第i个图像组第j帧的第二候选目标比特数，令R_r1为第j帧的前向参考帧消耗的比特数，P_r1为第j帧的前向参考帧的峰值信噪比，R_r2为第j帧的后向参考帧消耗的比特数，P_r2为第j帧的后向参考帧的峰值信噪比，将第i个图像组第j帧的预测复杂度记为C(i,j)，则

令第i个图像组第j帧的第二候选目标比特数为

则

\hat{f} (i, j) = \frac{C (i, j)}{C (i, j) + C_{ave} (i, j) \times N_{RB}} \times T_{r} (i, j),

f (i, j) = β \times \hat{f} (i, j) + (1 - β) \times \tilde{f} (i, j),

其中β取常数0.9。

4.如权利要求1所述的一种基于感知的多视点视频码率控制方法，其特征在于所述的步骤⑥的具体过程为：

⑥-1．获取第j帧第n个宏块的目标比特数，记为f_mb(j,n)，

其中T_mb(j,n)表示编码第j帧第n个宏块前该帧中的剩余比特数，MAD(j,n)表示第j帧中第n个宏块的复杂度，MAD(j,k)表示第j帧中第k个宏块的复杂度，n≤k≤N_mb，N_mb表示一帧中宏块的数目；

f_{mb} (j, n) = a_{1} \times \frac{MAD (j, n)}{Q_{step} (j, n)} + a_{2} \times \frac{MAD (j, n)}{{Q_{step}}^{2} (j, n)},

λ_{Mode} (j, n) = 0.85 \times α_{P} (j, n) \times (1 + β_{P} (j, n)) \times 2^{\frac{QP (j, n) - 12}{3}},

QP (j, n) = \max {\overset{&OverBar;}{QP} - 2, \min {QP (j, n), \overset{&OverBar;}{QP} + 2}},