CN103024387A - 一种基于感知的多视点视频码率控制方法 - Google Patents

一种基于感知的多视点视频码率控制方法 Download PDF

Info

Publication number
CN103024387A
CN103024387A CN2012105483589A CN201210548358A CN103024387A CN 103024387 A CN103024387 A CN 103024387A CN 2012105483589 A CN2012105483589 A CN 2012105483589A CN 201210548358 A CN201210548358 A CN 201210548358A CN 103024387 A CN103024387 A CN 103024387A
Authority
CN
China
Prior art keywords
frame
macro block
image sets
expression
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105483589A
Other languages
English (en)
Other versions
CN103024387B (zh
Inventor
蒋刚毅
廖义
郁梅
彭宗举
邵枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201210548358.9A priority Critical patent/CN103024387B/zh
Publication of CN103024387A publication Critical patent/CN103024387A/zh
Application granted granted Critical
Publication of CN103024387B publication Critical patent/CN103024387B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于感知的多视点视频码率控制方法,特点是通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制,在视点层,采用预先编码一个图像组的方式来确定各视点间的比特分配;在图像组层,根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数;在帧层,根据预测的复杂度确定每帧的目标比特数;在宏块层,根据视觉感知特性修改率失真模型,确定宏块的比特分配;优点是通过本发明的码率控制方法后有效地提高了视频质量的稳定性和视觉敏感区域的质量,在视觉最敏感的区域的峰值信噪比提高了0.18~0.54dB,主观效果也明显提高。

Description

一种基于感知的多视点视频码率控制方法
技术领域
本发明涉及一种多视点视频码率控制技术,尤其是涉及一种基于感知的多视点视频码率控制方法。
背景技术
多视点视频是由多个摄像机从不同视点拍摄同一场景得到的一组视频信号,它能够提供给用户以视点的选择和场景的交互,满足人们对立体感和真实性的视觉需求。作为新一代网络多媒体的发展方向,它将应用于自由视点视频、立体电视、立体视频会议、多视点视频点播等领域。然而,多视点视频巨大的数据量,已成为制约其广泛应用的瓶颈,为此,联合视频组(JVT,Joint Video Team)提出了多视点视频编码MVC(Multi-viewVideo Coding)的概念,之后它又发布了联合多视点视频编码平台JMVC(Joint Multi-viewVideo),将其作为MVC性能的公共测试平台。JMVC测试模型采用了分层B帧编码结构,通过参考帧控制模块进行运动估计和视差估计,极大地提高了多视点视频编码效率,但是JMVC尚未给出码率控制模型。码率控制通过调整量化参数使编码比特数符合信道的传输,故码率分配又称比特分配。
目前,已有学者基于JMVC平台提出了多视点视频编码的码率控制,但是他们并没有考虑分层B帧的特殊结构,也没有充分考虑人眼视觉特性,这种编码的码率控制精度不够高,导致编码出来的视频质量的稳定性不够高,且视觉敏感区域的质量也不够高。
发明内容
本发明所要解决的技术问题是提供一种在保证码率控制精度的前提下,能够有效地提高视频质量的稳定性和视觉敏感区域质量的多视点视频码率控制方法。
本发明解决上述技术问题所采用的技术方案为:一种基于感知的多视点视频码率控制方法,通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制,在视点层,采用预先编码一个图像组的方式来确定各视点间的比特分配;在图像组层,根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数;在帧层,根据预测的复杂度确定每帧的目标比特数;在宏块层,根据视觉感知特性修改率失真模型,确定宏块的比特分配,具体包括以下步骤:
①.以多视点相机拍摄得到的YUV序列作为编码对象,YUV序列由3个颜色分量组成,其中Y表示亮度值,U和V分别表示第一色度和第二色度,用来描述色彩及饱和度;
②.根据人眼对前景区域和运动区域的敏感性对预编码的YUV序列提取视觉注意力模型,将每个场景分为4类区域,分别标记出其对于人眼的重要程度;
③.对各视点都先编码一个图像组,获取各视点图像组之间消耗比特的比例,将获取到的各视点图像组之间消耗比特的比例作为各视点之间比特分配的比例;
④.根据当前视点的可用信道带宽和当前视点的编码初始参数信息,对第i个图像组的目标比特数和第i个图像组的初始量化参数进行计算,令Tr(i,0)表示开始编码第i个图像组前总的目标比特数,则 T r ( i , 0 ) = u ( i , 0 ) F r × N gop - ( B s 8 - B c ( i - 1 , N gop ) ) , u(i,0)表示编码第i个图像组时可用的信道带宽,Fr表示视频帧率,Ngop表示一个图像组中的帧数,Bs表示缓冲区的初始大小,Bc(i-1,Ngop)表示编码完第(i-1)个图像组后的缓冲区饱和度;第i个图像组的初始量化参数记为QP(i,0),则 QP ( i , 0 ) = Sum QB N B - 1 - 8 T r ( i - 1 , N gop ) T r ( i , 0 ) - N gop 15 , 其中,SumQB表示前一个图像组中所有B帧的量化参数的和,NB为前一个图像组中B帧的总数,Tr(i-1,Ngop)是编码完第(i-1)个图像组后的剩余比特数,Tr(i,0)表示开始编码第i个图像组前总的目标比特数,Ngop表示一个图像组中的帧数;
⑤.根据当前图像组中缓冲区占用度、当前图像组中剩余比特数和当前图像组中每帧的复杂度来分配当前图像组中每帧的目标比特数;
⑥.根据当前帧中的剩余比特数和当前帧中每个宏块的复杂度,计算当前帧中每个宏块的目标比特数和当前帧中每个宏块的量化参数,并根据步骤②中划分的不同区域,修改编码宏块模式选择率失真代价函数,确定当前帧中每个宏块的比特分配;
⑦.返回步骤⑤继续执行,直至当前图像组中的所有帧完成比特分配;
⑧.返回步骤④继续执行,直至当前视点中的所有图像组完成比特分配;
⑨.返回步骤③继续执行,直至所有视点完成比特分配。
步骤②的具体过程为:
②-1.用深度估计软件DERS5.1求取YUV序列对应的深度序列,前景即深度值较小的区域,背景即深度值较大的区域;令前景和背景两个类别的均方差记为g(t),则g(t)=w0(t)×w1(t)×[u0(t)-u1(t)]2,其中t表示一个动态变化的深度值,w0(t)表示前景区域占整个场景的比例,w1(t)表示背景区域占整个场景的比例,u0(t)表示前景亮度值的平均值,u1(t)表示背景亮度值的平均值;对t属于[0,255]范围内的深度值进行遍历,将g(t)取得最大值时的t值定义为第一阈值Th1,将深度值大于第一阈值Th1的像素点划分为前景区域,否则划分为背景区域;
②-2.对YUV序列,令D(j,n)表示第j帧第n个宏块与第j-1帧第n个宏块的亮度值之差,则 D ( j , n ) = 1 256 Σ h = 0 15 Σ w = 0 15 [ I ( j , n ) ( w , h ) - I ( j - 1 , n ) ( w , h ) ] , 其中I(j,n)(w,h)表示第j帧第n个宏块中像素位置为(w,h)的亮度值,I(j-1,n)(w,h)表示第j-1帧第n个宏块中像素位置为(w,h)的亮度值,当D(j,n)大于预先设定的第二阈值Th2时,判定当前宏块为一个运动宏块,否则为静止宏块;同时,在一个宏块中,如果运动像素的个数少于5个则判定为静止区域;如果一个运动宏块周围全部为静止宏块,说明该运动宏块对于全局不够明显,则也判定为静止区域;
②-3.根据步骤②-1和步骤②-2的划分规则,将场景分为4类区域:前景运动区、前景静止区、背景运动区、背景静止区,其对于人眼重要程度分别标记为P=3、P=2、P=2、P=1。
步骤⑤的具体过程为:
⑤-1.根据编码完第(i-1)个图像组后的缓冲区的占用度,计算第i个图像组第j帧的第一候选目标比特数,记为
Figure BDA00002597976800032
f ~ ( i , j ) = u ( i , 0 ) F r + γ × ( Tbl ( i , j ) - B c ( i , j ) ) , 其中u(i,0)表示编码第i个图像组时可用的信道带宽,Fr表示视频帧率,Tbl(i,j)表示缓冲区的目标饱和度,Bc(i,j)表示缓冲区的实际饱和度,γ取常数0.75;
⑤-2.在恒定带宽的情况下,编码第i个图像组第j帧前的目标比特数Tr(i,j)需进行逐帧更新,Tr(i,j)=Tr(i,j-1)-A(i,j-1),其中j>0,Tr(i,j-1)表示编码第i个图像组第j-1帧前的目标比特数,A(i,j-1)表示编码第i个图像组的第j-1帧消耗的比特数;
⑤-3.根据当前图像组中剩余比特数Tr(i,j)和当前图像组中第j帧的预测复杂度计算第i个图像组第j帧的第二候选目标比特数,令Rr1为第j帧的前向参考帧消耗的比特数,Pr1为第j帧的前向参考帧的峰值信噪比,Rr2为第j帧的后向参考帧消耗的比特数,Pr2为第j帧的后向参考帧的峰值信噪比,将第i个图像组第j帧的预测复杂度记为C(i,j),则令第i个图像组第j帧的第二候选目标比特数为
Figure BDA00002597976800042
f ^ ( i , j ) = C ( i , j ) C ( i , j ) + C ave ( i , j ) × N RB × T r ( i , j ) , 其中,Cave(i,j)表示已编码B帧的预测复杂度的平均值,NRB表示未编码的B帧数目;
⑤-4.将步骤⑤-1中求取的第i个图像组第j帧的第一候选目标比特数和步骤⑤-3中求取的第i个图像组第j帧的第二候选目标比特数
Figure BDA00002597976800045
进行加权,获取第i个图像组第j帧的目标比特数,记为f(i,j), f ( i , j ) = β × f ^ ( i , j ) + ( 1 - β ) × f ~ ( i , j ) , 其中β取常数0.9。
步骤⑥的具体过程为:
⑥-1.获取第j帧第n个宏块的目标比特数,记为fmb(j,n),其中Tmb(j,n)表示编码第j帧第n个宏块前该帧中的剩余比特数,MAD(j,n)表示第j帧中第n个宏块的复杂度,MAD(j,k)表示第j帧中第k个宏块的复杂度,n≤k≤Nmb,Nmb表示一帧中宏块的数目;
⑥-2.根据二次率失真模型计算第j帧第n个宏块的量化步长,记为Qstep(j,n), f mb ( j , n ) = a 1 × MAD ( j , n ) Q step ( j , n ) + a 2 × MAD ( j , n ) Q step 2 ( j , n ) , 其中fmb(j,n)表示第j帧第n个宏块的目标比特数,a1、a2表示二次率失真模型的参数,从而计算出Qstep(j,n),再根据量化参数与量化步长之间的关系计算出第j帧中第n个宏块的量化参数QP(j,n),QP(j,n)=4+6log2Qstep(j,n);
⑥-3.在编码宏块模式选择率失真代价函数中,记第j帧第n个宏块的拉格朗日参数为λMode(j,n),取 λ Mode ( j , n ) = 0.85 × α P ( j , n ) × ( 1 + β P ( j , n ) ) × 2 QP ( j , n ) - 12 3 , 其中αP(j,n)表示步骤②-3中标记的对于人眼重要程度P的值对λMode(j,n)的加权系数,且αP(j,n)的值随着P的值变化而变化,βP(j,n)表示对于人眼重要程度P的值所对应的区域占第j帧的比例,QP(j,n)表示第j帧中第n个宏块的量化参数;
⑥-4.为防止各类型区域的码率分配偏差过大引起块效应,对第j帧中第n个宏块的量化参数QP(j,n)做范围限制,令 QP ( j , n ) = max { QP ‾ - 2 , min { QP ( j , n ) , QP ‾ + 2 } } , 其中
Figure BDA00002597976800054
表示紧邻第j帧第n个宏块的左上方、正上方、右上方和左边的四个已编码宏块的量化参数的平均值;
⑥-5.对当前帧中的下一个宏块重复执行步骤⑥-1到⑥-4,直至当前帧中所有宏块完成编码。
与现有技术相比,本发明的优点在于本发明针对多视点视频编码分层B帧的特殊结构,在总码率限制的条件下,在帧层根据两个参考帧的信息进行复杂度预测,使场景较复杂的帧得到了更多的比特,从而使视频质量更加稳定;本发明在宏块层根据人眼对运动区域和前景区域较敏感的特性,对人眼较敏感的区域多分配码率(比特),不太敏感的区域少分配码率(比特),同时合理地对目标码率进行控制,在保证码率控制精度的前提下,大大提高了视觉敏感区域的主观质量和客观评价指标峰值信噪比;实验结果表明,与原始方法相比,整体视频质量较稳定,在视觉最敏感的区域的峰值信噪比提高了0.18~0.54dB,主观效果也明显提高。
附图说明
图1为本发明方法的总体实现框图;
图2为多视点视频分层B帧的结构示意图;
图3a为Leavelaptop序列第5视点的彩色图像;
图3b为Leavelaptop序列第6视点的彩色图像;
图3c为Leavelaptop序列第7视点的彩色图像;
图4a为Breakdancers序列第0视点的彩色图像;
图4b为Breakdancers序列第1视点的彩色图像;
图4c为Breakdancers序列第2视点的彩色图像;
图5a为Ballet序列第4视点的彩色图像;
图5b为Ballet序列第5视点的彩色图像;
图5c为Ballet序列第6视点的彩色图像;
图6a为Breakdancers序列的3个视点各编码一个图像组消耗比特的比例的统计图;
图6b为Breakdancers序列的3个视点各编码81帧消耗比特的比例的统计图;
图7a为Ballet序列的3个视点各编码一个图像组消耗比特的比例的统计图;
图7b为Ballet序列的3个视点各编码81帧消耗比特的比例的统计图;
图8为Leavelaptop序列的P=3区域的峰值信噪比波动图;
图9为Breakdancers序列的P=3区域的峰值信噪比波动图;
图10为Ballet序列的P=3区域的峰值信噪比波动图;
图11a为Leavelaptop序列的原始方法的重构图像;
图11b为Leavelaptop序列的本发明方法的重构图像;
图11c为Leavelaptop序列的原始方法的重构图像局部区域;
图11d为Leavelaptop序列的本发明方法的重构图像局部区域;
图12a为Breakdancers序列的原始方法的重构图像;
图12b为Breakdancers序列的本发明方法的重构图像;
图12c为Breakdancers序列的原始方法的重构图像局部区域;
图12d为Breakdancers序列的本发明方法的重构图像局部区域;
图13a为Ballet序列的原始方法的重构图像;
图13b为Ballet序列的本发明方法的重构图像;
图13c为Ballet序列的原始方法的重构图像局部区域;
图13d为Ballet序列的本发明方法的重构图像局部区域。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于感知的多视点视频码率控制方法,其总体实现框图如图1所示,通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制,在视点层,采用预编码一个图像组的方式来确定各视点间的比特分配;在图像组层,根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数;在帧层,根据预测的复杂度确定每帧的目标比特数;在宏块层,根据视觉感知特性修改率失真模型,确定宏块的比特分配。
图2给出了多视点视频分层B帧的结构示意图,图中水平方向表示各帧所处的不同时间,垂直方向表示各帧所处的不同视点,视点分为3类:I-view、B-view和P-view;图像组长度取定值8,每个图像组的第一帧为关键帧。
本发明的具体步骤如下:
①.以多视点相机拍摄得到的YUV序列作为编码对象,YUV序列由3个颜色分量组成,其中Y表示亮度值,U和V分别表示第一色度和第二色度,用来描述色彩及饱和度;
在本实施例中,采用德国HHI实验室提供的三维视频测试序列“LeaveLaptop”和美国微软提供的三维视频测试序列“Breakdancers”、“Ballet”;编码各序列时,将“LeaveLaptop”序列的第5、6、7视点分别做为I-view、B-view和P-view,将“Breakdancers”序列的第0、1、2视点分别做为I-view、B-view和P-view,将“Ballet”序列的第4、5、6视点分别做为I-view、B-view和P-view;图3a、图3b和图3c分别给出了“LeaveLaptop”的第5视点、第6视点和第7视点的彩色图像;图4a、图4b和图4c分别给出了“Breakdancers”的第0视点、第1视点和第2视点的彩色图像;图5a、图5b和图5c分别给出了“Ballet”的第4视点、第5视点和第6视点的彩色图像;
②.根据人眼对前景区域和运动区域的敏感性对预编码的YUV序列提取视觉注意力模型,将每个场景分为4类区域,分别标记出其对于人眼的重要程度,其具体过程为:
②-1.用深度估计软件DERS5.1求取YUV序列对应的深度序列,前景即深度值较小的区域,背景即深度值较大的区域;令前景和背景两个类别的均方差记为g(t),则g(t)=w0(t)×w1(t)×[u0(t)-u1(t)]2,其中t表示一个动态变化的深度值,w0(t)表示前景区域占整个场景的比例,w1(t)表示背景区域占整个场景的比例,u0(t)表示前景亮度值的平均值,u1(t)表示背景亮度值的平均值;对t属于[0,255]范围内的深度值进行遍历,将g(t)取得最大值时的t值定义为第一阈值Th1,将深度值大于第一阈值Th1的像素点划分为前景区域,否则划分为背景区域;
②-2.对YUV序列,令D(j,n)表示第j帧第n个宏块与第j-1帧第n个宏块的亮度值之差,则 D ( j , n ) = 1 256 Σ h = 0 15 Σ w = 0 15 [ I ( j , n ) ( w , h ) - I ( j - 1 , n ) ( w , h ) ] , 其中I(j,n)(w,h)表示第j帧第n个宏块中像素位置为(w,h)的亮度值,I(j-1,n)(w,h)表示第j-1帧第n个宏块中像素位置为(w,h)的亮度值,当D(j,n)大于预先设定的第二阈值Th2时,判定当前宏块为一个运动宏块,否则为静止宏块,其中第二阈值Th2=2.5;同时,在一个宏块中,如果运动像素的个数少于5个则判定为静止区域;如果一个运动宏块周围全部为静止宏块,说明该运动宏块对于全局不够明显,则也判定为静止区域;
②-3.根据步骤②-1和步骤②-2的划分规则,将场景分为4类区域:前景运动区、前景静止区、背景运动区、背景静止区,其对于人眼重要程度分别标记为P=3、P=2、P=2、P=1;
③.对各视点都先编码一个图像组,获取的各视点图像组之间消耗比特的比例情况如图6a、6b和图7a、7b所示,可以看出,各视点图像组之间消耗比特的比例与编码81帧消耗比特的比例基本一致;而且,在不同量化参数下,该比例基本保持不变,因此将获取到的各视点图像组之间消耗比特的比例作为各视点之间比特分配的比例;
④.根据当前视点的可用信道带宽和当前视点的编码初始参数信息,对第i个图像组的目标比特数和第i个图像组的初始量化参数进行计算,令Tr(i,0)表示开始编码第i个图像组前总的目标比特数,则 T r ( i , 0 ) = u ( i , 0 ) F r × N gop - ( B s 8 - B c ( i - 1 , N gop ) ) , u(i,0)表示编码第i个图像组时可用的信道带宽,Fr表示视频帧率,Ngop表示一个图像组中的帧数,Bs表示缓冲区的初始大小,Bc(i-1,Ngop)表示编码完第(i-1)个图像组后的缓冲区饱和度;第i个图像组的初始量化参数记为QP(i,0),则 QP ( i , 0 ) = Sum QB N B - 1 - 8 T r ( i - 1 , N gop ) T r ( i , 0 ) - N gop 15 , 其中,SumQB表示前一个图像组中所有B帧的量化参数的和,NB为前一个图像组中B帧的总数,Tr(i-1,Ngop)是编码完第(i-1)个图像组后的剩余比特数,Tr(i,0)表示开始编码第i个图像组前总的目标比特数,Ngop表示一个图像组中的帧数;
⑤.根据当前图像组中缓冲区占用度、当前图像组中剩余比特数和当前图像组中每帧的复杂度来分配当前图像组中每帧的目标比特数,其具体过程为:
⑤-1.根据编码完第(i-1)个图像组后的缓冲区的占用度,计算第i个图像组第j帧的第一候选目标比特数,记为
Figure BDA00002597976800093
f ~ ( i , j ) = u ( i , 0 ) F r + γ × ( Tbl ( i , j ) - B c ( i , j ) ) , 其中u(i,0)表示编码第i个图像组时可用的信道带宽,Fr表示视频帧率,Tbl(i,j)表示缓冲区的目标饱和度,Bc(i,j)表示缓冲区的实际饱和度,γ取常数0.75;
⑤-2.在恒定带宽的情况下,编码第i个图像组第j帧前的目标比特数Tr(i,j)需进行逐帧更新,Tr(i,j)=Tr(i,j-1)-A(i,j-1),其中j>0,Tr(i,j-1)表示编码第i个图像组第j-1帧前的目标比特数,A(i,j-1)表示编码第i个图像组的第j-1帧消耗的比特数;
⑤-3.根据当前图像组中剩余比特数Tr(i,j)和当前图像组中第j帧的预测复杂度计算第i个图像组第j帧的第二候选目标比特数,令Rr1为第j帧的前向参考帧消耗的比特数,Pr1为第j帧的前向参考帧的峰值信噪比,Rr2为第j帧的后向参考帧消耗的比特数,Pr2为第j帧的后向参考帧的峰值信噪比,将第i个图像组第j帧的预测复杂度记为C(i,j),则令第i个图像组第j帧的第二候选目标比特数为
Figure BDA00002597976800102
f ^ ( i , j ) = C ( i , j ) C ( i , j ) + C ave ( i , j ) × N RB × T r ( i , j ) , 其中,Cave(i,j)表示已编码B帧的预测复杂度的平均值,NRB表示未编码的B帧数目;
⑤-4.将步骤⑤-1中求取的第i个图像组第j帧的第一候选目标比特数
Figure BDA00002597976800104
和步骤⑤-3中求取的第i个图像组第j帧的第二候选目标比特数
Figure BDA00002597976800105
进行加权,获取第i个图像组第j帧的目标比特数,记为f(i,j), f ( i , j ) = β × f ^ ( i , j ) + ( 1 - β ) × f ~ ( i , j ) , 其中β取常数0.9;
⑥.根据当前帧中的剩余比特数和当前帧中每个宏块的复杂度,计算当前帧中每个宏块的目标比特数和当前帧中每个宏块的量化参数,并根据步骤②中划分的不同区域,修改编码宏块模式选择率失真代价函数,确定当前帧中每个宏块的比特分配,其具体过程为:
⑥-1.获取第j帧第n个宏块的目标比特数,记为fmb(j,n),其中Tmb(j,n)表示编码第j帧第n个宏块前该帧中的剩余比特数,MAD(j,n)表示第j帧中第n个宏块的复杂度,MAD(j,k)表示第j帧中第k个宏块的复杂度,n≤k≤Nmb,Nmb表示一帧中宏块的数目;
⑥-2.根据二次率失真模型计算第j帧第n个宏块的量化步长,记为Qstep(j,n), f mb ( j , n ) = a 1 × MAD ( j , n ) Q step ( j , n ) + a 2 × MAD ( j , n ) Q step 2 ( j , n ) , 其中fmb(j,n)表示第j帧第n个宏块的目标比特数,a1、a2表示二次率失真模型的参数,从而计算出Qstep(j,n),再根据量化参数与量化步长之间的关系计算出第j帧中第n个宏块的量化参数QP(j,n),QP(j,n)=4+6log2Qstep(j,n);
⑥-3.在编码宏块模式选择率失真代价函数中,记第j帧第n个宏块的拉格朗日参数为λMode(j,n),取 λ Mode ( j , n ) = 0.85 × α P ( j , n ) × ( 1 + β P ( j , n ) ) × 2 QP ( j , n ) - 12 3 , 其中αP(j,n)表示步骤②-3中标记的对于人眼重要程度P的值对λMode(j,n)的加权系数,βP(j,n)表示对于人眼重要程度P的值所对应的区域占第j帧的比例,QP(j,n)表示第j帧中第n个宏块的量化参数;
⑥-4.为防止各类型区域的码率分配偏差过大引起块效应,对第j帧中第n个宏块的量化参数QP(j,n)做范围限制,令 QP ( j , n ) = max { QP ‾ - 2 , min { QP ( j , n ) , QP ‾ + 2 } } , 其中表示紧邻第j帧第n个宏块的左上方、正上方、右上方和左边的四个已编码宏块的量化参数的平均值;
⑥-5.对当前帧中的下一个宏块重复执行步骤⑥-1到⑥-4,直至当前帧中所有宏块完成编码;
⑦.返回步骤⑤继续执行,直至当前图像组中的所有帧完成比特分配;
⑧.返回步骤④继续执行,直至当前视点中的所有图像组完成比特分配;
⑨.返回步骤③继续执行,直至所有视点完成比特分配。
以下就利用本发明方法对“LeaveLaptop”、“Breakdancers”和“Ballet”序列的控制性能进行比较。
将采用本发明方法的控制性能与原始方法的控制性能进行对比。原始方法是将JVT-G012算法拓展到JMVC7.0平台上,不做其他任何改进。先利用多级固定QP(22,27,32,37)进行编码获得开启码率控制后所需的目标码率,再对本发明方法与原始方法进行实验比较,共编码81帧,实验结果如表1所示,其中码率控制精度即实际码率相对于目标码率的偏差,记为RCE,
Figure BDA00002597976800115
其中Rtarget和Ractual分别表示目标码率和实际码率。
从表1可以看出,原始方法的控制精度在1.03%之内,而本发明方法控制精度在1.01%之内,平均控制精度两者基本一致,且都在有效控制范围。同时,对P=3区域的峰值信噪比进行了对比,本发明方法在该区域的平均峰值信噪比比原始方法提高了0.18~0.54dB,在低码率情况下该效果更加明显,这是由于在视觉敏感区域分配了更多的码率(比特)。图8、9、10分别给出了3个序列在编码后P=3区域(即前景运动区)的峰值信噪比波动,由于本发明方法根据帧层复杂度进行了码率分配,故峰值信噪比曲线波动幅度更小,即质量更稳定,且本发明方法的峰值信噪比曲线一直处于原始方法之上,说明本发明方法的视觉敏感区域质量明显好于原始方法。从图11a~d可以看出,原始方法中人物失真较明显,本发明方法中人物的脸部和衣服比原始方法更加清晰,从图12a~d可看出,原始方法中该舞者的手臂和衣服都有较明显的锯齿状,而本发明方法中边缘质量更好,图13a~d中从芭蕾演员整体效果看,本发明方法都好于原始方法。这是由于本发明方法对于人眼比较敏感的运动区域和前景区域分配了更多的比特,主观质量明显提高了很多。而且,虽然本发明方法对各区域进行有差别的比特分配,但并没有因此而产生块效应的情况。
表1 本发明方法与原始方法的码率控制精度和P=3区域的峰值信噪比比较

Claims (4)

1.一种基于感知的多视点视频码率控制方法,其特征在于通过对视点层、图像组层、帧层、宏块层这四个层次分别进行码率控制,在视点层,采用预先编码一个图像组的方式来确定各视点间的比特分配;在图像组层,根据分层B帧的结构特点计算图像组的目标比特数和初始量化参数;在帧层,根据预测的复杂度确定每帧的目标比特数;在宏块层,根据视觉感知特性修改率失真模型,确定宏块的比特分配,具体包括以下步骤:
①.以多视点相机拍摄得到的YUV序列作为编码对象,YUV序列由3个颜色分量组成,其中Y表示亮度值,U和V分别表示第一色度和第二色度,用来描述色彩及饱和度;
②.根据人眼对前景区域和运动区域的敏感性对预编码的YUV序列提取视觉注意力模型,将每个场景分为4类区域,分别标记出其对于人眼的重要程度;
③.对各视点都先编码一个图像组,获取各视点图像组之间消耗比特的比例,将获取到的各视点图像组之间消耗比特的比例作为各视点之间比特分配的比例;
④.根据当前视点的可用信道带宽和当前视点的编码初始参数信息,对第i个图像组的目标比特数和第i个图像组的初始量化参数进行计算,令Tr(i,0)表示开始编码第i个图像组前总的目标比特数,则 T r ( i , 0 ) = u ( i , 0 ) F r × N gop - ( B s 8 - B c ( i - 1 , N gop ) ) , u(i,0)表示编码第i个图像组时可用的信道带宽,Fr表示视频帧率,Ngop表示一个图像组中的帧数,Bs表示缓冲区的初始大小,Bc(i-1,Ngop)表示编码完第(i-1)个图像组后的缓冲区饱和度;第i个图像组的初始量化参数记为QP(i,0),则 QP ( i , 0 ) = Sum QB N B - 1 - 8 T r ( i - 1 , N gop ) T r ( i , 0 ) - N gop 15 , 其中,SumQB表示前一个图像组中所有B帧的量化参数的和,NB为前一个图像组中B帧的总数,Tr(i-1,Ngop)是编码完第(i-1)个图像组后的剩余比特数,Tr(i,0)表示开始编码第i个图像组前总的目标比特数,Ngop表示一个图像组中的帧数;
⑤.根据当前图像组中缓冲区占用度、当前图像组中剩余比特数和当前图像组中每帧的复杂度来分配当前图像组中每帧的目标比特数;
⑥.根据当前帧中的剩余比特数和当前帧中每个宏块的复杂度,计算当前帧中每个宏块的目标比特数和当前帧中每个宏块的量化参数,并根据步骤②中划分的不同区域,修改编码宏块模式选择率失真代价函数,确定当前帧中每个宏块的比特分配;
⑦.返回步骤⑤继续执行,直至当前图像组中的所有帧完成比特分配;
⑧.返回步骤④继续执行,直至当前视点中的所有图像组完成比特分配;
⑨.返回步骤③继续执行,直至所有视点完成比特分配。
2.如权利要求1所述的一种基于感知的多视点视频码率控制方法,其特征在于所述的步骤②的具体过程为:
②-1.用深度估计软件DERS5.1求取YUV序列对应的深度序列,前景即深度值较小的区域,背景即深度值较大的区域;令前景和背景两个类别的均方差记为g(t),则g(t)=w0(t)×w1(t)×[u0(t)-u1(t)]2,其中t表示一个动态变化的深度值,w0(t)表示前景区域占整个场景的比例,w1(t)表示背景区域占整个场景的比例,u0(t)表示前景亮度值的平均值,u1(t)表示背景亮度值的平均值;对t属于[0,255]范围内的深度值进行遍历,将g(t)取得最大值时的t值定义为第一阈值Th1,将深度值大于第一阈值Th1的像素点划分为前景区域,否则划分为背景区域;
②-2.对YUV序列,令D(j,n)表示第j帧第n个宏块与第j-1帧第n个宏块的亮度值之差,则 D ( j , n ) = 1 256 Σ h = 0 15 Σ w = 0 15 [ I ( j , n ) ( w , h ) - I ( j - 1 , n ) ( w , h ) ] , 其中I(j,n)(w,h)表示第j帧第n个宏块中像素位置为(w,h)的亮度值,I(j-1,n)(w,h)表示第j-1帧第n个宏块中像素位置为(w,h)的亮度值,当D(j,n)大于预先设定的第二阈值Th2时,判定当前宏块为一个运动宏块,否则为静止宏块;同时,在一个宏块中,如果运动像素的个数少于5个则判定为静止区域;如果一个运动宏块周围全部为静止宏块,说明该运动宏块对于全局不够明显,则也判定为静止区域;
②-3.根据步骤②-1和步骤②-2的划分规则,将场景分为4类区域:前景运动区、前景静止区、背景运动区、背景静止区,其对于人眼重要程度分别标记为P=3、P=2、P=2、P=1。
3.如权利要求1所述的一种基于感知的多视点视频码率控制方法,其特征在于所述的步骤⑤的具体过程为:
⑤-1.根据编码完第(i-1)个图像组后的缓冲区的占用度,计算第i个图像组第j帧的第一候选目标比特数,记为
Figure FDA00002597976700031
f ~ ( i , j ) = u ( i , 0 ) F r + γ × ( Tbl ( i , j ) - B c ( i , j ) ) , 其中u(i,0)表示编码第i个图像组时可用的信道带宽,Fr表示视频帧率,Tbl(i,j)表示缓冲区的目标饱和度,Bc(i,j)表示缓冲区的实际饱和度,γ取常数0.75;
⑤-2.在恒定带宽的情况下,编码第i个图像组第j帧前的目标比特数Tr(i,j)需进行逐帧更新,Tr(i,j)=Tr(i,j-1)-A(i,j-1),其中j>0,Tr(i,j-1)表示编码第i个图像组第j-1帧前的目标比特数,A(i,j-1)表示编码第i个图像组的第j-1帧消耗的比特数;
⑤-3.根据当前图像组中剩余比特数Tr(i,j)和当前图像组中第j帧的预测复杂度计算第i个图像组第j帧的第二候选目标比特数,令Rr1为第j帧的前向参考帧消耗的比特数,Pr1为第j帧的前向参考帧的峰值信噪比,Rr2为第j帧的后向参考帧消耗的比特数,Pr2为第j帧的后向参考帧的峰值信噪比,将第i个图像组第j帧的预测复杂度记为C(i,j),则
Figure FDA00002597976700033
令第i个图像组第j帧的第二候选目标比特数为
Figure FDA00002597976700034
f ^ ( i , j ) = C ( i , j ) C ( i , j ) + C ave ( i , j ) × N RB × T r ( i , j ) , 其中,Cave(i,j)表示已编码B帧的预测复杂度的平均值,NRB表示未编码的B帧数目;
⑤-4.将步骤⑤-1中求取的第i个图像组第j帧的第一候选目标比特数和步骤⑤-3中求取的第i个图像组第j帧的第二候选目标比特数
Figure FDA00002597976700037
进行加权,获取第i个图像组第j帧的目标比特数,记为f(i,j), f ( i , j ) = β × f ^ ( i , j ) + ( 1 - β ) × f ~ ( i , j ) , 其中β取常数0.9。
4.如权利要求1所述的一种基于感知的多视点视频码率控制方法,其特征在于所述的步骤⑥的具体过程为:
⑥-1.获取第j帧第n个宏块的目标比特数,记为fmb(j,n),
Figure FDA00002597976700041
其中Tmb(j,n)表示编码第j帧第n个宏块前该帧中的剩余比特数,MAD(j,n)表示第j帧中第n个宏块的复杂度,MAD(j,k)表示第j帧中第k个宏块的复杂度,n≤k≤Nmb,Nmb表示一帧中宏块的数目;
⑥-2.根据二次率失真模型计算第j帧第n个宏块的量化步长,记为Qstep(j,n), f mb ( j , n ) = a 1 × MAD ( j , n ) Q step ( j , n ) + a 2 × MAD ( j , n ) Q step 2 ( j , n ) , 其中fmb(j,n)表示第j帧第n个宏块的目标比特数,a1、a2表示二次率失真模型的参数,从而计算出Qstep(j,n),再根据量化参数与量化步长之间的关系计算出第j帧中第n个宏块的量化参数QP(j,n),QP(j,n)=4+6log2Qstep(j,n);
⑥-3.在编码宏块模式选择率失真代价函数中,记第j帧第n个宏块的拉格朗日参数为λMode(j,n),取 λ Mode ( j , n ) = 0.85 × α P ( j , n ) × ( 1 + β P ( j , n ) ) × 2 QP ( j , n ) - 12 3 , 其中αP(j,n)表示步骤②-3中标记的对于人眼重要程度P的值对λMode(j,n)的加权系数,且αP(j,n)的值随着P的值变化而变化,βP(j,n)表示对于人眼重要程度P的值所对应的区域占第j帧的比例,QP(j,n)表示第j帧中第n个宏块的量化参数;
⑥-4.为防止各类型区域的码率分配偏差过大引起块效应,对第j帧中第n个宏块的量化参数QP(j,n)做范围限制,令 QP ( j , n ) = max { QP ‾ - 2 , min { QP ( j , n ) , QP ‾ + 2 } } , 其中表示紧邻第j帧第n个宏块的左上方、正上方、右上方和左边的四个已编码宏块的量化参数的平均值;
⑥-5.对当前帧中的下一个宏块重复执行步骤⑥-1到⑥-4,直至当前帧中所有宏块完成编码。
CN201210548358.9A 2012-12-17 2012-12-17 一种基于感知的多视点视频码率控制方法 Expired - Fee Related CN103024387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210548358.9A CN103024387B (zh) 2012-12-17 2012-12-17 一种基于感知的多视点视频码率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210548358.9A CN103024387B (zh) 2012-12-17 2012-12-17 一种基于感知的多视点视频码率控制方法

Publications (2)

Publication Number Publication Date
CN103024387A true CN103024387A (zh) 2013-04-03
CN103024387B CN103024387B (zh) 2015-12-09

Family

ID=47972460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210548358.9A Expired - Fee Related CN103024387B (zh) 2012-12-17 2012-12-17 一种基于感知的多视点视频码率控制方法

Country Status (1)

Country Link
CN (1) CN103024387B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414889A (zh) * 2013-04-09 2013-11-27 宁波大学 一种基于双目恰可察觉失真的立体视频码率控制方法
CN103596012A (zh) * 2013-11-14 2014-02-19 山东电子职业技术学院 一种实时的基于avs的视频帧率转码中帧间宏块类型选择方法
CN103634602A (zh) * 2013-11-09 2014-03-12 郑州大学 基于QoE控制的计算量可感知的运动估计算法
CN104065962A (zh) * 2013-10-28 2014-09-24 四川大学 基于视觉注意的宏块层比特分配优化方法
CN106303530A (zh) * 2016-10-20 2017-01-04 北京工业大学 一种融合视觉感知特性的码率控制方法
CN106454388A (zh) * 2016-09-20 2017-02-22 北京百度网讯科技有限公司 一种用于确定直播设置信息的方法与设备
CN106502854A (zh) * 2016-12-26 2017-03-15 北京大华杰康科技有限公司 一种动感平台体感模拟逼真度的评估装置
CN108810530A (zh) * 2018-07-12 2018-11-13 珠海亿智电子科技有限公司 一种基于人眼视觉系统的avc码率控制方法
CN108848378A (zh) * 2018-07-02 2018-11-20 辽宁磐石人工智能科技有限公司 智能实时图像压缩算法及装置
CN109218710A (zh) * 2018-09-11 2019-01-15 宁波大学 一种自由视点视频质量评估方法
CN110708570A (zh) * 2019-10-21 2020-01-17 腾讯科技(深圳)有限公司 视频的编码码率确定方法、装置、设备及存储介质
CN112887725A (zh) * 2021-01-19 2021-06-01 珠海全志科技股份有限公司 参考帧缓存数据压缩方法、计算机装置及计算机可读存储介质
CN113556544A (zh) * 2021-06-30 2021-10-26 北京锐马视讯科技有限公司 基于场景自适应的视频编码方法和装置、设备及存储介质
CN114466189A (zh) * 2021-12-27 2022-05-10 浙江大华技术股份有限公司 码率控制方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080187052A1 (en) * 2007-02-05 2008-08-07 Kengo Terada Video coding device, video recording device, video coding method, and video coding program
CN101534432A (zh) * 2009-04-09 2009-09-16 上海广电(集团)有限公司中央研究院 基于人眼感知模型的码率控制方法
CN101674472A (zh) * 2009-09-25 2010-03-17 上海大学 多视点视频编码的多级码率控制方法
US20100183233A1 (en) * 2004-05-10 2010-07-22 Seiko Epson Corporation Image data compression device, encoder, electronic equipment and method of compressing image data
CN102164281A (zh) * 2011-03-30 2011-08-24 武汉大学 一种基于视觉显著度模型的视频编码码率控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100183233A1 (en) * 2004-05-10 2010-07-22 Seiko Epson Corporation Image data compression device, encoder, electronic equipment and method of compressing image data
US20080187052A1 (en) * 2007-02-05 2008-08-07 Kengo Terada Video coding device, video recording device, video coding method, and video coding program
CN101534432A (zh) * 2009-04-09 2009-09-16 上海广电(集团)有限公司中央研究院 基于人眼感知模型的码率控制方法
CN101674472A (zh) * 2009-09-25 2010-03-17 上海大学 多视点视频编码的多级码率控制方法
CN102164281A (zh) * 2011-03-30 2011-08-24 武汉大学 一种基于视觉显著度模型的视频编码码率控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FENG SHAO 等: "Asymmetric Coding of Multi-View Video Plus Depth Based 3-D Video for View Rendering", 《IEEE TRANSACTIONS ON MULTIMEDIA, IEEE TRANSACTIONS ON》, 23 September 2011 (2011-09-23) *
朱高锋 等: ""基于统计分析的多视点彩色和深度编码的码率控制算法"", 《2011年亚太青年通信学术会议(APYCC2011)论文集 》, 7 August 2011 (2011-08-07) *
李振纲 等: ""面向多视点视频编码的宏块级码率控制"", 《应用科学学报》, vol. 27, no. 5, 30 September 2009 (2009-09-30) *
杨文成 等: ""多视点视频编码中的码率控制技术研究"", 《中国电子学会第十八届信息论学术年会论文集 》, 4 November 2011 (2011-11-04) *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103414889B (zh) * 2013-04-09 2016-06-22 宁波大学 一种基于双目恰可察觉失真的立体视频码率控制方法
CN103414889A (zh) * 2013-04-09 2013-11-27 宁波大学 一种基于双目恰可察觉失真的立体视频码率控制方法
CN104065962A (zh) * 2013-10-28 2014-09-24 四川大学 基于视觉注意的宏块层比特分配优化方法
CN104065962B (zh) * 2013-10-28 2017-03-08 四川大学 基于视觉注意的宏块层比特分配优化方法
CN103634602A (zh) * 2013-11-09 2014-03-12 郑州大学 基于QoE控制的计算量可感知的运动估计算法
CN103634602B (zh) * 2013-11-09 2017-03-15 郑州大学 基于QoE控制的计算量可感知的运动估计算法
CN103596012B (zh) * 2013-11-14 2017-05-10 山东电子职业技术学院 一种实时的基于avs的视频帧率转码中帧间宏块类型选择方法
CN103596012A (zh) * 2013-11-14 2014-02-19 山东电子职业技术学院 一种实时的基于avs的视频帧率转码中帧间宏块类型选择方法
CN106454388A (zh) * 2016-09-20 2017-02-22 北京百度网讯科技有限公司 一种用于确定直播设置信息的方法与设备
CN106454388B (zh) * 2016-09-20 2019-08-16 北京百度网讯科技有限公司 一种用于确定直播设置信息的方法与设备
CN106303530A (zh) * 2016-10-20 2017-01-04 北京工业大学 一种融合视觉感知特性的码率控制方法
CN106303530B (zh) * 2016-10-20 2020-09-25 北京工业大学 一种融合视觉感知特性的码率控制方法
CN106502854A (zh) * 2016-12-26 2017-03-15 北京大华杰康科技有限公司 一种动感平台体感模拟逼真度的评估装置
CN108848378A (zh) * 2018-07-02 2018-11-20 辽宁磐石人工智能科技有限公司 智能实时图像压缩算法及装置
CN108810530A (zh) * 2018-07-12 2018-11-13 珠海亿智电子科技有限公司 一种基于人眼视觉系统的avc码率控制方法
CN109218710A (zh) * 2018-09-11 2019-01-15 宁波大学 一种自由视点视频质量评估方法
CN109218710B (zh) * 2018-09-11 2019-10-08 宁波大学 一种自由视点视频质量评估方法
CN110708570A (zh) * 2019-10-21 2020-01-17 腾讯科技(深圳)有限公司 视频的编码码率确定方法、装置、设备及存储介质
CN112887725A (zh) * 2021-01-19 2021-06-01 珠海全志科技股份有限公司 参考帧缓存数据压缩方法、计算机装置及计算机可读存储介质
CN113556544A (zh) * 2021-06-30 2021-10-26 北京锐马视讯科技有限公司 基于场景自适应的视频编码方法和装置、设备及存储介质
CN113556544B (zh) * 2021-06-30 2024-04-19 北京锐马视讯科技有限公司 基于场景自适应的视频编码方法和装置、设备及存储介质
CN114466189A (zh) * 2021-12-27 2022-05-10 浙江大华技术股份有限公司 码率控制方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN103024387B (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN103024387B (zh) 一种基于感知的多视点视频码率控制方法
CN104539962B (zh) 一种融合视觉感知特征的可分层视频编码方法
CN106604031A (zh) 一种基于兴趣区域的h.265视频质量提升方法
CN106162167B (zh) 基于学习的高效视频编码方法
CN103561266B (zh) 基于对数r-q模型和层次化比特分配的码率控制方法
CN101309422B (zh) 宏块级量化参数处理方法及装置
CN101888566B (zh) 立体视频编码率失真性能估计方法
CN102970540B (zh) 基于关键帧码率-量化模型的多视点视频码率控制方法
CN101404766B (zh) 一种多视点视频信号的编码方法
CN105049850A (zh) 基于感兴趣区域的hevc码率控制方法
CN101729891B (zh) 一种多视点深度视频的编码方法
CN103634601B (zh) 基于结构相似度的高效视频编码感知码率控制优化方法
CN104994382B (zh) 一种感知率失真的优化方法
CN103957410B (zh) 一种基于残差频域复杂度的i帧码率控制方法
CN101572806B (zh) 一种基于h.264的i帧码率控制方法
CN106303530A (zh) 一种融合视觉感知特性的码率控制方法
CN102137258B (zh) 一种立体视频码率控制方法
CN102801996B (zh) 基于jndd模型的快速深度图编码模式选择方法
CN100581265C (zh) 一种多视点视频的处理方法
CN108810530A (zh) 一种基于人眼视觉系统的avc码率控制方法
CN102164281B (zh) 一种基于视觉显著度模型的视频编码码率控制方法
CN105049866A (zh) 基于绘制失真模型的多视点加深度编码的码率分配方法
CN107580217A (zh) 编码方法及其装置
CN103873867B (zh) 自由视点视频深度图失真预测方法和编码方法
CN111447446B (zh) 一种基于人眼视觉区域重要性分析的hevc码率控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151209

Termination date: 20181217