具体实施方式
本发明涉及一种视频编码系统和方法。根据一个实施例,视频编码系统和方法将是基于SSIM的码率失真优化方法,包括最小化由拉格朗日乘数乘数据码率的值和基于SSIM的失真函数值之和得出的联合代价函数值。失真函数可随SSIM的减少而单调递增,拉格朗日参数可用于控制码率和失真之间的平衡。本发明通常可用于在不提高数据码率的前提下改进解码后的视频感知质量,或者在不牺牲解码后视频感知质量的前提下降低压缩视频流的数据码率。
本发明的一个实施例可以使用两个因子之间的比值得出拉格朗日参数。所用的第一因子可以是量化步距Q的SSIM导数,第二系数是Q的码率R导数。本发明实施例中的SSIM预测模型可以只使用参考帧(所谓的不需要访问编码帧的简化参考方法)计算第一因子。然后利用参考帧中变换域系数的方差统计和变换系数,例如离散余弦变换(DCT)系数的先验概率模型,在SSIM预测模型与量化步距Q之间建立联系。可以借助以量化步距进行计算的码率模型、不含跳过块比特率的熵模型及变换系数的现有统计模型计算第二因子。
本发明的一个实施例可在宏块(MB)级利用拉格朗日参数调节编码方案,其中,可以通过基于动态信息内容的信息理论方法和视觉速度感知不确定性来确定每个MB的比例因子。
现有技术的视频编解码器的主要特征在于通道的吞吐量和重建视频的感知失真。因此,视频编码的根本问题在于实现码率与感知失真之间的最佳平衡。可实现这一目标的方法通常称为率失真优化(RDO)。在数学上,RDO问题可以如下所示:
min{D}subjecttoR≤Rc (1)
其中,D为既定码率Rc的失真。这是一个典型的约束优化问题,当然也可以通过以下方程式转化为非约束性优化问题。
min{J}whereJ=D+λ·R (2)
其中J为率失真(RD)代价,码率R可借助每像素的比特数测得。
λ为拉格朗日乘数参数,它控制着R和D之间的平衡。
在本发明的一个实施例中,将使用SSIM限定失真程度,并且可基于这种新的失真模型推导出模式选择的自适应RDO方案。在一个实施例中,本发明的系统或方法可以包括:(i)在模式选择方案中将SSIM作为失真程度控制方法,这时对当前的两个宏块(MB)进行编码,同时考虑借助相邻像素充分利用SSIM的特性;(ii)基于部分参考SSIM统计模型与源信息相集成的码率模型,展示帧级自适应拉格朗日参数选择方案;和(iii)展示MB级拉格朗日参数调节方案,其中,每个MB比例因子取决于基于动态信息内容的信息理论方法和视觉速度的感知不确定性两个方面。
在一个实施例中,本发明将由SSIM引起的RDO问题定义为:
min{J}whereJ=(1-SSIM)+λ·R (3)
SSIM可以通过两组像素集间的像素域或两组变换系数间的变换域(例如DCT域)确定。在像素域中,两组像素集之间的SSIM可以是下列分量中间的一个或多个:(i)[两组像素集平均强度值的乘积加上一个常数]与[一个或多个平均强度值平方的总和加上一个常数]的比值;(ii)[两组像素集的标准差值的乘积加上一个常数]与[基于一个或两组像素集的方差之和的信号能量加上一个常数]的比值;或(iii)[两组像素强度之间的互相关加上一常数]与[两组像素标准差值的乘积加上一常数]的比值。SSIM的标准定义为下列三个分量的乘积:
其中μx,σx和σxy分别表示平均值、标准差和互相关;C1,C2和C3是为了避免当平均值和方差接近于0时的不稳定性使用的常量。然而,可以存在其它变型,如,(i)只使用三项中的一项或两项;(ii)将一项或多项升幂;(iii)将几项求和而非相乘;(iv)在分母中使用μ和σ的任意一项。借助基于滑动窗口计算得出的本地SSIM指数平均数可得出整个图像的SSIM指数。
可以使用变换域系数定义所述SSIM指数,例如DCT系数。两组变换系数之间的SSIM可使用以下一项或多项来计算:(i)[DC值的乘积加上一个常数]与[一个或多个DC强度值的总和加上一个常数]的比值;(ii)[两组AC系数互相关加上一个常数]与[基于一个或两组AC系数的方差的信号能量加上一个常数]的比值。DCT域中的两组系数X和Y之间的SSIM可以计算如下:
其中,X(0)和Y(0)为DC系数,而X(k)和Y(k)当k=1,…,N-1时为AC系数;C1和C2用于当平均值和方差接近0时避免不稳定性而设的常数,N表示块的大小。在像素域的情况下,相似SSIM定义的变化也同样适用于变换域。
在彩色视频的情况下,例如可使用Y,Cb和Cr三项通过计算所有各项的加权平均值来计算SSIM指数,以获得单个SSIM的值。
其中WY,WCb和WCr分别是Y,Cb和Cr的权重,它们的值设为WY=0.8和WCb=WCr=0.1。
在传统模式选择方法中,可以借助熵编码的比特数和残差失真均方差确定最终编码模式,但却忽略了参考图象的属性。不同于MSE,SSIM指数是根据参考信号实现完全自适应的。因此,在使用SSIM定义失真模型时,视频序列的特性也可以充分利用起来。
本发明一个实施例中的系统或方法也可融合视频编码标准(如MPEG4/H.264AVC视频编码格式),其中编码器以不重叠的MB为单位处理一帧帧视频。然而,可借助一个滑动窗口计算得出SSIM指数,滑动窗口在整个帧上逐像素移动。如图1所示,为了弥补这一缺陷,同时根据本发明的一个实施例,可使用更大的窗口来计算重构MB与原始MB之间的SSIM指数,如图1所示,该窗口包括当前待编码MB与相邻像素。图1是本发明实施例中利用相邻像素计算SSIM的说明图。由于在当前编码标准(如MPEG4/H.264AVC)中屏幕的最小尺寸为4×4,因此用于计算SSIM指数的滑动窗口的大小可设定为4×4。对于Y项,可以使用滑动窗口计算22×22块(图.1(a))内当前待编码16×16MB的SSIM指数。在4:2:0格式的情况下,对于Cb和Cr分量,可使用14×14窗口(图1(b))计算SSIM指数。这也将有助于缓解解码视频中MB边界处不连续的问题。当MB在帧边界上时,本发明中的系统或方法在失真计算时将忽略相邻像素,仅使用待编码MB进行比较。
拉格朗日参数可以通过计算码率R的J导数得出,然后将其设为零,最后求解λ,
可得出
其中Q是量化步距。这表明为了在编码当前帧前计算出λ的值,本发明中的系统或方法应开发出精确的模型,用于阐释SSIM和码率是如何随着量化步距Q函数变化的。
在本发明的一个实施例中,部分参考(RR)SSIM预测模型可用于计算SSIM指数。因此,根据本发明一个实施例中的系统或方法可以将每个帧划分成4×4非重叠块,并对每个块进行DCT变换。这样一来,本发明的系统或方法可以获得参考信号的统计特性,符合SSIM指数的设计原则。此外,本发明一个实施例中的系统或方法可以将每个4×4DCT窗口中具有相同频率的DCT系数集中到一个子带,共分为16个子带。本发明一个实施例中的失真测量方法可以定义为:
其中σi为第i个子带的标准偏差,N表示块的大小。Di表示第i个子带中原始帧和失真帧之间的MSE。为了计算Di,本发明一个实施例中介绍的系统和方法可假定帧残差预测变换系数(例如DCT系数)的先验概率模型。先验概率模型可以是各种类型的,例如,在本发明的一个实施例中,它是一个由下式得出的拉普拉斯密度模型:
然后,Di值可以计算如下:
其中γ是量化平衡四舍五入后的近似值。
图2阐释了部分参考测量值MRR22和SSIM指数20之间的关系,四个不同视频序列可能存在差别。图2中对QP值从0-50进行了测试,且间隔为2。测试结果涵盖了4个标准视频序列——CIF格式Paris,CIF格式Mobile,QCIF格式Forman和QCIF格式Salesman。通过计算单帧相应数值的平均值得出SSIM指数和MRR。
有趣的是,发明者发现MRR与所有单个视频序列的SSIM保持着近乎完美的线性关系。这可能是(4)、(5)和(9)的设计原理相似的产物。这种单纯的线性关系使本发明明显优于现有技术,并且可用于设计基于MRR的SSIM预测器。更具体来讲,本发明一个实施例中的RR-SSIM估计函数可以写为:
本发明一个实施例中的RR-SSIM模型以DCT域和/或像素域中原始帧中的特征为基础。本发明一个实施例中的系统或方法利用和MRR之间的直线上的两个点估计(12)中的参数α和β。在一个实施例中,因为(1,1)总是位于这条直线上,同时因为它无需进行任何计算,因此可作为一个可用的点。但要想找到第二个点却没那么容易,原因在于当前帧尚未被编码,从而导致无法获得每个子带上的SSIM指数和拉普拉斯参数。因此,本发明一个实施例中的系统或方法将借助相同类型帧的早期数值进行计算。失真测量MRR可以通过将(11)代入(10)计算得出,同时第i个子带σi的标准偏差将借助原始帧的DCT变换计算得出。根据本发明一个实施例中系统或方法遵循的程序,我们得出了求解α和β必需的第二个点。
本发明的一个实施例可能采用了码率模型,是根据除去跳过块比特率的一个熵模型推导出来的。
其中Ps是在跳过块的概率,P0和Pn分别是量化为为第0个和第n个量化等级的转换残差的概率,可以利用拉普拉斯分布进行建模,如下所示:
如图3所示,在最先进的视频编码标准(如MPEG4/H.264AVC)中,特别是在低比特率视频编码的场景中,边信息(或编码头比特)占总比特率的大部分。
图3是在不同QP值情况下编码头比特和源比特的平均占比示意图。在最先进的视频编码标准(如MPEG4/H.264AVC)中,特别是在低比特率视频编码的场景,边信息(或编码头比特)占总比特率的一部分。在每个子图中,横轴均为QP值,纵轴为整个编码流中的比特分配百分比,两条曲线分别对应源比特和编码头比特。图中展示了三种视频序列的结果—IPP GOP格式30的“Foreman”序列,IBP GOP格式32的“Foreman”序列及IPP GOP格式34的“News”序列。在现有技术方法的码率模型中,只考虑了源比特,本发明兼顾了源和边信息比特。
对于相同的量化步距,Λ越大残差越小,边信息的比例也就越大。对于总比特率R,如图4和5所示,ln(R/H)与·Q之间是一种近似线性的关系。
图4是展示四个标准测试视频序列IPP GOP结构的ln(R/H)和·Q之间关系的曲线示意图,包括CIF格式的“Paris”,CIF格式的“Bus”,QCIF格式的“Forman”,和QCIF格式的“Carphone”。结果包括CAVLC熵编码40和CABAC熵编码42。图4重点展示的一点是ln(R/H)与·Q之间存在着近似线性的关系。这样一来,在本发明的一个实施例中将可以通过H,Λ和Q计算出R。
图5展示了B帧四个标准测试视频序列中ln(R/H)与·Q之间关系的曲线示意图,包括CIF格式的“Paris”,CIF格式的“Bus”,QCIF格式的“Forman”和QCIF格式的“Carphone”。结果包括CAVLC熵编码50和CABAC熵编码52。图4重点展示的一点是ln(R/H)与·Q之间存在着近似线性的关系。这样一来,在本发明的一个实施例中将可通过H,和Q计算出R。这一关系与相关熵编码及边信息的作用完全一致。如图4和5所示,在高比特率视频编码场景中,相关熵编码的作用弥补了边信息的缺失,同时ln(R/H)接近零;而对于低比特率视频编码的场景,由于边信息占主导地位,因此ln(R/H)变得更大。图6是阐释了QP=30时作为两种GOP结构两类视频序列帧编号功能的源比特和编码头比特示意图,即IPP GOP结构的“Forman”的序列,IBPIPP GOP结构的“Forman”序列,IPP GOP结构的“News”序列和IBP GOP结构的“News”序列。在所有情况下,编码头比特数和源比特数呈单调变化。这有助于通过本发明实施例计算总码率R。图6阐释了作为两种不同GOP结构两类视频序列帧编号功能的源比特和编码头比特,编码头比特数随源比特数单调变化。根据本发明的一个实施例,可通过以下公式得出最终码率模型R的鲁棒值:
从图4和5可以看出,参数ξ和ψ对视频内容并不十分敏感。B帧的斜率小于I和P帧的斜率。这主要是因为B帧的残差相对越小,那么值就越大。因此,根据本发明的一个实施例,对于CAVLC和CABAC熵编码方法,ξ和ψ可凭经验设为:
根据转换残差统计模型,本发明一个实施例中的系统或方法将可获得R和D模型的最终闭合解。R和D模型可以是两组变量的函数:Q和其它描述视频序列,例如 i和σi固有特性的变量。如果Q的变化范围较小,就可以认为与其它变量无关。根据本发明一个实施例中的系统或方法,在编码当前帧之前,可通过将R和D模型的闭合解代入(8)中得出帧级拉格朗日参数。
可根据本发明的一个实施例来分析拉格朗日参数λ,相应的码率R,及失真D三者之间的关系。λ值越大,D值就越大,而R值则越小,反之亦然,这表明每个MB的码率和感知失真可以通过调整拉格朗日参数加以影响。本发明实施例的系统或方法可能包括这么一种方案,该方案能将更多比特分配给MB,这一点对于人类视觉系统而言更为重要。
可以将人类视觉系统视为最佳的信息提取器以及本地组件,它包含更多的信息,能够吸引更多的视觉注意力。本发明的系统或方法可能包括这么一种方案,该方案根据信息通信框架得到的运动信息内容和/或感知不确定性对视觉感知建模。本发明一个实施例中的系统或方法还可以进一步对相对运动矢量υr进行界定,将其作为绝对运动矢量υa与全局背景运动矢量υg之差。
根据本发明的一个实施例,通过结合视觉世界的一些现有知识和当前测量误差,从而对运动速度的视觉判断进行建模。基于这种方法,根据本发明的一个实施例,可以根据相对运动的自信息估计出运动信息内容
感知不确定性可以通过测量误差似然函数的熵加以估计,其计算方式如下所示:
其中,和δ是常数。所述时空重要性权重函数由下式给出:
其中,对照测量值c可由下式推导出:
其中,σp和μp在MB内计算,分别表示标准偏差和平均偏差。参数k和φ是常数,分别控制函数的斜率和位置。为了避免不稳定性接近0,设定了常数μ0。
全局运动不会对每个MB的感知权重产生影响,因此,每个MB的权重定义如下所示:
其中,υ0和c0是常数。该权重函数随相对运动和局部对比度单调递增,这与视觉注意的原理相一致。根据本发明的一个实施例,具有更高权重的MB可以分配到更多的比特,反之亦然。在本发明一个实施例的系统或方法中,可以根据下式对拉格朗日乘数加以调整:
λ′=η·λ (21)
为确定每个MB的调整因子η,本发明一个实施例中的系统或方法可以基于所述本地信息计算权重,然后通过下式确定η:
在一个实施例中,参数wavg表示当前帧的平均权重,并且设定ε为0.25。
根据本发明的一个实施例,在对当前帧编码之前,应当确定拉格朗日参数以便执行RDO。然而,参数 i, wavg和υg仅能在当前帧编码之后得出。因此,在本发明一个实施例的系统或方法中,可通过以相同方式编码帧的前3个数值的平均值来估计它们,例如,
其中,j表示帧号。可以通过最大似然估计能够找出运动向量柱状图的峰值,从而推导出全局运动矢量υg。
因为自适应拉格朗日参数选择方法难以计算 i, wavg和υg,所以不会采用该方法对前几帧进行编码。针对该情况,基于高码率λ选择方法,本发明一个实施例的系统或方法可以根据高比特率假设导出拉格朗日参数,而DCT域中的SSIM指数可以近似为:
如果高码率假设有效,则源概率分布可以近似为均匀分布,而MSE可以通过如下方式建模:
D=s·Q2 (2s)
基于高码率假设和MSE模型的拉格朗日参数可以由下式得出:
其中,c是常数。λHR的一般形式可以通过计算SSIM关于R的导数推导出来,这将导致:
λHR=a·Q2-b·Q4 (27)
根据本发明的一个实施例,a和b的值可通过SSIM和码率模型实验实证得出:
在本发明的一实施例码率模型(15)中,可完全基于源码率对边信息建模。在极端情况下,例如,若源码率为零,因为在实际视频编码应用中报头比特不能为零,所以码率模型将失效。因此,本发明一个实施例的系统或方法可能包括逸出方法以保持合理的性能,其中拉格朗日参数由下式得出:
图7是本发明一个实施例视频编码IPP GOP结构的RDO总体框架图。本领域技术人员将认识到图7是本发明一个实施例中应用的RDO方案的实例。具体而言,图7是基于GOP结构:IPP得出的。IBP也可应用类似的方法。本领域技术人员还将认识到本发明也可能将基于其它结构的RDO方案或模型作为实施例。
图7中介绍的计算量复杂度仅为中等程度。此外,还需进行额外的计算,包括原始帧的DCT变换,计算参数i, wavg和υg,以及计算每一种编码模式的SSIM。
本发明的一个方面,可使用基于多次编码GOP的量化参数(QP)调整方案进行视频编码。本发明的一个实施例可能会用到失真模型,因此可根据GOP级帧-平均SSIM值的加权和计算失真程度,其中帧-平均SSIM值较低的GOP将获得更多权重。更具体地说,可以使用多次编码方法将视频序列分割成多个基于质量/失真程度的GOP。如果总共使用了n次编码,那么第n-1次编码可用于绘制基于SSIM指数的质量/失真曲线图,并将视频序列划分割成多个GOP,使得GOP中所有帧具有相似的品质/SSIM值。GOP可以基于单个GOP中所有帧的平均SSIM值以升序方式排名。随后,根据失真模型调整每个GOP量化参数(QP),从而逐渐接近目标失真程度。本发明的一个实施例采用了可适用于极端情况的失真模型,其中所有权重提供给具有较低的帧-平均SSIM值的GOP,因此,视频的综合质量取决于最低质量的GOP。
本发明的另一方面,视频编码可能还会用到单次编码帧级量化参数(QP)调整。本发明的一个实施例根据SSIM估计方法(如(12)中的定义)调整每帧的QP等级,从而保持整个视频序列中所有帧的预期品质等级/SSIM值。本发明的另一实施例中,根据目标质量等级/SSIM值与前帧的SSIM值之间的差,通过调整每帧的QP等级,保持预设的质量等级/SSIM值。特别需要指出的是,如果前帧的质量等级/SSIM值低于目标值,则QP值降低,反之亦然。
实施例和结果
本文列举的例子只是用于说明本发明的可能实施例。本领域技术人员可能会认识到,本发明亦可能用于其他实施例中。
试行和测试结果已表明:与使用MPEG/H.264AVC JM15.1编码器的现有技术相比,本发明的不同实施例能将码率降低2%到35%。本发明中不同实施例中是否能降低码率取决于被编码的视频信号的性质。本发明中不同实施例可以在保持相同感知视频质量的同时降低码率,这一点与使用MPEG/H.264AVC JM15.1编码器的现有技术结果不相上下。在本发明的不同实施例中,我们已经通过客观SSIM质量测量和主观实验证实了感知视频质量的水平。编码器端的计算复杂度约提高了6%,而解码器端约提高0%。
为验证本发明实施例中感知RDO方案的精度和效率,将MPEG4/H.264AVC参考软件JM15.1与本发明实施例中的模式选择方案进行了集成。所有测试视频序列均采用YCbCr4:2:0格式。常用编码配置如下所示:启用所有可用的帧间和帧内模式;五个参考帧;在一个I帧后接着是所有中间帧;高复杂度的RDO和固定量化参数(范围28-40)。根据本发明的一个实施例,我们采用两组实验来全面验证感知RDO方法及其他计算方法。其中一个实验通过比较SSIM估计值与SSIM实际值验证了本发明实施例中提出的RR SSIM估计模型。另一个实验评价了本发明实施例的感知RDO方法的性能并且与现有技术的RDO方案的性能进行了对比。
为了验证本发明实施例的RR-SSIM估计模型,将SSIM估计值(RR)和不同序列SSIM指数实际值与一组不同的QP值进行了对比。第一帧是I帧,而其余的均为帧间编码帧。方程式(12)表示:首先,应该计算不同视频内容的参数α和β。因此,每一帧都可借助两点计算所述斜率,(MRR)和(1,1),其中点(MRR)是通过预设QP=40得出,此外,可利用量化步距的中间点来测试本发明提出的方案。一旦确定了α和β,本发明实施例的系统或方法可使用方程式(12)估计其他QP值的SSIM。
图8展示了本发明中SSIM实际值与RR-SSIM估计值的对比图。测试结果涵盖了六个具有代表性的标准测试视频序列,分别是:CIF格式和IPP GOP结构80的“Foreman”序列;CIF格式和IBP GOP结构82的“Mobile”序列;QCIF格式和IPP GOP结构84的“Highway”序列;QCIF格式和IBP GOP结构86的“Akiyo”序列;720P格式和IPP GOP结构88的“City”序列;以及720P格式和IBP GOP结构89的“Crew”序列。每个子图中,横轴代表QP值,绘出的两条曲线分别是实际SSIM值和不同QP值下编码视频序列的RR-SSIM估计值。在每个子图中,SSIM实际值和RR-SSIM估计值这两条曲线通常会出现重叠,这表明,鉴于空间分辨率和压缩级别不同的视频内容,本发明不仅可得出SSIM的精确值,还可得出鲁棒估计值。本发明一个实施例中采用的SSIM模型如下表所示,分别给出了分辨率不同视频内容的鲁棒值和精确值。此外,下表A列出了SSIM与RR-SSIM之间的Pearson线性相关系数(PLCC)和平均绝对误差(MAE),这是根据是个不同序列计算出来的。这些数值表明,在本发明一个实施例中采用的RR-SSIM模型能够提高不同品质等级视频序列的精确性。
表A
不同序列的SSIM实际值和
RR-SSIM估计值之间MAE和PLCC
表A展示了SSIM实际值和RR-SSIM估计值之间的线性相关系数和平均绝对误差。第一栏分别列出了不同分辨率格式的测试视频序列;第二栏给出了GOP编码结构;第三栏给出了SSIM实际值和RRSSIM估计值之间的Pearson线性相关系数(PLCC);以及第四栏给出了SSIM实际值和RRSSIM估计值之间的平均绝对误差(MAE)。较高的PLCC值和较低的MAE值表明,本发明实施例中采用的SSIM估计方法可得出不同分辨率格式和品质等级视频序列的高准确值和鲁棒值。
将采用SSIM、加权SSIM和PSNR计算失真率的现有技术与本发明一个实施例中提出的感知RDO方法及其他运算方法的RD性能进行对比。整个视频序列的三个量是通过解单帧的相应值的平均值得出的。在本实验中,现有技术方法可用于计算两个RD曲线的差值。此外,加权SSIM指数定义如下:
其中,w(x,y)表示(21)中(x,y)的权重值。我们根据方程式(6)对SSIM指数Y,Cb和Cr进行了组合。由于SSIMw把活动信息考虑在内,因此用它来评估感知视频质量会更准确。
由于所有测试序列均采用了4:2:0格式,因此可根据下面的等式将三个分量相加得出PSNR:
编码计算量如下所示:
其中Torg_RDO和Tpro_RDO分别代表采用现有技术(MPEG4/H.264AVCJM15.1)和本发明一个实施例中提出的基于SSIM的RDO方案的总编码时间。
为了验证本发明一个实施例中提出的感知RDO方法的效率,我们分别对QCIF和CIF格式的标准序列开展了大量实验。在实验中,我们对传统RDO编码策略与本发明一个实施例中提出的感知RDO方法的RD性能进行了对比。通用编码配置如下所示:启用所有可用的帧间和帧内模式;五个参考帧;一个I帧后接着是所有中间帧;高复杂度的RDO和固定量化参数(范围是28-40)。实验结果见下面表B和C,图9、10和11对RD性能进行了对比。
表B
码率为每秒30帧时QCIF序列建议算法(与原始码率失真优化技术对比)的性能
*保持SSIM的同时降低码率
**保持加权的SSIM的同时降低码率
表B展示了在每秒30帧的情况下本发明一个实施例与MPEG4/H.264AVC QCIF序列性能的对比情况。这两种编码方案的编码配置如下所示:启用所有可用的帧间和帧内模式;五个参考帧;一个I帧接着99中间帧;高复杂度的RDO和固定量化参数(范围是28-40)。左侧两栏列出了标准测试视频序列和GOP结构。对比CABAC和CAVLC两种熵编码方案。但在每种情况下,都生成五项对比结果:1)固定比特率的SSIM值提高;2)固定SSIM值的比特率变动(以百分比表示);3)固定比特率的SSIMw值提高;4)固定SSIMw值的比特率变动(以百分比表示);和5)固定比特率的PSNR值提高。最后两行显示所有测试视频序列在所有情况下的平均值。在所有情况下,本发明实施例提出的方案都要优于现有技术MPEG4/H.264AVC编码方案,同时IPP GOP结构和IBP GOP结构分别因比特率降低(而不牺牲SSIM或SSIMw性能)而提高了18-21%和11-15%。
表C
在每秒30帧的情况下本发明中CIF序列算法(与原始码率失真优化技术对比)的性能
保持SSIM的同时降低码率
保持加权SSIM的同时降低码率
表C阐释了在每秒30帧的情况下,本发明实施例中提出的方法与MPEG4/H.264AVC CIF序列性能对比情况。这两种编码方案的编码配置如下所示:启用所有可用的帧间和帧内模式;五个参考帧;一个I帧接着所有中间帧;高复杂度的RDO和固定量化参数(范围是28-40)。左侧两栏中列出了标准测试视频序列和GOP结构。对比CABAC和CAVLC两种熵编码方案。在每种情况下,都会生成五个报告:1)固定比特率的SSIM值改善;2)固定SSIM值的比特率改变(以百分比表示);3)固定比特率的SSIMw值改善;4)固定SSIMw值的比特率改变(以百分比表示);和5)固定比特率的PSNR值改善。最后两行列出了所有测试视频序列在所有情况下的平均值。在所有情况下,本发明实施例提出的方案都要优于现有技术MPEG4/H.264AVC编码方案,同时IPP GOP结构和IBP GOP结构因比特率降低(而不牺牲SSIM或SSIMw性能)而分别提高了11-13%和5-7%。
图9是MPEG4/H.264AVC与本发明实施例中以CABAC为熵编码器的码率-SSIM性能对比图。具体而言,列举的实例涵盖了CIF格式和IPP GOP结构90的“Flower”序列;QCIF格式和IPP GOP结构92的“Bridge”序列;CIF格式和IBP GOP结构94的“Bus”序列;和QCIF格式和IBP GOP结构96的“Salesman”序列。在这四个实例中,横轴为比特率,单位为kbps,纵轴是解码后的视频序列的SSIM值。“Anchor”曲线展示了利用现有技术MPEG4/H.264AVC编码方法所得到的结果,“Proposed”曲线则展示了本发明一个实施例提出的编码方法所得到的结果。通过比较这两种视频编码方法,结果显示在所有情况下,在码率相同的情况下本发明实施例的SSIM数值更大;同时在所有情况下,基于相同的SSIM等级,本发明实施例可降低比特率。
图10是MPEG4/H.264AVC与本发明一个实施例中提出的以CAVLC为熵编码器的编码方案码率-SSIM性能对比图。具体而言,列举的实例涵盖CIF格式和IPP GOP结构100的“Silent”序列;QCIF格式和IPP GOP结构102的“Container”序列;CIF格式和IBP GOP结构104的“Paris”序列;以及QCIF格式和IBP GOP结构106的“Highway”序列。在这四个实例中,横轴为比特码率,单位为kbps,纵轴是解码后的视频序列的SSIM值。“Anchor”曲线展示了利用现有技术MPEG4/H.264AVC编码方法所得到的结果,“Proposed”曲线则展示了本发明一个实施例中编码方法所得到的结果。通过比较这两种视频编码方法,结果显示在所有情况下,在码率相同的情况下,本发明实施例的SSIM数值更大;同时在所有情况下,基于相同的SSIM等级,本发明实施例可降低比特率。
图11是MPEG4/H.264AVC与本发明一个实施例中提出的以CAVLC为熵编码器的编码方案码率-加权SSIM性能对比图。具体来讲,实例包括CIF格式和IPP GOP结构110的“Tempete”序列;QCIF格式和IPP GOP结构112的“Carphone”序列;CIF格式和IBP GOP结构114的“Foreman”序列;以及QCIF格式和IBP GOP结构116的“News”序列。在这四个实例中,横轴为比特码率,单位为kbps,纵轴是解码后的视频序列的加权-SSIM值。“Anchor”曲线展示了利用现有技术MPEG4/H.264AVC编码方法所得到的结果,“Proposed”曲线则展示了本发明一个实施例提出的编码方法所得到的结果。通过比较这两种视频编码方法,结果显示在所有情况下,在码率相同的情况下本发明实施例的SSIM数值更大;同时在所有情况下,基于相同的SSIM等级,本发明实施例可降低比特率。
对于IPP GOP结构,固定SSIM的码率可平均降低15%,并且在QCIF和CIF序列同时达到固定加权SSIM时,码率可平均降低16%。如果GOP结构是IBP,固定SSIM的码率将平均降低9%,同时固定加权SSIM的码率可平均降低10%。IBP编码方案的较低结果可能有两个原因。第一,从图9可以观察到:B帧通常以较低比特率编码,而与低比特率的情况相比,本发明一个实施例提出的方案在高比特率的情况下性能较高。其次,因为相同编码类型的帧不彼此相邻,因此GOP结构的参数估计方案不够精确。
当活动缓慢的序列码率降到极点时,如Bridge,在接收到的视频SSIM值相同的情况下,比特率可节约35%。因此可以看出,具有较大值的序列的优越性能主要是由于选择了具有较少比特的MB模式。另一个有趣的观察结果是,在比特率较低的情况下,本发明一个实施例的性能提升幅度降低,例如图9中的Bridge和Salesman。这是由于在比特率较低时,大部分MB使用现有技术RDO方案中最佳模式编码,例如SKIP模式。此外,本发明一个实施例中码率模型的局限性也使性能提升幅度降低。此外,我们还对PSNR性能进行了对比,可参见表B和C及图12SilentCIF(IPP)120,ParisCIF(IPP)122,SalesmaQCIF(IPP)124,和NewsQCIF(IPP)126实例表。
图12是MPEG4/H.264AVC与本发明一个实施例中提出的以CAVLC为熵编码器的编码方案码率-PSNR性能对比图。具体来讲,实例包括CIF格式和IPP GOP结构120的“Silent”序列;CIF格式和IPP GOP结构122的“Paris”序列;QCIF格式和IPP GOP结构124的“Salesman”序列;以及QCIF格式序列和IPP GOP结构126的“News”。在这四个实例中,横轴为比特码率,单位为kbps,纵轴是解码后的视频序列的SSIM值。“Anchor”曲线展示了利用现有技术MPEG4/H.264AVC编码方法所得到的结果,“Proposed”曲线则展示了本发明一个实施例提出的编码方法所得到的结果。由于本发明旨在改进SSIM而不是PSNR,因此这可以增加或减少PSNR值,尽管增减幅度都很小。
为了证明本发明一个实施例中帧-MB与RDO综合方案的优势,
我们对帧级感知RDO(FP-RDO)与帧-MB级感知RDO(FMP-RDO)的性能进行了对比,具体参见表D。
表D
本发明中FPRDO和FMRDO编码(现有技术:传统的码率失真优化技术)的性能对比
*保持SSIM的同时降低码率
**保持加权SSIM的同时降低码率
表D展示了帧级感知RDO(FP-RDO)与帧-MB级感知RDO(FMP-RDO)编码方案的性能对比情况。第一栏列出了测试视频序列及其分辨率格式。第二栏给出了RDO方案。对比时也包括了CABAC和CAVLC两种熵编码情况。在每种情况下,都生成四个结果:1)与MPEG4/H.264AVC相比,IPPPP GOP结构固定SSIM值的比特率变化情况(以百分比计);2)与MPEG4/H.264AVC相比,IPPPPGOP结构固定加权-SSIM值的比特率改变情况(以百分比计);3)与MPEG4/H.264AVC相比,IBPBP GOP结构固定SSIM值的比特率改变情况(以百分比计);以及4)与MPEG4/H.264=/AVC相比,IBPBPGOP结构固定加权-SSIM值的比特率变化情况(以百分比计)。该表说明MB级RDO微调可能会也可能不会进一步提高帧级RDO比特率节约量,这也是本发明的一个目的。
可以看出,高活动序列的加权SSIM有所提高,如Flower和Bus。然而,恒定序列的加权SSIM降低了,如Silent。这种性能降低主要由视频编码中的帧间预测技术造成的。例如,当前帧中具有较高权重的MB,可从前帧中不重要的MB获得预测像素,可能会引起较大的量化误差。在一个实施例中,本发明提出的系统或方法逐帧向RDO集中。
图13是阐述本发明实施例与MPEG4/H.264AVC的性能示意图,(a)原始帧130;(b)MPEG4/H.264AVC编码帧132;和(c)本发明实施例的编码帧134。两种编码方法的比特率几乎相同。然而,由于本发明实施例的RDO方案是基于SSIM指数优化,因此实现了较高的SSIM值。此外,本发明实施例已经改进了重构帧的视觉质量。具体来讲,我们保留了大量信息和细节,诸如最高处的几段。由于从感知的立场上选择最佳模式,因而实现了视觉质量改善,结果造成更多比特分配给对我们的视觉系统更敏感的区域。
图14是FP-RDO和FMP-RDO在低比特率视频编码环境中的视觉性能示意图。示例图片(a)140展示了Paris序列第35个原始帧,为了更直观我们对其进行了剪裁;示例图片(b)142展示了Paris序列的第35帧,该Paris序列是在比特率为101.5kbit/s,SSIM为0.8690并且PSNR为29.33dB的情况下使用FMP-RDO编码的MPEG4/H.264AVC。FMP-RDO的比特率为102.5kbit/s,而FPRDO的比特率是101.5千比特/秒。对于FMP-RDO,分配给运动对象更多的比特,如人脸;而分配给背景MB较少的比特。因此,改善了整帧中更引人注意的运动区域的品质。
为进一步验证本发明一个实施例提出的方案,我们根据基于人类“强制性二者择一(2AFC)”方法开展了主观质量评价试验。2AFC法被认为是直接模型比较方法,其中通过一对刺激对每个受试者进行刺激并且强迫其选择较好的一个。在这种情况下,我们选择了八对以现有技术和本发明一个实施例中提出的采用相同SSIM等级的RDO方案进行编码的CIF格式序列。每对都用随机选择的顺序重复6次。因此,获得48对8视频序列。与另外一个相比,要求每个受试者选择较好质量的视频。10个受试者参与了该实验。表E列出了所有测试序列以及它们的SSIM指数和比特率。
表E
测试序列的SSIM指数和比特率
表E展示了主观实验中视频序列的SSIM值与数据码率,该实验用来进一步验证本发明实施例的编码方案。基于强制性二者择一(2AFC)方法的主观测试被认为是直接模型比较方法,其中通过一对刺激对受试者进行刺激并且强迫其选择较好的一个。该主观实验中,选择使用现有技术MPEG4/H.264AVC方案(记为“传统RDO”)和本发明实施例的RDO方案(记为“本发明RDO”)编码的8对CIF格式序列可实现相同的SSIM等级。每一对都用随机选择的顺序重复6次。因此,获得48对8个视频序。与另外一个相比,要求每个受试者选择较好质量的视频。10个受试者参与了该实验。当前表中列出了所有测试序列以及它们的SSIM指数和比特率。
定义三个变量来描述测试结果。第一个,即表示受试者选择的基于传统RDO方案的视频的百分比,且该视频具有更好的质量。可以预料到,因为两个视频具有几乎相同的SSIM指数值,所以值将接近50%。另外两个是基于每个受试者与每个序列σsq计算出的标准偏差值σsb。每个对象和每个序列的误差-线图分别如图15和16所示,当对所有受试者和序列进行平均计算之后,值是52.5%,这非常接近于预期值50%,因此表明具有相同SSIM级别的视频视觉质量视频编码应用中可以近似相同。
图15是说明不同测试视频序列的主观视觉质量实验图。每对测试序列由多个受试者基于2AFC进行评价,并对每个测试序列的所有受试者的平均值和标准偏差进行计算。这些对测试视频序列由MPEG4/H.264AVC和本发明实施例编码以达成大致相同的SSIM值(但具有较低比特率)。一个包括多条测试序列误差线的表格显示为150。可以看出,每一误差线的中心都接近于50%,一般情况下,窄线覆盖了50%标尺线。这表明,尽管每对中采用本发明中一个实施例中提出的方案编码的序列比特率较低,但受试者并没有区分出一对视频序列的品质。
图16是不同受试者的主观视觉质量实验图。每对测试序列由多个受试者基于2AFC进行评价,并对每个受试者的所有测试序列的平均和标准偏差进行计算。这些对测试视频序列由MPEG4/H.264AVC和本发明实施例编码以达成大致相同的SSIM值(但具有较低比特率)。一个包括多条测试序列误差线的表格显示为150。可以看出,每一误差线的中心都接近于50%,一般情况下,窄线覆盖了50%标尺线。这表明,尽管每对中采用本发明中一个实施例中提出的方案编码的序列比特率较低,但受试者并没有区分出一对视频序列的品质。
图15和16中绘制的误差线显示,本发明实施例的测试结果对于不同序列和受试者具有鲁棒性。这也证明了使用本发明各种实施例的方案可以显著降低码率,同时维持相同级别的感知图像质量。
实验结果显示,与现有技术中使用的MPEG4/H.264AVCJM15.1编码器相比,本发明实施例的一种基于多次编码GOP的参数调整方案中码率平均可降低约30%。与现有技术中使用的MPEG4/H.264AVC JM15.1编码器相比,本发明实施例的一种基于多次编码GOP的参数调整与码率-SSIM优化方案可实现约42%的平均码率降低。
表F
本发明建议方案的编码复杂度工作量
序列 |
使用CABAC的ΔT |
使用CAVLC的ΔT |
Akiyo(QCIF) |
5.21% |
5.72% |
News(QCIF) |
5.18% |
5.60% |
Mobile(QCIF) |
5.82% |
6.14% |
Silent(CIF) |
7.04% |
7.46% |
Foreman(CIF) |
6.79% |
7.03% |
Tempete(CIF) |
7.04% |
7.13% |
平均值 |
6.18% |
6.51% |
表F概括了CABAC和CAVLC两种熵编码方法的本发明一个实施例与MPEG4/H.264AVC编码器和解码器的计算量,其中,可根据公式(32)计算ΔT。使用因特尔2.83GHz核心处理器和4GB随机存取存储器编码IPPP GOP结构的100个帧获得编码时间。本发明当前实施例方案的平均计算量是6.3%。计算模式选择过程中SSIM指数将导致约5%的计算量。因此,在本发明的一个实施例中,计算量主要是由于估计每种模式的SSIM指数造成的。对于不同的视频序列来说计算量是稳定。因为本发明实施例的RDO方案仅应用到编码器中,所以在解码器侧不存在计算量。
本发明的系统和方法可以应用于多个实施例。适当配置的计算机设备,以及相关的通信网络、设备、软件和固件可以提供平台以支持一个或多个如上所述的实施例。以图17为例展示了通用计算机装置200,包括连接到存储单元204和随机存取存储器206的中央处理单元(“CPU”)202。所述CPU202可处理操作系统201、应用程序203和数据223。所述操作系统201、应用程序203和数据223可存储于存储单元204和可能需要加载到存储器206。计算机装置200还可以包括图形处理单元(GPU)222,可地连接到CPU202和存储器206,从CPU202卸载密集的图像处理计算并且与CPU202并行运行计算。操作员207可以与计算机设备200使用通过视频接口205连接的视频显示器208和通过I/O接口209连接的各种输入/输出设备,如键盘210、鼠标212、以及磁盘驱动器或固态驱动器214交互。在已知的方式中,所述鼠标212可以用于控制所述视频显示器208中光标的移动,以及用于操作出现在带有鼠标按钮的视频显示器208中各种图形用户界面(GUI)控制。所述磁盘驱动器或固态驱动器214可以用于接受计算机可读介质216。所述计算机设备200可以经由网络接口211形成网络的一部分,允许该计算机装置200与其它适当配置的数据处理系统(未示出)通信。
根据本发明的各种实施例,所述系统和方法可以应用于几乎任何形式的计算机设备,包括台式计算机、笔记本计算机、平板计算机或无线手持显示设备。所述系统和方法还可以作为计算机可读/可用介质,该介质包括计算机程序代码,使得一个或多个计算机设备实施本发明方法中的各种过程步骤。应该理解,计算机可读介质或计算机可用介质包括一个或多个任何类型程序代码的物理实施例。特别是非暂时性可读/可用计算机介质可包括一个或多个便携式存储制品(例如光盘、磁盘、磁带等)、计算装置的一个或多个数据存储部分(例如与计算机相关联的存储器和/或存储系统)所体现出的程序代码。
显然,对于本领域的技术人员而言,在不背离本发明范围的情况下也可以对本文描述的实施例的其它变化进行应用。因此,其他修改也存在可能性。例如,3D电视、医学成像以及远程医疗装置,以及这些技术的任意服务提供商都可以使用本发明实施例。
应用场景实例
本发明通常可以用于数字视频信号的存储和传输。它可以在软件和硬件平台上实施,下面将对此进行进一步说明。
本领域技术人员将认识到,本发明可以在各种数字视频应用程序中得到应用。例如,智能手机、视频会议、HDTVTM、IPTVTM、Web TVTM、网络视频点播、DVD、数字影院等技术和设备制造商和服务提供商可能会对本发明进行应用。例如,诸如RIMTM,AppleTM,SamsungTM,HTCTM,HuaweiTM等智能手机公司,或其他智能手机公司,可能会使用本发明对视频向手机端传输进行改善,其中包括智能手机用户之间的传输。本发明可以用于建立视频会议,在这些应用中,可以显著地降低带宽计算量而不会损失感知视频质量;或在使用相同带宽计算量的情况下可以显著提高视频质量。作为另一个实例,诸如YoutubeTM之类的网络视频提供商或其它网络视频提供商可以利用本发明改善向用户传送的视频质量;和/或减小它们的网络服务器流量。作为再一个实例,当带宽受限时(特别是当视频包含有大量活动内容时),HDTV的当前视频质量通常会受到当前商业压缩系统的削弱,因此HDTV服务提供商可以采用本发明对传送给用户的HD视频质量加以改善。作为又一实例,数字电影技术公司,例如IMAXTM,可以使用本发明改善高分辨率数字电影视频内容的质量或降低数字电影网络(有线或无线)服务的流量负荷。
需要视频代码转换的网络视频服务提供商也可利用本发明,视频代码转换是指将数字视频从一种格式转换为另一种格式。当接收到视频信号时,它可由本发明重新编码从而能够产生更好的视觉质量。本发明可以被认为是一个网络部件,或者可以在具有其它功能的网络部件中加以体现,从而能够应用本文所描述的视频编码功能。
本发明实施例包括一软件包,诸如计算机程序产品,可以对该软件包进行操作,从而允许消费者在计算机硬盘驱动器、DVD、闪存驱动器、和其它便携式和/或可输入式存储设备上以相同存储的空间烧录更多数字的内容。
可以将本发明的另一个实施例扩展到可伸缩视频编码框架中,其中,可从基础或较低质量层设计RDO方案,并将之外推至较高质量层。
另外,为实现立体和多视角视频压缩以及3D体数据压缩的目的,本发明可以直接扩展为3D视频。
因此,一方面本发明提供了一种码率失真优化的计算机可实现视频编码方法,包括:利用一种基于失真函数的结构相似度(SSIM),将该函数定义为随SSIM质量测量而单调递减;将联合代价函数最小化,并将该函数定义为数据码率和基于SSIM的失真函数之和;并且利用拉格朗日参数控制数据码率和失真之间的平衡。
在一个实施例中,该方法还包括:找出最佳拉格朗日参数从而控制数据码率和失真之间的平衡,该平衡是根据量化步距Q基于SSIM的失真函数导数以及量化步距Q数据码率模型R导数的比值得出的;利用帧级预测模型对量化步距Q基于SSIM的失真函数导数加以估计;以及利用量化步长Q数据码率模型R对数据码率导数加以估计。
在另一个实施例中,该方法还包括:根据给定的量化步距和变换系数的现有统计模型对原始帧和失真后的帧之间均方差加以估计;并且利用原始帧中DC和AC分量的方差统计作为标准化因子。
在另一个实施例中,该方法还包括:利用不包括跳块的比特率的熵模型构造数据码率模型;利用变换系数的现有统计模型;以及利用熵、量化步距和现有统计模型的一个或多个参数估计总码率,其包括源信息比特和报头信息比特。
在另一个实施方案中,该方法还包括:利用运动信息内容和视觉速度感知的感知不确定性估计中的至少一个参数对宏块(MB)级别的拉格朗日参数进行调整。
在另一个实施方案中,该方法还包括使用下列方式调整具有固定或可变长度GOP多次视频编码的图像组(GOP)级量化参数(QP):使用一次或多次编码排列所有帧的所有基于其平均SSIM值的GOP以产生SSIM值对帧号的曲线,并通过在单个GOP中对具有相似的SSIM值的邻帧进行分组并使用该曲线将视频序列划分成多个GOP;通过GOP级的SSIM值的加权和确定总质量,其中赋予SSIM平均值较低的GOP以更多的权重;以及根据SSIM值对帧号的曲线调整每个GOP的所述GOP级的QP值,以便获得最佳的质量模型。
在另一个实施例中,该方法还包括通过以下方式调整单次视频编码的帧级量化参数(QP):利用基于SSIM的质量测量确定的预设帧级质量目标;以及根据目标SSIM值与前帧SSIM值的差调整每帧的QP,以实现恒定的帧级SSIM质量,其中如果目标SSIM值较高,那么降低QP。
在另一个实施例中,该方法还包括通过下列方式调整单次视频编码的所述帧级QP调整:利用基于SSIM的质量测量定义的预先规定的帧级质量目标;以及根据所述帧级SSIM预测模型调整每帧的QP以实现恒定帧级SSIM质量。
另一方面提出了一种可进行码率失真优化的视频编码计算机运行系统,适用于:借助基于结构相似度(SSIM)的失真函数随着基于SSIM的质量测量单调递减;求联合代价函数的最小值,该函数定义为数据码率和基于SSIM的失真函数的和;以及利用拉格朗日参数控制数据码率和失真之间的平衡。
在另一个实施例中,该系统还可用于:根据量化步距基于SSIM的失真函数导数与与量化步距数据码率模型R导数的比值找出最佳拉格朗日参数控制数据码率与失真之间的平衡;利用帧级预测模型估计量化步距Q基于SSIM的失真函数导数;以及利用所述数据码率模型R估计量化步长Q数据码率导数。
在另一个实施例中,该系统还可用于:根据给定量化步距和变换系数的现有统计模型估计原始帧和失真后的帧之间的均方差;以及利用原始帧中DC和AC分量的方差统计作为标准化因子。
在另一实施例中,该系统还可用于:利用除去跳块的比特率熵模型建立数据码率模型;利用变换系数的现有统计模型;以及利用熵、量化步距和现有统计模型的一个或多个参数估计总码率,其包括源信息比特和编辑头信息比特。
在另一个实施例中,该系统还可用于:利用至少一种活动信息内容和视觉速度感知不确定性估计方法来调整宏块(MB)级拉格朗日参数。
在另一实施例中,该系统还可用于:可使用下列方式调整具有固定或可变长度的GOP多次视频编码图像组(GOP)级量化参数(QP):使用一次或多次编码排列所有帧的所有基于其平均SSIM值的GOP,以生成SSIM值与帧号曲线图,并通过在单个GOP中对具有相似性的SSIM值邻帧进行分组,并使用该曲线将视频序列划分成多个GOP;通过GOP级SSIM值的加权和确定总质量,其中更多的权重分配给具有SSIM平均值较低的GOP;以及根据SSIM值对帧号曲线图调整每个GOP的GOP级QP值,以便获得最佳的质量模型。
在另一个实施例中,该系统还可用于:通过以下方式调整单次视频编码的帧级量化参数(QP):利用基于SSIM的质量测量定义的预先规定的帧级质量目标;以及根据目标SSIM值和前帧的SSIM值的差调整每帧的QP,实现恒定的帧级SSIM质量,其中如果目标SSIM值较高,那么就降低QP。
在另一个实施例中,该系统还可用于:通过下列方式调整单次视频编码的所述帧级QP调整:利用基于SSIM的质量测量定义的预先规定的帧级质量目标;以及根据所述帧级SSIM预测模型调整每帧的QP,以实现恒定帧级SSIM质量。
另一方面,本文还提供了一个可存储计算机代码的永久性计算机可读介质,在设备上运行时,要先对设备进行调整,然后按照上述方法运行。
虽然上文中介绍了许多说明性实施例,可能后期还会有所改动,但是不会脱离在本发明声明中界定的范围。
参考文献
本文参考了如下现有技术相关的文献:
B.Aswathappa and K.R.Rao,“Rate-distortion optimization usingstructural information in H.264strictly intra-frame encoder,”SouthEastern Symposium on System Theory,pp.367-370,2010.
A.Brooks,X.Zhao,and T.Pappas,“Structural similarity qualitymetrics in a coding context:Exploring the space of realistic distortions,”IEEE Transactions on Image Processing,vol.17,pp.121-132,Aug.2008.
S.Channappayya,A.C.Bovik,and Jr.R.W.Heathh,“Ratebounds on SSIM index of quantized images,”IEEE Trans.on ImageProcessing,vol.17,pp.1624-1639,Sep.2008.
J.Chen,J.Zheng,and Y.He,“Macroblock-level adaptivefrequency weighting for perceptual video coding,”IEEE Trans.onConsumer Electronics,vol.53,pp.775781,May.2007.
L.Chen and I.Garbacea,“Adaptive Lambda estimation inLagrangian rate-distortion optimization for video coding,”Proc.SPIE,vol.6077,pp.60772B1-8,2006.
Z.Chen and C.Guillemot,“Perceptually-friendly H.264/AVCvideo coding based on foveated just-noticeable-distortion model,”IEEETrans.on Circuits and Systems for Video Technology,vol.20,pp.806-819,Jun.2010.
H.Gish and J.Pierce,“Asymptotically efficient quantizing,”IEEETrans.on Information Theory,vol.14,pp.676-683,Oct.1968.
Z.He and S.Mitra,“Optimum bit allocation and accurate ratecontrol for video coding via rho-domain source modeling,”IEEE Trans.on Circuits and Systems for Video Technology,vol.12,pp.840-849.Oct.2002.
Y.Huang,et al.,“Perceptual Rate-Distortion Optimization UsingStructural Similarity Index as Quality Metric”,IEEE Trans.on Circuitsand Systems for Video Technology,vol.20,pp.58-68,November2010.
M.Jiang and N.Ling,“On Lagrange multiplier and quantizeradjustment for H.264frame-layer video rate control,”IEEE Trans.onCircuits and Systems for Video Technology,vol.16,pp.663-669,May2006.
JVT Advanced Video Coding(AVC).ITU-T Rec.H.264andISO/IEC14496-10(MPEG-4Part10),2004.
M.Karczewicz,Y.Ye,and I.Chong,“Rate distortion optimizedquantization.”VCEG-AH21,Jan.2008.
D.Kwon,M.Shen,and C.Kuo,“Rate control for H.264videowith enhanced rate and distortion models,”IEEE Trans.on Circuits andSystems for Video Technology,vol.17,pp.517-529,May2007.
X.Li,N.Oertel,A.Hutter,and A.Kaup,“Laplace distributionbased Lagrangian rate distortion optimization for hybrid video coding,”IEEE Trans.on Circuits and Systems for Video Technology,vol.19,pp.193-205,Feb.2009.
Z.Mai,C.Yang,K.Kuang,and L.Po,“A novel motionestimation method based on structural similarity for H.264interprediction,”IEEE International Conference on Acoustics,Speech,andSignal Processing,vol.2,pp.913-916,2006.
Z.Mai,C.Yang,L.Po,and S.Xie,“A new rate-distortionoptimization using structural information in H.264I-frame encoder;”Proc.ACIVS,pp.435-441.2005.
Z.Mai,C.Yang,and S.Xie,“Improved best prediction mode(s)selection methods based on structural similarity in H.264I-frameencoder.”IEEE International Conference on Systems,Man andCybernetics,pp.2673-2678,2005.
T.On,Y.Huang,and H.Chen,“A perceptual-based approach tobit allocation for H.264encoder,”SPIE Visual Communications andImage Processing,Jul.2010.
F.Pan,Y.Sun,Z.Lu,and A.Kassim,“Complexity-based ratedistortion optimization with perceptual tuning for scalable video coding,”International Conference on Image Processing,2005.
G.J.Sullivan and T.Wiegand,“Rate-distortion optimization forvideo compression.”IEEE Signal Processing Magazine,vol.15.pp.74-90,Nov.1998.
C.Sun,H.-J.Wang,and H.Li,“Macroblock-level rate-distortionoptimization with perceptual adjustment for video coding.”Proc.IEEEDCC,p.546,2008.
T.Suzuki,P.Kuhn,and Y.Yagasaki,“Quantization tools for highquality video,”Joint Video Team of ISO/IEC MPEG and ITU-T VCEGJVT-B067,Jan.2002.
Toshiba,“Adaptive quantization matrix selection,”in ITUWP3/SCI6Delayed contribution267,T05-SG16-060403-D-0266,Geneva,Apr.2006.
M.Wang and B.Yin,“Lagrangian multiplier based jointthree-layer rate control for H.264/AVC,”IEEE Signal Process.Lett.,vol.16,pp.679-682,Aug.2009.
S.Wang,S.Ma.and W.Gao,“SSIM based perceptual distortionrate optimization coding,”in SPIE Visual Communications and ImageProcessing(VCIP),Jul.2010.
Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Imagequality assessment:From error visibility to structural similarity,”IEEETrans.on Image Processing,vol.13,pp.600-612,Apr.2004.
Z.Wang and A.Bovik,“Mean squared error:love it or leave it?-a new look at signal fidelity measures.”IEEE Signal ProcessingMagazine,vol.26,pp.98-117.Jan.2009.
Z.Wang,L.Lu,and A.C.Bovik,“Video quality assessmentbased on structural distortion measurement,”Signal Processing:ImageCommunication,vol.19,pp.121-132,Feb.2004.
Z.Wang and Q.Li,“Video quality assessment using a statisticalmodel of human visual speed perception,”Journal of the Optical Societyof America A,vol.24,pp.B61-B69,Dec.2007.
T.Wiegand,H.Schwarz,A.Joch,F.Kossentini,and G.J.Sullian,“Rate constrained coder control and comparison of video codingstandards,”IEEE Trans.on Circuits and Systems for Video Technology,vol.13,pp.688-703,Jul.2003.
T.Wiegand and B.Girod,“Lagrange multiplier selection in hybridvideo coder control.”IEEE International Conference on ImageProcessing,pp.542-545,2001.
E.Yang and X.Yu.“Rate distortion optimization for H.264inter-frame video coding:A general framework and algorithms.”IEEETrans.on Image Processing,vol.16,pp.1774-1784,Jul.2007.
C.Yang,H.Wang,and L.Po,“Improved inter prediction based onstructural similarity in H.264,”IEEE International Conference on SignalProcessing and Communications,vol.2,pp.340-343,2007.
X.Yang,W.Lin,Z.Lu.E.Ong,and S.Yao,“Motion-compensated residue pre-processing in video coding based onjust-noticeable distortion profile,”IEEE Trans.on Circuits and Systemsfor Video Technology,vol.15,pp.742-752,Jun.2005.
J.Zhang,X.Yi,N.Ling,and W.Shang,“Context adaptiveLagrange multiplier(CALM)for rate-distortion optimal motionestimation in video coding,”IEEE Trans.on Circuits and Systems forVideo Technology,vol.20,pp.820-828,June.2010.
X.Zhao,L.Zhang.S.Ma,and W.Gao.“Rate-distortion optimizedtransform for intra-frame coding,”Proceedings of IEEE InternationalConference on Acoustics,Speech and Signal Processing,pp.1414-1417,Mar.2010.
E.Yang and X.Yu,“Soft decision quantization for H.264withmain profile compatibility,”IEEE Trans.on Circuits and Systems forVideo Technology,vol.l9,pp.122-127,Jan.2009.
J.Zhang,X.Yi,N.Ling,and W.Shang,“Context adaptiveLagrange multiplier(CALM)for motion estimation in JM-improvement,”Joint Video Team(JVT)of ISO/IEC MPEG ITU-T VCEG.Jul.2006.
X.Yang,W.Lin,Z.Lu.E.Ong,and S.Yao,“Just noticeabledistortion model and its applications in video coding.”Signal Processing:Image Communication,vol.22,pp.662-680,Aug.2005.