基于结构相似度的感知视频编码方法和系统
相关申请的交叉引用
本申请要求于2011年6月1日提交的专利号为US61/492,081美国分案申请以及于2011年8月15日提交的专利号US61/523,610的美国分案申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明主要涉及视频编码,尤其涉及一种基于结构相似度的视频编码来提高解码后的视频感知质量而不增加数据码率,或者降低压缩视频流的数据码率而不会牺牲解码后的视频的感知质量。
背景技术
在数字图像应用的各个环节,如采集,处理,压缩,存储,传输和再现过程中都会造成各种失真,任何一个过程都可以导致视觉质量的下降。由于图像最终是供用户观看的,量化视觉图像质量最可靠的方法是通过主观评价。然而在实践中,主观评价通常是不太方便,耗时和昂贵的。客观图像质量度量可以自动预测感知图像质量。最简单且最广泛使用的质量度量方法是通过计算失真及参考图像像素的均方差(MSE)和相关峰值信噪比(PSNR)。但是这些方法经过验证都不能很好的匹配感知视觉质量。在过去的十几年中,大量的努力付出在开发先进的质量评估方法。其中的结构相似指数(SSIM)方法在复杂性和质量预测准确性之间取得了一个很好的权衡,已成为被学术研究人员和行业实施者最广泛认可的图像/视频质量测量方法。总而言之,视频编码通常需要在数据码率R和允许的失真值D之间取得一个最好的权衡。现有的视频编码技术使用绝对差之和(SAD)或平方差之和(SSD)作为失真值D的模型,然而这种方法因其较差的感知图像质量的相关性在文献中被广泛批判。其他方法也试图定义基于D的SSIM和优化码率SSIM用于视频编码。
鉴于此,需要提供一种改进的方案,以解决上述的问题。
发明内容
在一方面,本发明涉及了一种使用结构相似度相除归一化机制的感知视频编码方法来改善视频编码方案,包括MPEG/H.264 AVC标准和高效率视频编码HEVC。
另一方面,本发明涉及一种使用相除归一化法的感知视频编码方法,包括以下步骤:在当前帧的编码过程中,从一个或多个先前编码的帧的预测中,减掉视频的当前帧,得到一个预测残差;变换所述预测残差形成一系列系数;使用相除归一化机制归一化各个系数;对归一化的系数进行率失真优化,量化和熵编码。
在另一方面,本发明涉及一种适应于各个变换系数的相除归一化因子的计算,通过利用像素,或变换域,或两者的信息,和至少如下任意一项信息,反映或粗略估计结构相似度指标中的归一化因子:编码的原始当前帧;先前编码的相邻帧在解码后的版本;从先前编码帧预测出来的当前帧;和预测残差。在又一个方面,本发明涉及在相除归一化变换领域的率失真(RDO)优化,其中最优拉格朗日参数由量化步距和变换系数的先验分布确定。
在又一个方面,本发明涉及一种感知视频编码方法,包括如下步骤:在当前帧的编码过程中,从一个或多个先前编码的帧的预测中,减去视频的当前帧,得到一个预测残差;变换所述预测残差形成一系列系数;使用相除归一化机制归一化各个系数;对归一化的系数进行码率-失真优化,量化和熵编码,还包括如下步骤:利用相除归一化机制,通过确定一个相除归一化因子来归一化各个系数;通过利用像素,或变换域,或两者中都存在的信息,和至少如下任意一项信息,粗略估计结构相似度指标中的归一化因子:编码的原始当前帧;一个或多个所述编码的相邻帧和当前帧解码后的版本;当前帧对于一个或多个先前编码帧的预测残差;和当前帧的预测残差;还包括如下步骤:在当前帧中,通过在相应的一个或多个先前编码帧或当前帧的预测的能量中使用一个比例因子,来确定一个基于当前帧中AC系数估算的能量的相除归一化系数。在一个实施例中,所述方法还包括,通过为每个MB/变换单位(TU)分割基于结构相似度的相除归一化因子,使其在所述整个帧中成为大小相同的小块,计算每个MB/变换单位(TU)的基于结构相似度的相除归一化因子,之后计算每个MB/TU内所有小块相除归一化因子的平均值。
在另一个实施例中,所述方法还包括为根据所述整个被编码帧的局部基于结构相似度的相除归一化因子的预期值,为每个MB/TU归一化一个局部基于结构相似度的相除归一化因子。
在另一个实施例中,所述方法还包括根据所述视频帧的局部内容,调整相除归一化因子,其中所述内容可以由局部复杂性度量计算为局部对比度,局部能量,或局部信号活动。在另一个实施例中,所述方法还包括在空间上使各个TU适应基于结构相似度的相除归一化因子计算,其可以为在空间中可变大小的块。
在一个实施例中,本发明可以兼容当前和未来的(例如,最先进的MPEG4/H.264AVC标准,以及即将推出的高效视频编码或HEVC编解码器)来显著提高其编码效率。在另一个实施例中,当标准兼容性没有要求时,本发明可以通过修改当前和未来的视频编码标准(例如,最先进的PEG4/H.264 AVC标准,以及即将推出的HEVC编解码器),使编码效率提高到更高的水平。
在此方面,在详细说明本发明的至少一个实施例前,应当理解,本发明并不限于应用到如下描述中或其举例中或附图中所示的构造的细节和元件的排列。本发明可以应用到其他实施例并且通过各种形式实行。另外,应当理解本文所采用的措辞和术语是出于描述的目的,而不应被视为限制。
附图说明
为了更好的理解本发明、更清楚的说明本发明的目的,下面将结合具体实施例对本发明做进一步描述。对本发明的描述参考如下所述的附图,其中:
图1是本发明实施例中在预测视频编码中相除归一化结构流程的示意图。
图2是本发明一个实施例中的所述系统的系统示意图。
图3是本发明实施例中在预测视频解码中相除归一化结构流程的示意图。
图4是本发明实施例中作为能量补偿因子(纵轴)和量化步距Qs(横轴)的函数之间关系的曲线图。
图5是一个视频帧中针对不同宏块的计算的相除归一化因子的视觉举例图。
图6是本发明实施例中最优拉格朗日参数λ作为拉普拉斯分布参数Λ和量化Qstep的函数的曲线图。
图7a是本发明和现有技术中标准测试视频序列News@QCIF使用的MPEG4/H.264AVC编码方式的码率-SSIM(结构相似度)的性能比较曲线图。
图7b是本发明和现有技术中标准测试视频序列Bus@CIY使用的MPEG4/H.264AVC编码方式的码率-SSIM(结构相似度)的性能比较曲线图。
图7c是本发明和现有技术中标准测试视频序列Paris@CIF使用的MPEG4/H.264AVC编码方式的码率-SSIM(结构相似度)的性能比较曲线图。
图7d是本发明和现有技术中标准测试视频序列Parkrun@720p使用的MPEG4/H.264AVC编码方式的码率-SSIM(结构相似度)的性能比较曲线图。
图8a是本发明和现有技术中标准测试视频序列Akiyo@QClF使用的MPEG4/H.264AVC编码方式的码率-SSIM(结构相似度)的性能比较曲线图。
图8b是MPEG4/H.264 AVC编码方式和本发明中使用的标准测试视频序列Tempete@CIF的码率-SSIMW的性能比较曲线图。
图8c是MPEG4/H.264AVC编码方式和本发明中使用的标准测试视频序列Waterfall@ClF的码率-SSIMW的性能比较曲线图。
图8d是MPEG4/H.264AVC编码方式和本发明中使用的标准测试视频序列Night@720p的码率-SSIMW的性能比较曲线图。
图9是一种可以为本发明实施例实践提供合适运算环境的通用计算机设备。
在附图中,本发明的实施例通过举例的方式示出。但是应当清楚地理解,说明书和附图仅用于说明的目的,并作为对理解的帮助,并且不旨在作为对本发明的限制的定义。
具体实施方式
如上所述,本发明涉及一种视频编码的系统、方法及计算机程序产品。
在一方面,本发明的系统和方法使用了一种基于结构相似度(SSIM)的相除归一化机制来改进视频编码方案,其中的例子包括MPEG/H.264AVC标准和高效率的视频编码(HEVC)。在一个基于SSIM的相除归一化方法中,所述当前帧的帧预测残差可以变换成一组系数,并且相除归一化机制可以用于归一化每个系数。归一化因子可设计成反映或粗略估计SSIM定义的归一化因子。用于相除归一化系数的率失真优化(RDO)的拉格朗日参数可以由量化步距和先验分布函数来确定。本发明一般可用于提高解码后的视频感知质量而不增加数据码率,或者降低压缩视频流的数据码率而不会牺牲解码后的视频的感知质量。
在本发明的一个实施例中,所述视频编码系统可能涉及到一种预测编码方案,其中在对当前帧进行编码过程中,可以通过在一个或多个先前编码的帧的预测中减去当前帧来得到一个预测残差。所述预测残差可以变换形成一系列系数,例如DCT系数。一种相除归一化机制可以用来归一化每个系数。所述归一化系数可以设计成反映或粗略估计在SSIM度量中的归一化因子。为相除归一化系数进行RDO的拉格朗日参数可以由量化步距和/或先验分布函数来确定。量化和熵编码可以应用到归一化系数,以产生压缩的视频流。本发明一般可用于提高解码后的视频感知质量而不增加数据码率,或者降低压缩视频流的数据码率而不会牺牲解码后的视频的感知质量。
一般情况下,相除归一化是公认的感知和统计动力非线性图像表示模型。其是在人类视觉系统中为实现掩蔽效应的一种有用的帧,是指在一个大的相邻元件中降低图像分量的能见度。它也在为生物感知系统的许多神经元的反应的建模中起了重要作用。现有技术中的视频编码技术没有很好的将SSIM运用到使用相除归一化方法的视频编码帧中。如本文所述,本发明将SSIM运用到了使用相除归一化方法和配套系统的视频编码帧中。
所述SSIM指数可以通过更好的代表感知图像质量提供好处和优势。一个质量被评估的图像信号可以代表无失真的参考信号和误差信号的总和。现有技术的方法可以客观地量化误差信号的强度。然而,两幅失真的图像可以有相同的误差信号,但是可以有不同类型的随可见性而变化的误差。因此,现有技术的图像质量评估系统有一些明显的限制,因为这些系统是自下而上的复杂办法,其依靠一批笼统的假设和概括。使用SSIM指数可以用自上而下的方法来认识到,人类的视觉系统可以更好的适应于从其视场中提取结构信息。通过一种结构信息变化措施,SSIM指数提供了一种近似感知的图像失真。因此,图像失真的方差可以由SSIM指数识别,而这些图像失真的方差是无法通过现有技术的方法和系统进行识别的。
可以在任一象素或变换域定义所述SSIM措施。在像素域中,两组像素之间的SSIM可以是下列一个或多个元件:(i)[两组像素的平均强度值的乘积加上一个常数]与[一个或一组平均强度平方值的总和加上一个常数]的比值;(ii)[两组像素的标准偏差值的乘积加上一个常数]与[基于一个或两组像素方差总和的信号能量加一个常数]的比值;或者(iii)[两组像素强度的互关联加上一个常数]与[两组像素的标准偏差的乘积加上一个常数]的比值。SSIM的标准定义是以下三项的乘积。
其中,μx,σx和σxy分别代表平均值,标准差和互相关;C1,C2和C3是为了避免当平均值和方差接近于0时的不稳定性使用的常量。然而,可以存在其它变型,如,(i)只使用三项中的一项或两项;(ii)将一项或多项升幂;(iii)将几项求和而非相乘;(iv)在分母中使用μ和σ的任意一项。
可以使用变换域系数定义所述SSIM指数,例如DCT系数。两组变换系数之间的SSIM可使用以下一项或多项来计算:(i)[DC值的乘积加上一个常数]与[一个或一组DC强度值的总和加上一个常数]的比值;(ii)[两组AC系数互相关加上一个常数]与[基于一个或两组AC系数的方差的信号能量加上一个常数]的比值。DCT域中的两组系数x和y之间的SSIM可以计算如下:
其中X(0)和Y(0)是DC系数,且X(k)和Y(k)对于k=1时,N-1是AC系数;C1和C2是用于为了避免当平均值和方差接近0时的不稳定性而设的常量,N表示块的大小。在像素域的情况下,相似SSIM定义的变化也同样适用于变换域。归一化因子需要在变换域中进行计算,例如在DCT域中,系数可以被重新分组为相同频率和方向的子带。例如,在每个DCT块中处于同一位置,但是来自一个帧的不同块的DCT系数可以被重新分组到一个DCT子带。每个子带的先验概率密度函数可被用于调整相应的系数的归一化因子。作为一个本发明优于现有技术的益处或优势,现有技术中先进的视频编码技术使用预测先前编码帧的方法来预测将被编码的当前帧。预测残差进行了变换,例如,通过在量化和熵编码过程之前变换DCT。本发明不采用现有技术的标准做法,而是将“相除归一化”,“反相除归一化”和“归一化因子计算”模块插入到帧中。
现在通过参照附图更详细的描述本发明的系统和方法。
参照图1,图1是本发明实施例中在预测视频编码中相除归一化结构流程的示意图。通常现有技术的先进视频编码技术通过预测先前编码的帧来预测将要编码的当前帧。预测残差进行了变换,例如,通过在量化和熵译码过程之前变换DCT。本发明不采用现有技术的标准做法,而是将“相除归一化”,“反相除归一化”和“归一化因子计算”模块插入到帧中。通过这种方式,输入的链接和输出的链接可以通过相除归一化模块10,反相除归一化模块12和归一化因子计算模块14中的任意或全部模块关联起来。
在本发明实施例中,归一化因子可以通过基于像素和/或变换的可获得数据的统计来计算,例如DCT,域,从原始和/或残差帧,从当前和/或先前编码的相邻帧。在本发明一个实施例中,变换(DCT)域中从预测帧中提取的方差统计可以用来计算归一化因子。归一化因子可以根据每个变换系数的先验概率密度函数的进一步调整。归一化因子可以被设计为将信号变换为基于SSIM的感知一致空间进而作为一个感知准则。所计算的归一化因子可以用于在正则量化和熵编码之前归一化变换系数,或者用于自适应的衡量量化步距,在这种情况下,可以不需要相除归一化模块和反相除归一化模块。
参照图2,图2是本发明一个实施例中的所述集成了帧捕获元件18的系统的系统示意图。所述帧捕获元件可用于根据本发明公开的方法处理当前或历史的帧。历史帧或历史帧结果,可以是前帧或由帧捕获元件来获得的历史帧结果。通过所述帧捕获元件从保留的先前编码过的历史帧或前帧的信息中,得到一个或多个历史帧或一个或多个历史帧结果。一个或多个历史帧和/或帧结果可以选择性的通过其他方式被所述帧捕获元件访问或者从前帧结果贮存库20转移至所述帧捕获元件。
仍参照图2,所述前帧结果贮存库可以可以独立于所述帧捕获元件,甚至可以与所述帧捕获元件相距很远。所述前帧结果贮存库和所述帧捕获元件可以连接起来,或通过其他方式链接起来。连接和链接的方式可以有很多种,例如无线链路,有线链路,或者其他方式的连接和链接。连接或链接可以是直接的存在于所述帧捕获元件和所述前帧结果贮存库之间,或者可以是经由连接服务商,例如因特网,云,或任何其它类型的连接推服务商。连接或链接可以允许在所述帧捕获元件和所述前帧结果贮存库之间进行信息传输。例如,所述帧捕获元件可以接收所述前帧结果贮存库发送的信息;所述信息可以为一个或多个前帧,或一个或多个前帧结果。所述帧捕获元件还可以发送信息到所述前帧结果贮存库,例如一个或多个前帧,或一个或多个前帧结果。所述前帧结果贮存库可以和数据存储装置连接,如在远程或本地服务器上的数据库,或者所述前帧结果贮存库可以其中存储传输的信息。
所述帧捕获元件可以接收表示一个或多个帧的信息。所述一个或多个帧可以通过各种方式提供给所述帧捕获元件。作为一种可能的信息传输方式,如图2所示的帧贮存库22可以和所述帧捕获元件连接或链接起来。所述帧存储库可以将一个或多个帧传送至所述帧捕获元件。帧,即当前帧,也可以通过其他各种方式传送至所述帧捕获元件,例如,直接提供视频馈送或其他帧馈送。
在一个实施例中,所述帧贮存库22可以独立于所述帧捕获元件,甚至可以与所述帧捕获元件相距很远。所述帧捕获元件和所述帧贮存库可以连接起来,或通过其他方式链接起来。连接和链接的方式可以有很多种,例如无线链路,有线链路,或者其他方式的连接和链接。连接或链接可以是直接的存在于所述帧捕获元件和所述帧贮存库之间,或者可以是经由连接服务商,例如因特网,云,或任何其它类型的连接推服务商。连接或链接可允许在所述帧捕获元件和所述帧存储库之间进行信息传输。例如,所述帧捕获元件可以接收所述帧存储库发送的信息;所述信息可以为一个或多个前帧,或一个或多个前帧结果。帧捕获元件还可以发送信息到所述前帧结果贮存库,例如一个或多个前帧。所述帧贮存库可以和数据存储装置连接,如在远程或本地服务器上的数据库,或者所述帧贮存库可以存储传输的信息。所述帧捕获元件可以从外部来源接收的信息,包括远程数据源,并且可以以各种方式连接到这些来源,例如本文所述的任何一种帧贮存库和帧捕获元件连接或链接方式。
所述帧捕获元件可以接收或者捕获一个或多个帧,还可以接受或获得一个或多个前帧或一个或多个对应于一个或多个帧的前帧结果。所述帧捕获元件可以被连接到,或者被合入感知编码元件16。如图2所示,所述感知编码元件可以是独立的,但是必须要链接到所述帧捕获元件18。技术人员需要了解,所述感知编码元件可以可选的集成在所述帧捕获元件上,或者所述感知编码元件可以通过本发明实施例所述的各种方式连接或链接到所述帧捕获元件。
所述感知编码元件可以用于通过本文所描述的方式来编码一个或多个从所述帧捕获元件接收到的帧。所述感知编码元件适用于本发明的一个基于SSIM的相除归一化方法。在运算过程中,所述感知编码元件可以使用一个或多个接收到的帧,或由所述帧捕获元件获得的或捕获的帧的相应的一个或多个前帧,或一个或多个前帧结果。所述一个或多个帧以及相应的一个或多个前帧和/或一个或多个前帧结果是可以被传输的,或者由所述帧捕捉元件提供给所述感知编码元件。所述感知编码元件可以对一个或多个帧以及相应的一个或多个前帧和/或一个或多个前帧结果通过本文所述的各种方式进行编码,所得结果可以用于提高解码视频的感知质量而不增加数据码率,或者降低压缩视频流的数据码率而不会牺牲解码后的视频的感知质量。
所述帧捕获元件可以是一个编码器,例如,一个MPEG4/H.264AVC编码器,其具有一个连接的或结合的感知编码元件。所述帧捕获元件或任何与其链接的元件可以结合或连接到一个编码器设备,或任何计算机系统。在这种方式下,本发明的所述系统可以结合到或者链接到其他系统上。这种连接起来的系统可以用于提供例如本发明所述的各种结果的信息给一个或多个用户。例如,连接系统可以包括输出装置,例如显示器。连接系统还可以传输信息到本发明所述的系统中,例如,传输一个或多个帧,或一个或多个前帧,或前帧结果给本发明所述任一系统的任一元件。技术人员需要了解,本发明所述的系统和其任一元件可以通过多种方式集成到或者连接到其他的系统上。
图3是本发明实施例中在预测视频解码中相除归一化结构流程的示意图。如图3所示,可以代表本发明中的解码器侧的所述编码视频流30需要对编码器使用的归一化因子进行一个或多个相应的跳帧,因而可以准确地解码或编码视频。更具体地,本发明不采用现有技术的标准方法。相反,本发明将一个“反相除归一化”模块和一个“归一化因子计算”模块插入到帧中。这些模块对应于如图1所示的归一化因子计算模块12和反相除归一化模块14。这些模块的输入和输出链接可以通过反相除归一化模块和归一化因子计算模块的任一个或者两者同时关联起来。
在本发明实施例中,一个残差相除归一化和率失真优化联合的方案可以用于视频编码。本发明实施例使用了SSIM指数和其在DCT域中的推导。归一化系数可以通过预测宏块来获得。因此,可以自适应地确定量化矩阵,并且可以不需要将辅助信息将从编码器发送到解码器。此外,基于SSIM指数,本发明实施例涉及到一个用于模式选择的新失真模型和感知RDO方案。
本发明涉及到一种预测视频编码帧,在这种帧中,先前编码的帧用于预测当前帧和仅在编码后的预测残差。在本发明中,C(k)可能为残差的kthDCT变换系数,之后归一化的系数可以通过如下公式计算C′(k)=C(k)/f,其中,f为正归一化因子。对给定的Qs的归一化系数的量化可以通过如下公式计算:
其中p是舍入的量化偏移。在解码器中,C(k)去量化和重构可以通过如下公式计算:
本发明中的相除归一化方案可以被理解为两种方式。一种采用了一个自适应归一化因子,后面接一个预定义的固定间距Qs。可选地,每个MB都被定义一个自适应的量化矩阵,因此每个系数都可以用一个不同的量化步距Qs·f来量化。这两种方式的效果是等同的。
在本发明实施例中,本发明比先进的高效率视频编码HEVC更有优势。目前,HEVC测试模型(HM)采用量化参数(QP)缩放方案,类似于MPEG4/H.264AVC标准。
每个变换系数的量化步距大小可以通过如下公式近似确定:
改进的量化步距的方程中,Q′s可写为:
其中QP′=QP+ΔQP是改进的量化参数,作为相除归一化的结果。对应的ΔQP是归一化因子的函数,f通过下式计算:
ΔQP=6log2f。
由于f是实数,ΔQP不一定是整数,其中,为获得最佳的感知质量,对每个编码单元的QP值进行微调。
在这一点上,本发明可以基于应用环境通过两种不同的方式确定ΔQP值。在第一种情况下,视频编解码器不需要与当前/未来的视频编码标准(如MPEG4/H.264AVC或即将推出的HEVC)兼容。在这种情况下ΔQP=6log2f用于确定ΔQP,从而最大化了编码效率性能。在另一种情况下,视频编解码必须同当前/未来的视频编码标准(如MPEG4/H.264AVC或即将推出的HEVC)兼容,其通常不允许ΔQP值为非整数。因此在这种情况下,ΔQP=6log2f量化为最接近的整数。这种方法使本发明方便地用于标准视频编解码,因为没有必要改变接收端的解码器设备(例如,智能电话和高清电视机),并且本发明只需变化编码器侧。可以有利于很少的降低编码效率性能。
在确定相除归一化因子时,本发明优化了SSIM指数并且在DCT域的SSIM指数中使用分母来确定归一化因子。
在视频编码的高码率的假设中,源概率分布是大致均匀的,并且MSE可以通过如下公式建模:
考虑到(1)至(3)中,本发明可以为DCT变换将每个MB分割成为子MB,Xi(k)表示在第i个子MB中的第k个DCT系数,然后每个MB中DC和AC系数的归一化因子可以计算如下:
其中,E代表数学上的期望算子。
这些归一化因子,需要在编码器和解码器上进行计算。在实际实施中,困难的是失真的MB在被编码前在编码器上并不存在,而且原始MB在解码器上是完全不可以访问的。幸运的是,上述预测MB存在于编码器和解码器两侧。假设预测MB的属性类似于原始的和失真的MB的属性,在一个实施方案中,本发明可通过如下公式计算近似归一化因子:
其中Zi(k)是所示每种模式中第i个子MB的第k个DCT系数。对于内部模式,本发明在先前编码帧中的相同位置使用MB。
由于AC系数的能量可能会由于量化损失,在实施例中,本发明可以使用一个补偿因子s来弥补在预测MB的AC系数和原始MB之间的能量差异。
图4示出本发明实施例中两个帧的布局,展示了作为量化步距Qs(横轴)函数的能量补偿因子s(纵轴)。四个曲线分别表示四个不同的标准的测试视频序列的结果,为“Flower”,“Foreman”,“Bus”,和“Akiyo”。所有序列都使用CIF格式。
值得关注的,如图4所示,s可以展示与如Qs轴40所示的Qs的近似线性关系,所述线性关系可以根据经验值建模为:
s=1+0.005·Qs (9)
在本发明实施例中,在每个MB中的DC和AC系数的归一化因子可以可选的定义如下:
这些归一化因子,需要在编码器和解码器上进行计算。在实际实施中,困难的是失真的MB在编码前在编码器上并不存在,而且原始MB在解码器上是完全不可以访问的。幸运的是,上述预测MB存在于编码器和解码器两侧。假设预测MB的属性类似于原始的和失真的MB的属性,在一个实施方案中,本发明可通过如下公式计算近似归一化因子:
其中,z代表预测的子MB或变换单元(TU),s在方程(9)中定义。
因此,在本发明中,4×4DCT变换系数的量化矩阵可以定义为
这些归一化因子可以随空间的改变而变化。
如图4所示,s可以展示与如Qs轴40所示的Qs的近似线性关系。图4示出了四四个不同的标准的测试视频序列的结果,包括“Flower”,“Foreman”,“Bus”,和“Akiyo”。所有序列都使用CIF格式。能量补偿因子s展示了与本发明中Qs的近似线性关系,如图4中绘制的曲线图中4种测试视频序列所示。
使用受约束Rc限制的比特数R来减小所述感知失真值D以表述视频编码中RDO过程。这可以转化为无约束的优化问题:
min{J} where J=D+λ·R (11)
其中J是码率失真(RD)成本,λ是拉格朗日乘数,其控制R和D之间的平衡。
在现有技术RDO方案中,经常在实施方式中使用的失真模型,如SAD和SSD。本发明可用与残差归一过程一致的新失真模型替代现有技术中使用的这种失真模型。所述失真模型可被定义为归一化系数之间的SSD,其用以下公式表达:
根据(11),RDO问题可以近似为
在所述相除归一化域中,所述失真模型可以计算归一化后的原始值与失真后的DCT系数之间的SSD。因此,其在SSD优化案例中可以视为拉格朗日参数选择问题。例如,如果这种方法并入编码器中,那么其可能选择与它们相对应的优化后的拉格朗日参数相同的λdc和λdc以实现基于SSD准则最佳编码。
如果对DCT归一矩阵(10)进行微调,那么上述方法可以进一步改善,使每个AC系数具有不同的归一化因数。本发明可以定义拉格朗日参数λ作为量化步距Qs的函数和/或归一化系数的先验概率分布。例如,可以利用拉普拉斯分布建模先验分布,其由下式给出
其有单一参数Λ。然后可以导出函数Qs的最优拉格朗日参数λoρt与Λ之间的关系:
λopt=f(Λ,Qs) (15)
在本发明的实施例中,这样的函数可以用作实际视频编码器中的查找表。
参照图5,图5是一个视频帧中针对不同宏块的计算的相除归一化因子的视觉举例曲线图。(a)是原始帧50;(b)是相除归一化因子来计算对于空间52的宏块的DC系数;(c)是相除归一化因子计算用于空间54的宏块的AC系数。现有技术中的视频编码方法没有这样的归一化过程,因此对应此情况下,所有的归一化因数都是恒定。本发明中的空间变化相除归一化因子指导可用带宽的重新分配以根据SSIM测量改善该最终编码结果。
图.6是本发明实施例中最优拉格朗日参数λ作为拉普拉斯分布参数Λ和量化Qstep的函数的曲线图。本发明可利用这种关系通过查找表来预测最佳拉格朗日参数λ。拉普拉斯分布参数Λ与量化Qstep可以作为输入变元。
因为DCT是符合Parseval′s定理的正交分布,其结果可以是
因此,虽然本发明的方法和其它计算可通过DCT域推导出来,但在本发明的一些其它实施例中,对于每个块可能不需要执行实际的DCT变换,以便实现归一化,而是可以在像素域中进行计算。
所述帧级量化矩阵和相除归一化可以组合到单个量化矩阵,例如,4×4DCT
在添加的因子ωij中,i=1,2,3,4,j=1,2,3,4。在编码当前帧之前,拉普拉斯参数与能量的期望值应该可用。然而,只有在编码之后,才能获得它们的精确数量。因为当没有场景改变时,可以认为它们在短期内是常数,在本发明的实施例中,可以通过以相同形式编码的帧的前3个数的平均值估算它们:
下面描述本发明用于改善HEVC的一个方面。HEVC编解码器使用方形编码树块(CTB)作为基本单位,其可以具有各种尺寸,而不相应于其大小进行区分。除了基于帧的环路滤波,所有处理都是基于CTB进行的,包括帧间/帧内预测、变换、量化和熵编码。在HEVC中,其与CTB结合,所述预测模式的基本单元是所述预测单元(PU),其可以具有不同的尺寸,且不一定是矩形。除了CTB和PU定义,用于变换和量化的所述变换单元(TU)在HEVC中是单独界定的。TU的尺寸可以与CTB的尺寸一样大。在实施例中,TU的范围在4×4到64×64之间。所用的三种主要帧类型是:帧内编码帧或I帧(其不使用其它帧的预测进行编码和解码);预测帧或P帧(它使用过去帧的预测进行编码和解码);和双预测帧或B帧(它使用过去和将来两个帧的预测进行编码和解码)。
在本发明的一个说明性实施例中,该编码方案完全兼容于HEVC支持的各种帧类型,以及各种尺寸或形状的CTB,PU和TU,这可创造显著的复杂情况而不是先前的视频编码标准定义的宏块(MB)结构,如MPEG4/H.264AVC。首先,将所预测的当前帧划分为4×4块(CTB,PU和TU的最大公约数大小)获得局部相除归一化因子的局部期望值((6)和(7)的分母),然后再在整个帧中求平均值。这就避免了产生奇数个DCT系数的各种尺寸的TU很难估计相除归一化因子的期望值问题。其次,在像素域中计算每个4×4块的相除归一化因子而不是在DCT变换域计算。然而,由于DCT变换的方差保持属性,所以它们实际上是等价的。这也就避免了每个4×4块的DCT计算。再者,所述相除归一化因子空间自适应,但与单个TU一致。换句话说,每个TU都与单组相除归一化因子关联但与其它TU不同。因此,方程组(10)中的归一化矩阵是基于TU的大小而变化的。然而,仅使用两个相除归一化因子,一个是DC系数的相除归一化因子,另一个是所有AC系数的相除归一化因子。由于每个TU可以包含多个4×4块,每个TU的相除归一化因子是通过TU中的所有4×4块的相除归一化因子的平均值。
实施例与结果
实施尝试与试验表明:与使用MPEG/H.264AVC JM15.1编码器的现有技术相比,本发明中,以平均大约35%的减少码率大约可以减少21%-63%的HD720p序列,以平均大约15%的减少码率大约可以减少6%-12%的具有较低分辨率的序列。本发明还可以包括量化步骤,如本文所述,并不使用现有技术MPEG/H.264AVC JM15.1编码器。具体地,在测试中,常用编码配置如下:只启用4×4DCT变换;启用所有可用的帧间和帧内模式;五个参考帧;一个I帧随后99P帧;高复杂度的RDO和固定量化参数(QP)。高比特率(QP1={18,22,26,30})和低比特率(QP2={26,30,34,38})视频编码的减少码率是稳定的。
因为现有技术使用MPEG/H.264AVC JM15.1编码器,所以本发明在维持同水平的感知视频质量的同时可以减少码率。客观SSIM质量测量和主观实验已经证实本发明的感知视频质量的水平。对于YCbCr彩色视频,只使用亮度分量Y计算SSIM值,并且使用给出的三个颜色分量的加权和计算加权的SSIM值,记为SSIM
SSIMω=WY·SSIMY+WCb·SSIMCb+WCr·SSIMCr (19)
其中,加权值分别为:WY=0.8,WCb=WCr=0.1。本发明可以实现的减少码率可取决于编码的视频信号性质。从图中可以看到该变化。
图7(a)-7(d)是本发明实施例和现有技术MPEG4/H.264AVC编码方式的码率-SSIM性能比较测试结果曲线图。四个标准测试视频序列包括QCIF格式70的News,CIF格式72的Bus,CIF格式74的Paris和720p格式76的Parkrun。每个曲线图中的水平轴是比特率,单位为kbps,垂直轴是解码的视频序列的SSIM值。嵌入其中的具有圆圈的曲线是每幅曲线图中现有技术的MPEG4/H.264AVC编码方法获得的结果。嵌入其中的具有正方形的曲线表示每幅曲线图中本发明实施例获得的结果。与现有技术的方法相比,在每幅曲线图中,在相同SSIM下,本发明实现了相同比特率的更好的SSIM值。此外,与现有技术的方法相比,在每幅曲线图中,在相同的SSIM下,本发明实现了较低的比特率。
例如,如图5所示,与使用现有技术编码方案得到的结果相比,本发明帧编码方法的码率-SSIM性能可提供改进的帧视觉质量。图5包括:以该原始帧为例(a)50;以H.264编码帧为例(b)52,其给出了在空间中为宏块的DC系数计算的相除归一化因子;以用提出的RDO方法编码的H.264帧为例(c)54,其给出了在空间中宏块的AC系数计算的相除归一化因数。现有技术视频编码方法不包括如本发明所述的归一化过程。相反地,在现有技术视频编码方法中,所有归一化因子都是恒定。本发明的空间变化相除归一化因子可能导致可用带宽的重新分配以改进最终编码结果的SSIM度量。
图8(a)-8(d)是本发明实施例与MPEG4/H.264AVC编码方案的码率-SSIMw的性能对比曲线图。所述4个子图中示出四个标准测试视频序列的测试结果,它们分别是QCIF格式的“Akiyo”,CIF格式的“Tempete”、CIF格式的“Waterfall”,720p格式的“Night”。更具体地,图8a是CIF格式的标准测试视频Akiyo序列测试结果的曲线图80。图8b是CIF格式的标准测试视频序列Tempete测试结果的曲线图82。图8c是CIF格式的标准测试视频序列Waterfall测试结果的曲线图84。图8d是720p格式的标准测试视频序列Night测试结果的曲线图86。
图8a-8d中的每一幅图中的横轴为比特率,以kbps为单位,纵轴是解码视频序列的SSIMW值。具有嵌入其中的圆的曲线图80、82、84、86中的曲线反映出由现有技术MPEG4/H.264AVC编码方法获得的结果。具有嵌入其中的方形的曲线图80、82、84、86中的曲线反映出由本发明实施例获得的结果。对比本发明实施例的视频编码方法和现有技术MPEG4/H.264AVC视频编码方法,本发明实施例实现了如在曲线图80、82、84、86中的曲线反映的一样相同比特率更好的SSIMW值。曲线图80、82、84、86还反映出在相同的SSIMW下,与现有技术MPEG4/H.264AVC视频编码方法相比,本发明实施例实现了较低的比特率。本发明系统和方法可以应用于多个实施例。适配的计算机设备,以及相关的通信网络、设备、软件和固件可以提供平台以实施一个或多个如上所述的实施例。例如,图9是通用计算机装置900,其可包括连接到存储单元904和随机存取存储器906的中央处理单元(“CPU”)902。所述CPU902可以处理操作系统901、应用程序903、和数据923。所述操作系统901、应用程序903、和数据923可以存储到存储单元904和按要求需要加载到存储器906。计算机设备900还可以包括图形处理单元(GPU)922,其可操作地连接到CPU902和存储器906以从CPU902卸载密集图像处理计算和用CPU902并行运行这些计算。运算符907可以使用通过视频接口905连接的视频显示器908以及通过I/O接口909连接的各种输入/输出设备,诸如键盘910、鼠标912、以及盘驱动器或固态驱动器914与所述计算机设备900交互。在已知的方式中,将所述鼠标912可以用于控制光标在所述视频显示器908中的移动、以及利用鼠标按钮操作各种在视频显示器908上的图形用户界面(GUI)控件。磁盘驱动器或固态驱动器914可以用于接受计算机可读介质916。所述计算机设备900可以经由网络接口911形成网络的一部分,从而允许所述计算机设备900与其它适配的数据处理系统(未示出)进行通信。本发明实施例的系统和方法可以实际上运用在各种计算机设备,包括台式计算机、笔记本计算机、平板计算机或无线手持。本系统和方法还可以作为计算机可读/可用介质应用以使得一个或多个计算机设备根据本发明来实现方法中的各个过程步骤,该介质包括计算机程序代码。应当可以理解为,术语计算机可读介质或计算机可用介质包括在一个或多个便携式。特别地,计算机可读/可用介质可包括程序代码,其包含在一个或多个便携式存储产品(例如。光盘、磁盘、磁带等),计算设备的一个或多个数据存储部分,例如与计算机和/或存储系统相关联的存储器。
示例性结果
在表A中,本发明实施例和MPEG4/H.264AVC编码方案的码率-SSIM和码率-SSIMw性能对比如下。
表A
表A的左列包括标准测试视频序列。采用表A左列中所述标准测试视频序列进行试验,其中QP1和QP2表示高比特率和低比特率编码配置。表A中最左边列的右方四列包括高比特率(QP1)测试结果,而表的左侧四列包括低比特率(QP2)测试结果。高比特率(QP1)和低比特率(QP2)试验中的每一个高比特率的四个测试结果包括:(i)固定比特率的改进SSIM值;(ii)固定SSIM值比特率变化(以百分比记);(iii)固定比特率的改进SSIMW值;和(iv)固定SSIMW值比特率变化(以百分比记)。高比特率(QP1)和低比特率(QP2)中的每一个的四列依序从左至右分别在这四个结果的每一个示出。如表A所示,本发明实施例可优于现有技术MPEG4/H.264AVC编码方案。基于表A所示的结果,比特减少码率平均增长约15%。作为优于现有技术MPEG4/H.264AVC编码方案的本发明实施例,实现了该平均增长而不牺牲SSIM或SSIMW性能。本技术领域技术人员将认识到本实例仅提供作为一个可能平均增长的例子,其可以通过优于现有技术编码方案的本发明实施例实现,可以基于其它试验实现其它平均增长,包括与现有技术的编码方案相比本发明可以反映更好的结果的平均改进。
在表B中,本发明和MPEG4/H.264AVC编码方案的编码器和解码器计算复杂性对比如下。
表B
序列 |
编码器端ΔT |
解码器端ΔT |
Akiyo(QCIF) |
1.20% |
8.97% |
News(QCIF) |
1.17% |
11.30% |
Mobile(QCIF) |
1.34% |
5.3% |
Bus(CIF) |
1.16% |
9.16% |
Flower(CIF) |
1.11% |
8.75% |
Tempete(CIF) |
0.96% |
7.38% |
平均值 |
1.16% |
8.48% |
分别对6个标准测试视频序列进行试验,它们是QCIF格式的Akiyo、QCIF格式的News、QCIF格式的Mobile、CIF格的Bus、CIF格式的Flower、CIF格式的Tempete。本发明实施例的视频编解码器在该试验中的计算时间增加上报给编码器和解码器,同样现有技术视频编解码器的MPEG4/H.264AVC的计算时间增长也一样上报。基于所有编码器的测试视频序列,该计算时间平均增加在表B的中间列示出。基于所有解码器的测试视频序列,该平均时间增加在表100的最右列示出。解码器反映出大约8%的计算时间平均增长。计算时间平均增加可以是计算复杂度的有用指示符。
在表C中,本发明和高清(HD)视频序列的MPEG2/H.264AVC编码方案的码率-SSIM性能对比如下。
表C
表C示出了本发明实施例和具有720p分辨率(1280*720)的HD视频序列的MPEG4/H.264AVC编码方案的码率-SSIM性能。给出了固定SSIM值的比特率改变(以百分比计)。在所有情况下,本发明优于现有技术MPEG4/H.264AVC编码方案,并且就比特率降低(不牺牲SSIM性能)而言,平均增长约为35%。
实施试验和测试还表明,与现有技术使用的具有默认配置HEVC HM3.0编码器相比,本发明可以实现显著的数据码率降低。
在表D中,本发明和HEVC编码方案的码率-SSIM性能对比如下。
表D
在表D中,左列中包括标准测试视频序列。中间列给出了视频序列的格式,它们是WQVGA(分辨率432×240),WVGA(800×480)分辨率,720p(分辨率1280×720)或1080p(分辨率1920×1080)。右列在保持相同的SSIM值的同时示出了比特率变化(以百分比计)。因此,本发明实施例系统和方法优于现有技术HEVC HM3.0。不同视频序列的性能增益可以在高达32.1%的比特率减少到低至3.0%码率减少的范围内显著变化。就比特率而言,基于所显示的结果,平均增长为11.82%。作为优于现有技术HEVC HM3.0编码方案的本发明实施例的系统和方法,这种增长可以在不牺牲SSIM性能的情况下实现。本技术领域技术人员将认识到本实施例仅提供作为一个可能平均增长的示例性例子,其可以通过优于现有技术HEVC编码方案的本系统和方法实现。更大或较小的增长可以基于其它试验实现。
MPEG4/H.264AVC JM15.1的顶部上计算复杂度开销也可随视频内容的性质而变化,但可以存在不同视频之间的少量偏差。根据本发明,平均计算复杂度的增加已经示出且范围大约是在编码器1%和在解码器8%之间,如本文所述。
在表E中,本发明和HEVC编码方案的编码器和解码器计算复杂度对比如下。
表E
在该说明性示例中,增加的计算成本在编码器端约为0.8%,在解码器端约为2.1%。本技术领域技术人员将认识到优于现有技术编码方案的本发明实施例仅提供作为一个可能复杂度变化的例子的计算复杂度估计。其它较大或较小的计算复杂度的估计可以基于其它试验获得。
本发明人发现:平均起来,本发明基本上可以改善视频编码方案的码率-失真性能,例如MPEG4/H.264AVC和HEVC。然而,性能改进可以显著地变化,这取决于要编码的视频帧的内容。一般而言,在上下文相关内容方面具有大变化的视频帧常常显示出较大的性能增益。因此,本发明系统和方法可以基于所述视频帧的局部内容调节相除归一化因子。该内容可以由局部计算复杂度测度来表征,例如局部对比度,局部能量或局部信号活动。在说明性实施例中,局部复杂度的特征是每个局部4×4块的标准偏差。在计算帧内的所有4×4块的标准偏差之后,可以创建直方图来检查标准偏差值的分布。在说明性实施例中,具有非常大或非常小标准偏差的局部块的归一化因子分别仅限于最大和最小归一化因子值。本发明人发现,相除归一化因子的这种基于内容的调整有助于改善本系统和方法性能增益的鲁棒性。
本文所述的实施例只是用于举例说明本发明的可能实施例。技术人员需要了解本发明应用到其它实施例的可能性。
但是,应认识到对于本领域的普通技术人员来说,本文描述的实施例的其它变化在不偏离本发明范围的情况下也可以实施。因此,其他实施也是可能的。例如,对于可伸缩视频编码、3D电视、医学成像以及远程医疗装置、以及业务提供商等这些技术,任何一个都可以利用本发明实施例。
应用场景举例
本发明通常可以用于存储和传输数字视频信号。它可以在软件和硬件平台上运行。本发明的一个实施例可以是视频编码系统,如图2所示,其包括一帧捕获元件18。所述帧捕获元件根据在此公开的本发明方法可用于处理当前或历史帧。历史帧,或历史帧的结果可以通过所述帧捕捉元件获得,其中,历史帧的结果可以是现有帧或历史帧结果。所述一个或多个历史帧,或一个或多个历史帧结果可通过所述帧捕捉元件获得,即,一旦该元件编码作为前一帧的历史帧,其保持这种信息。可选择地访问一个或多个历史帧和/或帧结果,或以其它方式从前帧结果贮存库20传送到所述帧捕捉元件。
如图2所示,所述前帧结果贮存库可独立于所述帧捕捉元件,甚至可以远离所述帧捕捉元件。连接或任何其它类型的链路可能存在在所述帧捕获元件和所述前帧结果贮存库之间。可以是各种类型的连接或链路,例如无线链路、有线链路或其它类型的连接或链路。连接或链路可以是直接在所述帧捕获元件和所述前帧结果贮存库之间,或可以经由连接设备,例如因特网、云、或任何其它类型的连接设备。连接或链路是可用于允许信息在所述帧捕捉元件和所述帧结果贮存库之间传递。例如,所述帧捕捉元件可以从所述前帧结果贮存库接收信息,该信息可以是一个或多个现有帧,或一个或多个前帧结果。所述帧捕获元件可以进一步发送信息到所述前帧结果贮存库,诸如一个或多个现有帧,或一个或多个前帧结果。该前帧结果贮存库可以连接到数据存储装置,如位于远程或本地服务器的数据库,或所述前帧结果贮存库能够在其中存储传送信息。所述前帧结果贮存库可以从外部来源接收信息,包括远程源,并可以以多种方式连接到这种源,例如,通过本文所述的任何类型的链路和连接为所述前帧结果贮存库和所述帧捕捉元件之间的可能链路或连接。
所述帧捕获元件可以接收表示一个或多个帧的信息。所述一个或多个帧可以以各种方式提供给所述帧捕捉元件。作为一种可能的传输信息的方式,如图2所示,帧贮存库22可以连接或链接到所述帧捕捉元件。可将一个或多个帧从所述帧贮存库提供到所述帧捕捉元件。帧,即当前帧,可以用各种其它方法设置在所述帧捕捉元件,诸如,通过直接提供视频馈送、或其它帧的馈送到所述帧捕获元件。如图2所示,所述帧贮存库22可以与所述帧捕捉元件分开,甚至可以远离所述帧捕捉元件。连接或任何其它类型的链路可能存在在所述帧捕获元件和所述帧贮存库之间。可以是各种类型的连接或链路,例如无线链路、有线链路或其它类型的连接或链路。所述连接或链路可以是直接在所述帧捕获元件和所述帧贮存库之间,或可以经由连接设备,例如因特网、云、或任何其它类型的连接设备。所述连接或链路是可用于允许信息在所述帧捕捉元件和所述帧贮存库之间传递。所述帧捕捉元件可以从所述帧贮存库接收信息,该信息可以是一个或多个帧。所述帧贮存库可以连接到数据存储装置,如位于远程或本地服务器的数据库,或所述帧贮存库能够在其中存储传送信息。所述帧贮存库可以从外部来源接收信息,包括远程源,并可以以多种方式链接到这种源,例如,通过本文所述的任何类型的链路和连接为所述帧贮存库和所述帧捕捉元件之间的可能链路或连接。
所述帧捕捉元件可以接收或捕获一个或多个帧,并且还可以接收或者获得一个或多个现有帧,或对应于所述一个或多个帧的一个或多个前帧结果。所述帧捕获元件可以链接到,或包括感知编码元件。如图2所示,所述感知编码元件16可独立于所述帧捕捉元件18,但是链接到所述帧捕捉元件18。技术人员需要了解,在本发明的实施例中,所述感知编码元件可选择地集成在所述帧捕获元件,或者所述感知编码元件以各种方式可连接到或链接到所述帧捕捉元件。所述感知编码元件可用于以本文所描述的方式编码所述帧捕获元件接受的所述一个或多个帧。所述感知编码元件可以应用本发明的基于SSI的相除归一化方法。在其操作中,所述感知编码元件可利用所述一个或多个现有帧,或对应于所述帧捕捉元件接收到的或者获得或者捕捉到的所述一个或多个现有帧的一个或多个前帧结果。所述帧捕捉元件将所述一个或多个帧和相应的一个或多个现有帧和/或一个或多个前帧结果发送到或者提供给所述感知编码元件。所述感知编码元件可以本文描述的方式编码所述一个或多个帧以及相应的一个或多个现有帧和/或一个或多个前帧结果以产生结果,其可用于在不增加比特率的情况下改进解码的视频的感知质量,或者在不牺牲解码的视频的感知质量的情况下降低压缩视频流的数据码率。
所述帧捕捉元件可以是编码器,包括连接到感知编码元件上的编码器,或者结合到其中的编码器。所述帧捕获元件和链接于其上的任何元件还可以结合或连接至编码设备或者任何计算机系统。在这种方式中,本发明的系统可结合或连接到其他系统。这种连接系统可用于提供本发明的信息,例如,任何结果,给一个或多个用户。例如,所述连接系统可包括输出装置,例如显示屏幕。该连接系统还可以用于传送信息到本发明系统,例如,将一个或多个帧或一个或多个现有帧,或前帧结果传送到本发明或者本发明系统的任何元件。技术人员需要了解各种方式:本发明的系统和其任意元件可以结合到或连接到其它系统。技术人员需要了解:本发明可以应用于各种数字视频应用。例如,智能电话、视频会议、HDTVTM、IPTVTM、Web TVTM、网络视频点播、DVD、数字影院等技术和设备的任何制造商和服务提供商可以利用本发明。例如,智能电话公司,诸如RIMTM、AppleTM、SamsungTM,HTCTM,HuaweiTM,或其他智能电话公司可以使用本发明来改善智能手机的视频传输,包括智能电话用户之间。本发明可以用来建立视频会议应用,在这些应用中,可以显著地降低带宽成本但不影响感知视频质量;或可以以相同的带宽成本显著提高视频的质量。又例如,网络视频提供商、例如YoutubeTM,或其它网络视频提供商可以利用本发明提高传送给消费者的视频质量;和/或减小他们的网络服务器的流量。又再如,当带宽受限时(特别是当视频包含大幅波动),HDTV的当前视频质量通常会受到当前商业压缩系统破坏,因此HDTV服务提供商可以采用本发明改善传递给其客户的HD视频质量。再如,数字电影技术公司,例如1MAXTM,可以使用本发明改善高清数字电影视频内容的质量或减少数字电影网络(有线或无线)业务的通信负担。
需要视频代码转换的网络视频服务提供商将数字视频从一种格式转换为另一个格式,也可利用本发明。当接收到视频信号,它可被本发明重新编码从而产生更好的视觉质量。本发明可以被认为网络部件,或者可以在无其它功能的网络部件体现以应用本文描述的视频编码功能。本发明实施例包括一软件包,诸如计算机程序产品,可允许消费者用计算机硬盘驱动器、DVD、闪存、和其它便携式和/或可输入的存储设备上相同存储空间烧录更多数字内容。
本发明另一实施例可以扩展到可伸缩视频编码帧中,其中可以从底部或较低质量层同高质量层确定相除归一化因子。
另外,为达到立体和多视角视频压缩以及3D体数据压缩的目的,本发明可以直接扩展到3D视频。
以上描述了本发明说明性实施例,但应该理解到,在不脱离本发明权利要求所限定的保护范围之类,对本发明做出的各种修改和变换都应涵盖在本发明的保护范围之内。
参考文献
本文参考了如下现有技术相关的文献:
[1]G.J.Sullivan and T.Wiegand,″Rate-distortion optimization for videocompression,″IEEE Signal Processing Magazine,vol.15,pp.74-90,Nov.1998.
[2]Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,″Image qualityassessment:From error visibiiity to structural similarity,″IEEE Trans,onImage Processing,vol.13,pp.600-612,Apr.2004.
[3]B.Aswathappa and K.R.Rao,″Rate-distortion optimization usingstructural information in H.264 strictly intra-frame encoder,″South EasternSymposium on System Theory,pp.367-370,2010.
[4]Z.Mai,C.Yang,L.Po,and S.Xie,″A new rate-distortion optimizationusing structural information in H.264 I-frame encoder,″Proc.ACIVS,pp.435-441,2005.
[5]Z.Mai,C.Yang,and S.Xie,″Improved best prediction mode(s)selectionmethods based on structural similarity in H.264 I-frame encoder,″IEEEInternational Conference on Systems,Man and Cybernetics,pp.2673-2678,2005.
[6]Z.Mai,C.Yang,K.Kuang,and L.Po,″A novel motion estimation methodbased on structural similarity for H.264 inter prediction,″IEEE InternationalConference on Acoustics,Speech,and Signal Processing,vol.2,pp.913-916,2006.
[7]C.Yang,,R.Leung,L.Po,and Z.Mai,″An SSIM-optimal MPEG4/H.264 AVCinter frame encoder,″IEEE International Conference on Intelligent Computingand Intelligent Systems,vol.4,pp.291-295,2009.
[8]C.Yang,H.Wang,and L.Po,″Improved inter prediction b ased onstructural similarity in H.264,″IEEE International Conference on SignalProcessing and Communications,vol.2,pp.340-343,2007.
[9]Y.H.Huang,T.S.Ou,P.Y.Su,and H.H.Chen,″Perceptual rate-distortionoptimization using structural similarity index as quality metric,″IEEE Trans,on CirGuits and Systems for Video Technology,vol.20,pp.1614-1624,Nov.2010.
[10]H.Chen,Y.Huang,P.Su,and T.Ou,″Improving video coding quality bypereeptual rate-distortion optimization,″Proc.IEEE Int.Conf.Multimedia Exp,pp.1287-1292,Jul.2010.
[11]P.Su,Y.Huang,T.Ou,and H.Chen,″Predictive Lagrange multiplierselection for perceptual-based rate-distortion optimization,″Proc.5thInt.Workshop Video Process.Qual.Metrics Consumer Electron.,Jan.2010.
[12]Y.Huang,T.Ou,and H.H.Chen,″Perceptual-based coding modedecision,″Proc.IEEE Int.Symp.Circuits Syst,pp.393-396,May.2010.
[13]T.Ou,Y.Huang,and H.Chen,″A perceptual-based approach to bitallocation for H.264encoder,″SPIE Visual Communications and Image Processing,Jul.2010.
[14]C.-W.Tang,C.-H.Chen,Y.-H.Yu,and C.-J.Tsai,″Visualsensitivityguided bit allocation for video coding,″IEEE Trans,on Multimedia,vol.8,no.1,pp.11-18,Feb.2006.
[15]C.-W.Tang,″Spatial temporal visual considerations for efficientvideo coding,″IEEE Trans,on Multimedia,vol.9,no.2,pp.231-238,Jan.2007.
[16]C.Sun,H.-J.Wang,and H.Li,″Macroblock-level rate-distortionoptimization with perceptual adjustmentfor video coding,″Proc.IEEE DCC,p.546,2008.
[17]F.Pan,Y.Sun,Z.Lu,and A.Kassim,″Complexity-based rate distortionoptimization with perceptual tuning for scalable video coding,″InternationalConference on Image Processing,2005.
[18]J.Chen,J.Zheng,and Y.He,″Macroblock-level adaptive frequencyweighting for perceptual video coding,″IEEE Trans,on Consumer Electronics,vol.53,pp.775-781,May.2007.
[19]Toshiba,″Adaptive quantization matrix selection,″in ITU WP3/SC16Delayed contribution267,T05-SG16-060403-D-0266,Geneva,Apr.2006.
[20]T.Suzuki,P.Kuhn,and Y.Yagasaki,″Quantization tools for highquality video,″Joint Video Team of ISO/IEC MPEG and ITU-T VCEG JVTB067,Jan.2002.
[21]T.Suzuki,K.Sato,and Y.Yagasaki,″Weighting matrix for JVC codec,″Joint Video Team of ISO/IEC MPEG & ITU-T VCEG JVT-C053,May.2002.
[22]J.Malo,J.Gutierrez,I.Epifanio,F.Ferri,and J.M.Artigas,″Perceptualfeedback in multigrid motion estimation using an improved DCT quantization,″IEEE Trans,on Image Processing,vol.10,pp.1411-1427,Oct.2001.
[23]J.Lee,″Rate-distortion optimization of parameterized quantizationmatrix for mpeg-2encoding,″International Conference on Image Processing,vol.2,pp.383-386,Oct.1998.
[24]E.Yang and X.Yu,″Rate distortion optimization for H.264inter-framevideo coding:A general framework and algorithms,″IEEE Trans,on ImageProcessing,vol.16,pp.1774-1784,Jul.2007.
[25]M.Karczewicz,Y.Ye,and I.Chong,″Rate distortion optimizedquantization,″VCEG-AH21,Jan.2008.
[26]S.Lyu and E.P.Simoncelli,″Statistically and perceptuallymotivated nonlinear image representation,″Proc.SPIE Conf.Human VisionElectron.Imaging XII,vol.6492,pp.649207-1-649207-15,Jan.2007.
[27]Q.Li and Z.Wang,″Reduced-reference image quality assessment usingdivisive normalization-based image representation,″IEEE Journal of SelectedTopics In Signal Processing,vol.3,pp.202-211,Apr.2009.
[28]A.Rehman and Z.Wang,″Reduced-reference SSIM estimation,″International Conference on Image Processing,Sep.2010.
[29]J.Malo,I.Epifanio,R.Navarro,and E.P.Simoncelli,″Non-linear imagerepresentation for efficient perceptual coding,″IEEE Trans,on ImageProcessing,vol.15,pp.68-80,Jan.2006.
[30]J.Portilla,V.Strela,M.J.Wainwright,and E.P.Simoncelli,″Imagedenoising using scale mixtures of Gaussians in the wavelet domain,″IEEETrans,on Image Processing,vol.12,pp.1338-1351,Nov.2003.
[31]S.Channappayya,A.C.Bovik,and J.R.W.Heathh,″Rate bounds on SSIMindex of quantized images,″IEEE Trans,on Image Processing,vol.17,pp.1624-1639,Sep.2008.
[32]X.Li,N.Oertel,A.Hutter,and A.aup,″Laplace distribution basedLagrangian rate distortion optimization for hybrid video coding,″IEEE Trans,on Circuits and Systems for Video Technology,vol.19,pp.193-205,Feb.2009.
[33]E.Y.Lam and J.W.Goodman,″A mathematical analysis of the DCTcoefficient distributions for images,″IEEE Trans,on Image Processing,vol.9,no.10,pp.1661-1666,Oct.2000.
[34]X.Zhao,J.Sun,S.Ma,and W.Gao,″Novel statistical modeling,analysisand implementation of rate-distortion estimation for MPEG4/H.264 AVC coders,″IEEE Trans,on Circuits and Systems for Video Technology,vol.20,pp.647-660,May.2010.
[35]″Joint video team(JVT)reference software[online],″http://iphome.hhi.de/suehring/tml/download/old-jm.
[36]G.Bjontegaard,″Calculation of average PSNR difference between RDcurves,″Proc.ITU-T Q.6/SG16 VCEG 13th Meeting,Austin,TX,Apr.2001.
[37]Z.Wang,L.Lu,and A.C.Bovik,″Video quality assessment based onstructural distortion measurement,″Signal Processing:Image Communication,vol.19,pp.121-132,Feb.2004.