CN102065295B - 对表示图像或图像序列的数据流进行解码的方法和设备 - Google Patents

对表示图像或图像序列的数据流进行解码的方法和设备 Download PDF

Info

Publication number
CN102065295B
CN102065295B CN2010105597260A CN201010559726A CN102065295B CN 102065295 B CN102065295 B CN 102065295B CN 2010105597260 A CN2010105597260 A CN 2010105597260A CN 201010559726 A CN201010559726 A CN 201010559726A CN 102065295 B CN102065295 B CN 102065295B
Authority
CN
China
Prior art keywords
grade
layer
resolution
stream
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010105597260A
Other languages
English (en)
Other versions
CN102065295A (zh
Inventor
伊莎贝尔·阿莫诺
娜塔莉·卡玛斯
斯特凡娜·帕泰尤克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN102065295A publication Critical patent/CN102065295A/zh
Application granted granted Critical
Publication of CN102065295B publication Critical patent/CN102065295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/34Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/37Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability with arrangements for assigning different transmission priorities to video input data or to video coded data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明涉及一种用于对图像序列进行编码的方法,其产生以n个连续等级的内嵌数据层结构形式的数据流,其中每一个连续等级都与所述图像的一个预定分辨率相对应。所述方法包括一个编码阶段,其包括通过根据在所述等级n的层上执行预测来编码n+1等级的所述层中的至少一个,以及以基本子流的形式编码等级n的每个数据层,并且可选地,以至少一个增强子流的形式编码等级n的每个数据层,以便能够获取所述图像的增强质量的至少一个版本。本发明的方法还包括为n等级的至少一个数据层编码至少一个单独的子层,以便能够在所述等级n的分辨率上重建质量高于所述增强质量的所述图像的版本,其中在对等级不同于等级n的层的预测编码时,等级n的层的所述单个子流不被使用。

Description

对表示图像或图像序列的数据流进行解码的方法和设备
本申请是申请日为2005年12月20日、申请号为200580048217.9、发明名称为“对图像数据流执行可扩展编码和解码的设备和方法、信号、计算机程序以及用于相应图像质量的自适应模块”的中国专利申请的分案申请。
技术领域
本发明的领域是图像或图像视频序列的编码和解码。更具体而言,本发明涉及一种用于对图像执行可扩展(scalable)编码和解码、也就是以可适应的质量以及可变的空间/时间分辨率来编码和解码图像的技术。
背景技术
当前,对很多数据传输系统来说,从为具有多种不同类型的数据访问的众多客户提供服务的意义上讲,这些系统是异构的。由此,举例来说,全球性的因特网是可以从PC类型的终端以及无线电电话访问的。更为普遍的是,接入网络的带宽、客户终端的处理能力及其屏幕的大小因用户的不同而存在很大区别。因此,举例来说,第一客户可以使用随其自由支配的1024kbit/s的ADSL比特率从强大的PC访问因特网,而第二客户则试图以低的比特率使用与调制解调器相连的PDA(个人数字助理)类型的终端来同时访问相同数据。
由此,有必要为这些不同的用户提供与其需求相适应的数据流,而这些需求在比特率和图像分辨率方面是有很大差别的。这种必要性更广泛地适用于可被具有多种访问和处理能力的客户所访问的所有应用,尤其是以下应用:
-VOD(“视频点播”),它可以由UMTS(“通用移动电信服务”)类型的无线电通信终端、具有ADSL接入的PC或电视终端所访问;
-会话移动性(例如,在PDA上继续在电视机上开始的视频会话,或者在UMTS类型的终端上继续在GPRS(“通用分组无线电服务”)上开始的会话);
-会话连续性(在与新应用共享带宽的情况下);
-高清晰电视,其中单个视频编码必须顾及为具有标准清晰度(SD)的客户以及具有高清晰度(HD)的客户提供服务;
-视频会议,其中单个编码必须满足具有UMTS接入以及因特网接入的客户的需要;
-等等。
为了满足这些不同的需求,已经开发了可扩展图像编码算法,以便能够实现可适应的质量以及可变的空间-时间分辨率。编码器产生一个具有多层的分层结构的压缩流,其中每一层都内嵌在一个更高级别的层中。举例来说,第一数据层传送的是可以被PDA类型的终端解码的256kbit/s的流,而第二补充层传送的是分辨率大于256kbit/s的流,作为对第一个流的补充,该流可以被更强大的PC类型的终端解码。在本实例中,传送这两个内嵌层所需要的比特率是512kbit/s。
现在,在MPEG21工作组的环境中,其中的某些可扩展视频编码算法正在被MPEG(“运动图像专家组”)标准所采纳。
特别地,MPEG-21工作组最近选择的模型、即SVC(“可扩展视频编码”)模型被称为SVM(“可扩展视频模型”),它是以基于AVC(“高级视频编码”)类型的解决方案的可扩展编码器为基础的。在2004年10月发表于西班牙Palma de Majorca的名为“ScalableVideo Model 3.0”的文献N6716ISO/IEC JTC 1/SC 29/WG 11中详细描述了这种模型。MPEG-21工作组的目标是提出一种用于提供可扩展流的标准,其中所述可扩展流在空间-时间维度以及质量方面是粒度平均的。
1.MPEG-21SVM编码器
1.1编码器的主要特性
图1描述的是这种具有金字塔结构的编码器的结构。视频输入组件10经历二元子采样操作(用11标记的二中取一2D抽选,用12标记的四中取一2D抽选)。然后,每一个子采样的流都会经历MCTF(运动补偿时域滤波)类型的时域分解处理13。低分辨率版本的视频序列被编码(14)到给定比特率R_r0_max,其中该比特率与用于低空间分辨率r0(这个基本等级是兼容AVC的)的最大可解码比特率相对应。
然后,通过减去先前重新构建的并且过采样的等级,并且通过以如下形式编码残差(residue),对更高的等级进行编码15、16:
-基本等级;
-可能通过比特平面的多行程(multi-run)编码获取的一个或多个增强等级(在下文中将“细化粒度可扩展性”称为FGS)。预测残差被编码到比特率R_ri_max,其中该比特率与对于分辨率ri而言可以解码的最大比特率相对应。
更具体地说,MCTF滤波块13执行时域小波滤波,也就是说,它们会在小波滤波之前在运动方面重新校准信号:它们传递被馈送到运动编码块14~16的运动信息17以及被馈送到预测模块19的纹理信息19。从预测模块19输出的预测数据用于从较低的等级开始执行插值20。此外,这些数据还被馈送到空间变换和熵编码块21,所述块21是工作在信号的细化等级上的。复用模块21对在总压缩数据流中产生的不同子流进行排序。
图2描述的是借助于图1的可扩展编码器获取的结果,其中该结果具有针对不同的可扩展分辨率(“公用接口格式/四分之一公用接口格式”CIF/QCIF,其中CIF对应于半TV格式,而QCIF对应于四分之一TV格式)或不同的时间分辨率(7.5~30hz,每秒的图像数量)所描绘的比特率/失真曲线的形式。y轴显示了PSNR(峰值信噪比),并且x轴显示了用kbit/s表示的比特率。由此,用23标引的曲线与具有7.5Hz时间分辨率的QCIF空间分辨率是对应的,用24标引的曲线与15Hz的QCIF分辨率是对应的,用25标引的曲线与15Hz的CIF分辨率是对应的,而用26标引的曲线与30Hz的CIF分辨率是对应的。
1.2在编码器上产生信息层
图3描述的是由SVM编码器实现的信息预测/提取机制。在下文中将会更详细地描述编码时实施的预测处理。这个预测处理包括通过从来自具有低等级空间分辨率的层的数据进行预测,编码具有给定等级n的空间分辨率的层。
更具体来说,图3给出的是分别与由30和31所标引的比特率/失真曲线相关联的QCIF和CIF格式空间分辨率层这两个连续层的生成实例。对本领域技术人员来说,将这个实例扩展到具有n>2个空间层的更普遍情况是没有难度的。如上所述,x轴代表用kbit/s表示的比特率,而y轴表示以dB为单位的PSNR。
对每一个空间分辨率层来说,编码器以两个子流的形式来编码信息,这两个子流是被称为BL(“基本层”)的基本子流(子层)和被称为EL(“增强层”)的逐步增强子流或子层。
首先,QCIF格式是在时间频率和比特率的所有值范围上编码的。在这里具有基本层(BL)301,以及两个可能的增强等级(EL)(由302标记的FGS1以及由303标记的FGS2)(FGS-“细化粒度可扩展”)。由此,增强层EL具有两个行程FGS1302以及FGS2303。当通过在FGS1与FGS2之间切割数据分组来执行解码时,这时可以获得中间细化点。
QCIF格式被编码到最大比特率点304,然后,这个点在CIF格式的编码期间被用作预测基准。此外,这个点必须是为系统的通常优化性能所定义的最好的点。
然后,CIF格式通过使用QCIF曲线304中的最高的点(也就是该曲线的最大比特率点)作为预测器而被编码。此外,CIF信息还会被编码在两个子流中,即,基本子流(BL)和由两个行程(FGS1和FGS2)构成的增强子流(EL)。
如图3所示,CIF基准点是从最大QCIF比特率点304开始,并且通过添加CIF空间分辨率等级的基本层(BL)311而到达的。这个点并不是在解码过程中可以达到的最小比特率点313。从这个基准点312开始,增强层EL 314(FGS1)以及315(FGS2)使得能访问其他的更高CIF比特率点,直至最大CIF比特率316。
图4概述的是在编码器上为任何未规定等级n-1以及n的空间层执行的信息处理的顺序,其中n是一个整数。BL代表基本质量子层,EL代表空间分辨率等级的增强质量子层。由此,首先编码41的是等级n-1的基本子层BL,之后是n-1等级的增强子层EL,再然后编码43的是具有n等级空间分辨率的基本子流BL,之后编码44的是这个n等级的增强子流EL。
2.MPEG-21SVM提取器
在下文中,提取器也被称为质量自适应模块,它是为解码器执行由编码器所产生的总数据流中的部分数据流的提取处理的工具,其中该部分数据流与给定的空间-时间分辨率等级以及给定的比特率相对应。
2.1可扩展流提取器的一般工作方式
具有两种类型的可扩展编码器:
Figure BDA0000034129400000051
非预测性的“本质上可扩展的”编码器(举例来说,该编码器是以小波变换为基础的),该编码器并未规定彼此相互内嵌的解码点之间的特定关系(举例来说,这是具有由JPEG2000标准提出的视频编码器的情况);
Figure BDA0000034129400000052
需要构建内嵌路径的预测性SVM类型编码器。更具体而言,为了执行压缩流提取处理,如图5所示,SVM的提取器将会遵循彼此相互内嵌的预定路径。
在图5中,x轴显示的是用Hz表示的时间分辨率,y轴显示的是比特率(高H,低L),z轴显示的是空间分辨率(QCIF或CIF)。编码器产生的总数据流50包括用立方体形式表示的一组子流,其中每一个子流都与给定的空间-时间分辨率以及给定的比特率相对应。由此,为了从7.5Hz的QCIF空间分辨率等级中提取最高比特率,提取器必须遵循下列提取路径:CIF 30H→CIF 15H→QCIF 15H→QCIF7.5H(应当注意到,CIF 30H例如指定了用于30Hz时间频率的CIF空间分辨率格式的流,其具有高比特率等级H)。
类似地,为了提取7.5Hz的QCIF的最低比特率,提取器必须遵循路径CIF 30H→CIF 15H→CIF 15L→QCIF 15L→QCIF 7.5L。
2.2MPEG-21SVM提取器的操作
MPEG-21SVM提取器工作如下。为了以给定的比特率Rt以及以空间-时间分辨率St-Tt来解码视频流,从总的流中以如下方式提取一个子流:以Rmin为代价提取所有空间分辨率等级(从基本等级到目标空间分辨率等级St)的基本质量层(BLn-1,BLn,...),其中所述Rmin与用于空间分辨率St的最小可解码比特率相对应。在提取了基本质量子流之后,许可的比特率将会变成Rt=Rt-Rmin。
然后,提取器经历较低空间分辨率的时间子段,并且提取每一个子段的不同增强层EL。它在较低空间分辨率的时间子段上进行一个循环,然后在每一个时间字段的增强层上进行一个循环。
假设Rf是从时间子段中提取质量层所需要的比特率。如果许可的比特率Rt>Rf,那么所考虑的子段的层将被提取,并且比特率将会变成Rt=Rt-Rf。如果不是的话,则所考虑的子段的层将被截断,并且提取处理将会终止。
如果已经提取了较低空间分辨率的时间子段的所有层,那么提取器将会检查空间分辨率等级St的子段。提取器在FGS质量层上进行一个循环,然后在时间子段上进行一个循环。Rfs表示为所有时间子段提取质量q层所需要的比特率。如果许可的比特率Rt>Rfs,则提取所有子段的质量q层,并且比特率将会变成Rt=Rt-Rfs。如果不是的话,则所有子层的质量q层将被截断,并且提取处理将会结束。
图6显示了提取器或质量自适应模块处理信息的顺序。对在等级n的空间分辨率n上的提取处理来说,提取器首先从等级0到等级n经历所有空间等级(QCIF、CIF等)的所有基本质量BL等级,然后按照从较低空间等级(EL 0)到n(EL n)的顺序经历增强质量层EL。
在这里,该提取机制还可以用上文中参考预测机制描述的图3并且通过使用比特率/失真曲线30和31来加以说明。在下文中,我们设想SVM MEPG-21的提取器所遵循的路径沿着这些曲线,由此在解码时产生不同的比特率点。
由此,为了产生QCIF格式的比特率点,提取器首先检索来自QCIF等级的基本层301。然后,从QCIF最小点305开始,可以提取任何一个高于QCIF最小点305并且低于最大比特率点304(该点是用于预测高于CIF格式的空间分辨率层的点)的比特率点。为此目的,由行程FGS1302和FGS2303构成的增强层或子流(EL)将会依照所分配的比特率而被切割。
为了产生CIF格式的比特率点,取决于所需要的比特率是大于基准点312的比特率还是低于该基准点的比特率,可以采用两种方法。
如果目标比特率低于CIF基准点312的比特率,那么提取器将会检索两个QCIF和CIF空间等级的基本层BL 301和311,由此将会导致产生最小CIF比特率点313。根据剩余的比特率,提取器将会截断QCIF空间分辨率等级的增强层EL 302和303。
如果所请求的比特率高于CIF基准点312的比特率,那么提取器将会检索CIF和QCIF等级的基本层BL 301和311、QCIF等级的增强层EL 302、303,并且根据剩余的比特率来切割CIF增强层314、315。
现有技术的缺陷
MPEG-21工作组的SVM模型的编码/解码技术存在很多缺陷。与这种技术相关联的提取机制具有很多缺点。
首先,可以看出的是,依照提取器中的信息处理顺序(也就是,空间等级的所有基本层BL,然后是从空间基本等级到所请求的空间等级的增强层EL),无论解码时请求的比特率点如何,提取处理始终遵循的都是相同的路径。现在,在解码时,对每个目标比特率点来说,这条路径未必总是最优路径。
此外,对从中为具有更高等级的空间分辨率的编码执行预测的每一个给定等级的空间分辨率来说,其中存在一个与用于预测的比特率点相对应的最大比特率点。现在,这个最大比特率点并非总是为了获取这个等级的空间分辨率而寻找的最高的点。实际上,该预测点被选择来在更高空间等级的编码过程中使预测残差最小化,而不是与具有用于当前空间等级的很高质量的点相对应。通常,理想或必要的是具有可用于提供图像重建质量高于预测点所给出的图像重建质量的点,对低空间分辨率来说则更是如此。
最后,MPEG-21SVM编码技术的最后一个缺陷是:在等级n的空间分辨率上(例如在CIF格式中),对比特率低于该等级的基准点的比特率的点(例如,图3中用312标引的点,也就是通过解码空间等级0~n的基本层BL以及等级0~n-1的所有细化层EL而获取的点)的提取处理来说,并未使用等级n的细化信息(也就是说,没有使用来自例示的CIF等级中的增强等级EL 314和315的信息)。
发明内容
特别地,本发明旨在克服现有技术中的这些缺陷。
更为具体地说,本发明的一个目的是提供一种根据多层中的数据流的组织结构并且借助层间预测来对视频图像和/或序列执行可扩展编码和解码的技术,它是对SVM模型技术的改进,该SVM模型技术是MEPG-21工作组在2004年10月于西班牙Palma de Majorca发表的名为“Scalable Video Model 3.0”的文献N6716ISO/IEC JTC 1/SC29WG/11中提出的。
特别地,本发明的一个目的是提供一种可以在解码时被用于在给定的分辨率等级上重建质量高于现有技术的图像的技术。更为特别的是,本发明的一个目的是提供这样一种技术,其可以为给定的分辨率等级n-1获取一个比用于通过分辨率等级n的预测处理进行编码处理的比特率更高的比特率。
本发明的另一个目的是提供一种可以用于为每个比特率点定义一条最优提取路径的技术,其中该路径即为在比特率/失真方面提供该点的最佳重建处理的路径。
本发明的另一个目的是提供一种易于实施且在资源(带宽、处理能力等)方面成本很低的技术。
本发明的另一个目的是提供一种在允许高质量的图像重建处理的同时允许有效的数据压缩的技术。
本发明还有的另一个目的是提供一种可以用于为具有不同数据流访问形式的多个用户以及具有不同处理能力的显示终端提供令人满意的服务的技术。
本发明的主要特征
这些目的以及下文中出现的其他目的是借助于一种用于编码图像或图像序列的方法来实现的,其中所述图像或图像序列产生了一个具有连续等级n的嵌入式数据层的分层结构的数据流,并且其中n是一个整数,每一个所述等级n都与所述图像的一个预定分辨率相对应。该方法包括步骤:通过至少从所述等级n的层中进行预测来编码等级n+1的所述层中的至少一个。所述等级n的数据层中的每一个都能够在所述分辨率等级n上重建具有预定最高质量的所述图像的版本。
根据本发明,该种方法还为所述等级n的数据层中的至少一个编码至少一个附加子流,这个附加子流被称为奇异子流(singularsub-stream)或“死子流(dead sub-stream)”,这个子流使得能够在所述分辨率等级n上重建质量高于所述预定最高质量的所述图像的版本,并且所述等级n的层的死子流在通过不同于n的等级的所述层的预测来进行编码的所述步骤中不被使用。
由此,本发明依靠的是一种用于对可扩展的图像流或视频流执行编码的全新的创造性方法。实际上,虽然在现有技术(尤其是如MPEG-21工作组的SVM模型所述的技术)中,具有分辨率n-1的等级的层的全部数据被用于通过更高等级n的层的预测进行编码,但是本发明自此提出了对关联于分辨率等级n-1的附加信息进行编码,该信息既没有被用于通过等级n的预测进行编码,也没有被用于在分辨率等级n上重建图像。编码在死子流中的这个附加信息在解码时仅仅被用于在分辨率等级n-1重建图像。
换句话说,通过根据与编码流的每个内嵌数据层相关联的比特率-失真曲线来进行推理,本发明提出了将给定分辨率等级n-1的层的比特率-失真曲线的最大比特率点P_max与该曲线中用于预测分辨率等级n的数据层的点(被称为预测点P_pred)解除关联(dissociate)。由此,等级n的层的死子流使得可以覆盖处于预测点P_pred的比特率与最大点P_max的比特率之间的所有比特率。
通过这个死子流,在解码时可以在分辨率等级n上实现质量高于现有技术的图像或视频序列的重建,这对于某些在等级n上通过从点P_pred进行重建而实现的质量未能满足需要的显示终端来说是很有价值的。
非常有利的是,每个等级n的数据层都是以至少一个基本子流BL的形式编码的,由此能够以等级n的分辨率来重建图像的基本质量版本,并且根据具体情况,所述每个等级n的数据层还会以至少一个增强子流EL的形式编码,以便能够细化基本质量版本,从而获取图像的至少一个增强质量版本。所述预定最高质量是:
-如果没有编码所述增强子流,则是基本质量;
-如果编码了至少一个增强子流,则是所述至少一个增强质量。
实际上,某些数据层可能只能以基本子流的形式编码,而其他数据层则可以包括一个或多个增强子流。根据本发明编码的死子流能够重建质量高于单独从基本子流获取的或者从基本子流以及一个或多个增强子流(在它们存在的情况下)中获取的最高质量的图像。
根据本发明的一个有利的特征,这种方法还包括:第一步骤,在所述数据流中插入至少一个用于在所述数据流内部识别所述至少一个死子流的信息。实际上,在解码时必须能够将关联于空间分辨率等级n的最大比特率点与用于编码更高空间分辨率等级n+1的预测点区分开来。
根据本发明的一个优选特性,这种编码方法还为至少某些所述图像执行一个第二步骤,那就是在所述数据流中插入至少一个下述信息,该信息涉及与所述层中的至少某些层的至少某些数据相关联的重建质量,所述重建质量是至少一个比特率/失真参数的函数。
通过在流中插入这个关于质量的信息,可以在具有等级n的分辨率的不同层中启用选择性的质量自适应。由此,对于在解码时目标比特率的每个点来说,最优提取路径将被定义,这条路径是在比特率-失真方面使得能够在该比特率上以最佳方式重建该图像的路径。
本发明还涉及一种用于编码图像或图像序列的设备,其中该设备包括:用于产生数据流的装置,其中该数据流具有连续等级n的内嵌数据层的分层结构,每一个所述等级n都对应于所述图像的一个预定分辨率。这种设备包括:用于通过至少从所述等级n的层开始执行预测来编码等级n+1的所述层中的至少一个层的装置,所述等级n的数据层中的每一个都能够在所述分辨率等级n上重建具有预定最高质量的所述图像的版本。
根据本发明,该种设备还包括为所述等级n的数据层中的至少一个编码至少一个子流的装置,这个子流被称为死子流,它使得能够在所述分辨率等级n上重建质量高于所述预定最高质量的所述图像的版本,并且,所述等级n的所述层的所述死子流不被预测不同于n的等级的所述层的所述编码装置所使用。由此,对等级n的层来说,这个死子流将被添加到基本子流BL上,此外,这个死子流还会根据具体情况而被添加到它所包含的增强子流EL上。
非常有利的是,这种编码设备包括一个预测点提取模块,它被用于从所述等级n的层的内部提取在通过所述等级n+1的预测进行的编码过程中将要考虑的数据。这个预测点提取模块被用于确定不同于最大比特率点的要被使用以便执行更高等级的层的编码处理的点。
本发明还涉及一种用于对根据上述编码技术编码的数据流进行解码的方法以及相关设备,其中所述方法实现了用于以所述等级n的分辨率重建所述图像之一的下列步骤:
对等级低于n的所述数据层进行解码;
Figure BDA0000034129400000122
根据经许可的解码比特率,至少对所述等级n的层执行部分解码,并且根据具体情况对所述等级n的层的所述死子流进行部分解码,等级低于n的所述层的死子流在所述重建过程中不被解码。
更具体而言,首先解码的是低于或等于n的等级的基本子流,然后,如果存在低于n的等级的层的增强子流,则对这些增强子流进行解码。最后,根据许可的解码比特率,解码处理至少部分地在等级n的层的一个或多个增强子流上执行,此外,根据具体情况,解码处理还会在这个层的死子流上执行。
本发明还涉及一种用于传输依照上述技术编码的数据流的信号。该信号是以在其内部传送所述数据流的信息实体的形式构造的,每一个所述信息实体都包括一个用于提供有关所述信息实体类型的信息的报头,以及一个净荷数据字段。
根据本发明,对至少一个所述等级n的数据层来说,该种信号还会传送被称为死子流的至少一个子流,该子流使得能够以所述等级n的分辨率重建质量高于所述预定最高质量的所述图像的版本,并且所述等级n的死子流不被用于以等级不同于n的分辨率重建所述图像。
在第一替换实施例中,该种信号在至少一个第一特定类型(例如,由SVM模型的语法所规定的NAL的类型22或23)的信息实体内部传送所述死子流,其中所述第一特定类型与传送所述基本子流以及所述增强子流的所述信息实体的类型是不同的。
在第二替换实施例中,至少一个所述死子流以及至少一个所述增强子流是在相同类型的信息实体(NAL)内部传送的,并且所述信号在所述NAL内部传送运行识别所述奇异子流和所述增强子流的至少一个切割信息。
当在编码过程中实现能够定义最优提取路径并与自适应质量选择相关联的上述变体时,在这个变体中,本发明的信号还必须传送有关与某些数据相关联的质量重建的信息。为此目的,在这里设想了两种方法。
第一替换实施例包括修改已有信息实体、即NAL的结构,使得其中某些实体还包括伪报头,其中所述伪报头包含指向所述净荷数据字段中的至少某些数据的至少一个指针,并且所述指针提供有关与所述数据相关联并取决于至少一个比特率/失真参数的重建质量等级的信息。
较为优选的是第二变体,这是因为该变体规定不对已有信息实体的结构进行修改,该变体包括在信号中引入至少一个特定类型的信息实体,其中该信息实体包括至少一个关于与所述流中的至少某些数据相关联的重建质量的信息,并且所述重建质量取决于至少一个比特率/失真参数。
由此,引入了被称为信息NAL的特定NAL,并且这些信息NAL在其净荷数据字段中包含了能够在数据传送NAL(即,例如传送增强子流的NAL)中识别质量等级的偏移。
对这些信息NAL来说,当其包含了用以指示与死子流开端相对应的质量等级的附加信息时,它们还可以传送用于识别死子流的信息。
本发明还涉及计算机程序,其中该计算机程序包含了程序代码指令,当在微处理器中或者由微处理器执行所述程序时,该程序代码指令执行用于对图像或图像序列进行编码的方法步骤,以及执行用于对表示上述图像或图像序列的数据流进行解码的方法。
本发明还涉及一种用于自适应图像或图像序列的质量的模块,其中所述图像或图像序列是使用表示上述图像或图像序列的源数据流馈送的。
这种自适应模块实现用于产生指定给至少一个显示终端的修改后的数据流以便观看所述图像的装置,如果所述至少一个显示终端不以所述等级n的分辨率来重建所述图像,那么所述修改后的数据流是通过提取处理依照所述等级n的死子流从所述源数据流获取的。
这种自适应模块也被称为提取器,它被用于从流中提取那些因为例如所服务的终端的特性而不会在重建过程中被使用的子流。该模块可以直接位于编码器的输出端以及解码器之前(甚至可以被集成在解码器中),也可以位于供客户终端访问流的传输网络中的任何点上。
最后,本发明涉及一种被设计成存储上述数据流的数据载体,该数据载体具有用于分层存储这个子流中的内嵌数据层的结构。对所述层n等级数据层中的至少一个来说,该种数据载体还包括至少一个用于存储至少一个死子流的区域,其中在以不同于n的分辨率等级重建所述图像时,所述死子流是不被读取的。
附图说明
从下列借助于简单的说明性实例给出的优选实施例的描述以及附图中可以更清楚地了解本发明的其他方面和优点,其中:
已经参考现有技术描述的图1~6涉及MPEG-21工作组的SVM模型。更具体而言:
图1是在上述文献N6716中描述的MPEG-21SVC的框图;
图2描述了从图1的编码器中获取的不同的比特率-失真曲线;
图3描述的是根据与图2中的曲线具有相同类型的比特率/失真曲线由MPEG-21的SVM模型提出的预测/提取机制;
图4描述的是图1的编码器处理数据层的顺序;
图5是显示了MPEG标准所规定的内嵌式提取路径原理的图示;
图6描述的是在解码之前的提取处理中处理数据层的顺序;
图7以比特率-失真曲线的形式显示了在分辨率等级n上插入死子流的原理;
图8是本发明的编码器的框图;
图9描述的是在插入了死子流的情况下由图8的编码器执行的数据组织;
图10和11描述的是从CIF和QCIF格式中进行提取的两个实例;
图12~16描述的是本发明的一个特定实施例,其中除了死子流之外,图像还被细分为在重建过程中使用的连续质量等级;
■图12描述的是在该变体中对图3的预测/提取机制所进行的修改;
■图13给出的是在与图像相关联的子流中建立截断点的原理;
■图14和15描述的是根据该变体传送插入到流中的质量信息的信息实体或NAL的结构的两个实例;
■图16显示的是连续质量等级的图像结构的实例;
图17~19分别给出的是根据本发明的编码设备、图像质量自适应模块以及解码设备的简化图示。
具体实施方式
本发明的一般原理依赖于在流的某些或所有分辨率等级上编码附加的子流,其中该子流被设计成能在这个分辨率等级上重建质量更好的图像。这个附加子流被称为死子流,它只在为之编码的分辨率等级上使用。换句话说,在编码时,它不会被用于其他分辨率等级的层的预测处理,而在解码时,它不会被用于在其他分辨率等级上重建图像。
在考虑与流中编码的每个分辨率等级相关联的比特率-失真曲线的情况下,插入诸如这个数量的死子流,使得某个分辨率等级的最大比特率点与这个等级中的用于预测更高分辨率等级的点解除关联。
参考图7,其中给出了本发明的编码技术的一个实施例,其中该实施例是以向给定等级n的空间和/或时间分辨率数据的层中添加死子流为基础的。
如上所述(参见图3),该描述涉及的是使用两个内嵌的分辨率格式来编码图像的特定情况,这两个分辨率格式是QCIF和CIF格式。对本领域技术人员来说,将本教导扩展到更为普遍的n个连续分辨率等级(例如QCIF、CIF、SD、HD等)的情况是没有难度的。图7显示了用于这两种格式的比特率-失真曲线(用于QCIF的曲线30和用于CIF的曲线31),其中x轴显示的是用kbit/s表示的比特率,y轴显示的是以采用dB为单位的PSNR形式表示的失真。应该指出的是,在图3和7中,相同的部件用相同的数字标引来表示。
由此,本发明的原理包括在编码时为空间等级n-1定义一个最大比特率点(在本范例中是用于QCIF格式的比特率/失真曲线的点P_max 704),并且这个点与用于空间等级n的预测处理的点(也就是用于CIF格式的预测处理的点P_pred 706)是不同的。
为此目的,以下编码步骤将被执行:
Figure BDA0000034129400000161
将空间等级n-1(QCIF)的数据层编码到最大比特率点P_max 704;
Figure BDA0000034129400000162
提取等级n-1(QCIF)的比特率点P_pred 706;
在总的编码流中引入被称为死子流707的用于空间等级n-1(QCIF)的附加子流,以便覆盖从P_pred 706到P_max 704的比特率。这个流仅仅用于在分辨率等级n-1(QCIF)的某些比特率点上重建视频序列,并且不被用于重建更高或更低空间等级的点;
Figure BDA0000034129400000164
在总流中引入死子流的标识信息,由此,在解码或者从流中提取数据的过程中可以识别处于QCIF比特率/失真曲线上的预测点P_pred 706相对于最大比特率点P_max 704的位置;
Figure BDA0000034129400000165
在比特率点P_pred 706上使用空间等级n-1(QCIF)的预测的过程中编码空间等级n(CIF)的数据层。
由此,这种编码技术将会导致在比特率/失真曲线30上出现与空间分辨率QCIF相关联的新点,其中所述空间分辨率QCIF属于死子流707,该死子流707则仅仅用于以QCIF格式来重建图像。
当终端希望对以这种方式编码的总数据流进行解码时,根据终端所预期的空间-时间分辨率以及比特率,从该流中提取重建视频序列所需要的数据。对于在分辨率等级n上进行的重建来说,这个空间等级n的比特率点是在考虑不使用与n不同的空间等级(特别是较低的空间等级)的任何死子流的情况下提取的,但是如有必要,并且如果预期比特率使得这种使用变得可行,那么这个空间等级n的比特率点可以在使用空间等级n的死子流的过程中提取。
图17显示的是本发明的编码设备的简化结构,其包括存储器M178、配备了例如微处理器并由计算机程序Pg 177驱动的处理单元176。在初始化过程中,举例来说,在处理单元的处理器执行计算机程序177的代码指令之前,该代码指令会被加载到一个RAM中。处理单元176在输入端接收要编码的视频内容10。处理单元176的微处理器μp将视频序列10编码成压缩流83形式,其中该压缩流83包含n个连续空间分辨率等级Pg 177的多个内嵌层。处理单元176输出压缩数据流83。
图8更具体地描述了能够在某些或所有空间分辨率等级上引入死子流的编码器的结构。应该指出的是,这种编码器的结构与上文中参考图1给出的MPEG-21SVC编码器的结构的不同之处在于给出了预测点提取模块81和82。由此,在图1和8中,相同的部件用相同的数字标引来表示。图8的实例处于可扩展视频编码处理的上下文中,其中该编码是以具有运动补偿和表示的时域小波变换为基础的,所述运动补偿和表示则是借助具有层间表示的层来进行的。
图8的编码器是如下工作的:
(i)在编码器的输入端接收的视频数据10被馈送到并行工作的编码器的三个分支,在其中一个分支中数据经历用12标引的四中取一的抽选处理,在一个分支中数据经历用11标引的二中取一的抽选处理,而在最后一个分支中数据不被子采样并且不会经历任何抽选处理。
(ii)视频序列首先借助用于产生小波系数形式的纹理信息的运动补偿时域变换(MCTF)131而被编码成基本空间格式(QCIF)(应该指出的是,为了简单起见,在这里并未显示用于处理视频序列的运动信息的模块)。变换后的系数通过预测处理191相对于相同空间等级的其他系数以及可扩展熵编码处理211而被编码。可扩展子流被获取,由此使用总比特率R_r0_max来表示基本空间分辨率等级(用84标引的子比特流0),其中r0表示空间等级,max表示相关联的比特率-失真曲线的最高比特率点。
用于为更高空间编码等级执行预测的比特率点P_pred是由预测点提取模块82从编码后的可扩展子流中提取的。与比特率R_r0_max相比,点P_pred的比特率较低。
所提取的子流被解码和插值201,以便用于为更高的空间分辨率等级执行预测192。可扩展子流84被发送到复用器22,该复用器22负责组织所有空间分辨率等级的所有子流,以便形成最终的流83。
(iii)然后,视频借助于运动补偿时域变换(MCTF)132而在更高的空间分辨率(CIF)上被编码;变换后的系数借助于相同空间等级(CIF)的小波系数或是来自较低空间等级的插值信号201的系数而被预测192。在所述预测192之后执行可扩展熵编码212,并且使用最大比特率R_r1_max来获取表示空间分辨率等级r1的可扩展子流85。这个子流85被发送到复用器22。然后,用于更高空间等级的预测的比特率点由预测点提取模块81从编码后的子流85中提取,并且被插值202
对于更高的空间等级来说,执行相同的过程,但是对于最后一个空间等级不提取预测点。
图9描述的是在只考虑QCIF和CIG这两个不同的空间分辨率等级(换句话说,所考虑的唯一元素是来自图8的编码器的两个较低分支的子流,它们分别来自输入视频数据10的二中取一抽选和四中取一抽选)的特定实例中由图8的编码器产生的数据。
在空间分辨率等级(QCIF和CIF)的每个数据层中,数据都是以几个子层来组织的:一个基本层BL,其后跟随的是第一增强层(增强层1或EL1)和第二增强子层(增强层2或EL2)。前两个子层(BL和EL1)在编码阶段被用于更高空间等级的预测,并且在解码阶段被用于重建当前空间等级以及更高空间等级的点。
第二增强子层(EL2)仅仅用于重建当前空间等级的点。这个第二增强子层代表的是死子流。
应该指出的是,图9描述的是其中每个数据层除了包括本发明提出的附加子流EL2之外还包括至少一个增强子层ELI的特定实施例例示。毫无疑问的是,某些空间等级的某些数据层仅仅以基本子流BL的形式编码,对这些数据层来说,本发明在单个增强子层EL中添加了死子流。
当编码器在给定空间分辨率等级n的数据层中添加了死子流时,这时有必要通过在总的数据流中插入特定信息来报告这种情况,由此在解码时可以使用这个死子流。
在下文中,给出了一个在总的数据流中插入与死子流的存在相关的特定信息的实例。首先,可以回忆一下在MPEG-21的SVM框架中提出的数据流结构。
在SVM的实施方式中,流是作为被称为NAL(网络适配层)的信息实体构造的。NAL是一个符合H264标准(ITU-T和ISO/IECJTC1,“Advanced Video Coding for Generic Audiovisual Service”,ITU-T Recommendation H.264-ISO/IEC 14496-10AVC,2003)的传输单元。这是一个包含报头和整数个数据字节(也被称为“净荷”)的分组。
NAL的报头包括可以用于限定NAL类型的类型字节。净荷数据字段用于为子段图像或图像的一部分传送与空间等级、时间等级和质量等级(基本等级或FGS等级)的编码相对应的流。在SVM语法中,NAL可以具有若干种类型:特别地,类型20和21被用于描述子流是图像(内部或非内部的)的增强子流的NAL。
如上文中参考图9(子层EL2)所述的,在流中引入死子流与附加增强子流的引入是对应的,由此,这个死子流是在NAL中传送的。对于其用途未被SVM语法指定的各种类型的NAL来说,这些NAL可以用于指定一个传送死子流的NAL,例如类型22或23。
在本发明的另一个替换实施例中,可以设想在同一个NAL中对等级n的层的死子流以及增强子流(如果其存在的话)进行传送。换句话说,子层EL1和EL2然后被分组在相同的NAL中,并且附加信息表明断点处于子流EL1与EL2之间的NAL中的什么位置。
下文中参考图10和11的描述集中在了图像质量自适应模块的操作原理之上,其中该模块也被称为提取器。可以回忆起来的是,此种提取器可以直接位于编码器的输出端上以及解码器之前,或者也可以处于供客户访问编码数据流的传输网络中的任意一点上。它使得能够从总的数据流中提取某些数据,这些数据不是为它们所服务的最终客户所需要的。更特别地,SVM的提取器研究每个NAL的特性(空间和时间等级,FGS),并且保持或截断用于在给定比特率以及以给定格式(或空间-时间分辨率等级)执行解码的NAL。
根据本发明,死子流的引入如下所述修改提取器读取NAL报头的处理:
假设nivSpatialDec是在解码时请求的空间分辨率等级,
NivSpatialNAL是当前NAL的空间分辨率等级,
typeNAL是当前NAL的类型,
如果((typeNAL==22‖typeNAL==23)并且nivSpatialDec==nivSpatialNAL),
则{提取NAL}。
换句话说,提取器的工作方式被修改,由此使得它还从总的数据流中提取NAL,其中所述NAL传送在解码时要获取的空间分辨率等级的死子流。图10和11分别给出了在只考虑空间分辨率的这两个连续等级的时候用于提取CIF和QCIF格式的视频序列的两个提取实例。
对于CIF格式的图像的重建处理来说,解码器使用了两个空间等级(BL QCIF和BL CIF)的基本子流、这两个空间等级的第一增强层(增强层EL1QCIF和增强层EL1CIF)以及CIF等级的第二增强等级(增强层EL2CIF)。由此,提取器必须按照这个顺序从总的流中提取在图10中表示的子层集合,以便将其插入修改后的流中。根据用于该点重建的比特率,不同的子层可被解码,也就是说,相应的子流只可以被部分截断(例如,对增强子流EL CIF执行部分解码,并且在这种情况下不使用死子流EL2 CIF,这是因为比特率是不允许)。
对于QCIF格式的重建来说,解码器使用了图11所示的QCIF等级的基本子流(基本层QCIF)以及QCIF等级的两个增强子流(增强层EL1 QCIF和增强层EL2 QCIF)。同样地,不同的层BL QCIF、ELI QCIF和EL2 QCIF可以根据为QCIF格式的图像重建所分配的比特率而被截断。
图18给出的是这种提取器或图像质量提取模块的简化结构,其包括存储器M 180、配备了例如微处理器并由计算机程序Pg 182驱动的处理单元181。在初始化时,举例来说,计算机程序182的代码指令在由处理单元181的处理器执行之前被加载到RAM中。处理单元181在输入端接收依照连续分辨率等级n的分层结构组织的压缩数据流83。微处理器μP根据程序Pg182的指令从数据流83中提取所有那些在解码时不被使用的子流(例如,根据目标终端的或是重建处理中的预期质量的特性)。处理单元181输出修改后的数据流183,该数据流与客户终端的处理能力或是传输网络的约束条件是适配的。
在本发明的替换实施例中,死子流是由类型22或23的NAL传送的,在MPEG-21SVM模型的上下文中提出的解码器必须被修改,以便解码类型23和23的模块:
如果(TypeNAL==20‖typeNAL==21‖typeNAL==22‖typeNAL==23),
则{解码NAL}。
在下文中将参考图12~16来对本发明的实施例进行描述,其中除了插入死子流之外,该实施例还执行空间层中的自适应质量选择处理。在连续等级n的数据层中的自适应质量选择允许为在解码时要获取的每个比特率点定义一条最优提取路径,也就是在比特率/失真方面提供最佳的该点重建的路径。本发明的这个变体依赖于在总的流中定义和插入信息单元。
使用自适应的提取路径将会进一步改进本发明的提取技术,如下所述:
Figure BDA0000034129400000221
为每个空间-时间分辨率等级N(也就是每个比特率/失真曲线)的若干个比特率点计算一个表示其质量的、包含在最小值QNmin与最大值QNmax之间的值。该计算可以如下进行:
■要么在每个空间分辨率层的编码时间进行;
■要么在编码了不同空间等级的所有层之后进行;
Figure BDA0000034129400000222
在总的流中,插入信息,以便能在解码操作之前的提取处理中检索这个质量测量结果;
■要么通过将这个信息插入编码流的数据实体自身中,即,插入传送基本子流或增强子流的NAL中;
■要么通过将这个信息插入与编码流的数据实体相分离的实体中;
Figure BDA0000034129400000223
在提取与空间等级n的质量Q相对应的比特率点R的时候,然后为低于n或等于n的所有空间等级提取与这个质量相对应的数据实体,以便不使用比n更低的等级的数据子流。
由此,根据该变体,为每个图像创建一个独立的子流。这些子流中的每个子流都被扫描,以便为每个图像确定能够获取给定质量和/或比特率的截断点。由此,最终的流包括一定数量的质量“等级”。
图12更具体地给出了基于最优提取路径的实施方式而对本发明的这个变体所引入的预测/提取机制进行的修改。同样地,该描述是在具有两个连续等级的空间-时间分辨率QCIF和CIF的特定上下文中进行的。该描述考虑了与这两个等级相关联的比特率/失真曲线,其中x轴代表的是用kbit/s表示的比特率,y轴代表的是用dB表示的PSNR。
考虑等级N-1(QCIF)的曲线30上可使用的四个点P1、P2、P3和P4。这四个点P1~P4被视为是可用于等级N的曲线(CIF)的可能预测器。
由此,通过预测处理,点P1可以用于获取曲线C1,而曲线C2和C3分别是从借助点P2和P3的预测处理中导出的。曲线31对应的是通过预测处理从QCIF等级的最大比特率点P4中获取的曲线,由此它代表的是从现有技术的MPEG-21SVC编码器中获取的CIF等级曲线。
可以从不同的曲线C1~C3中选择与每个目标比特率相对应的QCIF曲线30的最佳预测点(在比特率/失真方面):由此,在比特率128kbit/s的最小失真是在曲线C1上获取的,这样一来,从预测点P1可以最佳地预测到128kbit/s的比特率点;同样地,用于192kbit/s的比特率点的最小失真是在曲线C3上获取的,由此从预测点P3可以最佳地预测到这个比特率点。
这样一来,可得到由等级N的(CIF)曲线的点及其在(QCIF)等级N-1曲线上的最优预测器所形成的“质量”曲线,如根据该算法(该算法与编码器上使用的算法可以是不同的)理解的那样。
最优处理路径是通过编码器等级上的附加处理步骤来确定的。如上所述,这个步骤可以在编码过程中实施,或者也可以独立于所述编码器,这是因为它是在数据编码/压缩操作之后执行的。
在下文中将参考图13对在编码器或后置处理器中实施并与比特率点相关联的质量计算的实例进行更详细的描述。
已经可以获取一组“图像”(无论是否为残差),并且这些图像被细分成分布在NAL中的若干个质量等级(即,基本等级以及一个或多个增强或改进等级)。假设NAL Ni可以在子点ni(它主要适用于增强子流)上被截断,由此为失真
Figure BDA0000034129400000231
产生比特率
Figure BDA0000034129400000232
为了简单起见,假设失真测量结果是加性的。
搜索最优途径,以便将图像的NAL细分成i个点
Figure BDA0000034129400000233
由此在可以为所设想的空间-时间分辨率等级所获取的最大比特率的约束之下将失真减至最小。由此,尝试将图像中的下列参量减至最小:
D ( λ ) + λR ( λ ) = Σ i ( D i n λ i + λR i n λ i )
在实践中,在每个NAL中都会定义一定数量的可能截断点(例如k个点,但是在熵编码器的每个行程的末端以非穷举方式定义)。
如图13所示,x轴给出的是比特率,而y轴代表失真,在这里考虑从一组信息实体NAL中为整个图像获取的点群130。在一开始,属于所考虑的空间-时间分辨率等级的比特率-失真曲线的这个点群130,特别地,是根据在David Taubman发表的名为“HighPerformance Scalable Image Compression with EBCOT”的文献中描述的技术来确定的,通过参考该文献可以获得更多细节。由此,在这里对包含了给定空间-时间分辨率的这些点的凸面包络131执行搜索。
对给定的λ值、也就是对给定质量来说,该算法如下所示:
初始化 n i λ = 0 ,
对j=j1,j2,...jk而言,
ΔR i j = R i j - R i n λ ; ΔD i j = D i n λ - D i j ,
如果
Figure BDA0000034129400000244
那么
Figure BDA0000034129400000245
对曲线的每个被识别点来说,比特率值
Figure BDA0000034129400000246
和这个点的斜率值都会被保存。
为了能在解码过程中使用这些不同的质量等级,也就是说,为了能够在与所要获取的质量等级相关联的特定点执行NAL的截断,除了用于识别死子流的信息之外,在这里还有必要记录总数据流中的使得能够识别质量等级的第二个特定信息。
为此目的,本发明提出了两个实施例,在其中一个实施例中,与设置截断点时选择的点相关联的多对(比特率,质量)被直接保存在数据NAL中(也就是传送基本子流和增强子流的NAL),而在另一个实施例中,该多对被记录在被称为信息NAL的特定NAL中。与某个点相关联的质量Qi则是作为如上定义的斜率
Figure BDA0000034129400000248
的函数而被计算的 ( Q i = f ( S i j ) ) .
在图14所示的第一实施例中,在数据NAL 140的报头141与净荷数据字段142之间插入了一个伪报头143,这个伪报头143包含在搜索图13的截断点的过程中识别的不同质量等级上的指针(例如,以偏移值的形式)。指针(偏移)与比特率值是等效的,并且与质量Q1、Q2~Q4的值是对应的,而且是通过指向图14中的净荷数据字段的箭头来表示的。
图15描述的第二实施例使用了被称为信息NAL 150的新类型的NAL,它使得能够在总流的数据NAL 151内部识别质量等级。与数据NAL 151相似,这种信息NAL 150包含报头152和净荷数据字段153。例如,在希望提出10个不同的质量等级Q1~Q10时,信息NAL被构建为在其净荷153中包含10个整数,每一个整数都指示了数据NAL 151的净荷数据字段154中的一个偏移。
在希望以质量等级Qext来重建视频序列时,从总的压缩流中提取必要的数据。为此目的,提取器(或图像质量自适应模块)在每个NAL中搜索最接近于等级Qext的质量等级(也就是,低于或等于Qext的质量等级)。
图16描述了以连续质量等级的图像结构的实例。在这里考虑了七个图像161~167。前三个图像161~163采用的是QCIF分辨率格式,而后四个图像164~147采用的是CIF格式。这其中的每个图像都是采用基本子流BL 168、第一增强子流EL1169以及与死子流相对应的第二增强子流EL2170的形式编码的。在其中的每个图像内部可以区分五个连续质量等级171~175。这些质量等级与传送图像重建数据的信息实体或NAL的截断点是对应的。
在图16中可以看出,最低质量等级171对应的是基本子流BL168。通过解码第一增强子流EL1,可以获取中间质量等级173,并且通过解码死子流EL2170,可以获取最高质量等级175。
由此,对于CIF解码来说,如果提取器要求的质量是Qext=3,那么这三个较低的质量等级171、172和173将会完全用于每个图像。相反,如果提取器请求的质量是Qext=4,那么总共为每一个CIF和QCIF子段解码三个较低质量等级171、172、173,此外还会为CIF解码质量等级174。
在这个基于质量等级的替换实施例中,提取器或图像质量自适应模块在相对于重建处理中预期的质量等级而言最佳的点上实现信息实体的截断(应该指出的是,这种截断是可通过图像或子段来自适应的)。由此,解码器接收在“最佳”点上被初步截断的NAL以及所有为其解码所保留的点,以便重建视频序列。
图19显示的是这种解码器的简化结构,其包括存储器M 190、配备了例如微处理器并由计算机程序Pg 192驱动的处理单元191。在初始化时,举例来说,计算机程序192的代码指令在由处理单元191的处理器执行之前被加载到RAM中。在输入端,处理单元191接收要解码的一组数据分组183或信息实体,例如,在作为要获取的重建质量的函数的最优比特率点上截断的一组NAL。处理单元191的微处理器μP根据程序Pg 192的指令对所接收的信息实体183进行解码。处理单元191输出与客户显示终端的处理能力相适配的重建视频序列193。

Claims (4)

1.一种用于对表示图像或图像序列的数据流进行解码的方法,
所述数据流具有连续等级n的内嵌数据层的分层结构,其中n是整数,每一个所述等级n的层都与所述图像的一个预定分辨率相对应,所述预定分辨率被称为等级n的分辨率,
等级n+1的所述层中的至少一个通过至少从所述等级n的层中进行预测而编码,
其特征在于:等级n的所述数据层中的每一个都能够在所述等级n的分辨率上重建具有预定最高质量的所述图像的版本,所述等级n的数据层是以至少一个基本子流的形式编码的,该基本子流能够以所述等级n的分辨率来重建图像的基本质量版本,并且对于所述等级n的数据层中的至少一个来说,所述等级n的数据层还以能够细化所述基本质量版本的至少一个增强子流的形式编码,以便获取所述图像的至少一个增强质量版本,
并且其特征在于,所述预定最高质量是:
-如果没有编码所述增强子流,则是所述基本质量;
-如果编码了至少一个增强子流,则是所述至少一个增强质量,
对所述等级n的数据层中的至少一个来说,所述数据流包括至少一个子流,它被称为死子流,并且能够在所述等级n的分辨率上重建质量高于所述预定最高质量的所述图像的版本,
为了以所述等级n的分辨率重建所述图像,所述方法执行以下步骤:
-接收修改后的数据流,该修改后的数据流是通过保持将在重建中使用的子流而从所述数据流得到的;
-对所述修改后的数据流的等级低于n的分辨率的所述数据层进行解码;
-至少对所述修改后的数据流的所述等级n的分辨率的层进行部分解码,包括对所述等级n的分辨率的层的所述死子流进行部分解码,
等级低于n的分辨率的所述层的所述死子流在所述等级n的分辨率的层的所述重建过程中不被使用。
2.根据权利要求1的解码方法,其特征在于该方法还包括获得用于识别所述至少一个死子流的至少一条信息的步骤。
3.根据权利要求1和2中任何一项的解码方法,其特征在于,所述至少一个死子流从称为NAL的至少一个信息实体提取。
4.一种用于对表示图像或图像序列的数据流进行解码的设备,
所述数据流具有连续等级n的内嵌数据层的分层结构,其中n是整数,每一个所述等级n的层都与所述图像的一个预定分辨率相对应,所述预定分辨率被称为等级n的分辨率,
等级n+1的所述层中的至少一个通过至少从所述等级n的层中进行预测而编码,
其特征在于:等级n的所述数据层中的每一个都能够在所述等级n的分辨率上重建具有预定最高质量的所述图像的版本,所述等级n的数据层是以至少一个基本子流的形式编码的,该基本子流能够以所述等级n的分辨率来重建图像的基本质量版本,并且对于所述等级n的数据层中的至少一个来说,所述等级n的数据层还以能够细化所述基本质量版本的至少一个增强子流的形式编码,以便获取所述图像的至少一个增强质量版本,
并且其特征在于,所述预定最高质量是:
-如果没有编码所述增强子流,则是所述基本质量;
-如果编码了至少一个增强子流,则是所述至少一个增强质量,
对所述等级n的数据层中的至少一个来说,所述数据流包括至少一个子流,该子流被称为死子流,并且能够在所述等级n的分辨率上重建质量高于所述预定最高质量的所述图像的版本,
为了以所述等级n的分辨率重建所述图像,所述解码设备包括:
-用于接收修改后的数据流的装置,该修改后的数据流是通过保持将在重建中使用的子流而从所述数据流得到的;
-用于对所述修改后的数据流的等级低于n的分辨率的所述数据层进行解码的装置;
-用于至少对所述修改后的数据流的所述等级n的分辨率的层进行部分解码、包括对所述等级n的分辨率的层的所述死子流进行部分解码的装置,
等级低于n的分辨率的所述层的所述死子流在所述等级n的分辨率的层的所述重建过程中不被使用。
CN2010105597260A 2005-01-12 2005-12-20 对表示图像或图像序列的数据流进行解码的方法和设备 Active CN102065295B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0500331A FR2880743A1 (fr) 2005-01-12 2005-01-12 Dispositif et procedes de codage et de decodage echelonnables de flux de donnees d'images, signal, programme d'ordinateur et module d'adaptation de qualite d'image correspondants
FR0500331 2005-01-12

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2005800482179A Division CN101120591B (zh) 2005-01-12 2005-12-20 对图像数据流执行可扩展编码和解码的设备和方法

Publications (2)

Publication Number Publication Date
CN102065295A CN102065295A (zh) 2011-05-18
CN102065295B true CN102065295B (zh) 2012-09-26

Family

ID=34952769

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2005800482179A Active CN101120591B (zh) 2005-01-12 2005-12-20 对图像数据流执行可扩展编码和解码的设备和方法
CN2010105597260A Active CN102065295B (zh) 2005-01-12 2005-12-20 对表示图像或图像序列的数据流进行解码的方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2005800482179A Active CN101120591B (zh) 2005-01-12 2005-12-20 对图像数据流执行可扩展编码和解码的设备和方法

Country Status (12)

Country Link
US (1) US8315315B2 (zh)
EP (1) EP1839442B1 (zh)
JP (1) JP5042856B2 (zh)
KR (1) KR101291555B1 (zh)
CN (2) CN101120591B (zh)
AT (1) ATE458355T1 (zh)
BR (1) BRPI0519842B1 (zh)
DE (1) DE602005019473D1 (zh)
ES (1) ES2341178T3 (zh)
FR (1) FR2880743A1 (zh)
PL (1) PL1839442T3 (zh)
WO (1) WO2006074855A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070230567A1 (en) * 2006-03-28 2007-10-04 Nokia Corporation Slice groups and data partitioning in scalable video coding
FR2903556B1 (fr) * 2006-07-04 2008-10-03 Canon Kk Procedes et des dispositifs de codage et de decodage d'images, un systeme de telecommunications comportant de tels dispositifs et des programmes d'ordinateur mettant en oeuvre de tels procedes
EP2140651B1 (fr) * 2007-03-30 2018-10-24 Orange Procede de gestion d'une pluralite de sessions audiovisuelles dans un reseau ip et systeme de commande associe
US8270739B2 (en) 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
CN101842811B (zh) * 2007-11-02 2012-05-23 高等技术学校 用于预测经过通过缩放以及质量控制参数的改变而转换的图像的文件大小的系统和方法
CN101686383B (zh) * 2008-09-23 2013-05-01 Utc消防和保安美国有限公司 通过网络传输媒体的方法及系统
US8300961B2 (en) * 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
US9485299B2 (en) * 2009-03-09 2016-11-01 Arris Canada, Inc. Progressive download gateway
US9197677B2 (en) * 2009-03-09 2015-11-24 Arris Canada, Inc. Multi-tiered scalable media streaming systems and methods
US8514931B2 (en) * 2009-03-20 2013-08-20 Ecole Polytechnique Federale De Lausanne (Epfl) Method of providing scalable video coding (SVC) video content with added media content
CA2711311C (en) 2009-08-10 2016-08-23 Seawell Networks Inc. Methods and systems for scalable video chunking
US20110149753A1 (en) * 2009-12-21 2011-06-23 Qualcomm Incorporated Switching between media broadcast streams having varying levels of quality
US8190677B2 (en) 2010-07-23 2012-05-29 Seawell Networks Inc. Methods and systems for scalable video delivery
CN101977305A (zh) * 2010-10-27 2011-02-16 北京中星微电子有限公司 一种视频处理方法及装置和系统
EP2643969A4 (en) * 2010-11-25 2016-03-23 Freescale Semiconductor Inc METHOD FOR CONTROLLING BIT RATE IN AN EXTENSIBLE VIDEO ENCODING SYSTEM AND SYSTEM THEREOF
US9712887B2 (en) 2012-04-12 2017-07-18 Arris Canada, Inc. Methods and systems for real-time transmuxing of streaming media content
US10085017B2 (en) * 2012-11-29 2018-09-25 Advanced Micro Devices, Inc. Bandwidth saving architecture for scalable video coding spatial mode
EP2962479B1 (en) 2013-02-28 2016-11-30 Robert Bosch GmbH Mobile electronic device integration with in-vehicle information systems
JP6205000B2 (ja) * 2013-03-11 2017-09-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 階層符号化を用いたマルチフォーマットハイダイナミックレンジビデオの配信
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
US9484044B1 (en) * 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
KR102349788B1 (ko) * 2015-01-13 2022-01-11 인텔렉추얼디스커버리 주식회사 영상의 부호화/복호화 방법 및 장치
JP6231046B2 (ja) * 2015-06-24 2017-11-15 株式会社ドワンゴ 動画データ配信管理装置、動画データ配信管理方法、プログラム
CN105959731B (zh) * 2016-04-28 2019-02-05 西安交通大学 一种数字电视的统计复用编码方法
GB2553086B (en) * 2016-07-20 2022-03-02 V Nova Int Ltd Decoder devices, methods and computer programs
EP3451672A1 (en) * 2017-08-29 2019-03-06 Nokia Solutions and Networks Oy Method and device for video content encoding optimisation in adaptive streaming systems
EP3676065B1 (en) 2017-08-31 2023-04-12 General Electric Company Encoding volumetric data to support trusted transaction delivery
CN115968545A (zh) * 2021-08-12 2023-04-14 华为技术有限公司 图像编解码方法和装置
CN115733987A (zh) * 2021-08-30 2023-03-03 华为技术有限公司 编解码方法、编码器、解码器及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6275531B1 (en) * 1998-07-23 2001-08-14 Optivision, Inc. Scalable video coding method and apparatus
CN1355995A (zh) * 1999-11-23 2002-06-26 皇家菲利浦电子有限公司 混合式时间-信杂比精细颗粒可分级视频编码
CN1436423A (zh) * 2000-09-22 2003-08-13 皇家菲利浦电子有限公司 细粒可分级性的最佳传输/流式顺序
CN1457605A (zh) * 2001-02-26 2003-11-19 皇家菲利浦电子有限公司 精细颗粒可伸缩性视频编码技术中增强层的改进预测结构

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6233017B1 (en) * 1996-09-16 2001-05-15 Microsoft Corporation Multimedia compression system with adaptive block sizes
US6480541B1 (en) * 1996-11-27 2002-11-12 Realnetworks, Inc. Method and apparatus for providing scalable pre-compressed digital video with reduced quantization based artifacts
US6728775B1 (en) * 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
US6731811B1 (en) * 1997-12-19 2004-05-04 Voicecraft, Inc. Scalable predictive coding method and apparatus
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6816194B2 (en) * 2000-07-11 2004-11-09 Microsoft Corporation Systems and methods with error resilience in enhancement layer bitstream of scalable video coding
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
US7463683B2 (en) * 2000-10-11 2008-12-09 Koninklijke Philips Electronics N.V. Method and apparatus for decoding spatially scaled fine granular encoded video signals
US6907070B2 (en) * 2000-12-15 2005-06-14 Microsoft Corporation Drifting reduction and macroblock-based control in progressive fine granularity scalable video coding
US6917713B2 (en) * 2002-05-29 2005-07-12 Koninklijke Philips Electronics N.V. System and method for enhancing videos from drift-free scalable bitstream
US7844992B2 (en) * 2003-09-10 2010-11-30 Thomson Licensing Video on demand server system and method
US20060012719A1 (en) * 2004-07-12 2006-01-19 Nokia Corporation System and method for motion prediction in scalable video coding
US7616824B2 (en) * 2004-12-08 2009-11-10 Ecole Polytechnique Fédérale de Lausanne (EPFL) CM - Ecublens Method for spatially scalable video coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6275531B1 (en) * 1998-07-23 2001-08-14 Optivision, Inc. Scalable video coding method and apparatus
CN1355995A (zh) * 1999-11-23 2002-06-26 皇家菲利浦电子有限公司 混合式时间-信杂比精细颗粒可分级视频编码
CN1436423A (zh) * 2000-09-22 2003-08-13 皇家菲利浦电子有限公司 细粒可分级性的最佳传输/流式顺序
CN1457605A (zh) * 2001-02-26 2003-11-19 皇家菲利浦电子有限公司 精细颗粒可伸缩性视频编码技术中增强层的改进预测结构

Also Published As

Publication number Publication date
EP1839442A1 (fr) 2007-10-03
BRPI0519842B1 (pt) 2018-12-04
KR20070102547A (ko) 2007-10-18
BRPI0519842A2 (pt) 2009-03-17
US8315315B2 (en) 2012-11-20
ATE458355T1 (de) 2010-03-15
CN101120591B (zh) 2011-01-19
PL1839442T3 (pl) 2010-07-30
US20090016434A1 (en) 2009-01-15
DE602005019473D1 (de) 2010-04-01
WO2006074855A1 (fr) 2006-07-20
JP5042856B2 (ja) 2012-10-03
KR101291555B1 (ko) 2013-08-08
EP1839442B1 (fr) 2010-02-17
FR2880743A1 (fr) 2006-07-14
ES2341178T3 (es) 2010-06-16
CN101120591A (zh) 2008-02-06
JP2008527870A (ja) 2008-07-24
CN102065295A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
CN102065295B (zh) 对表示图像或图像序列的数据流进行解码的方法和设备
CN1926874B (zh) 对视频流传输业务进行视频编码、预解码和视频解码的方法和设备以及图像滤波方法
KR100772868B1 (ko) 복수 계층을 기반으로 하는 스케일러블 비디오 코딩 방법및 장치
US6392705B1 (en) Multimedia compression system with additive temporal layers
US6233017B1 (en) Multimedia compression system with adaptive block sizes
KR100621581B1 (ko) 기초 계층을 포함하는 비트스트림을 프리디코딩,디코딩하는 방법, 및 장치
CN102724556B (zh) 编码系统
CN101383962B (zh) 基于感兴趣区域的低码率空域增强层编解码方法
EP1756950B1 (en) Systems and methods for scalably encoding and decoding data
KR20040091686A (ko) 더 높은 질의 참조 프레임을 사용하는 fgst 코딩 방법
KR101032243B1 (ko) 스케일링가능한 비트스트림 추출을 위한 방법 및 시스템
CN101888553B (zh) 用于可伸缩视频编码的方法和装置
Auli-Llinas et al. Efficient rate control for JPEG2000 coder and decoder
Mukherjee et al. Fully scalable video transmission using the SSM adaptation framework
KR100690710B1 (ko) 동영상 전송방법
Li et al. Multiple description image coding for scalable and robust transmission over ip
Conci et al. Multiple description video coding by coefficients ordering and interpolation
Danyali School of Electrical, Computer and Telecommunications Engineering University of Wollongong, Wollongong, NSW 2522, Australia Email:(hd04, mertins) Guowedu. au
Conci et al. Transcoding vs. Scalability in Video Streaming for Heterogeneous Networks/Clients

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant