CN105519118A - 用于视频编码和解码的装置、方法和计算机程序 - Google Patents

用于视频编码和解码的装置、方法和计算机程序 Download PDF

Info

Publication number
CN105519118A
CN105519118A CN201480049171.1A CN201480049171A CN105519118A CN 105519118 A CN105519118 A CN 105519118A CN 201480049171 A CN201480049171 A CN 201480049171A CN 105519118 A CN105519118 A CN 105519118A
Authority
CN
China
Prior art keywords
enhancement
layer
layer pictures
paster set
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480049171.1A
Other languages
English (en)
Inventor
K·乌尔
M·汉努卡塞拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN105519118A publication Critical patent/CN105519118A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/34Scalability techniques involving progressive bit-plane based encoding of the enhancement layer, e.g. fine granular scalability [FGS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种用于对包括基础层和至少一个增强层的可伸缩比特流进行解码的方法,所述方法包括:获取关于增强层图片中的贴片集合的信息;获取关于基础层图片中的贴片集合的信息;获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。

Description

用于视频编码和解码的装置、方法和计算机程序
技术领域
本发明涉及一种用于视频编码和解码的装置、方法和计算机程序。
背景技术
可伸缩视频编码指的是这样的编码结构,其中,一个比特流可含有采用不同比特率、分辨率或帧率的内容的多个表示。可伸缩比特流通常包括“基础层”(其提供可用的最低质量视频)以及一个或多个增强层(其增强与较低层一起接收和解码的视频质量)。为了提升增强层的编码效率,该层的编码表示通常依赖于较低层。
可如下实现针对质量可伸缩性(也称为信噪比或SNR)和/或空间可伸缩性的可伸缩视频编解码器。对于基础层,使用常规的非可伸缩视频编码器和解码器。将基础层的重构/解码图片包括在用于增强层的参考图片缓冲器中。在编解码器使用参考图片列表进行帧间预测(interprediction)时,可以与增强层的解码参考图片相类似地将基础层解码图片插入到用于对增强层图片进行编码/解码的参考图片列表中。于是,编码器可以选取基础层参考图片作为帧间预测参考,并且通常利用参考图片索引在编码比特流中指示出其用途。解码器从比特流(例如从参考图片索引)解码得到:基础层图片被用作增强层的帧间预测参考。
除了质量可伸缩性之外,还可以通过以下来实现可伸缩性:空间可伸缩性,其中,按照比增强层图片要高的分辨率来对基础层图片进行编码;比特深度可伸缩性,其中,按照比增强层图片(例如,10或12比特)要低的比特深度(例如,8比特)来对基础层图片进行编码;以及色度格式可伸缩性,其中,基础层图片提供比增强层图片(例如,4:2:0格式)要高的色度方面的保真度(例如,以4:4:4色度格式进行编码)。
在特定情况下,仅对图片内的一区域而不是整个增强层图片进行增强会是值得期待的。然而,如果实现在当前的可伸缩视频编码解决方案中,则所述可伸缩性将会具有太多复杂度开销或是遭受编码效率的困扰。例如,考虑比特深度可伸缩性,其中,仅视频图片内的一区域被定为以较高比特深度进行编码的目标,然而当前的可伸缩编码解决方案需要以高比特深度对整个图片进行编码,因而极大地增加了复杂度。对于色度格式可伸缩性的情况,即使仅增强图像的特定区域,整个图片的参考存储器也应当采用4:4:4格式,因而提高了存储器需求。
已提出使用SEI消息来指示用于图片中的贴片(tile)集合的受限编码,其中,贴片的运动补偿受到限制,从而使得贴片集合之外的采样不被利用,并且贴片集合表示可独立解码区。尽管提供了改善的编码效率用于仅增强图片内的一区域,但是这样的运动受约束的贴片集合SEI消息被限于仅定义层内预测依赖性。
发明内容
本发明出自这样的考虑:为了按照提升的质量和/或空间分辨率以及按照高编码效率来对增强层图片内的一区域的编码进行扩展,使得将层间预测约束考虑在内,引入了一种改进的方法,用于对增强层图片中的一个或多个贴片进行编码和解码。
根据第一实施例的方法包括一种用于对包括基础层和至少一个增强层的可伸缩比特流进行解码的方法,所述方法包括:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据实施例,所述编码约束定义了:要使用层间预测或帧内预测(intraprediction),而不使用时间预测,来预测增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用仅根据基础层图片中的所述贴片集合的层间预测,或者使用帧内预测,而不使用时间预测,来预测增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用时间预测或帧内预测,而不使用层间预测,来预测增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束指示:所述增强层图片中的贴片集合的重构与所述基础层图片中的对应贴片集合的重构相同。
根据实施例,所述编码约束将所述增强层图片中的所述贴片集合定义为运动和层间预测受约束的贴片集合。
根据实施例,所述编码约束指示:用于层间预测的所述基础层图片中的贴片集合是运动受约束的。
根据实施例,所述编码约束将所述增强层图片中的所述贴片集合定义为单循环解码(single-loopdecoding)贴片集合。
根据实施例,在所述单循环解码中,所述编码约束定义了:要使用时间预测或帧内预测,以及如果所述基础层图片是随机访问图片则使用层间预测,来预测增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述方法进一步包括:根据补充增强信息(SEI)消息来获取所述增强层图片中的所述贴片集合的编码约束的至少一部分。
根据实施例,所述方法进一步包括:根据第一SEI消息来获取用于所述贴片集合的层内或时间预测约束,以及根据第二SEI消息来获取所述贴片集合的层间预测约束。
根据实施例,所述增强层图片中的贴片集合含有所述基础层图片中的对应贴片集合的增强信息,所述增强信息包括以下中的至少一个:
-针对基础层图片中的对应贴片集合的色度,增加所述增强层图片中的所述贴片集合的色度的保真度;
-针对基础层图片中的对应贴片集合的比特深度,增加所述增强层图片中的所述贴片集合的比特深度;
-针对基础层图片中的对应贴片集合的质量,增加所述增强层图片中的所述贴片集合的质量;或者
-针对基础层图片中的对应贴片集合的空间分辨率,增加所述增强层图片中的所述贴片集合的空间分辨率。
根据第二实施例的装置包括:
视频解码器,其被配置成用于对包括基础层和至少一个增强层的可伸缩比特流进行解码,所述视频解码器被配置成用于:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第三实施例,提供了一种在其中存储了用于由装置使用的代码的计算机可读存储介质,所述代码当被处理器执行时,促使所述装置实施:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第四实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其中存储了代码,所述代码当被所述至少一个处理器执行时,促使装置实施:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第五实施例的方法包括一种用于对增强层图片中的一个或多个贴片进行编码的方法,所述方法包括:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第六实施例的装置包括:
视频编码器,其被配置成用于对包括基础层和至少一个增强层的可伸缩比特流进行编码,其中,所述视频编码器被进一步配置成用于:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第七实施例,提供了一种在其中存储了用于由装置使用的代码的计算机可读存储介质,所述代码当被处理器执行时,促使所述装置实施:
对包括基础层和至少一个增强层的可伸缩比特流进行编码;
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第八实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其中存储了代码,所述代码当被所述至少一个处理器执行时,促使装置实施:
对包括基础层和至少一个增强层的可伸缩比特流进行编码;
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第九实施例,提供了一种视频解码器,其被配置成用于对包括基础层和至少一个增强层的可伸缩比特流进行解码,所述视频解码器被配置成用于:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第十实施例,提供了一种视频编码器,其被配置成用于对包括基础层和至少一个增强层的可伸缩比特流进行编码,其中,所述视频编码器被进一步配置成用于:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
附图说明
为了更好地理解本发明,现在将作为示例来参考附图,其中:
图1示意性地示出了采用本发明的某些实施例的电子设备;
图2示意性地示出了适于采用本发明的某些实施例的用户设备;
图3进一步示意性地示出了使用无线和有线网络连接来连接的采用本发明实施例的电子设备;
图4示意性地示出了适于实现本发明的某些实施例的编码器;
图5示出了根据本发明实施例的编码过程的流程图;
图6示出了根据本发明实施例的仅层间贴片集合的编码约束的示例;
图7示出了根据本发明实施例的运动和层间预测受约束的贴片集合的示例;
图8示出了根据本发明实施例的运动和层间预测受约束的贴片集合的另一示例;
图9示出了根据本发明某些实施例的对3d和多视图视频编码应用增强层图片中的受约束贴片集合的示例;
图10示出了根据本发明某些实施例的解码器的示意图;以及
图11示出了根据本发明实施例的解码过程的流程图。
具体实施方式
下面进一步详细描述用于实现实施例的合适装置和可能的机制。就此而言,首先参考图1,该图示出了可含有根据本发明实施例的编解码器的示例性装置或电子设备50的示意框图。
电子设备50例如可以是无线通信系统的移动终端或用户设备。然而,应当认识到,可以在任何这样的电子设备或装置内实现本发明的实施例,其中所述电子设备或装置可需要编码和解码或者对视频图像进行编码或解码。
装置50可以包括用于容纳和保护所述设备的壳体30。装置50可以进一步包括采用液晶显示器形式的显示器32。在本发明的其它实施例中,显示器可以是任何适于显示图像或视频的合适的显示技术。装置50可以进一步包括键板34。在本发明的其它实施例中,可以采用任何合适的数据或用户接口机制。例如,可以将用户接口实现成作为触敏显示器的一部分的虚拟键盘或数据输入系统。所述装置可以包括扩音器36或任何合适的音频输入,所述音频输入可以是数字或模拟信号输入。装置50可以进一步包括音频输出设备,所述音频输出设备在本发明的实施例中可以是以下中的任一个:耳机38、扬声器或者模拟音频或数字音频输出连接。装置50还可以包括电池40(或者在本发明的其它实施例中,所述设备可以经由诸如太阳能电池、燃料电池或时钟发生器这样的任何合适的移动能量设备来进行供电)。所述装置可以进一步包括用于与其它设备的短距离视线通信的红外端口42。在其它实施例中,装置50可以进一步包括诸如蓝牙无线连接或USB/火线有线连接这样的任何合适的短距离通信解决方案。
装置50可以包括用于控制装置50的控制器56或处理器。控制器56可以连接到存储器58,在本发明的实施例中,存储器58可以存储采用图像和音频数据的形式的两类数据和/或还可以存储用于在控制器56上实现的指令。控制器56可以进一步连接到编解码器电路54,编解码器电路54适于实现对音频和/或视频数据的编码和解码,或者在由控制器56实现的编码和解码中提供辅助。
装置50可以进一步包括读卡器48和智能卡46,例如UICC和UICC读取器,用于提供用户信息,并且适于提供认证信息以便在网络处对用户进行认证和授权。
装置50可以包括无线电接口电路52,无线电接口电路52连接到控制器,并且适于生成例如用于与蜂窝通信网络、无线通信系统或无线局域网进行通信的无线通信信号。装置50可以进一步包括天线44,天线44连接到无线电接口电路52,用于将在无线电接口电路52处生成的射频信号传送到其它装置,并且用于从其它装置接收射频信号。
在本发明的某些实施例中,装置50包括能够记录或检测各个帧的照相机,其中,各个帧然后被传递给编解码器54或控制器进行处理。在本发明的其它实施例中,所述装置可以在传送和/或存储之前从另一设备接收视频图像数据进行处理。在本发明的其它实施例中,装置50可以无线地或者经由有线连接来接收图像进行编码/解码。
关于图3,示出了可以在其中利用本发明实施例的系统的示例。系统10包括可以通过一个或多个网络进行通信的多个通信设备。系统10可以包括有线或无线网络的任意组合,所述有线或无线网络包括但不限于:无线蜂窝电话网络(诸如GSM、UMTS、CDMA网络等)、诸如由IEEE802.x标准中的任一个定义的无线局域网(WLAN)、蓝牙个域网、以太局域网、令牌环局域网、广域网和因特网。
系统10可以包括适于实现本发明实施例的有线和无线这两类通信设备或装置50。
例如,图3中所示的系统示出了移动电话网络11以及因特网28的表示。与因特网28的连接可以包括但不限于远距离无线连接、短距离无线连接和各种有线连接,所述各种有线连接包括但不限于电话线路、电缆线路、电力线路和类似的通信途径。
系统10中所示的示例通信设备可以包括但不限于:电子设备或装置50、个人数字助理(PDA)和移动电话的组合14、PDA16、集成消息收发设备(IMD)18、桌上型计算机20、笔记本计算机22。装置50可以是固定的或者当被正在移动的个人携带时是移动的。装置50还可以处于运输模式下,所述运输模式包括但不限于轿车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或任何类似的合适的运输模式。
通过与基站24的无线连接25,某种或其它装置可以发送和接收呼叫和消息,并且与服务提供商进行通信。基站24可以连接到网络服务器26,网络服务器26允许移动电话网络11与因特网28之间的通信。所述系统可以包括附加的通信设备和各种类型的通信设备。
所述通信设备可以使用各种传输技术进行通信,所述各种传输技术包括但不限于:码分多址(CDMA)、全球移动通信系统(GSM)、通用移动电信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议-因特网协议(TCP-IP)、短消息收发服务(SMS)、多媒体消息收发服务(MMS)、电子邮件、即时消息收发服务(IMS)、蓝牙、IEEE802.11和任何类似的无线通信技术。实现本发明的各种实施例时涉及的通信设备可以使用各种介质进行通信,所述各种介质包括但不限于:无线电、红外线、激光、电缆连接和任何合适的连接。
视频编解码器包括:编码器,其将输入视频变换为适于存储/传输的压缩表示;以及解码器,其可以将压缩的视频表示解压缩回到可观看形式。通常,编码器为了用更紧凑的形式(即,采用较低比特率)来表示视频而丢弃原始视频序列中的某些信息。
例如ITU-TH.263和H.264这样的典型混合视频编解码器在两个阶段中对视频信息进行编码。第一,例如通过运动补偿手段(找到并指示出先前已编码视频帧之一中紧密对应于正被编码的块的区域)或者通过空间手段(以指定方式使用将被编码的块周围的像素值),对特定图片区域(或“块”)中的像素值进行预测。第二,对预测误差(即,经预测的像素块与原始像素块之间的偏差)进行编码。这通常通过以下来完成:使用指定的变换(例如离散余弦变换(DCT)或其变型)对像素值方面的偏差进行变换,对系数进行量化,以及对所量化的系数进行熵编码。通过改变量化过程的保真度,编码器可以控制像素表示的准确度(图片质量)与所得到的已编码视频表示的尺寸(文件尺寸或传输比特率)之间的平衡。
视频编码通常是两阶段的过程:第一,基于先前已编码数据来生成对视频信号的预测。第二,对预测信号与源信号之间的残差进行编码。帧间预测(也可以称为时间预测、运动补偿,或者运动补偿的预测)降低了时间冗余度。在帧间预测中,预测的源是先前已解码的图片。帧内预测利用以下事实:同一图片内的相邻像素有可能是相关的。可以在空间或变换域中实施帧内预测,即,可以对采样值或变换系数进行预测。通常在帧内编码中采用帧内预测,在帧内编码中不应用任何帧间预测。
编码过程的一个成果是诸如运动矢量和经量化的变换系数这样的编码参数集合。许多参数如果其首先是根据空间或时间上相邻的参数被预测的话,则它们可以更高效地被进行熵编码。例如,可以根据空间上相邻的运动矢量来对运动矢量进行预测,并且可以仅对相对于运动矢量预测器的偏差进行编码。可以将对图片内的编码参数的预测和帧内预测统称为图片中预测。
关于图4,示出了适于实现本发明实施例的视频编码器的框图。图4将编码器示为包括像素预测器302、预测误差编码器303和预测误差解码器304。图4还将像素预测器302的实施例示为包括帧间预测器306、帧内预测器308、模式选择器302、过滤器316和参考帧存储器318。像素预测器302在帧间预测器306(其确定图像与经运动补偿的参考帧318之间的偏差)和帧内预测器308(其仅基于当前帧或图片的已被处理的部分来确定对图像块的预测)这两者处接收要被编码的图像300。将帧间预测器和帧内预测器这两者的输出传递给模式选择器310。帧内预测器308可以具有不止一个帧内预测模式。因此,每个模式可以实施帧内预测,并向模式选择器310提供预测信号。模式选择器310还接收图像300的副本。
取决于哪个编码模式被选择用于对当前块进行编码,将帧间预测器306的输出、或者可选的帧内预测器模式之一的输出、或者模式选择器内的表面编码器的输出传递到模式选择器310的输出端。将模式选择器的输出传递到第一求和设备321。第一求和设备可以从图像300减去像素预测器302的输出,以便产生被输入给预测误差编码器303的第一预测误差信号320。
像素预测器302进一步从初步重构器339接收图像块的预测表示312和预测误差解码器304的输出338的组合。可以将经初步重构的图像314传递给帧内预测器308和过滤器316。接收所述初步表示的过滤器316可以对该初步表示进行过滤,并且输出可被保存在参考帧存储器318中的最终的重构图像340。参考帧存储器318可以连接到帧间预测器306,以便被用作在帧间预测操作中与未来图像300进行比较所针对的参考图像。
像素预测器302的操作可被配置为实现本领域中已知的任何已知像素预测算法。
预测误差编码器303包括变换单元342和量化器344。变换单元342将第一预测误差信号320变换到变换域。该变换例如是DCT变换。量化器344对例如DCT系数这样的变换域信号进行量化以便形成经量化的系数。
预测误差解码器304接收来自预测误差编码器303的输出,并且实施与预测误差编码器303相反的过程,以便产生经解码的预测误差信号338,经解码的预测误差信号338当在第二求和设备339处与图像块的预测表示312相组合时,产生初步重构的图像314。可以认为预测误差解码器包括:解量化器361,其对例如DCT系数这样的经量化的系数值进行解量化,以便对变换信号进行重构;以及逆变换单元363,其对重构的变换信号实施逆变换,其中,逆变换单元363的输出含有经重构的块。预测误差解码器还可以包括宏块过滤器,宏块过滤器可以根据进一步的已解码信息和过滤参数来对经重构的宏块进行过滤。
熵编码器330接收预测误差编码器303的输出,并且可以对该信号实施合适的熵编码/可变长度编码,以便提供误差检测和纠正能力。
H.264/AVC标准由国际电信联盟(ITU-T)的电信标准化部门的视频编码专家组(VCEG)的联合视频组(JVT)和国际标准化组织(ISO)/国际电工委员会(IEC)的运动图像专家组(MPEG)开发。H.264/AVC标准由这二者的上层标准化组织发布,并且其被称为ITU-T建议H.264和ISO/IEC国际标准14496-10,也被称为MPEG-4第10部分高级视频编码(AVC)。已存在多个版本的H.264/AVC标准,每个版本向该规范集成新的扩展或特征。这些扩展包括可伸缩视频编码(SVC)和多视图视频编码(MVC)。
高效率视频编码标准(其可被称为HEVC或H.265/HEVC)由VCEG和MPEG的联合协作组-视频编码(JCT-VC)开发。该标准被称为ITU-T建议H.265和ISO/IEC国际标准23008-2,也被称为MPEG-H第2部分高效率视频编码(HEVC)。当前存在正在进行的用于开发对H.265/HEVC的扩展的标准化项目,所述扩展包括可伸缩、多视图、三维和保真度范围扩展。
作为可在其中实现实施例的视频编码器、解码器、编码方法、解码方法和比特流结构的示例,在本部分中描述了H.264/AVC和HEVC的某些关键定义、比特流和编码结构以及概念。H.264/AVC的所述关键定义、比特流和编码结构以及概念中的某些与HEVC标准中的相同—因此,在下面联合地对它们进行了描述。本发明的方面不限于H.264/AVC或HEVC,相反,作为可以在其上部分或完全实现本发明的一种可能的基础而给出了本说明书。
当描述H.264/AVC和HEVC时以及在示例实施例中,可以使用例如在H.264/AVC或草案HEVC中指定的算术运算符、逻辑运算符、关系运算符、位运算符、赋值运算符和范围记号的公用记号。此外,可以使用例如在H.264/AVC或草案HEVC中指定的公用数学函数,并且可以使用例如在H.264/AVC或草案HEVC中指定的运算符的公用优先顺序和执行顺序(从左到右或从右到左)。
当描述H.264/AVC和HEVC时以及在示例实施例中,下面的描述符可用于指定每个语法元素的解析过程。
-b(8):具有任何比特串样式的字节(8比特)。
-se(v):带符号整数Exp-Golomb编码的语法元素,其中左边比特在先(leftbitfirst)。
-u(n):使用n比特的无符号整数。当n是语法表中的“v”时,比特数按照取决于其它语法元素的值的方式变化。该描述符的解析过程由来自比特流的n个接下来的比特指定,其中所述比特流被解译为无符号整数的二进制表示,其中首先写出最高有效位。
-ue(v):无符号整数Exp-Golomb编码的语法元素,其中左边比特在先。
例如可以使用下表将Exp-Golomb比特串转换为代码编号(codeNum):
比特串 codeNum
1 0
010 1
011 2
00100 3
00101 4
00110 5
00111 6
0001000 7
0001001 8
0001010 9
例如可以使用下表将对应于Exp-Golomb比特串的代码编号转换为se(v):
codeNum 语法元素值
0 0
1 1
2 -1
3 2
4 -2
5 3
6 -3
当描述H.264/AVC和HEVC时以及在示例实施例中,可以如下来指定语法结构、语法元素的语义和解码过程。用粗体来表示比特流中的语法元素。每个语法元素经由以下来描述:其名称(带有下划线字符的全小写字母);可选地,其一个或两个语法类别;以及用于其编码表示的方法的一个或两个描述符。根据语法元素的值以及根据先前已解码的语法元素的值来进行解码过程。当语法元素的值在语法表或文本中被使用时,其以规则体(即,非粗体)出现。在某些情况下,语法表可以使用根据语法元素值导出的其它变量的值。所述变量出现在语法表或文本中,由小写和大写字母的混合体来命名,并且不具有任何下划线字符。以大写字母开始的变量被导出用于对当前语法结构和所有从属的语法结构进行解码。以大写字母开始的变量可以在稍后的语法结构的解码过程中被使用,而不提及该变量的起源语法结构。以小写字母开始的变量仅在其被导出的上下文内被使用。在某些情况下,可互换地使用语法元素值或变量值的“助记”名称与其数字值。某些时候,在不带任何关联的数字值的情况下使用“助记”名称。在文本中指定值与名称的关联性。根据由下划线字符分离的一个或多个字母组来构造名称。每个组以大写字母开始,并且可含有更多大写字母。
当描述H.264/AVC和HEVC时以及在示例实施例中,可以使用以下内容来指定语法结构。被包括在波形括号(花括号)中的一组语句是复合语句,并且在功能上被看作单一语句。“while”结构指定对条件是否为真的测试,并且如果为真,则重复地指定对语句(或复合语句)的评估,直到条件不再为真。“do…while”结构指定对语句评估一次,随后是对条件是否为真的测试,并且如果为真,则指定对语句的重复评估,直到条件不再为真。“if…else”结构指定对条件是否为真的测试,并且如果条件为真,则指定对主语句的评估,否则,指定对备选语句的评估。如果不需要任何的备选语句评估,则省略该结构的“else”部分以及关联的备选语句。“for”结构指定对初始语句的评估,随后是对条件的测试,并且如果条件为真,则指定对主语句(随后是后续语句)的重复评估,直到条件不再为真。
与许多早期的视频编码标准类似,在H.264/AVC和HEVC中指定了用于无错比特流的比特流语法和语义以及解码过程。编码过程未被指定,但编码器必须生成相一致的比特流。可以利用假想型参考解码器(HRD)来验证比特流和解码器一致性。所述标准含有帮助应对传输错误和丢失的编码工具,但在编码时使用该工具是可选的,并且还未对错误比特流指定任何解码过程。
在对现有标准的描述中以及在对示例实施例的描述中,语法元素可被定义为用比特流来表示的数据元素。语法结构可被定义为以指定的顺序一起出现在比特流中的零个或更多个语法元素。
简档(profile)可被定义为由解码/编码标准或规范指定的整个比特流语法的子集。在由给定简档的语法施加的界限内,取决于比特流中的语法元素的取值(诸如已解码图片的指定尺寸),仍然有可能要求编码器和解码器的性能方面的很大变化。在许多应用中,实现能够处理特定简档内语法的所有假想使用的解码器可能是既不实用也不经济的。为了处理该问题,可以使用多个级别。级别可被定义为:对解码/编码标准或规范中指定的变量和比特流中的语法元素的值所施加的指定的约束集合。这些约束可以是对值的简单限制。可选地或附加地,其可以采用对值的算术组合(例如,图片宽度乘以图片高度乘以每秒被解码的图片数目)的约束的形式。也可以使用其它用于指定对级别的约束的手段。就每时间段(诸如每秒)的编码单元(诸如宏块)而言,在级别中指定的约束中的某些约束例如可以与最大图片尺寸、最大比特率和最大数据速率有关。可以对所有简档定义相同的级别集合。例如,为了提高实现不同简档的终端的可互操作性,优选的可以是:每个级别的定义中的多数或所有方面可以跨不同简档而言是公用的。
分别用于H.264/AVC或HEVC编码器的输入和H.264/AVC或HEVC解码器的输出的基本单元是图片。在H.264/AVC和HEVC中,图片可以是帧或场(field)。帧包括亮度采样(有可能还包括对应的色度采样)的矩阵。场是帧的交替采样行的集合,并且当源信号交错(interlace)时,场可被用作编码器输入。色度图片可以不出现(并且因此可使用单色采样),或者,当与亮度图片比较时,色度图片可被进行二次采样。某些色度格式可被概括如下:
-在单色采样中,仅存在一个采样阵列,该采样阵列可以在名义上被看作亮度阵列。
-在4:2:0采样中,两个色度阵列中的每个色度阵列具有亮度阵列的一半高度和一半宽度。
-在4:2:2采样中,两个色度阵列中的每个色度阵列具有亮度阵列的相同高度和一半宽度。
-在4:4:4采样中,当没在使用任何单独的颜色平面时,两个色度阵列中的每个色度阵列具有与亮度阵列相同的高度和宽度。
在H.264/AVC和HEVC中,有可能将采样阵列作为单独的颜色平面编码到比特流中,并且分别从比特流中对已单独编码的颜色平面进行解码。当使用单独的颜色平面时,利用单色采样来(由编码器和/或解码器)作为图片单独地对每个颜色平面进行处理。
当使用色度二次采样(例如,4:2:0或4:2:2色度采样)时,可以在编码器侧(例如作为预处理步骤或作为编码的一部分)确定色度采样关于亮度采样的位置。关于亮度采样位置的色度采样位置例如可以在诸如H.264/AVC或HEVC这样的编码标准中被预先定义,或者可以例如作为H.264/AVC或HEVC的VUI的一部分在比特流中被指示。
分区可被定义为:将集合划分为子集,从而使得集合的每个元素精确地处在子集之一中。图片分区可被定义为:将图片划分为较小的非重叠单元。块分区可被定义为:将块划分为较小的非重叠单元,例如子块。在某些情况下,术语“块分区”可被认为覆盖了多个级别的分区,例如将图片分区成切片(slice),以及将每个切片分区成诸如H.264/AVC的宏块这样的更小单元。应当指出,诸如图片这样的同一单元可以具有不止一个分区。例如,草案HEVC标准的编码单元可被分区为预测单元,并且单独地经由另一四叉树被分区为变换单元。
在H.264/AVC中,宏块是16x16的亮度采样块和对应的色度采样块。例如,在4:2:0采样模式中,宏块针对每个色度分量含有一个8x8的色度采样块。在H.264/AVC中,图片被分区为一个或多个切片组,并且切片组含有一个或多个切片。在H.264/AVC中,切片由特定切片组内的光栅扫描中连续排序的整数个宏块组成。
在HEVC标准化的过程期间,例如关于图片分区单元的术语已得到演进。在接下来的段落中,提供了HEVC术语的某些非限制性示例。
在诸如高效率视频编码(HEVC)编解码器的某些视频编解码器中,视频图片被划分为覆盖图片区域的编码单元(CU)。CU包括以下内容:一个或多个预测单元(PU),所述预测单元定义了用于CU内的采样的预测过程;以及一个或多个变换单元(TU),所述变换单元定义了用于所述CU中的采样的预测误差编码过程。通常,CU由具有可从预先定义的可能CU尺寸集合中选择的尺寸的正方形采样块组成。具有最大允许尺寸的CU可被称为LCU(最大编码单元),并且视频图片被划分为非重叠的LCU。例如通过递归地对LCU和所得到的CU进行拆分,LCU可被进一步拆分为更小CU的组合。每个所得到的CU通常具有至少一个PU及其相关联的至少一个TU。每个PU和TU可以分别被进一步拆分为更小的PU和TU,以便提升预测过程和预测误差编码过程的粒度。每个PU具有与其相关联的预测信息,其定义了什么种类的预测将被应用于该PU内的像素(例如,针对帧间预测的PU的运动矢量信息和针对帧内预测的PU的帧内预测定向性信息)。类似地,每个TU关联于描述了用于所述TU内的采样的预测误差解码过程的信息(例如包括DCT系数信息)。通常在CU级别用信号通知:预测误差编码是否被应用于每个CU。在不存在任何关联于CU的预测误差残差的情况下,可以认为不存在任何针对所述CU的TU。通常在比特流中用信号通知将图像划分成CU以及将CU划分成PU和TU,从而允许解码器再现这些单元的预期结构。
在HEVC标准中,图片可以被分区为贴片,所述贴片是矩形的,并且含有整数个LCU。在HEVC标准中,分区成贴片形成了规则的网格,其中,贴片的高度和宽度与彼此最多相差一个LCU。在图片内的光栅扫描中,在比特流中连续地对贴片进行排序。贴片可以含有整数个切片。
在HEVC中,切片包括整数个LCU。如果没在使用贴片,则按照贴片内或图片内的LCU的光栅扫描顺序对LCU进行扫描。切片可以含有整数个贴片,或者切片可被包含在贴片中。在LCU内,CU具有特定扫描顺序。
解码器通过应用以下来对输出视频进行重构:与编码器类似的用于形成像素块的预测表示的预测手段(使用由编码器创建并以压缩表示来存储的运动或空间信息),以及预测误差解码(预测误差编码的逆过程,其在空间像素域中对经量化的预测误差信号进行恢复)。在应用了预测和预测误差解码手段之后,解码器对预测信号和预测误差信号(像素值)进行汇总以便形成输出视频帧。解码器(和编码器)还可以:在传递输出视频进行显示和/或将其存储为视频序列中即将到来的帧的预测参考之前,应用附加的过滤手段来提升输出视频的质量。
在典型的视频编解码器中,利用与每个经运动补偿的图像块相关联的运动矢量来对运动信息进行指示。这些运动矢量中的每个运动矢量表示:先前被编码或解码的图片之一中的预测源块以及(在编码器侧)要被编码或(在解码器侧)要被解码的图片中的图像块的位移。为了高效地表示运动矢量,通常针对特定于块的预测的运动矢量来有差别地对其进行编码。在典型的视频编解码器中,以预先定义的方式来创建所预测的运动矢量,例如,计算相邻块的已编码或解码的运动矢量的中值。另一种创建运动矢量预测的方式是:根据时间参考图片中的相邻块和/或同位块(co-locatedblocks)生成候选预测的列表,并且作为运动矢量预测器来对所选取的候选进行信令通知。除了预测运动矢量值之外,可以对先前已编码/已解码的图片的参考索引进行预测。通常根据时间参考图片中的相邻块和/或同位块来对参考索引进行预测。此外,典型的高效率视频编解码器采用附加运动信息编码/解码机制(通常称为合并/融合模式),其中,在没有任何修改/纠正的情况下,预测和使用所有的运动场信息(其包括用于每个可用参考图片列表的运动矢量和对应的参考图像索引)。类似地,使用时间参考图片中的相邻块和/或同位块的运动场信息来实现对运动场信息的预测,并且在一列运动场候选列表中对所使用的运动场信息进行信号通知,其中,利用可用的相邻/同位块的运动场信息来填充所述运动场候选列表。
在典型的视频编解码器中,在运动补偿之后的预测残差首先利用变换内核(例如DCT)来进行变换,并且然后被编码。这样的原因在于:通常,残差中仍然存在某种相关性,并且在许多情况下变换能够帮助降低该相关性并且提供更高效的编码。
典型的视频编码器利用拉格朗日成本函数来找出最优的编码模式,例如所期望的宏块模式和相关联的运动矢量。这种成本函数使用加权因子λ来将由于有损编码方法产生的(精确或估计的)图像失真和表示图像区域中的像素值所需的(精确或估计的)信息量联系在一起:
C=D+λR(1)
其中,C是要被最小化的拉格朗日成本,D是伴随所考虑的模式和运动矢量的图像失真(例如均方误差),以及R是为表示在解码器中重构图像块所需的数据而需要的比特数(包括用于表示候选运动矢量的数据量)。
视频编码标准和规范可以允许编码器将已编码图片划分为已编码切片或者类似物。通常,无法跨切片边界来启用图片中预测。因而,可以将切片看作是用于将已编码图片拆分为可独立解码片段的方法。在H.264/AVC和HEVC中,可以禁止跨切片边界来启用图片中预测。因而,可以将切片看作是用于将已编码图片拆分为可独立解码片段的方法,并且因此通常将切片看作是进行传输的基本单元。在许多情况下,编码器可以在比特流中指示:跨切片边界停用了什么类型的图片中预测,并且例如当推断哪些预测源可用时,解码器操作考虑该信息。例如,如果相邻宏块或CU驻留在不同切片中,则可以将来自该相邻宏块或CU的采样看作是不可用于帧内预测。
下面对某些编码标准中可用的切片类型进行了归类。
光栅扫描顺序切片(raster-scan-order-slice)是由按照光栅扫描顺序的连续宏块等组成的编码段。例如,MPEG-4第2部分的视频分组和H.263中以非空GOB报头开始的宏块组(GOBs)是光栅扫描顺序切片的示例。
矩形切片是由矩形区域的宏块等组成的编码段。矩形切片可以高于一个宏块或类似的行,并且窄于整个图片宽度。H.263包括可选的矩形切片子模式,并且H.261GOBs也可被看作是矩形切片。
弹性切片可以含有任何预先定义的宏块(或类似物)位置。H.264/AVC编解码器允许将宏块分组成不止一个切片组。切片组可以含有任何宏块位置,包括非相邻宏块位置。H.264/AVC的某些简档中的切片由按照光栅扫描顺序的特定切片组内的至少一个宏块组成。
分别用于H.264/AVC或HEVC编码器的输出和H.264/AVC或HEVC解码器的输入的基本单元是网络抽象层(NAL)单元。对于在面向分组的网络上的传输或者向结构化文件中的存储,可以将NAL单元封装到分组或类似结构中。已在H.264/AVC和HEVC中对于不提供成帧结构的传输或存储环境指定了字节流格式。通过在每个NAL单元的前面附上开始代码,字节流格式将NAL单元彼此分开。为了避免对NAL单元边界的错误检测,编码器运行面向字节的开始代码仿真预防算法,该算法在以下情况下向NAL单元有效载荷添加仿真预防字节:若非如此,则开始代码就会出现。为了使得能够进行面向分组与面向流的系统之间的直接网关操作,可以不论是否正在使用字节流格式,而总是实施开始代码仿真预防。NAL单元可被定义为含有以下内容的语法结构:对要遵循的数据类型的指示,以及含有当必要时伴随仿真预防字节来散置(interspersed)的采用RBSP形式的数据的字节。原始字节序列有效载荷(RBSP)可被定义为含有以下内容的语法结构:被封装在NAL单元中的整数个字节。RBSP要么为空,要么采用一串数据比特的形式,所述数据比特含有语法元素,之后跟随RBSP停止比特,并且之后跟随零个或更多等于0的后续比特。
NAL单元包括报头和有效载荷。在H.264/AVC和HEVC中,NAL单元报头指示:NAL单元的类型,以及包含在NAL单元中的已编码切片是参考图片还是非参考图片的一部分。
H.264/AVCNAL单元报头包括2比特nal_ref_idc语法元素,该语法元素在等于0时指示包含在NAL单元中的已编码切片是非参考图片的一部分,并且在大于0时指示包含在NAL单元中的已编码切片是参考图片的一部分。SVC和MVCNAL单元的报头附加地可以含有与可伸缩性和多视图层次相关的各种指示。
在HEVC中,将两字节NAL单元报头用于所有指定的NAL单元类型。NAL单元报头含有一个保留比特、六比特NAL单元类型指示、六比特保留字段(称为nuh_layer_id)和三比特针对时间级别的temporal_id_plus1指示。temporal_id_plus1语法元素可被看作是用于NAL单元的时间标识符,并且可以如下导出基于零的TemporalId变量:TemporalId=temporal_id_plus1–1。TemporalId等于0对应于最低时间级别。为了避免涉及两个NAL单元报头字节的开始代码仿真,要求temporal_id_plus1的值为非零。通过排除具有大于或等于所选值的TemporalId的所有VCLNAL单元而包括所有其它的VCLNAL单元所创建的比特流保持了一致性。因此,具有等于TID的TemporalId的图片不使用具有大于TID的TemporalId的任何图片来作为帧间预测参考。子层或时间子层可被定义为时间可伸缩比特流的时间可伸缩层,其由具有特定值的TemporalId变量的VCLNAL单元和相关联的非VCLNAL单元组成。在不失一般性的情况下,在某些示例实施例中,例如按照以下来根据nuh_layer_id的值导出变量LayerId:LayerId=nuh_layer_id。在下文中,除非另外指出,否则可以互换地使用LayerId、nuh_layer_id和layer_id。
所预期的是,nuh_layer_id和/或NAL单元报头中的类似语法元素将携带关于可伸缩性层次的信息。例如,可以将LayerId值nuh_layer_id和/或类似语法元素映射到描述了不同可伸缩性维度的语法元素或变量的值,例如quality_id或类似物、dependency_id或类似物、任何其它类型的层标识符、视图顺序索引或类似物、视图标识符、对于NAL单元是否涉及深度或纹理的指示(即depth_flag或类似物),或者与SVC的priority_id类似的在大于特定标识符值的所有NAL单元都被从比特流中移除的情况下指示了有效子比特流提取的标识符。nuh_layer_id和/或类似语法元素可被分区成指示可伸缩性属性的一个或多个语法元素。例如,nuh_layer_id和/或类似语法元素中特定数目的比特可用于dependency_id或类似物,而nuh_layer_id和/或类似语法元素中另外特定数目的比特可用于quality_id或类似物。可选地,可以例如在视频参数集合、序列参数集合或另一语法结构中提供LayerId值或类似物向描述了不同可伸缩性维度的语法元素或变量的值的映射。
NAL单元可被归类为视频编码层(VCL)NAL单元和非VCLNAL单元。VCLNAL单元通常是已编码切片NAL单元。在H.264/AVC中,已编码切片NAL单元含有表示一个或多个已编码宏块的语法元素,其中每个已编码宏块对应于未压缩图片中的一块采样。在HEVC中,已编码切片NAL单元含有表示一个或多个CU的语法元素。
在H.264/AVC和HEVC中,已编码切片NAL单元可被指示为在即时解码刷新(IDR)图片中的已编码切片或在非IDR图片中的已编码切片。
在HEVC中,已编码切片NAL单元可被指示为以下类型之一。
在HEVC中,图片类型的缩略语可被定义如下:拖尾(TRAIL)图片、时间子层访问(TSA)、步进式时间子层访问(STSA)、随机访问可解码前导(RADL)图片、随机访问跳过前导(RASL)图片、破损链接访问(BLA)图片、即时解码刷新(IDR)图片、净(clean)随机访问(CRA)图片。
也可以称为或者可选地被称为帧内随机访问点(IRAP)图片的随机访问点(RAP)图片是这样的图片,其中,每个切片或切片段具有处在16到23(包括16和23在内)的范围中的nal_unit_type。RAP图片仅含有帧内编码的切片,并且可以是BLA图片、CRA图片或IDR图片。比特流中的第一图片是RAP图片。假设必要的参数集合在其需要被激活时是可用的,那么在不实施对于按解码顺序处在所述RAP图片之前的任何图片的解码过程的情况下,可以正确地对所述RAP图片以及按解码顺序的所有后续非RASL图片进行解码。在比特流中可以存在以下这样的图片,即所述图片仅含有不是RAP图片的帧内编码的切片。
在HEVC中,CRA图片可以按解码顺序是比特流中的第一图片,或者可以在比特流中稍后出现。HEVC中的CRA图片允许所谓的前导图片,所述前导图片按解码顺序跟随在CRA图片之后,但按输出顺序在CRA图片之前。前导图片中的一些所谓的RASL图片可以使用处在CRA图片之前被解码的图片作为参考。如果在CRA图片处实施了随机访问,则按照解码和输出这两种顺序跟随在CRA图片之后的图片是可被解码的,并且因此与IDR图片的净随机访问功能相类似地实现了净随机访问。
CRA图片可以具有相关联的RADL或RASL图片。当CRA图片按解码顺序是比特流中的第一图片时,该CRA图片按解码顺序是已解码视频序列的第一图片,并且任何相关联的RASL图片不被解码器输出并且可以不是可被解码的,因为它们可以含有针对未出现在比特流中的图片的参考。
前导图片是按照输出顺序处在相关联的RAP图片之前的图片。相关联的RAP图片是按照解码顺序的在先的RAP图片(如果存在的话)。前导图片可以是RADL图片或RASL图片。
所有RASL图片是相关联的BLA或CRA图片的前导图片。当相关联的RAP图片是BLA图片或是比特流中的第一已编码图片时,RASL图片不被输出并且可以不是可被正确解码的,因为RASL图片可以含有针对未出现在比特流中的图片的参考。然而,如果解码是从RASL图片的关联RAP图片之前的RAP图片开始的,则该RASL图片可被正确解码。RASL图片不被用作非RASL图片的解码过程的参考图片。当存在时,所有RASL图片按照解码顺序处在同一关联RAP图片的所有拖尾图片之前。在HEVC标准的某些早期草案中,将RASL图片称为标记用于丢弃(TFD)的图片。
所有RADL图片均是前导图片。RADL图片不被用作同一关联RAP图片的拖尾图片的解码过程的参考图片。当存在时,所有RADL图片按照解码顺序处在同一关联RAP图片的所有拖尾图片之前。RADL图片不参考任何按解码顺序处在相关联的RAP图片之前的图片,并且因此,当解码是从相关联的RAP图片开始的时候,RADL图片可以被正确地解码。在HEVC标准的某些早期草案中,将RADL图片称为可解码的前导图片(DLP)。
可解码的前导图片可以是这样的,其使得当从CRA图片开始解码时能够被正确解码。换句话说,可解码的前导图片仅将初始CRA图片或按解码顺序的后续图片用作帧间预测时的参考。非可解码的前导图片是这样的,其使得当从初始CRA图片开始解码时不能被正确解码。换句话说,非可解码的前导图片使用按解码顺序处在初始CRA图片之前的图片作为帧间预测时的参考。
当从CRA图片开始的比特流的一部分被包括在另一比特流中时,关联于该CRA图片的RASL图片可以不是可被正确解码的,因为其参考图片中的一些图片可能未出现在合并的比特流中。为了使这样的切片操作是直接的,CRA图片的NAL单元类型可被改变成指示出其是BLA图片。关联于BLA图片的RASL图片可以不是可被正确解码的,因此不被输出/显示。此外,可以从解码中省略关联于BLA图片的RASL图片。
BLA图片可以按解码顺序是比特流中的第一图片,或者可以在比特流中稍后出现。每个BLA图片开始新的已编码视频序列,并且对解码过程具有与IDR图片类似的影响。然而,BLA图片含有指定了非空参考图片集合的语法元素。当BLA图片具有等于BLA_W_LP的nal_unit_type时,其可以具有关联的RASL图片,所述关联的RASL图片不被解码器输出,并且可以不是可被解码的,因为它们可以含有针对未出现在比特流中的图片的参考。当BLA图片具有等于BLA_W_LP的nal_unit_type时,其也可以具有被指定为要被解码的相关联的RDAL图片。当BLA图片具有等于BLA_W_DLP的nal_unit_type时,其不具有相关联的RASL图片,但却可以具有被指定为要被解码的相关联的RADL图片。BLA_W_DLP也可以称为BLA_W_RADL。当BLA图片具有等于BLA_N_LP的nal_unit_type时,其不具有任何相关联的前导图片。
具有等于IDR_N_LP的nal_unit_type的IDR图片不具有出现在比特流中的关联前导图片。具有等于IDR_W_DLP的nal_unit_type的IDR图片不具有出现在比特流中的关联RASL图片,但可以具有在比特流中的相关联的RADL图片。IDR_W_DLP也可以称为IDR_W_RADL。
当nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或RSV_VCL_N14时,并不使用被解码的图片作为同一时间子层的任何其它图片的参考。即,在草案HEVC标准中,当nal_unit_type的值等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或RSV_VCL_N14时,并不把被解码的图片包括在以下任何一个中:具有相同TemporalId值的任何图片的RefPicSetStCurrBefore、RefPicSetStCurrAfter和RefPicSetLtCurr。具有等于TRAIL_N、TSA_N、STSA_N、RADL_N、RASL_N、RSV_VCL_N10、RSV_VCL_N12或RSV_VCL_N14的nal_unit_type的已编码图片可以在不影响具有相同TemporalId值的其它图片的可解码性的情况下被丢弃。
拖尾图片可被定义为以下这样的图片:该图片按照输出顺序跟随在相关联的RAP图片之后。任何作为拖尾图片的图片均不具有等于RADL_N、RADL_R、RASL_N或RASL_R的nal_unit_type。任何作为前导图片的图片均可以被约束为:按照解码顺序处在关联于相同RAP图片的所有拖尾图片之前。比特流中不存在任何以下这样的RASL图片:所述RASL图片关联于具有等于BLA_W_DLP或BLA_N_LP的nal_unit_type的BLA图片。比特流中不存在任何以下这样的RADL图片:所述RADL图片关联于具有等于BLA_N_LP的nal_unit_type的BLA图片,或者关联于具有等于IDR_N_LP的nal_unit_type的IDR图片。任何关联于CRA或BLA图片的RASL图片均可以被约束为:按照输出顺序,处在关联于该CRA或BLA图片的任何RADL图片之前。任何关联于CRA图片的RASL图片均可以被约束为:按照输出顺序,跟随在按解码顺序处在该CRA图片之前的任何其它RAP图片之后。
在HEVC中,存在可用于指示时间子层切换点的两种图片类型:TSA和STSA图片类型。如果具有上至N的TemporalId的时间子层已被解码直到TSA或STSA图片(不包括TSA或STSA图片),并且该TSA或STSA图片具有等于N+1的TemporalId,则该TSA或STSA图片使得能够对具有等于N+1的TemporalId的(按解码顺序的)所有后续图片进行解码。TSA图片类型可以对以下施加限制:TSA图片本身,以及按照解码顺序跟随在该TSA图片之后的在相同子层中的所有图片。不允许这些图片中的任何图片使用:根据按解码顺序处在该TSA图片之前的在相同子层中的任何图片的帧间预测。TSA定义可以进一步对于按解码顺序跟随在该TSA图片之后的处于更高子层中的图片施加限制。不允许这些图片中的任何图片参考按解码顺序处在该TSA图片之前的图片(如果所述图片与该TSA图片属于相同子层或更高子层)。TSA图片具有大于0的TemporalId。STSA与TSA图片类似,但不对以下这样的图片施加限制:所述图片按解码顺序跟随在该STSA图片之后处于更高子层中,并且因此使得能够仅向上切换到该STSA图片所驻留的子层。
非VCLNAL单元例如可以具有以下类型之一:序列参数集合、图片参数集合、补充增强信息(SEI)NAL单元、访问单元定界符、序列NAL单元的尾端、流NAL单元的尾端,或者过滤数据NAL单元。可以要求参数集合用于重构已解码图片,而其它非VCLNAL单元中的许多单元对于重构已解码采样值来说不是必要的。
可以将贯穿已编码视频序列保持不变的参数包括在序列参数集合中。除了解码过程可能需要的参数之外,序列参数集合可选地还可以含有视频可用性信息(VUI),该视频可用性信息(VUI)包括以下这样的参数:所述参数可对于缓冲、图片输出计时、渲染和资源预留而言是重要的。H.264/AVC中指定了用于携带序列参数集合的三个NAL单元:含有序列中的H.264/AVCVCLNAL单元的所有数据的序列参数集合NAL单元、含有附属已编码图片的数据的序列参数集合扩展NAL单元,以及针对MVC和SVCVCLNAL单元的子集序列参数集合。在HEVC标准中,序列参数集合RBSP包括以下这样的参数:可以通过一个或多个图片参数集合RBSP或者含有缓冲期SEI消息的一个或多个SEINAL单元来参考所述参数。图片参数集合含有可能在若干已编码图片中不变的所述参数。图片参数集合RBSP可以包括可通过一个或多个已编码图片的已编码切片NAL单元来参考的参数。
调适参数集合(APS)是针对HEVC提出的,但最终未被采纳到该标准中,其包括以下这样的参数:所述参数很可能在若干已编码切片中不变,但却可以例如对于每个图片或每几个图片发生改变。APS语法结构已被提议为包括与量化矩阵(QM)、自适应采样偏移(SAO)、自适应循环过滤(ALF)和去块过滤(deblockingfiltering)相关的参数或语法元素。APS也可以是NAL单元,并且在没有来自任何其它NAL单元的预测或参考的情况下被编码。将称为aps_id语法元素的标识符包括在APSNAL单元中,并将其包括和用在切片报头中用于参考特定的APS。APS语法结构可以仅含有ALF参数。
HEVC标准还包括视频参数集合(VPS)NAL单元。视频参数集合RBSP可以包括可通过一个或多个序列参数集合RBSP来参考的参数。
可以如下描述视频参数集合(VPS)、序列参数集合(SPS)和图片参数集合(PPS)之间的关系和层次。按照参数集合层次和在可伸缩性和/或3DV的情境中,VPS驻留在SPS上面的一级。VPS可以包括以下这样的参数:所述参数对于跨整个已编码视频序列中的所有(可伸缩性或视图)层的所有切片而言是公用的。SPS包括以下这样的参数:所述参数对于整个已编码视频序列中的特定(可伸缩性或视图)层中的所有切片而言是公用的,并且可被多个(可伸缩性或视图)层共享。PPS包括以下这样的参数:所述参数对于特定层表示(一个访问单元中的一个可伸缩性或视图层的表示)中的所有切片而言是公用的,并且很可能被多个层表示中的所有切片共享。
VPS可以提供:关于比特流中的层的依赖关系的信息,以及适用于跨整个已编码视频序列中的所有(可伸缩性或视图)层的所有切片的许多其它信息。在HEVC的可伸缩扩展中,VPS例如可以包括将从NAL单元报头导出的LayerId值映射到一个或多个可伸缩性维度值,例如对应于与SVC和MVC类似地被定义的层的dependency_id、quality_id、view_id和depth_flag。VPS可以包括一个或多个层的简档和级别信息,以及层表示的一个或多个时间子层(包括有在特定temporal_id值处和之下的VCLNAL单元)的简档和/或级别。
H.264/AVC和HEVC语法允许参数集合的许多实例,并且利用唯一的标识符来标识每个实例。为了限制参数集合所需的存储器使用,已限制了参数集合标识符的值范围。在H.264/AVC和HEVC标准中,每个切片报头包括为了解码含有该切片的图片而成为活跃的图片参数集合的标识符,并且每个图片参数集合含有活跃序列参数集合的标识符。因此,不必使图片和序列参数集合的传输与切片的传输准确同步。相反,活跃序列和图片参数集合在其被参考之前的任意时刻被接收就足够了,这允许使用与用于切片数据的协议相比更可靠的传输机制“带外”传输参数集合。例如,可以将参数集合作为参数包括在实时传输协议(RTP)会话的会话描述中。如果在带内传送参数集合,则可以对其进行重复以便改善错误稳健性。
可以通过来自切片或来自另一活跃参数集合(或者在某些情况下来自诸如缓冲期SEI消息的另一语法结构)的参考来激活参数集合。
SEINAL单元可以含有一个或多个SEI消息,所述一个或多个SEI消息对于解码输出图片来说不是必需的,但可以在相关过程中提供辅助,所述相关过程例如是图片输出计时、渲染、错误检测、错误隐藏和资源预留。在H.264/AVC和HEVC中指定了若干SEI消息,并且用户数据SEI消息使得组织和公司能够指定SEI消息用于其自身的使用。H.264/AVC和HEVC含有用于指定的SEI消息的语法和语义,但未定义任何用于在接受方处理消息的过程。因此,编码器当其创建SEI消息时需要其遵循H.264/AVC标准或HEVC标准,而不要求分别符合H.264/AVC标准或HEVC标准的解码器来处理SEI消息从而实现输出顺序一致性。在H.264/AVC和HEVC中包括SEI消息的语法和语义的原因之一在于:允许不同的系统规范来相同地解释补充信息并且因此进行互操作。所预期的是,系统规范可以要求在编码端和解码端这二者处使用特定的SEI消息,并且附加地,可以指定用于在接受方处处理特定SEI消息的过程。
已编码图片是图片的已编码表示。H.264/AVC中的已编码图片包括对图片进行解码所需的VCLNAL单元。在H.264/AVC中,已编码图片可以是主要编码图片或冗余编码图片。在有效比特流的解码过程中使用主要编码图片,而冗余编码图片是应当仅在主要编码图片不能被成功解码时才被解码的冗余表示。在HEVC中,未指定任何冗余编码图片。
在H.264/AVC中,访问单元包括主要编码图片和那些与其关联的NAL单元。在HEVC中,访问单元被定义为这样的NAL单元的集合:所述NAL单元根据指定的分类规则而彼此关联,按照解码顺序是连续的,并且正好含有一个已编码图片。在H.264/AVC中,如下约束NAL单元在访问单元内的出现顺序。可选的访问单元定界符NAL单元可以指示访问单元的开始。其后跟随零个或更多个SEINAL单元。接下来出现主要编码图片的已编码切片。在H.264/AVC中,主要编码图片的已编码切片之后可以跟随零个或更多个冗余编码图片的已编码切片。冗余编码图片是图片的一部分或图片的编码表示。如果主要编码图片例如由于传输丢失或物理存储介质损坏而未被解码器接收,则可以对冗余编码图片进行解码。
在H.264/AVC中,访问单元还可以包括附属编码图片,所述附属编码图片是对主要编码图片进行补充并且可以例如在显示过程中使用的图片。附属编码图片例如可被用作在已解码图片中指定采样的透明度级别的阿尔法通道或阿尔法平面。可以在分层合成或渲染系统中使用阿尔法通道或平面,其中,通过将至少部分地透明的图片覆盖在彼此顶部上来形成输出图片。附属编码图片具有与单色冗余编码图片相同的语法和语义限制。在H.264/AVC中,附属编码图片与主要编码图片含有相同数目的宏块。
在H.264/AVC中,已编码视频序列被定义为:按解码顺序从IDR访问单元(包括所述IDR访问单元)到下一IDR访问单元(不包括所述下一IDR访问单元)或者到比特流的尾端(以较早出现的为准)的连续访问单元的序列。在HEVC中,已编码视频序列可被定义为按解码顺序由以下组成的访问单元的序列:作为比特流中的第一访问单元的CRA访问单元,IDR访问单元或BLA访问单元,之后跟随零个或更多个非IDR和非BLA访问单元(最多包括所有的后续访问单元,但不包括任何后续的IDR或BLA访问单元)。
图片组(GOP)及其特征可被定义如下。GOP可以在不论任何先前的图片是否被解码的情况下被解码。开放式GOP是以下这样的图片组:在该图片组中,当解码是从开放式GOP的初始帧内图片开始时,按照输出顺序处在该初始帧内图片之前的图片可能不是可被正确解码的。换句话说,开放式GOP的图片可以(在帧间预测中)参考属于先前的GOP的图片。H.264/AVC解码器可以根据H.264/AVC比特流中的恢复点SEI消息来识别出开始开放式GOP的帧内图片。HEVC解码器可以识别出开始开放式GOP的帧内图片,因为特定的NAL单元类型(CRANAL单元类型)被用于它的已编码切片。封闭式GOP是以下这样的图片组:在该图片组中,当解码是从封闭式GOP的初始帧内图片开始时,所有图片均可以被正确解码。换句话说,封闭式GOP中没有任何图片参考任何先前的GOP中的任何图片。在H.264/AVC和HEVC中,封闭式GOP从IDR访问单元开始。在HEVC中,封闭式GOP还可以从BLA_W_DLP或BLA_N_LP图片开始。因此,封闭式GOP结构具有比开放式GOP结构更大的错误恢复潜力,然而代价是可能的压缩效率的降低。开放式GOP编码结构由于在选择参考图片时的较大弹性而潜在地在压缩时更为高效。
H.264/AVC和HEVC的比特流语法指示:特定图片是否是用于任何其它图片的帧间预测的参考图片。任何编码类型(I、P、B)的图片均可以是H.264/AVC和HEVC中的参考图片或非参考图片。
H.264/AVC指定了用于已解码参考图片标记的过程,以便控制解码器中的存储器消耗。在序列参数集合中确定用于帧间预测的参考图片的最大数目(被称为M)。当参考图片被解码时,其被标记为“被用于参考”。如果对参考图片的解码导致不止M个图片被标记为“被用于参考”,则至少一个图片被标记为“未被用于参考”。存在用于已解码参考图片标记的两种类型的操作:自适应存储器控制和滑动窗口。基于图片来选择用于已解码参考图片标记的操作模式。自适应存储器控制使得能够对哪些图片被标记为“未被用于参考”进行明确的信号通知,并且还可以为短期参考图片指派长期索引。自适应存储器控制可以要求存储器管理控制操作(MMCO)参数出现在比特流中。可以将MMCO参数包括在已解码参考图片标记语法结构中。如果使用滑动窗口操作模式,并且存在被标记为“被用于参考”的M个图片,则作为被标记为“被用于参考”的那些短期参考图片中的第一已解码图片的短期参考图片被标记为“未被用于参考”。换句话说,滑动窗口操作模式导致短期参考图片当中的先进先出缓冲操作。
H.264/AVC中的存储器管理控制操作之一导致:除了当前图片之外的所有参考图片都被标记为“未被用于参考”。即时解码刷新(IDR)图片仅含有经帧内编码的切片,并且导致参考图片的类似“重置”。
在HEVC标准中,没有使用参考图片标记语法结构和相关的解码过程,但是作为代替,出于类似的目的,使用了参考图片集合(RPS)语法结构和解码过程。对图片有效或活跃的参考图片集合包括:被用作该图片的参考的所有参考图片,以及针对按解码顺序的任何后续图片而被保持标记为“被用于参考”的所有参考图片。存在参考图片集合的六个子集,其按照名称被称为RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll。六个子集的记号如下。“Curr”指的是以下这样的参考图片:所述参考图片被包括在当前图片的参考图片列表中,并且因此可被用作当前图片的帧间预测参考。“Foll”指的是以下这样的参考图片:所述参考图片未被包括在当前图片的参考图片列表中,但却可以在按照解码顺序的后续图片中被用作参考图片。“St”指的是短期参考图片,可以一般地通过其POC值的特定数目的最低有效位来标识所述短期参考图片。“Lt”指的是长期参考图片,所述长期参考图片被专门地标识出来,并且一般具有相对于当前图片而言比可由所述特定数目的最低有效位表示的值要大的POC值的偏差。“0”指的是那些具有比当前图片的POC值要小的POC值的参考图片。“1”指的是那些具有比当前图片的POC值要大的POC值的参考图片。RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0和RefPicSetStFoll1被统称为参考图片集合的短期子集。RefPicSetLtCurr和RefPicSetLtFoll被统称为参考图片集合的长期子集。
在HEVC标准中,参考图片集合可以在序列参数集合中被指定,并且可以通过针对参考图片集合的索引而在切片报头中被投入使用。也可以在切片报头中指定参考图片集合。一般仅在切片报头中指定参考图片集合的长期子集,而可以在图片参数集合或切片报头中指定同一参考图片集合的短期子集。参考图片集合可被独立地进行编码,或者可以根据另一参考图片集合而被预测(称为帧间RPS预测)。当参考图片集合被独立地进行编码时,语法结构包括对不同类型的参考图片进行迭代的多达三个循环:具有比当前图片要低的POC值的短期参考图片,具有比当前图片要高的POC值的短期参考图片,以及长期参考图片。每个循环条目指定了要被标记为“被用于参考”的图片。通常,利用不同的POC值来指定该图片。帧间RPS预测采用以下事实:可以根据先前已解码图片的参考图片集合来预测出当前图片的参考图片集合。这是因为:当前图片的所有参考图片是先前图片的参考图片,或者是先前已解码图片本身。仅有必要指示:这些图片中的哪些图片应当是参考图片并被用于预测当前图片。在这两种类型的参考图片集合编码中,针对每个参考图片附加地发送标志(used_by_curr_pic_X_flag),其指示出该参考图片是被当前图片用于参考(被包括在*Curr列表中),还是没有被当前图片用于参考(被包括在*Foll列表中)。被包括在由当前切片使用的参考图片集合中的图片被标记为“被用于参考”,并且没有在由当前切片使用的参考图片集合中的图片被标记为“未被用于参考”。如果当前图片是IDR图片,那么RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr和RefPicSetLtFoll全部被设置为空。
可以在编码器和/或解码器中使用已解码图片缓冲器(DPB)。存在两个对已解码图片进行缓冲的原因:用于帧间预测时的参考,以及用于将已解码图片重新排序为输出顺序。由于H.264/AVC和HEVC为参考图片标记和输出重新排序这二者提供了大量弹性,因此用于参考图片缓冲和输出图片缓冲的分离的缓冲器可浪费存储器资源。因此,DPB可以包括用于参考图片和输出重新排序的统一的已解码图片缓冲过程。已解码图片当其不再被用作参考并且不需要进行输出时,可以从DPB中移除。
在H.264/AVC和HEVC的许多编码模式下,利用针对参考图片列表的索引来指示用于帧间预测的参考图片。可以利用可变长度编码对所述索引进行编码,所述可变长度编码通常使得较小索引具有针对对应语法元素的较短值。在H.264/AVC和HEVC中,对于每个双预测(B)切片生成两个参考图片列表(参考图片列表0和参考图片列表1),并且对于每个经帧间编码的(P)切片形成一个参考图片列表(参考图片列表0)。
诸如参考图片列表0和参考图片列表1这样的参考图片列表通常用两个步骤来构造:第一,生成初始参考图片列表。可以例如基于frame_num、POC、temporal_id或关于预测层次(诸如GOP结构)的信息或者其任意组合来生成初始参考图片列表。第二,可以通过参考图片列表重新排序(RPLR)命令对初始参考图片列表进行重新排序,其中,所述参考图片列表重新排序命令也称为参考图片列表修改语法结构,其可包含在切片报头中。RPLR命令指示了被排序到相应参考图片列表的起始处的图片。该第二步骤也可称为参考图片列表修改过程,并且可以将RPLR命令包括在参考图片列表修改语法结构中。如果使用了参考图片集合,则参考图片列表0可被初始化为:首先含有RefPicSetStCurr0,之后跟随RefPicSetStCurr1,之后跟随RefPicSetLtCurr。参考图片列表1可被初始化为:首先含有RefPicSetStCurr1,之后跟随RefPicSetStCurr0。可以通过参考图片列表修改语法结构对初始参考图片列表进行修改,其中,可以通过针对列表的条目索引来标识初始参考图片列表中的图片。
一种对于可在视频编码和/或视频解码中应用的不同类型的预测进行归类的方法在于:考虑预测是应用于采样值还是编(解)码参数。
在采样预测中,对特定图片区域或“块”中的像素或采样值进行预测。可以例如使用以下方法中的一个或多个方法对这些像素或采样值进行预测:
-运动补偿机制(其也可以称为时间预测或经运动补偿的时间预测或经运动补偿的预测或MCP),其涉及找到并指示出:先前已编码的视频帧之一中紧密对应于正被编码的块的区域。
-视图间预测,其涉及找到并指示出:先前已编码的视图分量之一中紧密对应于正被编码的块的区域。
-视图合成预测,其涉及基于已重构/已解码的范围信息,对预测块或其中导出了预测块的图像区域进行合成。
-使用已重构/已解码的采样的层间预测,例如SVC的所谓的帧内BL(基础层)模式。
-层间残差预测,其中,例如,参考层的编码残差或者根据已重构/已解码参考层图片与对应的已重构/已解码增强层图片的偏差的导出残差,可被用于对当前增强层块的残差块进行预测。可以例如将残差块添加到经运动补偿的预测块,以便获取当前增强层块的最终预测块。残差预测有时可以被看作是除了采样和语法预测之外的单独类型的预测。
-帧内预测,其中,可以通过空间机制对像素或采样值进行预测,所述空间机制涉及找到并指示出空间区域关系。
在也可称为参数预测的语法预测中,根据早先已编(解)码的语法元素和/或早先已导出的变量,预测语法元素和/或语法元素值和/或根据语法元素导出的变量。在下面提供了语法预测的非限制性示例:
-在运动矢量预测中,可以针对特定于块所预测的运动矢量有差别地对(例如用于视图间和/或视图内预测的)运动矢量进行编码。在许多视频编解码器中,按照预定义的方式来创建所预测的运动矢量,例如通过计算相邻块的已编码或已解码运动矢量的中值。有时称为高级运动矢量预测(AMVP)的另一种创建运动矢量预测的方式是:根据时间参考图片中的相邻块和/或同位块来生成候选预测的列表,并且作为运动矢量预测器对所选取的候选进行信号通知。除了预测运动矢量值之外,还可以预测先前已编码/已解码图片的参考索引。可以根据时间参考图片中的相邻块和/或同位块来预测参考索引。可以跨切片边界禁用运动矢量的差分编码。
-可以对块分区(例如从CTU到CU并且下至PU)进行预测。
-在过滤参数预测中,可以对例如针对采样自适应偏移的过滤参数进行预测。
另一种对于可在视频编码和/或视频解码中应用的不同类型的预测进行归类的方法在于:考虑预测跨越了哪些域或可伸缩性类型。该归类可以导致以下类型的预测中的一个或多个,其中,以下类型的预测有时也可称为预测导向:
-例如来自通常相同的可伸缩性层、视图和分量类型(纹理或深度)的早先图片的采样值或运动矢量的时间预测。
-视图间预测(其也可以称为跨视图预测)指的是:在通常相同时刻或访问单元以及相同分量类型的视图分量之间发生的预测。
-层间预测指的是:在通常相同时刻、相同分量类型和相同视图的各层之间发生的预测。
-分量间预测可被定义为:包括从一种类型的分量图片到另一种类型的分量图片,对语法元素值、采样值、在解码过程中使用的变量值,或者任何类似物的预测。例如,分量间预测可以包括:根据深度视图分量对纹理视图分量的预测,或者反之亦反。
使用来自先前已编码图像的图像信息的预测方法也可以称为帧间预测方法。帧间预测有时可被看作仅包括经运动补偿的时间预测,但其有时可被看作包括了其中已重构/已解码的采样块被用作预测源的所有类型的预测,因此包括例如常规的视图间预测。帧间预测可被看作仅包括采样预测,但其可选地可被看作包括采样和语法预测这二者。作为语法和采样预测的结果,可以获取预测的采样的像素块。
使用同一图像内的图像信息的预测方法也可以称为帧内预测方法。帧内预测可被看作仅包括采样预测,但其可选地可被看作包括采样和语法预测这二者。
如果诸如预测的变量值和/或预测块这样的预测未被编码器使用任何形式的预测误差或残差编码进行改善,则预测可被称为继承(inheritance)。
被称为隔离区的编码技术是基于:联合地对图片中预测和帧间预测进行约束。图片中的隔离区可以含有任何宏块(或类似物)位置,并且图片可以含有零个或更多个不重叠的隔离区。剩余区(如果有的话)是图片中未被该图片的任何隔离区覆盖的区域。当对隔离区进行编码时,跨其边界禁用至少某些类型的图片中预测。可以根据同一图片的隔离区来预测剩余区。
已编码的隔离区可以在不存在同一已编码图片的任何其它隔离区或剩余区的情况下被解码。在剩余区之前对图片的所有隔离区进行解码可能是必要的。在某些实施方案中,隔离区或剩余区含有至少一个切片。
图片(其隔离区是根据彼此而被预测出的)可被分组为隔离区图片组。隔离区可以根据同一隔离区图片组内的其它图片中的对应隔离区而被进行帧间预测,而可以不允许根据其它隔离区的帧间预测或在隔离区图片组之外的帧间预测。可以根据任何隔离区来对剩余区进行帧间预测。有联系的隔离区的形状、位置和尺寸可以在隔离区图片组中从图片到图片地进行演变。
H.264/AVC编解码器中对隔离区的编码可以基于切片组。可以在图片参数集合中指定宏块位置到切片组的映射。H.264/AVC语法包括用于对特定切片组样式进行编码的语法,其中,所述切片组样式可被归类为两种类型:静态的和演变的。只要图片参数集合有效,静态的切片组就保持不变,而演变的切片组可以根据图片参数集合中的对应参数和切片报头中的切片组改变周期参数来逐图片地发生改变。静态的切片组样式包括交织式、棋盘式(checkboard)、矩形导向式(rectangularoriented)和自由式。演变的切片组样式包括水平消除、垂直消除、框入式(box-in)和框出式(box-out)。矩形导向样式和演变样式尤其适于对隔离区进行编码,并且在下面被较为仔细地描述。
对于矩形导向的切片组样式,在图片区域内指定了所期望的矩形数目。前景切片组包括处在对应矩形内的宏块位置,但却排除早先指定的切片组所坐落的宏块位置。剩余切片组含有未被前景切片组覆盖的宏块。
通过指示以下内容来指定演变的切片组:宏块位置的扫描顺序,以及按照每图片的宏块数目的切片组的尺寸的改变速率。每个已编码图片关联于(在切片报头中传达的)切片组改变周期参数。改变周期乘以改变速率指示出第一切片组中的宏块的数目。第二切片组含有剩下的宏块位置。
在H.264/AVC中,跨切片组边界禁用图片中预测,这是因为切片组边界存在于切片边界。因此,每个切片组均是隔离区或剩余区。
每个切片组均具有在图片内的标识号。编码器可以按照以下方式来限制运动矢量:使得其仅参考属于具有与要被编码的切片组相同的标识号的切片组的已解码宏块。编码器应当考虑以下事实:在分像素插值中需要源采样的范围,并且所有的源采样都应当处在特定的切片组内。
H.264/AVC编解码器包括去块循环过滤器。循环过滤被应用于每个4x4的块边界,但是循环过滤可以在切片边界处被编码器关闭。如果循环过滤在切片边界处被关闭,则当实施渐进随机访问时,可以实现在解码器处的完美重构。否则,重构的图片甚至在恢复点之后都可能是在内容上不完美的。
H.264/AVC标准的恢复点SEI消息和运动受约束的切片组集合SEI消息可用于指示:利用受限的运动矢量将某些切片组编码为隔离区。解码器可以利用该信息,例如实现更快的随机访问或者通过忽略剩余区而节省处理时间。
已经对HEVC提出了子图片概念(例如在文档JCTVC-I0356<http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/JCTVC-I0356-v1.zip>中),这与h.264/AVC的矩形隔离区或矩形运动受约束的切片组集合类似。下面描述了在JCTVC-I0356中提出的子图片概念,尽管应当理解,可以按照别的方式,与下面所描述的相类似地但却不同地定义子图片。在子图片概念中,图片被分区为预先定义的矩形区。除了构成图片的所有子图片共享相同的全局信息(诸如SPS、PPS和参考图片集合)之外,每个子图片都将作为独立的图片来被处理。子图片在几何形状上与贴片类似。它们的属性如下:它们是在序列级指定的LCU对齐的矩形区。可以在图片的子图片光栅扫描中扫描该图片中的子图片。每个子图片开始新的切片。如果在图片中出现多个贴片,则可以将子图片边界和贴片边界对齐。可以不存在任何跨子图片的循环过滤。可以不存在任何对子图片之外的采样值和运动信息的预测,并且使用子图片之外的一个或多个采样值所导出的分采样位置处的采样值不会被用于对子图片内的任何采样进行帧间预测。如果运动矢量指向子图片之外的区域,则可以应用针对图片边界所定义的填充过程。除非子图片含有不止一个贴片,否则按子图片内的光栅顺序对LCU进行扫描。按照子图片的贴片光栅扫描来对该子图片内的贴片进行扫描。除了默认的每图片一个贴片的情况之外,贴片不能跨子图片边界。在子图片级支持在图片级可用的所有编码机制。
可伸缩视频编码指的是以下这样的编码结构:在该编码结构中,一个比特流可以含有采用不同比特率、分辨率或帧率的内容的多个表示。在这些情况下,接收方对于所期望的表示可以取决于其特征(例如,与显示设备匹配最好的分辨率)进行提取。可选地,取决于例如网络特征或接收方的处理能力,服务器或网络元件可以提取将被传送到接收方的比特流的部分。可伸缩比特流通常包括:“基础层”,其提供可获得的最低质量视频;以及一个或多个增强层,其当与较低层一起被接收和解码时增强视频质量。为了改善增强层的编码效率,该层的编码表示通常取决于较低层。例如,可以根据较低层来预测增强层的运动和模式信息。类似地,较低层的像素数据可用于创建对增强层的预测。
在某些可伸缩视频编码方案中,可以将视频信号编码为基础层以及一个或多个增强层。增强层可以增强由另一层或其部分所表示的视频内容的时间分辨率(即,帧率)、空间分辨率或简单来说的质量。每个层及其所有的相关层一起是视频信号的采用特定空间分辨率、时间分辨率和质量水平的一个表示。在本文档中,将可伸缩层及其所有的相关层一起称为“可伸缩层表示”。可以提取并解码对应于可伸缩层表示的可伸缩比特流的那部分,以便以特定保真度产生原始信号的表示。
某些编码标准允许创建可伸缩比特流。可以通过仅对可伸缩比特流的特定部分进行解码来产生有意义的已解码表示。可伸缩比特流可以例如用于流式传输服务器中的已预编码单播流的速率调适,以及用于向具有不同能力和/或具有不同网络状况的终端传输单个比特流。可以在以下内容中找到可伸缩视频编码的某些其它用例的列表:ISO/IECJTC1SC29WG11(MPEG)输出文档N5540,“ApplicationsandRequirementsforScalableVideoCoding”,第64届MPEG会议,2003年3月10日到14日,Pattaya,Thailand。
在某些情况下,增强层中的数据可以在特定位置之后或者甚至在任意位置处被截断,其中,每个截断位置可以包括表示越来越增强的视觉质量的附加数据。将所述可伸缩性称为细粒(粒度)可伸缩性(FGS)。
SVC使用层间预测机制,其中,可以根据除了当前被重构的层或下一较低层之外的其它层来预测特定信息。可被层间预测出的信息包括帧内纹理、运动和残差数据。层间运动预测包括对块编码模式、报头信息等的预测,其中,来自较低层的运动可用于对较高层的预测。在帧内编码的情况下,根据周围宏块或根据较低层的同位宏块的预测是有可能的。这些预测技术不采用来自早先的已编码访问单元的信息,并且因此被称为帧内预测技术。此外,也可以采用来自较低层的残差数据来进行对当前层的预测。
可以利用称为单循环解码的概念来实现可伸缩视频编(解)码,其中,仅对于正被解码的最高层来重构已解码参考图片,而较低层的图片可以不被完全解码,或者可以在使用它们进行层间预测之后进行丢弃。在单循环解码中,解码器仅对于期望进行回放的可伸缩层(称为“期望层”或“目标层”)实施运动补偿和完全图片重构,由此当相比于多循环解码时降低了解码复杂度。除了期望层之外的所有层并不需要被完全解码,因为已编码图片数据中的全部或部分对于重构期望层来说不是必需的。然而,(相比于目标层而言的)较低层可用于层间语法或参数预测,例如层间运动预测。附加地或可选地,较低层可用于层间帧内预测,并且因此,经帧内编码的较低层的块可能不得不被解码。附加地或可选地,可以应用层间残差预测,其中,较低层的残差信息可用于对目标层的解码,并且该残差信息可能需要被解码或重构。在某些编码安排中,多数图片的解码需要单解码循环,而第二解码循环可以是有选择地被应用来重构所谓的基础表示(即,已解码的基础层图片),这可以作为预测参考而被需要,但对于输出或显示而言不是必需的。
SVC允许使用单循环解码。这是通过使用受约束的帧内纹理预测模式来实现的,由此,层间帧内纹理预测可被应用于以下这样的宏块(MB):对于所述宏块而言,基础层的对应块位于帧内MB内。同时,基础层中的那些帧内MB使用受约束的帧内预测(例如,具有等于1的语法元素“constrained_intra_pred_flag”)。在单循环解码中,解码器仅对期望进行回放的可伸缩层(称为“期望层”或“目标层”)实施运动补偿和完全图片重构,由此极大地降低了解码复杂度。除了期望层之外的所有层并不需要被完全解码,因为没有用于层间预测(不管是层间帧内纹理预测、层间运动预测还是层间残差预测)的MB的全部或部分数据对于期望层的重构而言不是必需的。
多数图片的解码需要单解码循环,而第二解码循环有选择地被应用来重构基础表示,需要所述基础表示作为预测参考,但所述基础表示对于输出或显示而言不是必需的,并且仅对于所谓的关键图片(对于那些关键图片,“store_ref_base_pic_flag”等于1)被重构。
FGS曾被包括在SVC标准的某些草案版本中,但其最后被从最终的SVC标准中排除。随后在SVC标准的某些草案版本的上下文中讨论了FGS。由不能被截断的那些增强层提供的可伸缩性称为粗粒(粒度)可伸缩性(CGS)。其总共包括常规的质量(SNR)可伸缩性和空间可伸缩性。SVC标准支持所谓的中粒可伸缩性(MGS),其中,类似于SNR可伸缩层图片来对质量增强图片进行编码,但是通过使得quality_id语法元素大于0,按照类似于FGS层图片的方式由高层语法元素来指示质量增强图片。
SVC草案中的可伸缩性结构的特征可以在于三个语法元素:“temporal_id”、“dependency_id”和“quality_id”。语法元素“temporal_id”用于指示时间可伸缩性层次或间接地指示帧率。相比于包括具有较大的最大“temporal_id”的图片的可伸缩层表示,包括具有较小的最大“temporal_id”值的图片的可伸缩层表示具有较小的帧率。给定时间层通常取决于较低的时间层(即,具有较小“temporal_id”值的时间层),但不取决于任何较高的时间层。语法元素“dependency_id”用于指示CGS层间编码依赖性层次(如早先提到的,其包括SNR和空间可伸缩性这二者)。在任何时间级别位置处,具有较小“dependency_id”值的图片可用于针对具有较大“dependency_id”值的图片的编码的层间预测。语法元素“quality_id”用于指示FGS或MGS层的质量级别层次。在任何时间位置处,并且在相同“dependency_id”值的情况下,具有等于QL的“quality_id”的图片使用具有等于QL-1的“quality_id”的图片进行层间预测。具有大于0的“quality_id”的已编码切片可被编码为可截断的FGS切片或非可截断的MGS切片。
为了简单起见,一个访问单元中具有相同“dependency_id”值的所有数据单元(例如,SVC情境下的网络抽象层单元或NAL单元)被称为依赖单元或依赖表示。在一个依赖单元内,具有相同“quality_id”值的所有数据单元被称为质量单元或层表示。
基础表示(也称为已解码的基础图片)是由对以下这样的依赖单元的视频编码层(VCL)NAL单元进行解码得到的已解码图片:所述依赖单元具有等于0的“quality_id”,并且对其而言,“store_ref_base_pic_flag”被设置等于1。增强表示(也被称为已解码图片)由以下规则解码过程得到:在所述规则解码过程中,针对最高依赖表示而出现的所有的层表示被解码。
如早先提到的,CGS包括空间可伸缩性和SNR可伸缩性这二者。空间可伸缩性初始被设计为支持具有不同分辨率的视频的表示。对于每个时刻,VCLNAL单元被编码到同一访问单元中,并且这些VCLNAL单元可以对应于不同分辨率。在解码期间,低分辨率VCLNAL单元提供运动场和残差,所述运动场和残差可以视情况被高分辨率图片的最终解码和重构继承。当相比于旧的视频压缩标准时,SVC的空间可伸缩性已被一般化为使得基础层能够成为增强层的经裁剪和缩放的版本。
类似于FGS质量层,利用“quality_id”来指示MGS质量层。对于每个依赖单元(具有相同的“dependency_id”),存在具有等于0的“quality_id”的层,并且可以存在具有大于0的“quality_id”的其它层。取决于切片是否被编码为可截断切片,具有大于0的“quality_id”的这些层是MGS层或FGS层。
在FGS增强层的基本形式中,仅使用层间预测。因此,可以在不导致已解码序列中的任何错误传播的情况下自由截断FGS增强层。然而,FGS的基本形式遭受低压缩效率的困扰。该问题是由于仅低质量图片被用于帧间预测参考而出现的。因此,已经提出使用经FGS增强的图片作为帧间预测参考。然而,当某些FGS数据被丢弃时,这可导致编码-解码失配(也称为漂移)。
草案SVC标准的一个特征在于FGSNAL单元可以被自由地丢掉或截断,并且SVCV标准的一个特征在于MGSNAL单元可以在不影响比特流的一致性的情况下被自由地丢掉(但不能被截断)。如上面所讨论的,当那些FGS或MGS数据已在编码期间被用于帧间预测参考时,丢掉或截断数据将导致编码器侧与解码器侧的已解码图片之间的失配。该失配也被称为漂移。
为了控制由于丢掉或截断FGS或MGS数据所导致的漂移,SVC应用了以下解决方案:在特定的依赖单元中,(通过仅对具有等于0的“quality_id”的CGS图片和所有的有依赖性的较低层数据进行解码)将基础表示存储在已解码图片缓冲器中。当对后续具有相同“dependency_id”值的依赖单元进行编码时,所有的NAL单元(包括FGS或MGSNAL单元)使用所述基础表示进行帧间预测参考。因此,由于丢掉或截断早先访问单元中的FGS或MGSNAL单元所导致的所有漂移在该访问单元处停止。对于具有相同“dependency_id”值的其它依赖单元,为了高编码效率,所有的NAL单元使用已解码图片来进行帧间预测参考。
每个NAL单元在NAL单元报头中包括语法元素“use_ref_base_pic_flag”。当该元素的值等于1时,对该NAL单元的解码在帧间预测过程期间使用参考图片的基础表示。语法元素“store_ref_base_pic_flag”指定是(当等于1时)否(当等于0时)存储当前图片的基础表示以便未来的图片用于帧间预测。
具有大于0的“quality_id”的NAL单元并不含有与参考图片列表构造和加权预测相关的语法元素,即语法元素“num_ref_active_lx_minus1”(x=0或1),参考图片列表重新排序语法表,以及加权预测语法表并不出现。因此,MGS或FGS层当需要时不得不从同一依赖单元的具有等于0的“quality_id”的NAL单元继承这些语法元素。
在SVC中,参考图片列表包括仅基础表示(当“use_ref_base_pic_flag”等于1时)或者仅未被标记为“基础表示”的已解码图片(当“use_ref_base_pic_flag”等于0时),但绝不同时包括这二者。
已在SVC中指定了可伸缩嵌套SEI消息。可伸缩嵌套SEI消息提供了一种用于将SEI消息与比特流的子集(诸如所指示的依赖表示或其它可伸缩层)相关联的机制。可伸缩嵌套SEI消息含有本身并不是可伸缩嵌套SEI消息的一个或多个SEI消息。可伸缩嵌套SEI消息中所含的SEI消息称为被嵌套的SEI消息。未包含在可伸缩嵌套SEI消息中的SEI消息称为非被嵌套的SEI消息。已在MVC中指定了与可伸缩嵌套SEI消息类似的SEI消息,用于指示出被嵌套的SEI消息应用于哪些视图。已在H.264/AVC的多视图和深度扩展(也称为MVC+D)中指定了与可伸缩嵌套SEI消息类似的另一种SEI消息,用于指定被嵌套的SEI消息应用于哪些纹理和/或深度视图。H.265/HEVC也包括类似的可伸缩嵌套SEI消息。
可以如下实现针对质量可伸缩性(也称为信噪比或SNR)和/或空间可伸缩性的可伸缩视频编解码器。对于基础层,使用常规的非可伸缩视频编码器和解码器。将基础层的已重构/已解码图片包括在用于增强层的参考图片缓冲器中。在H.264/AVC、HEVC和类似的使用参考图片列表进行帧间预测的编解码器中,基础层已解码图片可以类似于增强层的已解码参考图片而被插入到用于对增强层图片进行编码/解码的参考图片列表中。因此,编码器可以选取基础层参考图片作为帧间预测参考,并且通常利用在已编码比特流中的参考图片索引来指示其使用。解码器根据比特流(例如根据参考图片索引)解码得到:基础层图片被用作增强层的帧间预测参考。当已解码基础层图片被用作增强层的预测参考时,其被称为层间参考图片。
除了质量可伸缩性之外,还存在以下可伸缩性模式:
●空间可伸缩性:按照比增强层图片要低的分辨率对基础层图片进行编码。
●比特深度可伸缩性:按照比增强层图片(例如,10或12比特)要低的比特深度(例如,8比特)对基础层图片进行编码。
●色度格式可伸缩性:基础层图片提供比增强层图片(例如,4:4:4格式)要低的色度的保真度(例如,以4:2:0色度格式进行编码)。
●色域(colorgamut)可伸缩性,其中,增强层图片具有比基础层图片的颜色表示范围更为丰富/广泛的颜色表示范围—例如,增强层可以具有UHDTV(ITU-RBT.2020)色域,并且基础层可以具有ITU-RBT.709色域。
●视图可伸缩性,其中,不同的层表示多视图视频的不同视图。
●深度可伸缩性,其中,特定的层可以表示规则彩色视频内容,并且其它层可以表示范围信息、差异或深度等。
●辅助图片可伸缩性,其中,特定的层可以表示诸如阿尔法平面这样的辅助视频内容,其可用于例如指示透明度或不透明度信息,或者用于色度键控(chromakeying)。
在以上所有的可伸缩性情况中,基础层信息可以用于对增强层进行编码,以便最小化附加的比特率开销。
对于其中期望仅增强图片内的一区域(与整个图片相对)的情况,当前的可伸缩性视频编码解决方案具有相对高的复杂度开销或者遭受低劣编码效率的困扰。
例如,即使计划按照较高比特深度来仅对视频图片内的一区域进行编码,当前的可伸缩性编码解决方案仍然需要以高比特深度对整个图片进行编码,这极大地提高了复杂度。这是由于许多因素造成的,例如,经运动补偿的预测需要较大存储器带宽,因为所有的运动块将需要访问较高比特深度参考像素采样。此外,由于较高比特深度采样,插值和逆变换可能要求例如32比特处理用于基础层,而不是例如16比特处理就够了。
对于色度格式可伸缩性的情况,其中,图像的特定区域被增强,类似的问题也可发生。例如,当增强层使用4:4:4色度格式时,整个增强层图片的参考存储器应当为4:4:4格式,再次增大了存储器需求。类似地,如果空间可伸缩性将被应用于仅仅是所选择的区域(例如,在体育广播情况下的运动员和球),则常规方法需要以完整分辨率来存储和维护整个增强层图像。
对于SNR可伸缩性的情况,如果通过不传送图片的感兴趣区域之外的剩余部分的任何增强信息来仅增强图片的特定部分,则需要用信号来通知大量的控制信息,以便指示出这些块中的每个块是否含有任何增强信息。对于视频序列内的每个图片都需要用信号通知该开销,因此降低了视频编码器的编码效率。
草案HEVC扩展的文档JCTVC-M0181和JCTVC-M0235引入了新的SEI消息,该消息用于指示针对贴片集合的受限编码,称为运动受约束的贴片集合SEI消息,其中,贴片集合的运动补偿受到限制,从而使得不利用贴片集合之外的采样,并且该贴片集合表示可独立解码区域。尽管为了仅增强图片内的一区域而提供了改进的编码效率,但是运动受约束的贴片集合SEI消息限于仅定义层内预测依赖性。贴片集合可被定义为贴片的集合。例如通过在被包括在例如运动受约束的贴片集合SEI消息中的语法结构中指定一个或多个矩形贴片区域,可以指定贴片集合。
现在,为了对增强层图片内的一区域的编码进行扩展来具有提高的质量和/或空间分辨率和具有高编码效率以便考虑层间预测约束,下文中引入了一种用于对增强层图片中的一个或多个贴片进行编码的改进的方法。
在图5中公开的一种方法中,在增强层图片中定义(500)一贴片集合,并且在基础层图片中定义(502)一贴片集合。然后,对于增强层图片中的所述贴片集合定义(504)编码约束,所述编码约束至少包括与基础层图片中的所述贴片集合相关的层间预测约束,并且根据使得所述贴片集合表示可独立解码区域的所述编码约束,对增强层图片中的所述贴片集合进行编码(506)。
根据实施例,所述编码约束将增强层图片中的所述贴片集合定义为仅层间贴片集合(inter-layeronlysetoftiles)。这指示出:增强层(EL)贴片集合被按照受约束的方式进行编码,从而使得仅层间预测被用于贴片集合内的所有采样。根据实施例,所述编码约束可以进一步指示:对于EL贴片集合,没有用信号通知任何残差,这意味着EL贴片集合的重构与可能利用层间处理(例如上采样(在空间可伸缩性的情况下)、比特深度缩放(在比特深度可伸缩性的情况下)和/或颜色空间转换(在色域可伸缩性的情况下))来进行处理的对应基础层(BL)贴片集合的重构相同。根据实施例,所述编码约束可以进一步指示:用于层间预测的BL贴片是运动受约束的。
在图6中示出了仅层间贴片集合的编码约束的示例。垂直条纹指示出在其中允许仅层间预测的仅层间贴片集合。换句话说,仅基于BL贴片集合650来预测EL贴片集合656,仅基于BL贴片集合652来预测EL贴片集合658,以及仅基于BL贴片集合654来预测EL贴片集合660。然而,BL贴片集合可以是运动受约束的贴片集合,这由BL贴片集合之间的箭头来指示。换句话说,运动受约束地根据BL贴片集合650来预测BL贴片集合652,从而使得不利用BL贴片集合650之外的任何采样。类似地,运动受约束地根据BL贴片集合652来预测BL贴片集合654。应当指出,BL和EL贴片集合的尺寸不需要相同。
根据实施例,所述编码约束将增强层图片中的所述贴片集合定义为运动和层间预测受约束的贴片集合。这指示出EL贴片集合被按照受约束的方式进行编码,从而使得对EL贴片集合的经运动补偿的预测受到限制,以便贴片集合内的采样不利用属于同一层中的其它贴片的任何采样,并且用信号通知层间预测,从而使得来自零个或更多个选自BL的贴片的采样在整个序列中被用作或可以被用作EL贴片集合的层间预测的参考。如果没有从BL中选择任何贴片,那意味着该EL贴片集合不使用任何层间预测。根据实施例,所述编码约束可以进一步指示:用于层间预测的BL贴片或贴片集合是运动受约束的。
图7示出了运动和层间预测受约束的贴片集合示例。具有垂直条纹的EL贴片集合706、708、710中的每个EL贴片集合利用仅来自一个BL贴片集合700、702、704的采样,而不利用来自其它BL贴片的任何层间预测。对EL贴片集合的经运动补偿的预测受到限制,从而使得EL贴片集合708内的采样不利用属于除了EL贴片集合706之外的其它贴片的任何采样,并且EL贴片集合710不利用属于除了EL贴片集合708之外的其它贴片的任何采样。此外,具有垂直条纹的BL贴片集合是运动受约束的。
图8示出了运动和层间预测受约束的贴片集合的另一示例,其中,没有指示任何BL贴片被用作EL贴片集合的层间预测的参考。换句话说,其是仅层内贴片集合,其中,EL贴片集合的经运动补偿的预测类似于图6那样地受到限制,但是层间预测完全受限。
根据实施例,所述编码约束将增强层图片中的所述贴片集合定义为单循环解码的贴片集合。这指示出:为了对EL贴片集合进行解码,不需要在已解码图片缓冲器中维护相应的BL贴片集合。换句话说,BL贴片集合不被用作层内预测的参考。如果BL贴片集合是经帧内编码的或驻留在IRAP图片中,则其可用于层间预测。
根据各种实施例,当一个图片内的贴片集合的预测(这里称为所预测的贴片集合)受约束于仅根据一个或多个其它图片中相应的贴片集合(这里称为参考贴片集合)而发生,则所述编码约束可以包括以下中的一个或多个:
-每个参考贴片集合之外的任何采样值,以及使用参考贴片集合之外的一个或多个采样值所导出的分采样位置处的任何采样值,没有被用于对被预测贴片集合内的任何采样的预测。所述预测例如可以是任何类型的采样预测,诸如帧间、层间、视图间和/或分量间预测。
-参考贴片集合之外的任何参数或语法元素值没有被用于对被预测贴片集合的预测。例如,参考贴片集合之外的任何运动矢量没有被用于被预测贴片集合内的时间运动矢量预测等。所述预测可以是任何类型的语法或参数预测。
-参考贴片集合之外的任何采样值和/或语法元素值没有被用于对被预测贴片集合的残差预测。
-参考贴片集合之外的任何采样值没有被用于任何影响被预测贴片集合的采样值的编(解)码过程,诸如过滤和上采样。
可以利用一个或多个指示在比特流中或伴随比特流指示出根据各种实施例的一个或多个编码约束,所述一个或多个指示可被编码为一个或多个语法结构中的一个或多个语法元素或语法元素值。编码器可以将所述指示编码到比特流中。解码器可以从比特流中解码出所述指示。所述指示可以例如驻留在序列参数集合、图片参数集合、补充增强信息(SEI)消息或切片报头和/或任何其它语法结构中。
语法结构可以确定所述指示的范围或有效性或持久性。例如,如果指示驻留在序列参数集合中,则所述指示在某些实施例中可以对以下这样的已编码视频序列有效:所述序列参数集合对所述已编码视频序列是活跃的。同样,如果指示驻留在图片参数集合中,则其可以对于以下这样的图片是有效的:所述图片参数集合对所述图片是活跃的。可选地,可以将所述指示的范围/有效性/持久性包括在关联于所述指示的指示或其它语法元素中。在某些实施例中,所述指示的范围或有效性或持久性可以包括层的集合。在某些实施例中,所述指示的范围或有效性或持久性可以包括可伸缩性维度的集合,诸如视图的集合、分量类型(例如,纹理和/或深度)的集合和/或可伸缩性层(例如,空间和/或质量可伸缩性层)的集合。
根据实施例,针对上面提到的每个贴片集合的指示可以按照补充增强信息(SEI)消息的形式来实现。例如,运动受约束的贴片集合SEI消息可以被进一步修改,以便指示出层内预测约束和层间预测约束这两者。附加地或可选地,可以开发全新的SEI消息语法用于指示层内预测约束和/或层间预测约束。
根据实施例,下面的SEI消息语法可用于指示层内预测约束和/或层间预测约束。
表1
可以如下来指定语法元素的语义。
num_sets_in_message_minus1加1指定了SEI消息中所标识的运动受约束的贴片集合的数目。num_sets_in_message_minus1的值应当在0到255(包括0和255)的范围中。
mcts_id[i]含有可用于标识第i个所标识贴片的目的(例如,用于标识为了特定目的将从已编码视频序列中提取的区域)的标识号。pan_scan_rect_id的值应当在0到232-2(包括0和232-2)的范围中。
可以根据应用进行的确定来使用从0到255和从512到231-1的mcts_id[i]的值。从256到511和从231到232-2的mcts_id[i]的值被ITU-T|ISO/IEC预留给未来使用。遇到256到511的范围中或231到232-2的范围中的mcts_id[i]的值的解码器应当将其忽略(从比特流中移除并丢弃)。num_tile_rects_in_set_minus1[i]加1指定了第i个所标识的运动受约束的贴片集合中矩形贴片区域的数目。num_tile_rects_in_set_minus1[i]的值应当在0到(num_tile_columns_minus1+1)*(num_tile_rows_minus1+1)–1(包括0和(num_tile_columns_minus1+1)*(num_tile_rows_minus1+1)–1)的范围中。top_left_tile_index[i][j]和bottom_right_tile_index[i][j]分别标识了按贴片光栅扫描顺序的第i个所标识的运动受约束贴片集合的一矩形区域中的左上角贴片的贴片位置和右下角贴片的贴片位置。
exact_sample_value_match_flag[i]等于0指示:在已编码视频序列内,当第i个所标识的运动受约束的贴片集合之外的编码树块没有被解码,并且该运动受约束的贴片集合的边界被看作用于解码过程的图片边界时,所标识的贴片集合中的每个采样的值可以不与当图片的所有编码树块被解码时的同一采样的值完全相同。
mcts_nuh_layer_id[i][j]指定了含有第i个所指定的贴片集合内的第j个贴片矩形区域的图片的nuh_layer_id值。
mc_idc[i][j]等于0指定了帧间预测过程可以被约束于或者可以不被约束于:在具有等于mcts_nuh_layer_id[i][j]的nuh_layer_id的图片之间的具有相同mcts_id[i]值的贴片集合之间。mc_idc[i][j]等于1指定了具有等于mcts_nuh_layer_id[i][j]的nuh_layer_id的图片之间的具有相同mcts_id[i]值的贴片集合之间的帧间预测过程受到约束,从而使得:每个所标识的贴片集合之外的任何采样值,以及使用所标识的贴片集合之外的一个或多个采样值所导出的分采样位置处的任何采样值,没有被用于对所标识的贴片集合内的任何采样的帧间预测。mc_idc[i][j]等于2指定了:对于所指示的来自具有等于mcts_nuh_layer_id[i][j]的nuh_layer_id的任何图片的贴片集合,不发生任何帧间预测。
ilc_idc[i][j]等于0指定了:对于所标识的具有等于mcts_nuh_layer_id[i][j]的nuh_layer_id的贴片集合,层间预测过程可以是受约束的或者可以不是受约束的。ilc_idc[i][j]等于1指定了层间预测过程是受约束的,从而使得:每个所标识的贴片集合之外的任何采样值,以及使用所标识的贴片集合之外的一个或多个采样值所导出的分采样位置处的任何采样值,没有被用于对所标识的具有等于mcts_nuh_layer_id[i][j]的nuh_layer_id的贴片集合内的任何采样的层间预测。ilc_idc[i][j]等于2指定了:对于所指示的贴片集合,没有发生任何层间预测。
skipped_tile_set_flag[i][j]等于1指示:具有等于mctsNuhLayerId的nuh_layer_id的所标识的贴片集合内的所有预测块是根据具有等于RefLayerId[mctsNuhLayerId][NumDirectRefLayers[mctsNuhLayerId]–1]的nuh_layer_id的层间参考图片来被层间预测的,并且没有任何residual_coding语法结构出现在所标识的贴片集合的任何变换单元中。skipped_tile_set_flag[i][j]等于0指示:具有等于mctsNuhLayerId的nuh_layer_id的所标识的贴片集合内的所有预测块可以被或者可以不被进行层间预测,并且residual_coding语法结构可以出现或者可以不出现在所标识的贴片集合的任何变换单元中。当skipped_tile_set_flag[i][j]等于1时,ilc_idc[i][j]应当等于0或1,并且mc_idc[i][j]应当等于2。
exact_sample_value_match_flag[i]等于1指示:在已编码视频序列内,当不属于运动受约束的贴片集合的编码树块没有被编码,并且运动受约束的贴片集合的边界被看作用于解码过程的图片边界时,运动受约束的贴片集合中的每个采样的值将与当已编码视频序列中的所有图片的所有编码树块被解码时会获取的采样的值完全相同。
根据实施例,运动受约束的贴片集合SEI消息(如果其未被嵌套在可伸缩嵌套SEI消息或者任何类似的SEI消息或嵌套机制内)可被指定为应用于具有等于0的nuh_layer_id的图片。否则,运动受约束的贴片集合SEI消息可被指定为应用于以下这样的层:利用含有所述运动受约束的贴片集合SEI消息的可伸缩嵌套SEI消息(或类似物)来指示所述层。如果相同的mcts_id[i](或其它类似的贴片集合标识符)的值被用于多个运动受约束的贴片集合SEI消息(潜在地应用于不同层)中,则它们可被指定为指示:贴片集合的层间预测受到约束,以便仅使用参考层中具有相同mcts_id[i]值的贴片集合作为参考进行层间预测。
根据实施例,运动受约束的贴片集合SEI消息可被用于指示出贴片集合的层内或时间预测约束。运动受约束的贴片集合SEI消息可以被包括在可伸缩嵌套SEI消息中,但它们并不指示任何层间预测约束。另一SEI消息(这里称为层间受约束的贴片集合SEI消息)可被指定为如下指示出层间预测约束。
表2
可以类似于运动受约束的贴片集合SEI消息中的等效语法元素来指定所述语法元素的语义,并且可以例如如下来指定附加的语法元素。
num_il_ref[i][j]指定了:可被用作所标识的贴片矩形区域的层间预测的参考的贴片区域的数目。
il_mcts_flag[i][j][k]等于0指定:利用il_ref_ts_top_left_tile_index[i][j][k]和il_ref_ts_bottom_right_tile_index[i][j][k]来指定第k个贴片区域。il_mcts_flag[i][j][k]等于1指定:第k个贴片区域是运动受约束的贴片区域,其中,在用于层间预测的所有参考层中,mcts_id[i]等于il_ref_mcts_id[i][j][k]。
根据实施例,依照任何实施例的对层间预测约束的指示可以包括或被附加具有与EL贴片集合的单解码属性相关的指示。例如,附加的标志可以关联于EL贴片集合,指示出:为了对EL贴片集合进行解码,相应的BL贴片集合不需要被维护在DPB中。换句话说,BL贴片集合不被用作层内预测的参考。如果BL贴片集合是经帧内编码的或者驻留在IRAP图片中,则其可用于层间预测。例如,可以使用以下语法和语义。
表3
与表1的语法相比,已经包括了语法元素single_loop_flag[i][j],该语法元素当等于0时指定:层间预测可被约束为或者可以不被约束为超出由ilc_idc[i][j]指示的约束。single_loop_flag[i][j]等于1指定:不根据并非IRAP图片的层间参考图片来应用所指示的贴片集合的层间预测。
根据实施例,增强层贴片集合含有对应的基础层贴片集合的增强信息,所述增强信息包括以下中的至少一个:
-针对对应基础层贴片集合的色度,提高所述增强层贴片集合的色度的保真度;
-针对对应基础层贴片集合的比特深度,提高所述增强层贴片集合的比特深度;
-针对对应基础层贴片集合的质量,提高所述增强层贴片集合的质量;或者
-针对对应基础层贴片集合的空间分辨率,提高所述增强层贴片集合的空间分辨率。
提高色度的保真度意味着:例如,对于增强层贴片集合,色度格式可以是4:2:2或4:4:4,而对于基础层贴片集合,色度格式是4:2:0。在4:2:0采样中,两个色度阵列或图片中的每个具有亮度或图片阵列的一半高度和一半宽度。在4:2:2采样中,两个色度阵列中的每个具有亮度阵列相同高度和一半宽度。在4:4:4采样中,两个色度阵列中的每个具有与亮度阵列相同的高度和宽度。
提高比特深度意味着:例如,对于增强层贴片集合,采样的比特深度可以是10或12比特,而对于基础层贴片集合,比特深度是8比特。
根据实施例,单个增强层贴片集合可以增强图像的多个特征。例如,增强层贴片集合可以提供色度格式增强和比特深度增强这二者。
根据实施例,增强层贴片集合的尺寸和位置可以对于不同的图片而发生改变或者保持固定。
根据实施例,增强层贴片集合的位置和/或尺寸可以与基础层图片中所使用的贴片集合相同。
帧包装(framepacking)指的是这样一种方法:其中,在编码器侧作为编码的预处理步骤将不止一个帧包装成单个帧,并且然后,利用常规的2D视频编码方案对于被进行帧包装的帧进行编码。由解码器产生的输出帧因此含有成分帧(consituentframe),所述成分帧对应于在编码器侧从空间上被包装到一个帧中的输入帧。帧包装可用于立体视频,其中,一对帧(一个对应于左眼/照相机/视图并且另一个对应于右眼/照相机/视图)被包装成单个帧。帧包装也可以或者可选地可以用于深度或差异增强的视频,其中,成分帧之一表示了与另一成分帧相对应的深度或差异信息,所述另一成分帧含有规则颜色信息(亮度和色度信息)。例如使用H.264/AVC的帧包装安排SEI消息或类似物,可以在视频比特流中用信号通知对帧包装的使用。也可以或者可选地可以通过视频接口(诸如高清多媒体接口(HDMI))来指示对帧包装的使用。也可以或者可选地可以使用各种功能交换和模式协商协议(诸如会话描述协议(SDP))来指示和/或协商对帧包装的使用。
深度增强的视频指的是具有一个或多个视图的纹理视频,所述一个或多个视图关联于具有一个或多个深度视图的深度视频。多种方法可用于表示深度增强的视频,包括使用视频加深度(V+D)、多视图视频加深度(MVD)和分层深度视频(LDV)。在视频加深度(V+D)表示中,纹理的单个视图和深度的相应视图分别被表示为纹理图片和深度图片的序列。MVD表示含有多个纹理视图和相应的深度视图。在LDV表示中,中央视图的纹理和深度被常规地进行表示,而其它视图的纹理和深度被部分地进行表示,并且仅覆盖对中间视图进行正确视图合成所需的非封留区域(dis-occludedareas)。
根据实施例,例如在并列帧包装安排中,可以将本发明应用于含有视频加深度表示的被进行帧包装的视频,即纹理帧和深度帧。被进行帧包装的帧的基础层可以具有相同的色度格式,或者成分帧可以对于纹理成分帧具有诸如4:2:0的不同色度格式,并且对于深度成分帧具有仅亮度格式。被进行帧包装的帧的增强层可以仅涉及被进行基础层帧包装的帧的成分帧之一。增强层可以包括以下这样的贴片集合:所述贴片集合覆盖了对基础层的相应成分帧进行增强的成分帧。可以根据各种其它实施例来对EL贴片集合进行编码和/或解码。例如,增强层可以含有以下中的一个或多个:
●对于纹理成分帧的色度格式增强
●对于纹理成分帧或深度成分帧的比特深度增强
●对于纹理成分帧或深度成分帧的空间增强
用于获取立体视频的压缩改善的另一研究分支称为非对称立体视频编码,其中,两个编码视图之间存在质量偏差。这归因于以下这一被广泛相信的假设:人类视觉系统(HVS)对立体图像对进行融合,从而使得所感知的质量接近较高质量视图的质量。因而,通过在两个编码视图之间提供质量偏差,可以获取压缩改善。
可以例如通过以下方法中的一个或多个来实现两个视图之间的非对称性:
a)混合分辨率(MR)立体视频编码,也被称为分辨率非对称立体视频编码,其中,视图具有不同的空间分辨率和/或不同的频域特征。通常,视图之一是经低通滤波的,并且因此具有较少量的空间细节或较低空间分辨率。此外,通常利用较粗采样网格来采样经低通滤波的视图,即,由较少像素来表示。
b)混合分辨率色度采样。一个视图的色度图片相比于另一视图的相应色度图片是通过较少的采样来表示的。
c)非对称采样域量化。利用不同步阶尺寸来对两个视图的采样值进行量化。例如,可以利用0到255的范围来表示一个视图的亮度采样(即,每采样8比特),而该范围对于第二视图而言可以被缩放到0到159的范围。由于较少的量化步阶,相比于第一视图,可以利用较高的比率来对第二视图进行压缩。不同的量化步阶尺寸可用于亮度和色度采样。作为非对称采样域量化的特殊情况,一种情况可以涉及:当每个视图中的量化步阶数目匹配于二的幂次时的比特深度非对称立体视频。
d)非对称变换域量化。利用不同的步阶尺寸对两个视图的变换系数进行量化。因此,视图之一具有较低保真度,并且可遭受较大量的可视编码伪影(codingartifacts),诸如阻断(blocking)和鸣震(ringing)。
e)以上不同编码技术的组合。
在图9中示出了上述类型的非对称立体视频编码。第一行呈现了仅被进行变换编码的较高质量视图。其余行呈现了若干编码组合,已研究这些编码组合来使用不同步骤(即,下采样、采样域量化和基于变换的编码)创建较低质量视图。从图9可以观察到,不论处理链中如何应用其它步骤,均可以应用或跳过下采样或采样域量化。同样,可以独立于其它步骤来选择变换域编码步骤中的量化步骤。因而,非对称立体视频编码的实际实现可以按照如图9的行e)中所示的组合方式来使用合适的技术实现非对称性。
根据实施例,例如在并列帧包装安排中,可以将本发明应用于含有立体或多视图视频表示的被进行帧包装的视频。被进行帧包装的帧的基础层可以表示非对称立体视频,其中,这两个视图具有近似相等的视觉质量,或者,被进行帧包装的帧的基础层可以表示非对称立体视频。被进行帧包装的帧的增强层可以仅涉及被进行基础层帧包装的帧的成分帧之一。增强层可以被编码为利用非对称立体视频编码,或者,在基础层被编码为非对称立体视频的情况下,增强层可以被编码为提供对称立体视频表示。增强层可以包括以下这样的贴片集合:所述贴片集合覆盖了对基础层的相应成分帧进行增强的成分帧。可以根据各种其它实施例对EL贴片集合进行编码和/或解码。例如,增强层可以含有以下中的一个或多个:
●对于成分帧之一的空间增强
●对于成分帧之一的质量增强
●对于成分帧之一的色度格式增强
●对于成分帧之一的比特深度增强
根据实施例,可以在以下情况下应用本发明:基础层含有任何类型的被进行帧包装的视频,例如立体视频;并且增强层含有由仅一种成分帧组成的图片的序列,诸如立体视频中的左视图的图片。增强层可以例如用于提高被进行帧包装的基础层中的相应视图的垂直或水平分辨率。整个EL图片可被看作是包括EL贴片集合,并且相应的BL贴片集合可被看作是仅包括对应于EL的成分帧。
本发明的另一方面在于:解码器当其接收到基础层图片和至少一个增强层图片时的操作。图10示出了适于采用本发明的实施例的视频解码器的框图。
解码器包括熵解码器600,作为上述编码器的熵编码器330的逆操作,熵解码器600对所接收到的信号实施熵解码。熵解码器600向预测误差解码器602和像素预测器604输出熵解码的结果。
像素预测器604接收熵解码器600的输出。像素预测器604内的预测器选择器614确定:帧内预测、帧间预测或插值操作将被执行。此外,预测器选择器可以向第一组合器613输出图像块616的预测表示。图像块616的预测表示与重构的预测误差信号612相结合地用于生成初步重构的图像618。初步重构的图像618可以用在预测器614中,或者可以被传递给过滤器620。过滤器620应用过滤,所述过滤输出最终的重构信号622。最终的重构信号622可被存储在参考帧存储器624中,参考帧存储器624进一步连接到预测器614用于预测操作。
预测误差解码器602接收熵解码器600的输出。预测误差解码器602的解量化器692可以对熵解码器600的输出进行解量化,并且逆变换块693可以对解量化器692输出的经解量化的信号实施逆变换操作。熵解码器600的输出还可以指示:没有应用预测误差信号,并且在此情况下,预测误差解码器产生全零输出信号。
图11中所示的实施例的解码操作与编码操作相对。因而,在解码过程中,解码器可以获取(1100)关于增强层图片中的贴片集合的信息,并且获取(1102)关于基础层图片中的贴片集合的信息。然后,解码器可以获取(1104)用于增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括与基础层图片中的所述贴片集合相关的层间预测约束。然后,根据所述解码约束,作为可独立解码区,解码器对增强层图片中的所述贴片集合进行解码(1106)。
根据实施例,如上所述,可以根据一个或多个SEI消息获取关于贴片集合的信息和编码约束。
已解码图片可被放置在参考帧缓冲器中,因为其可用于使用经运动补偿的预测来对后续帧进行解码。在示例实施方案中,编码器和/或解码器单独地在参考帧缓冲器中放置已解码的增强层图片和基础层图片。
在上面已关于贴片和/或贴片集合描述了某些实施例。需要理解,可以利用可被不同命名的类似概念来等效地实现这些实施例。例如,可以利用矩形切片而不是贴片或贴片集合来实现实施例。在第二示例中,可以利用切片组而不是贴片集合来实现实施例。在第三示例中,可以利用隔离区而非贴片集合来实现实施例。
在上面已关于以下内容描述了某些实施例:将指示、语法元素和/或语法结构编码到比特流或已编码的视频序列中,和/或根据比特流或已编码的视频序列来解码指示、语法元素和/或语法结构。然而需要理解,可以在以下时候实现所述实施例:将指示、语法元素和/或语法结构编码到这样的语法结构或数据单元,所述语法结构或数据单元在比特流或包括视频编码层数据(诸如已编码切片)的已编码视频序列的外部;和/或从这样的语法结构或数据单元解码指示、语法元素和/或语法结构,所述语法结构或数据单元在比特流或包括视频编码层数据(诸如已编码切片)的已编码视频序列的外部。例如,在某些实施例中,根据任何以上实施例的指示可以被编码到视频参数集合或序列参数集合中,其中,例如使用诸如SDP这样的控制协议,从已编码视频序列外部来传送所述视频参数集合或序列参数集合。继续同一示例,接收方可以例如使用所述控制协议来获取所述视频参数集合或序列参数集合,并且提供所述视频参数集合或序列参数集合用于解码。
在上面已借助于比特流的语法描述了示例实施例。然而需要理解,对应的结构和/或计算机程序可以驻留在用于生成比特流的编码器处和/或用于对比特流进行解码的解码器处。同样,在已参考编码器描述了示例实施例的情况下,需要理解,所得到的比特流和解码器在其中具有对应的元素。同样,在已参考解码器描述了示例实施例的情况下,需要理解,编码器具有用于生成将由解码器来解码的比特流的结构和/或计算机程序。
在上面已参考增强层和基础层描述了某些实施例。需要理解,基础层可以是增强层的任何参考层,并且不需要是整个比特流的基础层。
为了辅助理解所涉及的过程,上面描述的本发明的实施例就单独的编码器和解码器装置而言描述了编解码器。然而,应当认识到,所述装置、结构和操作可被实现为单个编码器-解码器装置/结构/操作。此外,在本发明的某些实施例中,编码器和解码器可以共享一些或全部公用元件。
尽管上面的示例描述了在电子设备内的编解码器内操作的本发明的实施例,但是应当认识到,如下面所描述的,本发明可被实现为任何视频编解码器的一部分。因而,例如,本发明的实施例可以在这样的视频编解码器中实现,所述视频编解码器可以通过固定或有线的通信通路来实现视频编码。
因而,用户设备可以包括诸如上面在本发明的实施例中所描述的那样的视频编解码器。应当认识到,术语“用户设备”旨在涵盖任何合适类型的无线用户设备,例如移动电话、便携式数据处理设备或便携式web浏览器。
此外,公共陆地移动网络(PLMN)的元件也可以包括如上所述的视频编解码器。
一般而言,本发明的各种实施例可以用硬件、专用电路、软件、逻辑或其任意组合来实现。例如,某些方面可以用硬件来实现,而其它方面可以用可被控制器、微处理器或其它计算设备执行的软件或固件来实现,尽管本发明不限于此。尽管本发明的各种方面可以作为框图、流程图或使用某种其它图片表示来进行图示和描述,但是应当理解,本文中所描述的这些框块、装置、系统、技术或方法,作为非限制性示例,可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或者其某种组合来实现。
本发明的实施例可以通过可由移动设备的数据处理器执行的计算机软件(诸如在处理器实体中或由硬件或者由软件和硬件的组合)来实现。进一步地,就此而言,应当指出,在附图中的逻辑流的任何框块均可以表示程序步骤、或者互连的逻辑电路、框块和功能、或者程序步骤与逻辑电路、框块和功能的组合。软件可以存储在物理介质中,所述物理介质例如是存储器芯片、或者在处理器内实现的存储块、诸如硬盘或软盘这样的磁介质,以及诸如DVD及其数据变型CD这样的光介质。
存储器可以具有适于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,例如基于半导体的存储设备、磁存储设备和系统、光存储设备和系统、固定存储器和可装卸存储器。数据处理器可以具有适于本地技术环境的任何类型,并且作为非限制性示例,可以包括以下中的一个或多个:通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器体系结构的处理器。
本发明的实施例可以在诸如集成电路模块的各种组件中实现。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换为易于在半导体基底上蚀刻和形成的半导体电路设计。
诸如由Californiahe的MountainView的Synopsys股份有限公司和Californiahe的SanJose的CadenceDesign所提供的那样的程序使用恰当建立的设计规则以及预存储的设计模块的库,自动地在半导体芯片上规定导体的线路和确定组件的位置。一旦已完成了半导体电路的设计,则产生的采用标准化电子格式(例如Opus、GDSII等)的设计可被传送给半导体制造厂商或“代工厂”进行制造。
前面的描述已借助于示例性和非限制性示例提供了对本发明的示例性实施例的完整和信息丰富的描述。然而,当结合附图和所附权利要求阅读时,鉴于前面的描述,各种修改和调整对于相关领域的技术人员可以变得显而易见。然而,对本发明的教导的所有这样的和类似的修改仍将落在本发明的范围内。
根据第一实施例的方法包括一种用于对包括基础层和至少一个增强层的可伸缩比特流进行解码的方法,所述方法包括:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据实施例,所述编码约束定义了:要使用层间预测或帧内预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用帧内预测或使用仅根据基础层图片中的所述贴片集合的层间预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用时间预测或帧内预测,而不使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用层间预测,而不使用时间预测,并且不使用帧内预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用层间预测,而不使用时间预测,并且不使用帧内预测,来预测所述增强层图片中的所述贴片集合内的所有预测块,并且所述预测块内的所有残差等于零。
根据实施例,所述编码约束指示:所述增强层图片中的贴片集合的重构与所述基础层图片中的对应贴片集合的重构相同。
根据实施例,所述编码约束将所述增强层图片中的所述贴片集合定义为运动和层间预测受约束的贴片集合。
根据实施例,所述编码约束指示:用于层间预测的所述基础层图片中的贴片集合是运动受约束的。
根据实施例,所述编码约束将所述增强层图片中的所述贴片集合定义为单循环解码的贴片集合。
根据实施例,在所述单循环解码中,所述编码约束定义了:要使用时间预测或帧内预测,并且如果所述基础层图片是随机访问图片则使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述方法进一步包括:根据补充增强信息(SEI)消息,获取所述增强层图片中的所述贴片集合的编码约束的至少一部分。
根据实施例,所述方法进一步包括:根据第一SEI消息来获取用于所述贴片集合的层内或时间预测约束,以及根据第二SEI消息来获取用于所述贴片集合的层间预测约束。
根据实施例,所述增强层图片中的贴片集合含有所述基础层图片中的对应贴片集合的增强信息,所述增强信息包括以下中的至少一个:
-针对基础层图片中的对应贴片集合的色度,提高所述增强层图片中的所述贴片集合的色度的保真度;
-针对基础层图片中的对应贴片集合的比特深度,提高所述增强层图片中的所述贴片集合的比特深度;
-针对基础层图片中的对应贴片集合的质量,提高所述增强层图片中的所述贴片集合的质量;或者
-针对基础层图片中的对应贴片集合的空间分辨率,提高所述增强层图片中的所述贴片集合的空间分辨率。
根据第二实施例的装置包括:
视频解码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行解码,所述视频解码器被配置用于:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第三实施例,提供了一种在其中存储了用于由装置使用的代码的计算机可读存储介质,所述代码当被处理器执行时,促使所述装置实施:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第四实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其中存储了代码,所述代码当被所述至少一个处理器执行时,促使一种装置实施:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第五实施例的方法包括一种用于对增强层图片中的一个或多个贴片进行编码的方法,所述方法包括:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据实施例,所述编码约束定义了:要使用层间预测或帧内预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用帧内预测或使用仅根据基础层图片中的所述贴片集合的层间预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束定义了:要使用时间预测或帧内预测,而不使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述编码约束指示:所述增强层图片中的贴片集合的重构与所述基础层图片中的对应贴片集合的重构相同。
根据实施例,所述方法进一步包括:将所述增强层图片中的所述贴片集合的编码约束定义为运动和层间预测受约束的贴片集合。
根据实施例,所述编码约束指示:用于层间预测的所述基础层图片中的贴片集合是运动受约束的。
根据实施例,所述方法进一步包括:将所述增强层图片中的所述贴片集合的编码约束定义为单循环解码的贴片集合。
根据实施例,在所述单循环解码中,所述编码约束定义了:要使用时间预测或帧内预测,并且如果所述基础层图片是随机访问图片则使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
根据实施例,所述方法进一步包括:按照补充增强信息(SEI)消息的形式,指示出所述增强层图片中的所述贴片集合的编码约束的至少一部分。
根据实施例,第一SEI消息用于指示用于所述贴片集合的层内或时间预测约束,并且第二SEI消息用于指示用于所述贴片集合的层间预测约束。
根据实施例,所述增强层图片中的贴片集合含有所述基础层图片中的对应贴片集合的增强信息,所述增强信息包括以下中的至少一个:
-针对基础层图片中的对应贴片集合的色度,提高所述增强层图片中的所述贴片集合的色度的保真度;
-针对基础层图片中的对应贴片集合的比特深度,提高所述增强层图片中的所述贴片集合的比特深度;
-针对基础层图片中的对应贴片集合的质量,提高所述增强层图片中的所述贴片集合的质量;或者
-针对基础层图片中的对应贴片集合的空间分辨率,提高所述增强层图片中的所述贴片集合的空间分辨率。
根据第六实施例的装置包括:
视频编码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行编码,其中,所述视频编码器被进一步配置用于:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第七实施例,提供了一种在其中存储了用于由装置使用的代码的计算机可读存储介质,所述代码当被处理器执行时,促使所述装置实施:
对包括基础层和至少一个增强层的可伸缩比特流进行编码;
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第八实施例,提供了至少一个处理器和至少一个存储器,所述至少一个存储器在其中存储了代码,所述代码当被所述至少一个处理器执行时,促使一种装置实施:
对包括基础层和至少一个增强层的可伸缩比特流进行编码;
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
根据第九实施例,提供了一种视频解码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行解码,所述视频解码器被配置用于:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
根据第十实施例,提供了一种视频编码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行编码,其中,所述视频编码器被进一步配置用于:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束来对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。

Claims (30)

1.一种用于对包括基础层和至少一个增强层的可伸缩比特流进行解码的方法,所述方法包括:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
2.根据权利要求1所述的方法,其中,所述编码约束定义了:要使用层间预测或帧内预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
3.根据权利要求1所述的方法,其中,所述编码约束定义了:要使用帧内预测或使用仅根据基础层图片中的所述贴片集合的层间预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
4.根据权利要求1所述的方法,其中,所述编码约束定义了:要使用时间预测或帧内预测,而不使用层间预测,来预测所述增强层图片中的所述贴片集合的所有预测块。
5.根据前述任一项权利要求所述的方法,其中,所述编码约束指示:所述增强层图片中的贴片集合的重构与所述基础层图片中的对应贴片集合的重构相同。
6.根据前述任一项权利要求所述的方法,其中,所述编码约束指示:用于层间预测的所述基础层图片中的贴片集合是运动受约束的。
7.根据前述任一项权利要求所述的方法,其中,所述编码约束将所述增强层图片中的所述贴片集合定义为单循环解码的贴片集合。
8.根据权利要求7所述的方法,其中,在所述单循环解码中,所述编码约束定义了:要使用时间预测或帧内预测,并且如果所述基础层图片是随机访问图片则使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
9.根据前述任一项权利要求所述的方法,所述方法进一步包括:根据补充增强信息(SEI)消息来获取所述增强层图片中的所述贴片集合的编码约束的至少一部分。
10.根据权利要求9所述的方法,所述方法进一步包括:根据第一SEI消息来获取用于所述贴片集合的层内或时间预测约束,以及根据第二SEI消息来获取用于所述贴片集合的层间预测约束。
11.根据前述任一项权利要求所述的方法,其中,所述增强层图片中的贴片集合含有所述基础层图片中的对应贴片集合的增强信息,所述增强信息包括以下中的至少一个:
-针对基础层图片中的对应贴片集合的色度,提高所述增强层图片中的所述贴片集合的色度的保真度;
-针对基础层图片中的对应贴片集合的比特深度,提高所述增强层图片中的所述贴片集合的比特深度;
-针对基础层图片中的对应贴片集合的质量,提高所述增强层图片中的所述贴片集合的质量;或者
-针对基础层图片中的对应贴片集合的空间分辨率,提高所述增强层图片中的所述贴片集合的空间分辨率。
12.一种装置,其包括:
视频解码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行解码,所述视频解码器被配置用于:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
13.一种在其中存储了用于由装置使用的代码的计算机可读存储介质,所述代码当被处理器执行时,促使所述装置实施:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
14.至少一个处理器和至少一个存储器,所述至少一个存储器在其中存储了代码,所述代码当被所述至少一个处理器执行时,促使装置实施:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
15.一种用于对增强层图片中的一个或多个贴片进行编码的方法,所述方法包括:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
16.根据权利要求15所述的方法,其中,所述编码约束定义了:要使用层间预测或帧内预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
17.根据权利要求15所述的方法,其中,所述编码约束定义了:要使用帧内预测或使用仅根据基础层图片中的所述贴片集合的层间预测,而不使用时间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
18.根据权利要求15所述的方法,其中,所述编码约束定义了:要使用时间预测或帧内预测,而不使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
19.根据权利要求15-18中任一项所述的方法,其中,所述编码约束指示:所述增强层图片中的贴片集合的重构与所述基础层图片中的对应贴片集合的重构相同。
20.根据权利要求15-19中任一项所述的方法,其中,所述编码约束指示:用于层间预测的所述基础层图片中的贴片集合是运动受约束的。
21.根据权利要求15-20中任一项所述的方法,所述方法进一步包括:将所述增强层图片中的所述贴片集合的编码约束定义为单循环解码的贴片集合。
22.根据权利要求21所述的方法,其中,在所述单循环解码中,所述编码约束定义了:要使用时间预测或帧内预测,并且如果所述基础层图片是随机访问图片则使用层间预测,来预测所述增强层图片中的所述贴片集合内的所有预测块。
23.根据权利要求15-22中任一项所述的方法,所述方法进一步包括:按照补充增强信息(SEI)消息的形式,指示出所述增强层图片中的所述贴片集合的编码约束的至少一部分。
24.根据权利要求23所述的方法,其中,第一SEI消息用于指示用于所述贴片集合的层内或时间预测约束,并且第二SEI消息用于指示用于所述贴片集合的层间预测约束。
25.根据权利要求15-24中任一项所述的方法,其中,所述增强层图片中的贴片集合含有所述基础层图片中的对应贴片集合的增强信息,所述增强信息包括以下中的至少一个:
-针对基础层图片中的对应贴片集合的色度,提高所述增强层图片中的所述贴片集合的色度的保真度;
-针对基础层图片中的对应贴片集合的比特深度,提高所述增强层图片中的所述贴片集合的比特深度;
-针对基础层图片中的对应贴片集合的质量,提高所述增强层图片中的所述贴片集合的质量;或者
-针对基础层图片中的对应贴片集合的空间分辨率,提高所述增强层图片中的所述贴片集合的空间分辨率。
26.一种装置,其包括:
视频编码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行编码,其中,所述视频编码器被进一步配置用于:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
27.一种在其中存储了用于由装置使用的代码的计算机可读存储介质,所述代码当被处理器执行时,促使所述装置实施:
对包括基础层和至少一个增强层的可伸缩比特流进行编码;
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
28.至少一个处理器和至少一个存储器,所述至少一个存储器在其中存储了代码,所述代码当被所述至少一个处理器执行时,促使装置实施:
对包括基础层和至少一个增强层的可伸缩比特流进行编码;
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
29.一种视频解码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行解码,所述视频解码器被配置用于:
获取关于增强层图片中的贴片集合的信息;
获取关于基础层图片中的贴片集合的信息;
获取用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,作为可独立解码区来对所述增强层图片中的所述贴片集合进行解码。
30.一种视频编码器,其被配置用于对包括基础层和至少一个增强层的可伸缩比特流进行编码,其中,所述视频编码器被进一步配置用于:
定义增强层图片中的贴片集合;
定义基础层图片中的贴片集合;
定义用于所述增强层图片中的所述贴片集合的编码约束,所述编码约束至少包括针对所述基础层图片的层间预测约束;以及
根据所述编码约束,对所述增强层图片中的所述贴片集合进行编码,从而使得所述贴片集合表示可独立解码区。
CN201480049171.1A 2013-07-11 2014-06-25 用于视频编码和解码的装置、方法和计算机程序 Pending CN105519118A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1312460.7A GB2516224A (en) 2013-07-11 2013-07-11 An apparatus, a method and a computer program for video coding and decoding
GB1312460.7 2013-07-11
PCT/FI2014/050515 WO2015004323A1 (en) 2013-07-11 2014-06-25 An apparatus, a method and a computer program for video coding and decoding

Publications (1)

Publication Number Publication Date
CN105519118A true CN105519118A (zh) 2016-04-20

Family

ID=49081152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480049171.1A Pending CN105519118A (zh) 2013-07-11 2014-06-25 用于视频编码和解码的装置、方法和计算机程序

Country Status (8)

Country Link
US (1) US10136150B2 (zh)
EP (1) EP3020193A4 (zh)
JP (1) JP6169273B2 (zh)
KR (1) KR101881677B1 (zh)
CN (1) CN105519118A (zh)
BR (1) BR112016000470A8 (zh)
GB (1) GB2516224A (zh)
WO (1) WO2015004323A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109076245A (zh) * 2016-05-19 2018-12-21 高通股份有限公司 图片中的区域性随机存取
WO2019128668A1 (zh) * 2017-12-26 2019-07-04 中兴通讯股份有限公司 视频码流处理方法、装置、网络设备和可读存储介质
CN110313182A (zh) * 2017-03-03 2019-10-08 高通股份有限公司 译码用于运动受约束图块集的识别符
CN112771873A (zh) * 2018-09-20 2021-05-07 夏普株式会社 用于发信号通知视频编码中的参数的系统和方法
WO2021164736A1 (en) * 2020-02-19 2021-08-26 Mediatek Inc. Constraints for inter-layer referencing
CN113892263A (zh) * 2019-05-28 2022-01-04 三星电子株式会社 用于防止小尺寸的帧内块的视频编码方法和设备、以及视频解码方法和设备

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9674522B2 (en) * 2013-04-08 2017-06-06 Qualcomm Incorporated Device and method for scalable coding of video information
US9510001B2 (en) * 2013-07-09 2016-11-29 Electronics And Telecommunications Research Institute Video decoding method and apparatus using the same
GB2516224A (en) 2013-07-11 2015-01-21 Nokia Corp An apparatus, a method and a computer program for video coding and decoding
JP6261215B2 (ja) 2013-07-12 2018-01-17 キヤノン株式会社 画像符号化装置、画像符号化方法及びプログラム、画像復号装置、画像復号方法及びプログラム
US10368078B2 (en) * 2013-07-15 2019-07-30 Sony Corporation Extensions of motion-constrained tile sets SEI message for interactivity
GB2516824A (en) 2013-07-23 2015-02-11 Nokia Corp An apparatus, a method and a computer program for video coding and decoding
US9712837B2 (en) * 2014-03-17 2017-07-18 Qualcomm Incorporated Level definitions for multi-layer video codecs
EP3304902A1 (en) * 2015-06-08 2018-04-11 Thomson Licensing Method and apparatus for color gamut scalability (cgs) video encoding with artifact detection
WO2017023829A1 (en) * 2015-07-31 2017-02-09 Stc.Unm System and methods for joint and adaptive control of rate, quality, and computational complexity for video coding and video delivery
CN109076252B (zh) * 2016-02-16 2022-07-01 弗劳恩霍夫应用研究促进协会 使用自适应流传输协议取回视频的设备及其方法
FI20165114A (fi) * 2016-02-17 2017-08-18 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodausta ja videokoodauksen purkua varten
EP3226561A1 (en) * 2016-03-31 2017-10-04 Thomson Licensing Method and apparatus for coding a video into a bitstream carrying region-based post processing parameters into an sei nesting message
KR20240051314A (ko) 2016-10-04 2024-04-19 주식회사 비원영상기술연구소 영상 데이터 부호화/복호화 방법 및 장치
US12022199B2 (en) 2016-10-06 2024-06-25 B1 Institute Of Image Technology, Inc. Image data encoding/decoding method and apparatus
EP3566452A4 (en) * 2017-01-05 2020-06-10 Sharp Kabushiki Kaisha SYSTEMS AND METHODS FOR SIGNALING MOVEMENT-RESTRICTED TILE-SETS FOR VIRTUAL REALITY APPLICATIONS
GB2560720B (en) * 2017-03-20 2021-08-25 Canon Kk Method and apparatus for encoding and transmitting at least a spatial part of a video sequence
SG11201909450WA (en) * 2017-04-11 2019-11-28 Vid Scale Inc 360-degree video coding using face continuities
CN110999298B (zh) * 2017-07-05 2024-06-07 Red.Com有限责任公司 电子装置中的视频图像数据处理
JP7224280B2 (ja) * 2017-07-17 2023-02-17 ビー1、インスティテュート、オブ、イメージ、テクノロジー、インコーポレイテッド 画像データ符号化/復号化方法及び装置
FR3072850B1 (fr) * 2017-10-19 2021-06-04 Tdf Procedes de codage et de decodage d'un flux de donnees representatif d'une video omnidirectionnelle
JP6656335B2 (ja) * 2018-10-11 2020-03-04 キヤノン株式会社 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法、及び、プログラム
US11140403B2 (en) * 2018-12-20 2021-10-05 Tencent America LLC Identifying tile from network abstraction unit header
EP3932072A4 (en) * 2019-03-11 2022-07-20 Huawei Technologies Co., Ltd. SUB-PICTURE MOTION VECTORS IN VIDEO CODING
GB2619627B (en) * 2019-03-20 2024-02-28 V Nova Int Ltd Low complexity enhancement video coding
CA3142319A1 (en) * 2019-06-03 2020-12-10 Nokia Technologies Oy An apparatus and a method for video partitioning
CN117376559A (zh) * 2019-06-13 2024-01-09 北京达佳互联信息技术有限公司 用于视频编解码的子块变换的方法和系统
JP7486305B2 (ja) 2019-11-22 2024-05-17 日本無線株式会社 無線受信装置
WO2021134055A1 (en) 2019-12-27 2021-07-01 Bytedance Inc. Subpicture signaling in parameter sets
CN114930830A (zh) 2020-01-09 2022-08-19 字节跳动有限公司 波前并行处理的信令通知
WO2021164782A1 (en) 2020-02-21 2021-08-26 Beijing Bytedance Network Technology Co., Ltd. Slice and tile partitioning in video coding
US11451811B2 (en) * 2020-04-05 2022-09-20 Tencent America LLC Method and apparatus for video coding
US20220279185A1 (en) * 2021-02-26 2022-09-01 Lemon Inc. Methods of coding images/videos with alpha channels
US12058310B2 (en) 2021-02-26 2024-08-06 Lemon Inc. Methods of coding images/videos with alpha channels
CN114663315B (zh) * 2022-03-30 2022-11-22 天津大学 基于语义融合生成对抗网络的图像比特增强方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1875636A (zh) * 2003-11-04 2006-12-06 松下电器产业株式会社 视频发送装置以及视频接收装置
CN101262604A (zh) * 2008-04-23 2008-09-10 哈尔滨工程大学 一种感兴趣区优先传输的可伸缩视频编码方法
CN101283599A (zh) * 2005-10-12 2008-10-08 汤姆森许可贸易公司 感兴趣区域h.264可分级视频编码
CN101313578A (zh) * 2005-09-26 2008-11-26 韩国电子通信研究院 用于在可伸缩视频编码中定义和重构感兴趣区域的方法和装置
CN101478671A (zh) * 2008-01-02 2009-07-08 中兴通讯股份有限公司 应用于视频监控的视频编码装置及其视频编码方法
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
US20100232504A1 (en) * 2009-03-13 2010-09-16 The State of Oregon acting by and through the State Board of Higher Education on behalf of the Supporting region-of-interest cropping through constrained compression
CN101878649A (zh) * 2007-12-04 2010-11-03 索尼公司 扩展avc标准以与视频并行地对高分辨率数字静止图片编码
CN104396243A (zh) * 2012-06-08 2015-03-04 高通股份有限公司 用于视频压缩的自适应上取样滤波器

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2801911B2 (ja) 1987-10-16 1998-09-21 日本電気ホームエレクトロニクス 株式会社 予測符号化による画像データの圧縮装置
US8290062B1 (en) * 2000-09-27 2012-10-16 Intel Corporation Method and apparatus for manipulating MPEG video
GB2382940A (en) 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
FI114679B (fi) 2002-04-29 2004-11-30 Nokia Corp Satunnaisaloituspisteet videokoodauksessa
JP2004056616A (ja) 2002-07-23 2004-02-19 Media Glue Corp 符号化信号復号装置、符号化信号復号方法および符号化信号復号プログラム
KR100878812B1 (ko) * 2005-05-26 2009-01-14 엘지전자 주식회사 영상신호의 레이어간 예측에 대한 정보를 제공하고 그정보를 이용하는 방법
KR101255226B1 (ko) * 2005-09-26 2013-04-16 한국과학기술원 스케일러블 비디오 코딩에서 다중 roi 설정, 복원을위한 장치 및 방법
EP2145480A2 (en) * 2007-04-04 2010-01-20 Nxp B.V. Decoder for selectively decoding predetermined data units from a coded bit stream
US7864189B2 (en) 2007-07-23 2011-01-04 Intel Corporation Converting color data to a color palette
US8542748B2 (en) 2008-03-28 2013-09-24 Sharp Laboratories Of America, Inc. Methods and systems for parallel video encoding and decoding
US9113169B2 (en) 2009-05-07 2015-08-18 Qualcomm Incorporated Video encoding with temporally constrained spatial dependency for localized decoding
GB2486733A (en) 2010-12-24 2012-06-27 Canon Kk Video encoding using multiple inverse quantizations of the same reference image with different quantization offsets
US9060173B2 (en) 2011-06-30 2015-06-16 Sharp Kabushiki Kaisha Context initialization based on decoder picture buffer
US20140003504A1 (en) 2012-07-02 2014-01-02 Nokia Corporation Apparatus, a Method and a Computer Program for Video Coding and Decoding
CN104813660B (zh) 2012-09-28 2019-04-05 诺基亚技术有限公司 用于视频编码和解码的装置和方法
KR101825575B1 (ko) 2013-01-07 2018-02-05 노키아 테크놀로지스 오와이 비디오 코딩 및 디코딩 방법 및 장치
JP6269813B2 (ja) * 2013-04-08 2018-01-31 ソニー株式会社 Shvcでの注目領域スケーラビリティ
GB2516224A (en) 2013-07-11 2015-01-21 Nokia Corp An apparatus, a method and a computer program for video coding and decoding
CA2917516C (en) 2013-07-14 2018-04-17 Lg Electronics Inc. Method and apparatus for transmitting/receiving broadcast signal in hybrid broadcasting system
RU2725656C2 (ru) 2014-03-17 2020-07-03 Нокиа Текнолоджиз Ой Устройство, способ и компьютерная программа для кодирования и декодирования видеоинформации

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1875636A (zh) * 2003-11-04 2006-12-06 松下电器产业株式会社 视频发送装置以及视频接收装置
CN101313578A (zh) * 2005-09-26 2008-11-26 韩国电子通信研究院 用于在可伸缩视频编码中定义和重构感兴趣区域的方法和装置
CN101283599A (zh) * 2005-10-12 2008-10-08 汤姆森许可贸易公司 感兴趣区域h.264可分级视频编码
CN101878649A (zh) * 2007-12-04 2010-11-03 索尼公司 扩展avc标准以与视频并行地对高分辨率数字静止图片编码
CN101478671A (zh) * 2008-01-02 2009-07-08 中兴通讯股份有限公司 应用于视频监控的视频编码装置及其视频编码方法
CN101262604A (zh) * 2008-04-23 2008-09-10 哈尔滨工程大学 一种感兴趣区优先传输的可伸缩视频编码方法
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
US20100232504A1 (en) * 2009-03-13 2010-09-16 The State of Oregon acting by and through the State Board of Higher Education on behalf of the Supporting region-of-interest cropping through constrained compression
CN104396243A (zh) * 2012-06-08 2015-03-04 高通股份有限公司 用于视频压缩的自适应上取样滤波器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KEMAL UGUR: "Lightweight single-loop scalability with SHVC", 《THE JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16》 *
SULLIVAN,GJ等: "Overview of the High Efficiency Video Coding", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109076245B (zh) * 2016-05-19 2021-03-09 高通股份有限公司 对视频数据进行译码的方法和装置
US11184624B2 (en) 2016-05-19 2021-11-23 Qualcomm Incorporated Regional random access in pictures
CN109076245A (zh) * 2016-05-19 2018-12-21 高通股份有限公司 图片中的区域性随机存取
CN110313182A (zh) * 2017-03-03 2019-10-08 高通股份有限公司 译码用于运动受约束图块集的识别符
CN110326298A (zh) * 2017-03-03 2019-10-11 高通股份有限公司 译码mcts嵌套式sei消息
CN110326298B (zh) * 2017-03-03 2021-09-28 高通股份有限公司 译码mcts嵌套式sei消息
CN110313182B (zh) * 2017-03-03 2022-03-22 高通股份有限公司 译码用于运动受约束图块集的识别符
US11336965B2 (en) 2017-12-26 2022-05-17 Xi'an Zhongxing New Software Co., Ltd. Method and apparatus for processing video bitstream, network device, and readable storage medium
WO2019128668A1 (zh) * 2017-12-26 2019-07-04 中兴通讯股份有限公司 视频码流处理方法、装置、网络设备和可读存储介质
CN112771873A (zh) * 2018-09-20 2021-05-07 夏普株式会社 用于发信号通知视频编码中的参数的系统和方法
US11973970B2 (en) 2018-09-20 2024-04-30 Sharp Kabushiki Kaisha Systems and methods for signaling parameters in video coding
CN113892263A (zh) * 2019-05-28 2022-01-04 三星电子株式会社 用于防止小尺寸的帧内块的视频编码方法和设备、以及视频解码方法和设备
US11582466B2 (en) 2020-02-19 2023-02-14 Mediatek Inc. Constraints for inter-layer referencing
WO2021164736A1 (en) * 2020-02-19 2021-08-26 Mediatek Inc. Constraints for inter-layer referencing

Also Published As

Publication number Publication date
KR101881677B1 (ko) 2018-07-24
EP3020193A4 (en) 2017-03-15
BR112016000470A2 (pt) 2017-07-25
GB2516224A (en) 2015-01-21
JP6169273B2 (ja) 2017-07-26
GB201312460D0 (en) 2013-08-28
JP2016531467A (ja) 2016-10-06
US10136150B2 (en) 2018-11-20
KR20160031513A (ko) 2016-03-22
EP3020193A1 (en) 2016-05-18
WO2015004323A1 (en) 2015-01-15
US20160156917A1 (en) 2016-06-02
BR112016000470A8 (pt) 2020-01-07

Similar Documents

Publication Publication Date Title
CN105519118A (zh) 用于视频编码和解码的装置、方法和计算机程序
JP6687770B2 (ja) ビデオ符号化・復号装置、方法、及びコンピュータプログラム
KR102191846B1 (ko) 비디오 인코딩 및 디코딩
KR101767331B1 (ko) 비디오 코딩 및 디코딩을 위한 장치, 방법 및 컴퓨터 프로그램
CN105556965B (zh) 用于视频编码和解码的方法、装置和计算机程序产品
KR101851479B1 (ko) 파라미터 세트 코딩
KR102224703B1 (ko) 비디오 코딩 및 디코딩 장치, 방법 및 컴퓨터 프로그램
KR101713005B1 (ko) 비디오 코딩 및 디코딩을 위한 장치, 방법 및 컴퓨터 프로그램
KR102474636B1 (ko) 크로스-채널 잔차 인코딩 및 디코딩을 위한 양자화 파라미터 도출
KR101874922B1 (ko) 비디오 코딩 및 디코딩 장치, 방법 및 컴퓨터 프로그램
CN111327893B (zh) 用于视频编码和解码的装置、方法和计算机程序
CN104380749A (zh) 用于视频编码的方法和装置
US20140085415A1 (en) Method and apparatus for video coding
CN104813660A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN105027567A (zh) 用于视频编码和解码的方法和装置
CN104641642A (zh) 用于视频编码的方法和装置
CN104813662A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN113711594A (zh) 用于视频编码和解码的装置、方法和计算机程序
KR20220061245A (ko) 비디오 코딩 및 디코딩 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20200211

AD01 Patent right deemed abandoned