CN104620587A - 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备 - Google Patents

用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备 Download PDF

Info

Publication number
CN104620587A
CN104620587A CN201380046648.6A CN201380046648A CN104620587A CN 104620587 A CN104620587 A CN 104620587A CN 201380046648 A CN201380046648 A CN 201380046648A CN 104620587 A CN104620587 A CN 104620587A
Authority
CN
China
Prior art keywords
scalable extension
extension type
unit
information
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380046648.6A
Other languages
English (en)
Other versions
CN104620587B (zh
Inventor
崔秉斗
金宰贤
朴正辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN104620587A publication Critical patent/CN104620587A/zh
Application granted granted Critical
Publication of CN104620587B publication Critical patent/CN104620587B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了一种用于对多层视频进行编码/解码的方法和设备。根据多层视频编码方法,通过根据数据单元划分多层视频而产生针对每个数据单元的网络适应层(NAL)单元,可伸缩扩展类型信息被添加到每个数据单元的传输单元数据中的视频参数集(VPS)NAL单元。

Description

用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备
技术领域
本发明涉及用于对由多个层构成的视频(诸如,可伸缩视频和多视点视频)进行编码和解码的方法和设备,更具体地讲,涉及一种对多层视频进行信号发送的高级语法结构。
背景技术
一般来说,通过使用根据预定数据压缩标准(诸如,运动图像专家组(MPEG)标准)的编解码器来对图像数据进行编码,随后将图像数据作为比特流存储在图像存储介质中,或者经由通信信道发送图像数据。
根据各种通信网络和终端适当地调整信息量并发送信息的视频压缩方法的示例是可伸缩视频编码(SVC)。SVC提供这样的视频编码方法:通过所述视频编码方法,可经由单个视频流适应性地将服务提供给各种传输网络和各种接收终端。
另外,三维多媒体装置和三维多媒体内容最近得到普及,并且用于三维视频编码的多视点视频编码技术正被广泛普及。
根据基于传统技术的SVC或多视点视频编码,通过使用基于预定尺寸的宏块的受限的编码方法来对视频进行编码。
发明内容
技术问题
本发明提供一种用于对多层视频(诸如,多视点视频和可伸缩视频)的可伸缩扩展类型信息进行信号发送的NAL单元结构。
解决方案
根据本发明,用于多层视频的可伸缩扩展的可伸缩扩展类型信息被添加到视频参数集(VPS)NAL单元,其中,VPS NAL单元包括关于共同地应用于多层视频的信息的VPS信息。
有益效果
根据本发明的实施例,通过使用VPS NAL单元对与多层视频相关的可伸缩扩展类型信息进行信号发送。
附图说明
图1是示出根据实施例的多层视频编码设备的结构的框图;
图2示出根据实施例的多层视频;
图3示出根据实施例的包括多层视频的编码数据的NAL单元;
图4a和图4b示出根据实施例的NAL单元的头的示例;
图5示出根据实施例的包括多层视频的可伸缩扩展类型(SET)信息的VPS NAL单元;
图6示出根据实施例的可伸缩扩展类型表;
图7a示出根据另一实施例的包括多层视频的SET信息的VPS NAL单元;
图7b示出根据另一实施例的除VPS NAL单元以外的NAL单元;
图8示出根据本发明的另一实施例的用于可伸缩扩展的NAL单元的头;
图9示出根据图8的NAL单元的头的SET 81的由第一子层索引(Sub-LID0)82、第二子层索引(Sub-LID1)83和第三子层索引(Sub_LID2)84指示的可伸缩扩展类型信息的示例;
图10是示出根据实施例的对多层视频进行编码的方法的流程图;
图11是示出根据实施例的对多层视频进行解码的设备的结构的框图;
图12是示出根据实施例的对多层视频进行解码的方法的流程图;
图13是根据本发明的实施例的基于具有树结构的编码单元的视频编码设备的框图;
图14是根据本发明的实施例的基于具有树结构的编码单元的视频解码设备的框图;
图15是用于描述根据本发明的实施例的编码单元的概念的示图;
图16是根据本发明的实施例的基于编码单元的图像编码器的框图;
图17是根据本发明的实施例的基于编码单元的图像解码器的框图;
图18是示出根据本发明的实施例的根据深度的较深层编码单元以及预测单元的示图;
图19是用于描述根据本发明的实施例的编码单元和变换单元之间的关系的示图;
图20是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图;
图21是根据本发明的实施例的根据深度的较深层编码单元的示图;
图22、图23和图24是用于描述根据本发明的实施例的编码单元、预测单元和频率变换单元之间的关系的示图;
图25是用于描述根据表2的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。
最佳模式
根据本发明的一方面,提供了一种多层视频编码方法,包括:对多层视频进行编码;针对包括在编码后的多层视频中的每个数据单元产生网络适应层(NAL)单元;将用于多层视频的可伸缩扩展的可伸缩扩展类型信息添加到包括视频参数集(VPS)信息的VPS NAL单元,其中,VPS信息是共同地应用于每个数据单元的传输单元数据中的多层视频的信息。
根据本发明的一方面,提供了一种多层视频编码设备,包括:视频编码单元,对多层视频进行编码;输出单元,针对包括在编码后的多层视频中的每个数据单元产生网络适应层(NAL)单元,将用于多层视频的可伸缩扩展的可伸缩扩展类型信息添加到包括视频参数集(VPS)信息的VPS NAL单元,其中,VPS信息是共同地应用于每个数据单元的传输单元数据中的多层视频的信息。
根据本发明的一方面,提供了一种多层视频解码方法,包括:接收通过根据数据单元划分编码后的多层视频而产生的网络适应层(NAL)单元;从接收到的NAL单元中获得包括视频参数集(VPS)信息的VSP NAL单元,其中,VPS信息是共同地应用于多层视频的信息;从VPS NAL单元获得用于多层视频的可伸缩扩展的可伸缩扩展类型信息。
根据本发明的一方面,提供了一种多层视频解码设备,包括:接收单元,接收通过根据数据单元划分编码后的多层视频而产生的网络适应层(NAL)单元,从接收到的NAL单元中获得包括视频参数集(VPS)信息的VSP NAL单元,其中,VPS信息是共同地应用于多层视频的信息,从VPS NAL单元获得用于多层视频的可伸缩扩展的可伸缩扩展类型信息;视频解码单元,基于获得的可伸缩扩展类型信息确定应用于包括在多层视频中的数据单元的可伸缩扩展类型,并对多层视频进行解码。
具体实施方式
以下,参照附图来详细描述本发明的实施例。将参照图1至图13描述根据实施例的对多层视频进行编码的方法和对多层视频进行解码的方法。此外,将参照图13至图25描述基于具有树结构的编码单元的对视频进行编码的方法和对视频进行解码的方法。
图1是示出根据实施例的多层视频编码设备10的结构的框图。
参照图1,根据实施例的多层视频编码设备10包括视频编码单元11和输出单元12。
视频编码单元11接收多层视频并对多层视频进行编码。视频编码单元11与视频编码层相应,其中,在视频编码层中处理输入视频的编码处理。如稍后将参照图13至图25所描述的,视频编码单元11可基于具有树结构的编码单元对包括在多层视频中的每个画面进行编码。
输出单元12与网络适应(抽象)层(NAL)相应,其中,NAL根据预定格式将编码后的多层视频数据和附加信息添加到传输数据单元。传输数据单元可以是NAL单元。输出单元12将多层视频数据和附加信息包括在NAL单元中,并输出NAL单元。
图2示出根据实施例的多层视频。
为了允许各种网络环境和各种终端提供最佳服务,多层视频编码设备10可对具有各种空间分辨率、各种质量、各种帧率和不同的视点的多层图像序列进行编码以输出可伸缩比特流。也就是说,多层视频编码设备10可根据各种可伸缩扩展类型(SET)对输入图像进行编码以产生可伸缩视频比特流并输出可伸缩视频比特流。SET包括时间可伸缩性、空间可伸缩性、质量可伸缩性、多视点可伸缩性和这些可伸缩性的组合。
如果比特流可被划分为多个有效子流,比特流被称为可伸缩的。空间可伸缩比特流可包括各种分辨率的子流。例如,空间可伸缩比特流可被划分为具有不同分辨率(诸如,QVGA、VGA或WVGA)的子流。时间可伸缩比特流包括具有各种帧率的子流。例如,时间可伸缩比特流可被划分为具有7.5Hz的帧率的子流、具有15Hz的帧率的子流、具有30Hz的帧率的子流和具有60Hz的帧率的子流。质量可伸缩比特流可被划分为根据粗粒度可伸缩性(CGS)方法、中粒度可伸缩性(MGS)方法或细粒度可伸缩性(FGS)方法而具有不同质量的子流。
多视点可伸缩比特流在一个比特流之内包括不同视点的子流。例如,立体图像包括左视点图像和右视点图像。此外,可伸缩比特流可包括关于多视点图像的编码数据的子流以及深度图。
不同的可伸缩扩展类型可相互组合。也就是说,可伸缩视频比特流可包括这样的子流,其中,在所述子流中,多层图像序列被编码,并且所述子流由在时间可伸缩性、空间可伸缩性、质量可伸缩性和多视点可伸缩性中的至少一个方面不同的图像组成。
图2示出具有不同的可伸缩扩展类型的图像序列21、22和23。第一层的图像序列21、第二层的图像序列22和第n层(n是整数)的图像序列23可以是在分辨率、质量和视点中的至少一个方面不同的图像序列。此外,第一层的图像序列21、第二层的图像序列22和第n层(n是整数)的图像序列23中的一层的一图像序列可以是基础层的图像序列,其它层的其它图像序列可以是增强层的图像序列。
例如,第一层的图像序列21可以是第一视点图像,第二层的图像序列22可以是第二视点图像,第n层的图像序列23可以是第n视点图像。可选择地,第一层的图像序列21可以是基础层的左视点图像,第二层的图像序列22可以是基础层的右视点图像,第n层的图像序列23可以是增强层的右视点图像。然而,具有不同的可伸缩扩展类型的图像序列21、22和23不限于以上实施例,并可以是具有不同图像属性的图像序列。
图3示出根据实施例的包括多层视频的多层视频的编码数据的NAL单元。
如上所述,输出单元12输出包括编码后的多层视频数据和附加信息的NAL单元。
视频参数集(以下,称为“VPS”)包括应用于包括在多层视频中的多层图像序列32、33和34的信息。包括关于VPS的信息的NAL单元被称为VPSNAL单元31。
VPS NAL单元31包括通常由多层图像序列32、33和34共享的语法元素、关于用于防止传输不必要的信息的操作点的信息和关于在会话协商阶段需要的操作点的必要信息(诸如,型或级)等。具体地讲,根据实施例的VPSNAL单元31包括关于用于多层视频的可伸缩扩展的可伸缩扩展类型(以下,称为“SET”)的信息。SET是用于确定应用于包括在多层视频中的多层图像序列32、33和34的可伸缩类型的信息。
如稍后将描述,SET是指示可伸缩扩展类型表之一的可伸缩扩展类型表索引,其中,可伸缩扩展类型表包括可应用于包括在多层视频中的多层图像序列32、33和34的可伸缩扩展类型的组合。VPS NAL单元31还可包括层索引,其中,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中包括的可伸缩扩展类型的组合之一。替代被包括在VPS NAL单元31中,LID可被包括在包括序列参数集(SPS)信息的SPS NAL单元32a、33a和34a或可被包括在包括画面参数集(PPS)信息的PPS NAL单元32b、33b和34b中。
SPS包括共同地应用于层的图像序列的信息。包括SPS的SPS NAL 32a、33a和34a分别包括共同地应用于图像序列32、33和34的信息。
PPS包括共同地应用于层的画面的信息。包括PPS的PPS NAL 32b、33b和34b均包括共同地应用于同一层的画面的信息。PPS可包括整个画面的编码模式,例如,熵编码模式、关于画面单元的量化参数初始值的信息等。不必针对每个画面产生PPS。也就是说,如果PPS未被包括,则可使用先前存在的PPS,如果包括在PPS中的信息必须被更新,则可设置新的PPS,并且可产生包括关于设置的PPS的信息的PPS NAL单元。
条带片段包括至少一个最大编码单元的编码数据,条带片段可被包括在条带片段NAL 32c、33c和34c中并被发送。
如图3所示,视频包括多层图像序列32、33和34。为了识别序列,将SPS标识符(sequence_parameter_set_id)包括在每个层的SPS中,并且可通过将SPS标识符指定给PPS来识别包括PPS的序列。此外,PPS标识符(picture_parameter_set_id)被包括在PPS中,并且由于PPS标识符被包括在条带片段中,因此条带片段使用了哪一个PPS可被识别。此外,通过使用包括在由条带片段的PPS标识符指示的PPS中的SPS标识符,可识别出在条带片段中使用的SPS和层信息。例如,假设第一层SPS NAL 32a的SPS标识符(sequence_parameter_set_id)具有值0。在这种情况下,包括在第一层图像序列32中的第一层PPS NAL 32b包括值为0的SPS标识符(sequence_parameter_set_id)。此外,假设第一层PPS NAL 32b的PPS标识符(picture_parameter_set_id)具有值0。在这种情况下,参考第一层PPS NAL 32b的第一层条带片段NAL 32c具有值为0的PPS标识符(picture_parameter_set_id)。
尽管图3示出一个VPS被配置,但多个多层视频也可被重复地提供。在这种情况下,为了从多个多层视频中识别出包括NAL单元的多层视频,VPS标识符(video_parameter_set_id)可被包括在SPS NAL单元中。例如,如果VPSNAL 31的VPS标识符(video_parameter_set_id)具有值0,则值为0的VPS标识符(video_parameter_set_id)可被包括在一个多层视频中所包括的SPS NAL32a、33a和34a中。
图4a和图4b示出根据实施例的NAL单元的头的示例。
参照图4a和图4b,NAL单元头具有总共两个字节的长度。在图4b中,0至7表示包括在两个字节中的每个比特。NAL单元头包括值为0的forbidden_zero_bit(F)41、指示NAL单元的类型(nal单元类型,以下,称为“NUT”)的标识符42、被保留用于将来使用的保留区域(reserved_zero_6bits)43和时间标识符(temporal ID)44,作为用于识别NAL单元的比特。标识符NUT 42和保留区域43均可有6个比特组成,时间ID(TID)44可由3个比特组成。
为了将多层视频的可伸缩扩展类型(SET)信息添加到图4a和图4b中示出的NAL单元,根据实施例的输出单元12可使用VPS NAL单元头的区域中的时间ID 44以及用于将来使用的保留区域43。
图5示出根据实施例的包括多层视频的可伸缩扩展类型(SET)信息的VPS NAL单元。
参照图5,根据实施例的用于多层视频的可伸缩扩展的NAL单元的头除了包括作为用于识别NAL单元的比特且值为0的forbidden_zero_bit(F)以及指示NAL单元的类型的NUT以外,还包括M比特(M是整数)的可伸缩扩展类型(SET)信息51和N比特(N是整数)的层索引信息(层ID,以下称为“LID”)52,其中,层索引信息52指示在可伸缩扩展类型表中包括的多个可伸缩扩展类型的组合之中的应用于包括在当前多层视频中的图像的可伸缩扩展类型。
可基于NUT(nal_unit_type)的值识别出以下项中的哪一项被包括在NAL单元中:瞬时解码刷新(Instantaneous Decoding Refresh,IDR)画面、纯净随机访问(Clean Random Access,CRA)画面、VPS、SPS、PPS、补充增强信息(SEI)、自适应参数集(APS)、被保留用于将来使用的保留NAL单元、未定义的NAL单元。
表1是示出根据实施例的根据Nal_unit_type(NUT)的NAL单元的类型的表。
[表1]
参照表1,包括VPS的NAL单元的nal_unit_type可被设置为32。此外,根据实施例的多层视频的可伸缩扩展类型信息可被包括在被保留用于将来使用的NAL单元(即,具有值为41-47的nal_unit_type的NAL单元)中。然而,NAL单元的类型不限于此,并可根据nal_unit_type而被修改。
可伸缩扩展类型(SET)信息51与可伸缩扩展类型表索引相应,其中,可伸缩扩展类型表索引指示包括可应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一。此外,LID 52指示包括在由可伸缩扩展类型表索引指示的可伸缩扩展类型表中的可伸缩扩展类型的组合之一。
图6示出根据实施例的可伸缩扩展类型表。
参照图6,如果SET 51具有特定值k(k是整数),则可定义可伸缩扩展类型表。假设如果SET 51是特定值k,则定义如图6所示的一个可伸缩扩展类型表。可基于LID 52的值确定哪种种类的可伸缩扩展类型的组合被指示。例如,如果假设如标号61所标注,SET 51具有值k且LID 52具有值3,则包括在当前多层视频中的NAL单元是关于具有这样的可伸缩扩展类型的层的数据单元:在该可伸缩扩展类型中,依赖标志(Dependent flag)=1,参考层ID=0,依赖ID(Dependency ID)=3,质量ID=0,视点ID=0并且时间ID=0。
依赖标志表示当前层的数据是参考另一层的数据的独立层还是参考另一层的数据的依赖层。如果依赖标志是0,则当前层的数据是独立层。如果依赖标志是0,则包括在多层视频中的每个层的图像被独立地编码/解码。参考层ID表示当前层的数据参考的层ID。依赖ID表示当前层的数据依赖的层的标识符。质量ID表示包括在多层视频中的图像的质量。视点ID表示包括在多层视频中的图像的视点。时间ID是针对包括在多层视频中的图像的时间可伸缩性的时间标识符。
尽管在图6中示出了SET 51具有特定值k的情况下的可伸缩扩展类型表,但如果如图5所示SET 51由M个比特组成,则SET 51可具有最大值2^M。因此,可基于SET 51的值预先定义最多2^M个可伸缩扩展类型表。可在视频编码设备和视频解码设备中预先定义如图6所示的可伸缩扩展类型表,或者可经由SPS、PPS和SEI(补充增强信息)消息将所述可伸缩扩展类型表从视频编码设备发送到视频解码设备。还可将SEI消息包括在将被发送的预定nal单元类型的NAL单元中。
图7a示出根据另一实施例的多层视频的包括可伸缩扩展类型(SET)信息的VPS NAL单元。图7b示出根据另一实施例的除VPS NAL单元以外的NAL单元。
参照图7a和图7b,在VPS NAL单元中,仅包括用于确定可伸缩扩展类型表的可伸缩扩展类型(SET)信息71,在除VPS NAL单元以外的NAL单元中,可包括LID 72,其中,LID 72指示在可伸缩扩展类型表中包括的多个可伸缩扩展类型的组合之中的应用于包括在当前NAL单元中的数据的可伸缩扩展类型。
如在上述实施例中,包括在VPS NAL单元中的可伸缩扩展类型(SET)信息51与可伸缩扩展类型表索引相应,其中,可伸缩扩展类型表索引指示包括可应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一。
替代被包括在VPS NAL单元31中,LID可被包括在包括每个层的SPS信息的SPS NAL单元中或可被包括在包括每个层的PPS信息的PPS NAL单元中。如果LID被包括在SPS NAL单元中,不同的可伸缩扩展类型可应用于各个序列。如果LID被包括在PPS NAL单元中,不同的可伸缩扩展类型可应用于各个画面。
图8示出根据本发明的另一实施例的用于可伸缩扩展的NAL单元的头。
与上述图5的NAL单元的头相似,根据另一实施例的NAL单元对被保留用于将来使用的保留区域以及时间标识符(时间ID)的区域进行重新定义以包括可伸缩扩展类型信息。除VPS以外,根据另一实施例的NAL单元除了可包括VPS以外,还可包括以序列、画面和条带为单位设置的并指示应用于每个数据单元的可伸缩性类型是否被应用的可伸缩扩展类型信息。
参照图8,根据另一实施例的NAL单元头包括有M个比特组成的SET81、第一子层索引(Sub-LID0)82、第二子层索引(Sub-LID1)83和第三子层索引(Sub_LID2)84。SET 81是用于确定由第一子层索引(Sub-LID0)82、第二子层索引(Sub-LID1)83和第三子层索引(Sub_LID2)84指示哪个可伸缩扩展类型的可伸缩索引信息。也就是说,SET 81可以是用于确定第一子层索引(Sub-LID0)82、第二子层索引(Sub-LID1)83和第三子层索引(Sub_LID2)84中的每一个与多个可伸缩扩展类型信息中的哪一个相应的信息。
图9示出根据图8的NAL单元的SET 81的由第一子层索引Sub-LID082、第二子层索引Sub-LID183和第三子层索引Sub_LID284指示的可伸缩扩展类型信息的示例。
参照图9,可基于SET 81的值指示由第一子层索引(Sub-LID0)82、第二子层索引(Sub-LID1)83和第三子层索引(Sub_LID2)84指示哪种可伸缩扩展类型信息。例如,如果SET 81具有值1,则第一子层索引(Sub-LID0)82的值指示视点信息(视点ID),第二子层索引(Sub-LID1)83的值指示依赖ID,第三子层索引(Sub_LID2)84的值指示质量可伸缩性(quality_id)。
尽管图9中包括三个子层索引,但子层索引的数量不限于此,子层索引可在可用比特数的范围内被扩展为指示三条或更多条可伸缩扩展类型信息。此外,由每个子层索引指示的可伸缩扩展类型信息可根据SET 81而被修改。
图10是示出根据实施例的对多层视频进行编码的方法的流程图。
参照图1和图10,在操作1010,视频编码单元11对多层视频进行编码。如上所述,多层视频表示由在时间可伸缩性、空间可伸缩性、质量可伸缩性和多视点可伸缩性中的至少一个方面不同的不同图像组成的多个层的图像序列。
在操作1020,输出单元12根据数据单元对编码后的多层视频进行划分,并针对每个数据单元产生网络适应层(NAL)单元。如上所述,输出单元12可针对包括在多层视频中的每个条带单元产生包括以条带为单位的编码信息的条带片段NAL单元。此外,输出单元12可产生PPS NAL单元,其中,PPSNAL单元包括关于共同地应用于包括在多层视频中的画面的PPS的信息。此外,输出单元12可产生SPS NAL单元,其中,SPS NAL单元包括关于共同地应用于包括在多层视频中的预定层的图像序列的SPS的信息。此外,输出单元12可产生VPS NAL单元,其中,VPS NAL单元包括关于共同地应用于多层视频的VPS的信息。
在操作1030,输出单元12可添加用于多层视频的可伸缩扩展的可伸缩扩展类型信息。如在上述实施例中,输出单元12可将SET信息和LID包括在VPS NAL单元中,其中,SET信息与可伸缩扩展类型表索引相应,可伸缩扩展类型表索引指示包括可应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,LID指示包括在由可伸缩扩展类型表索引指示的可伸缩扩展类型表中的可伸缩扩展类型的组合之一。
此外,输出单元12可仅将SET信息包括在VPS NAL单元中,并将LID包括在包括每个层的SPS信息的SPS VAL单元中或将LID包括在包括每个层的PPS信息的PPS NAL单元中。
图11是示出根据实施例的多层视频解码设备的结构的框图。
参照图11,多层视频解码设备1100包括接收单元1110和视频解码单元1120。
接收单元1110接收网络抽象层的NAL单元,并识别包括根据本发明的实施例的可伸缩扩展类型信息的VPS NAL单元。可通过使用作为指示NAL单元的类型的标识符的nal_unit_type(NUT)来确定VPS NAL单元。根据本发明的实施例的可伸缩扩展类型信息可被包括在VPS NAL单元的保留区域中。
根据实施例的接收单元1110可解析包括可伸缩扩展类型信息的VPSNAL单元以获得SET信息和LID,其中,SET信息与可伸缩扩展类型表索引相应,可伸缩扩展类型表索引指示包括可应用于当前多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,LID指示包括在由可伸缩扩展类型表索引指示的可伸缩扩展类型表中的可伸缩扩展类型的组合之一。
根据另一实施例的接收单元1110可从VPS NAL单元仅获得SET信息,并从除VPS NAL单元以外的NAL单元获得LID。也就是说,接收单元1110可从包括每个层的SPS信息的SPS NAL单元获得用于确定应用于包括在当前序列中的图像的可伸缩扩展类型的LID,或者可从包括PPS信息的PPS NAL单元获得用于确定应用于画面的可伸缩扩展类型的LID。
视频解码单元1120基于SET信息和LID信息确定应用于包括在多层视频中的图像的可伸缩扩展类型,并对多层视频进行解码。视频解码单元1120可基于具有树结构的编码单元对多层视频进行解码。以下将描述基于具有树结构的编码单元的多层视频的解码处理。
图12是示出根据实施例的对多层视频进行解码的方法的流程图。
参照图11和图12,在操作1210,接收单元1110接收通过根据数据单元对编码后的多层视频进行划分而产生的NAL单元。
在操作1220,接收单元1110从接收到的NAL单元中获得包括VPS信息的VPS NAL单元。可通过使用作为指示NAL单元的类型的标识符的nal_unit_type(NUT)来确定VPS NAL单元。
在操作1230,接收单元1110从VPS NAL单元获得用于多层视频的可伸缩扩展的可伸缩扩展类型信息。根据实施例的接收单元1110可对包括可伸缩扩展类型信息的VPS NAL单元进行解析以获得SET信息和LID,其中,SET信息与可伸缩扩展类型表索引相应,可伸缩扩展类型表索引指示包括可应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,LID指示包括在由可伸缩扩展类型表索引指示的可伸缩扩展类型表中的可伸缩扩展类型的组合之一。根据另一实施例的接收单元1110可从VPS NAL单元仅获得SET信息,并从除VPS NAL单元以外的NAL单元获得LID。也就是说,接收单元1110可从包括每个层的SPS信息的SPS NAL单元获得用于确定应用于包括在当前序列中的图像的可伸缩扩展类型的LID,或者可从包括PPS信息的PPS NAL单元获得用于确定应用于画面的可伸缩扩展类型的LID。
视频解码单元1120基于SET信息和LID信息确定应用于包括在多层视频中的图像的可伸缩扩展类型,并对多层视频进行解码。
将参照图13至图25描述基于具有树结构的编码单元的视频编码方法和视频解码方法。下述基于具有树结构的编码单元的视频编码方法和视频解码方法涉及在图1的视频编码设备10的视频编码单元11和图11的视频解码设备1100的视频解码单元1120中执行的对包括在多层视频中的画面进行的编码/解码。
图13是根据本发明的实施例的基于具有树结构的编码单元的视频编码设备100的框图。
根据实施例的涉及基于具有树结构的编码单元进行视频预测的视频编码设备100包括最大编码单元划分器110、编码单元确定器120和输出单元130。以下,为了便于描述,根据实施例,涉及基于具有树结构的编码单元进行视频预测的视频编码设备100将被缩写为“视频编码设备100”。
最大编码单元划分器110可基于用于图像的当前画面的最大编码单元来划分当前画面,其中,最大编码单元是具有最大尺寸的编码单元。如果当前画面大于最大编码单元,则当前画面的图像数据可被划分为至少一个最大编码单元。根据实施例的最大编码单元可以是尺寸为32×32、64×64、128×128或256×256的数据单元,其中,数据单元的形状是具有2的若干次方的宽度和长度的正方形。图像数据可根据至少一个最大编码单元被输出到编码单元确定器120。
根据实施例的编码单元可由最大尺寸和深度来表征。深度表示从最大编码单元空间划分编码单元的次数,并且随着深度增加,可将根据深度的较深层编码单元从最大编码单元划分为最小编码单元。最大编码单元的深度是最高深度,最小编码单元的深度是最低深度。由于随着最大编码单元的深度增加,与每个深度相应的编码单元的尺寸减小,因此,与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。
如上所述,当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元,并且每个最大编码单元可包括根据深度被划分的较深层编码单元。由于根据实施例的最大编码单元根据深度被划分,因此包括在最大编码单元中的空间域的图像数据可根据深度被分层地分类。
可预先设置编码单元的最大深度和最大尺寸,其中,编码单元的最大深度和最大尺寸限制最大编码单元的高度和宽度被分层地划分的总次数。
编码单元确定器120对通过根据深度划分最大编码单元的区域而获得的至少一个划分区域进行编码,并根据所述至少一个划分区域确定用于输出最终编码结果的深度。换句话说,编码单元确定器120通过根据当前画面的最大编码单元,以根据深度的较深层编码单元对图像数据进行编码并选择具有最小编码误差的深度,来确定编码深度。确定的编码深度和根据最大编码单元的图像数据被输出到输出单元130。
基于与等于或低于最大深度的至少一个深度相应的较深层编码单元对最大编码单元中的图像数据进行编码,并且基于每个较深层编码单元比较编码结果。在对较深层编码单元的编码误差进行比较之后,可选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个编码深度。
随着编码单元根据深度被分层地划分,并且随着编码单元的数量增加,最大编码单元的尺寸被划分。另外,即使在一个最大编码单元中多个编码单元相应于同一深度,也通过分别测量每个编码单元的数据的编码误差来确定是否将与同一深度相应的编码单元中的每个编码单元划分至更低深度。因此,即使当图像数据被包括在一个最大编码单元中时,根据深度的编码误差可根据区域而不同,因此编码深度可根据区域而不同。因此,针对一个最大编码单元可设置一个或更多个编码深度,并且可根据一个或更多个编码深度的编码单元来划分最大编码单元的数据。
因此,根据实施例的编码单元确定器120可确定包括在当前最大编码单元中的具有树结构的编码单元。根据实施例的“具有树结构的编码单元”包括最大编码单元中包括的所有较深层编码单元中的与确定为编码深度的深度相应的编码单元。在最大编码单元的同一区域中,编码深度的编码单元可根据深度被分层地确定,在不同的区域中,该编码深度的编码单元可被独立地确定。类似地,当前区域中的编码深度可独立于另一区域中的编码深度被确定。
根据实施例的最大深度是与执行从最大编码单元到最小编码单元的划分的次数相关的索引。根据实施例的第一最大深度可表示执行从最大编码单元到最小编码单元的总划分次数。根据实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度级的总数。例如,当最大编码单元的深度是0时,最大编码单元被划分一次的编码单元的深度可被设置为1,并且最大编码单元被划分两次的编码单元的深度可被设置为2。在这种情况下,如果最小编码单元是通过将最大编码单元划分四次而获得的编码单元,则存在深度为0、1、2、3和4的5个深度级,因此,第一最大深度可被设置为4,第二最大深度可被设置为5。
可根据最大编码单元执行预测编码和频率变换。还可根据最大编码单元,基于根据等于最大深度的深度或小于最大深度的多个深度的较深层编码单元来执行预测编码和变换。
由于每当最大编码单元根据深度被划分时,较深层编码单元的数量增加,因此必须对随着深度增加而产生的所有较深层编码单元执行包括预测编码和频率变换的编码。为了便于描述,现将在至少一个最大编码单元中基于当前深度的编码单元来描述预测编码和频率变换。
根据实施例的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码,执行多个操作(诸如,预测编码、频率变换和熵编码),此时,可针对所有操作使用相同的数据单元,或者可针对每个操作使用不同的数据单元。
例如,视频编码设备100不仅可选择用于对图像数据进行编码的编码单元,还可选择与该编码单元不同的数据单元,以便对编码单元中的图像数据执行预测编码。
为了在最大编码单元中执行预测编码,可基于与编码深度相应的编码单元(即,基于不再被划分为与更低深度相应的多个编码单元的编码单元)执行预测编码。以下,不再被划分并且变为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元而获得的分区可包括预测单元以及通过划分预测单元的高度和宽度中的至少一个而获得的数据单元。
例如,当2N×2N(其中,N是正整数)的编码单元不再被划分时,该编码单元可变为2N×2N的预测单元,分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。分区类型的示例包括通过对预测单元的高度或宽度进行对称划分而获得的对称分区、通过对预测单元的高度或宽度进行不对称划分(诸如,1:n或n:1)而获得的分区、通过对预测单元进行几何划分而获得的分区以及具有任意形状的分区。
预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如,可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外,可仅对2N×2N的分区执行跳过模式。对编码单元中的一个预测单元独立地执行编码,从而选择具有最小编码误差的预测模式。
根据实施例的视频编码设备100不仅可基于用于对图像数据进行编码的编码单元还可基于与该编码单元不同的数据单元,对编码单元中的图像数据执行频率变换。为了在编码单元中执行频率变换,可基于具有小于或等于编码单元的尺寸的变换单元来执行频率变换。例如,所述变换单元可包括用于帧内模式的变换单元以及用于帧间模式的变换单元。
与具有树结构的编码单元类似,编码单元中的变换单元可被递归地划分为更小尺寸的区域,因此,编码单元中的残差数据可根据具有根据变换深度的树结构的变换单元被划分。
还可在根据实施例的变换单元中设置变换深度,其中,变换深度指示为了通过对编码单元的高度和宽度进行划分而达到变换单元所执行的划分次数。例如,在2N×2N的当前编码单元中,当变换单元的尺寸是2N×2N时,变换深度可以是0,当变换单元的尺寸是N×N时,变换深度可以是1,当变换单元的尺寸是N/2×N/2时,变换深度可以是2。换句话说,也可根据变换深度设置具有树结构的变换单元。
编码信息不仅需要关于编码深度的信息,还需要与预测编码和频率变换相关的信息。因此,编码单元确定器120不仅确定具有最小编码误差的编码深度,还确定预测单元中的分区类型、根据预测单元的预测模式以及用于频率变换的变换单元的尺寸。
稍后将参照图15至图25来详细地描述根据实施例的最大编码单元中的具有树结构的编码单元、预测单元/分区以及确定变换单元的方法。
编码单元确定器120可通过使用基于拉格朗日乘子(Lagrangian multiplier)的率失真优化来测量根据深度的较深层编码单元的编码误差。
输出单元130在比特流中输出最大编码单元的图像数据以及关于根据编码深度的编码模式的信息,其中,所述图像数据基于由编码单元确定器120确定的至少一个编码深度被编码。
可通过对图像的残差数据进行编码来获得编码的图像数据。
关于根据编码深度的编码模式的信息可包括关于以下内容的信息:编码深度、预测单元中的分区类型、预测模式以及变换单元的尺寸。
可通过使用根据深度的划分信息来定义关于编码深度的信息,其中,划分信息指示是否针对更低深度而非当前深度的编码单元来执行编码。如果当前编码单元的当前深度是编码深度,则对当前深度的当前编码单元执行编码,因此划分信息可被定义为不将当前编码单元划分为更低深度。可选择地,如果当前编码单元的当前深度不是编码深度,则对更低深度的编码单元执行编码,因此划分信息可被定义为划分当前编码单元以获得更低深度的编码单元。
如果当前深度不是编码深度,则对被划分为更低深度的编码单元的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中,对更低深度的每个编码单元重复地执行编码,因此可对具有同一深度的编码单元递归地执行编码。
由于对一个最大编码单元确定具有树结构的编码单元,并且对编码深度的编码单元确定关于至少一个编码模式的信息,因此可对一个最大编码单元确定关于至少一个编码模式的信息。另外,由于最大编码单元的数据根据深度被分层地划分,最大编码单元的数据的编码深度可根据位置而不同,因此可对最大编码单元的数据设置关于编码深度以及编码模式的信息。
因此,根据实施例的输出单元130可将关于相应编码深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。
根据实施例的最小单元是通过将组成最低深度的最小编码单元划分为4份而获得的矩形数据单元。可选择地,最小单元可以是最大矩形数据单元,最大矩形数据单元可被包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中。
例如,通过输出单元130输出的编码信息可被分类为根据基于深度的较深层编码单元的编码信息以及根据预测单元的编码信息。根据基于深度的较深层编码单元的编码信息可包括关于预测模式的信息以及关于分区的尺寸的信息。根据预测单元的编码信息可包括关于以下内容的信息:帧间模式的估计方向、帧间模式的参考图像索引、运动矢量、帧内模式的色度分量以及帧内模式的插值方法。
关于根据画面、条带或GOP定义的编码单元的最大尺寸的信息以及关于最大深度的信息可被插入到比特流的头、序列参数集或画面参数集。
此外,也可经由比特流的头、序列参数集或画面参数集输出关于针对当前视频允许的变换单元的最大尺寸的信息和关于针对当前视频允许的变换的最小尺寸的信息。
在根据最简实施例的视频编码设备100中,较深层编码单元是通过将作为上一层的更高深度的编码单元的高度或宽度划分为两份而获得的编码单元。换句话说,在当前深度的编码单元的尺寸是2N×2N时,更低深度的编码单元的尺寸是N×N。另外,尺寸为2N×2N的当前深度的编码单元可包括最多4个更低深度的编码单元。
因此,根据实施例的视频编码设备100可通过基于考虑当前画面的特性所确定的最大编码单元的尺寸和最大深度,针对每个最大编码单元确定具有最佳形状和最佳尺寸的编码单元,来形成具有树结构的编码单元。另外,由于通过使用各种预测模式和频率变换中的任何一个对每个最大编码单元执行编码,因此可考虑各种图像尺寸的编码单元的图像特性来确定最佳编码模式。
因此,如果在传统的宏块中对具有高分辨率或大数据量的图像进行编码,则每个画面的宏块的数量过度增加。因此,针对每个宏块产生的多条压缩信息增加,因此难以发送压缩信息并且数据压缩效率降低。然而,通过使用根据实施例的视频编码设备100,由于在考虑图像的尺寸的同时增加编码单元的最大尺寸,同时在考虑图像的特征的同时调整编码单元,因此图像压缩效率会增加。
图14是根据本发明的实施例的视频解码设备200的框图。
视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。用于视频解码设备200的各种操作的各种术语(诸如,编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与以上参照图1和视频编码设备100描述的那些定义一致。
用于根据实施例的视频解码设备200的解码操作的各种术语(诸如,编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与以上参照图1的视频编码设备100描述的那些定义一致。
接收器210接收编码视频的比特流并对该比特流进行解析。图像数据和编码信息提取器220从解析的比特流提取用于每个编码单元的编码图像数据,并且将提取的图像数据输出到图像数据解码器230,其中,编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器220可从关于当前画面的头提取关于当前画面的编码单元的最大尺寸的信息。
另外,图像数据和编码信息提取器220从解析的比特流,根据每个最大编码单元针对具有树结构的编码单元提取关于编码深度和编码模式的信息。提取的关于编码深度和编码模式的信息被输出到图像数据解码器230。换句话说,比特流中的图像数据被划分为最大编码单元,从而图像数据解码器230针对每个最大编码单元对图像数据进行解码。
可针对关于至少一个编码深度的信息来设置关于根据最大编码单元的编码深度和编码模式的信息,并且关于根据每个编码深度的编码模式的信息可包括关于以下内容的信息:与编码深度相应的相应编码单元的分区类型、预测模式以及变换单元的尺寸。另外,根据深度的划分信息可被提取为关于编码深度的信息。
由图像数据和编码信息提取器220提取的关于根据每个最大编码单元的编码深度和编码模式的信息是关于这样的编码深度和编码模式的信息:所述编码深度和编码模式被确定为当编码器(诸如,视频编码设备100)根据每个最大编码单元针对根据深度的每个较深层编码单元重复执行编码时产生最小编码误差。因此,视频解码设备200可通过根据产生最小编码误差的编码模式对图像数据进行解码来恢复图像。
由于根据实施例的关于编码深度和编码模式的编码信息可被分配给相应编码单元、预测单元以及最小单元中的预定数据单元,因此,图像数据和编码信息提取器220可根据预定数据单元提取关于编码深度和编码模式的信息。当根据预定数据单元记录关于相应最大编码单元的编码深度和编码模式的信息时,具有相同的关于编码深度和编码模式的信息的预定数据单元可被推断为包括在同一最大编码单元中的数据单元。
图像数据解码器230可通过基于关于根据最大编码单元的编码深度和编码模式的信息对每个最大编码单元中的图像数据进行解码来恢复当前画面。换句话说,图像数据解码器230可基于提取的关于包括在每个最大编码单元中的具有树结构的编码单元中的每个编码单元的分区类型、预测模式和变换单元的信息来对编码图像数据进行解码。解码处理可包括预测(所述预测包括帧内预测和运动补偿)和逆频率变换。
图像数据解码器230可基于关于根据编码深度的编码单元的预测单元的分区类型以及预测模式的信息,根据每个编码单元的分区和预测模式来执行帧内预测或运动补偿。
另外,图像数据解码器230可通过读取关于根据编码单元的具有树结构的变换单元的信息,根据编码单元中的每个变换单元执行逆频率变换,以便根据最大编码单元执行逆频率变换。可通过逆频率变换来恢复编码单元的空间域中的像素值。
图像数据解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的编码深度。如果划分信息指示图像数据在当前深度中不再被划分,则当前深度是编码深度。因此,图像数据解码器230可通过使用关于用于当前最大编码单元的图像数据的预测单元的分区类型、预测模式以及变换单元的尺寸的信息,来对当前深度的编码数据进行解码。
换句话说,可通过观察针对编码单元、预测单元和最小单元之中的预定数据单元分配的编码信息集,来聚集包括包含相同划分信息的编码信息的数据单元,收集的数据单元可被认为是将由图像数据解码器230以相同的编码模式进行解码的一个数据单元。可针对以这样的方式确定的每个编码单元获得关于编码模式的信息,以对当前编码单元进行解码。
最终,视频解码设备200可获得关于当在编码处理中针对每个最大编码单元递归执行编码时产生最小编码误差的编码单元的信息,并可使用所述信息来对当前画面进行解码。换句话说,可对每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元的编码图像数据进行解码。
因此,即使图像数据具有高分辨率和大数据量,也可通过使用从编码器接收的关于最佳编码模式的信息,基于根据图像数据的特性自适应地确定的编码单元的尺寸和编码模式来有效地对图像数据进行解码和恢复。
图15是用于描述根据本发明的实施例的编码单元的概念的示图。
编码单元的尺寸可按照宽度×高度来表示,并且编码单元的尺寸的示例可包括64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或32×32的分区,32×32的编码单元可被划分为32×32、32×16、16×32或16×16的分区,16×16的编码单元可被划分为16×16、16×8、8×16或8×8的分区,8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。
在视频数据310中,分辨率被设置为1920×1080,编码单元的最大尺寸被设置为64,并且最大深度被设置为2。在视频数据320中,分辨率被设置为1920×1080,编码单元的最大尺寸被设置为64,并且最大深度被设置为3。在视频数据330中,分辨率被设置为352×288,编码单元的最大尺寸被设置为16,并且最大深度被设置为1。图15中示出的最大深度表示从最大编码单元到最小解码单元的划分总数。
如果分辨率高或者数据量大,则编码单元的最大尺寸可以较大以便不仅提高编码效率还准确地反映图像的特性。因此,分辨率比视频数据330更高的视频数据310和视频数据320的编码单元的最大尺寸可以是64。
由于视频数据310的最大深度是2,因而由于通过划分最大编码单元两次深度被加深到两层,因此视频数据310的编码单元315可包括具有长轴尺寸64的最大编码单元以及具有长轴尺寸32和16的编码单元。同时,由于视频数据330的最大深度是1,因而由于通过划分最大编码单元一次深度被增加到一层,因此视频数据330的编码单元335可包括具有长轴尺寸16的最大编码单元以及具有长轴尺寸8的编码单元。
由于视频数据320的最大深度是3,因而由于通过划分最大编码单元三次深度被增加到3层,因此视频数据320的编码单元325可包括具有长轴尺寸64的最大编码单元以及具有长轴尺寸32、16和8的编码单元。随着深度增加,可更精确地表达详细的信息。
图16是根据本发明的实施例的基于编码单元的图像编码器的框图。
根据实施例的图像编码器400执行视频编码设备100的编码单元确定器120的操作以对图像数据进行编码。换句话说,帧内预测器410对当前帧405中的帧内模式下的编码单元执行帧内预测,运动估计器420和运动补偿器425通过使用当前帧405和参考帧495对帧间模式下的编码单元执行帧间估计和运动补偿。
从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过频率变换器430和量化器440被输出为量化的变换系数。量化的变换系数通过反量化器460和逆频率变换器470被恢复为空间域中的数据,并且恢复的空间域中的数据在通过去块单元480和偏移调整器490后处理之后被输出为参考帧495。量化的变换系数可通过熵编码器450被输出为比特流455。
为了使图像编码器400被应用到根据实施例的视频编码设备100中,图像编码器400的所有元件(即,帧内预测器410、运动估计器420、运动补偿器425、频率变换器430、量化器440、熵编码器450、反量化器460、逆频率变换器470、去块单元480和偏移调整器490)在考虑每个最大编码单元的最大深度的同时,基于具有树结构的多个编码单元中的每个编码单元执行操作。
具体地讲,帧内预测器410、运动估计器420和运动补偿器425必须在考虑当前最大编码单元的最大尺寸和最大深度的同时,确定具有树结构的多个编码单元中的每个编码单元的分区和预测模式,并且频率变换器430必须确定具有树结构的多个编码单元中的每个编码单元中的变换单元的尺寸。
图17是根据本发明的实施例的基于编码单元的图像解码器的框图。
解析器510从比特流505解析将被解码的编码图像数据以及解码所需的关于编码的信息。编码的图像数据通过熵解码器520和反量化器530被输出为反量化的数据,并且反量化的数据通过逆频率变换器540被恢复为空间域中的图像数据。
帧内预测器550针对空间域中的图像数据对帧内模式下的编码单元执行帧内预测,运动补偿器560通过使用参考帧585对帧间模式下的编码单元执行运动补偿。
经过帧内预测器550和运动补偿器560的空间域中的数据可在通过去块单元570和偏移调整器580后处理之后被输出为恢复的帧595。另外,经过去块单元570和偏移调整器580后处理的数据可被输出为参考帧585。
为了在视频解码设备200的图像数据解码器230中对图像数据进行解码,图像解码器500可执行在解析器510的操作被执行之后所执行的操作。
为了使图像解码器500被应用到根据实施例的视频解码设备200中,图像解码器500的所有元件(即,解析器510、熵解码器520、反量化器530、逆频率变换器540、帧内预测器550、运动补偿器560、去块单元570和偏移调整器580)必须基于每个最大编码单元的具有树结构的编码单元执行操作。
具体地讲,帧内预测器550和运动补偿器560必须确定用于每个具有树结构的编码单元的分区和预测模式,并且逆频率变换器540必须针对每个编码单元确定变换单元的尺寸。
图18是示出根据本发明的实施例的根据深度的较深层编码单元和分区的示图。
根据实施例的视频编码设备100和根据实施例的视频解码设备200使用分层编码单元以考虑图像的特性。编码单元的最大高度、最大宽度和最大深度可根据图像的特性被自适应地确定,或者可由用户不同地设置。可根据编码单元的预先设置的最大尺寸确定根据深度的较深层编码单元的尺寸。
在根据实施例的编码单元的分层结构600中,编码单元的最大高度和最大宽度都是64,并且最大深度是3。由于深度沿着根据实施例的分层结构600的纵轴加深,因此较深层编码单元的高度和宽度都被划分。另外,作为用于每个较深层编码单元的预测编码的基础的预测单元和分区沿编码单元的分层结构600的横轴被显示。
换句话说,编码单元610是分层结构600中的最大编码单元,其中,深度是0,尺寸(即,高度乘宽度)是64×64。深度沿纵轴增加,并且存在尺寸为32×32和深度为1的编码单元620、尺寸为16×16和深度为2的编码单元630、尺寸为8×8和深度为3的编码单元640。尺寸为8×8和深度为3的编码单元640是最小编码单元。
编码单元的预测单元和分区根据每个深度沿横轴排列。换句话说,如果尺寸为64×64和深度为0的编码单元610是预测单元,则该预测单元可被划分为包括在编码单元610中的分区(即,尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614、或者尺寸为32×32的分区616)。
类似地,尺寸为32×32和深度为1的编码单元620的预测单元可被划分为包括在编码单元620中的分区(即,尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624以及尺寸为16×16的分区626)。
类似地,尺寸为16×16和深度为2的编码单元630的预测单元可被划分为包括在编码单元630中的分区(即,包括在编码单元630中的尺寸为16×16的分区、尺寸为16×8的分区632、尺寸为8×16的分区634以及尺寸为8×8的分区636)。
类似地,尺寸为8×8和深度为3的编码单元640的预测单元可被划分为包括在编码单元640中的分区(即,包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644以及尺寸为4×4的分区646)。
最终,尺寸为8×8和深度为3的编码单元640是最小编码单元以及最低深度的编码单元。
为了确定构成最大编码单元610的编码深度,根据实施例的视频编码设备100的编码单元确定器120必须对包括在最大编码单元610中的与每个深度相应的编码单元执行编码。
随着深度增加,包括相同范围和相同尺寸的数据的根据深度的较深层编码单元的数量增加。例如,需要四个与深度2相应的编码单元以覆盖包括在一个与深度1相应的编码单元中的数据。因此,为了根据深度对相同数据的多个编码结果进行比较,与深度1相应的编码单元以及与深度2相应的四个编码单元必须都被编码。
为了根据每个深度执行编码,通过沿编码单元的分层结构600的横轴,对较深层编码单元中的每个预测单元执行编码来选择相应深度中的作为最小编码误差的代表性编码误差。可选择地,可通过随着深度沿编码单元的分层结构600的纵轴加深,针对每个深度执行编码,来根据深度比较代表性编码误差,从而搜索最小编码误差。在最大编码单元610中的具有最小编码误差的深度和分区可被选为编码单元610的编码深度和分区类型。
图19是用于描述根据本发明的实施例的编码单元和变换单元之间的关系的示图。
根据实施例的视频编码设备100或根据实施例的视频解码设备200针对每个最大编码单元根据尺寸小于或等于最大编码单元的编码单元来对图像进行编码或解码。可基于不大于相应编码单元的数据单元来选择在编码期间用于频率变换的变换单元的尺寸。
例如,在根据实施例的视频编码设备100或根据实施例的视频解码设备200中,如果当前编码单元710的尺寸是64×64,则可通过使用尺寸为32×32的变换单元720来执行频率变换。
另外,可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4的每个变换单元执行频率变换,来对尺寸为64×64的编码单元710的数据进行编码,并且随后相对于原始具有最小误差的变换单元可被选择。
图20是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。
根据实施例的视频编码设备100的输出单元130可对关于分区类型的信息800、关于预测模式的信息810以及关于与编码深度相应的每个编码单元的变换单元的尺寸的信息820进行编码,并将信息800、810和820作为关于编码模式的信息来发送。
关于分区类型的信息800指示关于通过划分当前编码单元的预测单元而获得的分区的形状的信息,其中,所述分区是用于对当前编码单元进行预测编码的数据单元。例如,尺寸为2N×2N的当前编码单元CU_0可被划分为如下分区中的任何一个:尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。这里,关于当前编码单元的分区类型的信息800被设置为指示尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808中的一个。
关于预测模式的信息810指示每个分区的预测模式。例如,关于预测模式的信息810可指示对由信息800指示的分区执行的预测编码的模式(即,帧内模式812、帧间模式814或跳过模式816)。
此外,关于变换单元的尺寸的信息820指示当对当前编码单元执行频率变换时所基于的变换单元。例如,变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧间变换单元828。
根据实施例的视频解码设备200的图像数据和编码信息提取器220可根据每个较深层编码单元来提取并使用用于解码的关于分区类型的信息800、关于预测模式的信息810和关于变换单元的尺寸的信息820。
图21是根据本发明的实施例的根据深度的较深层编码单元的示图。
划分信息可用于指示深度的改变。划分信息指示当前深度的编码单元是否被划分为更低深度的编码单元。
用于对深度为0和尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括如下分区类型的分区:尺寸为2N_0×2N_0的分区类型912、尺寸为2N_0×N_0的分区类型914、尺寸为N_0×2N_0的分区类型916以及尺寸为N_0×N_0的分区类型918。尽管图9仅示出通过对预测单元910对称划分而获得的分区类型912至918,但是分区类型不限于此,并且预测单元910的分区可包括不对称分区、具有预定形状的分区以及具有几何形状的分区。
根据每个分区类型对如下分区重复地执行预测编码:尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区以及尺寸为N_0×N_0的四个分区。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0以及N_0×N_0的分区执行帧内模式和帧间模式的预测编码。仅对尺寸为2N_0×2N_0的分区执行跳过模式的预测编码。
如果在尺寸为2N_0×2N_0、2N_0×N_0和N_0×2N_0的分区类型912至916之一中的编码误差最小,则预测单元910可不再被划分为更低深度。
如果在尺寸为N_0×N_0的分区类型918中的编码误差最小,则在操作920,深度可从0改变为1以划分分区类型918,并且对深度为2和尺寸为N_0×N_0的编码单元930重复地执行编码以搜索最小编码误差。
用于对深度为1和尺寸为2N_1×2N_1(=N_0×N_0)的编码单元930进行预测编码的预测单元940可包括如下分区类型的分区:尺寸为2N_1×2N_1的分区类型942、尺寸为2N_1×N_1的分区类型944、尺寸为N_1×2N_1的分区类型946以及尺寸为N_1×N_1的分区类型948。
如果在尺寸为N_1×N_1的分区类型948中的编码误差最小,则在操作950,深度可从1改变为2以划分分区类型948,并且对深度为2和尺寸为N_2×N_2的编码单元960重复地执行编码以搜索最小编码误差。
当最大深度是d时,根据每个深度的划分信息可被设置直到深度变为d-1,并且划分信息可被设置直到深度变为d-2。换句话说,当执行编码直到在操作970与深度d-2相应的编码单元被划分之后深度是d-1时,用于对深度为d-1和尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括如下分区类型的分区:尺寸为2N_(d-1)×2N_(d-1)的分区类型992、尺寸为2N_(d-1)×N_(d-1)的分区类型994、尺寸为N_(d-1)×2N_(d-1)的分区类型996以及尺寸为N_(d-1)×N_(d-1)的分区类型998。
可对分区类型992至998中的如下分区重复地执行预测编码以搜索具有最小编码误差的分区类型:尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区。
即使在尺寸为N_(d-1)xN_(d-1)的分区类型998具有最小编码误差时,由于最大深度是d,因此深度为d-1的编码单元CU_(d-1)不再被划分到更低深度,并且当前最大编码单元900的编码深度可被确定为d-1并且当前最大编码单元900的分区类型可被确定为N_(d-1)×N_(d-1)。另外,由于最大深度是d,因此深度为d-1的编码单元952的划分信息不被设置。
数据单元999可被称为当前最大编码单元的“最小单元”。根据实施例的最小单元可以是通过对具有最低编码深度的最小编码单元划分为4份而获得的矩形数据单元。通过重复地执行编码,视频编码设备100可通过根据编码单元900的多个深度来比较多个编码误差来选择具有最小编码误差的深度以确定编码深度,并且可将相应分区类型以及预测模式设置为编码深度的编码模式。
这样,根据深度的最小编码误差在所有的深度1至d中被比较,并且具有最小编码误差的深度可被确定为编码深度。编码深度、预测单元的分区类型以及预测模式可被编码并作为关于编码模式的信息被发送。另外,由于编码单元必须从深度0被划分到编码深度,因此仅该编码深度的划分信息被设置0,除了编码深度之外的深度的划分信息必须被设置为1。
根据实施例的视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的编码深度以及预测单元的信息以对编码单元912进行解码。根据实施例的视频解码设备200可通过使用根据深度的划分信息来将划分信息是0的深度确定为编码深度,并且可使用关于相应深度的编码模式的信息以进行解码。
图22、图23和图24是用于描述根据本发明的实施例的编码单元、预测单元和频率变换单元之间的关系的示图。
编码单元1010是最大编码单元中的与由根据实施例的视频编码设备100确定的编码深度相应的编码单元。预测单元1060是每个编码单元1010的预测单元的分区,变换单元1070是每个编码单元1010的变换单元。
当在编码单元1010中最大编码单元的深度是0时,编码单元1012和1054的深度是1,编码单元1014、1016、1018、1028、1050和1052的深度是2,编码单元1020、1022、1024、1026、1030、1032和1048的深度是3,编码单元1040、1042、1044和1046的深度是4。
在预测单元1060中,一些分区1014、1016、1022、1032、1048、1050、1052和1054通过划分编码单元而获得。换句话说,分区1014、1022、1050和1054中的分区类型的尺寸为2N×N,分区1016、1048和1052中的分区类型的尺寸为N×2N,分区1032的分区类型的尺寸为N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。
以小于变换单元1052的数据单元对变换单元1070中的变换单元1052的图像数据执行频率变换或逆频率变换。另外,变换单元1070中的变换单元1014、1016、1022、1032、1048、1050和1052在尺寸和形状上与预测单元1060中的1014、1016、1022、1032、1048、1050和1052不同。换句话说,根据实施例的视频编码设备100和根据实施例的视频解码设备200可对甚至同一编码单元中的数据单元单独地执行帧内预测/运动估计/运动补偿以及频率变换/逆频率变换。
因此,对最大编码单元的每个区域中的具有分层结构的每个编码单元递归地执行编码,以确定最佳编码单元,因此可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息以及关于变换单元的尺寸的信息。表2显示可由根据实施例的视频编码设备100和根据实施例的视频解码设备200设置的编码信息。
表2
根据实施例的视频编码设备100的输出单元130可输出关于具有树结构的编码单元的编码信息,并且根据实施例的视频解码设备200的图像数据和编码信息提取器220可从接收的比特流提取关于具有树结构的编码单元的编码信息。
划分信息指示当前编码单元是否被划分为更低深度的编码单元。如果当前深度d的划分信息是0,则当前编码单元不再被划分为更低深度的深度是编码深度,因此可针对编码深度定义关于分区类型、预测模式以及变换单元的尺寸的信息。如果当前编码单元根据划分信息被进一步划分,则必须对更低深度的四个划分编码单元独立地执行编码。
预测模式可以是帧内模式、帧间模式和跳过模式中的一个。可在所有分区类型中定义帧内模式和帧间模式,并且可仅在尺寸为2N×2N的分区类型中定义跳过模式。
关于分区类型的信息可指示通过对称地划分预测单元的高度或宽度而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区类型、以及通过不对称地划分预测单元的高度或宽度而获得的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的不对称分区类型。可通过以1:3和3:1划分预测单元的高度来分别地获得尺寸为2N×nU和2N×nD的不对称分区类型,可通过以1:3和3:1划分预测单元的宽度来分别地获得尺寸为nL×2N和nR×2N的不对称分区类型。
变换单元的尺寸可被设置为帧内模式下的两种类型以及帧间模式下的两种类型。换句话说,如果变换单元的划分信息是0,则变换单元的尺寸可以是作为当前编码单元的尺寸的2N×2N。如果变换单元的划分信息是1,则可通过划分当前编码单元来获得变换单元。另外,如果尺寸为2N×2N的当前编码单元的分区类型是对称分区类型,则变换单元的尺寸可以是N×N,如果当前编码单元的分区类型是不对称分区类型,则变换单元的尺寸可以是N/2×N/2。
关于根据实施例的具有树结构的编码单元的编码信息可被分配给与编码深度相应的编码单元、预测单元以及最小单元中的至少一个。与编码深度相应的编码单元可包括:包含相同编码信息的预测单元和最小单元中的至少一个。
因此,通过对邻近数据单元的编码信息进行比较,来确定邻近数据单元是否被包括在与编码深度相应的同一编码单元中。另外,通过使用数据单元的编码信息来确定与编码深度相应的相应编码单元,因此最大编码单元中的编码深度的分布可被确定。
因此,如果通过参考邻近数据单元来预测当前编码单元,则与当前编码单元邻近的较深层编码单元中的数据单元的编码信息可被直接参考和使用。
可选择地,如果通过参考邻近数据单元来对当前编码单元进行预测编码,则通过使用较深层编码单元中的与当前编码单元邻近的数据单元的编码信息来搜索较深层编码单元中的与当前编码单元邻近的数据单元,并且搜索到的邻近编码单元可被参考以用于对当前编码单元进行预测编码。
图25是用于描述根据表2的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。
最大编码单元1300包括多个编码深度的编码单元1302、1304、1306、1312、1314、1316和1318。这里,由于编码单元1318是编码深度的编码单元,因此划分信息可被设置为0。关于尺寸为2N×2N的编码单元1318的分区类型的信息可被设置为以下分区类型之一:尺寸为2N×2N的分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326、尺寸为N×N的分区类型1328、尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336和尺寸为nR×2N的分区类型1338。
变换单元的划分信息(TU尺寸标志)是一种变换索引,并且与变换索引相应的变换单元的尺寸可根据编码单元的预测单元类型或编码单元的分区类型而变化。
例如,当分区类型被设置为对称(即,尺寸为2N×2N的分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326或尺寸为N×N的分区类型1328)时,如果变换单元的划分信息(TU尺寸标志)为0,则可设置尺寸为2N×2N的变换单元1342,如果TU尺寸标志为1,则可设置尺寸为N×N的变换单元1344。
当分区类型被设置为不对称(即,尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336或尺寸为nR×2N的分区类型1338)时,如果TU尺寸标志为0,则可设置尺寸为2N×2N的变换单元1352,如果TU尺寸标志为1,则可设置尺寸为N/2×N/2的变换单元1354。
以上参照图25描述的TU尺寸标志是具有值0或1的标志,但TU尺寸标志不限于1比特标志,并且根据设置在TU尺寸标志从0增加的同时,变换单元可被分层划分。TU尺寸标志可被用为变换索引的示例。
在这种情况下,可通过使用变换单元的TU尺寸标志以及变换单元的最大尺寸和最小尺寸来表示实际上已使用的变换单元的尺寸。根据实施例的视频编码设备100能够对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标志进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标志进行编码的结果可被插入到SPS中。根据实施例的视频解码设备200可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标志来对视频进行解码。
例如,(a)如果当前编码单元的尺寸是64×64并且最大变换单元尺寸是32×32,则(a-1)当TU尺寸标志为0时,变换单元的尺寸可以是32×32,(a-2)当TU尺寸标志为1时,变换单元的尺寸可以是16×16,(a-3)当TU尺寸标志为2时,变换单元的尺寸可以是8×8。
作为另一示例,(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32,则(b-1)当TU尺寸标志为0时,变换单元的尺寸可以是32×32。这里,由于变换单元的尺寸不能够小于32×32,因此TU尺寸标志不能够被设置为除了0以外的值。
作为另一示例,(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标志为1,则TU尺寸标志可以是0或1。这里,TU尺寸标志不能被设置为除了0或1以外的值。
因此,如果定义在TU尺寸标志为0时最大TU尺寸标志为“MaxTransformSizeIndex”,最小变换单元尺寸为“MinTransformSize”,并且变换单元尺寸为“RootTuSize”,则可通过等式(1)来定义可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”:
CurrMinTuSize=max(MinTransformSize,RootTuSize/(2∧MaxTransformSizeIndex))……(1)
与可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”相比,当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可表示可在系统中选择的最大变换单元尺寸。在等式(1)中,“RootTuSize/(2∧MaxTransformSizeIndex)”表示当TU尺寸标志为0时,变换单元尺寸“RootTuSize”被划分了与最大TU尺寸标志相应的次数时的变换单元尺寸,并且“MinTransformSize”表示最小变换尺寸。因此,“RootTuSize/(2∧MaxTransformSizeIndex)”和“MinTransformSize”中较小的值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。
根据实施例的最大变换单元尺寸“RootTuSize”可根据预测模式的类型而改变。
例如,如果当前预测模式是帧间模式,则随后可通过使用以下的等式(2)来确定“RootTuSize”。在等式(2)中,“MaxTransformSize”表示最大变换单元尺寸,“PUSize”指示当前预测单元尺寸。
RootTuSize=min(MaxTransformSize,PUSize)……(2)
也就是说,如果当前预测模式是帧间模式,则当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸中较小的值。
如果当前分区单元的预测模式是帧内模式,则可通过使用以下的等式(3)来确定“RootTuSize”。在等式(3)中,“PartitionSize”表示当前分区单元的尺寸。
RootTuSize=min(MaxTransformSize,PartitionSize)……(3)
也就是说,如果当前预测模式是帧内模式,则当TU尺寸标志为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元的尺寸中较小的值。
然而,根据分区单元中的预测模式的类型而改变的当前最大变换单元尺寸“RootTuSize”仅是示例,并且本发明不限于此。
以上参照图13至图25描述的包括具有树结构的编码单元的最大编码单元还以各种方式被称为诸如编码块树、块树、根块树、编码树、编码根或树干。
本发明还可被实施为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储其后可由计算机系统读取的数据的任何数据存储装置。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光学数据存储装置等。计算机可读记录介质还可分布于联网的计算机系统,从而以分布的方式存储和执行计算机可读代码。
尽管参照本发明的优选实施例具体地示出和描述了本发明,本领域的技术人员将理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可在形式和细节上进行各种改变。因此,本发明的范围不由本发明的具体描述而由权利要求来限定,并且所述范围内的所有差异将被解释为包括在本发明中。

Claims (15)

1.一种多层视频编码方法,包括:
对多层视频进行编码;
针对包括在编码后的多层视频中的每个数据单元产生网络适应层(NAL)单元;
将用于多层视频的可伸缩扩展的可伸缩扩展类型信息添加到包括视频参数集(VPS)信息的VPS NAL单元,其中,VPS信息是共同地应用于每个数据单元的传输单元数据中的多层视频的信息。
2.如权利要求1所述的多层视频编码方法,其中,产生NAL单元的步骤包括:
针对包括在多层视频中的每个条带单元,产生包括以条带为单位的编码信息的条带片段NAL单元;
产生画面参数集(PPS)NAL单元,其中,PPS NAL单元包括关于共同地应用于包括在多层视频中的画面的PPS的信息;
产生序列参数集(SPS)NAL单元,其中,SPS NAL单元包括关于共同地应用于包括在多层视频中的预定层的图像序列的SPS的信息;
产生VPS NAL单元,其中,VPS NAL单元包括关于共同地应用于作为所述预定层的图像序列集合的多层视频的VPS的信息。
3.如权利要求1所述的多层视频编码方法,其中,添加可伸缩扩展类型信息的步骤包括:将可伸缩扩展类型表索引以及层索引添加到VPS NAL单元的头,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中所包括的可伸缩扩展类型的组合之一。
4.如权利要求2所述的多层视频编码方法,其中,添加可伸缩扩展类型信息的步骤包括:将可伸缩扩展类型表索引添加到VPS NAL单元的头,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,
其中,PPS NAL单元还包括层索引以指示应用于PPS NAL单元的可伸缩扩展类型,其中,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中所包括的可伸缩扩展类型的组合之一。
5.如权利要求2所述的多层视频编码方法,其中,添加可伸缩扩展类型信息的步骤包括:将可伸缩扩展类型表索引添加到VPS NAL单元的头,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,
其中,SPS NAL单元还包括层索引以指示应用于SPS NAL单元的可伸缩扩展类型,其中,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中所包括的可伸缩扩展类型的组合之一。
6.如权利要求1所述的多层视频编码方法,其中,可伸缩扩展类型信息包括时间可伸缩性、质量可伸缩性、空间可伸缩性和视点信息中的至少一个。
7.如权利要求1所述的多层视频编码方法,其中,可伸缩扩展类型信息是可伸缩扩展类型表索引,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,
其中,可伸缩扩展类型表包括在将被发送的补充增强信息(SEI)消息中。
8.一种多层视频编码设备,包括:
视频编码单元,对多层视频进行编码;
输出单元,针对包括在编码后的多层视频中的每个数据单元产生网络适应层(NAL)单元,将用于多层视频的可伸缩扩展的可伸缩扩展类型信息添加到包括视频参数集(VPS)信息的VPS NAL单元,其中,VPS信息是共同地应用于每个数据单元的传输单元数据中的多层视频的信息。
9.一种多层视频解码方法,包括:
接收通过根据数据单元划分编码后的多层视频而产生的网络适应层(NAL)单元;
从接收到的NAL单元中获得包括视频参数集(VPS)信息的VPS NAL单元,其中,VPS信息是共同地应用于多层视频的信息;
从VPS NAL单元获得用于多层视频的可伸缩扩展的可伸缩扩展类型信息。
10.如权利要求9所述的多层视频解码方法,其中,NAL单元包括针对包括在多层视频中的每个条带单元的条带片段NAL单元、画面参数集(PPS)NAL单元、序列参数集(SPS)NAL单元、以及VPS NAL单元,其中,条带片段NAL单元包括条带单元的编码信息,PPS NAL单元包括关于共同地应用于包括在多层视频中的画面的PPS的信息,SPS NAL单元包括关于共同地应用于包括在多层视频中的预定层的图像序列的SPS的信息,
其中,条带片段NAL单元、PPS NAL单元、SPS NAL单元和VPS NAL单元是基于包括在NAL单元的头中的NAL单元标识符(nal unit type)而被识别的。
11.如权利要求9所述的多层视频解码方法,其中,获得可伸缩扩展类型信息的步骤包括:从VPS NAL单元的头获得可伸缩扩展类型表索引和层索引,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中所包括的可伸缩扩展类型的组合之一。
12.如权利要求9所述的多层视频解码方法,其中,获得可伸缩扩展类型信息的步骤还包括:
从VPS NAL单元的头获得可伸缩扩展类型表索引,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一;
从PPS NAL单元获得层索引,并通过使用获得的层索引确定应用于包括在多层视频中的画面的可伸缩扩展类型,其中,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中所包括的可伸缩扩展类型的组合之一,其中,PPS NAL单元包括关于共同地应用于包括在多层视频中的画面的PPS的信息。
13.如权利要求9所述的多层视频解码方法,其中,获得可伸缩扩展类型信息的步骤还包括:
从VPS NAL单元的头获得可伸缩扩展类型表索引,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一;
其中,从SPS NAL单元获得层索引,并通过使用获得的层索引确定应用于包括在多层视频中的预定层的图像序列的可伸缩扩展类型,其中,层索引指示由可伸缩扩展类型表索引指示的可伸缩扩展类型表中所包括的可伸缩扩展类型的组合之一,SPS NAL单元包括关于共同地应用于所述预定层的图像序列的SPS的信息。
14.如权利要求9所述的多层视频解码方法,其中,可伸缩扩展类型信息包括可伸缩扩展类型表索引,其中,可伸缩扩展类型表索引指示包括能够应用于多层视频的可伸缩扩展类型的组合的可伸缩扩展类型表之一,
其中,可伸缩扩展类型表是通过被包括在补充增强信息(SEI)消息中而被发送的。
15.一种多层视频解码设备,包括:
接收单元,接收通过根据数据单元划分编码后的多层视频而产生的网络适应层(NAL)单元,从接收到的NAL单元中获得包括视频参数集(VPS)信息的VPS NAL单元,并从VPS NAL单元获得用于多层视频的可伸缩扩展的可伸缩扩展类型信息,其中,VPS信息是共同地应用于多层视频的信息;
视频解码单元,基于获得的可伸缩扩展类型信息确定应用于包括在多层视频中的数据单元的可伸缩扩展类型,并对多层视频进行解码。
CN201380046648.6A 2012-07-06 2013-07-08 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备 Expired - Fee Related CN104620587B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261668666P 2012-07-06 2012-07-06
US61/668,666 2012-07-06
PCT/KR2013/006058 WO2014007596A1 (ko) 2012-07-06 2013-07-08 다계층 비디오 부호화 방법 및 장치, 다계층 비디오 복호화 방법 및 장치

Publications (2)

Publication Number Publication Date
CN104620587A true CN104620587A (zh) 2015-05-13
CN104620587B CN104620587B (zh) 2018-04-03

Family

ID=49882280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380046648.6A Expired - Fee Related CN104620587B (zh) 2012-07-06 2013-07-08 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备

Country Status (7)

Country Link
US (1) US10116947B2 (zh)
EP (1) EP2871567A4 (zh)
JP (1) JP6050489B2 (zh)
KR (1) KR102180470B1 (zh)
CN (1) CN104620587B (zh)
IN (1) IN2015MN00077A (zh)
WO (1) WO2014007596A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106658225A (zh) * 2016-10-31 2017-05-10 广州日滨科技发展有限公司 视频扩展码设置及视频播放方法和系统
CN108616748A (zh) * 2017-01-06 2018-10-02 科通环宇(北京)科技有限公司 一种码流及其封装方法、解码方法及装置
CN112637679A (zh) * 2019-09-22 2021-04-09 腾讯美国有限责任公司 视频编解码方法和装置、计算机设备和存储介质
CN114339239A (zh) * 2020-09-29 2022-04-12 佳能株式会社 封装方法和装置、解码方法和装置以及存储介质
CN115134432A (zh) * 2021-03-22 2022-09-30 中国科学院沈阳自动化研究所 一种多工业通信协议自适应快速解析方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9479774B2 (en) * 2012-09-24 2016-10-25 Qualcomm Incorporated Buffering period and recovery point supplemental enhancement information messages
US9826232B2 (en) * 2014-01-08 2017-11-21 Qualcomm Incorporated Support of non-HEVC base layer in HEVC multi-layer extensions
US10178397B2 (en) * 2014-03-24 2019-01-08 Qualcomm Incorporated Generic use of HEVC SEI messages for multi-layer codecs
US10785492B2 (en) * 2014-05-30 2020-09-22 Arris Enterprises Llc On reference layer and scaled reference layer offset parameters for inter-layer prediction in scalable video coding
JP7404373B2 (ja) * 2019-01-09 2023-12-25 ホアウェイ・テクノロジーズ・カンパニー・リミテッド ビデオエンコーダ、ビデオデコーダ、および対応する方法
EP4144093A4 (en) 2020-05-22 2023-08-23 ByteDance Inc. SIGNALING OF IMAGE INFORMATION IN ACCESS UNITS
AU2021276676B2 (en) 2020-05-22 2024-08-22 Bytedance Inc. Scalable nested SEI message handling in video sub-bitstream extraction process
JP7549045B2 (ja) 2020-06-09 2024-09-10 バイトダンス インコーポレイテッド マルチレイヤ映像ビットストリームのサブビットストリーム抽出

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060126962A1 (en) * 2001-03-26 2006-06-15 Sharp Laboratories Of America, Inc. Methods and systems for reducing blocking artifacts with reduced complexity for spatially-scalable video coding
CN101690220A (zh) * 2007-04-25 2010-03-31 Lg电子株式会社 用于解码/编码视频信号的方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7961963B2 (en) * 2005-03-18 2011-06-14 Sharp Laboratories Of America, Inc. Methods and systems for extended spatial scalability with picture-level adaptation
US8175168B2 (en) 2005-03-18 2012-05-08 Sharp Laboratories Of America, Inc. Methods and systems for picture up-sampling
WO2008010932A2 (en) 2006-07-20 2008-01-24 Thomson Licensing Method and apparatus for signaling view scalability in multi-view video coding
EP2060123A4 (en) 2006-09-07 2016-05-04 Lg Electronics Inc METHOD AND DEVICE FOR DECODING / ENCODING A VIDEO SIGNAL
EP2127395B1 (en) * 2007-01-10 2016-08-17 Thomson Licensing Video encoding method and video decoding method for enabling bit depth scalability
US9344362B2 (en) * 2007-01-12 2016-05-17 University-Industry Cooperation Group Of Kyung Hee University Packet format of network abstraction layer unit, and algorithm and apparatus for video encoding and decoding using the format, QOS control algorithm and apparatus for IPV6 label switching using the format
US20100266042A1 (en) 2007-03-02 2010-10-21 Han Suh Koo Method and an apparatus for decoding/encoding a video signal
WO2008108566A1 (en) 2007-03-02 2008-09-12 Lg Electronics Inc. A method and an apparatus for decoding/encoding a video signal
US20100142613A1 (en) * 2007-04-18 2010-06-10 Lihua Zhu Method for encoding video data in a scalable manner
US9313515B2 (en) * 2007-05-16 2016-04-12 Thomson Licensing Methods and apparatus for the use of slice groups in encoding multi-view video coding (MVC) information
KR101260613B1 (ko) * 2008-12-26 2013-05-03 닛뽕빅터 가부시키가이샤 화상 부호화 장치, 화상 부호화 방법 및 그 프로그램 및 화상 복호화 장치, 화상 복호화 방법 및 그 프로그램
US8976871B2 (en) 2009-09-16 2015-03-10 Qualcomm Incorporated Media extractor tracks for file format track selection
WO2012096981A1 (en) * 2011-01-14 2012-07-19 Vidyo, Inc. Improved nal unit header
US9451252B2 (en) * 2012-01-14 2016-09-20 Qualcomm Incorporated Coding parameter sets and NAL unit headers for video coding
TWI752680B (zh) 2012-04-13 2022-01-11 美商Ge影像壓縮有限公司 用以自資料串流重構圖像的解碼器及方法、用以將圖像編碼入資料串流的編碼器及方法、與相關電腦程式及機器可存取媒體
US9602827B2 (en) * 2012-07-02 2017-03-21 Qualcomm Incorporated Video parameter set including an offset syntax element
US9462287B2 (en) * 2013-01-04 2016-10-04 Dolby International Ab Implicit signaling of scalability dimension identifier information in a parameter set

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060126962A1 (en) * 2001-03-26 2006-06-15 Sharp Laboratories Of America, Inc. Methods and systems for reducing blocking artifacts with reduced complexity for spatially-scalable video coding
CN101690220A (zh) * 2007-04-25 2010-03-31 Lg电子株式会社 用于解码/编码视频信号的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BYEONGDOO CHOI: "NAL unit header for scalable extension", 《JCT-VC OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 9TH MEETING: GENEVA》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106658225A (zh) * 2016-10-31 2017-05-10 广州日滨科技发展有限公司 视频扩展码设置及视频播放方法和系统
CN106658225B (zh) * 2016-10-31 2019-11-26 日立楼宇技术(广州)有限公司 视频扩展码设置及视频播放方法和系统
CN108616748A (zh) * 2017-01-06 2018-10-02 科通环宇(北京)科技有限公司 一种码流及其封装方法、解码方法及装置
CN112637679A (zh) * 2019-09-22 2021-04-09 腾讯美国有限责任公司 视频编解码方法和装置、计算机设备和存储介质
CN114339239A (zh) * 2020-09-29 2022-04-12 佳能株式会社 封装方法和装置、解码方法和装置以及存储介质
CN115134432A (zh) * 2021-03-22 2022-09-30 中国科学院沈阳自动化研究所 一种多工业通信协议自适应快速解析方法
CN115134432B (zh) * 2021-03-22 2023-09-12 中国科学院沈阳自动化研究所 一种多工业通信协议自适应快速解析方法

Also Published As

Publication number Publication date
EP2871567A1 (en) 2015-05-13
WO2014007596A1 (ko) 2014-01-09
US10116947B2 (en) 2018-10-30
US20150172679A1 (en) 2015-06-18
KR20140007292A (ko) 2014-01-17
KR102180470B1 (ko) 2020-11-19
JP6050489B2 (ja) 2016-12-21
IN2015MN00077A (zh) 2015-10-16
JP2015526018A (ja) 2015-09-07
CN104620587B (zh) 2018-04-03
EP2871567A4 (en) 2016-01-06

Similar Documents

Publication Publication Date Title
CN104620587A (zh) 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备
CN102474614B (zh) 基于分层编码块样式信息的视频编码方法和设备以及视频解码方法和设备
CN102474612B (zh) 用于对视频进行编码的方法和设备以及用于对视频进行解码的方法和设备
CN103220519B (zh) 用于对视频进行解码的方法
CN105812801A (zh) 视频解码设备
CN103563382A (zh) 用于对图像进行编码的方法和设备以及用于进行解码的方法和设备
CN104796698A (zh) 对视频编码的方法和设备以及对视频解码的方法和设备
CN104780382A (zh) 用于对视频进行解码的方法和设备
CN105075261A (zh) 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备
CN104811697A (zh) 对视频进行解码的方法
CN104811711A (zh) 视频的编码方法和装置及视频的解码方法和装置
CN104838649A (zh) 针对随机访问的用于对视频进行编码的方法和设备以及用于对视频进行解码的方法和设备
CN104380746A (zh) 多视点视频编码方法和装置以及多视点视频解码方法和装置
CN103416062A (zh) 能够执行双向预测和单向预测的视频预测方法及其装置、视频编码方法及其装置以及视频解码方法及其装置
CN105308962A (zh) 多层视频编码方法和装置以及多层视频解码方法和装置
CN105191314A (zh) 用于对多层视频进行编码的方法和设备、用于对多层视频进行解码的方法和设备
CN105308963A (zh) 用于对多层视频进行解码的方法和设备以及用于对多层视频进行编码的方法和设备
CN104412602A (zh) 多视点视频编码方法和装置以及多视点视频解码方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180403

CF01 Termination of patent right due to non-payment of annual fee