CN104412602A - 多视点视频编码方法和装置以及多视点视频解码方法和装置 - Google Patents

多视点视频编码方法和装置以及多视点视频解码方法和装置 Download PDF

Info

Publication number
CN104412602A
CN104412602A CN201380033261.7A CN201380033261A CN104412602A CN 104412602 A CN104412602 A CN 104412602A CN 201380033261 A CN201380033261 A CN 201380033261A CN 104412602 A CN104412602 A CN 104412602A
Authority
CN
China
Prior art keywords
image
data
unit
coding
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380033261.7A
Other languages
English (en)
Inventor
崔秉斗
金宰贤
朴正辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN104412602A publication Critical patent/CN104412602A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2381Adapting the multiplex stream to a specific network, e.g. an Internet Protocol [IP] network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种多视点视频编码方法:按预定数据单元对编码的多视点图像进行复用,并将可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID添加到所述预定数据单元的头,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关。

Description

多视点视频编码方法和装置以及多视点视频解码方法和装置
技术领域
本发明涉及用于对可伸缩视频和多视点视频进行编码和解码的方法和设备,更具体地讲,涉及可伸缩视频和多视点视频的可伸缩性以及用于传送多视点信息的高层语法结构。
背景技术
通常,通过根据预定数据压缩标准(例如,运动图像专家组(MPEG)标准)的编解码器来对图像数据进行编码,并且所述图像数据随后以比特流的形式被存储在信息存储介质中,或者经由通信信道被发送。
作为视频压缩方法的可伸缩视频编码(SVC)适合于根据各种通信网络和终端来对大量信息进行调整和发送。SVC提供了一种通过使用单个视频流来向各种传输网络以及各种接收终端适应性地提供服务的视频编码方法。
因为3D多媒体装置和3D多媒体内容的流行,多视点视频编码技术被广泛用于3D视频编码。
这样的传统SVC或多视点视频编码通过使用基于预定尺寸的宏块的有限编码方法对视频进行编码。
发明内容
技术问题
本发明提供一种用于与根据传统图像压缩格式的网络抽象层(NAL)数据单元兼容并传送关于多视点视频和可伸缩视频的信息的NAL数据单元的结构。
本发明还提供用于通过使用关于多视点视频和可伸缩视频的信息来对可伸缩视频和多视点视频进行编码和解码的方法和设备。
解决方案
根据本发明的实施例,预定数据单元的区域被重新定义为用于可伸缩性扩展信息或多视点扩展信息的区域。
有益效果
根据本发明的实施例,与根据传统图像压缩格式的NAL单元具有从属兼容性的NAL单元可被用于传送关于多视点视频和可伸缩视频的信息。
附图说明
图1是根据本发明的实施例的基于具有树结构的编码单元的视频编码设备的框图。
图2是根据本发明的实施例的基于具有树结构的编码单元的视频解码设备的框图。
图3是用于描述根据本发明的实施例的编码单元的构思的示图。
图4是根据本发明的实施例的基于编码单元的图像编码器的框图。
图5是根据本发明的实施例的基于编码单元的图像解码器的框图。
图6是示出根据本发明的实施例的根据深度的较深层编码单元以及预测单元的示图。
图7是用于描述根据本发明的实施例的编码单元和变换单元之间的关系的示图。
图8是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。
图9是根据本发明的实施例的根据深度的较深层编码单元的示图。
图10至图12是用于描述根据本发明的实施例的编码单元、预测单元和频率变换单元之间的关系的示图。
图13是用于描述根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。
图14是根据本发明的实施例的多视点视频编码设备的框图。
图15是根据本发明的实施例的图14的图像编码器的框图。
图16示出时间可伸缩图像的示例。
图17示出空间可伸缩图像的示例。
图18示出时间和空间可伸缩图像的示例。
图19是用于解释根据本发明的实施例的视频编码和解码处理的分层分类的示图。
图20a和图20b示出根据本发明的实施例的网络抽象层(NAL)单元的头的示例。
图21示出根据本发明的实施例的用于可伸缩扩展的NAL单元的头。
图22是根据本发明的实施例的可伸缩扩展类型(SET)的表。
图23示出根据本发明的另一实施例的用于可伸缩扩展的NAL单元的头。
图24是指示根据图23的NAL单元的头的SET的第一子层索引和第二子层索引的SET的表。
图25示出根据本发明的实施例的用于多视点扩展的NAL单元的头。
图26是根据本发明的实施例的根据用于多视点扩展的NAL单元的头的SET的多视点ID的表。
图27是根据本发明的实施例的用于多视点扩展的NAL单元的语法结构的表。
图28是根据本发明的另一实施例的用于多视点扩展的NAL单元的语法结构的表。
图29是根据本发明的实施例的多视点视频编解码方法的流程图。
图30是根据本发明的实施例的多视点视频解码设备的框图。
图31是根据本发明的实施例的多视点视频解码方法的流程图。
最佳模式
根据本发明的一方面,提供了一种多视点视频编码方法,所述方法包括:对包括在多视点视频中的多视点图像进行编码;按预定数据单元对编码的多视点图像进行复用,并将可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID添加到所述预定数据单元的头,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关。
根据本发明的另一方面,提供了一种多视点视频编码设备,所述设备包括:图像编码器,用于对包括在多视点视频中的多视点图像进行编码;输出单元,用于按预定数据单元对编码的多视点图像进行复用,并将可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID添加到所述预定数据单元的头,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关。
根据本发明的另一方面,提供了一种多视点视频解码方法,所述方法包括:接收复用有编码的多视点图像数据的预定数据单元;从所述预定数据单元的头获得可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关;基于获得的信息来确定包括在所述预定数据单元中的数据的SET,确定所述数据是纹理图像还是深度图图像,并确定所述数据的视点。
根据本发明的另一方面,提供了一种多视点视频解码设备,所述设备包括:接收器,用于接收复用有编码的多视点图像数据的预定数据单元,并从所述预定数据单元的头获得可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关;图像解码器,用于基于获得的信息来确定包括在所述预定数据单元中的数据的SET,确定所述数据是纹理图像还是深度图图像,并确定所述数据的视点。
具体实施方式
将参照图1至图13描述根据本发明的实施例的基于具有树结构的数据单元的视频编码方法和视频解码方法。将参照图14至图31描述根据本发明的实施例的基于具有树结构的编码单元的多视点视频编码方法和多视点视频解码方法。
现在将在下面参照图1至图13描述根据本发明的实施例的基于具有树结构的编码单元的视频编码方法和视频解码方法。
图1是根据本发明的实施例的基于具有树结构的编码单元的视频编码设备100的框图。
根据实施例的伴有基于具有树结构的编码单元的视频预测的视频编码设备100包括:最大编码单元划分器110、编码单元确定器120和输出单元130。在下文中,为便于描述,伴有基于具有树结构的编码单元的视频预测的视频编码设备100被称为“视频编码设备100”。
最大编码单元划分器110可基于图像的当前画面的最大编码单元来划分当前画面,其中,最大编码单元是具有最大尺寸的编码单元。如果当前画面大于最大编码单元,则可将当前画面的图像数据划分为至少一个最大编码单元。根据实施例的最大编码单元可以是尺寸为32×32、64×64、128×128或256×256的数据单元,其中,数据单元的形状是宽度和长度为2的若干次方的正方形。图像数据可根据至少一个最大编码单元被输出到编码单元确定器120。
根据实施例的编码单元可由最大尺寸和深度表征。深度表示编码单元从最大编码单元被空间划分的次数,并且随着深度加深,根据深度的较深层编码单元可从最大编码单元被划分到最小编码单元。最大编码单元的深度为最高深度,最小编码单元的深度为最低深度。由于随着最大编码单元的深度加深,与每个深度相应的编码单元的尺寸减小,因此与更高深度相应的编码单元可包括多个与更低深度相应的编码单元。
如上所述,当前画面的图像数据根据编码单元的最大尺寸被划分为最大编码单元,并且每个最大编码单元可包括根据深度被划分的较深层编码单元。由于根据深度对根据实施例的最大编码单元进行划分,因此可根据深度分层地对包括在最大编码单元中的空间域的图像数据进行分类。
可预先设置编码单元的最大深度和最大尺寸,其中,所述最大深度和最大尺寸限制最大编码单元的高度和宽度被分层划分的总次数。
编码单元确定器120对通过根据深度对最大编码单元的区域进行划分而获得的至少一个划分区域进行编码,并且根据所述至少一个划分区域来确定用于输出最终编码结果的深度。换句话说,编码单元确定器120通过根据当前画面的最大编码单元以根据深度的较深层编码单元对图像数据进行编码,并选择具有最小编码误差的深度,来确定编码深度。输出确定的编码深度和根据最大编码单元的图像数据。
基于与等于或小于最大深度的至少一个深度相应的较深层编码单元,对最大编码单元中的图像数据进行编码,并且基于每个较深层编码单元比较编码结果。在对较深层编码单元的编码误差进行比较之后,可选择具有最小编码误差的深度。可针对每个最大编码单元选择至少一个编码深度。
随着编码单元根据深度而被分层地划分,最大编码单元的尺寸被划分,并且编码单元的数量增加。另外,即使在一个最大编码单元中编码单元与同一深度相应,仍通过分别测量每个编码单元的数据的编码误差来确定是否将与同一深度相应的每个编码单元划分为更低深度。因此,即使数据被包括在一个最大编码单元中,根据深度的编码误差可根据区域而不同,因此编码深度可根据区域而不同。因此,可为一个最大编码单元设置一个或更多个编码深度,并且可根据一个或更多个编码深度的编码单元来对最大编码单元的数据进行划分。
因此,根据实施例的编码单元确定器120可确定包括在当前最大编码单元中的具有树结构的编码单元。根据本发明的实施例的“具有树结构的编码单元”包括最大编码单元中包括的所有较深层编码单元之中的与确定为编码深度的深度相应的编码单元。可根据最大编码单元的相同区域中的深度来分层地确定编码深度的编码单元,并可在不同区域中独立地确定编码深度的编码单元。类似地,可与另一区域中的编码深度相独立地确定当前区域中的编码深度。
根据实施例的最大深度是与从最大编码单元到最小编码单元所执行划分的次数有关的索引。根据实施例的第一最大深度可表示从最大编码单元到最小编码单元所执行的划分的总次数。根据实施例的第二最大深度可表示从最大编码单元到最小编码单元的深度级别的总数。例如,当最大编码单元的深度是0时,对最大编码单元划分一次的编码单元的深度可被设置为1,对最大编码单元划分两次的编码单元的深度可被设置为2。在此情况下,如果最小编码单元是通过对最大编码单元划分四次而获得的编码单元,则存在深度0、1、2、3和4的5个深度级别,并因此第一最大深度可被设置为4,第二最大深度可被设置为5。
可根据最大编码单元执行预测编码和频率变换。还根据最大编码单元,基于根据等于或小于最大深度的深度的较深层编码单元来执行预测编码和变换。
由于每当根据深度对最大编码单元进行划分时,较深层编码单元的数量增加,因此将必需对随着深度增加而产生的所有较深层编码单元执行包括预测编码和频率变换的编码。为了便于描述,在至少一个最大编码单元之中,现在将基于当前深度的编码单元来描述预测编码和频率变换。
根据实施例的视频编码设备100可不同地选择用于对图像数据进行编码的数据单元的尺寸或形状。为了对图像数据进行编码,执行诸如预测编码、频率变换和熵编码的操作,此时,可针对所有操作使用相同的数据单元,或者可针对每个操作使用不同的数据单元。
例如,视频编码设备100不仅可选择用于对图像数据进行编码的编码单元,还可选择不同于编码单元的数据单元,以便对编码单元中的图像数据执行预测编码。
为了在最大编码单元中执行预测编码,可基于与编码深度相应的编码单元(即,基于不再被划分为与更低深度相应的编码单元的编码单元)来执行预测编码。以下,不再被划分且成为用于预测编码的基本单元的编码单元现在将被称为“预测单元”。通过划分预测单元获得的分区可包括预测单元以及通过对预测单元的高度和宽度中的至少一个进行划分而获得的数据单元。
例如,当2N×2N(其中,N是正整数)的编码单元不再被划分时,2N×2N的编码单元可成为2N×2N的预测单元,并且分区的尺寸可以是2N×2N、2N×N、N×2N或N×N。分区类型的示例包括通过对预测单元的高度或宽度进行对称划分而获得的对称分区、通过对预测单元的高度或宽度进行非对称划分(诸如,1:n或n:1)而获得的分区、通过对预测单元进行几何划分而获得的分区、以及具有任意形状的分区。
预测单元的预测模式可以是帧内模式、帧间模式和跳过模式中的至少一个。例如,可对2N×2N、2N×N、N×2N或N×N的分区执行帧内模式或帧间模式。另外,可仅对2N×2N的分区执行跳过模式。可对编码单元中的一个预测单元独立地执行编码,从而选择具有最小编码误差的预测模式。
根据实施例的视频编码设备100不仅可基于用于对图像数据进行编码的编码单元还可基于与编码单元不同的数据单元,来对编码单元中的图像数据执行变换。为了在编码单元中执行变换,可基于具有小于或等于编码单元的尺寸的变换单元来执行变换。例如,变换单元可包括帧内模式的变换单元和帧间模式的数据单元。
类似于根据实施例的树结构中的编码单元,编码单元中的变换单元可被递归地划分为更小尺寸的变换单元,因此可基于根据变换深度的具有树结构的变换单元,对编码单元中的残差数据进行划分。
还可在根据实施例的变换单元中设置变换深度,其中,变换深度表示通过对编码单元的高度和宽度进行划分以达到变换单元所执行的划分的次数。例如,在2N×2N的当前编码单元中,当变换单元的尺寸是2N×2N时,变换深度可以是0,当变换单元的尺寸是N×N时,变换深度可以是1,当变换单元的尺寸是N/2×N/2时,变换深度可以是2。也就是说,还可根据变换深度设置具有树结构的变换单元。
根据与编码深度相应的编码单元的编码信息不仅需要关于编码深度的信息,还需要关于与预测编码和变换相关的信息的信息。因此,编码单元确定器120不仅确定具有最小编码误差的编码深度,还确定预测单元中的分区类型、根据预测单元的预测模式和用于变换的变换单元的尺寸。
稍后将参照图3至图13详细描述根据实施例的最大编码单元中的具有树结构的编码单元以及确定预测单元/分区和变换单元的方法。
编码单元确定器120可通过使用基于拉格朗日乘数的率失真(RD)优化,来测量根据深度的较深层编码单元的编码误差。
输出单元130在比特流中输出最大编码单元的图像数据和关于根据编码深度的编码模式的信息,其中,所述最大编码单元的图像数据基于由编码单元确定器120确定的至少一个编码深度被编码。
可通过对图像的残差数据进行编码来获得编码图像数据。
关于根据编码深度的编码模式的信息可包括关于编码深度的信息、关于预测单元中的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。
可通过使用根据深度的划分信息来定义关于编码深度的信息,其中,根据深度的划分信息指示是否对更低深度而不是当前深度的编码单元执行编码。如果当前编码单元的当前深度是编码深度,则对当前深度的当前编码单元执行编码,因此可将划分信息定义为不将当前编码单元划分到更低深度。可选择地,如果当前编码单元的当前深度不是编码深度,则对更低深度的编码单元执行编码,并且因此可将划分信息定义为对当前编码单元进行划分来获得更低深度的编码单元。
如果当前深度不是编码深度,则对被划分到更低深度的编码单元的编码单元执行编码。由于更低深度的至少一个编码单元存在于当前深度的一个编码单元中,因此对更低深度的每个编码单元重复执行编码,并且因此可对具有相同深度的编码单元递归地执行编码。
由于针对一个最大编码单元确定具有树结构的编码单元,并且针对编码深度的编码单元确定关于至少一个编码模式的信息,所以可针对一个最大编码单元确定关于至少一个编码模式的信息。另外,由于根据深度对数据进行分层划分,因此最大编码单元的数据的编码深度可根据位置而不同,因此可针对数据设置关于编码深度和编码模式的信息。
因此,根据实施例的输出单元130可将关于相应的编码深度和编码模式的编码信息分配给包括在最大编码单元中的编码单元、预测单元和最小单元中的至少一个。
根据实施例的最小单元是通过将构成最低深度的最小编码单元划分为4份而获得的矩形数据单元。可选择地,最小单元可以是可包括在最大编码单元中所包括的所有编码单元、预测单元、分区单元和变换单元中的最大矩形数据单元。
例如,通过输出单元130输出的编码信息可被分类为根据基于深度的较深层编码单元的编码信息和根据预测单元的编码信息。根据基于深度的较深层编码单元的编码信息可包括关于预测模式的信息和关于分区尺寸的信息。根据预测单元的编码信息可包括关于帧间模式的估计方向的信息、关于帧间模式的参考图像索引的信息、关于运动矢量的信息、关于帧内模式的色度分量的信息、以及关于帧内模式的插值方法的信息。
此外,根据画面、条带或GOP定义的关于编码单元的最大尺寸的信息和关于最大深度的信息可被插入到比特流的头、序列参数集或画面参数集等。
关于针对当前视频而被允许的变换单元的最大尺寸的信息以及关于所述变换单元的最小尺寸的信息可通过比特流的头、序列参数集或画面参数集等被输出。输出单元130可对以上参照图1所描述的参考信息、预测信息、单向预测信息、包括四种条带类型的条带类型信息进行编码和输出
在根据最简单的实施例的视频编码设备100中,较深层编码单元是通过将更高深度(更高一层)的编码单元的高度或宽度划分成两份而获得的编码单元。换句话说,在当前深度的编码单元的尺寸是2N×2N时,更低深度的编码单元的尺寸是N×N。另外,尺寸为2N×2N的当前深度的编码单元可包括最多4个所述更低深度的编码单元。
因此,根据实施例的视频编码设备100可基于考虑当前画面的特征而确定的最大编码单元的尺寸和最大深度,通过针对每个最大编码单元确定具有最优形状和最优尺寸的编码单元来形成具有树结构的编码单元。另外,由于可通过使用各种预测模式和变换中的任意一个对每个最大编码单元执行编码,因此可考虑各种图像尺寸的编码单元的图像特征来确定最优编码模式。
因此,如果以传统宏块对具有高的分辨率或大数据量的图像进行编码,则每个画面的宏块的数量极度增加。因此,针对每个宏块产生的压缩信息的条数增加,因而难以发送压缩的信息,并且数据压缩效率降低。然而,通过使用根据实施例的视频编码设备100,由于在考虑图像的特征的同时调整编码单元,同时,在考虑图像的尺寸的同时增加编码单元的最大尺寸,因此可提高图像压缩效率。
图2是根据本发明的实施例的基于具有树结构的编码单元的视频解码设备200的框图。
伴有视频预测的视频解码设备200包括接收器210、图像数据和编码信息提取器220以及图像数据解码器230。在下文中,为便于描述,根据实施例的伴有基于具有树结构的编码单元的视频预测的视频解码设备200被称为“视频解码设备200”。
用于根据视频解码设备200的各种操作的各种术语(诸如编码单元、深度、预测单元、变换单元和关于各种编码模式的信息)的定义与参照图1和视频编码设备100所描述的定义相同。
接收器210接收并解析编码视频的比特流。图像数据和编码信息提取器220从解析的比特流提取针对每个编码单元的编码图像数据,并将提取的图像数据输出到图像数据解码器230,其中,编码单元具有根据每个最大编码单元的树结构。图像数据和编码信息提取器220可从关于当前画面的头提取关于当前画面的编码单元的最大尺寸的信息。
另外,图像数据和编码信息提取器220从解析的比特流根据每个最大编码单元提取关于具有树结构的编码单元的编码深度和编码模式的信息。提取的关于编码深度和编码模式的信息被输出到图像数据解码器230。换句话说,比特流中的图像数据被划分为最大编码单元,使得图像数据解码器230针对每个最大编码单元对图像数据进行解码。
可针对关于至少一个编码深度的信息设置关于根据最大编码单元的编码深度和编码模式的信息,关于根据每个编码深度的编码模式的信息可包括关于与编码深度相应的相应编码单元的分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。另外,根据深度的划分信息可被提取为关于编码深度的信息。
由图像数据和编码信息提取器220提取的关于根据每个最大编码单元的编码深度和编码模式的信息是这样的关于编码深度和编码模式的信息:该信息被确定为在编码器(诸如,视频编码设备100)根据每个最大编码单元对根据深度的每个较深层编码单元重复地执行编码时产生最小编码误差。因此,视频解码设备200可通过根据产生最小编码误差的编码模式对图像数据进行解码来恢复图像。
由于根据实施例的关于编码深度和编码模式的编码信息可被分配给相应编码单元、预测单元和最小单元之中的预定数据单元,因此图像数据和编码信息提取器220可根据预定数据单元,提取关于编码深度和编码模式的信息。当关于相应最大编码单元的编码深度和编码模式的信息根据预定数据单元被记录时,可将具有相同的关于编码深度和编码模式的信息的预定数据单元推断为是包括在同一最大编码单元中的数据单元。
图像数据解码器230基于关于根据最大编码单元的编码深度和编码模式的信息,通过对每个最大编码单元中的图像数据进行解码,来恢复当前画面。换句话说,图像数据解码器230可基于提取出的关于包括在每个最大编码单元中的具有树结构的编码单元之中的每个编码单元的分区类型、预测模式和变换单元的信息,对编码的图像数据进行解码。解码处理可包括预测(包含帧内预测和运动补偿)和逆变换。
图像数据解码器230可基于关于根据编码深度的编码单元的预测单元的分区类型和预测模式的信息,根据每个编码单元的分区和预测模式执行帧内预测或运动补偿。
此外,图像数据解码器230可根据编码单元读取基于树结构的变换单元信息,并基于编码单元中的每个变换单元来执行逆变换,从而根据最大编码单元执行逆变换。编码单元的空间区域的像素值可被重构。
图像数据解码器230可通过使用根据深度的划分信息来确定当前最大编码单元的编码深度。如果划分信息指示图像数据在当前深度中不再被划分,则当前深度是编码深度。因此,图像数据解码器230可通过使用关于用于当前最大编码单元的图像数据的预测单元的分区类型、预测模式和变换单元的尺寸的信息,对当前深度的编码数据进行解码。
换句话说,可通过观察被分配给编码单元、预测单元和最小单元之中的预定数据单元的编码信息集来收集包含包括相同划分信息的编码信息的数据单元,并且收集的数据单元可被认为是将由图像数据解码器230以相同编码模式进行解码的一个数据单元。
根据实施例的视频解码设备200可获得关于当对每个最大编码单元递归地执行编码时产生最小编码误差的编码单元的信息,并可使用所述信息来对当前画面进行解码。换句话说,可对每个最大编码单元中被确定为最佳编码单元的具有树结构的编码单元进行解码。
因此,即使图像数据具有高分辨率和大数据量,也可根据编码单元的尺寸和编码模式,有效地对图像数据进行解码和恢复,其中,通过使用从编码器接收到的关于最优编码模式的信息,根据图像的特征自适应地确定所述编码单元的尺寸和编码模式。
图3是用于描述根据本发明的实施例的分层编码单元的构思的示图。
编码单元的尺寸可被表示为宽度×高度,并且编码单元的尺寸的示例可包括64×64、32×32、16×16和8×8。64×64的编码单元可被划分为64×64、64×32、32×64或32×32的分区,32×32的编码单元可被划分为32×32、32×16、16×32或16×16的分区,16×16的编码单元可被划分为16×16、16×8、8×16或8×8的分区,8×8的编码单元可被划分为8×8、8×4、4×8或4×4的分区。
在视频数据310中,分辨率被设置为1920×1080,编码单元的最大尺寸被设置为64,最大深度被设置为2。在视频数据320中,分辨率被设置为1920×1080,编码单元的最大尺寸被设置为64,最大深度被设置为3。在视频数据330中,分辨率被设置为352×288,编码单元的最大尺寸被设置为16,最大深度被设置为1。图3中示出的最大深度表示从最大编码单元到最小编码单元的划分总次数。
如果分辨率高或数据量大,则编码单元的最大尺寸可能较大,从而不仅提高编码效率,而且准确地反映图像的特征。因此,比视频数据330具有更高分辨率的视频数据310和320的编码单元的最大尺寸可以是64。
由于视频数据310的最大深度是2,因此由于通过对最大编码单元划分两次,深度加深至两层,因此视频数据310的编码单元315可包括长轴尺寸为64的最大编码单元和长轴尺寸为32和16的编码单元。同时,由于视频数据330的最大深度是1,因此由于通过对最大编码单元划分一次,深度增加至一层,因此视频数据330的编码单元335可包括长轴尺寸为16的最大编码单元和长轴尺寸为8的编码单元。
由于视频数据320的最大深度是3,因此由于通过对最大编码单元划分三次,深度增加至3层,因此视频数据320的编码单元325可包括长轴尺寸为64的最大编码单元和长轴尺寸为32、16和8的编码单元。随着深度加深,详细信息可被精确地表示。
图4是根据本发明的实施例的基于编码单元的图像编码器400的框图。
根据实施例的图像编码器400执行视频编码设备100的编码单元确定器120的操作来对图像数据进行编码。换句话说,帧内预测器410对当前帧405中的帧内模式下的编码单元执行帧内预测,运动估计器420和运动补偿器425通过使用当前帧405和参考帧495,对当前帧405中的帧间模式下编码单元执行帧间估计和运动补偿。
从帧内预测器410、运动估计器420和运动补偿器425输出的数据通过频率变换器430和量化器440被输出为量化后的变换系数。量化后的变换系数通过反量化器460和频率逆变换器470被恢复为空间域中的数据,恢复的空间域中的数据在通过去块单元480和偏移调整单元490后处理之后被输出为参考帧495。量化后的变换系数可通过熵编码器450被输出为比特流455。
为了将图像编码器400应用到根据实施例的视频编码设备100中,图像编码器400的所有元件(即,帧内预测器410、运动估计器420、运动补偿器425、频率变换器430、量化器440、熵编码器450、反量化器460、频率逆变换器470、去块单元480和偏移调整单元490)必需在考虑每个最大编码单元的最大深度的同时,基于具有树结构的编码单元之中的每个编码单元执行操作。
具体地,帧内预测器410、运动估计器420和运动补偿器425必需在考虑当前最大编码单元的最大尺寸和最大深度的同时确定具有树结构的编码单元之中的每个编码单元的分区和预测模式,频率变换器430必需确定具有树结构的编码单元之中的每个编码单元中的变换单元的尺寸。
图5是根据本发明的实施例的基于编码单元的图像解码器500的框图。
解析器510从比特流505解析将被解码的编码图像数据和解码所需的关于编码的信息。编码图像数据通过熵解码器520和反量化器530被输出为反量化的数据,反量化的数据通过频率逆变换器540被恢复为空间域中的图像数据。
针对空间域中的图像数据,帧内预测器550对帧内模式下的编码单元执行帧内预测,运动补偿器560通过使用参考帧585对帧间模式下的编码单元执行运动补偿。
经过帧内预测器550和运动补偿器560的空间域中的数据可在通过去块单元570和偏移调整单元580后处理之后被输出为恢复帧595。另外,通过去块单元570和偏移调整单元580后处理的数据可被输出为参考帧585。
为了在视频解码设备200的图像数据解码器230中对图像数据进行解码,图像解码器500可执行在解析器510的操作被执行之后执行的操作。
为了将图像解码器500应用到根据实施例的视频解码设备200中,图像解码器500的所有元件(即,解析器510、熵解码器520、反量化器530、频率逆变换器540、帧内预测器550、运动补偿器560、去块单元570和偏移调整单元580)必需针对每个最大编码单元基于具有树结构的编码单元执行操作。
具体地,帧内预测器550和运动补偿器560必需针对具有树结构的每个编码单元确定分区和预测模式,频率逆变换器540必需针对每个编码单元确定变换单元的尺寸。
图6是示出根据本发明的实施例的根据深度的较深层编码单元和分区的示图。
视频编码设备100和视频解码设备200使用分层编码单元以考虑图像的特征。可根据图像的特征自适应地确定编码单元的最大高度、最大宽度和最大深度,或可由用户不同地设置编码单元的最大高度、最大宽度和最大深度。可根据被预先设置的编码单元的最大尺寸来确定根据深度的较深层编码单元的尺寸。
在根据实施例的编码单元的分层结构600中,编码单元的最大高度和最大宽度均是64,最大深度是4。由于沿着根据实施例的编码单元的分层结构600的垂直轴深度增加,因此较深层编码单元的高度和宽度均被划分。另外,预测单元和分区沿着编码单元的分层结构600的水平轴被示出,其中,所述预测单元和分区是对每个较深层编码单元进行预测编码的基础。
换句话说,在编码单元的分层结构600中,编码单元610是最大编码单元,其中,深度为0,尺寸(即,高度乘宽度)为64×64。深度沿着垂直轴增大,存在尺寸为32×32且深度为1的编码单元620、尺寸为16×16且深度为2的编码单元630、以及尺寸为8×8且深度为3的编码单元640。尺寸为8×8且深度为3的编码单元640是最小编码单元。
编码单元的预测单元和分区根据每个深度沿着水平轴被排列。换句话说,如果尺寸为64×64且深度为0的编码单元610是预测单元,则可将预测单元划分成包括在编码单元610中的分区,即,尺寸为64×64的分区610、尺寸为64×32的分区612、尺寸为32×64的分区614或尺寸为32×32的分区616。
类似地,可将尺寸为32×32且深度为1的编码单元620的预测单元划分成包括在编码单元620中的分区,即,尺寸为32×32的分区620、尺寸为32×16的分区622、尺寸为16×32的分区624和尺寸为16×16的分区626。
类似地,可将尺寸为16×16且深度为2的编码单元630的预测单元划分成包括在编码单元630中的分区,即,包括在编码度单元630中的尺寸为16×16的分区、尺寸为16×8的分区632、尺寸为8×16的分区634和尺寸为8×8的分区636。
类似地,可将尺寸为8×8且深度为3的编码单元640的预测单元划分成包括在编码单元640中的分区,即,包括在编码单元640中的尺寸为8×8的分区、尺寸为8×4的分区642、尺寸为4×8的分区644和尺寸为4×4的分区646。
最后,尺寸为8×8且深度为3的编码单元640是最小编码单元和最低深度的编码单元。
为了确定最大编码单元610的编码深度,根据实施例的视频编码设备100的编码单元确定器120必需对包括在最大编码单元610中的与每个深度相应的编码单元执行编码。
随着深度增大,包括具有相同范围和相同尺寸的数据的根据深度的较深层编码单元的数量增加。例如,需要四个与深度2相应的编码单元来覆盖包括在与深度1相应的一个编码单元中的数据。因此,为了根据深度比较相同数据的编码结果,与深度1相应的编码单元和四个与深度2相应的编码单元均需被编码。
为了根据每个深度执行编码,可沿着编码单元的分层结构600的水平轴,通过对较深层编码单元中的每个预测单元执行编码,来选择作为相应深度中的最小编码误差的代表性编码误差。可选择地,随着深度沿着编码单元的分层结构600的垂直轴增加,可通过针对每个深度执行编码来比较根据深度的代表性编码误差,以搜索最小编码误差。在最大编码单元610中具有最小编码误差的深度和分区可被选为最大编码单元610的编码深度和分区类型。
图7是用于描述根据本发明的实施例的编码单元710和变换单元720之间的关系的示图。
根据实施例的视频编码设备100或根据实施例的视频解码设备200针对每个最大编码单元,根据具有小于或等于最大编码单元的尺寸的编码单元,对图像进行编码或解码。可基于不大于相应编码单元的数据单元,选择用于在编码期间进行频率变换的变换单元的尺寸。
例如,在根据实施例的视频编码设备100或根据实施例的视频解码设备200中,如果当前编码单元710的尺寸是64×64,则可通过使用尺寸为32×32的变换单元720来执行变换。
此外,可通过对小于64×64的尺寸为32×32、16×16、8×8和4×4的每个变换单元执行变换,来对尺寸为64×64的编码单元710的数据进行编码,然后可选择具有最小编码误差的变换单元。
图8是用于描述根据本发明的实施例的与编码深度相应的编码单元的编码信息的示图。
根据实施例的视频编码设备100的输出单元130可对与编码深度相应的每个编码单元的关于分区类型的信息800、关于预测模式的信息810以及关于变换单元尺寸的信息820进行编码,并将信息800、信息810和信息820作为关于编码模式的信息来发送。
关于分区类型的信息800指示关于通过划分当前编码单元的预测单元而获得的分区的形状的信息,其中,所述分区是用于对当前编码单元进行预测编码的数据单元。例如,可将尺寸为2N×2N的当前编码单元CU_0划分成以下分区中的任意一个:尺寸为2N×2N的分区802、尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808。这里,关于当前编码单元的分区类型的信息800被设置来指示尺寸为2N×N的分区804、尺寸为N×2N的分区806以及尺寸为N×N的分区808中的一个。
关于预测模式的信息810指示每个分区的预测模式。例如,关于预测模式的信息810可指示对由信息800指示的分区执行的预测编码的模式,即,帧内模式812、帧间模式814或跳过模式816。
此外,关于变换单元的尺寸的信息820指示当对当前编码单元执行频率变换时所基于的变换单元。例如,变换单元可以是第一帧内变换单元822、第二帧内变换单元824、第一帧间变换单元826或第二帧内变换单元828。
根据实施例的视频解码设备200的图像数据和编码信息提取器220可根据每个较深层编码单元,提取并使用用于解码的关于分区类型的信息800、关于预测模式的信息810和关于变换单元的尺寸的信息820。
图9是根据本发明的实施例的根据深度的较深层编码单元的示图。
划分信息可用来指示深度的改变。划分信息指示当前深度的编码单元是否被划分成更低深度的编码单元。
用于对深度为0且尺寸为2N_0×2N_0的编码单元900进行预测编码的预测单元910可包括以下分区类型的分区:尺寸为2N_0×2N_0的分区类型912、尺寸为2N_0×N_0的分区类型914、尺寸为N_0×2N_0的分区类型916和尺寸为N_0×N_0的分区类型918。图9仅示出了通过对称地划分预测单元910而获得的分区类型912至918,但是分区类型不限于此,预测单元910的分区可包括非对称分区、具有预定形状的分区和具有几何形状的分区。
根据每种分区类型,需对尺寸为2N_0×2N_0的一个分区、尺寸为2N_0×N_0的两个分区、尺寸为N_0×2N_0的两个分区和尺寸为N_0×N_0的四个分区重复地执行预测编码。可对尺寸为2N_0×2N_0、N_0×2N_0、2N_0×N_0和N_0×N_0的分区执行帧内模式和帧间模式下的预测编码。可仅对尺寸为2N_0×2N_0的分区执行跳过模式下的预测编码。
如果在尺寸为2N_0×2N_0、2N_0×N_0和N_0×2N_0的分区类型912至916中的一个分区类型中编码误差最小,则可不再将预测单元910划分到更低深度。
如果在尺寸为N_0×N_0的分区类型918中编码误差最小,则深度可从0改变到1以在操作920中划分分区类型918,并可对深度为2且尺寸为N_0×N_0的编码单元930重复地执行编码来搜索最小编码误差。
用于对深度为1且尺寸为2N_1×2N_1(=N_0×N_0)的编码单元930进行预测编码的预测单元940可包括以下分区类型的分区:尺寸为2N_1×2N_1的分区类型942、尺寸为2N_1×N_1的分区类型944、尺寸为N_1×2N_1的分区类型946以及尺寸为N_1×N_1的分区类型948。
如果在尺寸为N_1×N_1的分区类型948中编码误差最小,则深度可从1改变到2以在操作950中划分分区类型948,并可对深度为2且尺寸为N_2×N_2的编码单元960重复执行编码来搜索最小编码误差。
当最大深度是d时,根据每个深度的划分信息可被设置直到深度变成d-1,并且划分信息可被设置直到深度变成d-2。换句话说,当编码被执行直到在与d-2的深度相应的编码单元在操作970中被划分之后深度是d-1时,用于对深度为d-1且尺寸为2N_(d-1)×2N_(d-1)的编码单元980进行预测编码的预测单元990可包括以下分区类型的分区:尺寸为2N_(d-1)×2N_(d-1)的分区类型992、尺寸为2N_(d-1)×N_(d-1)的分区类型994、尺寸为N_(d-1)×2N_(d-1)的分区类型996和尺寸为N_(d-1)×N_(d-1)的分区类型998。
可对分区类型992至998中的尺寸为2N_(d-1)×2N_(d-1)的一个分区、尺寸为2N_(d-1)×N_(d-1)的两个分区、尺寸为N_(d-1)×2N_(d-1)的两个分区、尺寸为N_(d-1)×N_(d-1)的四个分区重复地执行预测编码,以搜索具有最小编码误差的分区类型。
即使当尺寸为N_(d-1)×N_(d-1)的分区类型998具有最小编码误差时,由于最大深度是d,因此深度为d-1的编码单元CU_(d-1)可不再被划分到更低深度,当前最大编码单元900的编码深度可被确定为d-1,并且当前最大编码单元900的分区类型可被确定为N_(d-1)×N(d-1)。此外,由于最大深度是d,因此不设置深度为d-1的编码单元952的划分信息。
数据单元999可被称为用于当前最大编码单元的“最小单元”。根据实施例的最小单元可以是通过将具有最低编码深度的最小编码单元划分成4份而获得的矩形数据单元。通过重复地执行编码,视频编码设备100可通过比较根据编码单元900的深度的编码误差来选择具有最小编码误差的深度以确定编码深度,并可将相应分区类型和预测模式设置为编码深度的编码模式。
这样,在所有深度1至d中对根据深度的最小编码误差进行比较,并且具有最小编码误差的深度可被确定为编码深度。编码深度、预测单元的分区类型和预测模式可作为关于编码模式的信息被编码并发送。另外,由于编码单元需从深度0被划分到编码深度,因此仅编码深度的划分信息必需被设置为0,并且除了编码深度以外的深度的划分信息必需被设置为1。
根据实施例的视频解码设备200的图像数据和编码信息提取器220可提取并使用关于编码单元900的编码深度和预测单元的信息,以对编码单元912进行解码。根据实施例的视频解码设备200可通过使用根据深度的划分信息,将划分信息为0的深度确定为编码深度,并且可使用关于相应深度的编码模式的信息来进行解码。
图10至图12是用于描述根据本发明的实施例的编码单元1010、预测单元1060和频率变换单元1070之间的关系的示图。
编码单元1010是最大编码单元中的与由根据实施例的视频编码设备100确定的编码深度相应的编码单元。预测单元1060是每个编码单元1010中的预测单元的分区,变换单元1070是每个编码单元1010的变换单元。
当在编码单元1010中最大编码单元的深度是0时,编码单元1012和1054的深度是1,编码单元1014、1016、1018、1028、1050和1052的深度是2,编码单元1020、1022、1024、1026、1030、1032和1048的深度是3,编码单元1040、1042、1044和1046的深度是4。
在预测单元1060中,通过划分编码单元来获得一些分区1014、1016、1022、1032、1048、1050、1052和1054。换句话说,分区1014、1022、1050和1054中的分区类型的尺寸是2N×N,分区1016、1048和1052中的分区类型的尺寸是N×2N,分区1032的分区类型的尺寸是N×N。编码单元1010的预测单元和分区小于或等于每个编码单元。
在小于变换单元1052的数据单元中的变换单元1070中,对变换单元1052的图像数据执行频率变换或频率逆变换。另外,在尺寸或形状方面,变换单元1070中的变换单元1014、1016、1022、1032、1048、1050和1052不同于预测单元1060中的变换单元1014、1016、1022、1032、1048、1050和1052。换句话说,根据实施例的视频编码设备100和根据实施例的视频解码设备200可对甚至是同一编码单元中的数据单元独立地执行帧内预测/运动估计/运动补偿和频率变换/频率逆变换。
因此,对最大编码单元的每个区域中的具有分层结构的每个编码单元递归地执行编码来确定最优编码单元,从而可获得具有递归树结构的编码单元。编码信息可包括关于编码单元的划分信息、关于分区类型的信息、关于预测模式的信息和关于变换单元的尺寸的信息。表1示出可由根据实施例的视频编码设备100和根据实施例的视频解码设备200设置的编码信息。
[表1]
根据实施例的视频编码设备100的输出单元130可输出关于具有树结构的编码单元的编码信息,根据实施例的视频解码设备200的图像数据和编码信息提取器220可从接收到的比特流提取关于具有树结构的编码单元的编码信息。
划分信息指示是否将当前编码单元划分成更低深度的编码单元。如果当前深度d的划分信息是0,则当前编码单元不再被划分到更低深度的深度是编码深度,从而可针对所述编码深度来定义关于分区类型、预测模式和变换单元的尺寸的信息。如果当前编码单元根据划分信息被进一步划分,则需对更低深度的四个划分编码单元独立地执行编码。
预测模式可以是帧内模式、帧间模式和跳过模式中的一种。可针对所有分区类型定义帧内模式和帧间模式,可仅在尺寸为2N×2N的分区类型中定义跳过模式。
关于分区类型的信息可指示通过对称地划分预测单元的高度或宽度而获得的尺寸为2N×2N、2N×N、N×2N和N×N的对称分区类型,以及通过非对称地划分预测单元的高度或宽度而获得的尺寸为2N×nU、2N×nD、nL×2N和nR×2N的非对称分区类型。可通过按1:3和3:1划分预测单元的高度来分别获得尺寸为2N×nU和2N×nD的非对称分区类型,可通过按1:3和3:1划分预测单元的宽度来分别获得尺寸为nL×2N和nR×2N的非对称分区类型。
可将变换单元的尺寸设置成帧内模式下的两种类型和帧间模式下的两种类型。换句话说,如果变换单元的划分信息是0,则变换单元的尺寸被设置为2N×2N,即当前编码单元的尺寸。如果变换单元的划分信息是1,则可通过对当前编码单元进行划分来获得变换单元。另外,如果尺寸为2N×2N的当前编码单元的分区类型是对称分区类型,则变换单元的尺寸可被设置为N×N,如果当前编码单元的分区类型是非对称分区类型,则变换单元的尺寸可被设置为N/2×N/2。
关于根据实施例的具有树结构的编码单元的编码信息可被分配给与编码深度相应的编码单元、预测单元和最小单元中的至少一个。与编码深度相应的编码单元可包括包含相同编码信息的预测单元和最小单元中的至少一个。
因此,通过比较邻近数据单元的编码信息来确定邻近数据单元是否被包括在与编码深度相应的同一编码单元中。另外,可通过使用数据单元的编码信息来确定与编码深度相应的相应编码单元,并因此可确定最大编码单元中的编码深度的分布。
因此,如果通过参考邻近数据单元来对当前编码单元进行预测,则可直接参考并使用与当前编码单元邻近的较深层编码单元中的数据单元的编码信息。
可选地,如果通过参考邻近数据单元来对当前编码单元进行预测编码,则可通过使用数据单元的编码信息来搜索与较深层编码单元中的当前编码单元邻近的数据单元,并可参考搜索到的邻近编码单元以对当前编码单元进行预测编码。
图13是用于描述根据表1的编码模式信息的编码单元、预测单元和变换单元之间的关系的示图。
最大编码单元1300包括多个编码深度的编码单元1302、1304、1306、1312、1314、1316和1318。这里,由于编码单元1318是编码深度的编码单元,因此划分信息可以被设置成0。可将关于尺寸为2N×2N的编码单元1318的分区类型的信息设置成以下分区类型中的一种:尺寸为2N×2N的分区类型1322、尺寸为2N×N的分区类型1324、尺寸为N×2N的分区类型1326、尺寸为N×N的分区类型1328、尺寸为2N×nU的分区类型1332、尺寸为2N×nD的分区类型1334、尺寸为nL×2N的分区类型1336以及尺寸为nR×2N的分区类型1338。
变换单元的划分信息(TU(变换单元)尺寸标记)是一类型的变换索引。与变换索引相应的变换单元的尺寸可根据编码单元的预测单元类型或分区类型而被改变。
例如,当分区类型被设置成对称(即,分区类型1322、分区类型1324、分区类型1326或分区类型1328)时,如果变换单元的划分信息(TU尺寸标记)是0,则可设置尺寸为2N×2N的变换单元1342,如果TU尺寸标记是1,则可设置尺寸为N×N的变换单元1344。
当分区类型被设置成非对称(即,分区类型1332、分区类型1334、分区类型1336或分区类型1338)时,如果TU尺寸标记是0,则可设置尺寸为2N×2N的变换单元1352,如果TU尺寸标记是1,则可设置尺寸为N/2×N/2的变换单元1354。
参照图13,TU尺寸标记是具有值0或1的标记,但TU尺寸标记不限于1比特,并且在TU尺寸标记从0增加的同时,变换单元可被分层划分为具有树结构。变换单元的划分信息(TU尺寸标记)可是变换索引的示例。
在这种情况下,当通过将根据示例性实施例的变换单元的TU尺寸标记与变换单元的最大尺寸和最小尺寸一起使用时,实际上已使用的变换单元的尺寸可被表示。根据示例性实施例,视频编码设备100能够对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记进行编码。对最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记进行编码的结果可被插入到SPS中。根据示例性实施例,视频解码设备200可通过使用最大变换单元尺寸信息、最小变换单元尺寸信息和最大TU尺寸标记来对视频进行解码。
例如,(a)如果当前编码单元的尺寸是64×64并且最大变换单元是32×32,则(a-1)当TU尺寸标记为0时,变换单元的尺寸可以是32×32;(a-2)当TU尺寸标记为1时,变换单元的尺寸可以是16×16,(a-3)当TU尺寸标记为2时,变换单元的尺寸可以是8×8。
作为另一示例,(b)如果当前编码单元的尺寸是32×32并且最小变换单元尺寸是32×32,则(b-1)当TU尺寸标记为0时,变换单元的尺寸可以是32×32。这里,由于变换单元的尺寸不能够小于32×32,因此TU尺寸标记不能被设置为0以外的值。
作为另一示例,(c)如果当前编码单元的尺寸是64×64并且最大TU尺寸标记为1,则TU尺寸标记可以是0或1。这里,TU尺寸标记不能被设置为0或1以外的值。
因此,如果定义最大TU尺寸标记是“MaxTransformSizeIndex”,最小变换单元尺寸是“MinTransformSize”,并且当TU尺寸标记为0时变换单元尺寸是“RootTuSize”,则可通过下面的等式(1)来定义可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。
CurrMinTuSize=max(MinTransformSize,RootTuSize/(2^MaxTransformSizeIndex))……(1)
与在当前编码单元中可确定的当前最小变换单元尺寸“CurrMinTuSize”相比,在TU尺寸标记为0时的变换单元尺寸“RootTuSize”可指示可在系统中选择的最大变换单元尺寸。在等式(1)中,“RootTuSize/(2^MaxTransformSizeIndex)”表示在当TU尺寸标记为0时变换单元尺寸“RootTuSize”被划分与最大TU尺寸标记相应的次数的时候的变换单元尺寸,“MinTransformSize”表示最小变换单元尺寸。因此,“RootTuSize/(2^MaxTransformSizeIndex)”和“MinTransformSize”之中较小的值可以是可在当前编码单元中确定的当前最小变换单元尺寸“CurrMinTuSize”。
根据示例性实施例,最大变换单元尺寸“RootTuSize”可根据预测模式的类型而变化。
例如,如果当前预测模式是帧间模式,则可通过使用以下的等式(2)来确定“RootTuSize”。在等式(2)中,“MaxTransformSize”表示最大变换单元尺寸,“PUSize”指示当前预测单元尺寸。
RootTuSize=min(MaxTransformSize,PUSize)……(2)
换句话说,如果当前预测模式是帧间模式,则TU尺寸标记为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前预测单元尺寸之中较小的值。
如果当前分区单元的预测模式是帧内模式,则可通过使用以下的等式(3)来确定“RootTuSize”。在等式(3)中,“PartitionSize”表示当前分区单元的尺寸。
RootTuSize=min(MaxTransformSize,PartitionSize)……(3)
换句话说,如果当前预测模式是帧内模式,则当TU尺寸标记为0时的变换单元尺寸“RootTuSize”可以是最大变换单元尺寸和当前分区单元尺寸之中较小的值。
然而,根据分区单元中的预测模式的类型而变化的当前最大变换单元尺寸“RootTuSize”仅是示例,本发明不限于此。
以上参照图1至图13描述的包括具有树结构的编码单元的最大编码单元被不同地命名为编码单元树、块树、根块树、编码树、编码根或树干(treetrunk)。
以下将参照图14至图13描述根据本发明的实施例的基于具有树结构的编码单元的多视点视频编码方法和多视点视频解码方法。
图14是根据本发明的实施例的多视点视频编码设备1400的框图。
参照图14,根据本发明的实施例的多视点视频编码设备1400包括图像编码器1410和输出单元1420。多视点视频编码设备1400可接收图像序列(诸如2D视频、3D视频和多视点视频)并对图像序列进行编码。
图像编码器1410与视频编码层相应。输出单元1420与网络抽象层(NAL)相应,其中,所述NAL将编码的视频数据和附加信息添加到预定格式的发送单元数据,并输出编码的视频数据和附加信息。根据实施例,发送单元数据可以是NAL单元。
为了允许各种终端在各种网络环境中提供最优服务,多视点视频编码设备1400按照以下方式可伸缩地产生并输出包括各种空间分辨率、质量、各种帧率和多视点图像的比特流:所述比特流可根据各种终端中的每种终端的性能被重构。也就是说,图像编码器1410可根据各种可伸缩扩展类型(SET)对输入图像进行编码,并且产生并输出可伸缩视频比特流。可伸缩扩展类型包括时间、空间、质量和多视点可伸缩性。
视频流根据接收终端的性能而划分为有效子流的情况被称为可伸缩性。例如,空间可伸缩比特流包括分辨率低于原始分辨率的子流,时间可伸缩比特流包括帧率低于原始帧率的子流。质量可伸缩比特流包括与整个比特流具有相同空时(spatio-tempora)分辨率并且比整个比特流具有更小的保真度或信噪比(SNR)的子流。多视点可伸缩比特流在单个比特流内包括具有不同视点的子流。作为示例,立体视觉图像包括左图像和右图像。
不同的可伸缩扩展类型可彼此组合。在这种情况下,单个可伸缩视频比特流可包括具有不同的空时分辨率、不同的质量和不同视点的编码图像。
输出单元1420将编码图像的可伸缩扩展类型添加到比特流并输出所述可伸缩扩展类型。
图15是根据本发明的实施例的图14的图像编码器1410的框图。
参照图15,图像编码器1410包括时间可伸缩编码器1411、空间可伸缩编码器1412、质量可伸缩编码器1413和多视点编码器1414。
时间可伸缩编码器1411对输入图像进行时间和可伸缩的编码,以产生并输出时间可伸缩比特流。时间可伸缩比特流在单个比特流中包括具有不同帧率的子流。例如,参照图16,时间可伸缩编码器1411可对帧率为7.5Hz的第一时间层1630的图像进行编码,以产生作为基本层的第一时间层的比特流。在这种情况下,输出单元1420可将时间ID=0添加到通过对第一时间层1630的图像进行编码而产生的比特流来作为指示所述图像属于第一时间层1630的时间SET。类似地,时间可伸缩编码器1411可对帧率为15Hz的第二时间层1620的图像进行编码,以产生作为增强层的第二时间层的比特流。在这种情况下,输出单元1420可将时间ID=1添加到通过对第二时间层1620的图像进行编码而产生的比特流来作为指示所述图像属于第二时间层1620的时间SET。类似地,时间可伸缩编码器1411可对帧率为30Hz的第三时间层1610的图像进行编码,以产生作为增强层的第三时间层的比特流。在这种情况下,输出单元1420可将时间ID=2添加到通过对第三时间层1610的图像进行编码而产生的比特流来作为指示所述图像属于第三时间层1630的时间SET。当对包括在第一时间层1610、第二时间层1620和第三时间层1630中的图像进行编码时,时间可伸缩编码器1411可通过使用第一时间层1610、第二时间层1620和第三时间层1630之间的相关性来执行编码。时间可伸缩编码器1411可通过使用被运动补偿的时间过滤或分层的B画面来产生时间可伸缩比特流。
空间可伸缩编码器1412对输入图像进行空间和可伸缩的编码,以产生并输出空间可伸缩比特流。空间可伸缩比特流在单个比特流中包括具有不同帧率的子流。例如,参照图17,空间可伸缩编码器1412可对第一空间层1710的具有QVGA分辨率的图像进行编码,以产生作为基本层的第一空间层1710的比特流。在这种情况下,输出单元1420可将空间ID=0添加到通过对第一空间层1710的图像进行编码而产生的比特流来作为指示所述图像属于第一空间层1710的空间SET。类似地,空间可伸缩编码器1412可对第二空间层1720的具有VGA分辨率的图像进行编码,以产生作为增强层的第二空间层的比特流。在这种情况下,输出单元1420可将空间ID=1添加到通过对第二空间层1720的图像进行编码而产生的比特流来作为指示所述图像属于第二空间层1720的空间SET。类似地,空间可伸缩编码器1412可对第三空间层1730的具有WVGA分辨率的图像进行编码以产生作为增强层的第三空间层的比特流。在这种情况下,输出单元1420可将空间ID=2添加到通过对第三空间层1730的图像进行编码而产生的比特流来作为指示所述图像属于第三空间层1730的空间SET。当对包括在第一空间层1710、第二空间层1720和第三空间层1730中的图像进行编码时,空间可伸缩编码器1412可通过使用第一空间层1710、第二空间层1720和第三空间层1730之间的相关性来执行编码。
质量可伸缩编码器1413对输入图像进行质量可伸缩的编码,以产生并输出质量可伸缩比特流。质量可伸缩编码器1413可通过使用粗粒度可伸缩性(CGS)、中等粒度可伸缩性(MGS)和细粒度可伸缩性(FGS)来对输入图像进行质量可伸缩的编码。质量可伸缩编码器1413可建立质量ID=0作为用于标识通过使用CGS的第一质量层的比特流的质量SET,建立质量ID=1作为用于标识通过使用MGS的第二质量层的比特流的质量SET,并建立质量ID=2作为用于标识通过使用GGS的第三质量层的比特流的质量SET。输出单元1420将建立的质量SET添加到比特流中并输出建立的质量SET。
多视点编码器1414对多视点图像和深度图图像进行编码并输出多视点图像和深度图图像,并且建立指示编码图像是与基本视点图像相关还是与附加视点图像相关的SET、指示编码图像是纹理图像还是深度图图像的深度标记以及编码图像的视点ID。例如,当SET具有2比特时,“01”指示附加视点图像,“11”指示基本视点图像,如果深度标记为0,则编码图像是纹理图像,如果深度标记为1,则编码图像是深度图图像,多视点编码器1414根据编码图像是与基本视点图像相关还是与附加视点图像相关来建立具有“01”或“10”的SET,并根据编码图像是纹理图像还是深度图图像来建立深度标记。多视点编码器1414根据属于编码图像的视点来建立视点ID。如稍后将描述的,由于可基于SET针对基本视点图像来确定视点,因此可另外建立基本视点图像的时间ID而非视点ID。针对基本视点图像建立的时间ID可被用作由同一访问单元发送的另一附加视点图像的时间ID。输出单元1420将建立的SET、深度标记和视点ID添加到比特流并输出建立的SET、深度标记和视点ID。
如上所述,不同的SET可彼此组合。因此,图像编码器1410可将输入图像序列分类为具有不同的空时分辨率、不同的质量和不同视点的层图像,并根据分类的层来对层图像进行编码,以产生具有不同的空时分辨率、不同的质量和不同视点的比特流。例如,参照图18,当图像编码器1410对包括具有左视点和时间分辨率为30Hz的图像序列1810的图像帧进行编码以产生比特流时,视点ID=0和时间ID=1可被建立为指示应用于图像序列1810的SET的信息。当图像编码器1410对包括具有左视点和时间分辨率为15Hz的图像序列1820的图像帧进行编码以产生比特流时,视点ID=0和时间ID=0可被建立为指示应用于图像序列1820的SET的信息。当图像编码器1410对包括具有右视点和时间分辨率为30Hz的图像序列1830的图像帧进行编码以产生比特流时,视点ID=1和时间ID=1可被建立为指示应用于图像序列1830的SET的信息。当图像编码器1410对包括具有右视点和时间分辨率为15Hz的图像序列1840的图像帧进行编码以产生比特流时,视点ID=1和时间ID=0可被建立为指示应用于图像序列1840的SET的信息。
图19是用于解释根据本发明的实施例的视频编码和解码处理的分层分类的示图。
参照图19,视频编码和解码处理可包括视频编码层(VCL)1910中所执行的编码和解码处理以及由NAL 1920执行的编码和解码处理,其中,VCL1910对视频编码本身进行处理,在用于发送和存储编码图像数据的从属系统1930与VCL 1910之间,NAL 1920将编码图像数据和附加信息产生为具有预定格式的比特流或接收编码图像数据和附加信息。作为示例,作为由图14的多视点视频编码设备1400的图像编码器1410执行的编码处理的输出的编码数据1911是VCL数据,并通过输出单元1420被映射到VCL NAL单元1921。与编码处理相关的多条参数集信息1912(诸如用于在VCL 1910中产生编码数据1911的预测模式信息和关于编码单元的SET)被映射到非VCL NAL(non-VLC NAL)单元1922。SET可通过被包括在NAL单元之中的针对未来扩展而保留的NAL单元中而被发送。
图20a和图20b示出根据本发明的实施例的NAL单元的头的示例。除了多视点视频数据或可伸缩视频数据以外,图20a和图20b的NAL单元被用于发送单视点视频数据。
参照图20a和图20b,NAL单元的头的总长度为2字节(0~7:1字节)。NAL单元的头包括具有作为用于标识NAL单元的比特的“0”的forbidden_zero_bit(F)2010、指示NAL单元的类型的ID NAL单元类型(NUT)2020、针对未来使用而保留的区域reserved_zero_6bits 2030、以及时间ID(TID)2040。ID NUT 2020和保留区域2030中的每一个包括6比特。TID2040可包括3比特。
为了对图20a和图20b的NAL单元执行多视点和可伸缩视频扩展,根据实施例的输出单元1420可使用NAL单元的头的区域之中针对未来使用而保留的区域reserved_zero_6bits 2030以及TID 2040。
图21示出根据本发明的实施例的用于可伸缩扩展的NAL单元的头。
参照图21,根据实施例的用于可伸缩扩展的NAL单元的头除了包括具有作为用于标识NAL单元的比特的“0”的forbidden_zero_bit(F)和指示NAL单元的类型的ID NUT,还包括SET 2110和层ID(LID)2120,其中,所述LID 2120指示包括在SET表中的多个SET的组合之中的编码图像的SET。
NUT nal_unit_type可包括瞬时解码刷新(IDR)画面、完全随机访问(CRA)画面、SPS、画面参数集(PPS)、补充增强信息(SEI)、保留用于未来扩展的NAL单元以及根据其值的未指定的NAL单元。下面的表2是根据ID NUT的值的NAL单元的类型的示例。
[Table 2]
nal_unit_type NAL单元的类型
0 未指定
1 除CRA以外的画面和除IDR以外的画面条带
2-3 保留用于未来扩展
4 CRA画面的像条
5 IDR画面的像条
6 SEI
7 SPS
8 PPS
9 访问单元(AU)分隔符
10-11 保留用于未来扩展
12 填充数据
13 保留用于未来扩展
14 APS
15-23 保留用于未来扩展
24-64 未指定
根据实施例,NUT的值将指示SET的信息添加到具有值2-3、10-11、13、15-23和24-64之一的NAL单元。也就是说,根据本发明的实施例,与另一视频压缩标准兼容并提供可伸缩性的比特流可通过将SET添加到保留用于未来扩展的NAL单元或未指定的NAL单元来产生。本实施例不限于以上表2的NAL单元的类型。在各种视频压缩标准中,保留用于未来扩展的NAL单元或未指定的NAL单元可用作用于发送SET的数据单元。
再参照图21,NAL单元的头包括:SET 2110和LID 2120,其中,SET 2110包括M个比特(M是整数),LID 2120包括针对SET的n个比特(N是整数)。
图22是根据本发明的实施例的SET的表。
当SET 2110具有特定值k(k是整数)时,SET的表可被指定。假设当SET 2110具有特定值k时,图22的SET的表被指定。SET的组合可根据LID2120的值来确定。例如,如果假设SET 2110具有特定值k并且LID 2120具有值6,则相应的NAL单元是具有作为SET的组合2210的、依赖性ID=1、质量ID=0、视点ID=1并且时间ID=0的SET的数据单元。
尽管当SET 2110具有特定值k时在图22中示出了SET的表,但由于当SET 2110包括如图21中所示的M个比特时SET 2110最大具有值2^M,因此2^M个SET的表可根据SET 2110的值而被预先指定。图22的SET的表可在视频编码设备和视频解码设备中被预先指定,并可通过SPS、PPS和SEI消息从视频编码设备发送到视频解码设备。
图23示出根据本发明的另一实施例的用于可伸缩扩展的NAL单元的头。
如以上参照图21所描述的NAL单元的头,根据另一实施例,SET通过指定保留用于未来扩展的区域和TID区域而被包括。
输出单元1420再次指定图20的保留区域和TID区域,并建立包括J个比特(J是整数)的第一子层索引Sub_LID02320和包括K个比特的第二子层索引Sub_LID12330。
图23的SET 2310是组合的可伸缩索引信息,并被用于确定多个SET中的哪个SET与第一子层索引Sub_LID02320和第二子层索引Sub_LID12330中的每一个相应,其中,所述组合的可伸缩索引信息指示哪个SET与第一子层索引Sub_LID02320和第二子层索引Sub_LID12330中的每一个相应。
图24是根据图23的NAL单元的头的SET 2310指示第一子层索引Sub_LID02320和第二子层索引Sub_LID12330的SET的表。
参照图23和图24,所述表根据SET 2310的值示出指示第一子层索引Sub_LID02320的值和第二子层索引Sub_LID12330的值的SET。例如,当SET 2310具有值1时,第一子层索引Sub_LID02320的值指示SET视点ID,第二子层索引Sub_LID12330的值指示SET TID。当SET 2310具有值2时,第一子层索引Sub_LID02320的值指示SET dependency_id,第二子层索引Sub_LID12330的值指示SET quality_id。
图24的表包括与图23的第一子层索引Sub_LID02320和第二子层索引Sub_LID12330相关的2个子层索引,但不限于此。子层索引可在可用比特数量范围内扩展为指示两个或更多个SET。指示第一子层索引Sub_LID02320和第二子层索引Sub_LID12330的SET可根据SET 2310而被改变。
根据另一实施例的一种确定SET的方法可与根据实施例的一种通过参照SET的表来确定编码图像的SET的方法结合。例如,参照图24,当SET 2310具有值0时,指示包括在SET的表中的多个SET的组合之中的编码图像的SET的priority_id,而不是第一子层索引Sub_LID02320和第二子层索引Sub_LID12330,可被包括。SET的表可在视频编码设备和视频解码设备中被预先指定,并可通过SPS、PPS和SEI消息从视频编码设备发送到视频解码设备。
图25示出根据本发明的实施例的用于多视点扩展的NAL单元的头。
参照图25,输出单元1420再次指定图20的用于多视点扩展的NAL单元的头的区域之中的保留用于未来扩展的区域以及TID区域,并且将多视点ID包括在NAL单元的头中。
输出单元1420再次指定图20的所述保留区域和TID区域,并建立包括2比特的SET 2510、包括1比特的深度标记D 2520以及视点ID 2530。SET 2510指示基本视点图像和附加视点图像之中的哪个视点图像与包括在NAL单元中的图像相关。深度标记D 2520指示包括在NAL单元中的图像是纹理图像还是深度图图像。视点ID 2530指示包括在NAL单元中的图像的视点。如果从0至n-1的n个视点可用,则视点ID 2530是指示所述n个视点之一的索引。
图26是根据本发明的实施例的根据用于多视点扩展的NAL单元的头的SET的多视点ID的表。
参照图26,当SET 2510具有值0或2时,可指示NAL单元保留用于未来扩展。当SET 2510具有值1时,包括在当前NAL单元中的数据是附加视点图像。包括附加视点图像的NAL单元包括1比特的深度标记depth_flag 2610以及附加视点图像的视点ID view_id 2620,其中,所述深度标记depth_flag2610指示当前NAL单元是纹理图像还是深度图图像。当深度标记depth_flag2610为0时,包括在当前NAL单元中的图像是纹理图像。当深度标记depth_flag 2610为1时,包括在当前NAL单元中的图像是深度图图像。当多视点图像包括两个或更多个多视点图像时,由于必须指示哪个视点图像是包括在当前NAL单元中的附加视点图像,因此视点ID view_id 2620被添加。
当SET 2510的值为3时,包括在当前NAL单元中的数据指示基本视点图像。如上所述,包括附加视点图像的NAL单元可包括用于指示当前NAL单元是纹理图像还是深度图像的1比特的深度标记depth_flag 2630。如果SET2510的值为3,并且包括在当前NAL单元中的数据被确定为基本视点图像,则由于包括在当前NAL单元中的数据的视点可被确定为基本视点,因此不需要另外地发送视点ID view_id。因此,当SET 2510的值为3时的关于基本视点图像的NAL单元包括TID temporal_id 2640而非视点ID view_id。如果TIDtemporal_id 2640通过被添加到关于基本视点图像的NAL单元的头而被发送,则编码端可针对附加视点图像建立与基本视点图像的TID temporal_id相同的TID,其中,所述附加视点图像通过被包括在与包括基本视点图像的NAL单元相同的访问单元中而被发送。
图27是根据本发明的实施例的用于多视点扩展的NAL单元的语法结构的表。
参照图27,根据实施例的用于多视点扩展的NAL单元的头除了包括具有作为用于标识NAL单元的比特的值0的forbidden_zero_bit以及指示NAL单元的类型的ID nal_unit_type以外,还包括指示基本视点图像和附加视点图像之中的哪个视点图像与包括在NAL单元中的图像相关的SET、指示包括在NAL单元中的图像是纹理图像还是深度图图像的深度标记depth_flag、以及包括在NAL单元中的图像的视点ID view_id。当视点ID view_id未包括在头中时,NAL单元的图像的视点可被确定为作为图像的默认视点的基本视点。
图28是根据本发明的另一实施例的用于多视点扩展的NAL单元的语法结构的表。
参照图28,根据实施例的用于多视点扩展的NAL单元的头除了包括具有作为用于标识NAL单元的比特的值0的forbidden_zero_bit以及指示NAL单元的类型的ID nal_unit_type以外,还包括指示基本视点图像和附加视点图像之中的哪个视点图像与包括在NAL单元中的图像相关的SET。如上所述,当SET为1时,包括在NAL单元中的图像是附加视点图像,当SET为3时,包括在NAL单元中的图像是基本视点图像。如果SET为1并且包括在NAL单元中的图像是附加视点图像,则NAL单元的头可包括指示包括在NAL单元中的图像是纹理图像还是深度图图像的深度标记depth_flag以及包括在NAL单元中的视点ID view_id。如果SET为1并且包括在NAL单元中的图像是基本视点图像,则NAL单元的头可包括NAL单元中所包括的基本视点图像的TID temporal_id。包括基本视点图像的NAL单元可另外地包括指示包括在NAL单元中的图像是纹理图像还是深度图图像的深度标记depth_flag。
图29是根据本发明的实施例的多视点视频编码方法的流程图。
参照图29,在操作S2910,图像编码器1410对包括在多视点视频中的多视点图像进行编码。图像编码器1410可建立指示基本视点图像和附加视点图像之中的哪个视点图像与将被编码的图像相关的SET、指示将被编码的图像是纹理图像还是深度图图像的深度标记depth_flag、以及将被编码的图像的视点ID。如上所示,当SET具有2比特时,“01”指示附加视点图像,“11”指示基本视点图像,如果深度标记为0,则将被编码的图像是纹理图图像,如果深度标记为1,则将被编码的图像是深度图图像。多视点编码器1414根据将被编码的图像是与基本视点图像相关还是与附加视点图像相关来建立具有值“01”或“10”的SET,并根据将被编码的图像是纹理图像还是深度图图像来建立深度标记。多视点编码器1414还根据属于将被编码的图像的视点建立视点ID。
在操作S2920,输出单元1420将建立的SET、深度标记以及视点ID添加到比特流中,并输出建立的SET、深度标记以及视点ID。更详细地,输出单元1420按NAL单元对编码的多视频图像进行复用,并将建立的SET、深度标记以及视点ID添加到NAL单元的头。如上所述,输出单元1420可将TID temporal_id而非视点ID view_id包括在包括基本视点图像的NAL单元中。如果TID temporal_id通过被添加到基本视点图像的NAL单元的头而被发送,则解码端可针对通过被包括在与包括基本视点图像的NAL单元相同的访问单元中而被发送的附加视点图像,通过使用基本视点图像的TIDtemporal_id来建立TID。
图30是根据本发明的实施例的多视点视频解码设备3000的框图。
参照图30,多视点解码设备300包括接收器3010和图像解码器3020。
根据本发明的实施例,接收器3010接收NAL的NAL单元并获得NAL单元,其中,所述NAL单元包括SET或多视点扩展信息。包括SET或多视点扩展信息的NAL单元可通过使用指示NAL单元的类型的ID nal_unit_type(NUT)来确定。如上所述,根据本发明的实施例的SET或多视点扩展信息可被包括在保留用于未来扩展的NAL单元或未使用的NAL单元中。
接收器3010解析包括SET的NAL单元,以确定当前解码的图像具有哪种可伸缩性。如果如图21中所示,包括SET的NAL单元包括表索引信息SET2110以及层索引信息LID 2120,则接收器3010根据表索引信息SET 2110的值来确定多个SET表之一,并通过使用层索引信息LID 2120来从所确定的SET表确定多个SET的组合之一,其中,表索引信息SET 2110指示限定多个SET的可用组合的多个SET表中的一个SET表,层索引信息LID 2120指示包括在多个SET表中的多个SET的组合之中的编码图像的SET。
如果如图23中所示,包括SET的NAL单元包括组合的可伸缩索引信息SET 2310和多条子层索引信息Sub_LID02320和Sub_LID12330,则接收器3010基于组合的SET 2310的值来确定多条子层索引信息Sub_LID02320和Sub_LID12330被映射到多个SET之中的哪个SET,并根据所述多条子层索引信息Sub_LID02320和Sub_LID12330的值来确定特定映射的SET。
接收器3010可解析包括多视点扩展信息的NAL单元,以获得与当前解码的图像相关的多视点信息。接收器3010可从NAL单元的头获得指示基本视点图像和附加视点图像之中的哪个视点图像与包括在NAL单元中的图像相关的SET、指示包括在NAL单元中的图像是纹理图像还是深度图图像的深度标记depth_flag、以及视点ID。图像解码器3020基于SET确定包括在NAL单元中的图像是基本视点图像还是附加视点图像。如上所述,当SET具有2比特时,“01”指示附加视点图像,“11”指示基本视点图像,如果深度标记是0,则包括在NAL单元中的图像是纹理图像,如果深度标记是1,则包括在NAL单元中的图像是深度图图像,图像解码器3020可基于SET的值来确定基本视点图像和附加视点图像之中的哪个视点图像是包括在NAL单元中的图像。图像解码器3020可基于获得的深度标记来确定包括在NAL单元中的图像是纹理图像还是深度图图像,并基于视点ID view_id来确定包括在NAL单元中的图像的视点。
当TID temporal_id而不是视点ID view_id被包括在包括基本视点图像的NAL单元中时,图像解码器3020可针对通过被包括在与包括基本视点图像的NAL单元相同的访问单元中而被发送的附加视点图像,通过使用基本视点图像的TID temporal_id来建立TID。也就是说,图像解码器3020可按照包括在同一访问单元中的基本视点图像和附加视点图像可具有针对基本视点图像而建立的TID temporal_id的方式来建立TID。
图像解码器3020基于SET或多视点扩展信息对图像进行解码,以输出可伸缩图像或多视点图像。
图31是根据本发明的实施例的多视点视频解码方法的流程图。
参照图31,在操作S3110,接收器3010接收复用有编码的多视点图像数据的预定数据单元。在操作S3120,接收器3010获得SET、深度标记和包括在数据单元中的数据的视点信息,其中,SET指示基本视点图像和附加视点图像之中的哪个视点图像与包括在所述数据单元中的数据相关,深度标记指示纹理图像和深度图图像之中的哪个图像与包括在所述数据单元中的数据相关。如上所述,接收器3010可从NAL单元的头获得SET、深度标记和包括在NAL单元中的图像的视点信息,其中,SET指示基本视点图像和附加视点图像之中的哪个视点图像与包括在NAL单元中的图像相关,深度标记指示纹理图像或深度图图像之中的哪个图像与包括在NAL单元中的图像相关。
在操作S3130,图像解码器3020基于获得的信息来确定包括在数据单元中的数据的SET、确定所述数据是纹理图像还是深度图图像,并确定所述数据的视点。如上所述,图像解码器3020基于SET确定包括在NAL单元中的图像是基本视点图像还是附加视点图像。图像解码器3020可基于获得的深度标记来确定包括在NAL单元中的图像是纹理图像还是深度图图像,并基于视点ID view_id来确定包括在NAL单元中的图像的视点。
当TID temporal_id而非视点ID view_id被包括在包括基本视点图像的NAL单元中时,图像解码器3020可针对通过被包括在与包括基本视点图像的NAL单元相同的访问单元中而被发送的附加视点图像,通过使用基本视点图像的TID temporal_id来建立TID。
图像解码器3020基于获得的SET或多视点扩展信息来对图像进行解码,以输出可伸缩图像或多视点图像。
根据本发明的实施例可被编写为计算机程序并可在通过使用计算机可读记录介质运行所述程序的通用数字计算机中被实现。计算机可读记录介质的示例包括磁存储介质(例如,只读存储器(ROM)、软盘和硬盘)、光学可读介质(例如,致密盘只读存储器(CD-ROM)或数字多功能盘(DVD))以及载波(诸如通过互联网的数据传输)。
虽然已参照本发明的示例性实施例具体示出并描述了本发明,但是本领域普通技术人员将理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可在示例性实施例中做出形式和细节上的各种改变。示例性实施例仅应考虑为描述意义,而不用于限制的目的。因此,本发明的范围不由本发明的详细描述来限定,而由权利要求来限定,并且本范围内的所有差异将被解释为包括在本发明中。

Claims (15)

1.一种多视点视频编码方法,所述方法包括:
对包括在多视点视频中的多视点图像进行编码;
按预定数据单元对编码的多视点图像进行复用,并将可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID添加到所述预定数据单元的头,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关。
2.如权利要求1所述的多视点视频编码方法,其中,所述预定数据单元是网络适应层(NAL)单元。
3.如权利要求1所述的多视点视频编码方法,其中,所述SET、所述深度标记以及所述视点ID被添加到保留区域和时间ID(TID)区域,其中,所述保留区域为针对NAL单元的头的未来扩展而建立。
4.如权利要求1所述的多视点视频编码方法,还包括:当包括在所述预定数据单元中的数据是基本视点图像时,将基本视点图像的时间ID(TID)而不是所述视点ID添加到所述预定数据单元的头。
5.一种多视点视频编码设备,所述设备包括:
图像编码器,用于对包括在多视点视频中的多视点图像进行编码;
输出单元,用于按预定数据单元对编码的多视点图像进行复用,并将可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID添加到所述预定数据单元的头,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关。
6.一种多视点视频解码方法,所述方法包括:
接收复用有编码的多视点图像数据的预定数据单元;
从所述预定数据单元的头获得可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关;
基于获得的信息来确定包括在所述预定数据单元中的数据的SET,确定所述数据是纹理图像还是深度图图像,并确定所述数据的视点。
7.如权利要求6所述的多视点视频解码,其中,所述预定数据单元是网络适应层(NAL)单元。
8.如权利要求6所述的多视点视频解码方法,其中,所述SET、所述深度标记以及所述视点ID被包括在保留区域和时间ID(TID)区域中,其中,所述保留区域为针对NAL单元的头的未来扩展而建立。
9.如权利要求6所述的多视点视频解码方法,还包括:当包括在所述预定数据单元中的数据是基本视点图像时,从所述预定数据单元的头获得基本视点图像的时间ID(TID)。
10.如权利要求9所述的多视点视频解码方法,还包括:通过使用基本视点图像的TID来确定附加视点图像的TID,其中,附加视点图像通过被包括在与包括基本视点图像的所述预定数据单元相同的访问单元中而被发送。
11.一种多视点视频解码设备,所述设备包括:
接收器,用于接收复用有编码的多视点图像数据的预定数据单元,并从所述预定数据单元的头获得可伸缩扩展类型(SET)、深度标记以及包括在所述预定数据单元中的数据的视点ID,其中,所述可伸缩扩展类型(SET)指示基本视点图像和附加视点图像之中的哪个视点图像与所述数据相关,所述深度标记指示纹理图像和深度图图像之中的哪个图像与所述数据相关;
图像解码器,用于基于获得的信息来确定包括在所述预定数据单元中的数据的SET,确定所述数据是纹理图像还是深度图图像,并确定所述数据的视点。
12.如权利要求11所述的多视点视频解码设备,其中,所述预定数据单元是网络适应层(NAL)单元。
13.如权利要求11所述的多视点视频解码设备,其中,所述SET、所述深度标记以及所述视点ID被包括在保留区域和时间ID(TID)区域中,其中,所述保留区域为针对NAL单元的头的未来扩展而建立。
14.如权利要求11所述的多视点视频解码设备,其中,当包括在所述预定数据单元中的数据是基本视点图像时,接收器从所述预定数据单元的头获得基本视点图像的时间ID(TID)。
15.如权利要求14述的多视点视频解码设备,其中,图像解码器通过使用基本视点图像的TID来确定附加视点图像的TID,其中,附加视点图像通过被包括在与包括基本视点图像的所述预定数据单元相同的访问单元中而被发送。
CN201380033261.7A 2012-04-23 2013-04-23 多视点视频编码方法和装置以及多视点视频解码方法和装置 Pending CN104412602A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261636900P 2012-04-23 2012-04-23
US61/636,900 2012-04-23
PCT/KR2013/003472 WO2013162259A1 (ko) 2012-04-23 2013-04-23 다시점 비디오 부호화 방법 및 장치, 다시점 비디오 복호화 방법 및 장치

Publications (1)

Publication Number Publication Date
CN104412602A true CN104412602A (zh) 2015-03-11

Family

ID=49483481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380033261.7A Pending CN104412602A (zh) 2012-04-23 2013-04-23 多视点视频编码方法和装置以及多视点视频解码方法和装置

Country Status (5)

Country Link
US (1) US9774883B2 (zh)
EP (1) EP2843944A4 (zh)
KR (1) KR102114416B1 (zh)
CN (1) CN104412602A (zh)
WO (1) WO2013162259A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015083985A1 (ko) * 2013-12-03 2015-06-11 주식회사 케이티 멀티 레이어 비디오 신호 인코딩/디코딩 방법 및 장치
GB2533775B (en) 2014-12-23 2019-01-16 Imagination Tech Ltd In-band quality data
EP3474562A1 (en) * 2017-10-20 2019-04-24 Thomson Licensing Method, apparatus and stream for volumetric video format

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102265617A (zh) * 2008-12-26 2011-11-30 日本胜利株式会社 图像编码装置、图像编码方法及其程序、以及图像解码装置、图像解码方法及其程序
KR20120027194A (ko) * 2009-04-21 2012-03-21 엘지전자 주식회사 다시점 비디오 신호 처리 방법 및 장치

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100428053B1 (ko) 2001-01-18 2004-04-27 이원교 인터넷을 이용한 유가증권 결제 시스템
EP2005752A4 (en) * 2006-03-30 2010-06-09 Lg Electronics Inc METHOD AND APPARATUS FOR DECODING / ENCODING A VIDEO SIGNAL
KR100813064B1 (ko) * 2006-05-19 2008-03-14 엘지전자 주식회사 비디오 영상 복호화/부호화 방법 및 장치, 데이터 포맷
TWI375469B (en) 2006-08-25 2012-10-21 Lg Electronics Inc A method and apparatus for decoding/encoding a video signal
KR101366288B1 (ko) * 2006-12-13 2014-02-21 엘지전자 주식회사 비디오 신호의 디코딩 방법 및 장치
WO2008127536A2 (en) 2007-04-12 2008-10-23 Thomson Licensing Methods and apparatus for video usability information (vui) for scalable video coding (svc)
KR101345544B1 (ko) * 2007-06-25 2013-12-26 세종대학교산학협력단 기본시점 복호 및 시점 임의 접근을 지원하기 위한 다시점비디오 부호화 시스템, 복호화 시스템 및 비트스트림 추출시스템
US20080317124A1 (en) 2007-06-25 2008-12-25 Sukhee Cho Multi-view video coding system, decoding system, bitstream extraction system for decoding base view and supporting view random access
US8300705B2 (en) 2008-12-08 2012-10-30 Electronics And Telecommunications Research Institute Method for generating and processing hierarchical PES packet for digital satellite broadcasting based on SVC video
KR101210578B1 (ko) 2008-12-23 2012-12-11 한국전자통신연구원 스케일러블 비디오 코딩에서의 비트율-왜곡값을 이용한 상위 계층의 빠른 부호화 방법 및 그 부호화 장치
US20100250764A1 (en) 2009-03-31 2010-09-30 Nokia Corporation Method and Apparatus for Signaling Layer Information of Scalable Media Data
CA2718447C (en) 2009-04-28 2014-10-21 Panasonic Corporation Image decoding method, image coding method, image decoding apparatus, and image coding apparatus
KR101307341B1 (ko) * 2009-12-18 2013-09-11 한국전자통신연구원 동적 개체 모션 캡쳐 방법 및 그 장치
KR20120015260A (ko) 2010-07-20 2012-02-21 한국전자통신연구원 스케일러빌리티 및 뷰 정보를 제공하는 스트리밍 서비스를 위한 방법 및 장치
US8190677B2 (en) 2010-07-23 2012-05-29 Seawell Networks Inc. Methods and systems for scalable video delivery
US9565449B2 (en) * 2011-03-10 2017-02-07 Qualcomm Incorporated Coding multiview video plus depth content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102265617A (zh) * 2008-12-26 2011-11-30 日本胜利株式会社 图像编码装置、图像编码方法及其程序、以及图像解码装置、图像解码方法及其程序
KR20120027194A (ko) * 2009-04-21 2012-03-21 엘지전자 주식회사 다시점 비디오 신호 처리 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BYEONGDOO CHOI ET AL.: "NAL unit header for scalable extension", 《JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 9TH MEETING》 *
JILL BOYCE ET AL.: "Information for scalable extension high layer syntax", 《 JOINT COLLABORATIVE TEAM ON VIDEO CODING (JCT-VC) OF ITU-T SG16 WP3 AND ISO/IEC JTC1/SC29/WG11 8TH MEETING》 *

Also Published As

Publication number Publication date
KR102114416B1 (ko) 2020-05-25
WO2013162259A1 (ko) 2013-10-31
KR20130119383A (ko) 2013-10-31
EP2843944A1 (en) 2015-03-04
US9774883B2 (en) 2017-09-26
US20150049803A1 (en) 2015-02-19
EP2843944A4 (en) 2015-09-23

Similar Documents

Publication Publication Date Title
CN102474614B (zh) 基于分层编码块样式信息的视频编码方法和设备以及视频解码方法和设备
CN102771124B (zh) 通过使用任意分区进行运动预测来对视频进行编码的方法和设备,以及通过使用任意分区进行运动预测来对视频进行解码的方法和设备
CN102474612B (zh) 用于对视频进行编码的方法和设备以及用于对视频进行解码的方法和设备
CN102577383B (zh) 基于编码单元的分层结构用于对视频进行编码的方法和设备以及用于对视频进行解码的方法和设备
CN102948145B (zh) 基于根据树结构确定的编码单元的视频编码方法和视频编码设备以及基于根据树结构确定的编码单元的视频解码方法和视频解码设备
CN104620587B (zh) 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备
CN103238321B (zh) 用于对分层结构的符号进行编解码的视频编解码方法及其装置
CN102474615B (zh) 使用自适应环路滤波的视频编码和解码方法以及视频编码和解码装置
CN104838649A (zh) 针对随机访问的用于对视频进行编码的方法和设备以及用于对视频进行解码的方法和设备
CN104780382A (zh) 用于对视频进行解码的方法和设备
CN104380746A (zh) 多视点视频编码方法和装置以及多视点视频解码方法和装置
CN103959776A (zh) 根据像素分类使用偏移调整的视频编码方法及其设备、视频解码方法及其设备
CN104322067A (zh) 基于树结构的编码单元对可伸缩视频进行编码的方法和装置以及基于树结构的编码单元对可伸缩视频进行解码的方法和装置
CN104796699A (zh) 对视频编码的方法和设备以及对视频解码的方法和设备
CN105075261A (zh) 用于对多层视频进行编码的方法和设备以及用于对多层视频进行解码的方法和设备
CN104365104A (zh) 用于基于树结构编码单元进行多视点视频编码的方法和设备以及用于基于树结构编码单元进行多视点视频解码的方法和设备
CN103765908A (zh) 用于对视频数据进行复用和解复用以识别视频数据的再现状态的方法和设备
CN104604226A (zh) 具有时间可伸缩性的对视频进行编码的方法和设备以及具有时间可伸缩性的对视频进行解码的方法和设备
CN105284115A (zh) 用于对多层视频进行解码的方法和设备以及用于对多层视频进行编码的方法和设备
CN105308962A (zh) 多层视频编码方法和装置以及多层视频解码方法和装置
CN105191314A (zh) 用于对多层视频进行编码的方法和设备、用于对多层视频进行解码的方法和设备
CN104412602A (zh) 多视点视频编码方法和装置以及多视点视频解码方法和装置
CN105308963A (zh) 用于对多层视频进行解码的方法和设备以及用于对多层视频进行编码的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150311

WD01 Invention patent application deemed withdrawn after publication