CN104798377A - 用于多视图、三维(3d)及可缩放视频位流的子位流提取 - Google Patents
用于多视图、三维(3d)及可缩放视频位流的子位流提取 Download PDFInfo
- Publication number
- CN104798377A CN104798377A CN201380051072.2A CN201380051072A CN104798377A CN 104798377 A CN104798377 A CN 104798377A CN 201380051072 A CN201380051072 A CN 201380051072A CN 104798377 A CN104798377 A CN 104798377A
- Authority
- CN
- China
- Prior art keywords
- view
- bit stream
- sub
- extract
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 173
- 239000000284 extract Substances 0.000 claims description 237
- 238000003860 storage Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 description 103
- 230000008569 process Effects 0.000 description 84
- 230000033001 locomotion Effects 0.000 description 62
- 238000002386 leaching Methods 0.000 description 51
- 239000013598 vector Substances 0.000 description 28
- 238000006243 chemical reaction Methods 0.000 description 25
- 238000013139 quantization Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 239000000945 filler Substances 0.000 description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 230000006978 adaptation Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000009795 derivation Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 239000013074 reference sample Substances 0.000 description 4
- 239000000523 sample Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013558 reference substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明描述用于模式子位流提取的技术。例如,网络实体可从多个子位流提取模式选择一子位流提取模式。每一子位流提取模式可界定用以从视图或层提取经译码图片以允许视频解码器解码目标输出视图或层以供显示的特定方式。以此方式,所述网络实体可自适应地选择适当的子位流提取技术,而非选择死板、固定的子位流提取技术。
Description
本申请案主张2012年10月1日申请的第61/708,522号美国临时申请案的权益,其全部内容以引用的方式并入本文中。
技术领域
本发明一般来说涉及处理视频数据并且,更具体来说涉及用于基于一或多个视频译码标准来处理视频数据。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDAs)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置、转码器、路由器或其它网络装置,及其类似者。数字视频装置实施视频压缩技术,例如通过MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频编码(AVC)、目前正在开发的高效率视频译码(HEVC)标准、专用的标准、例如VP8等开放视频压缩格式及此类标准、技术或格式的扩展界定的标准中描述的技术。视频装置可通过实施此类视频压缩技术来更有效率地传输、接收、编码、解码及/或存储数字视频信息。
视频压缩技术执行空间(图片内)预测及/或时间(图片间)预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码来说,视频切片(即,视频帧或视频帧的一部分)可分割成视频块,视频块也可称作树块、译码单元(CU)及/或译码节点。使用相对于同一图片中的相邻块中的参考样本的空间预测对图片的经帧内译码(I)切片中的视频块进行编码。图片的经帧间译码(P或B)切片中的视频块可使用相对于同一图片中的相邻块中的参考样本的空间预测或相对于其它参考图片中的参考样本的时间预测。图片可称为帧,且参考图片可称为参考帧。
空间或时间预测产生对待译码的块的预测块。残差数据表示待译码的原始块与预测块之间的像素差。根据指向形成预测块的参考样本块的运动向量以及指示经译码块与所述预测块之间的差的残差数据来编码经帧间译码块。根据帧内译码模式和残差数据来编码经帧内译码块。为了进一步压缩,可将残差数据从像素域变换为变换域,从而产生残差变换系数,所述残差变换系数随后可被量化。起初布置在二维阵列中的经量化变换系数可依序扫描以产生变换系数的一维向量,且可应用熵译码以实现更多的压缩。
发明内容
本发明描述与视频译码相关的技术,且更确切地说,本发明描述利用多个子位流提取模式中的一者以允许视频编码器及视频解码器中间的装置(例如,网络实体)选择适当的提取操作以用于子位流提取。举例来说,每一子位流提取模式可界定其中装置从位流(例如,来自视图或层的经译码图片)提取数据的特定方式,使得视频解码器可重构目标输出视图或目标输出层。来自位流的所提取的数据可形成子位流。以此方式,装置可不需要以固定死板的方式提取子位流,且可调适到特定条件以用于输出目标输出视图或目标输出层的数据。
在一个实例中,本发明描述一种处理视频数据的方法,所述方法包括接收经编码视频数据的位流,且从多个子位流提取模式选择一子位流提取模式。所述子位流提取模式中的每一者界定其中从视图提取经译码图片或从所述位流提取层的方式以允许解码目标输出视图或目标输出层,且每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层(VCL NAL)单元。所述方法还包含以由所述选定的子位流提取模式界定的所述方式从所述位流提取子位流。
在一个实例中,本发明描述一种用于处理视频数据的装置,所述装置包括一或多个处理器,所述一或多个处理器经配置以接收经编码视频数据的位流且从多个子位流提取模式选择一子位流提取模式。所述子位流提取模式中的每一者界定其中从视图提取经译码图片或从所述位流提取层的方式以允许解码目标输出视图或目标输出层,且每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层(VCL NAL)单元。所述一或多个处理器还经配置而以由所述选定的子位流提取模式所界定的方式从所述位流提取子位流。
在一个实例中,本发明描述一种在其上存储有指令的计算机可读存储媒体,所述指令在由用于处理视频数据的装置的一或多个处理器执行时致使所述一或多个处理器接收经编码视频数据的位流,且从多个子位流提取模式选择一子位流提取模式。所述子位流提取模式中的每一者界定其中从视图提取经译码图片或从所述位流提取层的方式以允许解码目标输出视图或目标输出层,且每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层(VCL NAL)单元。所述指令还致使所述一或多个处理器以由所述选定的子位流提取模式界定的方式从所述位流提取子位流。
在一个实例中,本发明描述一种用于处理视频数据的装置,所述装置包括用于接收经编码视频数据的位流的装置,及用于从多个子位流提取模式选择一子位流提取模式的装置。所述子位流提取模式中的每一者界定其中从视图提取经译码图片或从所述位流提取层的方式以允许解码目标输出视图或目标输出层,且每一经译码图片包括存取单元内的视图或层的视频译码层网络抽象层(VCL NAL)单元。所述装置还包含用于以由所述选定的子位流提取模式界定的方式从所述位流提取子位流的装置。
一或多个实例的细节陈述于附图及以下描述中。其它特征、目标及优势将从描述及附图和从权利要求书中显而易见。
附图说明
图1是说明可利用本发明中描述的技术的实例视频编码和解码系统的实例的框图。
图2是说明根据本发明中所描述的一或多个实例的实例编码及解码次序的符号图。
图3是说明实例预测模式的概念图。
图4是说明形成网络的部分的一组实例装置的框图。
图5是说明可实施本发明中描述的技术的实例视频编码器的框图。
图6是说明可实施本发明中描述的技术的实例视频解码器的框图。
图7是说明根据本发明所描述的一或多个实例的实例技术的流程图。
具体实施方式
在多视图视频译码中,存在各自包含多个图片的多个视图。术语多视图视频译码一般用于指代其中多个视图的视频数据包含在经译码位流中的视频译码技术、根据各种多视图视频译码的此视频译码技术,以及不必依赖于视频译码标准的技术。术语多视图视频译码还可以用于指其中在位流中译码多层视频数据的视频译码技术,例如可缩放视频译码技术。可通过各种视频译码标准控制用于多视图视频译码的技术,且本发明中描述的技术可适用于各种视频译码标准以及不依赖于视频译码标准的技术。
在一些情况下,虽然视频编码器编码经译码位流的许多视图或层,但视频解码器可仅需要解码经译码位流中的视图或层的子集。例如,对于某些环境,可需要比针对其它环境更多的视图。举例来说,一些装置可能够显示许多视图,且一些装置可能够显示更少的视图。因此,允许装置检索所述装置能够解码及显示的那么多视图或层可为有益的。
视图包含属于不同存取单元的视图分量,所述视图分量在本发明中还可称为经译码图片。层还包含属于不同存取单元的经译码图片。属于相同存取单元的所有视图或所有层的经译码图片具有相同的输出时间。在3D视频译码的情况下,每一视图可含有纹理部分及深度部分,主要是纹理视图及深度视图。纹理视图包含还被命名为纹理视图的经译码图片,及还被命名为深度视图的经译码图片的经译码深度图片。经译码纹理图片还被称作纹理视图分量,且经译码深度图片还被称作深度视图分量。在本发明中描述的技术中,每一经译码图片包含存取单元内的视图或层的一或多个视频译码层(VCL)网络抽象层(NAL)(即,VCL NAL)单元。
对于一些情况,视频解码器可解码视图或层的子集,而不是来自经译码位流的全部视图及层。举例来说,可通过从视频解码器解码目标输出视图或层所需的视图或层(例如,将显示的视图或层)提取经译码图片且输出所述经译码图片,而非输出包含解码目标输出视图或层不需要的视图及层的所有视图及层,而获得带宽效率。为了允许视频解码器解码仅视图的子集,网络装置(例如,从包含视频解码器的装置的上游的装置)或包含视频解码器的装置可从经译码位流提取视图子集,且仅将所提取的视图传输到包含用于解码的视频解码器的装置。从经译码位流对视图的子集的此提取被称作子位流提取。
在多视图视频译码中,从另一视图的另一图片对一个视图的一个经译码图片进行帧间预测可为可能的。此帧间预测被称作视图间预测。在一些情况下,可从将不显示的视图的图片帧间预测来自视图中的一者的经译码图片。例如,假设显示装置(例如,移动装置或桌上型计算机)将显示视图0及视图1(例如,视图0及视图1的纹理视图)。在此实例中,视图0及视图1可被称为目标输出视图(即,将为显示器输出的视图)。然而,来自视图1的经译码图片(例如,纹理视图分量及深度视图分量)是从视图2的经译码图片(例如,纹理视图分量及深度视图分量)帧间预测可为可能的。在此实例中,尽管未显示视图2,但视频解码器可仍需要接收与视图2相关联的视频数据且解码此视频数据以使得视频解码器可恰当地解码视图1的视频数据。
对于多视图视频译码,在一些情况下,视图的视图分量可由两个组件表示:纹理视图分量及深度视图分量。所述纹理视图分量包含实际视频内容。所述深度视图分量包含指示视频内容内的像素或对象的相对深度的信息。
例如,如更详细描述,在本发明中描述的子位流提取过程的一些实例中,在子位流提取过程从经译码位流提取经译码图片时,子位流提取过程可提取用于解码目标输出视图的纹理视图分量及深度视图分量两者。在本发明中描述的子位流提取过程的一些实例中,在子位流提取过程从经译码位流提取经译码图片时,所述子位流提取过程可提取纹理视图分量但不提取深度视图分量,或反之亦然,以用于解码目标输出视图。在本发明中描述的子位流提取过程的一些实例中,在子位流提取过程从经译码位流提取经译码图片时,子位流提取过程可仅提取解码目标输出视图所需的视图分量。如更详细地描述,子位流提取过程可为其中装置确定用以提取子位流的方式的模态过程,其中以上描述是其中装置可提取子位流的方式的几个实例。
当前执行子位流提取的方式可存在某些问题。例如,不存在用以自适应地选择提取操作的机制。此外,在一些情况下,目标输出视图的纹理视图分量可从第一非目标输出参考视图的纹理视图分量进行视图间预测,但目标输出视图的深度视图分量可从第二不同参考视图预测。在此情况下,一些子位流提取技术可仍包含第一非目标输出参考视图的深度视图分量,但不需要第一非目标输出参考视图的深度视图分量来用于解码目标输出视图。反之同样也是可能的,(即,不需要纹理视图分量,但无论如何与深度视图分量包含在一起)。
本发明中描述的技术一般与选择适当的子位流提取过程的自适应机制相关。而且,应理解,虽然相对于多视图视频译码描述所述技术,但所述技术还适用于可缩放视频译码。一般来说,可缩放视频译码包含译码视频数据的一或多个层,每一层对应于各种译码尺寸。举例来说,所述层可包含空间分辨率层、色度位深度层、信噪比(SNR)层或类似者中的一或多者。此外,各种视图可被视为视图维度的层。因此,虽然一般出于实例的目的相对于视图进行描述,但应理解,多视图视频译码表示层的实例。因此,更一般地说,对视图的参考还可以视为参考层。
在一些实例中,外部装置(例如,采用来自最终用户的输入或系统的默认配置且将信息传递到执行子位流提取的装置的应用处理接口)可界定执行子位流提取的装置实施的子位流提取模式。如果没有外部装置可用,那么执行子位流提取的所述装置可实施默认子位流提取模式。
以此方式,所述技术允许多模式子位流提取,借此外部装置能够从多个子位流提取模式界定一子位流提取模式。换句话说,在本发明中描述的技术中,执行子位流提取的装置可为可使用不同模式类型来配置的(即,可调适),且可随后基于所界定的模式执行子位流提取。在一些实例中,可需要一些位流提取模式的输出子位流是相符位流,同时不需要一些位流提取模式的输出子位流是相符位流。此可导致确保位流子集是否相符的复杂度上的降低。
在一些实例中,执行提取的装置可维持视图的将被提取以用于解码输出视图的纹理视图及深度视图的两个单独的列表。第一列表可针对纹理视图且第二列表可针对深度视图。以此方式,如果需要非目标输出视图的纹理视图而不需要深度视图,如由第一列表及第二列表指示,那么执行提取的装置可从位流移除深度视图分量。类似地,如果需要非目标输出视图的深度视图,但不需要纹理视图,如由第一列表及第二列表指示,那么执行提取的装置可从位流移除纹理视图分量。
图1是说明可利用本发明中描述的技术的实例视频编码及解码系统10的框图。如图1中所示,系统10包含源装置12,所述源装置产生经编码视频数据以在稍后时间由目的地装置14解码。源装置12和目的地装置14可包括广泛范围的装置中的任一者,包含桌上型计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,源装置12和目的地装置14可能经装备以用于无线通信。
目的地装置14可经由链路16接收待解码的经编码视频数据。链路16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任何类型的媒体或装置。在一个实例中,链路16可包括使得源装置12能够实时地将经编码视频数据直接传输到目的地装置14的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)来调制,且被传输到目的地装置14。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线路。通信媒体可形成基于包的网络(例如局域网、广域网或全球网络,例如因特网)的一部分。通信媒体可包含路由器、交换器、基站或任何其它可以用于促进从源装置12到目的地装置14的通信的设备。
或者,可将经编码数据从输出接口22输出到存储装置32。类似地,可通过输入接口从存储装置32存取经编码数据。存储装置32可包含多种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器或任何其它用于存储经编码视频数据的适当数字存储媒体。在另一实例中,存储装置32可对应于可保持由源装置12产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可从存储装置32经由流式传输或下载来存取所存储的视频数据。文件服务器可为能够存储经编码视频数据且将经编码视频数据传输到目的地装置14的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等)或适合于存取存储于文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置32的传输可为流式传输、下载传输或两者的组合。
本发明的技术不一定限于无线应用或环境。所述技术可应用于视频译码以支持多种多媒体应用中的任一者,例如空中电视广播、有线电视传输、卫星电视传输、流式视频传输(例如,经由因特网)、编码数字视频以用于存储在数据存储媒体上、解码存储在数据存储媒体上的数字视频,或其它应用。在一些实例中,系统10可经配置以支持单向或双向视频传输,以支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。
在一些实例中,媒体感知网络元件(MANE)(未图示)可沿着链路16存在。如更详细地描述,本发明描述子位流提取过程。MANE可经配置以实施子位流提取过程。以此方式,MANE可从源装置12接收经编码位流,提取位流的部分(即,执行子位流提取),且将所提取的子位流输出到目的地装置14。
然而,仅出于说明的目的而提供依赖于MANE实施子位流提取过程且不应被视为具有限制性。在一些实例中,例如其中源装置12将视频数据传输到目的地装置14的实例中,源装置12可经配置以实施本发明中描述的子位流提取过程。进一步从源装置12下游(例如,经由MANE)执行子位流提取过程可为可能的。在一些实例中,甚至目的地装置14实施本发明中描述的实例子位流提取过程可为可能的。
在图1的实例中,源装置12包含视频源18、视频编码器20和输出接口22。在一些情况下,输出接口22可包含调制器/解调器(调制解调器)及/或传输器。在源装置12中,视频源18可包含例如视频俘获装置(例如,摄像机)、含有先前俘获的视频的视频存档、用于从视频内容提供者接收视频的视频馈入接口及/或用于产生计算机图形数据作为源视频的计算机图形系统,或此类源的组合等源。作为一个实例,如果视频源18是摄像机,那么源装置12及目的地装置14可以形成所谓的摄像机电话或视频电话。然而,本发明中描述的技术一般可适用于视频译码,且可应用于无线及/或有线应用。
可由视频编码器20来编码所俘获视频、经预先俘获的视频或计算机产生的视频。经编码视频数据可经由源装置12的输出接口22直接传输到目的地装置14。经编码视频数据还可(或替代地)存储到存储装置32上以供稍后由目的地装置14或其它装置存取以用于解码及/或回放。
目的地装置14包括输入接口28、视频解码器30和显示装置31。在一些状况下,输入接口28可包含接收器和/或调制解调器。目的地装置14的输入接口28经由链路16接收经编码视频数据。经由链路16传达或在存储装置32上提供的经编码视频数据可包含由视频编码器20产生的多种语法元素以供由例如视频解码器30等视频解码器用于解码视频数据。此类语法元素可与在通信媒体上传输、存储在存储媒体上或存储在文件服务器中的经编码视频数据包含在一起。
显示装置31可与目的地装置14集成或在目的地装置14外部。在一些实例中,目的地装置14可包含集成显示装置,且还经配置以与外部显示装置介接。在其它实例中,目的地装置14可为显示装置。总的来说,显示装置31将经解码视频数据显示给用户,并且可包含多种显示装置中的任一者,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器20和视频解码器30可根据视频压缩标准(例如,目前正在开发的高效率视频译码(HEVC)标准)操作,且可符合HEVC测试模型(HM)。HEVC标准的新近草案(被称作“HEVC工作草案8”或“WD8”)描述于以下文献中:JCTVC-H1003,布洛斯(Bross)等人的“高效率视频译码(HEVC)文本规范草案8(High efficiency video coding(HEVC)text specification draft 8)”,ITU-T SG16WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第10届会议;瑞典斯德哥尔摩,2012年7月11日到20日,截至2013年9月30日,其可以从http://phenix.int-evry.fr/jct/doc_end_user/documents/10_Stockholm/wg11/JCTVC-J1003-v8.zip下载,其全部内容以引用的方式并入本文中。
布洛斯等人的文献JCTVC-L1003v34“高效率视频译码(HEVC)文本规范草案10(针对FDIS和最后呼叫)(High efficiency video coding(HEVC)text specification draft 10(forFDIS&Last Call)(ITU-T SG16WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第12届会议,瑞士日内瓦,2013年1月14日到23日)中描述了HEVC标准的另一最近的草案,被称作“HEVC工作草案10”或WD10”,截至2013年9月30日,其可从http://phenix.int-evry.fr/jct/doc_end_user/documents/12_Geneva/wg11/JCTVC-L1003-v34.zip下载,其全部内容以引用的方式并入本文中。布洛斯等人的“对HEVC版本1的编辑者提出的修订”(ITU-T SG16WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),第13届会议,韩国仁川,2013年4月)中描述HEVC标准的又一草案,在本文中被称作“WD10修订本”,截至2013年9月30日,其可以从http://phenix.int-evry.fr/jct/doc_end_user/documents/13_Incheon/wg11/JCTVC-M0432-v3.zip下载,其全部内容以引用的方式并入本文中。
或者,视频编码器20及视频解码器30可根据其它专用或业界标准而操作,例如ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-TH.263、ISO/IEC MPEG-4Visual及ITU-T H.264(也被称作ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展。在“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisual services)”(ITU-T推荐H.264,2010年3月)中描述MVC的联合草案,其全部内容以引用的方式并入本文中。在“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisualservices)”(ITU-T推荐H.264,2011年6月)中描述MVC的另一联合草案,其全部内容以引用的方式并入本文中。
另外,存在作为MVC标准的扩展的新的视频译码标准,即“MVC+D”,如“用于包含深度图草案文本4的MVC扩展(MVC Extension for Inclusion of Depth Maps DraftText 4)”中所描述,JCT3V-A1001,ITU-T SG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第1届会议:瑞典斯德哥尔摩,2012年7月16日到20日。JCT3V-A1001“用于包含深度图草案文本4的MVC扩展(MVC Extension forInclusion of Depth Maps Draft Text 4)”的全部内容以引用的方式并入本文中。除“MVC+D”标准以外,存在用于所谓的3D-AVC标准、MV-HEVC标准及潜在地3D-HEVC标准以及HEVC的可缩放编解码器的进行中的标准活动。
可在JCT3V-A1002“3D-AVC草案文本3”处得到最新的3D-AVC工作草案(ITU-TSG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第1届会议:瑞典斯德哥尔摩,2012年7月16日到20日)。JCT3V-A1002“3D-AVC草案文本3”的全部内容以引用的方式并入本文中。
可在JCT3V-A1004“MV-HEVC工作草案1”处得到最新的MV-HEVC工作草案(ITU-T SG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第1届会议:瑞典斯德哥尔摩,2012年7月16日到20日)。JCT3V-A1004“MV-HEVC工作草案1”的全部内容以引用的方式并入本文中。
可在JCT3V-A1005“3D-HEVC测试模型1”处得到最新的3D-HEVC测试模型(ITU-T SG 16WP 3及ISO/IEC JTC 1/SC 29/WG 11的3D视频译码扩展开发联合合作小组,第1届会议:瑞典斯德哥尔摩,2012年7月16日到20日)。JCT3V-A1005“3D-HEVC测试模型1”的全部内容以引用的方式并入本文中。
然而,本发明的技术不限于任何特定译码标准。所述技术可适用于不基于视频译码标准的视频编码器20及视频解码器30的实例。视频压缩标准的其它实例包含MPEG-2及ITU-T H.263,以及例如VP8等开放格式。
尽管图1中未展示,但在一些方面中,视频编码器20及视频解码器30可各自与音频编码器及解码器集成,且可包含适当的MUX-DEMUX单元或其它硬件及软件,以处置对共同数据流或单独数据流中的音频及视频两者的编码。在一些实例中,如果适用的话,MUX-DEMUX单元可以符合ITU H.223多路复用器协议,或例如用户数据报协议(UDP)等其它协议。
视频编码器20及视频解码器30各自可实施为多种合适的编码器电路中的任一者,例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分地用软件实施所述技术时,装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中且使用一或多个处理器用硬件执行所述指令以执行本发明的技术。
视频编码器20及视频解码器30中的每一者可包含在一或多个编码器或解码器中,所述编码器或解码器中的任一者可集成为相应装置中的组合编码器/解码器(编解码器)的部分。例如,视频解码器30可形成在微控制器或集成电路(IC)内。在这些实例中,术语“装置”可指微控制器或IC。作为另一实例,视频解码器30可形成在无线通信装置内(例如,微控制器或IC可形成在无线通信装置内)。在这些实例中,术语“装置”可指无线通信装置。在这个意义上,术语装置可用作包含视频解码器30的任何组件。类似地,在一些实例中,装置可包含视频编码器20。
因此,在本发明描述视频解码时,此类视频解码可由装置执行,所述装置包含包括视频解码器30的微控制器、包含视频解码器30的IC,及包含视频解码器30的无线通信装置(例如,目的地装置14)中的一者。在本发明描述视频编码时,此类视频编码可由装置执行,所述装置包含包括视频编码器20的微控制器、包含视频编码器20的IC,及包含视频编码器20的无线通信装置(例如,源装置12)中的一者。
为了辅助理解视频译码,以下提供视频译码的描述以作为HEVC标准的部分。HEVC标准化努力是基于被称作HEVC测试模型(HM)的视频译码装置的进化模型。HM根据(例如)ITU-T H.264/AVC假设视频译码装置相对于现有装置的若干额外能力。
一般来说,HM的工作模型描述视频帧或图片可以被划分为包含亮度和色度样本两者的一连串树块或最大译码单元(LCU)。树块可用于与H.264标准的宏块一些类似的目的,但树块相对于宏块具有许多差异。切片包含按译码次序的数个连续树块。视频帧或图片可以被分割成一或多个切片。每一树块可根据四叉树分裂成译码单元(CU)。举例来说,作为四叉树的根节点的树块可分裂成四个子节点,且每一子节点又可为父节点且分裂成另外四个子节点。最终的未分裂的子节点(作为四叉树的叶节点)包括译码节点(即,经译码视频块)。与经译码位流相关联的语法数据可界定树块可分裂的最大次数,且还可界定译码节点的最小大小。
CU包含译码节点和与译码节点相关联的预测单元(PU)及变换单元(TU)。所述CU的大小对应于译码节点的大小且在形状上必须是正方形。CU的大小的范围可从8×8像素直到具有最大64×64像素或更大的树块的大小。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述(例如)将CU分割为一或多个PU。分割模式在CU被跳过、被直接模式编码、被帧内预测模式编码还是被帧间预测模式编码之间可不同。可将PU的形状分割为非正方形。与CU相关联的语法数据还可描述(例如)根据四叉树将CU分割为一或多个TU。TU的形状可为正方形或非正方形。
HEVC标准允许根据TU的变换,其对于不同的CU可不同。所述TU的大小通常基于针对经分割LCU而界定的给定CU内的PU的大小而设定,但可能不总是这样。TU通常与PU是相同大小或小于PU。在一些实例中,可使用被称为“残差四叉树”(RQT)的四叉树结构将对应于CU的残差样本细分为更小的单元。RQT的叶节点可被称作变换单元(TU)。可将与TU相关联的像素差值变换以产生变换系数,所述变换系数可经量化。
一般来说,PU包含与预测过程有关的数据。例如,在PU被帧内模式编码(即,帧内预测编码)时,PU可包含描述PU的帧内预测模式的数据。作为另一实例,在PU被帧间模式编码(即,帧间预测编码)时,PU可包含界定PU的运动向量的数据。界定PU的运动向量的数据可描述例如运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片及/或运动向量的参考图片列表(例如,RefPicList0或RefPicList1)。
一般来说,TU用于变换及量化过程。具有一或多个PU的给定CU还可包含一或多个变换单元(TU)。在预测之后,视频编码器20可计算对应于PU的残差值。残差值包括像素差值,所述像素差值可变换成变换系数、经量化且使用TU进行扫描以产生串行化变换系数以用于熵译码。本发明通常使用术语“视频块”来指CU的译码节点。在一些特定情况下,本发明还可使用术语“视频块”来指树块(即,包含译码节点以及PU及TU的LCU或CU)。
一视频序列通常包含一系列视频帧或图片。图片群组(GOP)一般包括一系列一或多个视频图片。GOP可在GOP的标头、图片中的一或多者的标头或其它地方中包含语法数据,所述语法数据描述包含于GOP中的图片的数目。图片的每一切片可包含切片语法数据,所述切片语法数据描述相应切片的编码模式。视频编码器20通常对个别视频切片内的视频块进行操作以便编码视频数据。视频块可对应于CU内的译码单元。视频块可具有固定或变化的大小,且大小可根据指定的译码标准而不同。
作为一实例,HM支持按各种PU大小的预测。假定特定CU的大小为2N×2N,HM支持按2N×2N或N×N的PU大小的帧内预测,以及按2N×2N、2N×N、N×2N或N×N的对称PU大小的帧间预测。HM还支持用于按2N×nU、2N×nD、nL×2N和nR×2N的PU大小的帧间预测的不对称分割。在不对称分割中,CU的一个方向未被分割,而另一方向被分割为25%和75%。CU的对应于25%分区的部分由“n”继之以“向上”、“向下”、“左边”或“右边”的指示来指示。因此,例如,“2N×nU”指代被水平地分割成在顶部具有2N×0.5N PU且在底部具有2N×1.5N PU的2N×2N CU。
在本发明中,“N×N”与“N乘N”可以可互换地使用,以在垂直和水平尺寸方面指代视频块的像素尺寸,例如16×16像素或16乘16像素。一般来说,16×16块将具有在垂直方向上的16个像素(y=16)和在水平方向上的16个像素(x=16)。同样地,N×N块一般具有在垂直方向上的N个像素和在水平方向上的N个像素,其中N表示非负整数值。一块中的像素可布置在若干行和若干列中。此外,块无需一定在水平方向上具有与在垂直方向上相同数目的像素。举例来说,块可包括N×M个像素,其中M不一定等于N。
在使用CU的PU进行帧内预测译码或帧间预测译码(即,帧内预测编码或帧间预测编码)之后,视频编码器20可计算用于CU的TU的残差数据。PU可包括空间域(还被称作像素域)中的像素数据,且TU可包括在变换域(例如,在对残差视频数据应用变换(例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换)之后)中的系数。残差数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含CU的残差数据的TU,且随后变换TU以产生CU的变换系数。
在进行任何变换以产生变换系数之后,视频编码器20可执行变换系数的量化。量化一般指代将变换系数量化以可能地减少用于表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说,在量化期间,可将n位值向下舍入到m位值,其中n大于m。
在一些实例中,视频编码器20可利用预先界定的扫描次序来扫描经量化变换系数以产生可经熵编码的串行化向量。在一些实例中,视频编码器20可执行自适应扫描或可从多个可能的扫描选择一扫描。在扫描经量化变换系数以形成一维向量之后,视频编码器20可(例如根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法)熵编码所述一维向量。视频编码器20还可对与经编码视频数据相关联的语法元素进行熵译码,以供视频解码器30在解码视频数据中使用。
为了执行CABAC,视频编码器20可将上下文模型内的上下文指派给待传输的符号。所述上下文可涉及(例如)符号的相邻值是否为非零。为了执行CAVLC,视频编码器20可针对待传输的符号选择可变长度码。可将VLC中的码字建构成使得相对较短的代码对应于更有可能的符号,而较长的代码对应于较不可能的符号。以此方式,与(例如)针对待传输的每一符号使用相等长度的码字相比,使用VLC可实现位节省。概率确定可基于指派给符号的上下文。
本发明描述用于多视图位流、三维(3D)位流、可缩放媒体位流及具有多个层(例如多个视图)的其它类型的位流的子位流提取的各种方法。本发明的技术还可适用于多视图位流、三维(3D)位流及具有多个层或视图的其它类型的位流。
在本发明中,术语多视图视频译码一般用于指代其中多个不同视图被译码的技术。例如,存在界定其中在位流中译码多个不同视图的方式的视频译码标准的不同实例。如上文所描述,此类视频译码标准的实例包含:对H.264/AVC视频译码标准的多视图视频译码(MVC)扩展、MVC加上深度视图分量(MVC+D)、3D-AVC、多视图HEVC(MV-HEVC)及3D-HEVC。本发明中描述的子位流提取技术可适用于所有这些视频译码标准以及不依赖于视频译码标准的视频译码技术。此外,本发明中描述的子位流提取技术还可以适用于可缩放视频译码(SVC),其中存在可选择性地用于编码及解码图片的仅一个视图但多个增强层。但是,同样,多个视图可视为一类型的层,且因此,本发明的技术可一般适用于任何多层译码技术,其中视图表示层的一个实例。
为避免混淆,本发明使用所述“多视图视频译码”一般指代依赖于多个视图以用于编码及解码的所有各种视频译码技术。在需要时,本发明对特定视频译码标准作出特定参考。而且,相对于多视图视频译码描述所述技术;然而,所述技术不限于此。本发明中描述的技术还可适用于可缩放视频译码技术。
为辅助理解,以下提供对不同多视图视频译码标准的简要描述。此类揭示内容打算提供本发明中描述的子位流提取技术的背景,以及辅助对多视图视频译码技术的一般理解。以下揭示内容描述多视图视频译码(MVC),其是对H.264/AVC的扩展。在本发明使用首字母缩写MVC时,本发明特定地指代H.264/AVC的MVC扩展。在写出“多视图视频译码”时,其一般用于指代用于多视图视频的各种译码技术。
图2是说明根据本发明中所描述的一或多个实例的实例编码及解码次序的符号图。举例来说,图2中所说明的解码次序布置被称为时间优先译码。在图2中,S0到S7各自是指多视图视频的不同视图。T0到T8各自表示一个输出时间实例。在图2中,所述视图中的每一者包含若干图片组。举例来说,视图S0包含经译码图片组0、8、16、24、32、40、48、56及64,视图S1包含经译码图片组1、9、17、25、33、41、49、57及65等。
应理解,图2中说明的解码次序可能不表示输出或显示次序。例如,比另一经译码图片晚显示或输出的经译码图片可比所述另一图片早解码。图片的图片次序计数(POC)值指示图片的显示次序或输出次序。举例来说,具有较低POC值的图片比具有较高POC值的图片早输出或显示。然而,具有较高POC值的图片可比具有较低POC值的图片早解码,尽管具有较高POC值的图片比具有较低POC值的图片晚显示或输出。
存取单元可包含用于一个输出时间实例的所有视图的经译码图片。举例来说,第一存取单元包含用于时间实例T0的所有视图S0到S7(即,经译码图片0到7),第二存取单元包含用于时间实例T1的所有视图S0到S7(即,经译码图片8到15),以此类推。在这些实例中,经译码图片0到7处于相同时间实例(即,时间实例T0)处,经译码图片8到15处于相同时间实例(即,时间实例T1)处,以此类推。
在本发明中描述的技术中,执行子位流提取的装置可基于其中提取经译码图片的所选择方式而从视图或层提取经译码图片。例如,执行子位流提取的装置可从视图S0到S3提取经译码图片且仅输出那些经译码图片,而非输出来自所有视图S0到S7的经译码图片。此类子位流提取可提高带宽效率,这是因为目的地装置14可未经配置以以显示所有视图S0到S7,且仅输出解码将显示的视图所需的视图,可减少需要在位流中输出的数据量。
如所使用的,在本发明中,术语“经译码图片”用于指视图分量、纹理视图分量或深度视图分量。例如,每一存取单元可包含一或多个视频译码层(VCL)网络抽象层(NAL)(即,VCL NAL)单元。每一经译码图片可包含存取单元内的视图或层的一或多个VCL NAL单元。以此方式,所述技术可从来自位流的视图或层提取经译码图片以允许解码目标输出视图或目标输出层,其中每一经译码图片包括存取单元内的视图或层的一或多个VCL NAL单元。
图3是说明实例预测模式的概念图。在图3的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明十二个时间位置(“T0”到“T11”)。即,图3中的每一行对应于一视图,而每一列指示一时间位置。在图3的实例中,大写的“B”及小写的“b”用于指示图片之间的不同层次关系,而非不同译码方法。大体来说,大写的“B”图片在预测层次上比小写的“b”帧相对高。
在图3中展示用于多视图视频译码的典型的MVC预测(包含每一视图内的图片间预测及视图间预测两者)结构,其中由箭头指示预测,指向对象使用指出对象用于预测参考。图3可为MVC时间及视图间预测结构的实例。
在MVC中,由视差运动补偿支持视图间预测,所述视差运动补偿使用H.264/AVC运动补偿的语法但允许将不同视图中的图片用作参考图片。还可通过MVC支持两个视图的译码,且MVC的优点中的一者是MVC编码器可采用两个以上视图作为3D视频输入,且MVC解码器可解码此多视图表示。因此,具有MVC解码器的任何呈现器可预期具有两个以上视图的3D视频内容。
在图3中,视图S0可被视为基础视图,且视图S1到S7可被视为相依视图。基础视图包含未被视图间预测的经译码图片。基础视图中的经译码图片可相对于相同视图中的其它经译码图片被帧间预测。举例来说,视图S0中无经译码图片可相对于视图S1到S7中的任一者中的经译码图片被帧间预测,但视图S0中的经译码图片中的一些可相对于视图S0中的其它经译码图片被帧间预测。
相依视图包含被视图间预测的经译码图片。例如,视图S1到S7中的每一者包含相对于另一视图中的经译码图片经帧间预测的至少一个经译码图片。相依视图中的经译码图片可相对于基础视图中的经译码图片经帧间预测,或可相对于其它相依视图中的经译码图片经帧间预测。
包含基础视图及一或多个相依视图两者的视频流可为可由不同类型的视频解码器进行解码的。举例来说,一个基本类型的视频解码器可经配置以以仅解码基础视图。另外,另一类型的视频解码器可经配置以解码视图S0到S7中的每一者。经配置以对基础视图及相依视图两者进行解码的解码器可被称作支持多视图译码的解码器。
在图3中的每一行及每一列的相交处指示图3中的图片。具有多视图译码扩展的H.264/AVC标准可使用术语帧来表示视频的一部分,而HEVC标准可使用术语图片来表示视频的一部分。本发明可互换地使用术语图片与帧。
使用包含字母的阴影块说明图3中的经译码图片,所述字母指明对应图片是经帧内译码(也就是说,I图片),在一个方向上经帧间译码(也就是说,作为P图片)还是在多个方向上经帧间译码(也就是说,作为B图片)。大体来说,预测由箭头指示,其中箭头指向的图片使用箭头出发的图片用于预测参考。举例来说,时间位置T0处的视图S2的P图片是从时间位置T0处的视图S0的I图片预测的。
如同单视图视频译码,多视图视频译码视频序列的经译码图片可相对于不同时间位置处的图片被预测性地编码。举例来说,时间位置T1处的视图S0的B图片具有从时间位置T0处的视图S0的I图片指向其的箭头,从而指示所述B图片是从所述I图片预测的。然而,另外,在多视图视频编码的情况下,图片可经视图间预测。即,经译码图片可使用其它视图中的经译码图片以用于参考。举例来说,在多视图译码中,实现了视图间预测,好像另一视图中的经译码图片为帧间预测参考。潜在视图间参考物在序列参数集(SPS)MVC扩展中用信号通知且可通过参考图片列表建构过程加以修改,所述参考图片列表建构过程实现帧间预测或视图间预测参考物的灵活排序。
图3提供视图间预测的各种实例。在图3的实例中,视图S1的经译码图片说明为是从视图S1的不同时间位置处的经译码图片预测,且是从相同时间位置处的视图S0及S2的经译码图片经视图间预测。举例来说,时间位置T1处的视图S1的B图片是从时间位置T0及T2处的视图S1的B图片中的每一者以及时间位置T1处的视图S0及S2的B图片预测。
对于帧间预测(即,视图间预测或相同视图内的预测),视频编码器20及视频解码器30可各自建构一个或两个参考图片列表(例如,RefPicList0及RefPicList1)。在视图间预测中,视频编码器20及视频解码器30可包含来自与正在参考图片列表中的一或两者中经帧间预测的经译码图片不同的视图的经译码图片,只要所述图片处于与当前图片相同的时间实例即可。类似于其中视频编码器20及视频解码器30包含来自参考图片列表中的相同视图的参考图片的方式,视频编码器20及视频解码器30可包含参考图片列表内的任何位置处的视图间预测参考图片(例如,来自不同视图的经译码图片)。
图3还说明使用不同阴影等级的预测层次的变化,其中较大阴影量(即,相对较暗)的帧在预测层次上高于具有较少阴影(即,相对较浅)的那些帧。举例来说,图3中的所有I图片说明为具有完全阴影,而P图片具有稍浅的阴影,且B图片(及小写的b图片)具有相对于彼此的各种阴影水平,但始终比P图片及I图片的阴影浅。
一般来说,预测层次可与视图次序索引相关,因为预测层次相对较高的经译码图片应在解码层次相对较低的经译码图片之前解码。层次相对较高的那些经译码图片在对层次相对较低的图片进行解码期间可以用作参考图片。视图次序索引为指示存取单元中的视图分量的解码次序的索引。在序列参数集(SPS)MVC扩展中隐含视图次序索引,如H.264/AVC的附录H(MVC修正案)中所指定。在SPS中,对于每一索引ⅰ,用信号通知对应view_id。视图分量的解码可遵循视图次序索引的升序。如果呈现所有视图,那么视图次序索引为从0到num_views_minus_1的连续次序。
以此方式,在取决于参考图片的经译码图片之前对被用作参考图片的经译码图片进行解码。视图次序索引为指示存取单元中的视图分量的解码次序的索引。对于每一视图次序索引ⅰ,用信号通知对应view_id。视图分量的解码遵循视图次序索引的升序。如果呈现所有视图,则视图次序索引集合可包括从零到视图的全部数目少1的连续排序集合。
对于处于层次的相等层级处的某些经译码图片,相对于彼此的解码次序可能无关紧要。举例来说,时间位置T0处的视图S0的I图片可被用作时间位置T0处的视图S2的P图片的参考图片,所述P图片又可被用作时间位置T0处的视图S4的P图片的参考图片。因此,时间位置T0处的视图S0的I图片应在时间位置T0处的视图S2的P图片之前解码,所述P图片又应在时间位置T0处的视图S4的P图片之前解码。然而,在视图S1与S3之间,解码次序无关紧要,因为对于预测,视图S1及S3并不依赖于彼此。替代地,仅从预测层次较高的其它视图预测视图S1及S3。此外,视图S1可在视图S4之前解码,只要视图S1在视图S0及S2之后解码即可。
以此方式,分层排序可用以描述视图S0到S7。在本发明中,标号“SA>SB”意味着视图SA应在视图SB之前解码。在图3的实例中,使用此标号S0>S2>S4>S6>S7。而且,相对于图3的实例,S0>S1、S2>S1、S2>S3、S4>S3、S4>S5,且S6>S5。用于视图的不违反此分层排序的任何解码次序是可能的。因此,许多不同解码次序是可能的,其中限制基于分层排序。
如上文所描述,可用于视图间预测当前经译码图片的另一视图中的参考被称作视图间参考或视图间参考图片,且可通过参考图片列表建构来修改SPS MVC扩展。作为语法表的下表1说明SPS MVC扩展的语法。
表1
在SPS MVC扩展中,对于每一视图,用信号发送可用以形成参考图片列表0(RefPicList0)及参考图片列表1(RefPicList1)的视图的编号。如在SPS MVC扩展中用信号发送的用于锚图片的预测关系可与用于相同视图的非锚图片(在SPS MVC扩展中用信号发送)的预测关系不同。
在包含多视图译码的视频译码中,视频编码器20可将视频数据囊封在网络抽象层(NAL)单元中,且视频解码器30可解码NAL单元以解码视频数据。例如,视频编码器20可将经译码图片囊封在一或多个VCL NAL单元中,且视频解码器30解码所述一或多个VCL NAL单元以解码经译码图片。如果NAL单元类型是前缀NAL单元或MVC视频译码层(VCL)NAL单元,那么MVC NAL单元包含一字节NAL单元标头(包含NAL单元类型及nal_ref_idc语法元素)及三字节MVC NAL单元标头扩展。在一些实例中,MVC中的前缀NAL单元可仅含有NAL单元标头及其MVC NAL单元标头扩展。NAL单元标头扩展可包含以下语法元素:nor_idr_flag、priority_id、view_id、temporal_id、anchor_pic_flag及inter_view_flag。
nor_idr_flag语法元素可指示NAL单元是否属于可用作闭合图片群组(GOP)随机存取点的即时解码刷新(IDR)存取单元。可使用priority_id语法元素以用于简单的一维调适。view_id语法元素可指示当前视图的视图识别符。temporal_id语法元素可指示当前NAL单元的时间识别值或时间层级。anchor_pic_flag语法元素可指示NAL单元是否属于用作开放GOP随机存取点的锚图片。inter_view_flag语法元素可指示视图分量是否用于对其它视图中的NAL单元的视图间预测。
先前描述MVC。以下描述一些额外视频译码标准。
例如,另一视频译码标准可为MVC+D,其中“D”是指深度。在MVC中,每一视图包含多个视图分量(每一视图分量是经译码图片的实例)。MVC+D包含深度分量。举例来说,在MVC+D中,每一视图可被视为包含纹理视图及深度视图。纹理视图包含纹理视图分量,且深度视图包含深度视图分量。换句话说,视图包含视图分量,且视图分量包含纹理视图分量(经译码图片的一个实例)及深度视图分量(经译码图片的另一实例)。以此方式,每一视图存在纹理视图及深度视图,且视图的每一视图分量存在纹理视图分量及深度视图分量。换句话说,视图的纹理视图分量形成视图的纹理视图,且视图的深度视图分量形成视图的深度视图。
对于每个纹理视图分量,可存在对应的深度视图分量,并且,在这个意义上,纹理视图分量可对应于深度视图分量,且反之亦然。对应的纹理视图分量及深度视图分量可以认为是单一存取单元的相同视图分量的部分。
MVC+D的纹理视图分量包含所显示的实际图像内容。举例来说,所述纹理视图分量可包含亮度(Y)及色度(Cb及Cr)分量。深度视图分量可指示其对应纹理视图分量中的像素的相对深度。作为一个实例,所述深度视图分量可类似于仅包含亮度值的灰度图像。换句话说,深度视图分量可不传达任何图像内容,而是提供纹理视图分量中的像素的相对深度的量度。
举例来说,对应于深度视图分量中的纯白色像素的像素值可指示其在对应的纹理视图分量中的对应像素从观察者的角度来看更靠近,且对应于深度视图分量中的纯黑色像素的像素值可指示其在对应的纹理视图分量中的对应像素从观察者的角度来看更远离。对应于黑色与白色之间的各种灰阴影的像素值指示不同的深度水平。举例来说,深度视图分量中的深灰色像素指示其在纹理视图分量中的对应像素比深度视图分量中的浅灰色像素更远。因为仅需要类似于灰度的一个像素值来识别像素深度,所以深度视图分量可仅包含一个像素值。因此,不需要类似于色度分量的值。
出于说明的目的而提供深度视图分量仅使用亮度值(例如,强度值)来识别深度,且不应被视为限制性的。在一些实例中,可利用任何技术来指示纹理视图分量中的像素的相对深度。
在MVC+D中,纹理视图分量及对应的深度视图分量在MVC+D中彼此不具有相依性。在一些实例中,对于给定的3D视频操作点,目标输出视图可取决于用于译码(例如,编码或解码)的纹理视图及深度视图的不同数目。下文更详细地描述操作点及目标输出视图。
另一视频译码标准是3D-AVC标准。3D-AVC编解码器可仅与H.264/AVC兼容但不与MVC兼容。此标准需要新的译码工具。而且,在相同视图的纹理与深度之间存在相依性(即,纹理视图分量及其对应深度视图分量可需要相对于相同的视图进行视图间预测)。
在高效率视频译码(HEVC)标准中,NAL单元标头含有两个字节以驱动NAL单元类型、TemporalID(类似于H.264/AVC中的temporal_id)及layer_id,layer_id始终为HEVC基础视图/层保留为0。MV-HEVC是不具有新译码工具的HEVC的多视图扩展。以layer_id等效于视图次序索引的方式由NAL单元标头中的layer_id识别每一视图,其类似于MVC中的界定每一存取单元中的视图的解码次序的视图次序索引。3D-HEVC支持对仅纹理视频及纹理加上深度视频两者的译码。在3D-HEVC中,新译码工具用于纹理及深度两者。layer_id语法元素可以用于NAL单元标头中以识别纹理或深度视图。
上文所描述操作点及目标输出视图的概念。操作点及目标输出视图可适用于多视图译码标准。
操作点界定多视图译码中的视图的子集或可缩放视频译码中的层的子集。举例来说,位流的操作点与一组层识别符或视图识别符(view_id)及一时间识别符(temporal_id或temporalID,在适用时)相关联。如果NAL单元的层或视图识别符处于操作点的一组层识别符或视图识别符中,且NAL单元的时间识别符小于或等于操作点的时间识别符,那么NAL单元与所述操作点相关联。
操作点表示是与一操作点相关联的位流子集(即,子位流)。一操作点的操作点表示可包含与所述操作点相关联的每一NAL单元。所述操作点表示可不包含不与所述操作点相关联的VCL NAL单元。
外部源可指定用于一操作点的一组层或视图识别符。例如,内容分发网络(CDN)装置可指定所述组层识别符。在此实例中,CDN装置可使用所述组层识别符来识别操作点。所述CDN装置可随后提取操作点的操作点表示且将所述操作点表示而不是原始位流转发到客户端装置。提取所述操作点表示且将所述操作点表示转发到客户端装置可降低位流的位速率。在一些实例中,作为CDN装置的替代或补充,进一步下游的装置(例如路由器)可执行子位流提取。
例如,目标输出视图可界定将由目的地装置14接收的视图。在一些实例中,CDN或某一中间装置(例如网络实体)可提取目标输出视图。举例来说,对于电影院,由于影院屏幕的相对大小及观看者的位置,显示尽可能多的视图可为有益的。对于移动装置,屏幕大小可限制可显示d视图的数目,且此外,在观看者的观看距离将一般接近移动装置的条件下,移动装置可仅需要接收几个视图。
图4是说明形成网络100的部分的一组实例装置的框图。在此实例中,网络100包含路由装置104A、104B(路由装置104)和转码装置106。路由装置104及转码装置106既定表示可形成网络100的部分的少数装置。例如交换器、集线器、网关、防火墙、桥接器及其它此些装置的其它网络装置也可包含在网络100内。另外,可沿着服务器装置102与客户端装置108之间的网络路径提供额外的网络装置。在一些实例中,服务器装置102可对应于源装置12(图1),而客户端装置108可对应于目的地装置14(图1)。
一般来说,路由装置104实施一或多个路由协议以经由网络100交换网络数据。在一些实例中,路由装置104可经配置以执行代理或快取存储器操作。因此,在一些实例中,路由装置104可被称为代理装置。一般来说,路由装置104执行路由协议以经由网络100发现路线。通过执行此些路由协议,路由装置104B可发现从自身经由路由装置104A到服务器装置102的网络路线。
路由装置104及可能的转码装置106是可实施本发明中描述的技术的装置的实例。例如,作为将视频数据从服务器装置102路由到客户端装置108的部分,路由装置104可接收位流,且路由装置104可从位流提取被传输到客户端装置108的子位流。如更详细地描述,路由装置104可利用本发明中描述的技术提取子位流。在一些实例中,转码装置106可为执行本发明中描述的子位流提取技术的媒体感知网络实体(MANE)。
例如,转码装置106可包含一或多个处理器110,且处理器110可经配置以实施本发明中描述的技术。处理器110的实例包含数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。在一些实例中,计算机可读存储媒体可存储指令,所述指令在被执行时致使转码装置106的一或多个处理器110实施本发明中描述的技术。
在其中路由装置104单独地或与转码装置106组合地执行本发明中描述的技术的实例中,路由装置104可包含单独地或与一或多个处理器110组合地实施本发明中描述的技术的一或多个处理器。此外,在本发明中,在将视频编码器20及视频解码器30中间的装置(例如,MANE装置)描述为实施本发明中描述的技术时,此类揭示内容应被解译为是指例如一或多个处理器110等一或多个处理器实施本发明中描述的技术。
如上文所描述,本发明的技术一般与子位流提取相关,其中装置(例如,路由装置104及/或转码装置106)可基于目标输出视图而提取一或多个视图。在H.264/AVC标准(即,“用于通用视听服务的高级视频译码(Advanced video coding for generic audiovisualservices)”,ITU-T推荐H.264,2011年6月)中,附件H针对多视图视频译码(MVC)。换句话说,附件H包含对H.264/AVC的MVC扩展。H.264/AVC的附件H的部分H.8界定MVC解码过程。附件H的子条款H.8.5针对“位流子集的规范”。子条款H.8.5.1及H.8.5.2指定用于分别导出用于子位流提取过程的所需的锚及非锚视图分量的过程。子条款H.8.5.3指定子位流提取过程。子条款H.8.5.4指定基础视图位流子集。子条款H.8.5.5在位流提取过程的输入位流中的原始基础视图未包含在输出位流子集中的情况下给予用于创建基础视图的信息性实例。
MVC+D规范利用在H.264/AVC MVC扩展中所界定的位流提取过程。然而,H.264/AVC MVC扩展并不包含纹理视图分量及深度视图分量两者,而是改为使用术语视图分量。因为MVC+D标准允许深度视图分量,所以MVC+D规范修改H.264/AVC MVC扩展的H.8.5的子条款中的一些子条款。
而且,在当前MVC+D规范中,一旦一个视图的纹理或深度取决于目标输出视图的纹理或深度,那么纹理及深度视图两者都包含在输出子位流中。举例来说,假设视图1是输出视图。而且,假设视图1中的纹理分量取决于视图0的纹理分量,且视图1中的深度分量取决于视图2的深度分量。在此实例中,在当前MVC+D规范中,尽管不需要视图0的深度分量,但视图0的深度分量包含在输出子位流中,因为包含视图0的纹理分量。而且,在此实例中,在当前MVC+D规范中,尽管不需要视图2的纹理分量,但视图2的纹理分量包含在输出子位流中,因为包含视图1的深度分量。
MVC+D规范、附件A的子条款A.1.1针对位流子集的规范。H.264/AVC MVC扩展的子条款H.8.5的规范适用于MVC+D的子条款A.1.1。MVC+D的子条款A.1.1.1针对所需的锚视图分量的导出过程,且类似于H.264/AVC MVC扩展的子条款H.8.5.1,其中使用“深度视图分量”或“纹理视图分量”取代H.8.5.1中的“视图分量”,且使用“深度视图”或“纹理视图”取代H.8.5.1中的“视图”。MVC+D的子条款A.1.1.2针对所需的非锚视图分量的导出过程,且类似于H.264/AVC MVC扩展的子条款H.8.5.2,其中使用“深度视图分量”或“纹理视图分量”取代“视图分量”,且使用“深度视图”或“纹理视图”取代“视图”。
MVC+D的子条款A.1.1.3针对子位流提取过程。在MVC+D中,位流一致性要求可为此子条款中指定的过程的输出的任何子位流可符合MVC+D标准,其中pIdTarget(priority_id目标值)等于0到63的范围内(包含0及63)的任何值,tIdTarget(temporal_id或temporalID目标值)等于0到7的范围内(包含0及7)的任何值,由viewIdTarget的任何一或多个值组成的viewIdTargetList识别位流中的视图。
viewIdTarget可为被视频编码器20及视频解码器30中间的装置(例如,网络实体)确定为用于目的地装置14的目标输出视图的目标输出视图。而且,相符位流含有具有等于0的priority_id及等于0的temporal_id的一或多个经译码切片NAL单元。此外,不是所有由子位流提取过程产生的子位流的操作点都具有可适用的level_idc或level_idc[i]可为可能的。在此情况下,可仍需要子位流中的每一经译码视频序列符合MVC+D的附件A、附件H及附件I中指定的简档中的一或多者,但可不满足MVC+D的子条款A.3、H.10.2及I.10.2中分别指定的层约束。
到子位流提取过程的输入可为:变量depthPresentFlagTarget(在存在时)、变量pIdTarget(在存在时)、变量tIdTarget(在存在时)及由viewIdTarget的一或多个值组成的列表viewIdTargetList(在存在时)。子位流提取过程的输出可为子位流及用于视图次序列表(VOidxList)的一或多个VOIdx(视图次序索引)。
在depthPresentFlagTarget不作为输入存在时,可推断depthPresentFlagTarget等于0。在pIdTarget不作为输入存在时,可推断pIdTarget等于63。在tIdTarget不作为输入存在时,可推断tIdTarget等于7。
在当前MVC+D规范中,装置(例如,视频编码器20及视频解码器30中间的网络实体)可通过以连续次序应用以下操作而从由视频编码器20建构的位流导出子位流。举例来说,装置可使VOIdxList为空且使minVOIdx为基础视图的VOIdx值。对于包含在viewIdTargetList中的viewIdTarget的每一值,装置可针对作为输入的具有viewIdTarget的纹理视图而调用子条款H.8.5.1中指定的过程。如果depthPresentFlagTarget等于1,那么对于包含在viewIdTargetList中的viewIdTarget的每一值,装置可针对作为输入的具有viewIdTarget的深度视图而调用子条款H.8.5.1中指定的过程。
对于包含在viewIdTarget列表中的viewIdTarget的每一值,装置可针对作为输入的具有viewIdTarget的值的纹理视图而调用子条款H.8.5.2中指定的过程。如果depthPresentFlagTarget等于1,那么对于包含在viewIdTargetList中的viewIdTarget的每一值,装置可针对作为输入的具有viewIdTarget的深度视图而调用子条款H.8.5.2中指定的过程。
装置可随后将以下条件中的任一者对于其为真的所有VCL NAL单元及填充符数据NAL单元标记为“将从位流移除”:priority_id大于pIdTarget,temporal_id大于tIdTarget,anchor_pic_flag等于1且view_id不被标记为“锚所需的”,anchor_pic_flag等于0且view_id不被标记为“锚所需的”,nal_ref_idc等于0且inter_view_flag等于0且view_id不等于列表viewIdTargetList中的任何值,或nal_unit_type等于21且depthPresentFlagTarget等于0。装置可随后移除对于其所有VCL NAL单元被标记为“将从位流移除”的所有存取单元,且可移除被标记为“将从位流移除”的所有VCL NAL单元及填充符数据NAL单元。
在VOIdxList仅包含等于minVOIdx的VOIdx的一个值时,所述装置可移除以下NAL单元:(1)具有等于14或15的nal_unit_type的所有NAL单元,及(2)具有等于6的nal_unit_type的所有NAL单元,其中第一补充增强信息(SEI)消息具有在36到44的范围中(包含36及44)的payloadType。在其中VOIdxList仅包含VOIdx的等于minVOIdx的一个值的情况下,子位流可仅包含基础视图或仅基础视图的时间子集。在depthPresentFlagTarget等于0时,装置可移除具有等于6的nal_unit_type的所有NAL单元,其中第一SEI消息具有在45到47的范围中(包含45及47)的payloadType。
在子位流提取过程中,使maxTid为所有剩余的VCL NAL单元的最大temporal_id。装置可移除具有等于6的nal_unit_type的所有NAL单元,其仅含有作为具有以下特性中的任一者的MVC可缩放嵌套SEI消息的部分的SEI消息:(1)operation_point_flag等于0且all_view_components_in_au_flag等于0且对于在0到num_view_components_minus1的范围内(包含0及num_view_components_minus1)的所有i,没有sei_view_id[i]对应于包含在VOIdxList中的VOIdx值,或(2)operation_point_flag等于1且sei_op_temporal_id大于maxTid或对于在0到num_view_components_op_minus1的范围内(包含0及num_view_components_op_minus1)的所有i,sei_op_view_id[i]的列表不是viewIdTargetList的子集(即,对于在0到num_view_components_op_minus1的范围内(包含0及num_view_components_op_minus1)的任何i,sei_op_view_id[i]等于viewIdTargetList中的值不为真)。装置还可移除每一视图可缩放性信息SEI消息及每一操作点不存在SEI消息(在存在时)。
在VOIdxList不包含等于minVOIdx的VOIdx的值时,具有等于包含在VOIdxList中的最小VOIdx值的VOIdx的视图被转换为所提取的子位流的基础视图。在MVC+D规范中的子条款I.8.5.6中描述了概述用以创建基础视图的关键处理步骤的信息性程序。在VOIdxList不包含等于minVOIdx的值VOIdx时,根据以上操作的所得的子位流可不含有符合在MVC+D规范的附件A中指定的一或多个简档的基础视图。在此情况下,通过最后操作步骤,具有新的最小VOIdx值的剩余的视图被转换为符合附件A及附件H中指定的一或多个简档的新基础视图。
以此方式,作为视频编码器20及视频解码器30中间的装置的网络实体(例如,路由装置104及/或转码装置106)可根据当前MVC+D标准及相对于H.8.5、MVC标准从由视频编码器20产生的位流提取子位流。视频编码器20及视频解码器30中间的装置可针对可缩放视频或针对其它多视图译码标准(例如,3D-AVC、MV-HEVC及3D-HEVC)实施用于子位流提取的类似技术。
然而,用于SVC、MVC及MVC+D(作为几个实例)的现有的子位流提取过程可存在某些问题。作为一个实例,对于一些子位流提取过程,可不存在子位流提取过程自适应地选择提取操作的机制。在一些情况下,子位流提取过程可限于第一提取技术或第二提取技术,而不具有用于选择适当的提取技术的自适应机制。
为理解子位流提取,本发明使用术语“目标输出视图”及“目标视图”或“视图子集”。目标视图可为视图子集的视图。在一些实例中,本发明在参看“目标视图”时可简单地使用术语“视图”。在位流提取的情况下,目标视图简单地指代具有将被提取出在子位流中的经译码图片的视图。目标输出视图是将在显示装置31上显示的视图。视图子集是指恰当地解码目标输出视图所需的视图,即使不显示视图子集中的视图也如此。目标输出视图可为视图子集中的视图中的一者,但可存在额外视图。更一般地说,如果解码目标输出视图需要视图或可缩放视频译码中的层的经译码图片的纹理视图分量及深度视图分量两者或纹理视图分量或深度视图分量中的一者,那么所述视图或层可被视为解码目标输出视图或目标输出层所需的视图子集或层子集中的视图。
作为一实例,返回参看图3,假设将显示的视图是视图S2及S3。在此实例中,目标输出视图的列表包含视图S2及S3。如图3中所说明,视图S2中的经译码图片是使用视图S0中的经译码图片进行视图间预测(例如,视图S2的第一图片是使用视图S0的第一图片进行视图间预测)。因此,为了恰当地解码视图S2的经译码图片,视频解码器30可需要来自视图S0的经译码图片,尽管将不显示视图S0。而且,如图3中所说明,视图S3中的经译码图片是使用视图S4及S2中的经译码图片进行视图间预测。因此,为了恰当地解码视图S3的经译码图片,视频解码器30可需要来自视图S2的经译码图片(由于视图S2是目标输出视图,所以视频解码器30将接收其)。在此实例中,视频解码器30还可需要来自视图S4的经译码图片,尽管将不显示视图S4。因此,在此实例中,视图子集包含视图S0、S2、S3及S4。不需要其它视图来恰当地解码视图S2及S3(目标输出视图),且可因此被丢弃(从位流移除)。
在第一提取技术中,子位流提取过程可需要通过丢弃解码目标输出视图列表或目标输出层列表不需要的尽可能多的数据而以最小大小的所得子位流为目标。此第一提取技术作为由特定最终用户终端(例如,目的地装置14或客户端装置108中的特定一者)对请求的响应可为合适的。
此第一提取技术可被称为“最佳子位流提取技术”。在此最佳子位流提取技术中,视频编码器20及视频解码器30中间的装置可移除解码输出视图或输出层不需要的任何经译码图片的视频数据。举例来说,与其中目标输出视图是视图S2及视图S3的先前实例一起,视图S0可为视图子集的视图,因为需要视图S0的图片来解码视图S2,且需要视图S2的经译码图片来解码视图S3。然而,不需要视图S0的所有经译码图片来解码视图S2及S3的经译码图片。作为一实例,返回参看图3,不需要处于视图S0的时间T1的经译码图片来解码视图S2及视图S3中的经译码图片中的任一者(例如,视图S2及S3中没有经译码图片是使用处于视图S0的时间T1的经译码图片进行视图间预测,且视图S2及S3中没有经译码图片是使用采用处于视图S0的时间T1的经译码图片被帧间预测的经译码图片进行视图间预测)。因此,即使视图S0是视图子集的视图,但不需要视图S0的所有经译码图片来解码目标输出视图。在最佳子位流提取技术中,视频编码器20及视频解码器30中间的装置可移除处于视图S0的时间T1的经译码图片,且不在子位流中包含此经译码图片。例如,视频编码器20及视频解码器30中间的装置可移除纹理视图分量及深度视图分量两者。
在第二提取技术中,子位流提取过程可需要以输出子位流的自完整性为目标。为了实现输出子位流的自完整性,子位流提取过程可维持以下各者中的一或多者:每一层是完整的,如果至少一个视图存在深度视图,那么每一视图具有纹理视图及深度视图两者,且如果至少一个深度视图分量存在于输出子位流中,那么每一视图分量具有纹理视图分量及深度视图分量两者。在此情况下,层的实例包含空间/质量可缩放层、纹理视图或深度视图。对于层来说,完整可意味着每当另一层具有存取单元时具有处于一时间位置的存取单元。自完整子位流仍是“完全可提取的”且在子位流提取是由流式传输服务器(例如,服务器装置102)或中间网络元件(例如,MANE装置)执行的情况下可更有用,且包含在输出中的视图的任何子集可被请求为目标输出视图的列表。在这些实例中,流式传输服务器或中间网络元件是网络实体的实例。
第二提取技术可被称为“自完整子位流提取技术”。在自完整子位流提取技术中,视图的两个视图分量包含在子位流中,即使解码输出视图不需要两个视图分量也如此。举例来说,在图3中,假设需要处于视图S4的时间T0的视图分量的纹理视图分量以解码处于视图S3的时间T0的视图分量的纹理视图分量。而且,假设不需要处于视图S4的时间T0的视图分量的深度视图分量来解码处于视图S3的时间T0的视图分量的深度视图分量。在“自完整提取技术”中,因为处于视图S4的时间T0的视图分量的纹理视图分量包含在子位流中以解码视图S3,所以视频编码器20及视频解码器30中间的装置(例如,网络实体)可包含处于视图S4的时间T0的视图分量的纹理视图分量及深度视图分量两者。
仅出于说明的目的描述上文所描述的第一和第二提取技术且不应被视为具限制性。一般来说,在一些其它技术中,执行子位流提取过程的装置可不能够调适子位流提取技术(例如,装置可不可配置以选择性地实施上文所描述的两个提取技术中的一者)。而是,所述装置可限于第一或第二提取技术。限于第一或第二提取技术可导致较次的原本将可能的最佳子位流提取。
此外,MVC+D草案规范中的子位流提取过程可不是最佳的,且可具有以下问题或缺点。例如,目标输出视图的纹理视图分量可使用一组视图的纹理视图分量进行视图间预测,且目标输出视图的深度视图分量可不使用所述组视图的深度视图分量进行视图间预测。然而,即使解码目标输出视图不需要所述组视图的深度视图分量,所述组视图的深度视图分量可仍然包含在子位流中。类似地,目标输出视图的深度视图分量可使用一组视图的深度视图分量进行视图间预测,且目标输出视图的纹理视图分量可不使用所述组视图的纹理视图分量进行视图间预测。然而,即使解码目标输出视图不需要所述组视图的纹理视图分量,所述组视图的纹理视图分量可仍然包含在子位流中。
本发明中描述的子位流提取技术可针对于用以选择提取过程的自适应(例如,选择性)方式。此外,所述子位流提取技术可提供具有对MVC+D视频译码规范的改进的优化的位流提取过程。
出于说明的目的,根据本发明中描述的技术的子位流提取过程可由网络实体执行,所述网络实体的实例是MANE装置。举例来说,路由装置104及/或转码装置106可被视为MANE装置。在一些实例中,服务器装置102可实施本发明中描述的技术,但仅为易于描述,使用服务器装置102及客户端装置108中间的网络实体描述所述技术。甚至客户端装置108实施本发明中描述的技术可为可能的,但一般来说,本发明中描述的技术将由中间装置(例如,比如MANE装置等网络实体)执行。
在本发明中描述的技术中,子位流提取过程可界定多个子位流提取模式。外部装置可确定所述特定子位流提取模式。术语“外部装置”一般是指硬件单元或在视频解码器30(例如,将接收所提取的子位流的视频解码器)外部的硬件单元上执行的软件单元。例如,外部装置可为视频编码器20及视频解码器30中间的装置的组件,例如MANE装置及/或服务器装置102。MANE装置中的此组件可能未在视频译码规范中指定。举例来说,所述外部装置可设定一或多个变量,所述一或多个变量的值由MANE装置及/或视频解码器30使用,但所述值可在MANE装置及/或视频解码器30外部设定且作为输入提供给MANE装置及/或视频解码器30。
作为一个实例,MANE装置可在硬件上执行符合应用处理接口(API)的软件或固件(例如,所述MANE装置可包含形成外部装置的硬件单元或可包含在形成所述外部装置的硬件单元上执行的软件单元)。此软件或固件是外部装置的一个实例。举例来说,为了选择子位流提取模式,MANE装置可从外部装置接收指示所述选定的提取模式的值。外部装置可设定一或多个变量,所述一或多个变量的值由MANE装置及/或视频解码器30使用,但外部装置可在MANE装置及/或视频解码器30的外部确定所述值。外部装置可将所述值作为输入提供给MANE装置及/或视频解码器30,且MANE装置可使用所述输入以所述选定的方式提取子位流。
在一些实例中,此软件或固件可从客户端装置108或目的地装置14接收指示客户端装置108或目的地装置14的特性的输入信息(例如,移动装置或桌上型装置、显示装置31的大小、视频解码器30的解码能力、可接收的目标输出视图的确切要求,及类似者)。在一些实例中,此软件或固件可确定关于到客户端装置108或目的地装置14的连接的特性的信息(例如,子网络的类型、对安全、最佳或某一中间接收水平的带宽要求,及类似者)。
所述软件或固件可从接收到的或所确定的信息确定特定子位流提取模式(例如,从所述多个子位流提取模式选择一模式)。例如,所述软件或固件可维持子位流提取模式列表,其中每一子位流提取模式指示用以执行子位流提取的特定方式。在此实例中,所述软件或固件可确定识别所述选定的子位流提取模式的值(例如,到子位流提取模式列表中的索引)。所述软件或固件可将所确定的值输出到MANE装置,且继而,MANE装置可确定所述选定的子位流提取模式,且以由所述选定的子位流提取模式界定的方式从接收到的经译码位流提取子位流。
在一些实例中,作为在MANE装置的硬件单元上执行的软件或固件的替代或补充,MANE装置可包含经配置以接收或确定客户端装置108或目的地装置14的特性或客户端装置108或目的地装置14的连接的信息且选择特定子位流提取模式的硬件单元。此硬件单元是外部装置的另一实例。
在本发明中描述的技术中,外部装置可设定一或多个变量,每一变量界定将所提取子位流的方式。所述外部装置可从一或多个变量选择一值,且MANE装置可接收所述值。外部装置还可将值输出到视频解码器30。视频解码器30可接收所述值且确定视频解码器30将接收的子位流。视频解码器30可随后基于指示视频解码器30将接收的子位流的值而解码目标输出视图或层。在这个意义上,外部装置可为在视频解码器30的外部的设定一或多个变量的单元,所述一或多个变量的值由视频解码器30使用且作为输入提供给视频解码器30。
如果外部装置不存在,那么MANE装置可经配置以选择默认子位流提取模式。默认子位流提取模式可为识别可能的子位流提取技术中的任一者的模式。在某一实例中,视频译码规范可界定默认子位流提取技术,且所述子位流提取模式可将由视频译码规范界定的子位流提取技术识别为默认子位流提取技术。
如上文所描述,子位流提取模式的每一值可识别将用于产生所提取的子位流输出的特定子位流提取技术。作为一个实例,所述多个模式中的一模式可界定MANE装置应在输出的所提取的子位流中维持最大自完整性。举例来说,深度视图及纹理视图分量两者或每一层包含在输出的子位流中。作为另一实例,所述多个模式中的一模式可界定MANE装置应提取具有最小大小的子位流。举例来说,MANE装置可从位流仅提取解码目标输出视图或目标输出层所需的经译码图片。
换句话说,一个实例子位流提取模式可为“最佳子位流提取”模式。另一实例子位流提取模式可为“自完整子位流提取”模式。在此实例中,假设提取模式值0是指最佳子位流提取模式,且提取模式值1是指自完整子位流提取模式。如果外部装置选择提取模式值0,那么MANE装置可从位流移除尽可能多的视频数据,同时确保存在用以解码目标输出视图的充分的视频数据。如果外部装置选择提取模式值1,如果解码目标输出视图需要目标视图分量或深度视图分量,那么MANE装置可包含视图的目标视图分量及深度视图分量两者。
作为另一实例,所述多个模式中的一模式可界定MANE应维持中间自完整性(例如,每一层完整,可包含两层、一个纹理视图及一个深度视图的每一视图完整)。此模式可被称为“中间子位流提取”模式。在中间子位流提取模式中,MANE可仅保持解码目标输出视图所需的视图分量。例如,在解码目标输出视图需要视图的纹理视图分量但不需要所述视图的深度视图分量的情况下,MANE装置可输出所述视图的纹理视图分量,且可不输出深度视图分量。类似地,在中间子位流提取模式中,在解码目标输出视图需要视图的深度视图分量但不需要所述视图的纹理视图分量的情况下,MANE装置可输出所述视图的深度视图分量,且可不输出纹理视图分量。
可存在中间自完整性的多个实例,且这些层级中的每一者可表示所述多个子位流提取模式中的一模式。例如,在中间子位流提取模式的一个实例中,MANE可保持视图的纹理视图分量及深度视图分量两者,即使不需要两者也如此,但在解码目标输出视图不需要两者的情况下可移除纹理视图分量及深度视图分量。换句话说,如果将包含视图的纹理视图分量,那么MANE装置也可包含深度视图分量,即使解码目标输出视图不需要深度视图分量也如此。然而,如果解码目标输出视图不需要视图的纹理视图分量及深度视图分量两者,那么MANE装置可移除目标视图的纹理视图分量及深度视图分量两者。
中间自完整提取技术的此实例可不同于自完整提取技术,因为在自完整提取技术中,视图的纹理视图分量及深度视图分量两者可包含在子位流中,即使不需要也如此,使得视图可为完全可提取的。在中间自完整提取技术的此实例中,如果需要视图的纹理视图分量或深度视图分量,那么两者包含在输出子位流中,且如果不需要所述视图,那么不包含在输出子位流中。
除了上文所描述的模式之外,还可以存在界定应提取子位流的方式的其它可选模式,且上文所描述的实例模式不应被视为具限制性。举例来说,本发明中描述的技术不限于上文所描述的特定子位流提取模式。一般来说本发明中描述的技术可扩展到多个实例,其中外部装置从多个子位流提取模式选择一子位流提取模式,且MANE装置根据所述选定的子位流提取模式而提取子位流,其允许自适应子位流提取技术。出于说明的目的而提供最佳子位流提取模式、自完整子位流提取模式及中间子位流提取模式的实例。对于本发明中描述的实例自适应子位流提取技术,额外模式或其它类型的提取模式可为可能的。
本发明中描述的多模式子位流提取技术可适用于任何可缩放媒体编解码器,包含非视频编解码器。换句话说,虽然相对于视频译码描述本发明中描述的技术,但所述技术不限于此且一般可扩展到媒体译码技术。
而且,可不需要所有子位流提取模式以产生相符位流。例如,如果MANE装置以由子位流提取模式中的一者界定的方式提取子位流,那么所得的位流可为相符位流。如果MANE装置以由子位流提取模式中的另一者界定的方式提取子位流,那么所得的位流可不是相符位流。
以此方式,视频编码器20不一定需要执行任何额外任务以确保所提取的子位流对于所有模式都相符。此可导致视频编码器20建构位流的更少复杂化。
因此,在本发明中描述的技术中,外部装置可从多个子位流提取模式选择一子位流提取模式,且所述MANE装置可接收对子位流提取模式的选择。子位流提取模式中的每一者界定用以从来自位流的视图或层提取经译码图片以允许解码目标输出视图或目标输出层的方式。如上文所描述,在一些实例中,每一经译码图片包括存取单元内的视图或层的VCL NAL单元。在一些实例中,视图的每一经译码图片是视图分量、纹理视图分量及深度视图分量中的一者。举例来说,如果不存在深度数据,那么视图的经译码图片可为视图分量。如果存在深度数据,那么视图的经译码图片可为纹理视图分量或深度视图分量。在一些实例中,层的每一经译码图片是层的图片。
所述技术随后以由所述选定的子位流提取模式界定的方式从所述位流提取子位流。所述技术将所提取的子位流输出到视频解码器30。其为视频解码器30进行解码以重构目标输出视图或层的此子位流。
作为一个实例,外部装置可从所述多个子位流提取模式选择自完整子位流提取模式,且MANE装置可接收指示对自完整子位流提取模式的选择的信息。在外部装置选择自完整子位流提取模式时,如果解码目标输出视图需要视图的纹理视图或深度视图,那么MANE装置可提取视图的所有可用的纹理视图分量及深度视图分量。换句话说,即使解码目标输出视图不需要所述视图的深度视图但需要所述视图的纹理视图,MANE装置可提取所述视图的可用的纹理视图分量及可用的深度视图分量两者。类似地,即使解码目标输出视图不需要视图的纹理视图但需要所述视图的深度视图,MANE装置可提取所述视图的可用的纹理视图分量及可用的深度视图分量两者。
作为另一实例,外部装置可从所述多个子位流提取模式选择中间子位流提取模式,且MANE装置可接收指示对中间子位流提取模式的选择的信息。在外部装置选择中间子位流提取模式时,MANE装置可提取以下各者中的一者:(1)在解码目标输出视图需要视图的纹理视图的情况下所述视图的所有可用的纹理视图分量,及在解码目标输出视图不需要视图的深度视图的情况下所述视图的无深度视图分量,及(2)在解码目标输出视图需要所述视图的深度视图的情况下所述视图的所有可用的深度视图分量,及在解码目标输出视图不需要所述视图的纹理视图的情况下所述视图的无纹理视图分量。
换句话说,如果解码输出视图需要纹理视图但不需要深度视图,那么MANE装置可仅提取纹理视图分量以用于输出,且可从子位流移除深度视图分量。如果解码输出视图需要深度视图但不需要纹理视图,那么MANE装置可仅提取深度视图分量以用于输出,且可从子位流移除纹理视图分量。下文相对于维持单独的列表而描述其中MANE装置可按需要仅提取纹理视图分量或深度视图分量的方式。
作为又一实例,外部装置可从所述多个子位流提取模式选择最佳子位流提取模式,且MANE装置可接收指示对最佳子位流提取模式的选择的信息。在所述外部装置选择最佳子位流提取模式时,MANE装置可仅提取视图的解码目标输出视图需要的纹理视图分量及深度视图分量,且不提取所述视图的解码目标输出视图不需要的纹理视图分量及深度视图分量。换句话说,仅在需要纹理视图分量或深度视图分量的情况下MANE装置才在子位流中包含纹理视图分量或深度视图分量。从子位流移除解码目标输出视图不需要的所有其它视图分量(即使来自在子位流中包含视图分量的视图也如此)。
此外,MANE装置可执行额外的任务以提供对当前由MVC+D规范界定的子位流提取的可能的改进。作为一个实例,为了实施中间子位流提取模式,MANE装置可针对给定目标输出视图列表的纹理视图及深度视图维持单独的视图列表(例如,目标视图列表)。举例来说,MANE装置可确定输出视图或可从所接收的信息确定输出视图。对于输出视图,MANE装置可针对解码目标输出视图所需的视图的纹理视图及深度视图保持单独的列表。换句话说,MANE装置可维持将从视图提取的纹理视图的列表,且维持将从视图提取的深度视图的单独的列表。
例如,如果目标输出视图包含视图0、视图1及视图2,且视图2是使用视图3进行视图间预测,那么视图列表可识别视图0、视图1、视图2及视图3作为将需要提取的视图。之所以将需要提取视图3是因为视频解码器30需要视图3以对视图2帧间预测解码。然而,视频解码器30可不需要视图3的纹理视图分量及深度视图分量两者对视图2帧间预测解码。因此,在本发明中描述的技术中,MANE装置可单独地在第一视图列表中维持视图的纹理视图且在第二视图列表中维持视图的深度视图。
例如,MANE装置可确定纹理视图分量是否属于“将提取”的纹理视图的视图列表。举例来说,MANE装置可确定纹理视图分量是否属于在纹理视图列表中所识别的纹理视图。如果视图分量是视图列表的“将提取”的纹理视图分量,那么MANE装置可提取纹理视图分量以用于在子位流中输出。如果视图分量不属于“将提取”的纹理视图的视图列表,那么MANE装置可不提取纹理视图分量以用于在子位流中输出。
例如,MANE装置可仅在纹理视图分量属于在纹理视图列表中所识别的纹理视图的情况下才提取所述纹理视图分量。如果深度视图分量属于未在深度视图列表中所识别的深度视图,那么MANE装置可避免(例如,避免提取)将对应深度视图分量(例如,不提取所述对应深度视图分量)提取到纹理视图分量。以此方式,在解码目标输出视图需要视图的纹理视图的情况下,MANE装置可提取所述视图的所有可用的纹理视图分量,且在解码目标输出视图不需要所述视图的深度视图的情况下不提取所述视图的深度视图分量。
类似地,MANE装置可确定视图分量是否属于“将提取”的深度视图的视图列表。举例来说,MANE装置可确定深度视图分量是否属于在深度视图列表中所识别的深度视图。如果视图分量是视图列表的“将提取”的深度视图分量,那么MANE装置可提取所述深度视图分量以用于在子位流中输出。如果视图分量不属于“将提取”的深度视图的视图列表,那么MANE装置可不提取深度视图分量以用于在子位流中输出。
例如,MANE装置可仅在深度视图分量属于在深度视图列表中所识别的深度视图的情况下才提取所述深度视图分量。如果纹理视图分量属于未在纹理视图列表中所识别的纹理视图,那么MANE装置可避免将对应纹理视图分量(例如,不提取所述对应纹理视图分量)提取到深度视图分量。以此方式,在解码目标输出视图需要视图的深度视图的情况下,MANE装置可提取所述视图的所有可用的深度视图分量,且在解码目标输出视图不需要所述视图的纹理视图的情况下不提取所述视图的纹理视图分量。
在以上实例中,MANE装置可针对视图列表的纹理视图及深度视图维持两个单独的列表。例如,纹理视图的列表可包含解码目标输出视图的纹理视图分量所需的视图的纹理视图。深度视图的列表可包含解码目标输出视图的深度视图分量所需的视图的深度视图。
在此实例中,在解码目标输出视图的视图分量需要深度视图分量但不需要对应纹理视图分量的情况下,MANE装置可提取所述深度视图分量且可不提取所述纹理视图分量。类似地,在解码目标输出视图的视图分量需要纹理视图分量但不需要对应深度视图分量的情况下,MANE装置可提取所述纹理视图分量且可不提取所述深度视图分量。
在这个意义上,纹理视图列表可包含其纹理视图分量将被提取的纹理视图,且深度视图列表可包含其深度视图分量将被提取的深度视图。然而,在纹理视图列表中所识别的视图的纹理视图可不具有在深度视图列表中所识别的视图的对应深度视图,且反之亦然。换句话说,所述纹理视图列表包含至少一个视图的纹理视图,且所述深度视图列表不包含所述至少一个视图的对应深度视图,或所述深度视图列表包含所述至少一个视图的深度视图,且所述纹理视图列表不包含所述至少一个视图的对应纹理视图,以此方式,如果仅需要纹理视图分量或如果仅需要深度视图分量,那么不提取纹理视图分量及深度视图分量两者以用于输出,MANE装置可仅提取解码目标输出视图所需的纹理视图分量及深度视图分量,且仅在子位流中包含所需的纹理视图分量或深度视图分量。
在一些实例中,MANE装置可应用模态方案以确定MANE装置是否应单独地维持纹理视图分量的视图列表(即,解码目标输出视图所需的纹理视图分量列表)及深度视图分量的视图列表(即,用于解码目标输出视图的深度视图分量列表)。例如,在第一子位流提取模式中,MANE装置可实施在当前MVC+D规范中所界定的子位流提取过程,且在第二子位流提取模式中,MANE装置可实施子位流提取过程,其中MANE装置维持用于解码目标输出视图的纹理视图分量列表及用于解码目标输出视图的单独的深度视图分量列表。
在第一子位流提取模式(例如,自完整子位流提取模式)中,如果需要纹理视图分量,那么MANE装置可在子位流中输出纹理视图分量及深度视图分量两者,即使不需要深度视图分量也如此,且反之亦然。在一些实例中,如果需要输出子位流是“完全可提取的”(即,如果一个视图具有纹理及深度两者,那么所有视图必须具有纹理及深度两者),那么MANE装置的外部装置(例如,软件、固件或硬件单元)可根据第一模式确定MANE装置应提取位流。如果位流提取是由流式传输服务器(例如,服务器装置102)或中间网络元件(例如,路由装置104及/或转码装置106)执行,那么根据第一子位流提取模式提取位流可为有益的,且包含在输出中的视图的任何子集可被请求为目标输出视图。换句话说,因为可需要视图的任何组合以用于输出,所以MANE装置确保输出子位流是完全可提取的可为有益的。
在一些实例中,外部装置可确定第二子位流提取模式(例如,中间子位流提取模式)是MANE装置应实施子位流提取的更适当的方式。例如,外部装置可从作为视频的终端用户的实体(例如,目的地装置14或客户端装置108)接收指示目标输出视图的信息。在此实例中,外部装置可选择第二子位流提取模式作为其中MANE装置执行子位流提取的方式。
作为另一实例,作为视频的终端用户的实体可永不请求不在从初始提取提取的操作点中的目标输出视图。举例来说,服务器装置102可执行产生具有由操作点界定的特性的子位流的初始提取。转码装置106可执行额外提取。在此实例中,如果作为视频的终端用户的实体将不请求作为由服务器装置102执行的提取过程的部分而包含的视图,那么外部装置可选择第二子位流提取模式作为其中MANE装置执行子位流提取的方式(例如,通过保持用于纹理视图分量及深度视图分量的单独的列表,而非包含纹理视图分量及深度视图分量两者的单一视图分量列表)。
在一些实例中,除了保持用于纹理视图分量及深度视图分量的单独的列表以使得在子位流中仅输出解码目标输出视图所需的纹理视图分量或深度视图分量之外,MANE装置可进一步移除解码目标输出视图不需要的更多视图分量或NAL单元或NAL单元的部分。此可为最佳子位流提取技术的部分。例如,视频编码器20可通过非所需的视图分量SEI消息或通过NAL单元标头中的inter_view_flag而指示此类额外视图分量。此类NAL单元可包含非VCL NAL单元,例如序列参数集(SPS)、图片参数集(PPS)NAL单元,及SEI NAL单元。NAL单元的部分可包含在SEI NAL单元中包含的SEI消息。
在一些实例中,对额外视图分量、NAL单元或NAL单元的部分的移除可为外部装置可选择的第三子位流提取模式。在一些实例中,对额外视图分量、NAL单元或NAL单元的部分的移除的实例可为上文所描述的第二子位流提取模式的替代方案。
如上文所描述,外部装置可在第一子位流提取模式(例如,自完整子位流提取模式)、第二子位流提取模式(例如,中间子位流提取模式)或第三子位流提取模式(例如,最佳子位流提取模式)之间进行选择。例如,在自完整子位流提取模式中,视频解码器30可在输出子位流中接收用以解码目标输出视图的充分的视频数据,以及一或多个额外视图,但少于所有视图。在最佳子位流提取模式中,视频解码器30可在输出子位流中接收用以仅解码目标输出视图的充分的视频数据,且可能不接收其它视图。
在中间子位流提取模式的一个实例中,视频解码器30可在输出子位流中接收用以解码目标输出视图的充分的视频数据,及视图的视图分量的部分(例如,纹理视图分量或深度视图分量中的任一者,但不是两者)。在中间子位流提取模式的另一实例中,视频解码器30可在输出子位流中接收用以解码目标输出视图的充分的视频数据,及一些视图,但不是所有视图。
在本发明中描述的技术中,外部装置可利用各种准则以选择子位流提取模式。作为一个实例,外部装置可确定是否需要任何视图子集是完全可提取的,且如果是,那么可选择自完整子位流提取模式。作为一个实例,外部装置可确定将接收子位流的装置是否应仅接收用以解码特定目标输出视图的足够的视频数据(例如,所述装置是否请求特定目标输出视图,将接收子位流的装置的能力是否限制视图的数目,或基于带宽可用性),且可选择最佳子位流提取模式。作为一个实例,如果存在充分带宽且视频解码器30能够解析语法元素以使得视频解码器30能够处置仅包含视图的纹理视图分量且不包含深度视图分量(或反之亦然)的子位流,那么外部装置可选择中间子位流提取模式中的一者。外部装置可利用其它准则来选择适当的提取模式,且仅出于说明的目的而提供用于选择提取模式的以上准则。
如果外部装置不可用,那么MANE单元可经配置以利用这些模式中的一者的技术作为默认模式。举例来说,如果外部装置不可用,那么第二子位流提取模式可为默认模式。或者,如果外部装置不可用,那么第一子位流模式可为默认模式。
上文描述其中视频数据包含深度数据(例如,深度视图)的实例的各种子位流提取模式。然而,对于一些视频译码标准,例如对H.264/AVC的MVC扩展,不存在深度数据。举例来说,可仅存在视图分量而非两个分量视图分量(例如,仅视图分量,而非纹理视图分量及深度视图分量)。本发明中描述的技术可适用于其中不存在深度数据的情况。
作为一个实例,多个子位流提取模式中的一者可为用于不包含深度数据的视频数据的自完整子位流提取模式。在外部装置选择用于不包含深度数据的视频数据的自完整子位流提取模式时,MANE装置可从视图提取解码目标输出视图所需的所有视图分量。
作为另一实例,多个子位流提取模式中的一者可为用于不包含深度数据的视频数据的最佳子位流提取模式。在所述外部装置选择用于不包含深度数据的视频数据的最佳子位流提取模式时,MANE装置可从视图仅提取解码目标输出视图所需的视图分量,且不从视图提取解码目标输出视图不需要的视图分量。
类似地,在本发明中描述的技术中,可存在用于可缩放视频译码的各种子位流提取模式。作为一个实例,多个子位流提取模式中的一者可为用于可缩放视频译码的自完整子位流提取模式。在外部装置选择用于可缩放视频译码的自完整子位流提取模式时,MANE装置可在解码目标输出层需要一层时提取所述层的所有图片。
作为另一实例,多个子位流提取模式中的一者可为用于可缩放视频译码的最佳子位流提取模式。在外部装置选择用于可缩放视频译码的最佳子位流提取模式时,MANE装置可仅提取解码目标输出层所需的层的图片。
如上文所描述,本发明中描述的技术可适用于各种多视图译码标准。为辅助理解,以下描述其中可根据MVC+D视频译码规范及MVC视频译码规范而实施的技术的一些方式。提供对其中可相对于MVC+D视频译码规范及MVC视频译码规范实施本发明中描述的技术的方式的描述以便于理解且不应被视为具限制性。本发明中描述的技术可适用于MV-HEVC、3D-HEVC或基于HEVC标准的可缩放视频译码。
如上文所描述,本发明中描述的技术允许在用于子位流提取的不同技术之间进行选择。为实现对不同子位流提取技术的此类选择,本发明可利用被称作“extractionMode”的提取模式变量。
例如,对于用于MVC+D的子位流提取过程,位流一致性的要求可为作为在此技术中指定的过程的输出的任何子位流可符合MVC+D标准,其中extractionMode等于在0到3的范围中(包含0及3)的任何值,depthPresentFlag等于0或1,pIdTarget(priority_id目标值)等于0到63的范围内(包含0及63)的任何值,tIdTarget(temporal_id或temporalID目标值)等于0到7的范围内(包含0及7)的任何值、由viewIdTarget的任何一或多个值组成的viewIdTargetList识别位流中的视图。
depthPresentFlag等于0或1可指示深度视图分量是否为视图分量的部分。变量pIdTarget、tIdTarget、viewIdTargetList、相符位流的界定及上文相对于当前MVC+D规范所描述的操作点上的条件在此处同样可适用。
在用于MVC+D的本发明中描述的技术中,除了变量depthPresentFlagTarget(在存在时)、pIdTarget(在存在时)、tIdTarget(在存在时)及由viewIdTarget的一或多个值组成的列表viewIdTargetList(在存在时)之外,上文描述所有这些变量,对子位流提取过程的输入可为extractionMode变量(在存在时)。如上,子位流提取过程的输出可为子位流以及VOIdx及VIdxList的列表。在extractionMode不作为输入存在时,MANE可推断extractionMode的值是0。在存在extractionMode时,不一定由视频译码规范界定的外部装置可确定extractionMode的值,如上文所描述。作为用于MVC+D的此子位流提取过程的输入的另一变量的值在不存在时可被推断出,如上文所描述。
在此实例中,如果外部装置确定变量extractionMode的值是0,那么MANE装置可实施“自完整子位流提取”技术(即,变量extractionMode的值0是指自完整提取技术)。如果外部装置确定变量extractionMode的值是1,那么MANE装置可实施“最佳子位流提取”技术(即,变量extractionMode的值1是指最佳提取技术)。
如果外部装置确定变量extractionMode的值是2,那么MANE装置可实施“中间子位流提取”技术的一个实例(即,变量extractionMode的值2是指中间子位流提取技术的第一实例)。
如果外部装置确定变量extractionMode的值是3,那么MANE装置可实施“中间自完整提取”技术的另一实例(即,变量extractionMode的值3是指中间自完整提取技术的第二实例)。中间自完整提取技术的此第二实例可类似于在3D-AVC标准的最新草案中指定的子位流提取技术。举例来说,在中间自完整提取技术的此第二实例中,如果需要视图的纹理视图分量或深度视图分量但不是两者,那么MANE装置可仍包含纹理视图分量及深度视图分量两者。
而且,在中间自完整提取技术的此第二实例中,可能不需要视图的纹理视图分量及深度视图分量中的一些,但可能需要其它。如果既不需要视图的深度视图分量也不需要纹理视图分量,那么MANE装置可不包含纹理视图分量或深度视图分量中的任一者。举例来说,在自完整提取技术中,即使既不需要视图的纹理视图分量也不需要深度视图分量,子位流也可包含纹理视图分量及深度视图分量两者以使得视图是完全可提取的。在此实例中,对于中间子位流提取技术,如果既不需要视图的纹理视图分量也不需要深度视图分量,那么都不包含在子位流中,但如果需要视图的目标视图分量或深度视图分量中的一者,那么两者都包含在子位流中,而不管是否需要纹理视图分量及深度视图分量两者。
如上文所描述,变量extractionMode的值可界定MANE装置是否实施用于MVC+D视频译码规范的子位流提取。下文更详细地描述其中MANE装置实施用于MVC+D的各种实例子位流提取技术的方式。
上文描述MVC+D,以下描述MVC。举例来说,MVC,可不存在深度组件,且因此,depthPresentFlagTarget可不是必需的。而且,变量extractionMode的值可限于0或1,因为由于在MVC中可不存在深度视图分量而可存在更少的提取模式。例如,提取模式中的一者可为用于包含深度数据的视频数据的自完整子位流提取模式,如上文所描述。提取模式中的另一者可为用于不包含深度数据的视频数据的最佳子位流提取模式,如上文所描述。
对于MVC,位流一致性的要求可为作为所述技术中指定的过程的输出的任何子位流可符合所述标准,其中extractionMode等于0到1的范围中(包含0及1)的任何值,pIdTarget(priority_id目标值)等于0到63的范围内(包含0及63)的任何值,tIdTarget(temporal_id或temporalID目标值)等于0到7的范围内(包含0及7)的任何值,由viewIdTarget的任何一或多个值组成的viewIdTargetList识别位流中的视图。变量pIdTarget、tIdTarget、viewIdTargetList、相符位流的界定及上文相对于当前MVC规范所描述的操作点上的条件在此处同样可适用。
在本发明中针对MVC描述的技术中,除了变量pIdTarget(在存在时)、tIdTarget(在存在时)及由viewIdTarget的一或多个值组成的列表viewIdTargetList(在存在时)之外,上文描述所有这些变量,子位流提取过程的输入可为extractionMode变量(在存在时)。如上,子位流提取过程的输出可为子位流以及VOIdx及VIdxList的列表。在extractionMode不作为输入存在时,MANE可推断extractionMode的值是0。在存在extractionMode时,不一定由视频译码规范界定的外部装置可确定extractionMode的值,如上文所描述。作为用于MVC的此子位流提取过程的输入的另一变量的值在不存在时可被推断出,如上文所描述。
在一些实例中,对于MVC,如果extractionMode等于1,那么MANE装置可通过以顺序次序应用在当前MVC规范中指定的步骤而导出子位流。如果extractionMode等于0,那么MANE装置可通过应用下文进一步描述的步骤而导出子位流。例如,以下首先描述用于实施MVC+D的各种模式的技术,且随后描述不同于当前MVC规范中的技术的用于实施用于MVC的子位流提取模式的技术。
上文描述MANE装置可实施以用于MVC+D中的子位流提取的实例模式,举例来说,MANE装置可导出目标视图列表以作为子位流的部分。为实施用于子位流提取的实例模式,本发明描述对当前MVC+D视频译码规范的一些修改。
举例来说,MVC+D视频译码规范的子条款A.1.1.4针对用于所需的锚视图分量的导出过程。对于此部分,MVC规范子条款H.8.5.1可应用两次,一次通过“纹理视图分量”取代“视图分量”且使用“锚纹理所需的”取代“锚所需的”,且一次通过“深度视图分量”取代“视图分量”且使用“锚深度所需的”取代“锚所需的”。
MVC+D视频译码规范的子条款A.1.1.5针对用于所需的非锚视图分量的导出过程。对于此部分,MVC规范子条款H.8.5.2可应用两次,一次通过“纹理视图分量”取代“视图分量”且使用“锚纹理所需的”取代“锚所需的”,且一次使用“深度视图分量”取代“视图分量”且使用“锚深度所需的”取代“锚所需的”。
以下描述其中MANE装置可实施用于MVC+D的最佳提取模式的方式的实例(例如,其中维持最小大小的子位流以使得仅解码目标输出视图所需的视频数据包含在子位流中)。举例来说,extractionMode变量的值可为1。depthPresentFlagTarget可等于0或1。
MANE装置可实施与当前在MVC+D视频译码规范中描述的提取技术实质上类似的提取技术,且其在上文详细描述。然而,可存在一些差异。例如,如上文针对当前MVC+D规范所描述,在当前MVC+D规范中用于将所有VCL NAL单元及填充符数据NAL单元标记为“将从位流移除”的条件中的两个条件是:anchor_pic_flag等于1且view_id未被标记为“锚所需的”,及anchor_pic_flag等于0且view_id未被标记为“非锚所需的”。对于MVC+D的最佳提取模式,这两个条件可改变为:anchor_pic_flag等于1,nal_unit_type不是21,且view_id未被标记为“锚纹理所需的”,及anchor_pic_flag等于0,nal_unit_type不是21且view_id未被标记为“非锚纹理所需的”。
此外,对于MVC+D的最佳提取模式,在VCL NAL单元及填充符数据NAL单元可被标记为“将从位流移除”时,可添加以下两个条件。第一额外条件可为:anchor_pic_flag等于1,nal_unit_type是21,且view_id未被标记为“锚深度所需的”。第二额外条件可为:anchor_pic_flag等于0,nal_unit_type是21,且view_id未被标记为“非锚深度所需的”。用于子位流提取的另一步骤可与上文针对MVC+D中的当前子位流提取所描述的相同。
以下描述其中MANE装置可实施用于MVC+D的自完整中间提取模式的实例的方式的实例。举例来说,extractionMode变量的值可为2。depthPresentFlagTarget可等于0或1。
在此实例中,目标输出视图的纹理及深度视图分量可具有不同的相依性。举例来说,目标输出视图的纹理视图分量可从与目标输出视图的深度视图分量不同的目标视图进行视图间预测。换句话说,来自视图的纹理视图分量及深度视图分量两者可不包含在子位流中,且视图的仅所需的纹理视图分量或深度视图分量包含在输出子位流中。而且,在一些实例中,在每一提取之后,可进一步提取剩余的子位流以支持目标输出视图列表。此目标输出视图列表可为子集或与在第一子位流提取期间的原始输入位流的目标输出视图列表相同。
在针对中间子位流提取技术的此实例中,对于每一视图,如果其view_id被标记为“锚纹理所需的”或“非锚纹理所需的”,那么view_id被标记为“纹理所需的”。而且,对于每一视图,如果其view_id被标记为“锚深度所需的”或“非锚深度所需的”,那么view_id被标记为“深度所需的”。如上,基础视图的view_id可始终被标记为“纹理所需的”。
对于中间子位流提取技术,MANE装置可实施与当前在MVC+D视频译码规范中描述的提取技术实质上类似的提取技术,且其在上文详细描述。然而,可存在一些差异。例如,如上文针对当前MVC+D规范所描述,在当前MVC+D规范中用于将所有VCL NAL单元及填充符数据NAL单元标记为“将从位流移除”的条件中的三个条件是:anchor_pic_flag等于1且view_id未被标记为“锚所需的”、anchor_pic_flag等于0且view_id未被标记为“非锚所需的”,及nal_ref_idc等于0且inter_view_flag等于0且view_id不等于列表viewIdTargetList中的任何值。
对于中间自完整性提取技术,可如下修改这三个条件。在下文中,删除线指示对当前所提议的标准的删除,且用于更好地理解何时删除条件。第一条件可修改为:,nal_unit_type不是21,且view_id未被标记为“锚纹理所需的”。可移除anchor_pic_flag等于0的第二条件(即, ”)。还可以移除nal_ref_idc等于0的第三条件(即, )。
对于中间子位流提取技术,在所有VCL NAL单元及填充符数据NAL单元是“将从位流移除”时,可添加以下两个条件。条件可为nal_unit_type是21且view_id未被标记为“深度所需的”。用于子位流提取的另一步骤可与上文针对MVC+D中的当前子位流提取所描述的相同。
以下描述其中MANE装置可实施用于MVC+D的自完整提取模式的实例的方式的实例。举例来说,extractionMode变量的值可为0。在此实例中,一个视图的纹理视图分量及深度视图分量可联合地被视为一个视图分量,且一旦需要纹理或深度视图分量以用于输出或解码,两者可保持在所提取的子位流中。
在此实例中,对于每一视图,如果其view_id被标记为“锚纹理所需的”、“非锚纹理所需的”、“锚深度所需的”或“非锚深度所需的”,那么view_id可被标记为“所需的”。而且,如上,基础视图可始终被标记为“所需的”。
对于自完整子位流提取技术,MANE装置可实施与当前在MVC+D视频译码规范中描述的提取技术实质上类似的提取技术,且其在上文详细描述。然而,可存在一些差异。例如,如上文针对当前MVC+D规范所描述,在当前MVC+D规范中用于将所有VCL NAL单元及填充符数据NAL单元标记为“将从位流移除”的条件中的三个条件是:anchor_pic_flag等于1且view_id未被标记为“锚所需的”、anchor_pic_flag等于0且view_id未被标记为“非锚所需的”,及nal_ref_idc等于0且inter_view_flag等于0且view_id不等于列表viewIdTargetList中的任何值。
对于自完整提取技术,可如下修改这三个条件。在下文中,删除线指示对当前所提议的标准的删除,且用于更好地理解何时删除条件。第一条件可修改为 ,view_id未被标记为“所需的”。可移除anchor_pic_flag等于0的第二条件(即,)。还可以移除nal_ref_idc等于0的第三条件(即, )。
对于自完整子位流提取技术,在所有VCL NAL单元及填充符数据NAL单元是“将从位流移除”时,可添加以下两个条件。条件可为nal_unit_type是21且view_id未被标记为“深度所需的”。用于子位流提取的另一步骤可与上文针对MVC+D中的当前子位流提取所描述的相同。
上文描述用以实施用于MVC+D的子位流提取模式的实例方式。以下描述用以实施用于MVC的子位流提取模式的实例方式。模式中的一者可为在当前所提议的MVC规范中所界定的子位流提取技术,且MANE装置可实施如当前所提议的MVC规范中所界定的子位流提取技术,其一般包含10个步骤。MANE装置可通过实施在一些一般备注之后相对于子位流提取过程描述的以下11个步骤而实施另一子位流提取模式(例如,在以下是由外部装置选择的模式的情况下)。
对于每一视图,如果其view_id被标记为“锚所需的”、“非锚所需的”,那么view_id被标记为“所需的”。基础层的view_id始终被标记为“所需的”。对于子位流提取过程,位流一致性的要求可为作为在此子条款中指定的过程的输出的任何子位流可符合所述标准,其中pIdTarget等于0到63的范围内(包含0及63)的任何值,tIdTarget等于0到7的范围内(包含0及7)的任何值,由任何一或多个viewIdTarget组成的viewIdTargetList识别位流中的视图。
如上文所描述,相符位流含有具有等于0的priority_id及等于0的temporal_id的一或多个经译码切片NAL单元。而且,有可能不是所有由子位流提取过程产生的子位流的操作点都具有可适用的level_idc或level_idc[i]。在此情况下,子位流中的每一经译码视频序列必须仍符合在附件A及附件H中指定的简档中的一或多者,但可不满足分别在子条款A.3及H.10.2中指定的层级约束。
对此过程的输入是变量pIdTarget(在存在时)、变量tIdTarget(在存在时)及由一或多个viewIdTarget组成的列表viewIdTargetList(在存在时)。此过程的输出是子位流及VOIdx值的列表VOIdxList。在pIdTarget不作为此子条款的输入而存在时,推断pIdTarget等于63。在tIdTarget不作为此子条款的输入而存在时,推断tIdTarget等于7。在viewIdTargetList不作为此子条款的输入而存在时,可存在在viewIdTargetList中推断的一个viewIdTarget,且推断viewIdTarget的值等于基础视图的view_id。
在下文中,删除线指示对当前所提议的标准的删除,且用于更好地理解何时删除条件。通过以顺序次序应用以下11个操作而导出子位流。
(1)使VOIdxList为空且使minVOIdx为基础视图的VOIdx值。(2)对于包含在viewIdTargetList中的每一viewIdTarget,使用viewIdTarget作为输入而调用在子条款H.8.5.1中指定的过程。(3)对于包含在viewIdTargetList中的每一viewIdTarget,使用viewIdTarget作为输入而调用在子条款H.8.5.2中指定的过程。(4)对于每一视图,如果其view_id被标记为“锚所需的”、“非锚所需的”,且view_id被标记为“所需的”。
第五步骤可为将以下条件中的任一者对于其为真的所有VCL NAL单元及填充符数据NAL单元标记为“将从位流移除”:priority_id大于pIdTarget,temporal_id大于tIdTarget,view_id未被标记为“锚所需的”、 。第六步骤可为移除对于其所有VCL NAL单元被标记为“将从位流移除”的所有存取单元。
第七步骤可为移除被标记为“将从位流移除”的所有VCL NAL单元及填充符数据NAL单元。第八步骤可为,在VOIdxList仅含有VOIdx的等于minVOIdx的一个值时,移除以下NAL单元:具有等于14或15的nal_unit_type的所有NAL单元,具有等于6的nal_unit_type的NAL单元,其中第一SEI消息具有在36到44的范围内(包含36及44)的payloadType。在一些实例中,在VOIdxList仅含有VOIdx的等于minVOIdx的一个值时,子位流仅含有基础视图或仅基础视图的时间子集。
第九步骤可为使maxTId为所有剩余的VCL NAL单元的最大temporal_id。移除具有等于6的nal_unit_type的所有NAL单元,其仅含有作为具有以下特性中的任一者的MVC可缩放嵌套SEI消息的部分的SEI消息:operation_point_flag等于0且all_view_components_in_au_flag等于0且对于在0到num_view_components_minus1的范围内(包含0及num_view_components_minus1)的所有i,没有sei_view_id[i]对应于包含在VOIdxList中的VOIdx值,operation_point_flag等于1且sei_op_temporal_id大于maxTId或对于在0到num_view_components_op_minus1的范围内(包含0及num_view_components_op_minus1)的所有i,sei_op_view_id[i]的列表不是viewIdTargetList的子集(即,对于在0到num_view_components_op_minus1的范围内(包含0及num_view_components_op_minus1)的任何i,sei_op_view_id[i]等于viewIdTargetList中的值不为真)。
第十步骤可为移除每一视图可缩放性信息SEI消息及每一操作点不存在SEI消息(在存在时)。第十一步骤可为在VOIdxList不含有VOIdx的等于minVOIdx的值时,具有等于包含在VOIdxList中的mininum VOIdx值的VOIdx的视图被转换为所提取的子位流的基础视图。在H.8.5.5中描述概述用以产生基础视图的关键处理步骤的信息性程序。在VOIdxList不含有VOIdx的等于minVOIdx的值时,根据以上操作步骤1到9的所得的子位流不含有符合在附件A中指定的一或多个简档的基础视图。在此情况下,通过此操作步骤,具有新的最小VOIdx值的剩余的视图被转换为符合在附件A中指定的一或多个简档的新基础视图。
图5是说明可实施本发明中描述的技术的实例视频编码器20的框图。例如,视频编码器20可编码多视图视频的视频数据。在一些实例中,视频编码器20可根据H.264/AVC MVC扩展、MVC+D、3D-AVC、MV-HEVC、3D-HEVC或基于HEVC的可缩放视频译码(作为几个实例)来编码视频数据。出于说明的目的,相对于HEVC标准描述所述技术。视频编码器20可随后输出经编码位流,MANE装置接收所述经编码位流且执行本发明中描述的子位流提取技术。
视频编码器20可执行视频切片内的视频块的帧内译码(例如,帧内预测编码)及帧间译码(例如,帧间预测编码)以及对来自不同视图的视频块的视图间预测编码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。视图间预测是指从另一视图中的图片预测块。帧内模式(I模式)可指若干基于空间的压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可以指代若干基于时间的压缩模式中的任一者。
在图2的实例中,视频编码器20包含分割单元35、预测处理单元41、滤波器单元63、参考图片存储器64、求和器50、变换处理单元52、量化单元54,及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测单元46。对于视频块重构,视频编码器20还包含反量化单元58、反变换单元60,和求和器62。滤波器单元63可一般表示一或多个环路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。虽然滤波器单元63在图5中展示为环路内滤波器,但在其它配置中,滤波器单元63可实施为环路后滤波器,在此情况下,未经滤波的数据可以用于译码环路。
如图5中所展示,视频编码器20接收视频数据,且分割单元35将所述数据分割成视频块。此分割还可包含分割成切片、图像块或其它较大单元,以及例如根据LCU及CU的四叉树结构的视频块分割。视频编码器20一般说明编码待编码的视频切片内的视频块的组件。所述切片可划分成多个视频块(且可能划分成被称作瓦片的视频块集合)。预测处理单元41可针对当前视频块基于误差结果(例如,译码速率及失真水平)而选择多个可能的译码模式中的一者,例如多个帧内译码模式中的一者或多个帧间译码模式(包含视图间预测)中的一者。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残差块数据,且提供到求和器62以重构经编码块以用作参考图片。
预测处理单元41内的帧内预测单元46可相对于与待译码当前块在相同的帧或切片中的一或多个相邻块执行当前视频块的帧内预测译码,以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个预测块执行当前视频块的帧间预测译码以提供时间压缩。
运动估计单元42可经配置以根据用于视频序列的预定模式确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指明为P切片或B切片。运动估计单元42与运动补偿单元44可高度集成,但出于概念目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述运动向量估计视频块的运动。举例来说,运动向量可以指示当前视频帧或图片内的视频块的PU相对于参考图片内的预测块的移位。
预测块是被发现在像素差异方面紧密地匹配待译码的视频块的PU的块,其可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,视频编码器20可计算存储于参考图片存储器64中的参考图片的子整数像素位置的值。举例来说,视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可执行相对于完整像素位置和分数像素位置的运动搜索,且以分数像素位置输出运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算经帧间译码(例如,经帧间编码)切片中的视频块的PU的运动向量。可从第一参考图片列表(列表0)或第二参考图片列表(列表1)来选择所述参考图片,所述列表中的每一者识别存储于参考图片存储器64中的一或多个参考图片。运动估计单元42将计算出的运动向量发送到熵编码单元56和运动补偿单元44。
由运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(有可能执行对子像素精度的内插)确定的运动向量提取或产生预测块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可即刻在参考图片列表中的一者中定位所述运动向量指向的预测块。视频编码器20通过从正被译码的当前视频块的像素值减去预测块的像素值从而形成像素差值来形成残差视频块。像素差值形成用于所述块的残差数据,并且可包含亮度及色度差分量两者。求和器50表示可执行此减法运算的组件。运动补偿单元44还可产生与视频块和视频切片相关联的供视频解码器30在对视频切片的视频块进行解码时使用的语法元素。
作为由运动估计单元42及运动补偿单元44执行的帧间预测(如上文所描述)的替代方案,帧内预测单元46可帧内预测当前块(帧内预测编码)。确切地说,帧内预测单元46可以确定用来对当前块进行编码的帧内预测模式。在一些实例中,帧内预测单元46可使用各种帧内预测模式编码当前块(例如,在单独的编码回合期间),且帧内预测单元46可从所测试的模式选择要使用的适当的帧内预测模式。举例来说,帧内预测单元46可使用速率-失真分析计算用于各种所测试的帧内预测模式的速率-失真值,且从所述所测试的模式当中选择具有最佳速率-失真特性的帧内预测模式。速率-失真分析大体上确定经编码块与经编码以产生所述经编码块的原始未编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(即,位数目)。帧内预测单元46可根据用于各种经编码块的失真和速率计算比率,以确定哪个帧内预测模式对于所述块展现最佳速率失真值。
在任何情况下,在选择了用于一块的帧内预测模式之后,帧内预测单元46可以将指示用于所述块的选定帧内预测模式的信息提供到熵编码单元56。熵编码单元56可以根据本发明的技术对指示所述选定帧内预测模式的信息进行编码。视频编码器20可在所传输的位流中包含配置数据,所述配置数据可包含多个帧内预测模式索引表及多个修改的帧内预测模式索引表(还被称作码字映射表),编码用于各种块的上下文的界定,及用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及修改的帧内预测模式索引表的指示。
在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测块之后,视频编码器20通过从当前视频块减去预测块而形成残差视频块。残差块中的残差视频数据可包含在一或多个TU中且应用到变换处理单元52。变换处理单元52使用例如离散余弦变换(DCT)或概念上类似的变换等变换将残差视频数据变换成残差变换系数。变换处理单元52可将残差视频数据从像素域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可量化所述变换系数以进一步减小位速率。量化过程可减少与变换系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中,量化单元54可以接着执行对包含经量化的变换系数的矩阵的扫描。替代地,熵编码单元56可以执行所述扫描。
在量化之后,熵编码单元56对经量化变换系数进行熵编码。举例来说,熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法或技术。在熵编码单元56进行的熵编码之后,可将经编码位流传输到视频解码器30,或将经编码位流存档以供稍后传输或由视频解码器30检索。熵编码单元56还可对正被编码的当前视频切片的运动向量和其它语法元素进行熵编码。
反量化单元58和反变换单元60分别应用反量化和反变换以在像素域中重构残差块,例如以供稍后用作参考图片的参考块。运动补偿单元44可以通过将残差块加到参考图片列表中的一者内的参考图片中的一者的预测块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于所重构的残差块以计算子整数像素值用于运动估计。求和器62将经重构的残差块添加到由运动补偿单元44产生的运动补偿预测块以产生参考块用于存储在参考图片存储器64中。参考块可由运动估计单元42和运动补偿单元44使用作为参考块以对后续视频帧或图片中的块进行帧间预测。
图6是说明可实施本发明的技术的实例视频解码器30的框图。例如,视频解码器30可从MANE装置接收子位流。可已经利用本发明中描述的技术从位流提取视频解码器30接收的子位流。视频解码器30可解码所述子位流以重构目标输出视图。
在图6的实例中,视频解码器30包含熵解码单元80、预测处理单元81、反量化单元86、反变换单元88、求和器90、滤波器单元91,及参考图片存储器92。预测处理单元81包含运动补偿单元82及帧内预测单元84。在一些实例中,视频解码器30可执行通常与相对于来自图5的视频编码器20描述的编码遍次互逆的解码遍次。
在解码过程期间,视频解码器30从视频编码器20接收表示经解码视频切片的视频块的经编码视频位流及相关联的语法元素。视频解码器30可从网络实体29接收经编码视频位流。网络实体29可例如为服务器、媒体感知网络元件(MANE)、视频编辑器/拼接器,或经配置以实施上文所描述的技术中的一或多者的其它此类装置。如上文所描述,本发明中所描述的技术中的一些可在将经编码视频位流传输到视频解码器30之前由网络实体29实施。在一些视频解码系统中,网络实体29及视频解码器30可为单独装置的部分,而在其它情况下,关于网络实体29描述的功能性可由包括视频解码器30的相同装置执行。
视频解码器30的熵解码单元80对位流进行熵解码以产生经量化系数、运动向量和其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测处理单元81。视频解码器30可在视频切片层级和/或视频块层级接收语法元素。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测单元84可基于用信号发送的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B或P)切片时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收到的运动向量和其它语法元素产生用于当前视频切片的视频块的预测块。可以从参考图片列表中的一者内的参考图片中的一者产生预测块。视频解码器30可基于存储在参考图片存储器92中的参考图片使用默认建构技术建构参考帧列表:列表0及列表1。
运动补偿单元82通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码当前视频块的预测块。举例来说,运动补偿单元82使用所接收语法元素中的一些语法元素确定用于译码视频切片的视频块的预测模式(例如,帧内预测或帧间预测)、帧间预测切片类型(例如,B切片或P切片)、切片的参考图片列表中的一或多者的构造信息、切片的每一经帧间编码的视频块的运动向量、切片的每一经帧间译码的视频块的帧间预测状态,及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用由视频编码器20在视频块的编码期间使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元82可从所接收的语法元素确定由视频编码器20使用的内插滤波器且使用所述内插滤波器来产生预测块。
反量化单元86将在位流中提供且由熵解码单元80解码的经量化的变换系数反量化(即,解量化)。反量化过程可包含使用由视频编码器20针对视频切片中的每一视频块计算的量化参数以确定应应用的量化程度及同样确定应应用的反量化程度。反变换单元88将反变换应用于变换系数(例如,反DCT、反整数变换或概念上类似的反变换过程),以便产生像素域中的残差块。
在运动补偿单元82基于运动向量和其它语法元素产生了当前视频块的预测块之后,视频解码器30通过将来自反变换单元88的残差块与运动补偿单元82产生的对应预测块求和来形成经解码视频块。求和器90表示执行此加总运算的一或多个组件。在需要时,还可使用环路滤波器(在译码环路中或在译码环路之后)来使像素转变平滑或者以其它方式改善视频质量。滤波器单元91可表示一或多个环路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管在图6中将滤波器单元91展示为环路内滤波器,但在其它配置中,可将滤波器单元91实施为环路后滤波器。接着将给定帧或图片中的经解码视频块存储在参考图片存储器92中,参考图片存储器92存储用于后续运动补偿的参考图片。参考图片存储器92还存储经解码视频以用于稍后呈现在显示装置(例如,图1的显示装置31)上。
图7是说明根据本发明所描述的一或多个实例的实例技术的流程图。例如,MANE装置的一或多个处理器可接收经编码视频数据的位流(200)。视频编码器20可已使用视频数据编码所述位流以用于多视图译码或可缩放视频译码。MANE装置可为视频编码器20及视频解码器30中间的装置,例如网络100中的流媒体服务器或中间装置,例如路由装置104或转码装置106。在一些实例中,一或多个处理器可为一或多个处理器110。
所述一或多个处理器可从多个子位流提取模式选择一子位流提取模式(202)。子位流提取模式中的每一者可界定其中从来自位流的视图或层提取经译码图片的方式以允许解码目标输出视图或目标输出层。每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层VCL NAL单元。例如,视图的每一经译码图片是视图分量、纹理视图分量及深度视图分量中的一者。例如,经译码图片可包括视图的视图分量(例如,纹理视图分量及/或深度视图分量或层的图片)。
在一些实例中,一或多个处理器可从外部装置接收子位流提取模式。所述外部装置可为硬件单元或在视频解码器(例如,视频解码器30)外部的硬件单元上执行的软件单元。例如,所述外部装置可为在一或多个处理器上执行的固件或软件,其符合应用处理接口(API)。所述外部装置可为视频解码器(例如,视频解码器30)外部的设定一或多个变量(每一变量界定一子位流提取模式)且从一或多个变量选择一值的单元,其中所述值作为输入提供给视频解码器。
例如,如果对输出的提取正由流式传输服务器执行,那么所述一或多个处理器可选择自完整子位流提取模式。此自完整子位流提取模式可为其中一或多个处理器为输出提取视图的纹理视图分量及深度视图分量两者的模式,即使不需要视图的纹理视图分量及深度视图分量两者来用于解码目标输出视图也如此。
一或多个处理器可基于接收子位流的装置的可用带宽特性及接收子位流的装置的显示器的特性中的一或多者而选择第二不同子位流提取模式(例如,中间子位流提取模式的实例)。在此实例中,一或多个处理器可维持将提取的视图的视图分量的纹理视图分量列表,且维持将提取的视图的视图分量的深度视图分量的单独列表。在中间子位流提取模式中,仅提取解码目标输出视图所需的纹理视图分量或深度视图分量以用于输出。
一或多个处理器可选择提取解码目标输出视图所需的最小量视频数据的第三不同子位流提取模式(例如,最佳子位流提取模式)。例如,如果装置接收对特定目标输出视图的子位流请求,那么一或多个处理器可选择最佳子位流提取模式。在此实例中,一或多个处理器可提取解码目标输出视图而不是其它视图所需的最小量数据以用于输出。
所述一或多个处理器可以由所述选定的子位流提取模式所界定的方式从所述位流提取子位流(204)。例如,所述一或多个处理器可使用自完整子位流提取模式提取子位流,在所述自完整子位流提取模式中,一或多个处理器可提取视图的深度视图分量及纹理视图分量两者以用于输出,即使解码目标输出视图不需要目标视图的深度视图分量及纹理视图分量两者也如此。作为另一实例,所述一或多个处理器可使用中间子位流提取模式提取子位流,在所述中间子位流提取模式中,所述一或多个处理器可在解码目标输出视图不需要目标视图的深度视图分量的情况下仅提取视图的纹理视图分量以用于输出,或在解码目标输出视图不需要视图的纹理视图分量的情况下仅提取视图的深度视图分量以用于输出。作为又一实例,所述一或多个处理器可使用最佳子位流提取技术提取子位流,在所述最佳子位流提取技术中,一或多个处理器提取解码目标输出视图所需的最小量视频数据。
可存在子位流提取模式的额外实例,例如其中视频数据不包含深度数据(例如,MVC)及可缩放视频译码的子位流提取模式。举例来说,一个实例子位流提取模式可为针对不包含深度数据的视频数据的自完整子位流提取模式,且另一实例子位流提取模式可为针对不包含深度数据的视频数据的最佳子位流提取模式。
对于不包含深度数据的视频数据的自完整子位流提取模式,MANE装置可从视图或层提取解码目标输出视图或层所需的所有经译码图片。例如,MANE装置可从视图提取解码目标输出视图所需的所有视图分量。
对于不包含深度数据的视频数据的最佳子位流提取模式,MANE装置可仅从视图或层提取解码目标输出视图或层所需的经译码图片,且不从视图或层提取解码目标输出视图或层不需要的经译码图片。例如,MANE装置可仅从视图提取解码目标输出视图所需的视图分量,且不从视图提取解码目标输出视图不需要的视图分量。
一个实例子位流提取模式可为用于可缩放视频译码的自完整子位流提取模式,且另一实例子位流提取模式可为用于可缩放视频译码的最佳子位流提取模式。对于用于可缩放视频译码的自完整子位流提取模式,MANE装置可从视图或层提取解码目标输出视图或层所需的所有经译码图片。例如,MANE装置可在解码目标输出层需要层时提取所述层的所有图片。
对于用于可缩放视频译码的最佳子位流提取模式,MANE装置可仅从视图或层提取解码目标输出视图或层所需的经译码图片,且不从视图或层提取解码目标输出视图或层不需要的经译码图片。例如,MANE装置可仅提取解码目标输出层所需的层的图片。
在一或多个实例中,所描述的功能可用硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码存储在计算机可读媒体上且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。以此方式,计算机可读媒体可一般对应于非暂时性的有形的计算机可读存储媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可以包含计算机可读媒体。
在又其它实例中,本发明涵盖包括在其上存储的数据结构的计算机可读媒体,其中所述数据结构包含包括与本发明一致地译码的经编码位流。
举例来说且并非限制,所述计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,快闪存储器,或可用于存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它瞬时媒体,而是针对于非瞬时的有形存储媒体。如本文中所使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘,其中磁盘通常磁性地复制数据,而光盘使用激光光学地复制数据。以上各者的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行所述指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于经配置以用于编码及解码的专用硬件模块和/或软件模块内,或并入组合式编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或IC组(例如,芯片组)。本发明中描述各种组件、模块或单元来强调经配置以执行所揭示的技术的装置的若干功能性方面,但不一定需要通过不同的硬件单元来实现。而是,如上文所描述,各种单元可联合合适的软件和/或固件而组合于编解码器硬件单元中或通过互操作的硬件单元的集合(包含如上文所描述的一或多个处理器)来提供。
已描述了各种实例。这些及其它实例属于所附权利要求书的范围内。
Claims (26)
1.一种处理视频数据的方法,所述方法包括:
接收经编码视频数据的位流;
从多个子位流提取模式选择一子位流提取模式,其中所述子位流提取模式中的每一者界定用以从来自所述位流的视图或层提取经译码图片以允许解码目标输出视图或目标输出层的方式,且其中每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层VCL NAL单元;及
以由所述选定的子位流提取模式界定的所述方式从所述位流提取子位流。
2.根据权利要求1所述的方法,其中视图的每一经译码图片包括视图分量、纹理视图分量及深度视图分量中的一者。
3.根据权利要求2所述的方法,其中选择子位流提取模式包括选择自完整子位流提取模式,且其中提取所述子位流包括在所述选定的子位流提取模式是所述自完整子位流提取模式时,在解码所述目标输出视图需要所述视图的纹理视图或深度视图的情况下,提取所述视图的所有可用的纹理视图分量及深度视图分量。
4.根据权利要求2所述的方法,其中选择子位流提取模式包括选择中间子位流提取模式,且其中提取所述子位流包括在所述选定的子位流提取模式是所述中间子位流提取模式时进行以下各者中的一者:
在解码所述目标输出视图需要所述视图的所述纹理视图的情况下提取所述视图的所有可用的纹理视图分量,及在解码所述目标输出视图不需要所述视图的所述深度视图的情况下不提取所述视图的深度视图分量;及
在解码所述目标输出视图需要所述视图的所述深度视图的情况下提取所述视图的所有可用的深度视图分量,及在解码所述目标输出视图不需要所述视图的所述纹理视图的情况下不提取所述视图的纹理视图分量。
5.根据权利要求4所述的方法,其进一步包括:
维持将从所述视图提取的纹理视图列表;及
维持将从所述视图提取的深度视图列表,
其中所述纹理视图列表包含至少一个视图的纹理视图,且所述深度视图列表不包含所述至少一个视图的对应深度视图,或所述深度视图列表包含所述至少一个视图的深度视图,且所述纹理视图列表不包含所述至少一个视图的对应纹理视图,
其中提取所有可用的纹理视图分量且不提取深度视图分量包括:
确定纹理视图分量是否属于在所述纹理视图列表中所识别的纹理视图;
仅在所述纹理视图分量属于所述纹理视图列表中所识别的所述纹理视图的情况下才提取所述纹理视图分量;及
在所述深度视图分量属于未在所述深度视图列表中所识别的深度视图的情况下避免将对应深度视图分量提取到所述纹理视图分量,
且
其中提取所有可用的深度视图分量且不提取纹理视图分量包括:
确定深度视图分量是否属于在所述深度视图列表中所识别的深度视图;
仅在所述深度视图分量属于所述深度视图列表中所识别的所述深度视图的情况下才提取所述深度视图分量;及
在所述纹理视图分量属于未在所述纹理视图列表中所识别的深度视图的情况下避免将对应纹理视图分量提取到所述深度视图分量。
6.根据权利要求2所述的方法,其中选择子位流提取模式包括选择最佳子位流提取模式,且其中提取所述子位流包括在所述选定的子位流提取模式是所述最佳子位流提取模式时,仅提取视图的解码所述目标输出视图所需的纹理视图分量及深度视图分量,且不提取所述视图的解码所述目标输出视图不需要的纹理视图分量及深度视图分量。
7.根据权利要求1所述的方法,其中选择子位流提取模式包括选择自完整子位流提取模式,且其中提取所述子位流包括在所述选定的子位流提取模式是所述自完整子位流提取模式时,从所述视图或层提取解码所述目标输出视图或层所需的所有经译码图片。
8.根据权利要求1所述的方法,其中选择子位流提取模式包括选择最佳子位流提取模式,且其中提取所述子位流包括在所述选定的子位流提取模式是所述最佳子位流提取模式时,仅从所述视图或层提取解码所述目标输出视图所需的经译码图片,且不从所述视图或层提取解码所述目标输出视图不需要的经译码图片。
9.根据权利要求1所述的方法,其中选择所述子位流提取模式包括使用外部装置接收所述子位流提取模式,其中所述外部装置包括在视频解码器外部的单元,其中所述外部装置设定一或多个变量,其中每一变量界定一子位流提取模式,且其中所述外部装置从所述一或多个变量选择由所述视频解码器用于解码所述子位流的值且作为输入提供给所述视频解码器。
10.一种用于处理视频数据的装置,所述装置包括一个或多个处理器,所述一个或多个处理器经配置以:
接收经编码视频数据的位流;
从多个子位流提取模式选择一子位流提取模式,其中所述子位流提取模式中的每一者界定用以从来自所述位流的视图或层提取经译码图片以允许解码目标输出视图或目标输出层的方式,且其中每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层VCL NAL单元;及
以由所述选定的子位流提取模式界定的所述方式从所述位流提取子位流。
11.根据权利要求10所述的装置,其中视图的每一经译码图片包括视图分量、纹理视图分量及深度视图分量中的一者。
12.根据权利要求11所述的装置,其中所述一或多个处理器经配置以选择自完整子位流提取模式,且其中,在所述选定的子位流提取模式是所述自完整子位流提取模式时,所述一或多个处理器经配置以在解码所述目标输出视图需要所述视图的纹理视图或深度视图的情况下,提取所述视图的所有可用的纹理视图分量及深度视图分量。
13.根据权利要求11所述的装置,其中所述一或多个处理器经配置以选择中间子位流提取模式,且其中,在所述选定的子位流提取模式是所述中间子位流提取模式时,所述一或多个处理器经配置以进行以下各者中的一者:
在解码所述目标输出视图需要所述视图的所述纹理视图的情况下提取所述视图的所有可用的纹理视图分量,及在解码所述目标输出视图不需要所述视图的所述深度视图的情况下不提取所述视图的深度视图分量;及
在解码所述目标输出视图需要所述视图的所述深度视图的情况下提取所述视图的所有可用的深度视图分量,及在解码所述目标输出视图不需要所述视图的所述纹理视图的情况下不提取所述视图的纹理视图分量。
14.根据权利要求13所述的装置,其中所述一或多个处理器经配置以:
维持将从所述视图提取的纹理视图列表;及
维持将从所述视图提取的深度视图列表,
其中所述纹理视图列表包含至少一个视图的纹理视图,且所述深度视图列表不包含所述至少一个视图的对应深度视图,或所述深度视图列表包含所述至少一个视图的深度视图,且所述纹理视图列表不包含所述至少一个视图的对应纹理视图,
其中,为了提取所有可用的纹理视图分量且不提取深度视图分量,所述一或多个处理器经配置以:
确定纹理视图分量是否属于在所述纹理视图列表中所识别的纹理视图;
仅在所述纹理视图分量属于所述纹理视图列表中所识别的所述纹理视图的情况下才提取所述纹理视图分量;及
在所述深度视图分量属于未在所述深度视图列表中所识别的深度视图的情况下避免将对应深度视图分量提取到所述纹理视图分量,
且
其中,为了提取所有可用的深度视图分量且不提取纹理视图分量,所述一或多个处理器经配置以:
确定深度视图分量是否属于在所述深度视图列表中所识别的深度视图;
仅在所述深度视图分量属于所述深度视图列表中所识别的所述深度视图的情况下才提取所述深度视图分量;及
在所述纹理视图分量属于未在所述纹理视图列表中所识别的深度视图的情况下避免将对应纹理视图分量提取到所述深度视图分量。
15.根据权利要求11所述的装置,其中所述一或多个处理器经配置以选择最佳子位流提取模式,且其中,在所述选定的子位流提取模式是所述最佳子位流提取模式时,所述一或多个处理器经配置以仅提取视图的解码所述目标输出视图所需的纹理视图分量及深度视图分量,且不提取所述视图的解码所述目标输出视图不需要的纹理视图分量及深度视图分量。
16.根据权利要求10所述的装置,其中所述一或多个处理器经配置以选择自完整子位流提取模式,且其中,在所述选定的子位流提取模式是所述自完整子位流提取模式时,所述一或多个处理器经配置以从所述视图或层提取解码所述目标输出视图或层所需的所有经译码图片。
17.根据权利要求10所述的装置,其中所述一或多个处理器经配置以选择最佳子位流提取模式,且其中,在所述选定的子位流提取模式是所述最佳子位流提取模式时,所述一或多个处理器经配置以仅从所述视图或层提取解码所述目标输出视图所需的经译码图片,且不从所述视图或层提取解码所述目标输出视图不需要的经译码图片。
18.根据权利要求10所述的装置,其中为了选择所述子位流提取模式,所述一或多个处理器经配置以使用外部装置接收所述子位流提取模式,其中所述外部装置包括在视频解码器外部的单元,其中所述外部装置设定一或多个变量,其中每一变量界定一子位流提取模式,且其中所述外部装置从所述一或多个变量选择由所述视频解码器用于解码所述子位流的值且作为输入提供给所述视频解码器。
19.一种具有存储于其上的指令的计算机可读存储媒体,所述指令在由用于处理视频数据的装置的一或多个处理器执行时致使所述一或多个处理器:
接收经编码视频数据的位流;
从多个子位流提取模式选择一子位流提取模式,其中所述子位流提取模式中的每一者界定用以从来自所述位流的视图或层提取经译码图片以允许解码目标输出视图或目标输出层的方式,且其中每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层VCL NAL单元;及
以由所述选定的子位流提取模式界定的所述方式从所述位流提取子位流。
20.根据权利要求19所述的计算机可读存储媒体,其中视图的每一经译码图片包括视图分量、纹理视图分量及深度视图分量中的一者。
21.根据权利要求19所述的计算机可读存储媒体,所述致使所述一或多个处理器选择子位流提取模式的指令包括致使所述一或多个处理器选择自完整子位流提取模式的指令,且其中所述致使所述一或多个处理器提取所述子位流的指令包括致使所述一或多个处理器进行以下操作的指令:在所述选定的子位流提取模式是所述自完整子位流提取模式时,从所述视图或层提取解码所述目标输出视图或层所需的所有经译码图片。
22.根据权利要求19所述的计算机可读存储媒体,其中所述致使所述一或多个处理器选择子位流提取模式的指令包括致使所述一或多个处理器选择最佳子位流提取模式的指令,且其中所述致使所述一或多个处理器提取所述子位流的指令包括致使所述一或多个处理器进行以下操作的指令:在所述选定的子位流提取模式是所述最佳子位流提取模式时,仅从所述视图或层提取解码所述目标输出视图所需的经译码图片,且不从所述视图或层提取解码所述目标输出视图不需要的经译码图片。
23.一种用于处理视频数据的装置,所述装置包括:
用于接收经编码视频数据的位流的装置;
用于从多个子位流提取模式选择一子位流提取模式的装置,其中所述子位流提取模式中的每一者界定用以从来自所述位流的视图或层提取经译码图片以允许解码目标输出视图或目标输出层的方式,且其中每一经译码图片包括存取单元内的视图或层的一或多个视频译码层网络抽象层VCL NAL单元;及
用于以由所述选定的子位流提取模式界定的所述方式从所述位流提取子位流的装置。
24.根据权利要求23所述的装置,其中视图的每一经译码图片包括视图分量、纹理视图分量及深度视图分量中的一者。
25.根据权利要求23所述的装置,其中所述用于选择子位流提取模式的装置包括用于选择自完整子位流提取模式的装置,且其中所述用于提取所述子位流的装置包括用于以下操作的装置:在所述选定的子位流提取模式是所述自完整子位流提取模式时,从所述视图或层提取解码所述目标输出视图或层所需的所有经译码图片。
26.根据权利要求23所述的装置,其中所述用于选择子位流提取模式的装置包括用于选择最佳子位流提取模式的装置,且其中所述用于提取所述子位流的装置包括用于以下操作的装置:在所述选定的子位流提取模式是所述最佳子位流提取模式时,仅从所述视图或层提取解码所述目标输出视图所需的经译码图片,且不从所述视图或层提取解码所述目标输出视图不需要的经译码图片。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261708522P | 2012-10-01 | 2012-10-01 | |
US61/708,522 | 2012-10-01 | ||
US14/042,524 US9479779B2 (en) | 2012-10-01 | 2013-09-30 | Sub-bitstream extraction for multiview, three-dimensional (3D) and scalable media bitstreams |
US14/042,524 | 2013-09-30 | ||
PCT/US2013/062893 WO2014055537A1 (en) | 2012-10-01 | 2013-10-01 | Sub-bitstream extraction for multiview, three-dimensional (3d) and scalable video bitstreams |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104798377A true CN104798377A (zh) | 2015-07-22 |
CN104798377B CN104798377B (zh) | 2018-07-03 |
Family
ID=50384786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380051072.2A Active CN104798377B (zh) | 2012-10-01 | 2013-10-01 | 用于多视图、三维(3d)及可缩放视频位流的子位流提取 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9479779B2 (zh) |
EP (1) | EP2904809A1 (zh) |
JP (1) | JP6242904B2 (zh) |
CN (1) | CN104798377B (zh) |
WO (1) | WO2014055537A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021233424A1 (en) * | 2020-05-22 | 2021-11-25 | Beijing Bytedance Network Technology Co., Ltd. | Handling of coded video in sub-bitstream extraction process |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10284858B2 (en) * | 2013-10-15 | 2019-05-07 | Qualcomm Incorporated | Support of multi-mode extraction for multi-layer video codecs |
JP2015136060A (ja) * | 2014-01-17 | 2015-07-27 | ソニー株式会社 | 通信装置、通信データ生成方法、および通信データ処理方法 |
US9729887B2 (en) * | 2014-06-25 | 2017-08-08 | Qualcomm Incorporated | Multi-layer video coding |
US10264286B2 (en) | 2014-06-26 | 2019-04-16 | Qualcomm Incorporated | Bitstream conformance constraints in scalable video coding |
US10109100B2 (en) * | 2016-03-25 | 2018-10-23 | Outward, Inc. | Adaptive sampling of pixels |
EP3509308A1 (en) | 2018-01-05 | 2019-07-10 | Koninklijke Philips N.V. | Apparatus and method for generating an image data bitstream |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102474655A (zh) * | 2009-08-07 | 2012-05-23 | 高通股份有限公司 | 用信号传递多视角视频译码操作点的特性 |
TW201223249A (en) * | 2010-09-24 | 2012-06-01 | Qualcomm Inc | Coding stereo video data |
US20120229602A1 (en) * | 2011-03-10 | 2012-09-13 | Qualcomm Incorporated | Coding multiview video plus depth content |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101972962B1 (ko) * | 2009-02-19 | 2019-04-26 | 톰슨 라이센싱 | 3d 비디오 포맷 |
CN102577375B (zh) * | 2009-05-01 | 2016-08-17 | 汤姆森特许公司 | 用于三维视频的层间依赖性信息 |
WO2011129735A2 (en) * | 2010-04-14 | 2011-10-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and arrangements for 3d scene representation |
US9716920B2 (en) | 2010-08-05 | 2017-07-25 | Qualcomm Incorporated | Signaling attributes for network-streamed video data |
WO2012052968A1 (en) * | 2010-10-20 | 2012-04-26 | Nokia Corporation | Method and device for video coding and decoding |
US9635355B2 (en) | 2011-07-28 | 2017-04-25 | Qualcomm Incorporated | Multiview video coding |
US20130113882A1 (en) | 2011-11-08 | 2013-05-09 | Sony Corporation | Video coding system and method of operation thereof |
US10154276B2 (en) | 2011-11-30 | 2018-12-11 | Qualcomm Incorporated | Nested SEI messages for multiview video coding (MVC) compatible three-dimensional video coding (3DVC) |
WO2013107939A1 (en) | 2012-01-20 | 2013-07-25 | Nokia Corporation | Method for video coding and an apparatus, a computer-program product, a system, and a module for the same |
-
2013
- 2013-09-30 US US14/042,524 patent/US9479779B2/en active Active
- 2013-10-01 EP EP13774913.1A patent/EP2904809A1/en not_active Withdrawn
- 2013-10-01 WO PCT/US2013/062893 patent/WO2014055537A1/en active Application Filing
- 2013-10-01 CN CN201380051072.2A patent/CN104798377B/zh active Active
- 2013-10-01 JP JP2015534815A patent/JP6242904B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102474655A (zh) * | 2009-08-07 | 2012-05-23 | 高通股份有限公司 | 用信号传递多视角视频译码操作点的特性 |
TW201223249A (en) * | 2010-09-24 | 2012-06-01 | Qualcomm Inc | Coding stereo video data |
US20120229602A1 (en) * | 2011-03-10 | 2012-09-13 | Qualcomm Incorporated | Coding multiview video plus depth content |
Non-Patent Citations (2)
Title |
---|
T. SUZUKI, S. HATTORI,ET AL.: "MVC Extension for Inclusion of Depth Maps Draft Text 4", 《JOINT COLLABORATIVE TEAM ON 3D VIDEO CODING EXTENSION DEVELOPMENT OF ITU-T SG 16 WP 3 AND ISO/IEC JTC 1/SC 29/WG 11 1ST MEETING: STOCKHOLM, SE》 * |
YING CHEN1, YE-KUI WANG2,ET AL.: "Support of lightweight MVC to AVC transcoding", 《JOINT VIDEO TEAM (JVT) OF ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 AND ITU-T SG16 Q.6) 27TH MEETING: GENEVA, CH》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021233424A1 (en) * | 2020-05-22 | 2021-11-25 | Beijing Bytedance Network Technology Co., Ltd. | Handling of coded video in sub-bitstream extraction process |
US11778204B2 (en) | 2020-05-22 | 2023-10-03 | Beijing Bytedance Network Technology Co., Ltd. | Handling of coded video in sub-bitstream extraction process |
US11968375B2 (en) | 2020-05-22 | 2024-04-23 | Beijing Bytedance Network Technology Co., Ltd. | Scaling window in subpicture sub-bitstream extraction process |
Also Published As
Publication number | Publication date |
---|---|
US20140092213A1 (en) | 2014-04-03 |
JP2015536100A (ja) | 2015-12-17 |
WO2014055537A1 (en) | 2014-04-10 |
CN104798377B (zh) | 2018-07-03 |
US9479779B2 (en) | 2016-10-25 |
JP6242904B2 (ja) | 2017-12-06 |
EP2904809A1 (en) | 2015-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103155571B (zh) | 译码立体视频数据 | |
CN104396253B (zh) | 解码和编码视频数据的方法和装置及计算机可读存储媒体 | |
CN105637878B (zh) | 在视频译码中用于基于子解码图片缓冲器(sub-dpb)的dpb操作的传信 | |
CN105052156B (zh) | Irap存取单元与位流切换及拼接 | |
CN104769948B (zh) | 一种编解码方法、装置及可读存储介质 | |
CN104641652A (zh) | 用于视频译码的帧封装立体三维(3d)视频数据的指示 | |
CN104885459B (zh) | 用于多层译码的多分辨率经解码图片缓冲器管理 | |
CN104969551A (zh) | 可缩放及多视角视频译码中的高级残差预测 | |
CN105580374B (zh) | 一种对多层视频数据进行编解码的方法、视频解码设备及存储媒体 | |
CN105409220A (zh) | 用于视频译码的经解码图片缓冲器操作 | |
CN105580365A (zh) | Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计 | |
CN104041047A (zh) | 在使用深度的3d视频译码中的多重假设差异向量构建 | |
CN105580364A (zh) | Hevc中的基于子预测单元(pu)的时间运动向量预测和3d-hevc中的子pu设计 | |
CN105409219A (zh) | 高效率视频译码扩展中的目标输出层的选择 | |
CN104823449A (zh) | 在视频译码中用信号表示关注区和逐渐解码刷新 | |
CN104769949A (zh) | 用于视差向量导出的图片的选择 | |
CN104471942A (zh) | 重新使用参数集用于视频译码 | |
CN105103560A (zh) | 用于仅高级语法可缩放视频译码的层间参考图片限制 | |
CN104396257A (zh) | 在视频译码中长期参考图片的随机存取和发信 | |
CN103733626A (zh) | 多视图视频译码 | |
CN104272741A (zh) | 多视图译码和3d译码中的视图相依性 | |
CN103718561A (zh) | 多视图视频译码 | |
CN104798377B (zh) | 用于多视图、三维(3d)及可缩放视频位流的子位流提取 | |
CN105379271A (zh) | 帧内随机接入点图片的改进的跨层对齐 | |
CN105027571A (zh) | 三维视频译码中导出的视差向量 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |