CN102461167B - Mpeg-2系统上的产生多视图视频数据的方法和设备 - Google Patents
Mpeg-2系统上的产生多视图视频数据的方法和设备 Download PDFInfo
- Publication number
- CN102461167B CN102461167B CN201080024694.2A CN201080024694A CN102461167B CN 102461167 B CN102461167 B CN 102461167B CN 201080024694 A CN201080024694 A CN 201080024694A CN 102461167 B CN102461167 B CN 102461167B
- Authority
- CN
- China
- Prior art keywords
- view
- order index
- value
- bit stream
- mvc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 49
- 238000010276 construction Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 4
- 230000011664 signaling Effects 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 48
- 238000003860 storage Methods 0.000 description 13
- 244000309464 bull Species 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000001174 ascending effect Effects 0.000 description 6
- 239000003623 enhancer Substances 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 3
- 210000000352 storage cell Anatomy 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000001195 anabolic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/31—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2362—Generation or processing of Service Information [SI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4345—Extraction or processing of SI, e.g. extracting service information from an MPEG stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8451—Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
多路复用器可产生MPEG-2(运动图片专家组)系统标准位流,所述MPEG-2系统标准位流包含具有非连续视图次序索引的视图。在一个实例中,一设备包含:视频编码器,其编码场景的多个视图;多路复用器,其建构数据结构,所述数据结构用于用信号通知对应的MPEG-2(运动图片专家组)系统标准位流包含所述场景的所述多个视图中的与第一视图次序索引相关联的第一视图和所述场景的所述多个视图中的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引和所述第二视图次序索引为非连续的;以及输出接口,其输出所述数据结构。
Description
相关申请案
本申请案主张2009年6月29日申请的第61/221,449号美国临时申请案和2009年6月12日申请的第61/186,613号美国临时申请案的权益,所述两个申请案的全部内容各自以引用方式明确地并入。
相关申请案的交叉参考
本专利申请案涉及以下共同待决的美国专利申请案:陈英的标题为“在MPEG-2系统中组合多视图译码子位流(ASSEMBLING MULTIVIEW VIDEO CODING SUB-BISTREAMS IN MPEG-2 SYSTEMS)”(代理人档案号092652),所述申请案与本申请案同时申请,已让与给本案受让人,且以引用方式明确地并入本文中。
技术领域
本发明涉及经编码的视频数据的输送。
背景技术
数字视频能力可并入到广范围的装置中,所述装置包括数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置等。数字视频装置实施例如以下各者的视频压缩技术以较有效地发射和接收数字视频信息:描述于由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4第10部分(高级视频译码(AVC))定义的标准和所述标准的扩展部分中的视频压缩技术。
视频压缩技术执行空间预测和/或时间预测以减少或移除视频序列中所固有的冗余。对于基于块的视频译码来说,可将视频帧或切片分割成宏块。可进一步分割每一宏块。使用关于相邻宏块的空间预测来编码经帧内译码(I)的帧或切片中的宏块。经帧间译码(P或B)的帧或切片中的宏块可使用关于同一帧或切片中的相邻宏块的空间预测或关于 其它参考帧的时间预测。
在已编码视频数据后,可通过多路复用器将所述视频数据包化以供发射或存储。MPEG-2包括定义许多视频编码标准的输送级的“系统”章节。MPEG-2输送级系统可由MPEG-2视频编码器使用,或由符合不同视频编码标准的其它视频编码器使用。举例来说,MPEG-4规定与MPEG-2的编码和解码方法不同的编码和解码方法,但实施MPEG-4标准的技术的视频编码器仍可利用MPEG-2输送级方法。一般来说,对“MPEG-2系统”的参考引用由MPEG-2规定的视频数据的输送级。在本发明中,由MPEG-2规定的输送级还称作“MPEG-2输送流”或简称作“输送流”。同样地,MPEG-2系统的输送级还包括节目流。输送流和节目流一般包括用于递送类似数据的不同格式,其中输送流包含一个或一个以上“节目”,所述一个或一个以上“节目”包括音频与视频数据两者,而节目流包括一个节目,所述节目包括音频与视频数据两者。
MPEG-2系统规格描述如何可将经压缩的多媒体(视频和音频)数据流与其它数据一起多路复用以形成适于数字发射或存储的单一数据流。在2006年5月的“信息技术-运动图片和相关联的音频的通用译码:系统,推荐H.222.0;国际标准组织ISO/IEC JTC1/SC29/WG11;运动图片和相关联的音频的译码(Information Technology-Generic Coding of Moving Pictures and Associated Audio:Systems,Recommendation H.222.0;International Organisation for Standardisation,ISO/IEC JTC1/SC29/WG11;Coding of Moving Pictures and Associated Audio)”中指定MPEG-2系统的最新规格。MPEG近来设计了在MPEG-2系统上的MVC的输送标准,且此规格的最新版本为“对ISO/IEC 13818-1的研究:MVC的2007/FPDAM4输送(Study of ISO/IEC 13818-1:2007/FPDAM4 Transport of MVC)”,MPEG doc.N10572,MPEG of ISO/IEC JTC1/SC29/WG11,Maui,Hawaii,USA,2009年4月。
发明内容
一般来说,本发明描述用于改进MPEG-2(运动图片专家组)系统中的多视图视频译码的技术。本发明的技术大体上扩展关于多视图视频译码(MVC)的MPEG-2输送级(例如,MPEG-2输送流和MPEG-2节目流)的能力。举例来说,本发明的技术实现待在输送级处发射的MVC视频流的非连续视图的发射。本发明的技术进一步使输送流(或节目)的子位流能够各自包括非连续视图。所述技术还使接收装置在接收包含多个子位流(各自具有非连续视图)的输送级流后能够即刻重新布置所述子位流中的视图以使得所述输送流被适当排序(即,在视图次序索引方面以递增次序排序),使得解码器可适 当地解码所述视图中的每一者的帧。
在一个实例中,一种方法包括使用源装置建构数据结构,所述数据结构用于用信号通知对应的MPEG-2(运动图片专家组)系统标准位流包含场景的与第一视图次序索引相关联的第一视图和所述场景的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引和所述第二视图次序索引为非连续的。所述方法还包括输出所述数据结构,例如,将所述数据结构发射到目的地装置或将所述数据结构存储到计算机可读媒体。
在另一实例中,一种设备包括:视频编码器,其编码场景的多个视图;多路复用器,其建构数据结构,所述数据结构用于用信号通知对应的MPEG-2(运动图片专家组)系统标准位流包含所述场景的所述多个视图中的与第一视图次序索引相关联的第一视图和所述场景的所述多个视图中的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引和所述第二视图次序索引为非连续的;以及输出接口,其输出所述数据结构。
在另一实例中,一种设备包括:用于使用源装置建构数据结构的装置,所述数据结构用于用信号通知对应的MPEG-2(运动图片专家组)系统标准位流包含场景的与第一视图次序索引相关联的第一视图和所述场景的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引和所述第二视图次序索引为非连续的;以及用于输出所述数据结构的装置。
在另一实例中,一种计算机可读存储媒体编码有指令,所述指令致使处理器建构数据结构,所述数据结构用于用信号通知对应的MPEG-2(运动图片专家组)系统标准位流包含场景的与第一视图次序索引相关联的第一视图和所述场景的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引和所述第二视图次序索引为非连续的;且输出所述数据结构。
在又一实例中,一种方法包括使用客户端装置从所接收的位流产生顺从多视图视频译码(MVC)标准的位流,所述所接收的位流包含主子位流和所述主子位流的嵌入式子位流,其中产生所述顺从MVC标准的位流包括确定所述主子位流的视图分量是否具有大于所述嵌入式子位流的视图分量的视图次序索引的视图次序索引,当所述主子位流的所述视图分量的所述视图次序索引大于所述嵌入式子位流的所述视图分量的所述视图次序索引时,将所述嵌入式子位流的所述视图分量添加到所述所产生的位流,且当所述主子位流的所述视图分量的所述视图次序索引不大于所述嵌入式子位流的所述视图分量的所述视图次序索引时,将所述主子位流的所述视图分量添加到所述所产生的位流。所述方法进一步包括将所述所产生的位流输出到视频解码器。
在另一实例中,一种设备包括:接收器,其接收包含主子位流和所述主子位流的嵌入式子位流的位流;多路分用器,其从所述所接收的位流产生顺从多视图视频译码(MVC)标准的位流,其中为了产生所述顺从MVC标准的位流,所述多路分用器确定所述主子位流的视图分量是否具有大于所述嵌入式子位流的视图分量的视图次序索引的视图次序索引,在所述主子位流的所述视图分量的所述视图次序索引大于所述嵌入式子位流的所述视图分量的所述视图次序索引时,将所述嵌入式子位流的所述视图分量添加到所述所产生的位流,且在所述主子位流的所述视图分量的所述视图次序索引不大于所述嵌入式子位流的所述视图分量的所述视图次序索引时,将所述主子位流的所述视图分量添加到所述所产生的位流;以及视频解码器,其解码由所述多路分用器产生的所述位流。
在另一实例中,一种设备包括:用于从所接收的位流产生顺从多视图视频译码(MVC)标准的位流的装置,所述所接收的位流包含主子位流和所述主子位流的嵌入式子位流;用于确定所述主子位流的视图分量是否具有大于所述嵌入式子位流的视图分量的视图次序索引的视图次序索引的装置;用于在所述主子位流的所述视图分量的所述视图次序索引大于所述嵌入式子位流的所述视图分量的所述视图次序索引时将所述嵌入式子位流的所述视图分量添加到所述所产生的位流的装置;以及用于在所述主子位流的所述视图分量的所述视图次序索引不大于所述嵌入式子位流的所述视图分量的所述视图次序索引时将所述主子位流的所述视图分量添加到所述所产生的位流的装置;以及用于将所述所产生的位流输出到视频解码器的装置。
在另一实例中,一种计算机可读存储媒体编码有指令,所述指令用于致使可编程处理器使用客户端装置从所接收的位流产生顺从多视图视频译码(MVC)标准的位流,所述所接收的位流包含主子位流和所述主子位流的嵌入式子位流,所述指令包含用以进行以下操作的指令:确定所述主子位流的视图分量是否具有大于所述嵌入式子位流的视图分量的视图次序索引的视图次序索引的指令;当所述主子位流的所述视图分量的所述视图次序索引大于所述嵌入式子位流的所述视图分量的所述视图次序索引时,将所述嵌入式子位流的所述视图分量添加到所述所产生的位流;以及当所述主子位流的所述视图分量的所述视图次序索引不大于所述嵌入式子位流的所述视图分量的所述视图次序索引时,将所述主子位流的所述视图分量添加到所述所产生的位流;以及将所述所产生的位流输出到视频解码器。
在下文的附图和描述中陈述一个或一个以上实例的细节。其它特征、目标和优点将根据描述和图式以及根据权利要求书显而易见。
附图说明
图1为说明音频/视频(A/V)源装置将音频和视频数据输送到A/V目的地装置的实例系统的方框图。
图2为说明多路复用器的组件的实例布置的方框图。
图3为说明节目专有信息表的实例集合的方框图。
图4为说明可包括于多视图视频译码(MVC)扩展描述符中的数据的实例集合的方框图。
图5为说明可包括于层级描述符中的数据的实例集合的方框图。
图6为说明实例MVC预测模式的概念图。
图7为说明用于将包括具有非连续视图次序索引的视图的子集的MPEG-2系统流从服务器发送到客户端的实例方法的流程图。
图8为说明用于组合两个或两个以上子位流的视图分量以产生使得所述视图分量具有递增视图次序索引的位流的实例方法的流程图。
具体实施方式
本发明的技术一般针对于增强MPEG-2(运动图片专家组)系统(即,关于输送级细节符合MPEG-2的系统)中的多视图视频译码(MVC)。举例来说,MPEG-4提供视频编码的标准,但大体上假定符合MPEG-4标准的视频编码器将利用MPEG-2输送级系统。因此,本发明的技术适用于符合MPEG-2、MPEG-4、ITU-T H.263、ITU-TH.264/MPEG-4或利用MPEG-2输送流和/或节目流的任何其它视频编码标准的视频编码器。
具体来说,本发明的技术可用以修改用于MPEG-2输送流和节目流的在输送级处的语法元素。举例来说,本发明的技术包括描述符,其在输送流中发射以特定识别在所述输送流中发送的多视图视频数据中的每一视图。举例来说,服务器装置可提供各种服务,其中每一者包含多视图视频译码视频数据的特定视图的相应子集,其中可基于由客户端装置执行的应用程序、由客户端装置执行的解码器的容量、由客户端装置表达的偏好或其它选择准则来选择服务的视图的子集。
根据本发明的技术,服务器装置可提供具有非连续视图次序索引的视图的子集。在一个实例中,服务器装置特定地在MVC扩展描述符中用信号发送将包括于输送流中的视图中的每一者,所述MVC扩展描述符可包括于节目映射表(PMT)或节目流映射 (PSM)中。
在一些实例中,服务器装置可在单一输送流或节目流中发送多个子位流。通过使位流的视图能够为非连续的,本发明的技术还使对应于每一子位流的视图的视图次序索引能够为非连续的。虽然这些技术实现每一子位流中的非连续视图次序索引,但仍需要视图次序索引在子位流中递增,以便符合现有位流标准(例如,MPEG-2系统标准)。然而,因为第一子位流和第二子位流的视图可各自为非连续的,所以所述视图可关于视图次序索引而无序地到达客户端装置。本发明的技术还使客户端装置能够处理此类输送流以有效地将所述第一子位流和所述第二子位流的视图重新排序以使得所述视图的视图次序索引递增。具有非连续视图次序索引的视图组合可用于视图可缩放性,其可用于带宽调适、解码器效率且提供其它所述优点。举例来说,与将需要将所有视图发送到客户端装置且客户端装置解码具有连续视图次序索引的每一视图的常规技术对照,本发明的技术实现仅发送由客户端装置特定需要的那些视图,甚至当此情形导致具有非连续视图次序索引的视图时也如此。以此方式,客户端装置可仅接收特定服务所需的那些视图,而非具有介入视图次序索引的所有视图。
虽然在各章节中,本发明可个别地提及“输送流”或“节目流”,但应理解,本发明的技术大体上适用于MPEG-2输送流和节目流中的一者或两者。一般来说,本发明描述用于执行本发明的技术的实例描述符。描述符用以扩展流的功能性。本发明的描述符可由输送流和节目流两者使用以实施本发明的技术。
本发明还使用以下术语,且提议将这些术语连同如以下所指示的术语的语义一起包括于当前MPEG-2系统标准的修订中:
·AVC视频子位流:MVC位流的基础视图。
·MVC的AVC视频子位流:丢弃前缀NAL单元的MVC位流的基础视图。
·MVC基础视图子位流:AVC视频子流或MVC的AVC视频子位流。
·MVC视图分量子集:一个视图分量的NAL单元。
·MVC view_id子集:一个视图的NAL单元。
·MVC视频子位流:非基础视图的NAL单元。
图1为说明音频/视频(A/V)源装置20将音频和视频数据输送到A/V目的地装置40的实例系统10的方框图。图1的系统10可对应于视频电话会议系统、服务器/客户端系统、广播器/接收器系统或视频数据从源装置(例如,A/V源装置20)发送到目的地装置(例如,A/V目的地装置40)的任何其它系统。在一些实例中,A/V源装置20和A/V目的地装置40可执行双向信息交换。即,A/V源装置20和A/V目的地装置40 均可能够编码和解码(和发射和接收)音频和视频数据。在一些实例中,音频编码器26可包含语音编码器,其还被称作声码器。
在图1的实例中,A/V源装置20包含音频源22和视频源24。音频源22可包含(例如)麦克风,麦克风产生表示待由音频编码器26编码的经俘获的音频数据的电信号。或者,音频源22可包含存储先前记录的音频数据的存储媒体、例如计算机化合成器的音频数据产生器,或任何其它音频数据源。视频源24可包含产生待由视频编码器28编码的视频数据的视频相机,编码有先前记录的视频数据的存储媒体、视频数据产生单元,或任何其它视频数据源。原始音频和视频数据可包含模拟或数字数据。模拟数据可在由音频编码器26和/或视频编码器28编码之前经数字化。在说话的参与者正说话时,音频源22可从所述说话的参与者获得音频数据,且视频源24可同时获得所述说话的参与者的视频数据。在其它实例中,音频源22可包含包含所存储的音频数据的计算机可读存储媒体,且视频源24可包含包含所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用于实况转播、串流、实时音频和视频数据或应用于经存档、经预记录的音频和视频数据。
对应于视频帧的音频帧大体上为含有音频数据的音频帧,所述音频数据曾由音频源22俘获,同时,视频帧内所含有的视频数据由视频源24俘获。举例来说,在说话的参与者大体上通过说话而产生音频数据时,音频源22俘获所述音频数据,且同时(即,在音频源22正俘获音频数据时)视频源24俘获所述说话的参与者的视频数据。因此,音频帧可在时间上对应于一个或一个以上特定视频帧。因此,音频帧对应于视频帧大体上对应于音频数据和视频数据曾同时被俘获且音频帧和视频帧分别包含曾同时俘获的音频数据和视频数据的情况。
在一些实例中,音频编码器26可在每一经编码的音频帧中编码表示经编码的音频帧的音频数据曾被记录的时间的时戳,且类似地,视频编码器28可在每一经编码的视频帧中编码表示经编码的视频帧的视频数据曾被记录的时间的时戳。在所述实例中,音频帧对应于视频帧可包含音频帧包含时戳和视频帧包含相同时戳。A/V源装置20可包括内部时钟,音频编码器26和/或视频编码器28可从内部时钟产生时戳,或音频源22和视频源24可用内部时钟分别将音频与视频数据与时戳相关联。在一些实例中,音频源22可将对应于音频数据曾被记录的时间的数据发送到音频编码器26,且视频源24可将对应于视频数据曾被记录的时间的数据发送到视频编码器28。在一些实例中,音频编码器26可在经编码的音频数据中编码序列识别符以指示经编码的音频数据的相对时间排序,但未必指示音频数据曾被记录的绝对时间,且类似地,视频编码器28还可使用 序列识别符以指示经编码的视频数据的相对时间排序。类似地,在一些实例中,序列识别符可经映射或另外与时戳相关。
本发明的技术大体上针对于经编码的多媒体(例如,音频和视频)数据的输送,以及经输送的多媒体数据的接收和后续解译和解码。本发明的技术特定来说适用于多视图视频译码(MVC)数据(即,包含多个视图的视频数据)的输送。如图1的实例中所示,视频源24可将场景的多个视图提供给视频编码器28。MVC可用于产生待由三维显示器(例如,立体或自动立体三维显示器)使用的三维视频数据。
A/V源装置20可将“服务”提供给A/V目的地装置40。服务大体上对应于MVC数据的可用视图的子集。举例来说,MVC数据可用于八个视图,其以零到七排序。一个服务可对应于具有两个视图的立体视频,而另一服务可对应于四个视图,且又一服务可对应于所有八个视图。一般来说,服务对应于可用视图的任何组合(即,任何子集)。服务还可对应于可用视图以及音频数据的组合。
根据本发明的技术,A/V源装置20能够提供对应于包括非连续视图次序索引的视图的子集的服务。一般来说,视图由视图识别符(还被称作“view_id”)表示。视图识别符大体上包含可用以识别视图的语法元素。在编码视图时,MVC编码器提供所述视图的view_id。view_id可由MVC解码器用于视图间预测或由其它单元用于其它目的(例如,用于呈现)。
视图间预测为用于参考处于共同时间位置的一个或一个以上帧而将一帧的MVC视频数据编码为不同视图的经编码的帧的技术。下文更详细论述的图6提供用于视图间预测的一实例编码方案。一般来说,可在空间上、时间上和/或参考处于共同时间位置的其它视图的帧来预测性编码MVC视频数据的经编码的帧。因此,参考视图(从其预测其它视图)大体上在各视图(参考视图充当参考)之前被解码,以使得在解码参考视图时这些经解码的视图可用于参考。解码次序未必对应于view_id的次序。因此,使用视图次序索引来描述视图的解码次序。视图次序索引为指示存取单元中的对应视图分量的解码次序的索引。
数据的每一个别流(无论音频还是视频)被称作基本流。基本流为节目的单一经数字译码(可能经压缩)的分量。举例来说,节目的经译码的视频或音频部分可为基本流。在将基本流多路复用成节目流或输送流之前,可将其转换成经包化基本流(PES)。在同一节目内,流ID用以区别属于一个基本流的PES包与其它PES包。基本流的数据的基本单位为经包化基本流(PES)包。因此,MVC视频数据的每一视图对应于相应基本流。类似地,音频数据对应于相应基本流。在图1的实例中,多路复用器30从视频编码器 28接收包含视频数据的基本流且从音频编码器26接收包含音频数据的基本流。在一些实例中,视频编码器28和音频编码器26可各自包括用于从经编码的数据形成PES包的包化器。在其它实例中,视频编码器28和音频编码器26可各自与用于从经编码的数据形成PES包的包化器介接。在另外其它实例中,多路复用器30可包括用于从经编码的音频和视频数据形成PES包的包化器。
如本发明中所使用的“节目”可包含音频数据与视频数据的组合,例如,音频基本流和由A/V源装置20的服务递送的可用视图的子集。每一PES包包括识别所述PES包所属的基本流的stream_id。多路复用器30负责将基本流组合成构成节目流或输送流。节目流和输送流为以不同应用为目标的两个替代性多路复用。
一般来说,节目流由用于一个节目的数据组成,而输送流可包含用于一个或一个以上节目的数据。多路复用器30可基于所提供的服务、将在其中传递流的媒体、待发送的节目的数目或其它考虑因素而编码节目流或输送流中的一者或两者。举例来说,当视频数据待编码于存储媒体中时,多路复用器30可较可能形成节目流,而当视频数据待经由网络而串流、作为视频电话的部分而广播或发送时,多路复用器30可较可能使用输送流。
多路复用器30可能偏向于将节目流用于存储单一节目和从数字存储服务显示单一节目。节目流意欲用于无错误环境或较不易遇到错误的环境中,因为节目流相当易受错误影响。节目流仅包含属于其的基本流且通常含有具有可变长度包的包。在节目流中,从起作用的基本流导出的PES包被组织成“包裹”。包裹包含按照任何次序的包裹标头、任选的系统标头和从起作用的基本流中的任一者获得的任何数目个PES包。系统标头含有节目流的特性(例如,其最大数据速率、起作用的视频和音频基本流的数目、其它时序信息或其它信息)的概述。解码器可使用系统标头中所含有的信息以确定所述解码器是否能够解码节目流。
多路复用器30可使用输送流来用于经由潜在的易于出错的信道同时递送多个节目。输送流为经设计以用于例如广播的多节目应用以使得单一输送流可容纳许多独立节目的多路复用。输送流包含一连串输送包,输送包中的每一者长188字节。使用较短固定长度的包意味着与节目流相比,输送流较不易受错误影响。另外,可通过经由标准错误防护过程(例如,李德-所罗门(Reed-Solomon)编码)处理每一188字节长的输送包而给予所述包额外错误防护。举例来说,输送流的改进的错误弹性意味着其具有幸免于在广播环境中发现的易于出错的信道的较佳机会。
可看出,输送流由于其增加的错误弹性和载运许多同时节目的能力明显为两个多路 复用中的较佳者。然而,输送流为比节目流复杂的多路复用,且因此较难以建立和多路分用。输送包的第一字节为具有值0x47(十六进制47,二进制“01000111”,十进制71)的同步字节。单一输送流可载运许多不同节目,每一节目包含许多经包化基本流。多路复用器30可使用十三位包识别符(PID)字段以区别含有一个基本流的数据的输送包与载运其它基本流的数据的输送包。确保每一基本流被给予唯一PID值是多路复用器的责任。输送包的最后字节为连续性计数字段。多路复用器30使属于同一基本流的连续输送包之间的连续性计数字段的值递增。此使目的地装置(例如,A/V目的地装置40)的解码器或其它单元能够检测输送包的损失或增益,且有希望隐藏可能原本因此类事件所导致的错误。
多路复用器30从音频编码器26和视频编码器28接收节目的基本流的PES包,且从所述PES包形成对应的网络抽象层(NAL)单元。在H.264/AVC(高级视频译码)的实例中,经译码的视频片段被组织成NAL单元,其提供解决例如视频电话、存储、广播或串流等应用的“网络友好的”视频表示。可将NAL单元分类成视频译码层(VCL)NAL单元和非VCL NAL单元。VCL单元含有核心压缩引擎且可包含块、宏块和/或切片级。其它NAL单元为非VCLNAL单元。
多路复用器30可形成NAL单元,其包含识别NAL所属的节目的标头,以及有效负载(例如,音频数据、视频数据或描述NAL单元所对应的输送或节目流的数据)。举例来说,在H.264/AVC中,NAL单元包括1字节标头和不同大小的有效负载。在一个实例中,NAL单元标头包含priority_id元素、temporal_id元素、anchor_pic_flag元素、view_id元素、non_idr_flag元素和inter_view_fag元素。在常规MVC中,保留由H.264定义的NAL单元,除了前缀NAL单元和经MVC译码的切片NAL单元(其包括4字节MVC NAL单元标头和NAL单元有效负载)之外。
NAL标头的priority_id元素可用于简单的单路径位流调适过程。temporal_id元素可用于指定对应NAL单元的时间级,其中不同时间级对应于不同帧速率。anchor_pic_flag元素可指示图片为锚定图片还是非锚定图片。
可正确地解码锚定图片和在输出次序(即,显示次序)上在其后面的所有图片,而不解码在解码次序(即,位流次序)上的先前图片,且因此锚定图片和在输出次序(即,显示次序)上在其后面的所有图片可用作随机存取点。锚定图片和非锚定图片可具有不同相依性,其两者均在序列参数集合中用信号发送。将论述其它旗标且将在此章的以下章节中使用其它旗标。此类锚定图片还可被称作开放GOP(图片群组)存取点,而在non_idr_flag元素等于零时,还支持闭合GOP存取点。non_idr_flag元素指示图片是瞬时 解码器刷新(IDR)还是视图IDR(V-IDR)图片。一般来说,可正确地解码IDR图片和在输出次序或位流次序上在其后面的所有图片,而不解码在显示次序的解码次序上的先前图片。
view_id元素包含可用以识别视图的语法信息,所述语法信息可用于MVC解码器内部的数据交互性以(例如)用于视图间预测,和解码器外部的数据交互性以(例如)用于呈现。inter_view_flag元素可指定对应NAL单元是否由其它视图用于视图间预测。为了传达基础视图的4字节NAL单元标头信息(其可顺从AVC),在MVC中定义前缀NAL单元。在MVC的情形下,基础视图存取单元包括视图的当前时间例子的VCL NAL单元以及其前缀NAL单元,所述前缀NAL单元仅含有NAL单元标头。H.264/AVC解码器可忽视前缀NAL单元。
在其有效负载中包括视频数据的NAL单元可包含各种粒度等级的视频数据。举例来说,NAL单元可包含视频数据的块、宏块、多个宏块、视频数据的切片,或视频数据的整个帧。多路复用器30可从视频编码器28接收呈基本流的PES包的形式的经编码的视频数据。多路复用器30可通过将stream_id映射到(例如,数据库或其它数据结构中的)对应节目(例如,节目映射表(PMT)或节目流映射(PSM))而将每一基本流与对应节目相关联。
多路复用器30还可从多个NAL单元组合存取单元。一般来说,存取单元可包含用于表示视频数据的帧以及对应于所述帧的所述音频数据(此类在音频数据可用时)的一个或一个以上NAL单元。在对应于H.264/AVC的实例中,存取单元可包含一个时间例子中的经译码的图片,其可呈现为主要经译码的图片。因此,存取单元可包含共同时间例子的所有音频和视频帧,例如,对应于时间X的所有视图。本发明还将特定视图的经编码的图片称作“视图分量”。即,视图分量包含在特定时间处的特定视图的经编码的图片(或帧)。因此,可将存取单元定义为包含共同时间例子的所有视图分量。
多路复用器30还可将关于节目的数据嵌入于NAL单元中。举例来说,多路复用器30可创建包含节目映射表(PMT)或节目流映射(PSM)的NAL单元。一般来说,PMT用以描述输送流,而PSM用以描述节目流。如下文关于图2的实例更详细地描述,多路复用器30可包含数据存储单元或与数据存储单元交互,所述数据存储单元将从音频编码器26和视频编码器28接收的基本流与节目相关联,且相应地与相应输送流和/或节目流相关联。
MPEG-2系统标准借助于“描述符”实现系统的扩展。PMT与PSM两者均包括描述符循环,一个或一个以上描述符可插入于描述符循环中。一般来说,描述符包含可用 以扩展节目和/或节目元素的定义的结构。本发明描述用于执行本发明的技术的两个描述符:MVC扩展描述符和层级描述符。一般来说,本发明的MVC扩展描述符通过特定地识别嵌入于节目流或输送流中的视图的视图次序索引而增强常规的MVC扩展描述符,而本发明的层级描述符包括旗标,所述旗标指示相关联的节目元素是否提高因由层级描述符的元素参考的节目元素所产生的位流的视图的数目。
例如ITU-T H.261、H.263、MPEG-1、MPEG-2和H.264/MPEG-4第10部分等视频压缩标准利用运动补偿时间预测以减少时间冗余。编码器使用来自一些先前编码的图片(在本文中还被称作帧)的运动补偿预测以根据运动向量预测当前经编码的图片。在典型视频译码中存在三种主要图片类型。其为经帧内译码的图片(“I图片”或“I帧”)、经预测的图片(“P图片”或“P帧”)和双向预测的图片(“B图片”或“B帧”)。P图片仅使用在时间次序上在当前图片之前的参考图片。在B图片中,可从一个或两个参考图片预测B图片的每一块。这些参考图片可在时间次序上位于当前图片之前或之后。
根据H.264编码标准,作为一实例,B图片使用先前译码的参考图片的两个列表,列表0和列表1。这两个列表可各自含有在时间次序上的过去和/或未来的经译码的图片。可按以下若干方式中的一者预测B图片中的块:来自列表0参考图片的运动补偿预测、来自列表1参考图片的运动补偿预测,或来自列表0参考图片与列表1参考图片两者的组合的运动补偿预测。为了得到列表0参考图片与列表1参考图片两者的组合,分别从列表0与列表1参考图片获得两个运动补偿参考区域。其组合将用以预测当前块。
ITU-T H.264标准支持:以各种块大小进行的帧内预测,例如,针对明度分量的16乘16、8乘8或4乘4以及针对色度分量的8×8;以及以各种块大小进行的帧间预测,例如,针对明度分量的16×16、16×8、8×16、8×8、8×4、4×8和4×4以及针对色度分量的对应缩放的大小。在本发明中,“×”与“乘”可互换地使用以指代在垂直尺寸与水平尺寸方面的块的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16×16块将具有垂直方向上的16个像素(y=16)和水平方向上的16个像素(x=16)。同样地,N×N块大体上具有垂直方向上的N个像素和水平方向上的N个像素,其中N表示非负整数值。可以行和列布置块中的像素。
小于16乘16的块大小可被称作16乘16宏块的分区。视频块可包含像素域中的像素数据的块,或(例如)在将例如离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换等变换应用于残余视频块数据之后的变换域中的变换系数的块,所述残余视频块数据表示经译码的视频块与预测性视频块之间的像素差。在一些情况下,视频块 可包含变换域中的经量化的变换系数的块。
较小视频块可提供较佳分辨率,且可用于定位包括高细节水平的视频帧。一般来说,宏块和各种分区(有时被称作子块)可被视为视频块。另外,切片可被视为多个视频块,例如,宏块和/或子块。每一切片可为视频帧的可独立解码的单元。或者,帧自身可为可解码单元,或帧的其它部分可被定义为可解码单元。术语“经译码的单元”或“译码单元”可指代视频帧的任何可独立解码的单元,例如,整个帧、帧的切片、图片群组(GOP)(还被称作序列),或根据适用的译码技术所定义的另一可独立解码的单元。
术语宏块指代用于根据包含16×16像素的二维像素阵列编码图片和/或视频数据的数据结构。每一像素包含色度分量和明度分量。因此,宏块可定义:四个明度块,其各自包含8×8像素的二维阵列;两个色度块,其各自包含16×16像素的二维阵列;以及标头,其包含语法信息,例如,经译码块模式(CBP)、编码模式(例如,帧内(I)或帧间(P或B)编码模式)、经帧内编码的块的分区的分区大小(例如,16×16、16×8、8×16、8×8、8×4、4×8或4×4),或经帧间编码的宏块的一个或一个以上运动向量。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、多路复用器30和多路分用器38各自可在适用时实施为多种合适的编码器或解码器电路中的任一者,例如,一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28和视频解码器48中的每一者可包括于一个或一个以上编码器或解码器中,其中任一者可集成为组合式视频编码器/解码器(CODEC)的部分。同样地,音频编码器26和音频解码器46中的每一者可包括于一个或一个以上编码器或解码器中,其中任一者可集成为组合式音频编码器/解码器(CODEC)的部分。包括视频编码器28、视频解码器48、音频编码器音频编码器26、音频解码器46、多路复用器30和/或多路分用器38的设备可包含集成电路、微处理器和/或例如蜂窝式电话的无线通信装置。
本发明的技术可提供优于用于MVC子位流的常规技术(其停用对一些操作点的信令特性的支持)的某些优点。与常规技术不同,本发明的MVC扩展描述符的语法元素和语义实现非连续视图次序索引值,因此使得有可能支持符合MVC且具有非连续的视图次序索引值的位流或子位流。本发明还提议用于信令视图增强的层级描述符,其使解码器能够确定MVC子位流依赖于其它视图以用于成功解码。
为了提供对特性信令的较佳支持,如在所提议的MVC扩展描述符中用信号发送的视图次序索引值可任选地为非连续的。此外,可在MVC扩展描述符中用信号发送视图次序索引值或view_id值。
作为一替代方案,可使用视图次序索引重新映射机制,其中通过修改现用的常规序列参数集合(SPS)MVC扩展中所定义的视图次序而在相符的MVC子位流经多路复用之前将此MVC子位流的视图的视图次序索引值映射到连续视图次序索引值。在此类机制中,常规MVC扩展描述符用以用信号发送视图ID而非视图次序索引,且因此,编码器可经重新配置以将所述视图编码成具有不同视图ID,同时解码器可经重新配置以根据经重新配置的编码次序而不同地解译常规MVC扩展描述符。举例来说,假设存在具有view_id 0、view_id 1和view_id 2的三个视图,其分别具有视图次序索引0、1和2。进一步假定服务仅需要视图0与视图2。编码器可以对应于视图ID 0、2、1的次序编码视图,以使得常规SPS MVC扩展描述符可用以用信号发送view_id值(以0、2、1的次序)。以此方式,视图2可具有视图次序索引1,以使得视图0与视图2的组合具有连续视图次序索引。
另外,为了避免当MVC的AVC视频子位流存在时前缀NAL单元的重复,本发明提议应定义前缀MVC子位流,且在一些实例中,当存在至少一个MVC子位流时包括此类前缀MVC子位流。此外,本发明提议属于基础视图的MVC专有SEI消息(即,在AVC规格的附件H中定义的SEI消息)或应用于MVC位流的所有视图的MVC SEI消息)可在此“前缀MVC子位流”内相关联,以实现在存储大小或带宽优化方面的有效存储和输送。本发明还提议可将相同想法应用于MPEG-2系统上的可缩放视频的输送,所述MPEG-2系统还被称作信息技术的修正3-运动图片和相关联的音频信息的通用译码:系统(在本发明中被称作“MPEG-2系统”或“MPEG-2系统标准”)。
在多路复用器30已从所接收的数据组合NAL单元和/或存取单元之后,多路复用器30将所述单元传递到输出接口32以供输出。输出接口32可包含(例如)发射器、收发器、用于将数据写入到计算机可读媒体(例如,光盘驱动器、磁性媒体驱动器(例如,软盘))的装置、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将NAL单元或存取单元输出到计算机可读媒体34,例如,发射信号、磁性媒体、光学媒体、存储器、快闪驱动器或其它计算机可读媒体。
最后,输入接口36从计算机可读媒体34检索数据。输入接口36可包含(例如)光盘驱动器、磁性媒体驱动器、USB端口、接收器、收发器或其它计算机可读媒体接口。输入接口36可将NAL单元或存取单元提供给多路分用器38。多路分用器38可将输送流或节目流多路分用成构成PES流,对所述PES流解包化以检索经编码的数据,且依据所述经编码的数据为音频还是视频流的部分(例如,如由流的PES包标头指示)而将所述经编码的数据发送到音频解码器46或视频解码器48。音频解码器46解码经编码的 音频数据且将所述经解码的音频数据发送到音频输出42,而视频解码器48解码经编码的视频数据且将所述经解码的视频数据(其可包括流的多个视图)发送到视频输出44。视频输出44可包含使用场景的多个视图的显示器,例如,同时呈现场景的每一视图的立体或自动立体显示器。
另外,例如当嵌入式子位流中的至少一个视图具有视图次序索引小于其中嵌入了所述嵌入式子位流的主子位流的视图的视图次序索引的视图时,多路分用器38可将一个或一个以上子位流的视图重新排序,以使得所述流的视图次序索引具有严格递增次序。以此方式,A/V目的地装置40可对应于包含从所接收的位流产生顺从MVC标准的位流的多路分用器的设备。
图2为说明多路复用器30(图1)的组件的实例布置的方框图。在图2的实例中,多路复用器30包括流管理单元60、视频输入接口80、音频输入接口82、经多路复用流输出接口84,和节目专有信息表88。流管理单元60包括NAL单元建构器62、PMT建构器64、流识别符(流ID)查找单元66,和节目识别符(PID)指派单元68。
在图2的实例中,视频输入接口80和音频输入接口82包括用于从经编码的视频数据和经编码的音频数据形成PES单元的相应包化器。在其它实例中,视频和/或音频包化器可存在于多路复用器30的外部。关于图2的实例,视频输入接口80可由从视频编码器28接收的经编码的视频数据形成PES包,且音频输入接口82可由从音频编码器26接收的经编码的音频数据形成PES包。
流管理单元60从视频输入接口80和音频输入接口82接收PES包。每一PES包包括识别所述PES包所属的基本流的流ID。流ID查找单元66可通过查询节目专有信息表88而确定PES包所对应的节目。即,流ID查找单元66可确定所接收的PES包对应于哪一节目。每一节目可包含多个基本流,而一般来说,一个基本流对应于仅一个节目。然而,在一些实例中,基本流可包括于多个节目中。因为各种服务可各自包括可用音频和视频流的各种子集,所以每一PES包可包括于从多路复用器30输出的多个流中。因此,流ID查找单元66可确定PES包是否应包括于一个或一个以上输出流(例如,一个或一个以上输送或节目流)中,且特定来说,确定在所述输出流中的哪一者中包括所述PES包。
在一个实例中,每一基本流对应于一节目。多路复用器30可负责确保每一基本流与一特定节目相关联,且相应地与一节目ID(PID)相关联。当接收包括未由多路复用器30辨识出的流ID(例如,未存储于节目专有信息表88中的流ID)的PES包时,PID指派单元68在节目专有信息表88中创建一个或一个以上新条目以将新的流ID与未使 用的PID相关联。
在确定PES包所对应的节目之后,NAL单元建构器62(例如)通过将所述PES包与NAL单元标头(其包括所述PES包的流ID所对应的节目的PID)囊封在一起而形成包含所述PES包的NAL单元。在一些实例中,NAL单元建构器62或流管理单元60的另一子单元可形成包含多个NAL单元的存取单元。
PMT建构器64使用来自节目专有信息表88的信息创建多路复用器30的对应输出流的节目映射表(PMT)。在另一实例中,流管理单元60可包含用于创建由多路复用器30输出的节目流的节目流映射的PSM建构器。在一些实例中,多路复用器30可包含PMT建构器64和PSM建构器两者,且输出输送流和节目流中的一者或两者。在图2的实例中,PMT建构器64可建构包括由本发明规定的描述符(例如,MVC增强描述符和层级描述符,以及任何其它必要的描述符)的PMT和所述PMT的PMT数据。PMT建构器64可周期性地(例如,在特定时间周期之后或在已发射特定量的数据之后)发送输送流的后续PMT。PMT建构器64可(例如)通过将PMT与对应的NAL单元标头(其包括对应PID)囊封在一起而将所创建的PMT传递到NAL单元建构器62以用于形成包含PMT的NAL单元。
经多路复用流输出接口84可从流管理单元60接收一个或一个以上NAL单元和/或存取单元,例如,包含PES包(例如,音频或视频数据)的NAL单元和/或包含PMT的NAL单元。在一些实例中,在从流管理单元60接收对应于共同时间位置的一个或一个以上NAL单元之后,经多路复用流输出接口84可从所述NAL单元形成存取单元。经多路复用流输出接口84在对应的输送流或节目流中发射所述NAL单元或存取单元以作为输出。
图3为说明节目专有信息表88的实例集合的方框图。可基于输送包的PID值确定所述输送包所属的基本流。为了使解码器适当地解码所接收的数据,所述解码器需要能够确定哪些基本流属于每一节目。如包括于节目专有信息表88中的节目专有信息可明确指定节目与分量基本流之间的关系。在图3的实例中,节目专有信息表88包括网络信息表100、条件存取表102、节目存取表104,和节目映射表106。对于图3的实例来说,假定输出流包含MPEG-2输送流。在一替代实例中,输出流可包含节目流,在此情况下,可用节目流映射替换节目映射表106。
MPEG-2系统规格指定载运于输送流中的每一节目具有与其相关联的一节目映射表(例如,节目映射表106)。节目映射表106可包括关于节目和所述节目所包括的基本流的细节。作为一个实例,被识别为节目编号3的节目可含有具有PID 33的视频基本流、 具有PID 57的英文音频流,和具有PID 60的中文音频流。准许PMT包括一个以上节目。
由MPEG-2系统规格指定的基础节目映射表可附有在所述MPEG-2系统规格内指定的许多描述符中的一些(例如,描述符108)。描述符108可包括MPEG-2系统规格的指定描述符中的任一者或全部。一般来说,描述符(例如,描述符108)传达关于节目或节目的分量基本流的其它信息。所述描述符可包括视频编码参数、音频编码参数、语言识别、摇摄和扫描信息、条件存取细节、版权信息,或其它此类信息。广播公司或其它用户可定义额外专用描述符。
本发明使用两个描述符以便允许非连续视图次序索引载运于例如输送流或节目流等输出流中。如图2所示,本发明的两个描述符包括MVC扩展描述符110和层级描述符112。在视频相关的分量基本流中,还存在层级描述符,其提供信息以识别含有分层译码的视频、音频和专用流的分量的节目元素。
在多路复用器30的输出包含节目流的一实例中,节目专有信息表88可包括节目流映射(PSM)。PSM可提供对应节目流中的基本流的描述和所述基本流彼此的关系。在一些实例中,节目流映射还可对应于输送流。当载运于对应的输送流中时,PSM结构不应被修改。多路复用器30可通过将PES包的stream_id值设定成0xBC(即,十六进制值BC,其对应于二进制值10111100或十进制值188)而指示PSM存在于所述PES包中。
多路复用器30将可用于输送流中的所有节目的完整列表维持于节目关联表104中。多路复用器30还可将节目关联表嵌入于NAL单元中。多路复用器30可通过向NAL单元指派PID值0而指示所述NAL单元包括节目关联表。多路复用器30可在节目关联表104中列出每一节目连同含有对应节目映射表的输送包的PID值。使用上文所提及的相同实例,指定节目编号3的基本流的实例节目映射表具有为1001的PID且另一PMT具有为1002的另一PID。此信息集合可包括于节目关联表104中。
网络信息表(NIT)和条件存取表(CAT):指定于PAT中的节目编号零具有特殊意义。具体来说,节目编号零用以指出到网络信息表的路线。所述表为任选的且当存在时,其意欲提供关于载运输送流的物理网络的信息,例如,信道频率、卫星转发器细节、调制特性、服务发起者、可用替代性网络的服务名称和细节。
如果输送流内的任何基本流被加扰,则必须存在条件存取表。所述表提供使用中的加扰系统的细节,且提供含有条件存取管理和权限信息的输送包的PID值。未在MPEG-2内指定此信息的格式。
图4为说明可包括于MVC扩展描述符110中的数据的实例集合的方框图。在图4 的实例中,MVC扩展描述符110包括描述符标签字段120、描述符长度字段122、平均位速率字段124、最大位速率字段126、保留字段128、时间识别符(ID)起始字段130、时间ID结束字段132、无补充增强信息(SEI)NAL单元存在字段134、一个或一个以上视图次序索引字段136,和一个或一个以上保留尾随位字段138。MVC扩展描述符110还指定对应于MVC子位流的操作点。下文的MVC扩展描述符110的字段的位深度对应于MVC扩展描述符的一个实例。其它实例可包括个别地用信号发送包括于对应位流或子位流中的每一视图的每一视图次序索引的其它位深度、值或范围。
描述符标签字段120对应于包括于每一描述符中以特定地识别所述描述符的八位描述符标签字段,如由MPEG-2系统标准所陈述。MPEG-2系统标准定义特定描述符标签且将其它描述符标签值(例如,值36到63)标记为“保留”。本发明的技术提议将MVC扩展描述符110的描述符标签字段120的值设定成“49”,其对应于如MPEG-2系统规格中所指定的保留描述符标签中的一者。
描述符长度字段122对应于还包括于每一描述符中的八位描述符长度字段,如由MPEG-2系统标准所陈述。多路复用器30可将描述符长度字段122的值设定成等于紧接在描述符长度字段122之后的MVC扩展描述符110的字节的数目。因为MVC扩展描述符110可(例如)基于包括于MVC扩展描述符110的特定例子中的视图次序索引136的数目而包含可变长度,所以多路复用器30计算MVC扩展描述符110的例子的大小且相应地设定所述描述符的例子的描述符长度字段122的值。
平均位速率字段124包含指示经重新组合的AVC视频流的平均位速率(以每秒千位计)的十六位字段。即,平均位速率字段124描述当从MVC扩展描述符110所对应的输送流或节目流的构成部分组合视频流时所述视频流的平均位速率。在一些实例中,多路复用器30可将平均位速率字段124的值设定成零以指示平均位速率未由MVC扩展描述符110指示。
最大位速率字段126包含指示经重新组合的AVC视频流的最大位速率(以每秒千位计)的十六位字段。即,最大位速率字段126描述当从MVC扩展描述符110所对应的输送流或节目流的构成部分组合视频流时所述视频流的最大位速率。在一些实例中,多路复用器30可将最大位速率字段126的值设定成零以指示最大位速率未由MVC扩展描述符110指示。
时间ID起始字段130包含指示相关联的MVC视频子位流中所含有的所有NAL单元的NAL单元标头语法元素的temporal_id的最小值的三位字段。即,时间ID值包括于每一NAL单元的标头中。一般来说,时间ID值对应于特定帧速率,其中相对较大的 时间ID值对应于较高帧速率。举例来说,时间ID的值“0”可对应于15帧每秒(fps)的帧速率,时间ID的值“1”可对应于30fps的帧速率。以此方式,在此实例中,将具有时间ID 0的所有图片聚集到一集合中可用以形成具有15fps的帧速率的视频片段,而将具有时间ID 0的所有图片和具有时间ID 1的所有图片聚集到不同集合中可用以形成具有30fps的帧速率的不同视频片段。多路复用器30确定MVC视频子位流的所有NAL单元的最小时间ID,且将时间ID起始字段130的值设定成等于此所确定的最小时间ID值。
时间ID结束字段132包含指示相关联的MVC视频子位流中所含有的所有NAL单元的NAL单元标头语法元素的时间ID的最大值的三位字段。因此,多路复用器30确定MVC视频子位流的所有NAL单元的最大时间ID,且将时间ID起始字段130的值设定成等于此所确定的最大时间ID值。
无SEI NAL单元存在字段134包含一位旗标,所述一位旗标在被设定成“1”时指示无补充增强信息NAL单元存在于相关联的视频子位流中。多路复用器30可确定一个或一个以上补充增强信息NAL单元是否已放置于位流中,且在位流中不存在SEI NAL单元时将无SEI NAL单元存在字段134的值设定成值“1”,而在至少一个SEI NAL单元存在于位流中时可将无SEI NAL单元存在字段134的值设定成值“0”。
在一个方面中,本发明的技术描述对常规MVC扩展描述符的修改以包括一个或一个以上视图次序索引字段136,其使用如下表1中所展示的循环来表示。视图次序索引字段136中的每一者包含指示相关联的MVC视频子位流中所含有的NAL单元中的对应一者的视图次序索引的值的10位字段。多路复用器30可根据MVC视频子位流中所包括的视图的视图次序索引而设定视图次序索引字段136的值。此外,可以递升次序用信号发送视图次序索引字段136的值。以此方式,MVC扩展描述符110可描述MVC视频子位流中所包括的视图的非连续视图次序索引。
在图4的实例中,MVC扩展描述符110还包含保留尾随位字段138。本发明描述保留这些位以用于未来目的,而未指定如何必要地使用这些值。在各种实例中,可将保留尾随位表示为MVC扩展描述符110的位的一个单一连续保留片段,或表示为多个个别位上的循环。
下表1描述本发明的MVC扩展描述符110的语法元素。表1还针对每一语法元素描述用以表示所述语法元素的位的数目和描述所述语法元素的类型的助记符。位的数目对应于当在经译码的位流中发射MVC扩展描述符110时分配给对应语法元素的位的数目。在MPEG-2系统标准中使用助记符以描述在经译码的位流中使用的不同数据类型。 本发明中所使用的助记符包括“uimsbf”,MPEG-2系统标准将其定义为使最高有效位在首的无正负号整数;以及“bslbf”,MPEG-2系统标准将其定义为左侧位在首的位串,其中“左侧”为在MPEG-2系统标准中编写位串的次序。表1的实例中的语法元素中的每一者对应于上文关于MVC扩展描述符110所描述的语法元素中的相应一者。具体来说,本发明提供表1中的“for”循环,以特定地用信号发送节目流或输送流中的每一视图的视图次序索引。以此方式,表1的MVC扩展描述符中的“for”循环可用以用信号发送对应的MPEG-2系统标准位流包含场景的与第一视图次序索引相关联的第一视图和所述场景的与第二视图次序索引相关联的第二视图,其中第一视图次序索引和第二视图次序索引为非连续的。
表1-MVC扩展描述符
在另一实例中,可替代地个别地用信号发送保留尾随位。下表2说明个别地用信号发送保留尾随位中的每一者的实例MVC扩展描述符。
表2-具有个别地用信号发送的尾随位的MVC扩展描述符
图5为说明可包括于层级描述符112中的数据的实例集合的方框图。在图5的实例中,层级描述符112包括描述符标签字段150、描述符长度字段152、视图增强旗标字段154、时间可缩放性旗标字段156、空间可缩放性旗标字段158、质量可缩放性旗标字段160、层级类型字段162、保留字段164、层级层索引字段166、TREF存在旗标字段168、保留字段170、层级嵌入式层索引字段172、保留字段174,和层级信道字段176。为了改进信令、视图可缩放性和/或视图相依性关系,本发明的技术可假定将在层级描述符中用信号发送一个旗标,所述旗标指示相关联的节目元素是否提高因由hierarchy_embedded_layer_index参考的节目元素所产生的位流的视图的数目。
如上文所述,MPEG-2系统规格规定每一描述符包括一描述符标签字段和一描述符长度字段。因此,层级描述符112包括描述符标签字段150和描述符长度字段152。根据MPEG-2系统规格,多路复用器30可针对层级描述符112将描述符标签字段150的值设定成值“4”。
可先验地确定层级描述符112的长度,因为层级描述符112的每一例子应包括相同量的数据。在一个实例中,关于下表3,多路复用器30可将描述符长度字段152的值设定成值32,其指示跟在描述符长度字段152的末端后面的层级描述符112的一例子中的位的数目。
本发明的技术提议将视图增强旗标字段154添加到常规层级描述符。根据本发明的技术,视图增强旗标字段154可包含一位旗标,所述一位旗标在被设定成“0”时指示相关联的节目元素提高因由层级嵌入式层索引参考的节目元素所产生的位流的视图的数目。本发明的技术还提议针对视图增强旗标字段154保留值“1”。
层级类型字段162描述相关联的层级层与其层级嵌入式层之间的层级关系。在一个实例中,多路复用器30基于层级关系设定层级类型字段162的值,例如,如由下表4所描述。作为一个实例,当可缩放性在一个以上维度上适用时,多路复用器30可将层级类型字段162设定成值“8”(如表4中所示的“组合的可缩放性”),且多路复用器30根据从相应流的PES包和PES包标头检索的数据来设定时间可缩放性旗标字段156、空间可缩放性旗标字段158和质量可缩放性旗标字段160的值。一般来说,多路复用器 30可确定对应于各种视图和/或音频数据流的不同流之间的相依性。多路复用器30还可确定包含增强层的相依流是空间层、信号对噪声(SNR)增强层、质量增强层还是另一类型的增强层。
作为另一实例,对于MVC视频子位流来说,多路复用器30可将层级类型字段162设定成值“9”(如表4中所示的“MVC”),且可将可缩放性旗标字段156、空间可缩放性旗标字段158和质量可缩放性旗标字段160中的每一者的值设定成“1”。作为又一实例,对于MVC基础视图子位流来说,多路复用器30可将层级类型字段162的值设定成值“15”,且可将可缩放性旗标字段156、空间可缩放性旗标字段158和质量可缩放性旗标字段160的值设定成“1”。作为再一实例,对于前缀MVC子位流来说,多路复用器30可将层级类型字段162设定成值“14”,且可将可缩放性旗标字段156、空间可缩放性旗标字段158和质量可缩放性旗标字段160设定成“1”。
层级层索引字段166可包含定义译码层层级的表中的相关联的节目元素的唯一索引的六位字段。索引在单一节目定义内可为唯一的。对于符合ITU-T Rec.H.264|ISO/IEC14496-10的附件G中所定义的一个或一个以上简档的AVC视频流的视频子位流来说,此为以如下方式指派的节目元素索引:在以hierarchy_layer_index的递增次序重新组合同一存取单元的视频子位流的相关联的SVC相依性表示的情况下,位流次序将是正确的。对于符合ITU-T Rec.H.264|ISO/IEC 14496-10的附件H中所定义的一个或一个以上简档的AVC视频流的MVC视频子位流来说,此为以如下方式指派的节目元素索引:这些值中的任一者大于在前缀MVC子位流的层级描述符中指定的hierarchy_layer_index值。
层级嵌入式层索引字段172可包含定义需要在解码与层级描述符112的对应例子相关联的基本流之前存取的节目元素的层级表索引的六位字段。针对层级类型字段162具有值15(即,对应于基础层的值),本发明留着层级嵌入式层索引字段172的值未经定义。
层级信道字段176可包含指示发射信道的经排序集合中的相关联的节目元素的既定信道数目的六位字段。关于整个发射层级定义,最稳健的发射信道是由层级信道字段176的最低值定义。注意,可同时将给定的层级信道指派给若干节目元素。
保留字段164、170和174经保留以供未来由未来标准开发使用。本发明的技术此时不提议将语义意义指派给保留字段164、170和174的值。
时戳参考(TREF)存在旗标字段168为指示TREF字段是否存在于对应PES包标头中的一位字段。PES包中的TREF字段为译码于三个独立字段中的33位数字。TREF 字段指示系统目标解码器中的如由DTS指示或在不存在DTS的情况下由对应基本流n中的相同第j个存取单元的PES标头的PTS指示的解码时间值。
下表3描述本发明的层级描述符112的语法元素。表3还针对每一语法元素提供用以表示所述语法元素的位的数目和描述所述语法元素的类型的助记符。位的数目对应于当在经译码的位流中发射层级描述符112时分配给对应语法元素的位的数目。在MPEG-2系统标准中使用助记符以描述在经译码的位流中使用的不同数据类型。本发明中所使用的助记符包括“uimsbf”,MPEG-2系统标准将其定义为使最高有效位在首的无正负号整数;以及“bslbf”,MPEG-2系统标准将其定义为左侧位在首的位串,其中“左侧”为在MPEG-2系统标准中编写位串的次序。表3的实例中的语法元素中的每一者对应于上文关于层级描述符112所描述的语法元素中的相应一者。
表3-层级描述符
下表4描述层级描述符112的层级类型字段162的各种潜在值,以及每一值的意义。本发明提议添加层级类型字段162的潜在值“14”,其包含作为对应位流的描述的“前缀MVC子位流”的描述。本发明的技术将前缀MVC子位流定义成包含所有前缀NAL单元,其中nal_unit_type(即,NAL单元的类型值)等于20;以及相关联的非VCL NAL单元,其在与MVC的AVC视频子位流重新组合之后符合在ITU-T Rec.H.264|ISO/IEC14496-10的附件H中定义的一个或一个以上简档。本发明的技术还提议,当存在MVC的AVC视频子位流时,还应存在前缀MVC子位流。
表4-层级类型字段值
值 | 描述 |
0 | 保留 |
1 | 空间可缩放性 |
2 | SNR可缩放性 |
3 | 时间可缩放性 |
4 | 数据分割 |
5 | 扩展位流 |
6 | 专用流 |
7 | 多视图简档 |
8 | 组合的可缩放性 |
9 | MVC视频子位流 |
10-13 | 保留 |
14 | 前缀MVC子位流 |
15 | 基础层或MVC基础视图子位流或MVC的AVC视频子位流 |
在一些实例中,层级描述符112可用以用信号发送通过递增的子位流和嵌入式子位流来用信号发送的MVC子位流。嵌入式子位流包括对应于hierarchy_embedded_layer_index的直接相依子位流和此直接相依子位流的所有嵌入式子位流。在本发明中,明确含有的视图被称为增强视图,而嵌入的视图被称为相依视图。
图6为说明实例MVC预测模式的概念图。在图6的实例中,说明八个视图(具有视图ID“S0”到“S7”),且针对每一视图说明十二个时间位置(“T0”到“T11”)。即,图6中的每一行对应于一视图,而每一列指示时间位置。
虽然MVC具有可由H.264/AVC解码器解码的所谓的基础视图且立体视图对还可由MVC支持,但MVC的优点为其可支持将两个以上视图用作3D视频输入且解码由多个视图表示的此3D视频的实例。具有MVC解码器的客户端的呈现器可预期具有多个视图的3D视频内容。
使用包括字母的加阴影块在图6中的每一行和每一列的指示处指示图6中的帧,所述字母指定对应帧是经帧内译码(即,I帧)还是在一个方向上经帧间译码(即,作为P帧)还是在多个方向上经帧间译码(即,作为B帧)。一般来说,用箭头指示预测,其中所指向(pointed-to)的帧将所指出(point-from)的对象用于预测参考。举例来说,从时间位置T0处的视图S0的I帧来预测时间位置T0处的视图S2的P帧。
与单视图视频编码一样,可关于不同时间位置处的帧预测性地编码多视图视频译码视频序列的帧。举例来说,时间位置T1处的视图S0的b帧使箭头从时间位置T0处的视图S0的I帧指向所述b帧,从而指示从I帧预测所述b帧。然而,另外,在多视图视 频编码的情形下,可视图间预测帧。即,视图分量可将其它视图中的视图分量用于参考。举例来说,在MVC中,视图间预测如同另一视图中的视图分量为帧间预测参考一样得以实现。在序列参数集合(SPS)MVC扩展中用信号发送潜在的视图间参考,且可通过参考图片列表建构过程来修改潜在的视图间参考,此实现帧间预测或视图间预测参考的灵活排序。下表5提供MVC扩展序列参数集合的实例定义。
表5
图6提供视图间预测的各种实例。在图6的实例中,将视图S1的帧说明为从视图S1的不同时间位置处的帧预测得到,以及从相同时间位置处的视图S0与S2的帧的帧 视图间预测得到。举例来说,从时间位置T0与T2处的视图S1的B帧中的每一者以及时间位置T1处的视图S0与S2的b帧预测时间位置T1处的视图S1的b帧。
在图6的实例中,大写字母“B”和小写字母“b”意欲指示帧之间的不同层级关系而非不同编码方法。一般来说,与小写字母“b”帧相比,大写字母“B”帧在预测层级中相对较高。图6还使用不同程度的阴影来说明预测层级的变化,其中与具有较少阴影(即,相对较浅)的那些帧相比,较大量的阴影(即,相对较深)帧在预测层级中较高。举例来说,以完全阴影来说明图6中的所有I帧,同时P帧具有稍微较浅的阴影,且B帧(和小写字母b帧)具有相对于彼此的各种程度的阴影,但始终比P帧和I帧的阴影浅。
一般来说,预测层级涉及视图次序索引,因为应在解码在预测层级中相对较低的帧之前解码在所述层级中相对较高的帧,以使得在所述层级中相对较高的那些帧可在解码在所述层级中相对较低的帧期间用作参考帧。视图次序索引为指示存取单元中的视图分量的解码次序的索引。在如H.264/AVC的附件H(MVC修正)中所指定的SPS MVC扩展中暗示视图次序索引。在SPS中,针对每一索引i,用信号发送对应的view_id。视图分量的解码应遵循视图次序索引的递升次序。如果呈现所有视图,则视图次序索引呈从0到num_views_minus_1的连续次序。
以此方式,用作参考帧的帧可在解码参考所述参考帧而编码的帧之前被解码。视图次序索引为指示存取单元中的视图分量的解码次序的索引。针对每一视图次序索引i,用信号发送对应的view_id。视图分量的解码遵循视图次序索引的递升次序。如果呈现所有视图,则视图次序索引的集合包含从0到比视图的全部数目小一的经连续排序的集合。
对于处于所述层级的相等层级的某些帧来说,解码次序可相对于彼此并不重要。举例来说,时间位置T0处的视图S0的I帧用作时间位置T0处的视图S2的P帧的参考帧,时间位置T0处的视图S2的P帧又用作时间位置T0处的视图S4的P帧的参考帧。因此,时间位置T0处的视图S0的I帧应在时间位置T0处的视图S2的P帧之前被解码,时间位置T0处的视图S2的P帧应在时间位置T0处的视图S4的P帧之前被解码。然而,在视图S1与S3之间,解码次序并不重要,因为视图S1与S3并不依赖于彼此来用于预测,而是仅从在预测层级中较高的视图预测。此外,可在视图S4之前解码视图S1,只要视图S1在视图S0与S2之后被解码即可。
以此方式,层级排序可用以描述视图S0到S7。令记法SA>SB意味着应在视图SB之前解码视图SA。在图6的实例中使用此记法S0>S2>S4>S6>S7。且,关于图6的实例, S0>S1、S2>S1、S2>S3、S4>S3、S4>S5且S6>S5。不违背这些要求的视图的任何解码次序是可能的。因此,在仅具有特定限制的情况下,许多不同的解码次序是可能的。下文呈现两个实例解码次序,但应理解,许多其它解码次序是可能的。在下表6中所说明的一个实例中,尽可能快地解码视图。
表6
视图ID | S0 | S1 | S2 | S3 | S4 | S5 | S6 | S7 |
视图次序索引 | 0 | 2 | 1 | 4 | 3 | 6 | 5 | 7 |
表6的实例认识到,可紧接在已解码视图S0与S2之后解码视图S1,可紧接在已解码视图S2与S4之后解码视图S3,且可紧接在已解码视图S4与S6之后解码视图S5。
下表7提供另一实例解码次序,其中解码次序使得用作另一视图的参考的任何视图在未用作任何其它视图的参考的视图之前被解码。
表7
视图ID | S0 | S1 | S2 | S3 | S4 | S5 | S6 | S7 |
视图次序索引 | 0 | 5 | 1 | 6 | 2 | 7 | 3 | 4 |
表7的实例认识到,视图S1、S3、S5和S7的帧并不充当任何其它视图的帧的参考帧,且因此,视图S1、S3、S5和S7在用作参考帧的那些视图(即,在图6的实例中,视图S0、S2、S4和S6)的帧之后被解码。视图S1、S3、S5和S7相对于彼此可以任何次序被解码。因此,在表7的实例中,在视图S1、S3和S5中的每一者之前解码视图S7。
为清楚起见,在每一视图的帧以及每一视图的帧的时间位置之间存在层级关系。关于图6的实例,从时间位置T0处的其它视图的帧帧内预测或视图间预测时间位置T0处的帧。类似地,从时间位置T8处的其它视图的帧帧内预测或视图间预测时间位置T8处的帧。因此,关于时间层级,时间位置T0和T8处于所述时间层级的顶部。
在图6的实例中,与时间位置T0与T8处的帧相比,时间位置T4处的帧在时间层级中较低,因为参考时间位置T0与T8的帧而B编码时间位置T4的帧。与时间位置T4处的帧相比,时间位置T2与T6处的帧在时间层级中较低。最后,与时间位置T2与T6的帧相比,时间位置T1、T3、T5和T7处的帧在时间层级中较低。
在MVC中,可提取整个位流的子集以形成仍符合MVC的子位流。存在特定应用 可基于(例如)由服务器提供的服务、一个或一个以上客户端的解码器的容量、支持和能力和/或一个或一个以上客户端的偏好而需要的许多可能的子位流。举例来说,客户端可能仅需要三个视图,且可能存在两种情景。在一个实例中,一个客户端可需要平滑观看体验且可偏好于具有view_id值S0、S1和S2的视图,而另一其它客户端可需要视图可缩放性且偏好于具有view_id值S0、S2和S4的视图。如果最初关于表6的实例对view_id排序,则在这两个实例中,视图次序索引值分别为{0,1,2}和{0,1,4}。注意,可将这两个子位流解码为独立MVC位流,且可同时支持这两个子位流。
图7为说明用于将具有带有非连续视图次序索引的视图的子集的MPEG-2系统流从服务器发送到客户端的实例方法的流程图。出于实例的目的,关于A/V源装置20和A/V目的地装置40来描述图7的方法,但应理解,其它实例可执行图7的方法。在图7的实例中,起因于“服务器”的动作可由A/V源装置20执行,而由“客户端”执行的动作可由A/V目的地装置40执行。
在图7的实例中,A/V源装置20最初基于由A/V源装置20提供的服务确定要发送到A/V目的地装置40的可用视图的子集(200)。如上文所论述,服务大体上包含对视图的选择。关于图6的实例,服务可包含视图S0、S2和S4。假定这些视图的视图次序索引为由表6规定的视图次序索引,则作为一实例,视图S0、S2和S4的视图次序索引可包含视图次序索引0、1和3。出于解释的目的,对图7的方法的剩余论述使用这些视图ID和视图次序索引作为一实例。
A/V源装置20可接着基于曾确定发送的视图而准备节目映射表(PMT)作为服务的供应的部分(202)。具体来说,多路复用器30的PMT建构器64可基于针对对应于由A/V源装置20提供的服务的一个或一个以上节目从节目专有信息表88检索的信息而准备PMT。根据本发明的技术,PMT的准备包括产生MVC扩展描述符110和层级描述符112。
为了产生MVC扩展描述符110,多路复用器30的PMT建构器64将描述符标签字段120设定成等于“49”。PMT建构器64根据如节目专有信息表88所存储的节目的节目专有数据而设定平均位速率字段124、最大位速率字段126、时间ID起始字段130、时间ID结束字段132和无SEI NAL单元存在字段134的值。PMT建构器64还根据选定视图的视图次序索引而设定视图次序索引字段136的值。在上文所描述的实例中,PMT建构器64包括表示视图次序索引0、1和3的三个视图次序索引字段值。以此方式,此实例提供个别地指示所述节目的视图的每一视图次序索引的MVC扩展描述符。此外,因为跳过视图次序索引“2”,所以此实例为其中视图次序索引为非连续的实例。
为了产生层级描述符112,PMT建构器64根据节目专有信息表88设定层级描述符112的字段的值。根据本发明的技术,PMT建构器64还可将视图增强旗标字段154的值设定成值“0”以指示相关联的节目元素增加了因由层级嵌入式层索引字段172的值参考的节目元素所产生的位流的视图的数目。
在产生PMT之后,A/V源装置20可将所述PMT(例如,以NAL单元的形式)发射到A/V目的地装置40(204)。在一些实例中,A/V源装置20可(例如)在预定时间间隔之后或在已发送特定量的数据之后周期性地将PMT重新发送到A/V目的地装置40。A/V目的地装置40可将来自PMT的节目信息记录于客户端存储媒体中(208),所述客户端存储媒体可实质上镜射多路复用器30的节目专有信息表88。举例来说,多路分用器38可包含类似于多路复用器30的节目专有信息表88的节目专有信息表的集合。在接收节目专有信息(例如,经发射的PMT)之后,多路分用器38可即刻更新多路分用器38的节目专有信息表。
多路复用器30可接着接收与由A/V源装置20提供的服务相关联的一个或一个以上节目的PES包(210)。多路复用器30可通过对所述PES包的流ID执行查找而确定所述PES包将包括于去往A/V目的地装置40的输送流中。在PES包的流ID与待包括于输送流中的视图匹配时,多路复用器30可(例如)通过将所述PES包与对应于所述节目的节目ID(PID)囊封在一起而从所述PES包形成NAL单元(212)。多路复用器30还可从多个所述NAL单元形成存取单元(214),且将所述存取单元发送到A/V目的地装置40(216)。
A/V目的地装置40可接着从A/V源装置20接收存取单元(218),且(例如)通过参考所述存取单元的PID而将所述存取单元与节目相关联(220)。A/V目的地装置40的多路分用器38可将存取单元多路分用成构成NAL单元,且因此,多路分用成PES包,多路分用器38可最后将所述PES包传递到音频解码器46和/或视频解码器48。视频解码器48可解码所述视图中的每一者且将所述经解码的视图发送到视频输出44,视频输出44可包含立体或自动立体视频显示器或需要多个视图的其它显示装置。同样地,音频解码器46可解码音频帧以形成经解码的音频数据且将所述音频数据发送到音频输出42(例如,扬声器)。以此方式,A/V目的地装置40可解码并显示所接收的数据(222)。
图8为说明用于组合两个或两个以上子位流的视图分量以产生使得所述视图分量具有递增视图次序索引的位流的实例方法的流程图。所述方法可在不参考相应子位流和视图分量的视图ID的情况下对子位流排序。假设,关于图6的实例,输送流(或节目流)的第一子位流包括视图S0、S2和S4的视图分量,而所述输送流的第二子位流(对应于 第一子位流的嵌入式子位流)包括视图S1和S3的视图分量。本发明还可将嵌入式子位流称作“相依子位流”。同样地,本发明可将嵌入了相依子位流的子位流称作主子位流。因此,图8的第一子位流可被称作主子位流,而第二子位流可被称作嵌入式或相依子位流。
假定此实例的视图次序索引是如关于表6的实例所定义,则第一子位流中的视图分量的视图次序索引(分别)为0、1和3,而第二子位流的视图次序索引为2和4。因此,如果此实例中的第一位流的视图分量在第二子位流的视图分量之前被全部解码,则解码次序在视图次序索引方面将对应于0、1、3、2、4。因为视图次序索引将用以描述解码次序,所以所述解码次序将构成对MVC规格的违背。因此,图8的方法可用以将视图分量在视图次序索引方面重新排序,以使得视图分量的解码次序符合MVC规格。
图8的方法大体上对应于一实例方法,其包括:当组合子位流时,每一存取单元中的视图分量应遵循如在所有当前子位流和其嵌入式子位流中传达的视图次序索引的递增次序。本发明的技术可进行符合MVC子位流的可能组合而不检查NAL单元的NAL单元标头中的view_id语法元素且不将其映射到视图次序索引。图8的方法可用以产生包含对应于呈顺从MVC标准的次序的子位流的view_ID的索引的列表,其被称作“层级层索引列表”(HLI)。
最初,客户端装置(例如,A/V目的地装置40)接收具有两个子位流的视图分量的存取单元(250)。出于实例的目的,假定第二子位流包含第一子位流的嵌入式或相依子位流。关于两个子位流来描述图8的实例方法。然而,图8的技术还适用于具有两个以上子位流的实例。此外,出于实例和解释的目的,关于A/V目的地装置40的多路分用器38来描述图8的方法。然而,应理解,图8的方法可由任何装置、模块、单元或固件、硬件和/或软件组件的组合执行以用于重新组织两个或两个以上子位流的视图以符合MVC标准。
假定根据MVC标准对每一子位流的视图分量排序。因此,多路分用器38确定子位流的视图分量中的哪一者具有最小视图次序索引(252)。多路分用器38可接着在下一可用位置处将视图分量(其可包含一个或一个以上NAL单元)的索引添加到HLI列表(254)。在一些实例中,视图分量可包含含有多媒体数据的一个或一个以上NAL单元,以及可用以区别所述视图分量与另一后续视图分量的定界符NAL单元。多路分用器38可接着确定是否还有用于第一子位流的任何视图分量(256)。
当还有用于第一子位流的视图分量(256的“是”分支)时,多路分用器38可确定是否还有用于第二子位流的视图分量(258)。当第一子位流和第二子位流两者包括至少 一个视图分量(258的“是”分支)时,多路分用器38返回到步骤252,以确定所述视图分量中的最小视图次序索引且将最小视图分量的视图索引添加到HLI列表。然而,当还有用于第一子位流的视图分量而没有用于第二子位流的视图分量(258的“否”分支)时,多路分用器38可将第一子位流的剩余视图分量添加到HLI列表(260)。
另一方面,当没有用于第一子位流的视图分量(256的“否”分支)时,多路分用器38可确定是否还有用于第二子位流的视图分量(262)。当第二子位流具有剩余视图分量时,多路分用器38可将所述第二子位流的剩余视图分量添加到HLI列表(264)。
在HLI列表包含呈对应视图次序索引的次序的视图ID之后(例如,在完成步骤260、264之后或262的“否”分支之后),多路分用器38可形成新位流,其包含呈根据HLI列表所确定的次序的子位流。即,对于新位流的存取单元来说(其中所述存取单元包含多个视图分量),所述视图分量在新位流中经排序以使得视图分量中的每一者的视图次序索引大于所有先前视图次序索引且小于所有后续视图次序索引。可接着将此位流转发到(例如)视频解码器48以用于解码视图分量,且最后显示视图分量。
以下实例算法提供用于对子位流排序以遵照MVC标准的一实例过程。在所述实例中,存在对应于当前MVC子位流或嵌入式子位流的hierarchy_layer_index列表(HLIList)值。如上文所述,视图分量可包含多个NAL单元。同样地,在一些实例中,视图分量可包含或继之以用以区分每一视图分量与另一视图分量的定界符NAL单元。
可如下定义用于组合新位流的过程:
1)将相依子位流设定为不具有嵌入式子位流的子位流。
2)以hierarchy_layer_index的递升次序,反复地应用以下操作:
1.组合符合MVC且描述于具有等于HLI的hierarchy_layer_index的层级描述符中的子位流:
2.此过程将以下各者作为输入:
i.明确呈现的增强子位流;
ii.相依子位流。注意,其符合MVC,且因此具有以视图次序索引的递增次序放置于每一存取单元中的视图分量;
iii.增强子位流中的视图次序索引的列表;
iv.相依子位流中的视图次序索引的列表;
3.所述过程将以下各者作为输出
i.新的子位流,其具有经组合的所有视图分量,且因此符合MVC且形成对应于在层级描述符中定义的HLI的完整操作点;
ii.新子位流中的视图次序索引的列表;
4.将在步骤3中产生的新子位流设定为相依子位流;
5.如果HLI为HLIList的列表中的最后一者,则将相依子位流设定为最后的经组合的MVC子位流并终止整个组合过程。
以下算法描述用以基于(如在上文实例算法的步骤2中所需的)相依子位流和增强子位流来组合子位流的实例过程:
1.组合过程的输入为两个列表和两个子位流,其中的每一者已以视图次序索引的递升次序加以排序。两个列表中的每一者含有呈递升次序的视图次序索引,所述两个列表为VOIdxListE和VOIdxListD。两个子位流为相依子位流和增强子位流。新列表为VOIdxListNew,其在开始时为空的。
2.对于每一存取单元来说,应用以下操作:
i.将VOIdxE设定为VOIdxListE的第一值,且将VOIdxD设定为VOIdxListD的第一值;
ii.如果VOIdxE小于VOIdxD,则从增强子位流组合一个视图分量,将VOIdxE设定成VOIdxListE中的下一值,将VOIdxCurr设定成VOIdxE;否则,从相依子位流组合一个视图分量,将VOIdxD设定成VOIdxListD中的下一值,将VOIdxCurr设定成VOIdxD。将VOIdxCurr添加到VOIdxListNew。
·当从子位流组合一个视图分量时,添加NAL单元直到遇到定界符NLA单元为止。
iii.如果VOIdxE未处于VOIdxListE的末端且VOIdxD未处于VOIdxListD的末端,则终止整个过程;否则,转到步骤iv。
iv.否则,如果VOIdxE处于VOIdxListE的末端,则将所有剩余视图分量组合于相依子位流中,将VOIdxListD中的所有剩余值添加到VOIdxListNew中,且将VOIdxD设定成VOIdxListD的末端。
v.否则,如果VOIdxD处于VOIdxListD的末端,则将所有剩余视图分量组合于增强子位流中,将VOIdxListE中的所有剩余值添加到VOIdxListNew中,且将VOIdxE设定成VOIdxListE的末端。
vi.否则,转到步骤ii。
在一个或一个以上实例中,可以硬件、软件、固件或其任何组合来实施所描述的功能。如果以软件实施,则功能可作为一个或一个以上指令或代码存储于计算机可读媒体上或经由计算机可读媒体进行传输。计算机可读媒体可包括计算机数据存储媒体或通信 媒体,通信媒体包括促进将计算机程序从一处传递到另一处的任何媒体。数据存储媒体可为可由一个或一个以上计算机或一个或一个以上处理器存取以检索指令、代码和/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。举例来说且非限制,所述计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以载运或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,适当地将任何连接称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波的无线技术包括于媒体的定义中。如本文中所使用,磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中磁盘通常以磁方式再现数据,而光盘使用激光以光学方式再现数据。上述各者的组合也应包括于计算机可读媒体的范围内。
代码可由例如以下各者的一个或一个以上处理器执行:一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代前述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文所描述的功能性提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或并入于组合的编解码器中。而且,所述技术可完全实施于一个或一个以上电路或逻辑元件中。
可在包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)的广泛多种装置或设备中实施本发明的技术。各种组件、模块或单元描述于本发明中以强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。而是,如上文所描述,各种单元可组合于编解码器硬件单元中或由交互操作的硬件单元的集合(包括如上文所描述的一个或一个以上处理器)结合合适的软件和/或固件来提供。
已描述各种实例。这些和其它实例处于所附权利要求书的范围内。
Claims (28)
1.一种产生多视图视频数据的方法,其包含:
使用源装置建构多视图视频译码MVC扩展描述符,所述MVC扩展描述符包含包括于对应的MPEG-2系统标准位流中的每一视图的个别视图次序索引值,其中所述位流包含场景的与第一视图次序索引相关联的第一视图和所述场景的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引与所述第二视图次序索引是非连续的,其中所述个别视图次序索引值包含第一视图次序索引的第一视图次序索引值和第二视图次序索引的第二视图次序索引值,其中所述第二视图次序索引值在所述MVC扩展描述符中紧接在所述第一视图次序索引值之后出现,且其中所述第二视图次序索引值与所述第一视图次序索引值之间的差大于一;以及
输出所述MVC扩展描述符。
2.根据权利要求1所述的方法,其中所述MVC扩展描述符包含在节目映射表中,且所述位流包含MPEG-2输送流。
3.根据权利要求1所述的方法,其中所述MVC扩展描述符包含在节目流映射中,且所述位流包含MPEG-2节目流。
4.根据权利要求1所述的方法,其中建构所述MVC扩展描述符包括:建构所述MVC扩展描述符,使得以递增次序布置所述视图次序索引值。
5.根据权利要求1所述的方法,其进一步包含建构层级描述符,所述层级描述符包含视图增强旗标字段的值,所述视图增强旗标字段指示相关联的节目元素提高所述位流的一些视图,所述视图增强旗标字段因所述节目元素而产生,且所述节目元素由所述层级描述符的层级嵌入式层索引字段的值参考。
6.根据权利要求5所述的方法,其中建构所述层级描述符包含将所述视图增强旗标字段的所述值设定成值零。
7.根据权利要求5所述的方法,其进一步包含确定所述位流包括MVC的高级视频译码AVC基础视图,其中建构所述层级描述符包含将所述层级描述符中的层级类型字段的值设定成一值,所述值指示所述位流包括包含所有前缀网络抽象层NAL单元的前缀MVC子位流,所述NAL单元包含等于二十的类型值。
8.根据权利要求7所述的方法,其中设定所述层级类型字段的所述值包含将所述层级类型字段的所述值设定成值十四。
9.根据权利要求1所述的方法,其进一步包含:
建构包含所述第一视图的视图分量和所述第二视图的视图分量的存取单元,其中所述第一视图的所述视图分量在所述存取单元中紧接在所述第二视图的所述视图分量之前出现,以使得所述视图分量的所述第一视图次序索引和所述第二视图次序索引在所述存取单元中非连续地出现;以及
输出所述存取单元。
10.一种用于产生多视图视频数据的设备,其包含:
视频编码器,其编码场景的多个视图;
多路复用器,其建构多视图视频译码MVC扩展描述符,所述MVC扩展描述符包含包括于对应的MPEG-2系统标准位流中的每一视图的个别视图次序索引值,其中所述位流包含所述场景的所述多个视图中的与第一视图次序索引相关联的第一视图和所述场景的所述多个视图中的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引与所述第二视图次序索引是非连续的,其中所述个别视图次序索引值包含第一视图次序索引的第一视图次序索引值和第二视图次序索引的第二视图次序索引值,其中所述第二视图次序索引值在所述MVC扩展描述符中紧接在所述第一视图次序索引值之后出现,且其中所述第二视图次序索引值与所述第一视图次序索引值之间的差大于一;以及
输出接口,其输出所述MVC扩展描述符。
11.根据权利要求10所述的设备,其中所述MVC扩展描述符包含在节目映射表中,且所述位流包含MPEG-2输送流。
12.根据权利要求10所述的设备,其中所述MVC扩展描述符包含在节目流映射中,且所述位流包含MPEG-2节目流。
13.根据权利要求10所述的设备,其中所述多路复用器建构所述MVC扩展描述符,使得所述视图次序索引值以递增次序布置。
14.根据权利要求10所述的设备,其中所述多路复用器进一步建构层级描述符,所述层级描述符包含视图增强旗标字段的值,所述视图增强旗标字段指示相关联的节目元素提高所述位流的一些视图,所述视图增强旗标字段因所述节目元素而产生,且所述节目元素由所述层级描述符的层级嵌入式层索引字段的值参考。
15.根据权利要求14所述的设备,其中为了建构所述层级描述符,所述多路复用器将所述视图增强旗标字段的所述值设定成值零。
16.根据权利要求14所述的设备,其中所述多路复用器确定所述位流是否包括MVC的高级视频译码AVC基础视图,且当所述位流包括MVC的所述AVC基础视图时,所述多路复用器将所述层级描述符中的层级类型字段的值设定成一值,所述值指示所述位流包括包含所有前缀网络抽象层NAL单元的前缀MVC子位流,所述NAL单元包含等于二十的类型值。
17.根据权利要求16所述的设备,其中为了设定所述层级类型字段的所述值,所述多路复用器将所述层级类型字段的所述值设定成值十四。
18.根据权利要求10所述的设备,
其中所述多路复用器建构包含所述第一视图的视图分量和所述第二视图的视图分量的存取单元,其中所述第一视图的所述视图分量在所述存取单元中紧接在所述第二视图的所述视图分量之前出现,以使得所述视图分量的所述第一视图次序索引和所述第二视图次序索引在所述存取单元中非连续地出现;且
其中所述输出接口输出所述存取单元。
19.根据权利要求10所述的设备,其中所述设备包含以下各者中的至少一者:
集成电路;
微处理器;以及
无线通信装置,其包括所述视频编码器。
20.一种用于产生多视图视频数据的设备,其包含:
用于使用源装置建构多视图视频译码MVC扩展描述符的装置,所述MVC扩展描述符包含包括于对应的MPEG-2系统标准位流中的每一视图的个别视图次序索引值,其中所述位流包含场景的与第一视图次序索引相关联的第一视图和所述场景的与第二视图次序索引相关联的第二视图,其中所述第一视图次序索引和所述第二视图次序索引为非连续的,其中所述个别视图次序索引值包含第一视图次序索引的第一视图次序索引值和第二视图次序索引的第二视图次序索引值,其中所述第二视图次序索引值在所述MVC扩展描述符中紧接在所述第一视图次序索引值之后出现,且其中所述第二视图次序索引值与所述第一视图次序索引值之间的差大于一;以及
用于输出所述MVC扩展描述符的装置。
21.根据权利要求20所述的设备,其中所述MVC扩展描述符包含在节目映射表中,且所述位流包含MPEG-2输送流。
22.根据权利要求20所述的设备,其中所述MVC扩展描述符包含在节目流映射中,且所述位流包含MPEG-2节目流。
23.根据权利要求20所述的设备,其中所述用于建构所述MVC扩展描述符的装置包含:用于建构所述MVC扩展描述符使得所述视图次序索引值以递增次序布置的装置。
24.根据权利要求20所述的设备,其进一步包含用于建构层级描述符的装置,所述层级描述符包含视图增强旗标字段的值,所述视图增强旗标字段指示相关联的节目元素提高所述位流的一些视图,所述视图增强旗标字段因所述节目元素而产生,且所述节目元素由所述层级描述符的层级嵌入式层索引字段的值参考。
25.根据权利要求24所述的设备,其中所述用于建构所述层级描述符的装置包含用于将所述视图增强旗标字段的所述值设定成值零的装置。
26.根据权利要求24所述的设备,其进一步包含用于确定所述位流包括MVC的高级视频译码AVC基础视图的装置,其中所述用于建构所述层级描述符的装置包含用于将所述层级描述符中的层级类型字段的值设定成一值的装置,所述值指示所述位流包括包含所有前缀网络抽象层NAL单元的前缀MVC子位流,所述NAL单元包含等于二十的类型值。
27.根据权利要求26所述的设备,其中所述用于设定所述层级类型字段的所述值的装置包含用于将所述层级类型字段的所述值设定成值十四的装置。
28.根据权利要求20所述的设备,其进一步包含:
建构包含所述第一视图的视图分量和所述第二视图的视图分量的存取单元,其中所述第一视图的所述视图分量在所述存取单元中紧接在所述第二视图的所述视图分量之前出现,以使得所述视图分量的所述第一视图次序索引和所述第二视图次序索引在所述存取单元中非连续地出现;以及
输出所述存取单元。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18661309P | 2009-06-12 | 2009-06-12 | |
US61/186,613 | 2009-06-12 | ||
US22144909P | 2009-06-29 | 2009-06-29 | |
US61/221,449 | 2009-06-29 | ||
US12/709,186 | 2010-02-19 | ||
US12/709,186 US8411746B2 (en) | 2009-06-12 | 2010-02-19 | Multiview video coding over MPEG-2 systems |
PCT/US2010/038389 WO2010144852A1 (en) | 2009-06-12 | 2010-06-11 | Multiview video coding over mpeg-2 systems |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102461167A CN102461167A (zh) | 2012-05-16 |
CN102461167B true CN102461167B (zh) | 2014-12-31 |
Family
ID=43306429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080024694.2A Active CN102461167B (zh) | 2009-06-12 | 2010-06-11 | Mpeg-2系统上的产生多视图视频数据的方法和设备 |
Country Status (17)
Country | Link |
---|---|
US (1) | US8411746B2 (zh) |
EP (1) | EP2441264A1 (zh) |
JP (1) | JP5378599B2 (zh) |
KR (1) | KR101296527B1 (zh) |
CN (1) | CN102461167B (zh) |
AU (1) | AU2010259914B2 (zh) |
BR (1) | BRPI1013146B1 (zh) |
CA (1) | CA2762337C (zh) |
HK (1) | HK1167766A1 (zh) |
IL (1) | IL216380A (zh) |
MX (1) | MX2011013100A (zh) |
MY (1) | MY153384A (zh) |
RU (1) | RU2509440C2 (zh) |
SG (1) | SG176017A1 (zh) |
TW (1) | TWI437887B (zh) |
WO (1) | WO2010144852A1 (zh) |
ZA (1) | ZA201109330B (zh) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009130561A1 (en) | 2008-04-21 | 2009-10-29 | Nokia Corporation | Method and device for video coding and decoding |
US8780999B2 (en) * | 2009-06-12 | 2014-07-15 | Qualcomm Incorporated | Assembling multiview video coding sub-BITSTREAMS in MPEG-2 systems |
KR101527085B1 (ko) * | 2009-06-30 | 2015-06-10 | 한국전자통신연구원 | 인트라 부호화/복호화 방법 및 장치 |
US20110080948A1 (en) * | 2009-10-05 | 2011-04-07 | Xuemin Chen | Method and system for 3d video decoding using a tier system framework |
US9247286B2 (en) | 2009-12-31 | 2016-01-26 | Broadcom Corporation | Frame formatting supporting mixed two and three dimensional video data communication |
US8854531B2 (en) | 2009-12-31 | 2014-10-07 | Broadcom Corporation | Multiple remote controllers that each simultaneously controls a different visual presentation of a 2D/3D display |
US8823782B2 (en) | 2009-12-31 | 2014-09-02 | Broadcom Corporation | Remote control with integrated position, viewer identification and optical and audio test |
US20110157322A1 (en) | 2009-12-31 | 2011-06-30 | Broadcom Corporation | Controlling a pixel array to support an adaptable light manipulator |
US8855102B2 (en) * | 2010-01-29 | 2014-10-07 | Elster Solutions, Llc | Wireless communications providing interoperability between devices capable of communicating at different data rates |
US20110188452A1 (en) * | 2010-01-29 | 2011-08-04 | Elster Solutions, Llc | Mesh infrastructure utilizing alternative communication paths |
US8724710B2 (en) * | 2010-02-24 | 2014-05-13 | Thomson Licensing | Method and apparatus for video encoding with hypothetical reference decoder compliant bit allocation |
KR20120015931A (ko) * | 2010-08-13 | 2012-02-22 | 삼성전자주식회사 | 휴대용 전자 장치 및 그것의 디스플레이 미러링 방법 |
JP5549476B2 (ja) * | 2010-08-24 | 2014-07-16 | ソニー株式会社 | 画像処理装置と画像処理方法 |
EP2630799A4 (en) * | 2010-10-20 | 2014-07-02 | Nokia Corp | METHOD AND DEVICE FOR VIDEO CODING AND DECODING |
EP2666277A1 (en) * | 2011-01-21 | 2013-11-27 | Qualcomm Incorporated(1/3) | User input back channel for wireless displays |
US10135900B2 (en) * | 2011-01-21 | 2018-11-20 | Qualcomm Incorporated | User input back channel for wireless displays |
US9787725B2 (en) | 2011-01-21 | 2017-10-10 | Qualcomm Incorporated | User input back channel for wireless displays |
US20130003624A1 (en) * | 2011-01-21 | 2013-01-03 | Qualcomm Incorporated | User input back channel for wireless displays |
CN102055983B (zh) * | 2011-01-26 | 2013-01-23 | 北京世纪鼎点软件有限公司 | 基于标准的h.264解码器的mvc-3d立体视频的解码方法 |
CN102158733B (zh) * | 2011-01-28 | 2015-08-19 | 华为技术有限公司 | 辅助视频补充信息承载方法、处理方法、装置与系统 |
KR101748756B1 (ko) * | 2011-03-18 | 2017-06-19 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치 |
US8683027B2 (en) * | 2011-06-08 | 2014-03-25 | International Business Machines Corporation | Utilization of uncertainty dependency relationships between items in a data stream |
US9635355B2 (en) | 2011-07-28 | 2017-04-25 | Qualcomm Incorporated | Multiview video coding |
WO2013023345A1 (en) | 2011-08-12 | 2013-02-21 | Motorola Mobility, Inc. | Method and apparatus for coding and transmitting 3d video sequences in a wireless communication system |
TWI456975B (zh) * | 2011-08-23 | 2014-10-11 | Acer Inc | 立體影像處理裝置與方法 |
US20140344470A1 (en) * | 2011-11-23 | 2014-11-20 | Electronics And Telecommunications Research Institute | Method and apparatus for streaming service for providing scalability and view information |
JP2013126048A (ja) * | 2011-12-13 | 2013-06-24 | Sony Corp | 送信装置、送信方法、受信装置および受信方法 |
JP6000670B2 (ja) * | 2012-06-11 | 2016-10-05 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
US8707370B2 (en) * | 2012-07-13 | 2014-04-22 | International Datacasting Corporation | Digital satellite broadcast program distribution over multicast IP broadband networks |
US9432664B2 (en) * | 2012-09-28 | 2016-08-30 | Qualcomm Incorporated | Signaling layer identifiers for operation points in video coding |
CN110996100B (zh) * | 2012-10-01 | 2022-11-25 | Ge视频压缩有限责任公司 | 解码器、解码方法、编码器和编码方法 |
US9781413B2 (en) | 2012-10-02 | 2017-10-03 | Qualcomm Incorporated | Signaling of layer identifiers for operation points |
EP2904773A4 (en) * | 2012-10-03 | 2016-12-07 | Hfi Innovation Inc | METHOD AND APPARATUS FOR DIMINISHING BUFFER DATA RECORDING FOR THREE-DIMENSIONAL VIDEO ENCODING PURPOSES |
US9596486B2 (en) * | 2013-04-05 | 2017-03-14 | Qualcomm Incorporated | IRAP access units and bitstream switching and splicing |
US10003815B2 (en) | 2013-06-03 | 2018-06-19 | Qualcomm Incorporated | Hypothetical reference decoder model and conformance for cross-layer random access skipped pictures |
JP2016523483A (ja) * | 2013-06-18 | 2016-08-08 | ヴィド スケール インコーポレイテッド | Hevc拡張のためのレイヤ間パラメータセット |
US10284858B2 (en) * | 2013-10-15 | 2019-05-07 | Qualcomm Incorporated | Support of multi-mode extraction for multi-layer video codecs |
US10205954B2 (en) * | 2013-10-23 | 2019-02-12 | Qualcomm Incorporated | Carriage of video coding standard extension bitstream data using MPEG-2 systems |
GB2524726B (en) * | 2014-03-25 | 2018-05-23 | Canon Kk | Image data encapsulation with tile support |
RU2571522C2 (ru) * | 2014-04-22 | 2015-12-20 | Закрытое акционерное общество "Электронно-вычислительные информационные и инструментальные системы" (ЗАО "ЭЛВИИС") | Устройство и способ приведения к единому формату различных цифровых видеосигналов |
US10306269B2 (en) * | 2014-10-10 | 2019-05-28 | Qualcomm Incorporated | Operation point for carriage of layered HEVC bitstream |
US9930378B2 (en) * | 2015-02-11 | 2018-03-27 | Qualcomm Incorporated | Signaling of operation points for carriage of HEVC extensions |
US9628839B1 (en) * | 2015-10-06 | 2017-04-18 | Arris Enterprises, Inc. | Gateway multi-view video stream processing for second-screen content overlay |
WO2017206803A1 (en) * | 2016-05-28 | 2017-12-07 | Mediatek Inc. | Method and apparatus of current picture referencing for video coding |
US10136194B2 (en) * | 2016-07-06 | 2018-11-20 | Cisco Technology, Inc. | Streaming piracy detection method and system |
KR102087414B1 (ko) | 2017-04-11 | 2020-03-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 계층화된 증강 엔터테인먼트 경험 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5619256A (en) * | 1995-05-26 | 1997-04-08 | Lucent Technologies Inc. | Digital 3D/stereoscopic video compression technique utilizing disparity and motion compensated predictions |
KR100397511B1 (ko) * | 2001-11-21 | 2003-09-13 | 한국전자통신연구원 | 양안식/다시점 3차원 동영상 처리 시스템 및 그 방법 |
FI114527B (fi) * | 2002-01-23 | 2004-10-29 | Nokia Corp | Kuvakehysten ryhmittely videokoodauksessa |
TWI260591B (en) * | 2002-10-14 | 2006-08-21 | Samsung Electronics Co Ltd | Information storage medium with structure for multi-angle data, and recording and reproducing apparatus therefor |
US8111663B2 (en) | 2004-07-20 | 2012-02-07 | Qualcomm Incorporated | Methods and systems for variable rate broadcast with soft handoff |
CN102263962A (zh) * | 2004-12-10 | 2011-11-30 | 韩国电子通信研究院 | 对多视图视频进行统一编码的装置 |
KR100779875B1 (ko) | 2005-01-14 | 2007-11-27 | 주식회사 휴맥스 | 다-시점 코딩을 위한 참조 프레임 순서 설정 방법 및 그방법을 기록한 기록매체 |
US7903737B2 (en) * | 2005-11-30 | 2011-03-08 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for randomly accessing multiview videos with known prediction dependency |
KR100943912B1 (ko) | 2006-01-12 | 2010-03-03 | 엘지전자 주식회사 | 다시점 비디오의 처리 방법 및 장치 |
KR100754205B1 (ko) * | 2006-02-07 | 2007-09-03 | 삼성전자주식회사 | 다시점 동영상 부호화 장치 및 방법 |
KR101353193B1 (ko) | 2006-03-29 | 2014-01-21 | 톰슨 라이센싱 | 멀티-뷰 비디오 코딩 시스템에서 사용하기 위한 방법 및 장치 |
KR100959536B1 (ko) | 2006-03-30 | 2010-05-27 | 엘지전자 주식회사 | 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치 |
US20090304068A1 (en) | 2006-07-06 | 2009-12-10 | Purvin Bibhas Pandit | Method and Apparatus for Decoupling Frame Number and/or Picture Order Count (POC) for Multi-View Video Encoding and Decoding |
EP2044777A2 (en) * | 2006-07-20 | 2009-04-08 | Thomson Licensing | Method and apparatus for signaling view scalability in multi-view video coding |
JP5184539B2 (ja) | 2006-10-13 | 2013-04-17 | トムソン ライセンシング | 多視点ビデオ符号化のための参照ピクチャ・リスト管理方法 |
CA3006093C (en) | 2006-10-16 | 2022-07-19 | Nokia Technologies Oy | System and method for implementing efficient decoded buffer management in multi-view video coding |
EP2418851A3 (en) | 2006-12-21 | 2012-05-23 | Thomson Licensing | Methods and apparatus for improved signaling using high level syntax for multi-view video coding and decoding |
US20100118933A1 (en) * | 2007-04-04 | 2010-05-13 | Thomson Licensing | Reference picture list management |
KR101301181B1 (ko) | 2007-04-11 | 2013-08-29 | 삼성전자주식회사 | 다시점 영상의 부호화, 복호화 방법 및 장치 |
US8548261B2 (en) | 2007-04-11 | 2013-10-01 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding multi-view image |
JP2009004942A (ja) | 2007-06-20 | 2009-01-08 | Victor Co Of Japan Ltd | 多視点画像送信方法、多視点画像送信装置及び多視点画像送信用プログラム |
JP2009004939A (ja) | 2007-06-20 | 2009-01-08 | Victor Co Of Japan Ltd | 多視点画像復号方法、多視点画像復号装置及び多視点画像復号プログラム |
US20080317124A1 (en) | 2007-06-25 | 2008-12-25 | Sukhee Cho | Multi-view video coding system, decoding system, bitstream extraction system for decoding base view and supporting view random access |
JP2011501497A (ja) * | 2007-10-15 | 2011-01-06 | ノキア コーポレイション | マルチビュー映像コンテンツのための動きスキップおよびシングルループ符号化 |
US8780999B2 (en) | 2009-06-12 | 2014-07-15 | Qualcomm Incorporated | Assembling multiview video coding sub-BITSTREAMS in MPEG-2 systems |
-
2010
- 2010-02-19 US US12/709,186 patent/US8411746B2/en active Active
- 2010-06-11 JP JP2012515195A patent/JP5378599B2/ja active Active
- 2010-06-11 RU RU2012100753/07A patent/RU2509440C2/ru not_active IP Right Cessation
- 2010-06-11 WO PCT/US2010/038389 patent/WO2010144852A1/en active Application Filing
- 2010-06-11 MY MYPI2011005497A patent/MY153384A/en unknown
- 2010-06-11 CN CN201080024694.2A patent/CN102461167B/zh active Active
- 2010-06-11 EP EP10726396A patent/EP2441264A1/en not_active Ceased
- 2010-06-11 TW TW099119230A patent/TWI437887B/zh active
- 2010-06-11 CA CA2762337A patent/CA2762337C/en not_active Expired - Fee Related
- 2010-06-11 KR KR1020127000865A patent/KR101296527B1/ko active IP Right Grant
- 2010-06-11 BR BRPI1013146-9A patent/BRPI1013146B1/pt active IP Right Grant
- 2010-06-11 SG SG2011083177A patent/SG176017A1/en unknown
- 2010-06-11 AU AU2010259914A patent/AU2010259914B2/en not_active Ceased
- 2010-06-11 MX MX2011013100A patent/MX2011013100A/es active IP Right Grant
-
2011
- 2011-11-15 IL IL216380A patent/IL216380A/en active IP Right Grant
- 2011-12-19 ZA ZA2011/09330A patent/ZA201109330B/en unknown
-
2012
- 2012-08-24 HK HK12108310.2A patent/HK1167766A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CA2762337A1 (en) | 2010-12-16 |
ZA201109330B (en) | 2013-02-27 |
KR101296527B1 (ko) | 2013-08-13 |
CN102461167A (zh) | 2012-05-16 |
MY153384A (en) | 2015-01-29 |
SG176017A1 (en) | 2011-12-29 |
KR20120068810A (ko) | 2012-06-27 |
TWI437887B (zh) | 2014-05-11 |
BRPI1013146B1 (pt) | 2021-09-28 |
HK1167766A1 (zh) | 2012-12-07 |
RU2509440C2 (ru) | 2014-03-10 |
US8411746B2 (en) | 2013-04-02 |
CA2762337C (en) | 2015-05-26 |
BRPI1013146A2 (pt) | 2016-04-05 |
JP5378599B2 (ja) | 2013-12-25 |
TW201127062A (en) | 2011-08-01 |
AU2010259914A1 (en) | 2011-12-22 |
MX2011013100A (es) | 2012-01-27 |
IL216380A0 (en) | 2012-01-31 |
JP2013502089A (ja) | 2013-01-17 |
WO2010144852A1 (en) | 2010-12-16 |
AU2010259914B2 (en) | 2014-04-10 |
RU2012100753A (ru) | 2013-07-20 |
IL216380A (en) | 2015-09-24 |
US20100316122A1 (en) | 2010-12-16 |
EP2441264A1 (en) | 2012-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102461167B (zh) | Mpeg-2系统上的产生多视图视频数据的方法和设备 | |
CN102474655B (zh) | 用信号传递多视角视频译码操作点的特性 | |
CN102804773B (zh) | 在mpeg‑2系统中组合多视角视频译码子位流 | |
CN103053159B (zh) | 用信号传递网络串流传输视频数据的属性 | |
CN102714715B (zh) | 用于文件格式轨迹选择的媒体提取器轨迹 | |
CN103026721B (zh) | 布置用于串流传输视频数据的子轨道片段 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1167766 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1167766 Country of ref document: HK |