CN103081464B - 用信号传递网络串流传输视频数据的属性 - Google Patents

用信号传递网络串流传输视频数据的属性 Download PDF

Info

Publication number
CN103081464B
CN103081464B CN201180038545.6A CN201180038545A CN103081464B CN 103081464 B CN103081464 B CN 103081464B CN 201180038545 A CN201180038545 A CN 201180038545A CN 103081464 B CN103081464 B CN 103081464B
Authority
CN
China
Prior art keywords
view
expression
video
identifier
maximum number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180038545.6A
Other languages
English (en)
Other versions
CN103081464A (zh
Inventor
陈盈
陈培松
马尔塔·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103081464A publication Critical patent/CN103081464A/zh
Application granted granted Critical
Publication of CN103081464B publication Critical patent/CN103081464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6125Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6581Reference data, e.g. a movie identifier for ordering a movie or a product identifier in a home shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

在一个实例中,一种用信号传递视频数据的信息的设备包含处理器,所述处理器经配置以:接收场景的两个或两个以上视图的视频数据;形成包括所述两个或两个以上视图的子集的表示;以及作为所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置。一种用于接收视频数据的信息的设备可接收包含指示视图的最大数目的信息的清单,且至少部分基于可由所述设备输出的视图的最大数目和指示表示中可供输出的视图的最大数目的信息来请求所述表示的视频数据的至少一部分。

Description

用信号传递网络串流传输视频数据的属性
技术领域
本发明涉及经编码视频数据的存储和传输。
背景技术
数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、数码摄像机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置等等。数字视频装置实施视频压缩技术,例如由MPEG-2、MPEG-4、ITU-TH.263或ITU-TH.264/MPEG-4第10部分高级视频译码(AVC)界定的标准和所述标准的扩展部分中所描述的那些视频压缩技术,以更有效地发射和接收数字视频信息。
视频压缩技术执行空间预测和/或时间预测以减少或去除视频序列中固有的冗余。对于基于块的视频译码,可将视频帧或切片分割成若干宏块。可进一步分割每一宏块。使用相对于相邻宏块的空间预测编码经帧内译码的(I)帧或切片中的宏块。经帧间译码的(P或B)帧或切片中的宏块可使用关于同一帧或切片中的相邻宏块的空间预测或关于其它参考帧的时间预测。
在已对视频数据进行编码之后,可对视频数据进行包化以供传输或存储。所述视频数据可汇编成符合多种标准中的任一标准的视频文件,所述标准例如国际标准化组织(ISO)基本媒体文件格式以及其扩展,例如AVC。
已经努力开发基于H.264/AVC的新视频译码标准。一个此种标准是可缩放视频译码(SVC)标准,其为H.264/AVC的可所缩放扩展。另一标准是多视图视频译码(MVC),其已变成H.264/AVC的多视图扩展。MVC的联合草案描述于德国汉诺威第28届JVT会议上提出的JVT-AB204,“多视图视频译码的联合草案8.0(Joint Draft8.0on Multiview VideoCoding)”中,其可在http://wftp3.itu.int/av-arch/jvt-site/2008_07_Hannover/JVT-AB204.zip获得。AVC标准的版本描述于瑞士日内瓦第30届JVT会议上提出的JVT-AD007,“对ITU-T Rec.H.264|ISO/IEC14496-10高级视频译码的编辑草案修订-为ITU-T SG16AAP同意(综合形式)做准备(Editors'draft revision to ITU-T Rec.H.264|ISO/IEC14496-10Advanced Video Coding-in preparation for ITU-T SG16AAP Consent(inintegrated form))”,其可在http://wftp3.itu.int/av-arch/jvt-site/2009_01_Geneva/JVT-AD007.zip获得。此文档整合了AVC规范中的SVC以及MVC。
发明内容
大体来说,本发明描述用于视频数据的存储和传输的技术。本发明提供用于用信号传递符合例如多视图视频译码(MVC)等3D视频表示标准的经译码视频数据的属性且例如根据超文本传输协议(HTTP)串流来通过网络串流传输所述经译码视频数据的技术。所述属性可包含为视频服务的清单的部分,其可在客户端开始播放任何特定视频表示之前传输,使得所述客户端可通过选择具有不同属性的3D视频表示来使用所述属性调整3D感知,例如视图角度/位置。所述属性可描述经译码视频数据的多个视图的摄像机视角的位置。举例来说,可根据所述摄像机视角的位置来指派视图标识符。所述属性还可描述表示中可供输出的视图的最大数目,且在一些实例中,描述指派给一个或一个以上表示的一个或一个以上操作点的视图的最大数目。
在一个实例中,用信号传递视频数据的信息的方法包含:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置;指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到客户端装置。
在另一实例中,一种用于用信号传递视频数据的信息的设备包含处理器,所述处理器经配置以:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置;指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到客户端装置。
在另一实例中,一种用信号传递视频数据的信息的设备包含:用于对于多媒体内容,接收场景的两个或两个以上视图的视频数据的装置;用于确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置的装置;用于指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置的装置;用于形成所述多媒体内容的表示的装置,所述表示包括所述两个或两个以上视图的子集;以及用于作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到客户端装置的装置。
在另一实例中,一种计算机程序产品包含计算机可读存储媒体,所述计算机可读存储媒体包括指令,所述指令在被执行时使得用于用信号传递视频数据的信息的源装置的处理器进行以下操作:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置;指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到客户端装置。
在另一实例中,一种接收视频数据的信息的方法包含:接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分。
在另一实例中,一种用于接收视频数据的信息的设备包含处理器,所述处理器经配置以:接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分。
在另一实例中,一种用于接收视频数据的信息的设备包含:用于接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息的装置,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;用于基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置的装置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及用于至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分的装置。
在另一实例中,一种计算机程序产品包含计算机可读存储媒体,所述计算机可读存储媒体包括指令,所述指令使得用于接收视频数据的信息的目的地装置的处理器进行以下操作:接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分。
在另一实例中,一种用信号传递视频数据的信息的方法包含:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置。
在另一实例中,一种用于用信号传递视频数据的信息的设备包含处理器,所述处理器经配置以:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置。
在另一实例中,一种用信号传递视频数据的信息的设备包含:用于对于多媒体内容,接收场景的两个或两个以上视图的视频数据的装置;用于形成所述多媒体内容的表示的装置,所述表示包括所述两个或两个以上视图的子集;以及用于作为所述多媒体内容的所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置的装置。
在另一实例中,一种计算机程序产品包含计算机可读存储媒体,所述计算机可读存储媒体上存储有指令,所述指令在被执行时使得用于用信号传递视频数据的信息的装置的处理器进行以下操作:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置。
在另一实例中,一种接收视频数据的信息的方法包含:接收指示表示中可供输出的视图的最大数目的信息,其中所述表示包括用于场景的两个或两个以上视图的视频数据;确定可由目的地装置输出的视图的最大数目;以及至少部分基于可由所述目的地装置输出的视图的所述所确定的最大数目以及指示所述表示中可供输出的视图的所述最大数目的所述信息而请求所述表示的所述视频数据的至少一部分。
在另一实例中,一种用于接收视频数据的信息的目的地设备包含处理器,所述处理器经配置以:接收指示表示中可供输出的视图的最大数目的信息,其中所述表示包括用于场景的两个或两个以上视图的视频数据;确定可由所述目的地设备输出的视图的最大数目;以及至少部分基于可由所述目的地设备输出的视图的所述所确定的最大数目以及指示所述表示中可供输出的视图的所述最大数目的所述信息而请求所述表示的所述视频数据的至少一部分。
在另一实例中,一种用于接收视频数据的信息的目的地设备包含:用于接收指示表示中可供输出的视图的最大数目的信息的装置,其中所述表示包括用于场景的两个或两个以上视图的视频数据;用于确定可由所述目的地设备输出的视图的最大数目的装置;以及用于至少部分基于可由所述目的地设备输出的视图的所述所确定的最大数目以及指示所述表示中可供输出的视图的所述最大数目的所述信息而请求所述表示的所述视频数据的至少一部分的装置。
在另一实例中,一种计算机程序产品包含计算机可读存储媒体,所述计算机可读存储媒体上存储有指令,所述指令在被执行时使得用于接收视频数据的信息的目的地装置进行以下操作:接收指示表示中可供输出的视图的最大数目的信息,其中所述表示包括用于场景的两个或两个以上视图的视频数据;确定可由目的地装置输出的视图的最大数目;以及至少部分基于可由所述目的地装置输出的视图的所述所确定的最大数目以及指示所述表示中可供输出的视图的所述最大数目的所述信息而请求所述表示的所述视频数据的至少一部分。
以此方式,本发明的技术可用以确定为表示中的每一者提供的三维深度的相对量。一般来说,如果所有表示均为同一MVC位流中的位流子集,那么具有较大视图标识符范围(也就是说,最大与最小视图标识符之间的差异)的三维视频表示比具有较小范围的表示可通常产生更身临其境的三维视频感知。用信号传递的信息可进一步包含指示视图的相对几何形状(例如,不断增大的视图标识符是否指示视图的摄像机视角的水平上不断增大的位置)的信息,和/或表示的供输出的视图的最大数目。
附图说明
图1是说明其中音频/视频(A/V)源装置将音频和视频数据传送到A/V目的地装置的实例系统的框图。
图2是说明实例封装单元的组件的框图。
图3是说明用于从各种位置捕获场景的视图的图像数据的摄像机的阵列的概念图。
图4是提供多媒体内容的各种表示的属性的媒体呈现描述(MPD)的概念图。
图5是说明实例MVC预测模式的概念图。
图6是说明由源装置用信号传递视频数据的信息且由目的地装置接收所述信息的实例方法的流程图。
图7是说明用于将视图标识符指派给多媒体内容的视图且呈现作为操作点的表示的数个目标输出视图的实例方法的流程图。
图8是说明接收视频数据的信息的方法的实例的流程图,所述信息包含多媒体内容的视图的视图标识符以及作为操作点的表示的目标输出视图的数目。
具体实施方式
大体来说,本发明描述用于视频数据的存储和传输的技术。更明确地说,本发明提供用于用信号传递符合多视图视频译码(MVC)的经译码视频数据的属性且例如根据超文本传输协议(HTTP)串流来通过网络串流传输所述经译码视频数据的技术。在一些实例中,串流传输网络数据可符合HTTP动态自适应性串流(DASH)。且在一些实例中,所述属性可描述表示中可供输出的视图的最大数目。
根据本发明的技术,多媒体内容的视图的视图标识符可对应于经译码视频数据的视图的摄像机视角的水平位置。举例来说,可根据所述摄像机视角的水平位置来指派视图标识符(view_id)。在一些实例中,可根据视图标识符的函数(例如,单调递增或递减函数)来确定摄像机视角的水平位置。以此方式,可基于第一和第二视图的视图标识符来确定第一视图的摄像机视角水平偏向单独视图的摄像机视角的左方或水平偏向单独视图的摄像机视角的右方。此外,所述视图中的每一者的摄像机视角的水平位置可基于视图的视图标识符而有序地布置(例如,由目的地装置)。
在一些实例中,所述属性可包含表示的所有视图的最小和/或最大视图标识符。以此方式,所述属性可用信号传递多媒体内容的表示的视图标识符的范围。因为视图标识符可对应于视图的摄像机视角的水平位置,所以目的地装置可确定每一表示的相对深度量。所述属性可进一步提供如何指派视图标识符的指示,例如,较大视图标识符对应于摄像机视角的水平位置偏向于具有较小摄像机视角的视图的摄像机视角的水平位置的左方或右方的视图。一般来说,最大与最小视图标识符之间的较高范围可对应于表示的三维视频数据的较大深度范围。在一些实例中,所述属性可包含表示的目标输出视图的最大数目。在一些实例中,目标输出视图的最大数目可呈现为操作点。如果目标输出视图的最大数目等于一,那么对于视图标识符范围,只有一个视图标识符可用信号传递。
目的地装置可经配置以基于表示的相对深度量来选择表示。举例来说,如果目的地装置耦合到相对较大的显示器(例如,具有三维能力的电视),那么目的地装置可选择具有较大深度范围的表示,而如果目的地装置耦合到相对较小的显示器(例如,移动装置,例如蜂窝式电话、平板计算机或膝上型计算机),那么目的地装置可选择具有较小深度范围的表示。目的地装置还可根据可显示的视图的数目而变化,且因此,目的地装置可使用如于所述属性中用信号传递的供输出的视图的数目而基于表示的供输出的视图的数目来选择表示。
使用例如在MPD数据结构中描述表示的信息,客户端装置可选择表示中的一者来检索。举例来说,源装置可提供多个不同表示以适应具有多种解码和渲染能力的客户端装置。相同原始输入视频数据可以多种不同方式进行编码,例如,用不同视图数目、不同所选视图、不同位率、不同帧率、不同分辨率、不同编码标准或表示之间的其它差异。源装置可接着在可由客户端装置检索的数据结构(例如媒体呈现描述符(MPD))中描述每一表示的属性。客户端装置可接着检索MPD以选择表示。
举例来说,客户端装置可经配置以基于所需深度量(例如,当指派视图标识符而使得它们表示视图的摄像机视角的相对位置时,对应于最大视图标识符与最小视图标识符之间的差异)来选择表示(或其操作点)。作为另一实例,客户端装置可经配置以基于可供输出的视图的最大数目以及可由客户端装置显示的视图的最大数目来选择表示(或其操作点),以此方式,客户端装置可尝试完全利用其显示能力,同时还尝试最小化或消除对多于可使用的视频数据的任何解码(也就是显示)。
本发明的技术可应用于符合根据以下格式中的任一者而封装的视频数据的视频文件:ISO基本媒体文件格式、可缩放视频译码(SVC)文件格式、高级视频译码(AVC)文件格式、第三代合作伙伴计划(3GPP)文件格式,和/或多视图视频译码(MVC)文件格式,或其它类似视频文件格式。
在一些实例中,可将多个视图编码为多媒体内容的单独表示。每一表示可编码为相应的位流。为了渲染此些实例中的三维视频,客户端装置可检索多媒体内容的两个或两个以上表示。在此些实例中,源装置可将虚拟视图标识符指派给所述表示,使得虚拟视图标识符对应于所述表示的视图的摄像机视角的相对位置。因此,甚至在通过根据MPEG-2(运动图片专家组)、MPEG-4、ITU-T H.264/AVC、高效率视频译码(HEVC)或其它视频译码标准来对单视图位流进行译码来支持三维视频的情况下仍可适用本发明的技术。
ISO基本媒体文件格式经设计以含有定时媒体信息,以供以有助于媒体的交换、管理、编辑和呈现的灵活、可扩展的格式来呈现。ISO基本媒体文件格式(ISO/IEC14496-12:2004)指定于MPEG-4第12部分(其定义了时基媒体文件的一般结构)中,其用作家族中其它文件格式的基础,所述其它文件格式例如经定义而支持H.264/MPEG-4AVC视频压缩的AVC文件格式(ISO/IEC14496-15)、3GPP文件格式、SVC文件格式以及MVC文件格式。3GPP文件格式和MVC文件格式是AVC文件格式的扩展。ISO基本媒体文件格式含有例如音频视觉表示等媒体数据的时控序列的时序、结构以及媒体信息。所述文件结构可为面向对象的。文件可以非常简单地分解成基本对象,且对象的结构由其类型来暗示。
当通过串流传输协议来递送媒体时,媒体可能需要从其表示于文件中的方式进行变换。此情况的一个实例是当通过实时传输协议(RTP)来传输媒体时。在文件中,例如,在RTP中,视频的每一帧作为文件格式样本连续地存储,必须遵守专门针对所使用的编解码器的包化规则来将这些帧放在RTP包中。串流传输服务器可经配置以在运行时计算此包化。然而,存在对串流传输服务器的辅助的支持。
本发明的技术可应用于网络串流传输协议,例如HTTP串流,例如根据HTTP动态自适应性串流(DASH)。举例来说,MPEG标准支持基于3GPP HTTP串流的HTTP串流。在HTTP串流中,频繁使用的操作包含GET以及partial GET。GET操作检索与给定统一资源定位符(URL)或统一资源名称(URN)相关联的整个文件。partial GET操作接收字节范围作为输入参数,且检索对应于所接收的字节范围的文件的数个连续字节。因此,可提供电影片段用于进行HTTP串流,因为partial GET操作可获得一个或一个以上个别电影片段。注意,在电影片段中,可存在不同曲目的若干曲目片段。在HTTP串流中,媒体呈现可为可供客户端存取的数据的结构化集合。客户端可请求并下载媒体数据信息以将串流传输服务呈现给用户。
在使用HTTP串流来串流传输3GPP数据的实例中,可能存在多媒体内容的视频和/或音频数据的多个表示。此些表示的清单可界定于媒体呈现描述(MPD)数据结构中。媒体呈现可对应于可供HTTP串流客户端装置存取的数据的结构化集合。HTTP串流客户端装置可请求并下载媒体数据信息以将串流传输服务呈现给客户端装置的用户。媒体呈现可描述于可包含MPD的更新的MPD数据结构中。
媒体呈现可含有一序列一个或以上周期。周期可由MPD中的周期(Period)元素定义。每一周期在MPD中可具有属性开始(start)。MPD对于每一周期可包含start属性以及availableStartTime属性。对于实况转播服务,周期的start属性与MPD属性availableStartTime的总和可指定周期在UTC格式中的可用时间,明确地说,对应周期中每一表示的第一媒体段的可用时间。对于按需服务,第一周期的start属性可为0。对于任何其它周期,start属性可指定对应周期的开始时间相对于第一周期的开始时间之间的时间偏移。每一周期可延续到下一周期为止,或在为最后一个周期的情况下延续到媒体呈现结束为止。周期开始时间可为精确的。它们可反映从播放所有先前周期的媒体所引起的实际时序。
每一周期可含有相同媒体内容的一个或一个以上表示。表示可为音频或视频数据的数个替代经编码版本中的一者。诸个表示可因编码类型而不同,例如位率、分辨率,和/或视频数据的编解码器和位率、语言和/或音频数据的编解码器。术语表示可用以指代对应于多媒体内容的特定周期且以特定方式编码的一段经编码音频或视频数据。
特定周期的表示可指派给由MPD中的群组(group)属性指示的群组。同一群组中的表示大体被认为是彼此的替代。举例来说,特定周期的视频数据的每一表示可指派给同一群组,使得所述表示中的每一者可经选择以解码,以便显示对应周期的多媒体内容的视频数据。一个周期内的媒体内容可由来自群组0(如果存在的话)的一个表示来表示,或在一些实例中,由来自每一非零群组的最多一个表示的组合来表示。可相对于周期的开始时间来表达所述周期的每一表示的时序数据。
表示可包含一个或一个以上段。每一表示可包含初始化段,或表示的每一段可为自初始化的。存在时,初始化段可含有用于存取所述表示的初始化信息。一般来说,初始化段并不含有媒体数据。段可由标识符唯一地参考,所述标识符例如统一资源定位符(URL)、统一资源名称(URL)或统一资源标识符(URI)。MPD可为每一段提供标识符。在一些实例中,MPD还可提供呈范围(range)属性格式的字节范围,其可对应于可通过URL、URN或URI存取的文件内的一段的数据。
每一表示还可包含一个或一个以上媒体组件,其中每一媒体组件可对应于一个个别媒体类型的经编码版本,所述媒体类型例如音频、视频或时控文本(例如,用于加隐藏式字幕)。媒体组件跨一个表示内的连续媒体段的边界可为时间连续的。
在一些实例中,表示的一个或一个以上属性可提供于所述表示的清单中。在将包括经译码视频样本的视频数据从服务器装置发送到目的地装置之前,可将所述清单(或清单文件)从服务器装置发送到目的地装置。目的地装置可使用所述清单来选择表示,并从所述表示检索经译码样本。举例来说,所述清单可包含指示表示的最大视图标识符、表示的最小视图标识符的信息、视图标识符与视图的摄像机视角的水平位置之间的关系的指示和/或表示中供输出的视图的最大数目的指示。在用于本发明中时,MPD是例如在HTTP串流传输的文本中的清单的一个实例。
作为若干实例,所述清单可对应于闪存媒体清单文件(FMF)可扩展标示语言(XML)格式的文件、M3U播放列表文件、服务器清单文件,例如同步化多媒体整合语言(SMIL),但在其它实例中,可使用类似数据结构。尽管为实例的目的而大体上关于使用MPD来用信号传递表示(或多媒体内容的多个表示)的属性来描述本发明的技术,但所述技术可大体应用于清单的其它实例,例如等效或类似的数据结构或元素。
图1是说明其中音频/视频(A/V)源装置20将音频和视频数据传输到A/V目的地装置40的实例系统10的框图。图1的系统10可对应于视频电话会议系统、服务器/客户端系统、广播器/接收器系统或将视频数据从例如A/V源装置20等源装置发送到例如A/V目的地装置40等目的地装置的任何其它系统。在一些实例中,A/V源装置20和A/V目的地装置40可执行双向信息交换。也就是说,A/V源装置20和A/V目的地装置40可能够对音频和视频数据进行编码和解码(以及发射和接收)。在一些实例中,音频编码器26可包括语音编码器,也称声码器。
在图1的实例中,A/V源装置20包括音频源22和视频源24。音频源22可包括(例如)麦克风,其产生表示待由音频编码器26编码的所捕获音频数据的电信号。或者,音频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化合成器等音频数据生成器,或任何其它音频数据源。视频源24可包括产生待由视频编码器28编码的视频数据的视频摄像机、编码有先前记录的视频数据的存储媒体、视频数据生成单元或任何其它视频数据源。
原始音频和视频数据可包括模拟或数字数据。可在由音频编码器26和/或视频编码器28编码之前使模拟数据数字化。音频源22可在谈话参与者正谈话的同时从所述谈话参与者获得音频数据,且视频源24可同时获得所述谈话参与者的视频数据。在其它实例中,音频源22可包括包括所存储的音频数据的计算机可读存储媒体,且视频源24可包括包括所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用于实况转播的串流传输的实时音频和视频数据或经存档的预先记录的音频和视频数据。
视频源24可提供场景的多个同时视图。举例来说,视频源24可对应于摄像机阵列,例如各自分开一定距离量的两个或两个以上摄像机,使得阵列中的摄像机中的每一者指向大致共同的焦点。以此方式,摄像机中的每一者可提供场景的稍有不同的视角。封装单元30可接收指示阵列中摄像机的相对位置的信息,且将视图标识符指派给由所述摄像机捕获的视图,使得所述视图标识符对应于摄像机的位置和摄像机视角。举例来说,封装单元30可根据摄像机视角的位置的单调递增函数或单调递减函数来指派视图标识符。
视频源24还可使用其它技术提供多个同时视图。举例来说,视频源24可提供场景中对象的一个视图以及深度信息。可使用所述深度信息从第二虚拟摄像机视角生成第二视图。视频源24可包含处理器来生成第二视图,或视频编码器28的预处理单元可生成所述第二视图。在一些实例中,视频源24可包括使用两个或两个以上摄像机视角生成计算机图形的计算机。
对应于视频帧的音频帧通常为含有已由音频源22在由视频源24捕获含于视频帧内的视频数据的同时捕获的音频数据的音频帧。举例来说,在谈话参与者大体通过谈话产生音频数据的同时,音频源22撷取音频数据,且视频源24同时,也就是在音频源22正捕获音频数据的同时捕获谈话参与者的视频数据。因此,音频帧可在时间上对应于一个或一个以上特定视频帧。相应地,对应于视频帧的音频帧大体对应于音频数据与视频数据同时被捕获且音频帧与视频帧分别包括同时捕获的音频数据与视频数据的情形。
在一些实例中,音频编码器26可在每一经编码音频帧中编码时间戳,所述时间戳表示记录经编码音频帧的音频数据的时间,且类似地,视频编码器28可在每一经编码视频帧中编码时间戳,所述时间戳表示记录经编码视频帧的视频数据的时间。在此些实例中,对应于视频帧的音频帧可包括包括时间戳的音频帧以及包括相同时间戳的视频帧。A/V源装置20可包含内部时钟,音频编码器26和/或视频编码器28可借由所述内部时钟生成时间戳,或音频源22及视频源24可使用所述内部时钟来使音频与视频数据分别与时间戳相关联。
在一些实例中,音频源22可将对应于记录音频数据的时间的数据发送到音频编码器26,且视频源24可将对应于记录视频数据的时间的数据发送到视频编码器28。在一些实例中,音频编码器26可在经编码音频数据中编码序列标识符以指示经编码音频数据的相对时间排序而不必指示记录音频数据的绝对时间,且类似地,视频编码器28也可使用序列标识符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列标识符可映射或以其它方式与时间戳相关。
本发明的技术大体是针对经编码多媒体(例如,音频和视频)数据的存储和传输,以及所传输的多媒体数据的接收以及随后的解释和解码。如图1的实例中所展示,视频源24可将场景的多个视图提供到视频编码器28。如上所讨论,视频源24还可提供指示视图的摄像机视角的位置的信息。视频源24可将此信息提供到视频编码器28,或可将所述信息直接提供到封装单元30。
封装单元30可使用指示视图的摄像机视角的相对位置的信息来将视图标识符指派给多媒体内容的视图。封装单元30可形成多媒体内容的一个或一个以上表示,其中所述表示中的每一者可包含一个或一个以上视图。在一些实例中,视频编码器28可以不同方式编码每一视图,例如用不同帧率、不同位率、不同分辨率或其它此种差异。因此,封装单元30可形成具有各种特性(例如位率、帧率、分辨率等)的各种表示。所述表示中的每一者可对应于可由目的地装置40检索的相应位流。封装单元30可例如在多媒体内容的媒体呈现描述(MPD)数据结构内提供包含于每一表示中的视图的视图标识符(view_id)范围的指示。举例来说,封装单元30可提供表示的视图的最大视图标识符和最小视图标识符的指示。MPD可进一步提供多媒体内容的多个表示中的每一者的供输出的视图的最大数目的指示。在一些实例中,MPD或其数据可存储在表示的清单中。
根据本发明的技术,指派给视图的视图标识符可大体对应于视图的摄像机视角的水平位置。举例来说,封装单元30可根据视图的摄像机视角的水平位置的单调递增函数来将视图标识符指派给视图。以此方式,当第一视图的现实坐标的水平摄像机位置偏向于第二视图的现实坐标的水平摄像机位置的左方时,第一视图的视图标识符的值可小于第二视图的视图标识符的值。所述单调递增函数可为严格单调递增函数。
作为另一实例,封装单元30可根据视图的摄像机视角的水平位置的单调递减函数来将视图标识符指派给视图。以此方式,当第一视图的现实坐标的水平摄像机位置偏向于第二视图的现实坐标的水平摄像机位置的左方时,第一视图的视图标识符的值可大于第二视图的视图标识符的值。所述单调递减函数可为严格单调递减函数。
数据(不管是音频还是视频)的每一个别流称为元素流(elementary stream)。元素流是表示的单一经数字译码(可能被压缩)的组件。举例来说,表示的经译码音频或视频部分可为元素流。元素流可在被封装于视频文件内之前被转换成包化元素流(PES)。在同一表示内,可使用流ID来区分属于一个元素流的PES包与属于其它元素流的PES包。元素流的数据的基本单位是包化元素流(PES)包。因此,MVC视频数据的每一视图对应于相应的元素流。类似地,音频数据对应于一个或一个以上相应的元素流。
MVC译码的视频序列可分离成各自对应于视频数据的元素流的若干子位流。MVC译码的视频序列还可分离成包含视频数据的一个以上元素流(例如,一个以上视图)的子位流。可使用MVC view_id子集来标识每一子位流。基于每一MVC view_id子集的概念,定义MVC视频子位流。也就是说,可存在指示包含于子位流中的视图的view_id的信息。MVC视频子位流含有MVC view_id子集中列举的视图的NAL单元。程序流通常仅含有来自那些元素流的NAL单元。其还设计成任何两个元素流不可含有相同视图,但可替代地含有单独视图,例如用于创造三维效果的视图的不同视角。
有可能从MVC位流中提取一个或一个以上视图以产生子位流。具有目标输出视图的合理的给定集合的子位流称为操作点。由于视图相依性,目标输出视图的所述集合可为包含于子位流中的视图的子集。目标输出视图也可与包含于子位流中的视图相同。然而,如果服务提供者并不希望支持具有大视图数目的操作点,那么目标输出视图的数目可为所包含视图的子集。注意,所包含视图是待被解码的视图。
封装单元30可进一步提供表示中的每一个的可供输出的视图的最大数目的指示。在一个实例中,封装单元30可形成表示的操作点,其中每一操作点对应于所述表示的视图的子集。在一些实例中,可供输出的视图的最大数目可对应于具有表示的最大数目个视图的操作点。封装单元30还可提供指示包含于表示中的所有操作点的最大和最小视图标识符的信息。如果目标输出视图的最大数目是1,那么目的地装置40可确定只用信号传递一个视图标识符。
在图1的实例中,封装单元30从视频编码器28接收包括视频数据的元素流,且从音频编码器26接收包括音频数据的元素流。在一些实例中,视频编码器28和音频编码器26可各自包含用于从经编码数据形成PES包的包化器。在一些实例中,视频编码器28和音频编码器26可各自与用于从经编码数据形成PES包的相应包化器对接。在又其它实例中,封装单元30可包含用于从经编码音频和视频数据形成PES包的包化器。
在本发明中使用时,“表示”可包括音频数据与视频数据的组合,例如由A/V源装置20的服务递送的音频元素流与可用视图的子集。每一PES包包含标识所述PES包所属于的元素流的stream_id。封装单元30负责将元素流汇编成视频文件或其它经封装数据结构。
封装单元30从音频编码器26和视频编码器28接收表示的元素流的PES包,且从所述PES包形成对应的网络抽象层(NAL)单元。在H.264/AVC(高级视频译码)的实例中,经译码的视频段被组织成NAL单元,所述NAL单元提供“网络友好的”视频表示定址应用,例如视频电话、存储、广播或串流传输。NAL单元可分类成视频译码层(VCL)NAL单元和非VCL NAL单元。VCL单元可含有核心压缩引擎,且可包含块、宏块和/或切片级数据。其它NAL单元可为非VCL NAL单元。在一些实例中,通常呈现为主要经译码图片的一个时间例项中的经译码图片可含于存取单元中,所述存取单元可包含一个或一个以上NAL单元。
非VCL NAL单元可包含参数集NAL单元和SEI NAL单元,以及其它单元。参数集可含有序列级标头信息(在序列参数集(SPS)中)以及不常改变的图片级标头信息(在图片参数集(PPS)中)。通过参数集(例如,PPS和SPS),无需对于每一序列或图片重复不常改变的信息,因此可改善译码效率。此外,使用参数集可实现重要标头信息的带外传输,从而避免为错误恢复而进行冗余传输的需要。在带外传输实例中,可在不同于其它NAL单元的不同通道上传输参数集NAL单元,例如SEI NAL单元。
补充增强信息(SEI)可含有对于解码来自VCL NAL单元的经译码图片样本并无必要,但可辅助与解码、显示、错误恢复和其它目的有关的处理的信息。SEI消息可含于非VCLNAL单元中。SEI消息是一些标准规范的标准化部分,且因此对于符合标准的解码器实施方案来说并非始终为强制性的。SEI消息可为序列级SEI消息或图片级SEI消息。一些序列级信息可含于SEI消息中,例如SVC实例中的可缩放性信息SEI消息和MVC中的视图可缩放性信息SEI消息。这些实例SEI消息可传达关于例如操作点提取和操作点特性的信息。为了支持MVC和SVC,有可能用信号传递表示的相依性,以使得可将MVC或SVC的不同视图或层置于不同表示中,且在HTTP串流传输期间基于所述相依性被一起请求。
封装单元30可形成NAL单元,所述NAL单元包括标识NAL所属于的程序的标头以及酬载,例如音频数据、视频数据或描述NAL单元所对应的传输或程序流的数据。举例来说,在H.264/AVC中,NAL单元包含1字节标头和具有不同大小的酬载。在一个实例中,NAL单元标头包括priority_id元素、temporal_id元素、anchor_pic_flag元素、view_id元素、non_idr_flag元素和inter_view_flag元素。在常规MVC中,保留由H.264定义的NAL单元,除了前缀NAL单元和MVC译码的切片NAL单元除外,所述前缀NAL单元和MVC译码的切片NAL单元包含4字节MVC NAL单元标头和NAL单元酬载。
NAL标头的priority_id元素可用于简单的单路径位流调适过程。temporal_id元素可用于指定对应NAL单元的时间级别,其中不同时间级别对应于不同帧率。
anchor_pic_flag元素可指示图片是锚定图片还是非锚定图片。锚定图片和在输出次序(也就是显示次序)上在其之后的所有图片可在不解码在解码次序(也就是位流次序)上的先前图片的情况下加以正确解码,且因此可用作随机存取点。锚定图片与非锚定图片可具有不同相依性,两者均用信号传递于序列参数集中。其它标志将被讨论且用于本章节的以下部分中。此种锚定图片也可称为开放GOP(图片群组)存取点,而当non_idr_flag元素等于零时,也支持封闭GOP存取点。non_idr_flag元素指示图片是即时解码器刷新(IDR)还是视图IDR(V-IDR)图片。一般来说,IDR图片和在输出次序或位流次序上在其之后的所有图片可在不解码在解码次序或显示次序上的先前图片的情况下加以正确解码。
view_id元素可包括可用以标识视图的语法信息,所述语法信息可用于MVC解码器内(例如,用于图片间预测)和解码器外(例如,用于渲染)的数据交互。inter_view_flag元素可指定对应NAL单元是否被其它视图用于视图间预测。为传达可符合AVC的基本视图的4字节NAL单元标头信息,在MVC中定义前缀NAL单元。在MVC的情况下,基本视图存取单元包含视图的当前时间例项的VCL NAL单元以及其前缀NAL单元,所述前缀NAL单元仅含有NAL单元标头。H.264/AVC解码器可忽略前缀NAL单元。根据本发明的技术,view_id元素可提供捕获对应视图的摄像机的相对水平摄像机视角的指示。
视图间预测是一种用于参考与不同视图的经编码帧处于共同时间位置的一个或一个以上帧来编码帧的MVC视频数据的技术。在下文更详细讨论的图5提供视图间预测的实例译码方案。一般来说,MVC视频数据的经编码帧可在空间上、在时间上和/或参考处于共同时间位置的其它视图的帧来进行预测性地编码。因此,供预测其它视图的参考视图通常在将所述参考视图充当参考的视图之前进行解码,以使得这些经解码视图可在解码作为参考的视图时用于参考。解码次序不必对应于view_id的次序。因此,使用视图次序索引来描述视图的解码次序。视图次序索引是指示存取单元中的对应视图组件的解码次序的索引。
在有效负载中包含视频数据的NAL单元可包括视频数据的各种粒度级别。举例来说,NAL单元可包括视频数据的块、宏块、多个宏块、视频数据的切片,或视频数据的整个帧。封装单元30可以元素流的PES包的形式从视频编码器28接收进编码视频数据。封装单元30可使每一元素流与对应程序相关联。
封装单元30还可从多个NAL单元汇编存取单元。一般来说,存取单元可包括用于表示视频数据的帧的一个或一个以上NAL单元以及对应于帧的音频数据(当此种音频数据可用时)。存取单元通常包含一个输入时间例项的所有NAL单元,例如,一个时间例项的所有音频和视频数据。举例来说,如果每一视图具有20帧/秒(fps)的帧率,那么每一时间例项可对应于0.05秒的时间间隔。在此时间间隔期间,可同时渲染同一存取单元(同一时间例项)的所有视图的特定帧。在对应于H.264/AVC的实例中,存取单元可包括一个时间例项中的经译码图片,所述图片可呈现为主要经译码图片。因此,存取单元可包括共同时间例项的所有音频和视频帧,例如,对应于时间X的所有视图。本发明还将特定视图的经编码图片称为“视图组件”。也就是说,视图组件可包括特定视图在特定时间段经编码图片(或帧)。因此,存取单元可定义为包括共同时间例项的所有视图组件。存取单元的解码次序无须与输出或显示次序相同。
如同大多数视频译码标准的情况,H.264/AVC定义无错误位流的语法、语义和解码过程,其中任一者符合某一档次(profile)或级别(level)。H.264/AVC并不指定编码器,但编码器的任务是保证所生成的位流对于解码器来说符合标准。在视频译码标准的情况下,“档次”对应于算法、特征或工具和应用于它们的约束的子集。举例来说,如由H.264标准所定义,“档次”是由H.264标准指定的整个位流语法的子集。“级别”对应于对例如解码器存储器和计算等解码器资源消耗的限制,其与图片的分辨率、位率和宏块(MB)处理速率有关。档次可通过profilc_idc(档次指示符)值用信号传递,而级别可通过level_idc(级别指示符)值用信号传递。
举例来说,H.264标准认识到,在由给定档次的语法外加的束缚中,仍有可能取决于位流中语法元素所取的值而要求编码器和解码器的性能的大的变化,例如经解码图片的指定大小。H.264标准进一步认识到,在许多应用中,实施能够处置特定档次内的语法的所有假定使用的解码器既不实际也不经济。因此,H.264标准将“级别”定义为外加于位流中的语法元素的值的约束的指定集合。这些约束可为对值的简单限制。或者,这些约束可采取对值的算数组合(例如,图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定个别实施方案可支持每一所支持档次的不同级别。
符合某档次的解码器通常支持所述档次中定义的所有特征。举例来说,作为译码特征,B图片译码在H.264/AVC的基线档次中不被支持,但在H.264/AVC的其它档次中被支持。符合某级别的解码器应能够解码所需资源不超过所述级别中定义的限制的任何位流。档次和级别的定义可有助于解释能力。举例来说,在视频传输期间,对于整个传输会话可协商且同意一对档次和级别定义。更具体来说,在H.264/AVC中,级别可定义(例如)对以下各者的限制:需要处理的宏块的数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、垂直运动矢量范围、每两个连续MB的运动矢量的最大数目,以及B块是否可具有小于8×8个像素的子宏块分区。以此方式,解码器可确定解码器是否能够恰当地解码位流。
参数集通常含有在序列参数集(SPS)中的序列级标头信息以及在图像参数集(PPS)中的不常改变的图像级标头信息。通过参数集,无需对于每一序列或图像重复不常改变的信息,因此可改善译码效率。此外,使用参数集可实现标头信息的带外传输,从而避免为达成错误恢复而进行冗余传输的需要。在带外传输中,在不同于其它NAL单元的不同通道上传输参数集NAL单元。
SVC和MVC的实例提供序列参数集(SPS)扩展以用于可缩放视频或多视图视频。SPS扩展信息可含于子SPS NAL单元中,所述子SPS NAL单元可具有与其它NAL单元不同的NAL单元类型。所支持操作点的档次和级别信息可包含于包含SPS扩展信息的NAL单元中。
媒体呈现可包含媒体呈现描述(MPD),所述媒体呈现描述可含有不同替代表示(例如,具有不同质量的视频服务)的描述,且所述描述可包含(例如)编解码器信息、档次值和级别值。多媒体呈现的清单可包含用于MPD的数据。目的地装置40可检索多媒体呈现(例如,可检索清单)的MPD以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段盒(movie fragment box、moof box)中。
例如ITU-T H.261、H.262、H.263、MPEG-1、MPEG-2和H.264/MPEG-4第10部分等视频压缩标准利用运动补偿时间预测来减少时间冗余。编码器使用根据一些先前编码的图片(本文也称为“帧”)的运动补偿预测来根据运动矢量预测当前译码的图片。在典型视频译码中存在三种主要图片类型。它们是帧内译码图片(“I图片”或“I帧”)、预测图片(“P图片”或“P帧”)以及双向预测图片(“B图片”或“B帧”)。P图片仅使用在时间次序上在当前图片之前的参考图片。在B图片中,可从一个或两个参考图片预测B图片的每一块。这些参考图片在时间次序上可位于当前图片之前或之后。
根据H.264译码标准,作为实例,B图片使用先前译码的参考图片的两个列表,列表0和列表1。这两个列表可各自含有在时间次序上过去和/或未来译码的图片。可用若干方式中的一者来预测B图片中的块:根据列表0参考图片的运动补偿预测、根据列表1参考图片的运动补偿预测,或根据列表0与列表1参考图片两者的组合的运动补偿预测。为获得列表0与列表1参考图片两者的组合,分别从列表0与列表1参考图片获得两个运动补偿参考区域。它们的组合可用来预测当前块。
ITU-T H.264标准支持各种块大小的帧内预测(例如用于明度分量的16乘16、8乘8或4乘4,以及用于色度分量的8×8),以及各种块大小的帧间预测(例如用于明度分量的16×16、16×8、8×16、8×8、8×4、4×8和4乘4,以及用于色度分量的对应缩放大小)。在本发明中,“N×N”与“N乘N”可互换使用以按照垂直和水平维度来指代块的像素维度,例如16×16像素或16乘16像素。一般来说,16×16块将具有在垂直方向上的16个像素(y=16)以及在水平方向上的16个像素(x=16)。同样,N×N块通常具有在垂直方向上的N个像素和在水平方向上的N个像素,其中N表示非负整数值。一块中的像素可布置成若干行和若干列。块在水平与垂直维度中可具有不同数目个像素。也就是说,块可包含N×M个像素,其中N不必等于M。
小于16乘16的块大小可称为16乘16宏块的分区。视频块可包括像素域中的像素数据的块或变换域中的变换系数的块,例如应用于表示经译码视频块与预测性视频块之间的像素差异的残余视频块数据的以下变换:离散余弦变换(DCT)、整数变换、小波变换,或概念上类似的变换。在一些情况下,视频块可包括变换域中的经量化的变换系数的块。
较小视频块可提供较佳分辨率,且可用于包含较高细节级别的视频帧的定位。一般来说,可将宏块和有时称为子块的各种分区视为视频块。另外,可将切片视为多个视频块,例如宏块和/或子块。每一切片可为视频帧的可独立解码的单元。或者,帧自身可为可解码单元,或可将帧的其它部分定义为可解码单元。术语“经译码单元”或“译码单元”可指代视频帧的任何可独立解码的单元,例如完整帧、帧的切片、图片群组(GOP)(也称作序列),或根据可适用的译码技术界定的另一可独立解码的单元。
术语宏块指代用于根据包括16×16像素的二维像素阵列来编码图片和/或视频数据的数据结构。每一像素包括色度分量和照度分量。因此,宏块可界定各自包括8×8像素的二维阵列的四个照度块、各自包括16×16像素的二维阵列的两个色度块,以及包括语法信息的标头,所述语法信息例如译码块模式(CBP)、编码模式(例如,帧内(I)或帧间(P或B)编码模式)、帧内编码块的分区的分区大小(例如,16×16、16×8、8×16、8×8、8×4、4×8或4×4),或帧间编码宏块的一个或一个以上运动矢量。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30以及解封装单元38各自可实施为可适用的多种合适处理电路中的任一者,所述处理电路例如一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28与视频解码器48中的每一者可包含于一个或一个以上编码器或解码器中,其中任一者可集成为组合式视频编码器/解码器(编解码器)的部分。同样,音频编码器26与音频解码器46中的每一者可—包含于一个或一个以上编码器或解码器中,其中任一者可集成为组合式编解码器的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30和/或解封装单元38的设备可包括集成电路、微处理器,和/或无线通信装置,例如蜂窝式电话。
在封装单元30已基于所接收的数据将NAL单元和/或存取单元汇编成视频文件之后,封装单元30将所述视频文件传到输出接口32以供输出。在一些实例中,封装单元30可在本地存储视频文件,或经由输出接口32将视频文件发送到远程服务器,而非将视频文件直接发送到目的地装置。输出接口32可包括(例如)发射器、收发器、用于将数据写入到计算机可读媒体的装置(例如光驱、磁性媒体驱动器(例如软驱))、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出到计算机可读媒体34,例如传输信号、磁性媒体、光学媒体、存储器、闪存驱动器或其它计算机可读媒体。
在一些实例中,输出接口32可实施一个或一个以上网络串流传输协议,例如HTTP串流。输出接口32或源装置20的另一单元可等待来自目的地装置40的HTTP串流传输请求,例如HEAD请求。响应于所述head请求,输出接口32可针对所请求的多媒体内容而提供MPD。目的地装置40可基于MPD中含有的数据来确定要请求的表示,所述MPD可包含每一表示的目标输出视图的最大数目以及表示中的视图的视图标识符的范围,其中所述视图标识符可经指派而使得它们描述表示的视图的摄像机视角的相对水平位置。所述MPD还可提供如何指派视图标识符的指示,例如,较大视图标识符对应于摄像机视角的水平位置偏向于具有较小摄像机视角的视图的摄像机视角的水平位置的左方或右方的视图。
最终,目的地装置40的输入接口36从计算机可读媒体34检索数据。输入接口36可包括(例如)光驱、磁性媒体驱动器、USB端口、接收器、收发器或其它计算机可读媒体接口。输入接口36可将NAL单元或存取单元提供到解封装单元38。解封装单元38可将视频文件的元素解封装为组成性PES流,解包PES流以检索经编码的数据,且取决于经编码数据是音频还是视频流的部分(例如,如由流的PES包标头所指示)而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46解码经编码的音频数据,且将经解码的音频数据发送到音频输出端42,而视频解码器48解码经编码的视频数据,且将经解码的视频数据(其可包含流的多个视图)发送到视频输出端44。
在一些实例中,表示中的每一者可对应于单视图位流,且可将虚拟视图标识符指派给所述表示。所述虚拟视图标识符可指示表示的摄像机视角的相对水平位置。在一些实例中,信息可指示两个表示是否可形成立体视图对。
以此方式,源装置20表示用于用信号传递视频数据的信息的设备的实例,所述设备包括处理器,所述处理器经配置以:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置;指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到客户端装置。
同样,目的地装置40表示用于接收视频数据的信息的设备的实例,所述设备包括处理器,所述处理器经配置以:接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分。
源装置20还表示用于用信号传递视频数据的信息的设备的实例,所述设备包含处理器,所述处理器经配置以:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置。
此外,目的地装置40表示用于接收视频数据的信息的目的地设备的实例,所述目的地设备包含处理器,所述处理器经配置以:接收指示表示中可供输出的视图的最大数目的信息,其中所述表示包括用于场景的两个或两个以上视图的视频数据;确定可由目的地装置输出的视图的最大数目;以及至少部分基于可由所述目的地设备输出的视图的所述所确定的最大数目以及指示所述表示中可供输出的视图的所述最大数目的所述信息而请求所述表示的所述视频数据的至少一部分。
图2是说明实例封装单元30的组件的框图。在图2的实例中,封装单元30包含视频输入接口80、音频输入接口82、视频文件创建单元60,以及视频文件输出接口84。在此实例中,视频文件创建单元60包含视图位置确定单元62、视图标识符(ID)指派单元64、表示创建单元66以及操作点创建单元68。
视频输入接口80和音频输入接口82分别接收经编码视频和音频数据。视频输入接口80和音频输入接口82可在数据被编码时接收经编码视频及音频数据,或可从计算机可读媒体检索经编码视频和音频数据。在接收到经编码视频和音频数据之后,视频输入接口80和音频输入接口82随即将所述经编码视频和音频数据传到视频文件创建单元60以供汇编成视频文件。
视频文件创建单元60可对应于包含经配置以执行函数和归因于所述函数的程序的硬件、软件和/或固件的控制单元。所述控制单元可进一步执行大体归因于封装单元30的函数。对于视频文件创建单元60体现于软件和/或固件中的实例来说,封装单元30可包含计算机可读媒体,所述计算机可读媒体包括指令以供视频文件创建单元60和处理单元执行所述指令。视频文件创建单元60的子单元(在此实例中,视图位置确定单元62、视图ID指派单元64、表示创建单元66和操作点创建单元68)中的每一者可实施为个别硬件单元和/或软件模块,且可在功能上集成到额外子单元中或进一步与额外子单元分离。
视频文件创建单元60可对应于任何合适的处理单元或处理电路,例如一个或一个以上微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其任何组合。视频文件创建单元60可进一步包含存储用于视图位置确定单元62、视图ID指派单元64、表示创建单元66和操作点创建单元68中的任一者或所有的指令的非暂时计算机可读媒体以及用于执行所述指令的处理器。
一般来说,视频文件创建单元60可创建包含所接收的音频和视频数据的一个或一个以上视频文件。根据本发明的技术,视频文件创建单元60可将视图标识符指派给多媒体内容的视图,使得所述视图标识符对应于表示中的视图的摄像机视角的水平位置。明确地说,视图标识符对应于捕获视图的原始视频数据的摄像机的位置。以此方式,视图标识符可对应于对应视图的摄像机视角的水平位置。因此,第一视图与第二视图的视图标识符之间的差异可指示第二视图的摄像机视角相对于第一视图的摄像机视角的位置的位置。
视频输入接口80可接收多媒体内容的一个或一个以上经编码视图。视图位置确定单元62可接收指示捕获多媒体内容的一个或一个以上视图的摄像机的位置的信息。在一些实例中,视图位置确定单元62可经由视频输入接口80接收指示位置的信息。在一些实例中,视图位置确定单元62可接收包含指示位置的信息的旁侧信息(side information)。距离来说,视图位置确定单元62可直接从视频源24接收信息。一些视频标准,例如MVC,在序列参数集和NAL单元标头中提供view_id值。在此些实例中,目的地装置可检查视频源以生成每一表示的视图位置的清单信息、视图的最大数目以及视图范围。
视图ID指派单元64可基于如由视图位置确定单元62确定的视图的摄像机视角的位置而将视图标识符指派给视图。在一个实例中,视图ID指派单元64可按照视图的摄像机视角的位置的函数而将视图标识符指派给视图。所述函数可为严格单调递增或严格单调递减的。因此,在一些实例中,随着视图的摄像机视角的位置从左水平前进到右,视图的视图标识符可根据单调递增函数而增大。在其它实例中,随着视图的摄像机视角的位置从左水平前进到右,视图的视图标识符可根据单调递减函数而增小。
视频文件创建单元60可建构包含两个或两个以上视图的多媒体内容的媒体呈现描述(MPD)。在其它实例中,视频文件创建单元60可创建存储类似于多媒体内容的MPD的数据的数据的清单。视图ID指派单元64可将视图标识符指派给多媒体内容的视图中的每一者,使得所述视图标识符对应于视图的摄像机视角的水平位置。表示创建单元66可建构多媒体内容的一个或一个以上表示,所述表示中的每一者可包含多媒体内容的一个或一个以上视图。在一些实例中,视图ID指派单元64可包含处于MPD和/或表示中的数据(例如,表示的标头数据),其指示包含于表示中的视图的视图标识符的最大值和最小值。另外,表示创建单元66可提供处于MPD中的信息,其指示较大视图ID对应于摄像机视角偏向于具有较小视图ID的视图的摄像机视角的右方还是左方的视图。
在一些实例中,可使用各种编码特性编码相同视图,例如使用不同帧率、不同位率、不同编码方案或其它差异。表示创建单元66可确保包含于共同表示中的每一视图是根据相同编码特性进行编码。以此方式,MPD和/或表示的标头数据可用信号传递应用于表示中的所有视图的表示的特性(或属性)集合。此外,表示创建单元66可创建包含相同视图但具有潜在不同的编码特性的多个表示。
在一些实例中,表示创建单元66可将多媒体内容的每一视图封装在个别表示中。在此些实例中,为了输出一个以上视图,目的地装置40可请求多媒体内容的两个或两个以上表示。根据本发明的技术,视图ID指派单元64可将虚拟视图标识符指派给所述表示,使得虚拟视图标识符对应于由所述表示封装的视图的摄像机视角的水平位置。以此方式,为了检索具有所需摄像机视角的视图,目的地装置40可请求由对应于所需摄像机视角的虚拟视图标识符标识的表示。
作为实例,目的地装置40可计算视图标识符之间的差异,以确定视图的摄像机视角的水平位置之间的相对偏移。因此,在一些实例中,目的地装置40可请求视图标识符之间具有较大差异的两个视图以增大所显示的相对深度的量。类似地,目的地装置40可请求视图标识符之间具有较小差异的两个视图以减小所显示的深度的量。目的地装置40可配置有要显示的默认深度量,且在一些实例中,可在重放期间从用户接收指示用户希望增大或减小所展示的深度量的反馈。
举例来说,当目的地装置40包含或耦合到相对较大的显示器(例如,用户的电视)时,默认深度量可能相对较大,而当目的地装置包含或耦合到相对较小的显示器(例如,移动装置)时,默认深度量可能相对较小。在重放期间,用户可将反馈提供到目的地装置40以增大或减小所显示的深度量。目的地装置40可使用由视图ID指派单元64用信号传递的视图标识符以例如从相同操作点、相同表示或甚至从相同多媒体内容的不同表示选择不同视图,以适应于用户的请求。
操作点创建单元68可创建多媒体内容的一个或一个以上表示的操作点。一般来说,操作点对应于表示中供输出的视图的子集,其中所述视图中的每一者共享共同时间级别。如由H.264/AVC规范所定义:
操作点由表示目标时间级别的temporal_id值和表示目标输出视图的view_id值的集合来标识。一个操作点与位流子集相关联,所述位流子集由目标输出视图和目标输出视图所依赖的所有其它视图组成,所述位流子集是使用如由子句H.8.5.3(以等于temporal_id值的tIdTarget和由view_id值的集合组成的viewIdTargetList作为输入)中指定的子位流提取过程导出的。一个以上操作点可与相同位流子集相关联。当所述规范陈述“解码操作点”时,它是指解码对应于操作点的位流子集以及目标输出视图的后续输出。
根据本发明的技术,由表示创建单元66创建的表示中的一者以上可对应于MVC表示。以此方式,本发明的技术可支持基于位率和表示的其它特性的调适。举例来说,在重放期间,目的地装置40可确定较早重放时间可用的网络带宽量已改变,且因此基于新的带宽量从不同MVC表示请求数据。目的地装置40可能已基于目标输出视图的数目选择先前MVC表示。
操作点创建单元68可对于多媒体内容的每一MVC表示指定一个或一个以上操作点。另外,操作点创建单元68可例如在表示的标头中或在MPD中用信号传递MVC表示的每一操作点的目标输出视图的数目。或者,操作点创建单元68可用信号传递MVC表示的作为表示的操作点的目标输出视图的最大数目。根据本发明的技术的装置可用信号传递表示的每一操作点的目标输出视图,而不是仅用信号传递表示的目标输出视图的数目的一个值。
视频文件创建单元60可将所创建的视频文件传到视频文件输出接口84。在一些实例中,单一视频文件可包含一个或一个以上表示以及所述表示的信令数据,例如MPD数据结构。在其它实例中,MPD数据结构可与一个或一个以上文件中由MPD描述的表示分离,且表示中的每一者的数据可存储在一个或一个以上文件中。视频文件输出接口84可将所创建的视频文件传到计算机可读媒体,例如传输媒体或存储媒体。
图3是说明用于从各种位置捕获场景90的视图的图像数据的摄像机92A-92H(摄像机92)的阵列的概念图。一般来说,摄像机92中的每一者可在实质上类似的时间捕获图像。摄像机92可瞄向场景90的共同焦点。摄像机92沿着轴线94定位在各种水平位置96A-96H(位置96)。因此,由摄像机92捕获的视图具有场景90的稍有不同的视角。
根据本发明的技术,源装置20(图1)可基于摄像机92的位置96而将视图标识符指派给由摄像机92捕获的视图。在一些实例中,指派给由摄像机92捕获的视图的视图标识符可根据摄像机92的位置96的单调递增函数而增大。因此,指派给由摄像机92A捕获的视图的视图标识符可为具有最低值的视图标识符,指派给由摄像机92H捕获的视图的视图标识符可为具有最高值的视图标识符,且指派给由其余摄像机92捕获的视图的视图标识符可根据摄像机92的位置96而渐变。举例来说,指派给由摄像机92E捕获的视图的视图标识符可大于由摄像机92A-92D捕获的视图的视图标识符,但小于由摄像机92F-92H捕获的视图的视图标识符。
在一些实例中,指派给由摄像机92捕获的视图的视图标识符可根据摄像机92的位置96的单调递减函数而减小。因此,指派给由摄像机92A捕获的视图的视图标识符可为具有最高值的视图标识符,指派给由摄像机92H捕获的视图的视图标识符可为具有最低值的视图标识符,且指派给由其余摄像机92捕获的视图的视图标识符可根据摄像机92的位置96而渐变。举例来说,指派给由摄像机92E捕获的视图的视图标识符可小于由摄像机92A-92D捕获的视图的视图标识符,但大于由摄像机92F-92H捕获的视图的视图标识符。
以此方式,由摄像机92捕获的视图的视图标识符之间的差异可大致对应于摄像机92的位置96的差异。举例来说,由摄像机92E捕获的视图的视图标识符与由摄像机92A捕获的视图的视图标识符之间的差异可大致表示位置96E与位置96A之间的距离。因此,如果根据位置96的单调递增函数来指派视图标识符,那么当由摄像机92E捕获的视图的视图标识符大于由摄像机92A-92D捕获的视图的视图标识符时,目的地装置40可确定由摄像机92E捕获的视图的摄像机视角的位置在水平上偏向由摄像机92A-92D捕获的视图的摄像机视角的位置的右方。
类似地,如果根据位置96的单调递减函数来指派视图标识符,那么当由摄像机92E捕获的视图的视图标识符小于由摄像机92A-92D捕获的视图的视图标识符时,目的地装置40可确定由摄像机92E捕获的视图的摄像机视角的位置在水平上偏向由摄像机92A-92D捕获的视图的摄像机视角的位置的右方。
图4是提供多媒体内容110的各种表示120、130的属性的媒体呈现描述(MPD)112的概念图。在此实例中,MPD112和表示120-130对应于相同多媒体内容,即此实例中的多媒体内容110。MPD112包含描述表示120的属性的信令数据140A以及描述表示130的属性的信令数据140N。信令数据140A包含视图标识符(ID)范围114A和最大目标输出视图值118A。信令数据140N包含视图ID范围114N和最大目标输出视图值118N。MPD112还包含描述多媒体内容110的视图的摄像机视角的水平位置的排序的视图次序信息116。下文的描述集中于信令数据140A,但应理解,信令数据140N与信令数据140A实质上一致,但在此实例中,关于表示130而非表示120。MPD112表示表示120-130的清单的一个实例。在其它实例中,其它清单可存储类似于MPD112的数据的数据。
视图ID范围114A包含包含于表示120中的视图的视图标识符的最大值和最小值。此外,根据本发明的技术,表示120的视图的视图标识符可大体对应于对应视图的摄像机视角的水平位置。因此,视图ID范围114A的最大与最小视图标识符之间的差异可大致表示包含于表示120中的视图所提供的相对深度量。
视图次序信息116可提供多媒体内容110的视图的摄像机视角的水平位置的排序的指示。举例来说,视图次序信息116可提供多媒体内容110的视图的不断增大的视图标识符指示视图的摄像机视角的水平位置是从左偏向右还是从右偏向左的指示。以此方式,视图次序信息116可提供如何指派视图标识符的指示,例如,较大视图标识符对应于摄像机视角的水平位置偏向于具有较小摄像机视角的视图的摄像机视角的水平位置的左方或右方的视图。因为通常将视图标识符指派给多媒体内容110的视图,所以MPD112无需提供如何相对于视图的视图标识符对视图的摄像机视角的水平位置进行排序的单一指示。然而,在一些实例中,视图次序信息116可提供于信令信息140的每一集合中。
最大目标输出值118A描述表示120的目标输出视图的最大数目。大体来说,最大目标输出值118A描述来自表示120的操作点中的任一者的可供输出的视图的最大数目。在一些实例中,当仅有一个视图包含于表示中时,最大目标输出值118A可具有值1。在此情况下,视图ID范围114A可包含仅一个视图标识符值。
表示120包含标头数据122和电影片段124A-124N(电影片段124)。在电影片段124N、134N和信令数据140N中使用字母“N”应理解为仅为一个变量,且并不希望暗示存在相等数目的电影片段124与电影片段134,或存在相等数目的电影片段124与信令数据140的集合。相反,可存在不同数目的电影片段124、电影片段134与信令数据140的集合。
标头数据122并非始终包含于表示中,且因此用虚框说明为任选的。当存在时,标头数据122可包含表示120的描述性数据。举例来说,标头数据122可包含电影片段124的序列参数集(SPS)和/或电影片段124的数据的图片参数集(PPS)。标头数据132可实质上与标头数据122一致(关于表示130)。
电影片段124可各自包含一个或一个以上经译码视频样本,例如,网络抽象层(NAL)单元。电影片段124中的每一者可为视频数据的可独立检索(且在一些实例中,可独立解码)的单元。以此方式,可例如使用例如HTTP串流等网络串流传输协议来依序检索电影片段124。举例来说,目的地装置40可提交指向与电影片段124中的一者相关联的URL的HTTPGET请求。在一些实例中,目的地装置40可通过将HTTP partial GET请求发送到URL使得所述请求指定电影片段的所需字节范围来检索电影片段124中的一者的一部分。源装置20可通过将所请求的字节范围发送到目的地装置40来做出响应。
在一些实例中,电影片段124中的每一者可包含随机存取点。在一些实例中,MPD112和/或标头数据122可用信号传递电影片段124中的哪一者包含随机存取点,以及随机存取点是开放解码器刷新(ODR)随机存取点还是即时解码器刷新(IDR)随机存取点。电影片段134可与电影片段124大致一致,一致之处在于电影片段134可为数据的可独立检索的单元。
图5是说明实例MVC预测模式的概念图。在图5的实例中,说明八个视图(具有视图ID“S0”到“S7”),且对于每一视图说明12个时间位置(“T0”到“T11”)。也就是说,图5中的每一行对应于一视图,而每一列指示一时间位置。
尽管MVC具有可由H.264/AVC解码器解码的所谓的基本视图,且也可通过MVC支持立体视图对,但MVC的优点在于其可支持使用两个以上视图作为3D视频输入且解码由多个视图表示的此3D视频的实例。具有MVC解码器的客户端的渲染器可预期具有多个视图的3D视频内容。
图5中的帧在图5中使用包含字母的阴影块而指示于每一行与每一列的交叉点处,所述字母指定对应帧是帧内译码(也就是说,I帧)还是在一个方向上经帧间译码(也就是说,P帧)还是在多个方向上经帧内译码(也就是说,B帧)。一般来说,由箭头来指示预测,其中箭头指向的帧使用箭头发端的对象来用于预测参考。举例来说,时间位置T0处的视图S2的P帧是从时间位置T0处的视图S0的I帧预测而来。
如同单视图视频编码的情况,可相对于处于不同时间位置处的帧来预测性地编码多视图视频译码视频序列的帧。举例来说,处于时间位置T1处的视图S0的b帧具有从处于时间位置T0处的视图S0的I帧指向其的箭头,指示所述b帧是从所述I帧预测而来。然而,另外,在多视图视频编码的情况下,帧可经视图间预测。也就是说,视图组件可使用其它视图中的视图组件用于参考。举例来说,在MVC中,实现视图间预测,好像另一视图中的视图组件是帧间预测参考。潜在视图间参考用信号传递于序列参数集(SPS)MVC扩展中,且可通过参考图片列表建构过程加以修改,所述参考图片列表建构过程实现帧间预测或视图间预测参考的灵活排序。
图5提供视图间预测的各种实例。在图5的实例中,视图S1的帧说明为从处于视图S1的不同时间位置的帧预测而来,且从处于相同时间位置的视图S0和S2的帧经视图间预测而来。举例来说,处于时间位置T1处的视图S1的b帧是从处于时间位置T0和T2处的视图S1的B帧以及处于时间位置T1处的视图S0和S2的b帧中的每一个预测而来。
在图5的实例中,大写字母“B”和小写字母“b”旨在指示帧间的不同层级关系,而非不同编码方法。一般来说,大写字母“B”帧在预测层级上相对高于小写字母“b”帧。图5还使用不同阴影度来说明预测层级的变化,其中较大阴影量(也就是说,相对较暗)帧在预测层级上高于具有较少阴影(也就是说,相对较亮)的那些帧。举例来说,图5中的所有I帧用全阴影说明,而P帧具有稍微较亮的阴影,且B帧(以及小写字母b帧)具有相对于彼此的各种阴影度,但始终亮于P帧和I帧的阴影。
一般来说,预测层级与视图次序索引有关,特征在于在预测层级上相对较高的帧应在解码在层级上相对较低的帧之前进行解码,以便可将在层级上相对较高的那些帧在解码在层级上相对较低的帧期间用作参考帧。视图次序索引是指示存取单元中的视图组件的解码次序的索引。视图次序索引暗示于SPS MVC扩展中,如在H.264/AVC的附录H(MVC修正)中所指定。在SPS中,对于每一索引i,用信号传递对应view_id。视图组件的解码应遵循视图次序索引的递升次序。如果呈现所有视图,那么视图次序索引处于从0到num_views_minus_l的连续次序。
以此方式,用作参考帧的帧可在解码参考所述参考帧编码的帧之前进行解码。视图次序索引是指示存取单元中的视图组件的解码次序的索引。对于每一视图次序索引i,用信号传递对应view_id。视图组件的解码遵循视图次序索引的递升次序。如果呈现所有视图,那么视图次序索引的集合可包括从零到视图总数目减一的连续排序集合。
对于处于相等层级处的某些帧,相对于彼此的解码次序可能并不重要。举例来说,处于时间位置T0处的视图S0的I帧用作处于时间位置T0处的视图S2的P帧的参考帧,处于时间位置T0处的视图S2的P帧又用作处于时间位置T0处的视图S4的P帧的参考帧。因此,处于时间位置T0处的视图S0的I帧应在处于时间位置T0处的视图S2的P帧之前进行解码,处于时间位置T0处的视图S2的P帧应在处于时间位置T0处的视图S4的P帧之前进行解码。然而,在视图S1与S3之间,解码次序并不重要,因为视图S1与S3并不依赖于彼此进行预测,而是仅从在预测层级上较高的视图进行预测。此外,视图S1可在视图S4之前进行解码,只要视图S1在视图S0和S2之后进行解码即可。
以此方式,层级式排序可用以描述视图S0到S7。另,表示法SA>SB意指视图SA应在视图SB之前进行解码。使用此表示法,在图5的实例中,S0>S2>S4>S6>S7。而且,关于图5的实例,S0>S1,S2>S1,S2>S3,S4>S3,S4>S5,且S6>S5。不违反这些要求的视图的任何解码次序都是可能的。因此,许多不同解码次序是可能的,仅具有特定限制。
根据本发明的技术,视图S0-S7的视图标识符可经指派而使得所述视图标识符大体对应于视图的摄像机视角的位置。举例来说,关于图3的实例,摄像机92A可能已捕获视图S0的数据,摄像机92B可能已捕获视图S1的数据,依此类推。因此,视图S0-S7的视图标识符可根据位置96的单调递增函数而增大,或可根据位置96的单调递减函数而减小。根据本发明的技术,MPD可用信号传递每一表示的最大和最小视图标识符。因此,如果表示包含视图S0-S7中的每一者,那么MPD可用信号传递作为视图S7的视图标识符的最大视图标识符以及作为视图S0的视图标识符的最小视图标识符。
如所指出,操作点可大体对应于可用视图的子集。如果视图S0-S7中的每一者包含于表示中,那么操作点可对应于视图S0-S7的任何子集。通常,操作点包含供输出的视图的集合以及需要进行解码的插入视图。因此,如果视图S0和S1包含于操作点中且要输出,那么操作点还可包含视图S2,使得视图S1可被恰当解码(相对于视图S2的数据)。因此,尽管操作点可包含特定数目个视图,但目标输出视图的数目可不同于操作点所实际包含的视图的数目。
图6是说明由源装置用信号传递视频数据的信息且由目的地装置接收所述信息的实例方法的流程图。尽管关于图1的源装置20和目的地装置40进行描述,但应理解,图6的一些或所有元素可由额外或替代装置执行。举例来说,单独装置可将视图标识符指派给视图,形成包含视图的各种选择的表示,和/或根据网络串流传输协议将信息提供给目的地装置。此外,可执行额外或替代步骤,且可以不同次序执行某些步骤,而不偏离本发明的技术。
在图6的实例中,源装置20可首先从场景的多个视图接收经编码视频样本(150)。举例来说,源装置20可接收由针对共同场景的摄像机阵列(例如图3中所说明的摄像机92的阵列)所捕获的视频数据。作为另一实例,源装置20可从计算机可读媒体检索场景的两个或两个以上视图的视频数据。作为又另一实例,源装置20可生成场景的两个或两个以上视图的视频数据或从生成场景的两个或两个以上视图的视频数据的另一装置接收所述视频数据。
在任一情况下,源装置20可接着确定视图中的每一者的摄像机视角的位置(152)。举例来说,源装置20可从捕获视图的摄像机、从人类操作者、从单独计算装置或确定捕获视图的视频数据的摄像机的相对位置的其它源接收此位置信息。
源装置20可接着基于捕获视图的视频数据的摄像机的位置来将视图标识符指派给所述视图(154)。也就是说,源装置20可将视图标识符指派给视图,使得所述视图标识符对应于捕获视图的视频数据的摄像机的位置。源装置20可按照捕获图像的视频数据的摄像机的水平位置的函数(例如,单调递增或单调递减函数)来指派视图标识符。以此方式,对于视图中的任意两者,由第一摄像机捕获的第一视图的第一标识符与由第二摄像机捕获的第二视图的第二标识符之间的差异指示第二视图的第二摄像机视角相对于第一视图的第一摄像机视角的位置的位置。
源装置20可接着形成包含视图的各种集合的一个或一个以上表示(156)。表示中的每一者可包含视图中的一者或一者以上。在一些实例中,视图可用多种不同方式编码多次,以便源装置20可于不同表示中包含任一视图或所有视图的各种经编码版本。源装置20还可生成描述包含于表示中的每一者中的视图的视图标识符范围的数据结构,例如可类似MPD112(图4)的媒体呈现描述符(MPD)数据结构。举例来说,MPD数据结构可包含表示中的每一者的视图标识符的最大值和最小值的指示。MPD可进一步提供多媒体内容的视图的摄像机视角的水平位置相对于视图的视图标识符的值的相对排序的指示。以此方式,MPD可提供如何指派视图标识符的指示,例如,较大视图标识符对应于摄像机视角的水平位置偏向于具有较小摄像机视角的视图的摄像机视角的水平位置的左方或右方的视图。MPD还可提供表示中的每一者的供输出的视图的数目的指示。
目的地装置40可请求描述表示中的一者或一者以上的表示数据(158)。举例来说,目的地装置40可将HTTP串流传输HEAD请求发送到与包含所述请求的多媒体内容相关联的URL。响应于所述请求,源装置20可将包含于所述表示中的视图的视图标识符范围发送到目的地装置40(160)。源装置20还可发送指示表示中的每一者的供输出的视图的数目的信息。举例来说,源装置20可将标头数据(例如,图4的标头数据122、132)发送到目的地装置40。作为另一实例,源装置20可将MPD(例如,图4的MPD112)发送到目的地装置40。尽管主要关于用信号传递视图标识符范围来进行描述,但应理解,除此之外或作为替代,在其它实例中,源装置20可用信号传递表示的可供输出的视图的最大数目的值。
使用从源装置20接收的数据(其包含表示中的每一者的视图标识符(例如,表示中的每一者的最大视图标识符和最小视图标识符)范围),目的地装置40可根据所述视图标识符范围确定表示中的每一者的相对深度(162)。目的地装置40可接着基于所述相对深度信息选择一表示(164)。明确地说,目的地装置40可选择包含对应于所需深度量的深度量的表示中的一者以待由目的地装置40的显示装置显示。目的地装置40可接着发送对于所选表示的视频数据的请求(166)。举例来说,目的地装置40可将一个或一个以上HTTP Get或partial Get请求发送到源装置20,其中所述请求经建构以从所所选表示检索数据。
由目的地装置40进行的表示的选择还可考虑其它因素。举例来说,目的地装置40可基于表示的解码和/或渲染要求而选择表示,使得目的地装置40能够恰当地解码和渲染所选表示。目的地装置40在选择表示时还可考虑所确定的可用网络带宽量。除了操作点信息和视图标识符之外,MPD或标头数据还可描述表示的解码和渲染要求,以及表示的位率。目的地装置40因此在选择要从源装置20请求的表示中的一者时还可使用此额外信息。如果可用网络带宽的量在重放期间改变,那么目的地装置40可适应性地基于新确定的网络带宽量而切换到不同表示。
在任一情况下,响应于对来自表示的数据的请求,源装置20可将所请求的视频数据发送到目的地装置40(168)。目的地装置40可接着解码并显示所接收的视频数据(170)。目的地装置40可继续请求所选表示的连续数据,直到目的地装置40已解码并显示所述表示的所有数据或直到结束重放。在一些实例中,例如当用户决定不再观看视频的其余部分时,可过早地终止重放。
以此方式,图6表示用信号传递视频数据的信息的方法的实例,所述方法包含:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置;指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及响应于来自客户端装置的请求,作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到所述客户端装置。
图6还表示接收视频数据的信息的方法的实例,所述方法包含:接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分。
图7是说明用于将视图标识符指派给多媒体内容的视图且呈现表示的作为操作点的最大数目个目标输出视图的实例方法的流程图。尽管关于图1的源装置20进行描述,但应理解,图7的一些或所有元素可由额外或替代装置执行。举例来说,单独装置可将视图标识符指派给视图,形成包含视图的表示,和/或根据网络串流传输协议将信息提供给目的地装置。此外,可执行额外或替代步骤,且可以不同次序执行某些步骤,而不偏离本发明的技术。
最初,视频编码器28(图1)可接收场景的两个或两个以上视图的原始视频数据(200)。视频编码器28可将视频数据的单独视图编码为独立的元素视频流(202)。在一些实例中,视频编码器28可多次编码一个或一个以上视图,例如用不同编码特性,例如不同帧率、位率、分辨率或其它不同特性。
视频编码器28可将经经编码视图传到封装单元30。封装单元30还可接收描述捕获从视频编码器28接收的视图的摄像机的水平位置的信息。封装单元30可基于所接收的信息确定视图的摄像机视角的水平位置(204)。封装单元30可进一步基于视图的摄像机视角的位置而将视图标识符指派给所述视图(206)。以此方式,假定已知第一视图的摄像机视角的位置和视图标识符,且已知第二视图的视图标识符,那么可基于第一视图与第二视图的视图标识符之间的差异来相对于第一视图的摄像机视角的位置来确定第二视图的摄像机视角的位置。
封装单元30可形成包含任一或所有经编码视图的一个或一个以上表示(208)。此外,封装单元30可确定表示中的每一者的供输出的视图的数目(210),且形成具有不多于对应表示的视图的所确定数目的表示的操作点(212)。封装单元30可接着形成包含视图标识符范围的指示、基于所述视图标识符的水平位置的排序的指示以及指示表示中的每一者的供输出的视图的最大数目的值的MPD数据结构(214)。视图标识符范围的指示可包括(例如)表示的最大视图标识符和最小视图标识符,使得表示中的每一者在MPD中包含对应的最大视图标识符和最小视图标识符。排序的指示可包括不断增大的视图标识符对应于对应视图的摄像机视角的水平位置是从左偏向右还是从右偏向左的指示。
源装置20可从例如目的地装置40等各种客户端装置接收对表示的MPD和/或经编码视频数据的请求。响应于此些请求,源装置20可将MPD或视频数据提供给发出请求的客户端装置(216)。举例来说,源装置20可能接收到HTTP串流传输请求,且根据HTTP串流而响应于所述请求。
以此方式,图7表示用信号传递视频数据的信息的方法的实例,所述方法包含:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;确定所述两个或两个以上视图中的每一者的摄像机视角的水平位置;指派视图标识符给所述两个或两个以上视图,使得所述视图标识符对应于所述摄像机视角的所述相对水平位置;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及响应于来自客户端装置的请求,作为所述多媒体内容的所述表示的清单的部分,将指示所述表示的最大视图标识符和最小视图标识符的信息发送到所述客户端装置。
图7还表示一种方法的实例,所述方法包含:对于多媒体内容,接收场景的两个或两个以上视图的视频数据;形成所述多媒体内容的表示,所述表示包括所述两个或两个以上视图的子集;以及作为所述多媒体内容的所述表示的清单的部分,将指示所述表示中可供输出的视图的最大数目的信息发送到客户端装置。
图8是说明接收视频数据的信息的方法的实例的流程图,所述信息包含多媒体内容的视图的视图标识符以及表示的作为操作点的目标输出视图的最大数目。尽管关于图1的目的地装置40进行描述,但应理解,图8的一些或所有元素可由额外或替代装置执行。举例来说,单独装置可根据网络串流传输协议检索数据,解码所检索的数据,且渲染/显示经解码的数据。此外,可执行额外或替代步骤,且可以不同次序执行某些步骤,而不偏离本发明的技术。
在图8的实例中,目的地装置40最初请求多媒体内容的MPD(250)。举例来说,目的地装置40可将例如HTTP串流传输请求等网络串流传输请求发送到源装置20。所述请求可指定多媒体内容的URL。在一些实例中,所述请求可符合指向多媒体内容的URL的HTTP HEAD请求。
在发送请求之后,目的地装置40可接收MPD,所述MPD描述多媒体内容的表示的属性(252)。举例来说,MPD可包含包含于多媒体内容的每一表示中的视图的视图标识符的范围的指示。对于每一表示,所述范围可包括(例如)所述表示的最大视图标识符和最小视图标识符的指示。MPD还可指示大于第二视图标识符的第一视图标识符指示对应于第一视图标识符的视图的摄像机视角的水平位置在对应于第二视图标识符的视图的摄像机视角的水平位置的左方还是右方。MPD可进一步描述解码和渲染要求,所述解码和渲染要求可为目的地装置所支持的最低解码和渲染能力。此外,MPD可提供表示的位率的指示。MPD还可包含描述表示的操作点的操作点信息以及表示中的每一者的供输出的视图的最大数目。在其它实例中,目的地装置40可发送对多媒体内容的表示的标头数据或包含多媒体内容的信令数据(例如,多媒体内容的表示的视图的视图标识符范围和/或多媒体内容的表示的供输出的视图的最大数目)的另一数据结构的请求,且在请求后接收所述标头数据或所述另一数据结构。
使用MPD,在图8的实例中,目的地装置40可确定表示中的每一者的目标输出视图的数目(例如,目标输出视图的最大数目)(254)在一些实例中,目标输出视图的数目可对应于表示的操作点。目的地装置40还可从MPD检索视图标识符范围(256)。根据本发明的技术,视图标识符可大体描述对应视图的摄像机视角的水平位置。因此,使用视图标识符范围,目的地装置40可确定表示中的每一者的相对深度量(258)。举例来说,表示的相对深度量可对应于表示的最大视图标识符与最小视图标识符之间的差异。
目的地装置40还可基于第一视图的第一视图标识符与第二视图的第二视图标识符之间的差异来确定第一视图的第一摄像机视角相对于第二视图的第二摄像机视角的位置的位置。作为实例,可根据所述摄像机视角的位置的单调递增函数来指派视图标识符。因此,目的地装置40可使用视图标识符来确定视图的摄像机视角的排序。在单调递增函数的实例中,通过将视图标识符从最低到最高排序,目的地装置40将从左到右排序视图的摄像机视角的位置。在根据单调递减函数指派视图标识符的另一实例中,通过将视图标识符从最高到最低排序,目的地装置40将从左到右排序视图的摄像机视角的位置。在一些实例中,MPD可提供按照视图的摄像机视角的位置的单调递增还是单调递减函数来指派视图标识符的指示。
使用所确定的表示的相对深度量以及表示的供输出的视图的最大数目,目的地装置40可选择多媒体内容的表示中的一者来请求(260)。目的地装置40可基于由MPD用信号传递的此信息以及其它信息(例如,解码和渲染要求以及位率)来选择表示。举例来说,目的地装置40可确定视频输出端44能够显示多少视图,且选择至少具有那么多目标输出视图的表示。目的地装置40可选择包含具有那么多视图的操作点的表示。目的地装置40还可包含指示视频解码器48的解码能力和视频输出端44的渲染能力的配置数据,且选择具有所述解码及渲染能力可满足的解码和渲染要求的表示。
目的地装置40可进一步确定可用的网络带宽量,且选择位率不会超过所述网络带宽量的表示。此外,目的地装置40可包含描述表示的所需深度量的配置数据,所述所需深度量可以是基于(例如)目的地装置40的显示装置的大小。一般来说,当显示装置相对较小(例如,对于移动装置,例如蜂窝式电话、膝上型计算机、平板计算机等)时,可能需要较小深度,而当显示装置相对较大(例如,对于大屏幕电视)时,可能需要较大深度。
在选择表示之后,目的地装置40可发送请求以检索所选表示的数据(262)。举例来说,目的地装置40可针对表示的媒体片段发送HTTP Get请求。在一些实例中,目的地装置40可发送HTTP partial Get请求以仅检索表示的媒体片段的一部分。举例来说,目的地装置40可使用HTTP partial Get请求来提取表示的子位流,以(例如)检索表示的特定操作点。
在接收到数据之后,目的地装置40可解码、渲染并显示所接收的数据(264)。目的地装置40可接着确定是否已检索所选表示的所有数据(266)。如果尚未检索所有数据(266的“否”分支),那么目的地装置40可结束对所选表示的下一媒体片段的随后请求。在已检索所有数据之后(266的“是”分支),目的地装置40可结束所述程序。
在一些实例中,目的地装置40可重新评估可用网络带宽量,且如果所述带宽量已改变,那么适应性地切换到除了位率可由新确定的网络带宽量适应之外具有类似属性的不同表示。目的地装置40可从重放时间紧跟在先前选择的表示的最近接收的媒体片段之后的新选择的表示检索数据。
以此方式,图8表示接收视频数据的信息的方法的实例,所述方法包含:接收指示表示的最大视图标识符以及所述表示的最小视图标识符的信息,其中所述最大视图标识符包括用于场景的第一视图的视图标识符,其中所述最小视图标识符包括用于所述场景的第二视图的视图标识符,且其中所述表示包括用于包含所述第一视图和所述第二视图的两个或两个以上视图的视频数据;基于所述最大视图标识符和所述最小视图标识符确定所述表示的所述两个或两个以上视图的摄像机视角的最大水平位置和所述表示的所述两个或两个以上视图的摄像机视角的最小水平位置,其中所述两个或两个以上视图的视图标识符经指派而使得所述视图标识符对应于所述两个或两个以上视图的所述摄像机视角的所述相对水平位置;以及至少部分基于所述表示的所述两个或两个以上视图的所述摄像机视角的所述所确定的最大和最小水平位置而请求所述表示的所述视频数据的至少一部分。
图8还表示接收视频数据的信息的方法的实例,所述方法包含:接收指示表示中可供输出的视图的最大数目的信息,其中所述表示包括用于场景的两个或两个以上视图的视频数据;确定可由目的地装置输出的视图的最大数目;以及至少部分基于可由所述目的地装置输出的视图的所述所确定的最大数目以及指示所述表示中可供输出的视图的所述最大数目的所述信息而请求所述表示的所述视频数据的至少一部分。
在一个或一个以上实例中,本发明中所描述的功能、方法和技术可实施于硬件、软件、固件或其任何组合中。如果实施于软件中,那么可将功能作为计算机可读媒体上的一个或一个以上指令或码加以存储或传输且由基于硬件的处理单元执行。计算机可读媒体可包含对应于例如数据存储媒体等有形媒体的计算机可读存储媒体,或包含促进例如根据通信协议将计算机程序从一处传送到另一处的任何媒体的通信媒体。以此方式,计算机可读媒体大体可对应于(1)为非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一个或一个以上计算机或一个或一个以上处理器存取以检索用于实施本发明中描述的技术的指令、码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
以实例方式而非限制,此种计算机可读存储媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、闪存存储器,或可用于存储呈指令或数据结构的形式的所需程序码且可由计算机存取的任何其它媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包括于媒体的定义中。然而,应理解,计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而替代地针对非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘,其中磁盘通常磁性地再现数据,而光盘使用激光光学地再现数据。上文各物的组合也应包含在计算机可读媒体的范围内。
指令可由一个或一个以上处理器执行,所述处理器例如一个或一个以上数字信号处理器(DSP)、通用处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA),或其它等效集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所描述的功能可提供于经配置用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编解码器中。而且,所述技术可完全实施于一个或一个以上电路或逻辑元件中。
本发明的技术可实施于广泛多种装置或设备中,包含无线手持机、集成电路(IC)或IC集合(例如,芯片集合)中。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,而未必要求由不同硬件单元实现。而是,如上文所描述,各种单元可组合于编解码器硬件单元中或由包含如上所述的一个或一个以上处理器的互操作式硬件单元的集合结合合适软件和/或固件而提供。

Claims (27)

1.一种用信号传递视频数据的信息的方法,所述方法包括:
对于多媒体内容,接收场景的多个视图的视频数据;
形成所述多媒体内容的多个表示,所述多个表示包括第一表示和第二表示,所述第一表示包括所述多个视图中的一个或多个视图,所述第二表示包括所述多个视图中的一个或多个视图,其中所述第一表示的所述一个或多个视图与所述第二表示的所述一个或多个视图被不同地编码,且其中所述第一表示和所述第二表示符合HTTP动态自适应性串流;以及
作为所述多媒体内容的所述多个表示的清单文件的部分,将指示所述第一表示和所述第二表示中可供输出的视图的最大数目的信息发送到客户端装置。
2.根据权利要求1所述的方法,其进一步包括形成所述多个表示的多个操作点。
3.根据权利要求1所述的方法,其进一步包括将可供输出的视图的所述最大数目呈现为所述多个表示的多个操作点。
4.根据权利要求1所述的方法,其进一步包括响应于所述客户端装置选择所述多个表示中的表示,根据串流超文本传输协议(HTTP串流)来发送所选择的表示的视频数据。
5.根据权利要求1所述的方法,其进一步包括:
当可供输出的所述多个表示的一个表示的视图的所述最大数目等于一时,用信号传递所述一个表示的所述视图的视图标识符;以及
当可供输出的所述多个表示的一个表示的视图的所述最大数目大于一时,用信号传递所述多个表示的所述一个表示的最小视图标识符和所述多个表示的所述一个表示的最大视图标识符。
6.一种用于用信号传递视频数据的信息的设备,所述设备包括:
视频编码器,所述视频编码器经配置以对于多媒体内容,接收场景的多个视图的视频数据;
封装单元,所述封装单元经配置以形成所述多媒体内容的多个表示,所述多个表示包括第一表示和第二表示,所述第一表示包括所述多个视图中的一个或多个视图,所述第二表示包括所述多个视图中的一个或多个视图,其中所述第一表示的所述一个或多个视图与所述第二表示的所述一个或多个视图被不同地编码,且其中所述第一表示和所述第二表示符合HTTP动态自适应性串流;以及
输出接口,所述输出接口经配置以作为所述多媒体内容的所述多个表示的清单文件的部分,将指示所述第一表示和所述第二表示中可供输出的视图的最大数目的信息发送到客户端装置。
7.根据权利要求6所述的设备,其中所述封装单元进一步经配置以形成所述多个表示的多个操作点。
8.根据权利要求6所述的设备,其中所述封装单元进一步经配置以将可供输出的视图的所述最大数目呈现为所述多个表示的多个操作点。
9.根据权利要求6所述的设备,其中所述封装单元进一步经配置以当可供输出所述多个表示的一个表示的视图的所述最大数目等于一时,用信号传递所述表示的所述视图的视图标识符,且当可供输出的视图的所述最大数目大于一时,用信号传递所述多个表示的所述一个表示的最小视图标识符和所述多个表示的所述一个表示的最大视图标识符。
10.根据权利要求6所述的设备,其中所述输出接口进一步经配置以响应于所述客户端装置选择所述多个表示中的表示,根据串流超文本传输协议(HTTP串流)来发送所选择的表示的视频数据。
11.根据权利要求6所述的设备,其中所述设备包括以下至少一个:
集成电路;
微处理器;以及
包含所述封装单元的无线通信装置。
12.一种用于用信号传递视频数据的信息的设备,所述设备包括:
用于对于多媒体内容,接收场景的多个视图的视频数据的装置;
用于形成所述多媒体内容的多个表示的装置,所述多个表示包括第一表示和第二表示,所述第一表示包括所述多个视图中的一个或多个视图,所述第二表示包括所述多个视图中的一个或多个视图,其中所述第一表示的所述一个或多个视图与所述第二表示的所述一个或多个视图被不同地编码,且其中所述第一表示和所述第二表示符合HTTP动态自适应性串流;以及
用于作为所述多媒体内容的所述多个表示的清单文件的部分,将指示所述第一表示和所述第二表示中可供输出的视图的最大数目的信息发送到客户端装置的装置。
13.根据权利要求12所述的设备,其进一步包括用于形成所述多个表示的多个操作点的装置。
14.根据权利要求12所述的设备,其进一步包括用于将可供输出的视图的所述最大数目呈现为所述多个表示的多个操作点的装置。
15.根据权利要求12所述的设备,其进一步包括:
用于当可供输出的视图的所述最大数目等于一时,用信号传递所述多个表示的一个表示的所述视图的视图标识符的装置;以及
用于当可供输出的视图的所述最大数目大于一时,用信号传递所述多个表示的一个表示的最小视图标识符和所述多个表示的一个表示的最大视图标识符的装置。
16.根据权利要求12所述的设备,其进一步包括用于响应于所述客户端装置选择所述多个表示中的一个表示,根据串流超文本传输协议(HTTP串流)来发送所选择的表示的视频数据的装置。
17.一种接收视频数据的信息的方法,所述方法包括:
接收指示多个表示的第一表示和所述多个表示的第二表示中可供输出的视图的最大数目的信息,其中所述多个表示中的每一者包括场景的多个视图的视频数据,所述多个表示包括第一表示和第二表示,所述第一表示包括所述多个视图中的一个或多个视图,所述第二表示包括所述多个视图中的一个或多个视图,其中所述第一表示的所述一个或多个视图与所述第二表示的所述一个或多个视图被不同地编码,且其中所述第一表示和所述第二表示符合HTTP动态自适应性串流;
确定可由目的地装置输出的视图的最大数目;以及
至少部分基于可由所述目的地装置输出的视图的所述经确定的最大数目以及指示所述第一表示和所述第二表示中可供输出的视图的所述最大数目的所述信息来请求所述第一表示和所述第二表示的所述视频数据的至少一部分。
18.根据权利要求17所述的方法,其进一步包括接收描述所述多个表示中的每一者的操作点的信息。
19.根据权利要求18所述的方法,其中接收指示可供输出的视图的所述最大数目的所述信息包括接收描述所述多个表示的所述操作点的所述信息,其中可供输出的视图的所述最大数目被呈现为所述多个表示的所述操作点中的至少一个。
20.根据权利要求17所述的方法,其进一步包括:
当可供输出的所请求的表示的视图的所述最大数目等于一时:
接收所述所请求的表示的所述视图的视图标识符;且
当可由所述目的地装置输出的视图的所述最大数目等于一时,其中请求所述所请求的表示的所述视频数据的所述至少部分包括请求对应于所述视图标识符的视频数据;以及
当可供输出的视图的所述最大数目大于一时:
接收所述所请求的表示的最小视图标识符以及所述所请求的表示的最大视图标识符;且
当可由所述目的地装置输出的视图的所述最大数目大于一时,基于所述最大视图标识符和所述最小视图标识符确定所述所请求的表示的所述视图的摄像机视角的最大水平位置和所述所请求的表示的所述视图的摄像机视角的最小水平位置,其中所述多个视图的视图标识符经指派而使得所述视图标识符对应于所述多个视图的所述摄像机视角的相关的水平位置,且其中请求所述视频数据的所述至少部分进一步包括至少部分基于所述所请求的表示的所述多个视图的所述摄像机视角的所述经确定的最大和最小水平位置来请求所述所请求的表示的所述视频数据的所述至少部分。
21.根据权利要求17所述的方法,其进一步包括:
基于所述多个表示的清单选择所述多个表示中的表示,其中所述清单包括指示所述多个表示中的每一者的可供输出的视图的所述最大数目的所述信息;以及
响应于所述选择,根据串流超文本传输协议(HTTP串流)接收所选择的表示的视频数据。
22.一种用于接收视频数据的信息的目的地设备,所述设备包括:
用于接收指示多个表示的第一表示和所述多个表示的第二表示中可供输出的视图的最大数目的信息的装置,其中所述多个表示中的每一表示包括场景的多个视图的视频数据,所述多个表示包括第一表示和第二表示,所述第一表示包括所述多个视图中的一个或多个视图,所述第二表示包括所述多个视图中的一个或多个视图,其中所述第一表示的所述一个或多个视图与所述第二表示的所述一个或多个视图被不同地编码,且其中所述第一表示和所述第二表示符合HTTP动态自适应性串流;
用于确定可由目的地设备输出的视图的最大数目的装置;以及
用于至少部分基于可由所述目的地设备输出的视图的所述经确定的最大数目以及指示所述第一表示和所述第二表示中可供输出的视图的所述最大数目的所述信息来请求所述第一表示和所述第二表示的所述视频数据的至少一部分的装置。
23.根据权利要求22所述的设备,其进一步包括用于接收描述所述多个表示中的每一者的操作点的信息的装置。
24.根据权利要求23所述的设备,其中用于接收指示可供输出的视图的所述最大数目的所述信息的所述装置包括用于接收描述所述多个表示的所述操作点的所述信息的装置,其中可供输出的视图的所述最大数目被呈现为所述多个表示的所述操作点中的至少一个。
25.根据权利要求22所述的设备,其进一步包括:
用于当可供输出的所请求的表示的视图的所述最大数目等于一时,接收所述所请求的表示的所述视图的视图标识符的装置;以及用于当可由所述目的地设备输出的视图的所述最大数目大于一时,请求对应于所述视图标识符的视频数据的装置;以及
用于当可供输出的视图的所述最大数目大于一时,接收所述所请求的表示的最小视图标识符和所述所请求的表示的最大视图标识符的装置,以及用于当可由所述目的地设备输出的视图的所述最大数目大于一时,基于所述最大视图标识符和所述最小视图标识符确定所述所请求的表示的所述视图的摄像机视角的最大水平位置和所述表示的所述视图的摄像机视角的最小水平位置的装置,其中所述多个视图的视图标识符经指派而使得所述视图标识符对应于所述多个视图的所述摄像机视角的相关的水平位置,且其中用于请求所述视频数据的所述至少部分的所述装置进一步包括用于至少部分基于所述所请求的表示的所述多个视图的所述摄像机视角的所述经确定的最大和最小水平位置而请求所述所请求的表示的所述视频数据的所述至少部分的装置。
26.根据权利要求22所述的设备,其进一步包括:
用于基于所述多个表示的清单选择所述多个表示中的表示的装置,其中所述清单包括指示所述多个表示中的每一者的可供输出的视图的所述最大数目的所述信息;以及
用于响应于所述选择,根据串流超文本传输协议(HTTP串流)接收所选择的表示的视频数据的装置。
27.根据权利要求22所述的设备,其中所述设备包括如下中的至少一个:
集成电路;
微处理器;以及
无线通信装置。
CN201180038545.6A 2010-08-05 2011-08-03 用信号传递网络串流传输视频数据的属性 Active CN103081464B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US37112510P 2010-08-05 2010-08-05
US61/371,125 2010-08-05
US13/154,247 US9716920B2 (en) 2010-08-05 2011-06-06 Signaling attributes for network-streamed video data
US13/154,285 2011-06-06
US13/154,247 2011-06-06
US13/154,285 US9226045B2 (en) 2010-08-05 2011-06-06 Signaling attributes for network-streamed video data
PCT/US2011/046478 WO2012018951A1 (en) 2010-08-05 2011-08-03 Signaling attributes for network-streamed video data

Publications (2)

Publication Number Publication Date
CN103081464A CN103081464A (zh) 2013-05-01
CN103081464B true CN103081464B (zh) 2016-10-12

Family

ID=44629988

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180038545.6A Active CN103081464B (zh) 2010-08-05 2011-08-03 用信号传递网络串流传输视频数据的属性
CN201180038544.1A Active CN103053159B (zh) 2010-08-05 2011-08-03 用信号传递网络串流传输视频数据的属性

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201180038544.1A Active CN103053159B (zh) 2010-08-05 2011-08-03 用信号传递网络串流传输视频数据的属性

Country Status (8)

Country Link
US (2) US9226045B2 (zh)
EP (2) EP2601790B1 (zh)
JP (3) JP5866359B2 (zh)
KR (3) KR101645780B1 (zh)
CN (2) CN103081464B (zh)
BR (1) BR112013002693B1 (zh)
ES (2) ES2903112T3 (zh)
WO (2) WO2012018951A1 (zh)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7515710B2 (en) 2006-03-14 2009-04-07 Divx, Inc. Federated digital rights management scheme including trusted systems
US9432433B2 (en) 2006-06-09 2016-08-30 Qualcomm Incorporated Enhanced block-request streaming system using signaling or block creation
CN105072454B (zh) 2009-01-07 2019-04-19 索尼克Ip股份有限公司 针对在线内容的媒体指南的特定化、集中式、自动化创建
CN102484729B (zh) 2009-04-07 2016-08-24 Lg电子株式会社 广播发送器、广播接收器及其3d视频数据处理方法
US9917874B2 (en) 2009-09-22 2018-03-13 Qualcomm Incorporated Enhanced block-request streaming using block partitioning or request controls for improved client-side handling
US8914835B2 (en) * 2009-10-28 2014-12-16 Qualcomm Incorporated Streaming encoded video data
EP2507995A4 (en) 2009-12-04 2014-07-09 Sonic Ip Inc SYSTEMS AND METHODS FOR TRANSPORTING ELEMENTARY BIT TRAIN CRYPTOGRAPHIC MATERIAL
US9226045B2 (en) 2010-08-05 2015-12-29 Qualcomm Incorporated Signaling attributes for network-streamed video data
KR20120020627A (ko) * 2010-08-30 2012-03-08 삼성전자주식회사 3d 영상 포맷을 이용한 영상 처리 장치 및 방법
US9247312B2 (en) 2011-01-05 2016-01-26 Sonic Ip, Inc. Systems and methods for encoding source media in matroska container files for adaptive bitrate streaming using hypertext transfer protocol
US9118928B2 (en) * 2011-03-04 2015-08-25 Ati Technologies Ulc Method and system for providing single view video signal based on a multiview video coding (MVC) signal stream
CN108366070A (zh) * 2011-03-16 2018-08-03 韩国电子通信研究院 用于提供媒体内容的方法和客户端
US8988512B2 (en) * 2011-04-14 2015-03-24 Mediatek Inc. Method for adjusting playback of multimedia content according to detection result of user status and related apparatus thereof
KR101578308B1 (ko) * 2011-06-30 2015-12-16 텔레폰악티에볼라겟엘엠에릭슨(펍) 레퍼러스 픽처 시그널링
CN102860836B (zh) * 2011-07-04 2015-01-07 株式会社东芝 图像处理装置、图像处理方法以及医用图像诊断装置
US20130042013A1 (en) * 2011-08-10 2013-02-14 Nokia Corporation Methods, apparatuses and computer program products for enabling live sharing of data
US9467708B2 (en) 2011-08-30 2016-10-11 Sonic Ip, Inc. Selection of resolutions for seamless resolution switching of multimedia content
US8909922B2 (en) 2011-09-01 2014-12-09 Sonic Ip, Inc. Systems and methods for playing back alternative streams of protected content protected using common cryptographic information
US8964977B2 (en) 2011-09-01 2015-02-24 Sonic Ip, Inc. Systems and methods for saving encoded media streamed using adaptive bitrate streaming
US9906594B2 (en) * 2012-02-21 2018-02-27 Prysm, Inc. Techniques for shaping real-time content between multiple endpoints
US9584793B2 (en) * 2012-04-09 2017-02-28 Intel Corporation Signaling three-dimensional video information in communication networks
CN111031302A (zh) * 2012-04-25 2020-04-17 浙江大学 三维视频序列辅助信息的解码方法、编码方法及装置
JP6175749B2 (ja) * 2012-09-19 2017-08-09 沖電気工業株式会社 コンテンツ送信装置、プログラム及びコンテンツ送信方法
US9479779B2 (en) 2012-10-01 2016-10-25 Qualcomm Incorporated Sub-bitstream extraction for multiview, three-dimensional (3D) and scalable media bitstreams
US9781413B2 (en) 2012-10-02 2017-10-03 Qualcomm Incorporated Signaling of layer identifiers for operation points
US9154785B2 (en) * 2012-10-08 2015-10-06 Qualcomm Incorporated Sub-bitstream applicability to nested SEI messages in video coding
CN104871514B (zh) * 2012-10-18 2019-04-05 Vid拓展公司 移动多媒体流的解码复杂度
US9191457B2 (en) 2012-12-31 2015-11-17 Sonic Ip, Inc. Systems, methods, and media for controlling delivery of content
US9313510B2 (en) 2012-12-31 2016-04-12 Sonic Ip, Inc. Use of objective quality measures of streamed content to reduce streaming bandwidth
US10397292B2 (en) 2013-03-15 2019-08-27 Divx, Llc Systems, methods, and media for delivery of content
US9906785B2 (en) 2013-03-15 2018-02-27 Sonic Ip, Inc. Systems, methods, and media for transcoding video data according to encoding parameters indicated by received metadata
US20140297804A1 (en) * 2013-03-28 2014-10-02 Sonic IP. Inc. Control of multimedia content streaming through client-server interactions
SG10201909965RA (en) * 2013-04-19 2019-11-28 Sony Corp Information processing device, content requesting method,and computer program
US9094737B2 (en) 2013-05-30 2015-07-28 Sonic Ip, Inc. Network video streaming with trick play based on separate trick play files
US9967305B2 (en) 2013-06-28 2018-05-08 Divx, Llc Systems, methods, and media for streaming media content
US10595031B2 (en) * 2013-07-12 2020-03-17 Qualcomm Incorporated Selection of target output layers in high efficiency video coding extensions
US9270721B2 (en) * 2013-10-08 2016-02-23 Qualcomm Incorporated Switching between adaptation sets during media streaming
CN112887735B (zh) * 2014-01-03 2024-04-02 康普英国有限公司 用于hevc扩展处理的条件解析扩展语法
JP2015136060A (ja) * 2014-01-17 2015-07-27 ソニー株式会社 通信装置、通信データ生成方法、および通信データ処理方法
JP2015136057A (ja) * 2014-01-17 2015-07-27 ソニー株式会社 通信装置、通信データ生成方法、および通信データ処理方法
CN111416984A (zh) * 2014-01-29 2020-07-14 皇家Kpn公司 建立事件的流传输呈现
GB2524726B (en) * 2014-03-25 2018-05-23 Canon Kk Image data encapsulation with tile support
EP3127334B1 (en) * 2014-03-31 2020-10-21 British Telecommunications public limited company Multicast streaming
US9866878B2 (en) 2014-04-05 2018-01-09 Sonic Ip, Inc. Systems and methods for encoding and playing back video at different frame rates using enhancement layers
JP2017517180A (ja) * 2014-04-09 2017-06-22 エルジー エレクトロニクス インコーポレイティド 放送信号送/受信処理方法及び装置
WO2016059060A1 (en) 2014-10-14 2016-04-21 Koninklijke Kpn N.V. Managing concurrent streaming of media streams
US9667885B2 (en) * 2014-12-12 2017-05-30 Futurewei Technologies, Inc. Systems and methods to achieve interactive special effects
KR102473346B1 (ko) * 2015-06-23 2022-12-05 삼성전자주식회사 디지털 방송 서비스 방법 및 장치
TWI574547B (zh) * 2015-11-18 2017-03-11 緯創資通股份有限公司 立體影像的無線傳輸系統、方法及其裝置
KR102248185B1 (ko) * 2016-02-02 2021-05-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 비디오 스트리밍의 관심 장면 섹션 및 영역 처리
JP6669403B2 (ja) * 2016-06-03 2020-03-18 キヤノン株式会社 通信装置、通信制御方法および通信システム
US10193944B2 (en) * 2016-06-17 2019-01-29 Q Technologies Inc. Systems and methods for multi-device media broadcasting or recording with active control
CN107634930B (zh) * 2016-07-18 2020-04-03 华为技术有限公司 一种媒体数据的获取方法和装置
US10743004B1 (en) * 2016-09-01 2020-08-11 Amazon Technologies, Inc. Scalable video coding techniques
US10743003B1 (en) * 2016-09-01 2020-08-11 Amazon Technologies, Inc. Scalable video coding techniques
US10498795B2 (en) 2017-02-17 2019-12-03 Divx, Llc Systems and methods for adaptive switching between multiple content delivery networks during adaptive bitrate streaming
US9872062B1 (en) * 2017-02-22 2018-01-16 Wyse Technology L.L.C. Enforcing synchronization by embedding audio within video frame data
GB2560921B (en) * 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
CN110035316B (zh) * 2018-01-11 2022-01-14 华为技术有限公司 处理媒体数据的方法和装置
US11310303B2 (en) * 2019-10-01 2022-04-19 Tencent America LLC Methods and apparatuses for dynamic adaptive streaming over HTTP
CN111726647B (zh) * 2020-06-17 2023-05-26 京东方科技集团股份有限公司 数据分流设备和数据处理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101416519A (zh) * 2006-03-29 2009-04-22 汤姆森特许公司 多视图视频编码方法和装置
CN101548548A (zh) * 2006-10-20 2009-09-30 诺基亚公司 用于在视频编码中提供画面输出指示的系统和方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8711923B2 (en) 2002-12-10 2014-04-29 Ol2, Inc. System and method for selecting a video encoding format based on feedback data
US7447331B2 (en) 2004-02-24 2008-11-04 International Business Machines Corporation System and method for generating a viewable video index for low bandwidth applications
WO2008140190A1 (en) 2007-05-14 2008-11-20 Samsung Electronics Co, . Ltd. Method and apparatus for encoding and decoding multi-view image
EP2332337A4 (en) 2008-10-07 2014-01-01 Ericsson Telefon Ab L M MEDIA CONTAINER FILE
KR20100040640A (ko) 2008-10-10 2010-04-20 엘지전자 주식회사 수신 시스템 및 데이터 처리 방법
CN104702960B (zh) 2009-01-26 2018-01-02 汤姆森特许公司 用于视频解码的装置
US20100259595A1 (en) 2009-04-10 2010-10-14 Nokia Corporation Methods and Apparatuses for Efficient Streaming of Free View Point Video
EP2582142B1 (en) * 2010-06-09 2017-03-15 Samsung Electronics Co., Ltd Method for providing fragment-based multimedia streaming service and device for same, and method for receiving fragment-based multimedia streaming service and device for same
US9226045B2 (en) 2010-08-05 2015-12-29 Qualcomm Incorporated Signaling attributes for network-streamed video data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101416519A (zh) * 2006-03-29 2009-04-22 汤姆森特许公司 多视图视频编码方法和装置
CN101548548A (zh) * 2006-10-20 2009-09-30 诺基亚公司 用于在视频编码中提供画面输出指示的系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Flexible Client-Driven 3DTV System for Real-Time Acquisition, Transmission, and Display of Dynamic Scenes;Xun Cao et al.;《EURASIP Journal on Advances in Signal Processing》;20081231;全文 *
A Standards-Based, Flexible, End-to-End Multi-View Video Streaming Architecture;Engin Kurutepe et al.;《Packet Video 2007》;IEEE;20071113;摘要、第2页左栏第II部分-第4页右栏第V部分A节 *
Interactive Multi-View Video and View-Dependent Audio Under MPEG-21 DIA( Digital Item Adaptation);Ilkwon Park et al.;《3DTV CONFERENCE》;20071231;第1部分,第2.1部分,第3.1-3.4部分 *

Also Published As

Publication number Publication date
KR20130056296A (ko) 2013-05-29
BR112013002693A2 (pt) 2016-05-31
CN103053159B (zh) 2016-10-26
JP2013537763A (ja) 2013-10-03
JP5607251B2 (ja) 2014-10-15
US9226045B2 (en) 2015-12-29
US20120033037A1 (en) 2012-02-09
KR101442996B1 (ko) 2014-09-24
US20120036544A1 (en) 2012-02-09
EP2601789A1 (en) 2013-06-12
KR101645780B1 (ko) 2016-08-04
ES2905128T3 (es) 2022-04-07
ES2903112T3 (es) 2022-03-31
BR112013002693B1 (pt) 2021-10-26
WO2012018953A1 (en) 2012-02-09
US9716920B2 (en) 2017-07-25
WO2012018951A1 (en) 2012-02-09
KR20150013938A (ko) 2015-02-05
EP2601790A1 (en) 2013-06-12
EP2601789B1 (en) 2021-12-22
JP2015111897A (ja) 2015-06-18
JP5866359B2 (ja) 2016-02-17
KR20130056297A (ko) 2013-05-29
JP2013537762A (ja) 2013-10-03
EP2601790B1 (en) 2021-12-22
CN103081464A (zh) 2013-05-01
CN103053159A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN103081464B (zh) 用信号传递网络串流传输视频数据的属性
CN102804773B (zh) 在mpeg‑2系统中组合多视角视频译码子位流
JP5602854B2 (ja) Mvc動作点の特性をシグナリングすること
JP5551315B2 (ja) ビデオデータをストリーミングするためのサブトラックフラグメントの配列
JP5378599B2 (ja) Mpeg−2システムにおけるマルチビュービデオコーディング
US9602802B2 (en) Providing frame packing type information for video coding
CN110036641A (zh) 虚拟现实视频中的用信号表示的感兴趣区域或视点的优选呈现
CN102714715B (zh) 用于文件格式轨迹选择的媒体提取器轨迹
JP2016538760A (ja) Mpeg−2システムを使用したビデオコーディング規格拡張ビットストリームデータの搬送
JP2017535176A (ja) 階層化されたhevcビットストリームの搬送のための動作点

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant