CN110832872B - 使用用于文件格式方框的通用描述符处理媒体数据 - Google Patents
使用用于文件格式方框的通用描述符处理媒体数据 Download PDFInfo
- Publication number
- CN110832872B CN110832872B CN201880044662.5A CN201880044662A CN110832872B CN 110832872 B CN110832872 B CN 110832872B CN 201880044662 A CN201880044662 A CN 201880044662A CN 110832872 B CN110832872 B CN 110832872B
- Authority
- CN
- China
- Prior art keywords
- box
- media
- data
- descriptor
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 55
- 230000006978 adaptation Effects 0.000 claims abstract description 94
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 89
- 238000003860 storage Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000000153 supplemental effect Effects 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 41
- 239000012634 fragment Substances 0.000 description 37
- 238000005538 encapsulation Methods 0.000 description 31
- 238000002360 preparation method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 14
- 238000009877 rendering Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 230000011664 signaling Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 101100412093 Schizosaccharomyces pombe (strain 972 / ATCC 24843) rec16 gene Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000012092 media component Substances 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
- H04N21/2353—Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/23439—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2362—Generation or processing of Service Information [SI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/26258—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Abstract
在一个实例中,一种用于检索媒体数据的装置包含:存储器,其经配置以存储媒体数据;及处理器,其实施于电路系统中且经配置以进行以下操作:处理包含所述媒体数据的媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;根据表示所述文件层级信息的所述数据而确定是否应检索所述适配集的所述媒体数据;及响应于确定应检索所述媒体数据而发送检索所述媒体数据的请求。
Description
本申请案主张2017年7月10日申请的美国临时申请案第62/530,761号及2018年7月9日申请的美国申请案第16/030,387号的权益,所述申请案的全部内容是以引用的方式并入。
技术领域
本发明涉及经编码视频数据的存储及输送。
背景技术
数字视频能力可并入至广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(personal digital assistant,PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话、视频电话会议装置等等。数字视频装置实施视频压缩技术,例如描述于由MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4、Part 10、高级视频译码(Advanced VideoCoding,AVC)、ITU-T H.265(也被称作高效率视频译码(High Efficiency Video Coding,HEVC))及此类标准的扩展所定义的标准中的那些技术,从而更有效地传输及接收数字视频信息。
在视频数据已经编码之后,可将视频数据包化以供传输或存储。可将视频数据汇编成符合多种标准中的任一者的视频文件,所述标准是例如国际标准化组织(International Organization for Standardization,ISO)基本媒体文件格式及其扩展,例如AVC。
发明内容
一般来说,本发明描述用于文件格式方框的通用描述符的各种实例设计,其可用以便利地将文件格式层级信息暴露至HTTP动态自适应流式处理(DASH)的媒体呈现描述(MPD)、会话描述协议(SDP)及其它此类流式处理协议中。所述设计从文件格式方框提供自动化描述符产生以稍后避免复杂定义且还避免失配。尽管在DASH及ISO基本媒体文件格式的内容背景中描述构想,但机制适用于其它媒体容器文件格式及其它媒体传送格式及协议。
在一个实例中,一种检索媒体数据的方法包含:处理媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;根据表示所述文件层级信息的所述数据而确定是否应检索所述适配集的所述媒体数据;及响应于确定应检索所述媒体数据而发送检索所述媒体数据的请求。
在另一实例中,一种用于检索媒体数据的装置包含:存储器,其经配置以存储媒体数据;及处理器,其实施于电路系统中且经配置以进行以下操作:处理包含所述媒体数据的媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;根据表示所述文件层级信息的所述数据而确定是否应检索所述适配集的所述媒体数据;及响应于确定应检索所述媒体数据而发送检索所述媒体数据的请求。
在另一实例中,一种用于检索媒体数据的装置包含:用于处理媒体内容的清单文件的描述符的装置,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;用于根据表示所述文件层级信息的所述数据而确定是否应检索所述适配集的所述媒体数据的装置;及用于响应于确定应检索所述媒体数据而发送检索所述媒体数据的请求的装置。
在另一实例中,一种计算机可读存储媒体在其上存储有指令,所述指令在执行时使处理器进行以下操作:处理媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;根据表示所述文件层级信息的所述数据而确定是否应检索所述适配集的所述媒体数据;及响应于确定应检索所述媒体数据而发送检索所述媒体数据的请求。
在另一实例中,一种产生媒体数据的方法包含:处理文件层级信息的方框,所述文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;产生所述媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及向客户端装置发送包含所述描述符的所述清单文件。
在另一实例中,一种用于产生媒体数据的装置包含:存储器,其经配置以存储媒体数据;及处理器,其实施于电路系统中且经配置以进行以下操作:处理文件层级信息的方框,所述文件层级信息描述包含所述媒体数据的媒体内容的媒体文件的播放轨的属性;产生所述媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及向客户端装置发送包含所述描述符的所述清单文件。
在另一实例中,一种用于产生媒体数据的装置包含:用于处理文件层级信息的方框的装置,所述文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;用于产生所述媒体内容的清单文件的描述符的装置,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及用于向客户端装置发送包含所述描述符的所述清单文件的装置。
在另一实例中,一种计算机可读存储媒体在其上存储有指令,所述指令在执行时使处理器进行以下操作:处理文件层级信息的方框,所述文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;产生所述媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及向客户端装置发送包含所述描述符的所述清单文件。
在以下附图及具体实施方式中阐述一或多个实例的细节。其它特征、目标及优点将从具体实施方式及附图以及权利要求书显而易见。
附图说明
图1为绘示实施用于经由网络来流式处理媒体数据的技术的实例系统的框图。
图2为绘示检索单元的一组实例组件的框图。
图3为绘示实例多媒体内容的元素的概念图。
图4为绘示实例视频文件的元素的框图,所述实例视频文件可对应于表示的区段。
图5为绘示用于DASH多播放轨的实例内容模型的概念图。
图6为绘示实例客户端模型的概念图。
图7为绘示根据本发明的技术的用于产生媒体数据及用于检索媒体数据的实例方法的流程图。
具体实施方式
本发明的技术可应用于符合根据ISO基本媒体文件格式(ISO base media fileformat,ISOBMFF)、对ISOBMFF的扩展、可缩放视频译码(Scalable Video Coding,SVC)文件格式、高级视频译码(AVC)文件格式、高效视频译码(HEVC)文件格式、第三代合作伙伴计划(Third Generation Partnership Project,3GPP)文件格式,及/或多视图视频译码(Multiview Video Coding,MVC)文件格式或其它视频文件格式中的任一者封装的视频数据的视频文件。ISO BMFF的草案指定于可从phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip获得的ISO/IEC 14496-12中。另一实例文件格式,MPEG-4文件格式的草案指定于可从wg11.sc29.org/doc_end_user/documents/115_Geneva/wg11/w16169-v2-w16169.zip获得的ISO/IEC 14496-15中。
ISOBMFF用作例如AVC文件格式的许多编解码器封装格式以及用于例如MPEG-4文件格式、3GPP文件格式(3GP)及数字视频广播(DVB)文件格式的许多多媒体容器格式的的基础。
除了例如音频及视频的连续媒体以外,例如图像的静态媒体以及元数据也可存储于符合ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多用途,包含本地媒体文件回放、远程文件的渐进式下载、用于HTTP动态自适应流式处理(DASH)的区段、用于待流式处理的内容及其包化指令的容器,及接收的实时媒体流的记录。
方框为ISOBMFF中的基本语法结构,包含四字符译码方框类型、方框的字节计数及有效负载。ISOBMFF文件包含方框序列,且方框可含有其它方框。根据ISOBMFF,电影方框(“moov”)含有存在于文件中的连续媒体流的元数据,每一连续媒体流在文件中被表示为播放轨。根据ISOBMFF,将用于播放轨的元数据围封于播放轨方框(“trak”)中,而将播放轨的媒体内容围封于媒体数据方框(“mdat”)中或直接提供于单独文件中。用于播放轨的媒体内容包含样本序列,例如音频或视频存取单元。
ISOBMFF指定以下类型的播放轨:媒体播放轨,其含有基本媒体流;提示播放轨,其包含媒体传输指令或表示接收的数据包流;及计时元数据播放轨,其包括时间同步的元数据。
虽然最初针对存储而设计,但ISOBMFF已证明对于流式处理,例如对于渐进式下载或DASH很有价值。出于流式处理目的,可使用在ISOBMFF中定义的电影片段。
每一播放轨的元数据包含样本描述条目的列表,每一样本描述条目提供在播放轨中使用的译码或封装格式及对于处理所述格式所需要的初始化数据。每一样本与播放轨的样本描述条目中的一者相关联。
ISOBMFF实现通过各种机制指定的样本特定元数据。样本表方框(“stbl”)内的特定方框已经标准化以响应普通需求。举例来说,同步样本方框(“stss”)用以列举播放轨的随机存取样本。样本分组机制实现根据四字符分组类型将样本映射成共享被指定为文件中的样本群组描述条目的相同属性的样本群组。已在ISOBMFF中指定若干分组类型。
虚拟实境(virtual reality,VR)为虚拟地存在于通过显现自然及/或合成图像及与沉浸用户的移动相关的声音而创建的虚拟非物理世界中的能力,从而允许与虚拟世界交互。在显现装置中的最新进展(例如头戴式显示器(head mounted display,HMD))及VR视频(常常也被称作360度视频)创建的情况下,可提供显著体验质量。VR应用包含游戏、训练、教育、运动视频、在线购物、娱乐等等。
典型VR系统包含如下组件及步骤:
1)相机套件,其通常包含在不同方向上指向,理想地共同覆盖围绕所述相机套件的所有视点的多个个别相机。
2)图像拼接,其中由多个个别相机拍摄的视频图片在时域中经同步并在空间域中拼接,以形成球体视频,但映射至矩形格式,例如等矩形(如世界地图)或立方体映射。
3)映射矩形格式中的视频是使用视频编解码器,例如H.265/HEVC或H.264/AVC,来编码/压缩。
4)经压缩视频位流可以媒体格式存储及/或封装且经由网络传输(可能仅覆盖由用户看见的有时被称作视区的区域子集)至接收装置(例如客户端装置)。
5)接收装置接收可能以文件格式封装的视频位流或其部分,且将经解码视频信号或其部分发送至显现装置(其可与接收装置包含于同一客户端装置中)。
6)显现装置可为例如HMD,其可跟踪头部移动及甚至眼睛移动的时刻,且可显现视频的对应部分,使得向用户提供沉浸式体验。
全向媒体格式(Omnidirectional MediA Format,OMAF)为由动画专家组(MovingPictures Experts Group,MPEG)开发以定义实现全向媒体应用的媒体格式,其聚焦于具有360度视频及相关联音频的VR应用。OMAF指定可用于将球体或360度视频转换成二维矩形视频的投影方法,继而如何使用ISO基本媒体文件格式(ISOBMFF)存储全向媒体及相关联元数据,及如何使用HTTP动态自适应流式处理(DASH)封装、用信号发送及流式处理全向媒体,及最终哪些视频及音频编解码器以及媒体译码配置可用于压缩及回放全向媒体信号的列表。OMAF将成为ISO/IEC 23090-2,且草案规范可从wg11.sc29.org/doc_end_user/documents/119_Torino/wg11/m40849-v1-m40849_OMAF_text_Berlin_output.zip获得。
在例如DASH的HTTP流式处理协议中,频繁使用的操作包含HEAD、GET及部分GET。HEAD操作检索与给定统一资源定位符(uniform resource locator,URL)或统一资源名称(uniform resource name,URN)相关联的文件的标头,但不检索与URL或URN相关联的有效负载。GET操作检索与给定URL或URN相关的整个文件。部分GET操作接收字节范围作为输入参数且检索文件的连续数目个字节,其中字节的数目对应于所接收字节范围。因此,可提供电影片段以用于HTTP流式处理,这是因为部分GET操作能够得到一或多个个别电影片段。在电影片段中,可能存在不同播放轨的若干播放轨片段。在HTTP流式处理中,媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求及下载媒体数据信息以向用户呈现流式处理服务。
DASH指定于ISO/IEC 23009-1中,且为用于HTTP(自适应)流式处理应用的标准。ISO/IEC 23009-1主要指定媒体呈现描述(media presentation description,MPD)的格式(也被称为清单或清单文件)及媒体区段格式。MPD描述可在服务器上得到的媒体且允许DASH客户端在适当媒体时间自主地下载适当媒体版本。
在使用HTTP流式处理来流式处理3GPP数据的实例中,可能存在多媒体内容的视频及/或音频数据的多个表示。如下文所阐释,不同表示可对应于不同编码特性(例如视频译码标准的不同配置文件或层级)、不同译码标准或译码标准的扩展(例如多视图及/或可缩放扩展)或不同位速率。这些表示的清单可在媒体呈现描述(MPD)数据结构中定义。媒体呈现可对应于HTTP流式处理客户端装置可存取的数据的结构化集合。HTTP流式处理客户端装置可请求及下载媒体数据信息以向客户端装置的用户呈现流式处理服务。媒体呈现可在MPD数据结构中描述,MPD数据结构可包含MPD的更新。
媒体呈现可含有一或多个周期的序列。每一周期可延伸直到下一周期开始为止,或在最末周期的情况下,直到媒体呈现结束为止。每一周期可含有针对同一媒体内容的一或多个表示。表示可为音频、视频、计时文本或其它此类数据的数个替代经编码版本中的一者。表示可因编码类型而异(例如对于视频数据,因位速率、分辨率及/或编解码器而异用于视频数据,及对于音频数据,因位速率的编解码器、语言及/或用于音频数据的编解码器编解码器而异)。术语表示可用以是指经编码音频或视频数据的对应于多媒体内容的特定周期且以特定方式编码的部分。
特定周期的表示可指派至由MPD中的属性(其指示表示所属的适配集)指示的群组。同一适配集中的表示通常被视为彼此的替代例,这是因为客户端装置可在这些表示之间动态地且顺畅地切换,例如以执行带宽适配。举例来说,特定周期的视频数据的每一表示可指派至同一适配集,使得可选择所述表示中的任一者进行解码以呈现对应周期的多媒体内容的媒体数据(例如视频数据或音频数据)。在一些实例中,一个周期内的媒体内容可由来自群组0(如果存在)的一个表示来表示,或由来自每一非零群组的至多一个表示的组合来表示。周期的每一表示的时序数据可相对于所述周期的开始时间来表达。
一表示可包含一或多个区段。每一表示可包含初始化区段,或表示的每一区段可自初始化。当存在时,初始化区段可含有用于存取表示的初始化信息。大体来说,初始化区段不含有媒体数据。区段可由标识符唯一地参考,例如统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI)。MPD可为每一区段提供标识符。在一些实例中,MPD还可提供呈范围属性的形式的字节范围,所述范围属性可对应于可由URL、URN或URI存取的文件内的区段的数据。
可选择不同表示以用于大体上同时检索不同类型的媒体数据。举例来说,客户端装置可选择音频表示、视频表示及计时文本表示,从所述表示检索区段。在一些实例中,客户端装置可选择特定适配集以用于执行带宽适配。即,客户端装置可选择包含视频表示的适配集、包含音频表示的适配集及/或包含计时文本的适配集。替代地,客户端装置可针对某些类型的媒体(例如视频)选择适配集,且直接选择其它类型的媒体(例如音频及/或计时文本)的表示。
用于基于DASH的HTTP流式处理的典型规程包含以下步骤:
1)DASH客户端获得流式处理内容的MPD,例如电影。MPD包含关于流式处理内容的不同替代表示的信息(例如位速率、视频分辨率、帧速率、音频语言),以及HTTP资源的URL(初始化区段及媒体区段)。
2)基于MPD中的信息及可供DASH客户端使用的本地信息,例如网络带宽、解码/显示能力及用户偏好,DASH客户端请求期望的表示,每次一个区段(或其部分)。
3)当DASH客户端检测到网络带宽变化时,其请求具有较佳匹配位速率的不同表示的区段,理想地从以随机存取点开始的区段开始。
在HTTP流式处理“会话”期间,为对用户请求作出响应以反向寻找过去位置或正向寻找未来位置,DASH客户端请求从接近所要位置开始且理想地开始于随机存取点的区段的过去或未来区段。用户还可请求快速转发内容,其可通过请求仅足够用于解码经帧内译码视频图片或仅足够用于解码视频流的暂态子集的数据实现。
可根据多种视频译码标准而对视频数据进行编码。此类视频译码标准包含ITU-TH.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264或ISO/IEC MPEG-4AVC,包含其可缩放视频译码(SVC)及多视图视频译码(MVC)扩展,及高效视频译码(HEVC),也被称作ITU-T H.265及ISO/IEC23008-2,包含其可缩放译码扩展(即,可缩放高效视频译码,SHVC)及多视图扩展(即,多视图高效视频译码,MV-HEVC)。
OMAF草案规范描述用于OMAF的各种DASH描述符。OMAF草案规范的第8.2.1条款指定投影格式(projection format,PF)描述符。OMAF草案规范的第8.2.2条款指定逐区域包装(region-wise packing,RWPK)描述符。OMAF草案规范的第8.2.3条款指定内容覆盖(content coverage,CC)描述符。OMAF草案规范的第8.2.4条款指定逐区域质量排名(region-wise quality ranking,RWQR)描述符。
图1为绘示实施用于经由网络来流式处理媒体数据的技术的实例系统10的框图。在此实例中,系统10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40及服务器装置60通过网络74以通信方式耦合,所述网络可包括互联网。在一些实例中,内容准备装置20与服务器装置60还可通过网络74或另一网络耦合,或可直接以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60可包括同一装置。
在图1的实例中,内容准备装置20包括音频源22及视频源24。音频源22可包括例如麦克风,其产生表示将由音频编码器26编码的所捕获音频数据的电信号。替代地,音频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化合成器的音频数据产生器或任何其它音频数据源。视频源24可包括:视频相机,其产生将由视频编码器28编码的视频数据;存储媒体,其编码有先前记录的视频数据;视频数据产生单元,例如计算机图形源;或任何其它视频数据源。内容准备装置20未必在所有实例中均以通信方式耦合至服务器装置60,而可将多媒体内容存储至由服务器装置60读取的单独媒体。
原始音频及视频数据可包括模拟或数字数据。模拟数据在由音频编码器26及/或视频编码器28编码之前可被数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据,且视频源24可同时获得说话参与者的视频数据。在其它实例中,音频源22可包括:包括所存储的音频数据的计算机可读存储媒体;且视频源24可包括:包括所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用于实况、流式处理、实时音频及视频数据或所存档的、预先记录的音频及视频数据。
对应于视频帧的音频帧通常为含有由音频源22捕获(或产生)的音频数据的音频帧,音频数据同时伴随含于视频帧内的由视频源24捕获(或产生)的视频数据。举例来说,当说话参与者通常通过说话而产生音频数据时,音频源22捕获音频数据,且视频源24同时(即,在音频源22正捕获音频数据的同时)捕获说话参与者的视频数据。因此,音频帧在时间上可对应于一或多个特定视频帧。因此,对应于视频帧的音频帧大体上对应于同时捕获到的音频数据及视频数据且音频帧及视频帧分别包括同时捕获到的音频数据及视频数据的情形。
在一些实例中,音频编码器26可对每一经编码音频帧中表示记录经编码音频帧的音频数据的时间的时间戳进行编码,且类似地,视频编码器28可对每一经编码视频帧中表示记录经编码视频帧的视频数据的时间的时间戳进行编码。在这些实例中,对应于视频帧的音频帧可包括:包括时间戳的音频帧及包括相同时间戳的视频帧。内容准备装置20可包含内部时钟,音频编码器26及/或视频编码器28可根据所述内部时钟产生时间戳,或音频源22及视频源24可使用所述内部时钟以分别使音频数据及视频数据与时间戳相关联。
在一些实例中,音频源22可向音频编码器26发送对应于记录音频数据的时间的数据,且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中,音频编码器26可对经编码音频数据中的序列标识符进行编码以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器28也可使用序列标识符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列标识符可映射或以其它方式与时间戳相关。
音频编码器26通常产生经编码音频数据流,而视频编码器28产生经编码视频数据流。每一个别数据流(不论音频还是视频)可被称作基本流。基本流为表示的单一经数字译码(可能经压缩)分量。举例来说,表示的经译码视频或音频部分可为基本流。基本流可在被封装于视频文件内之前被转换成包化基本流(packetized elementary stream,PES)。在同一表示内,可使用流ID来区分属于一个基本流的PES数据包与属于其它基本流的PES数据包。基本流的数据的基本单元为包化基本流(PES)数据包。因此,经译码视频数据大体上对应于基本视频流。类似地,音频数据对应于一或多个相应基本流。
许多视频译码标准(例如ITU-T H.264/AVC及即将来临的高效视频译码(HEVC)标准)定义无错误位流的语法、语义及解码过程,所述无错误位流中的任一者符合特定配置文件或层级。视频译码标准通常并不指定编码器,但编码器具有保证所产生的位流对于解码器来说是标准相容的任务。在视频译码标准的内容背景中,“配置文件”对应于算法、特征或工具及施加至算法、特征或工具的限制的子集。如由例如H.264标准所定义,“配置文件”为由H.264标准指定的完整位流语法的子集。“层级”对应于解码器资源消耗,例如解码器存储器及计算的限制,所述限制与图片分辨率、位速率及块处理速率相关。配置文件可用profile_idc(配置文件指示符)值被用信号发送,而层级可用level_idc(层级指示符)值被用信号发送。
举例来说,H.264标准认为,在给定配置文件的语法所强加的界限内,仍然可能要求编码器及解码器的性能有较大变化,这取决于位流中的语法元素(例如经解码图片的规定大小)所取的值。H.264标准进一步认为,在许多应用中,实施能够处理特定配置文件内的语法的所有假设使用的解码器既不实际又不经济。因此,H.264标准将“层级”定义为强加于位流中的语法元素的值的一组特定约束。这些约束可为对值的简单限制。替代地,这些约束可呈对值的算术组合(例如图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定,个别实施方案对于每一所支持配置文件可支持不同层级。
符合配置文件的解码器一般支持配置文件中所定义的所有特征。举例来说,作为译码特征,B图片译码在H.264/AVC的基线配置文件不被支持,但在H.264/AVC的其它配置文件中被支持。符合层级的解码器应能够对不需要超出所述层级中所定义的限制的资源的任何位流进行解码。配置文件及层级的定义可对可解释性有帮助。举例来说,在视频传输期间,可针对整个传输会话协商及同意一对配置文件定义及层级定义。更具体地说,在H.264/AVC中,层级可定义对于需要处理的宏块的数目、经解码图片缓冲器(decoded picturebuffer,DPB)大小、经译码图片缓冲器(coded picture buffer,CPB)大小、竖直运动向量范围、每两个连续MB的运动向量的最大数目及B块是否可具有小于8×8像素的子宏块分区的限制。以此方式,解码器可确定解码器是否能够适当地对位流进行解码。
在图1的实例中,内容准备装置20的封装单元30从视频编码器28接收包括经译码视频数据的基本流,且从音频编码器26接收包括经译码音频数据的基本流。在一些实例中,视频编码器28及音频编码器26可各自包含用于从经编码数据形成PES数据包的包化器。在其它实例中,视频编码器28及音频编码器26可各自与用于从经编码数据形成PES数据包的相应包化器介接。在另外其它实例中,封装单元30可包含用于从经编码音频及视频数据形成PES数据包的包化器。
视频编码器28可以多种方式对多媒体内容的视频数据进行编码,从而以各种位速率且以各种特性产生多媒体内容的不同表示,所述特性是例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种配置文件及/或配置文件层级的符合性、具有一或多个视图的表示(例如对于二维或三维回放)或其它此类特性。如本发明中所使用,表示可包括音频数据、视频数据、文本数据(例如用于隐藏式字幕)或其它此类数据中的一者。表示可包含例如音频基本流或视频基本流的基本流。每一PES数据包可包含stream_id,所述stream_id标识PES数据包所属的基本流。封装单元30负责将基本流汇编成各种表示的视频文件(例如区段)。
封装单元30从音频编码器26及视频编码器28接收表示的基本流的PES数据包且从所述PES数据包形成对应网络抽象层(NAL)单元。经译码视频区段可经组织成NAL单元,其提供“网络友好”视频表示寻址应用程序,例如视频电话、存储、广播或流式处理。NAL单元可被分类为视频译码层(VCL)NAL单元及非VCL NAL单元。VCL单元可含有核心压缩引擎,且可包含块、宏块及/或切片层级数据。其它NAL单元可为非VCL NAL单元。在一些实例中,一个时间实例中的经译码图片(通常呈现为初级经译码图片)可包括于存取单元中,所述存取单元可包含一或多个NAL单元。
非VCL NAL单元可尤其包含参数集NAL单元及SEI NAL单元。参数集可含有序列层级标头信息(在序列参数集(SPS)中)及不频繁改变的图片层级标头信息(在图片参数集(PPS)中)。对于参数集(例如PPS及SPS),不频繁改变的信息不需要关于每一序列或图片重复,因此可改进译码效率。此外,使用参数集可实现重要标头信息的带外传输,从而避免对于用于抗误码的冗余传输的需要。在带外传输实例中,参数集NAL单元可在与其它NAL单元(例如SEI NAL单元)不同的信道上传输。
补充增强信息(SEI)可含有对于对来自VCL NAL单元的经译码图片样本进行解码并非必需的信息,但可辅助与解码、显示、抗误码及其它目的相关的过程。SEI消息可含于非VCL NAL单元中。SEI消息为一些标准规范的标准化部分,且因此对于标准相容的解码器实施方案并非始终是强制的。SEI消息可为序列层级SEI消息或图片层级SEI消息。某一序列层级信息可含于SEI消息中,例如SVC的实例中的可缩放性信息SEI消息,及MVC中的视图可缩放性信息SEI消息。这些实例SEI消息可传达关于例如操作点的提取及操作点的特性的信息。另外,封装单元30可形成清单文件,例如描述表示的特性的媒体呈现描述符(MPD)。封装单元30可根据可扩展标记语言(extensible markup language,XML)来格式化MPD。
封装单元30可向输出接口32提供多媒体内容的一或多个表示的数据以及清单文件(例如MPD)。输出接口32可包括网络接口或用于对存储媒体进行写入的接口,例如通用串行总线(universal serial bus,USB)接口、CD或DVD写入器或刻录机、至磁性或快闪存储媒体的接口,或用于存储或传输媒体数据的其它接口。封装单元30可向输出接口32提供多媒体内容的表示中的每一者的数据,所述输出接口可经由网络传输或存储媒体向服务器装置60发送所述数据。在图1的实例中,服务器装置60包含存储各种多媒体内容64的存储媒体62,每一多媒体内容包含相应清单文件66及一或多个表示68A至68N(表示68)。在一些实例中,输出接口32还可将数据直接发送至网络74。
在一些实例中,表示68可被分成若干适配集。即,表示68的各种子集可包含相应共同特性集合,例如编解码器、配置文件及层级、分辨率、视图数目、区段的文件格式、可标识将与待解码及呈现的表示及/或音频数据(例如由扬声器发出)一起显示的文本的语言或其它特性的文本类型信息、可描述针对适配集中的表示的场景的相机角度或真实世界相机视角的相机角度信息、描述对于特定观众的内容合适性的分级信息,或其类似信息。
清单文件66可包含指示对应于特定适配集的表示68的子集以及所述适配集的共同特性的数据。清单文件66还可包含表示适配集的个别表示的个别特性(例如位速率)的数据。以此方式,适配集可提供简化的网络带宽适配。适配集中的表示可使用清单文件66的适配集元素的子代元素来指示。
服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60的特征中的任一者或全部可在内容递送网络的其它装置(例如路由器、网桥、代理装置、交换机或其它装置)上实施。在一些实例中,内容递送网络的中间装置可高速缓冲存储多媒体内容64的数据,且包含大体上符合服务器装置60的那些组件的组件。一般来说,网络接口72经配置以经由网络74发送及接收数据。
请求处理单元70经配置以从例如客户端装置40的客户端装置接收对存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施超文本传送协议(hypertexttransfer protocol,HTTP)版本1.1,如RFC 2616中R.Fielding等人于1999年6月在NetworkWorking Group,IETF的“Hypertext Transfer Protocol-HTTP/1.1,”中所描述。即,请求处理单元70可经配置以接收HTTP GET或部分GET请求,且响应于所述请求而提供多媒体内容64的数据。请求可指定表示68中的一者的区段,例如使用区段的URL。在一些实例中,所述请求还可指定区段的一或多个字节范围,因此包括部分GET请求。请求处理单元70可经进一步配置以服务于HTTP HEAD请求以提供表示68中的一者的区段的标头数据。在任何情况下,请求处理单元70可经配置以处理请求,以向例如客户端装置40的请求装置提供所请求数据。
另外或替代地,请求处理单元70可经配置以经由例如eMBMS的广播或多播协议而递送媒体数据。内容准备装置20可用与所描述大体上相同的方式创建DASH区段及/或子区段,但服务器装置60可使用eMBMS或另一广播或多播网络输送协议来递送这些区段或子区段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。即,服务器装置60可向与特定媒体内容(例如实况事件的广播)相关联的客户端装置,包含客户端装置40,通告与多播群组相关联的互联网协议(Internet protocol,IP)地址。客户端装置40又可呈送加入多播群组的请求。此请求可遍及网络74,例如构成网络74的路由器传播,使得促使所述路由器将去往与多播群组相关的IP地址的业务导向至订阅的客户端装置,例如客户端装置40。
如图1的实例中所绘示,多媒体内容64包含清单文件66,所述清单文件可对应于媒体呈现描述(MPD)。清单文件66可含有不同替代表示68(例如具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值、层级值、位速率及表示68的其它描述性特性。客户端装置40可检索媒体呈现的MPD以确定如何存取表示68的区段。
具体地说,检索单元52可检索客户端装置40的配置数据(未展示)以确定视频解码器48的解码能力及视频输出44的显现能力。配置数据还可包含由客户端装置40的用户选择的语言偏好中的任一者或全部、对应于由客户端装置40的用户设定的深度偏好的一或多个相机视角及/或由客户端装置40的用户选择的分级偏好。举例来说,检索单元52可包括网页浏览器或媒体客户端,其经配置以提交HTTP GET及部分GET请求。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(未展示)执行的软件指令。在一些实例中,关于检索单元52所描述的功能性的全部或部分可在硬件或硬件、软件及/或固件的组合中实施,其中可提供必需的硬件以执行软件或固件的指令。
检索单元52可将客户端装置40的解码及显现能力与由清单文件66的信息所指示的表示68的特性进行比较。检索单元52可最初检索列表文件66的至少一部分以确定表示68的特性。举例来说,检索单元52可请求描述一或多个适配集的特性的清单文件66的部分。检索单元52可选择表示68中具有可由客户端装置40的译码及显现能力满足的特性的子集(例如适配集)。检索单元52可接着确定用于适配集中的表示的位速率,确定网络带宽的当前可用量,且从表示中具有可由网络带宽满足的位速率的表示检索区段。
一般来说,较高位速率表示可产生较高质量的视频回放,而较低位速率表示可在可用网络带宽减少时提供足够质量的视频回放。因此,当可用网络带宽相对高时,检索单元52可从相对高位速率的表示检索数据,而当可用网络带宽较低时,检索单元52可从相对低位速率的表示检索数据。以此方式,客户端装置40可经由网络74来流式处理多媒体数据,同时还适应于网络74的改变的网络带宽可用性。
另外或替代地,检索单元52可经配置以根据例如eMBMS或IP多播的广播或多播网络协议来接收数据。在这些实例中,检索单元52可呈送加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后,检索单元52可在另外请求未发布至服务器装置60或内容准备装置20的情况下接收多播群组的数据。检索单元52可呈送当不再需要多播群组的数据时离开多播群组的请求,例如停止回放或将信道改变至不同多播群组。
网络接口54可接收选定表示的区段的数据且将所述数据提供至检索单元52,所述检索单元又可将所述区段提供至解封装单元50。解封装单元50可将视频文件的元素解封装成组成性PES流,解包化所述PES流以检索经编码数据,且取决于经编码数据为音频流还是视频流的部分(例如如由流的PES数据包标头所指示)而将经编码数据发送至音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码,且将经解码音频数据发送至音频输出42,而视频解码器48对经编码视频数据进行解码,且将经解码视频数据发送至视频输出44,经解码视频数据可包含流的多个视图。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52及解封装单元50各自可被实施为适用的多种合适处理电路系统中的任一者,合适处理电路系统是例如一或多个微处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)、离散逻辑电路系统、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式视频编码器/解码器(encoder/decoder,CODEC)的部分。同样地,音频编码器26及音频解码器46中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式CODEC的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、封装单元30、检索单元52及/或解封装单元50的设备可包括集成电路、微处理器及/或无线通信装置,例如蜂窝电话。
客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本发明的技术操作。出于实例的目的,本发明关于客户端装置40及服务器装置60描述这些技术。然而,应理解,代替服务器装置60(或除了服务器装置60以外),内容准备装置20也可经配置以执行这些技术。
封装单元30可形成NAL单元,所述NAL单元包括标识NAL所属的程序的标头,以及有效负载,例如音频数据、视频数据或描述NAL单元对应于的输送或程序流的数据。举例来说,在H.264/AVC中,NAL单元包含1字节标头及不同大小的有效负载。在有效负载中包含视频数据的NAL单元可包括各种粒度水平的视频数据。举例来说,NAL单元可包括视频数据块、多个块、视频数据的切片或视频数据的整个图片。封装单元30可从视频编码器28接收呈基本流的PES数据包的形式的经编码视频数据。封装单元30可使每一基本流与对应过程相关联。
封装单元30还可汇编来自多个NAL单元的存取单元。一般来说,存取单元可包括用于表示视频数据的帧以及当此音频数据可用时对应于所述帧的音频数据的一或多个NAL单元。存取单元大体上包含一个输出时间实例的所有NAL单元,例如一个时间实例的所有音频及视频数据。举例来说,如果每一视图具有20帧每秒(fps)的帧速率,那么每一时间实例可对应于0.05秒的时间间隔。在此时间间隔期间,可同时呈现相同存取单元(相同时间实例)的所有视图的特定帧。在一个实例中,存取单元可包括一个时间实例中的经译码图片,其可呈现为初级经译码图片。
因此,存取单元可包括共同时间实例的所有音频帧及视频帧,例如对应于时间X的所有视图。本发明也将特定视图的经编码图片称为“视图分量”。即,视图分量可包括在特定时间针对特定视图的经编码图片(或帧)。因此,存取单元可被定义为包括共同时间实例的所有视图分量。存取单元的解码次序未必与输出或显示次序相同。
媒体呈现可包含媒体呈现描述(MPD),所述媒体呈现描述可含有不同替代表示(例如具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值及层级值。MPD为清单文件(例如清单文件66)的一个实例。客户端装置40可检索媒体呈现的MPD以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段方框(moof方框)中。
清单文件66(其可包括例如MPD)可公告表示68的区段的可用性。即,MPD可包含指示表示68中的一者的第一区段变得可用时的挂钟时间的信息,以及指示表示68内的区段的持续时间的信息。以此方式,客户端装置40的检索单元52可基于开始时间以及在特定区段之前的区段的持续时间而确定何时每一区段可用。
在封装单元30已基于所接收的数据将NAL单元及/或存取单元汇编成视频文件之后,封装单元30将视频文件传递至输出接口32以供输出。在一些实例中,封装单元30可将视频文件存储在本地,或经由输出接口32将视频文件发送至远程服务器,而非将视频文件直接发送至客户端装置40。输出接口32可包括例如发射器、收发器、用于将数据写入至计算机可读媒体的装置,例如光盘驱动器、磁性媒体驱动器(例如软盘驱动器)、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出至计算机可读媒体,例如传输信号、磁性媒体、光学媒体、存储器、闪存驱动器或其它计算机可读媒体。
网络接口54可经由网络74接收NAL单元或存取单元,且经由检索单元52将NAL单元或存取单元提供至解封装单元50。解封装单元50可将视频文件的元素解封装成组成性PES流,解包化所述PES流以检索经编码数据,且取决于经编码数据为音频流还是视频流的部分(例如如由流的PES数据包标头所指示)而将经编码数据发送至音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码,且将经解码音频数据发送至音频输出42,而视频解码器48对经编码视频数据进行解码,且将经解码视频数据发送至视频输出44,经解码视频数据可包含流的多个视图。
根据本发明的技术,内容准备装置20(或服务器装置60)可构造清单文件66(例如DASH MPD)的表示媒体文件的播放轨的文件层级信息的数据,所述播放轨是例如表示68中的一者的区段的播放轨。表示文件层级信息的数据可表示媒体文件的方框的数据。举例来说,数据可表示方框的四字符代码(four character code,4CC)(也被称作代码点)、方框的版本号及方框的内容。数据可表示方框的所有数据或仅表示方框的相关部分。
在一些实例中,内容准备装置20的封装单元30可从媒体文件的方框的数据自动产生清单文件66的描述符。此描述符可为基本描述符(例如在播放轨包含除了主要媒体分量以外的数据的情况下)或补充描述符(例如在播放轨包含主要媒体分量的情况下)。封装单元30可产生前缀,例如值之前的“urn:mpeg:isobmff-dash:<4cc>:<version>”。<4cc>的值可表示方框的四字符代码,<version>的值可表示方框的版本,且后继值可包含方框自身的数据,即,方框的内容的所有或相关部分。
在此实例中,检索单元52可基于<4cc>及<version>的值而确定如何解析后接于前缀的值。检索单元52可接着使用描述符来确定播放轨的属性,具体地说,后接于前缀的值中表示的方框的内容。检索单元52可进一步确定是否应基于后接于前缀的值而选择播放轨(且具体地说,表示68中的一者或包含对应于包含播放轨的一或多个播放轨的一或多个表示68的适配集)。举例来说,检索单元52可确定客户端装置40是否能够对播放轨的媒体数据进行解码且显现媒体数据,设置表示68(及其播放轨)的优先级,接收表示用户偏好的用户输入,且在可用表示68(及其播放轨)之间进行选择,或根据后接于前缀的值的其它此类选择动作。
另外或替代地,封装单元30可构造清单文件66的可用作清单文件66中的扩展命名空间的元素。封装单元30可产生所述元素,使得方框的所有相关参数可记录于XML描述符中。举例来说,封装单元30可使用元素、属性、强制及任选参数、恰当数据类型等等。检索单元52可以类似于如上文所论述的描述符的方式使用元素及扩展命名空间,例如以选择播放轨(及表示68或包含一或多个表示68的适配集中的对应一者)。
作为又一实例,封装单元30可自动产生如上文所论述的描述符,但遵循用于表达方框中的所有数据而非单一值字段的自动化语法。封装单元30可自动产生描述符的XML或扩充巴克斯-诺尔形式(ABNF)格式化数据。作为实例,封装单元30可构造包括值之前的“urn:mpeg:isobmff-dash:processing”的前缀的描述符,其中所述值定义扩展命名空间标识符。检索单元52可以类似于如上文所论述的描述符或元素的方式使用描述符,例如以选择播放轨(及表示68或包含一或多个表示68的适配集中的对应一者)。
以此方式,内容准备装置20及/或服务器装置60表示一种产生媒体数据的装置的实例,所述装置包括:存储器,其经配置以存储媒体数据;及处理器,其实施于电路系统中且经配置以进行以下操作:处理文件层级信息的方框,文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;产生媒体内容的清单文件的描述符,描述符对应于媒体内容的适配集,且包含表示文件层级信息的方框的数据,播放轨的媒体数据包含于适配集中;及向客户端装置发送包含描述符的清单文件。
同样地,客户端装置40表示一种用于检索媒体数据的装置的实例,所述装置包含:存储器,其经配置以存储媒体数据;及处理器,其实施于电路系统中且经配置以进行以下操作:处理包含媒体数据的媒体内容的清单文件的描述符,描述符对应于媒体内容的适配集,且包含表示文件层级信息的方框的数据,文件层级信息描述包含适配集的媒体数据的媒体内容的媒体文件的播放轨的属性;根据表示文件层级信息的数据而确定是否应检索适配集的媒体数据;及响应于确定应检索媒体数据而发送检索媒体数据的请求。
图2为更详细地绘示图1的检索单元52的组件的实例集合的框图。在此实例中,检索单元52包含eMBMS中间件单元100、DASH客户端110及媒体应用程序112。
在此实例中,eMBMS中间件单元100进一步包含eMBMS接收单元106、高速缓冲存储器104及服务器单元102。在此实例中,eMBMS接收单元106经配置以经由eMBMS接收数据,例如根据T.Paila等人在“FLUTE-经由单向输送的文件传递(FLUTE—File Delivery overUnidirectional Transport)”(网络工作群组,RFC 6726,2012年11月)(可于http://tools.ietf.org/html/rfc6726获得)中所描述的单向输送文件传递(File Delivery overUnidirectional Transport,FLUTE)。即,eMBMS接收单元106可经由广播而从例如可充当BM-SC的服务器装置60接收文件。
当eMBMS中间件单元100接收文件的数据时,eMBMS中间件单元可将所接收的数据存储于高速缓冲存储器104中。高速缓冲存储器104可包括计算机可读存储媒体,例如快闪存储器、硬盘、RAM或任何其它合适存储媒体。
本地服务器单元102可充当DASH客户端110的服务器。举例来说,本地服务器单元102可将MPD文件或其它清单文件提供至DASH客户端110。本地服务器单元102可通告MPD文件中的区段的可用性时间,以及可检索所述区段的超链接。这些超链接可包含对应于客户端装置40的本地主机地址前缀(例如IPv4的127.0.0.1)。以此方式,DASH客户端110可使用HTTP GET或部分GET请求向本地服务器单元102请求区段。举例来说,对于可从链接http://127.0.0.1/rep1/seg3获得的区段,DASH客户端110可构造包含针对http://127.0.0.1/rep1/seg3的请求的HTTP GET请求,且将请求提交至本地服务器单元102。本地服务器102可从高速缓冲存储器104检索所请求的数据且响应于这些请求而将数据提供至DASH客户端110。
DASH客户端110可根据如上文所论述的任何或全部本发明技术而单独地或以任何组合配置。
图3是绘示实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1)或存储于存储媒体62中的另一多媒体内容。在图3的实例中,多媒体内容120包含媒体呈现描述(MPD)122及多个表示124A至124N(表示124)。表示124A包含任选标头数据126及区段128A至128N(区段128),而表示124N包含任选标头数据130及区段132A至132N(区段132)。出于方便起见,使用字母N来指定表示124中的每一者中的最后电影片段。在一些实例中,表示124之间可存在不同数目个电影片段。
MPD 122可包括与表示124分离的数据结构。MPD 122可对应于图1的清单文件66。同样地,表示124可对应于图2的表示68。一般来说,MPD 122可包含大体上描述表示124的特性的数据,例如译码及显现特性、适配集、MPD 122所对应的配置文件、文本类型信息、相机角度信息、分级信息、特技模式信息(例如指示包含暂态子序列的表示的信息)及/或用于检索远程周期(例如用于在回放期间将针对性广告插入至媒体内容中)的信息。
当存在时,标头数据126可描述区段128的特性,例如随机存取点(random accesspoint,RAP,其也被称作流存取点(SAP))的时间位置、区段128中的哪一者包含随机存取点、从区段128内的随机存取点的字节偏移、区段128的统一资源定位符(uniform resourcelocator,URL),或区段128的其它方面。当存在时,标头数据130可描述区段132的类似特性。另外或替代地,这些特性可完全包含于MPD 122内。
区段128、132包含一或多个经译码视频样本,其中的每一者可包含视频数据的帧或切片。区段128的经译码视频样本中的每一者可具有类似特性,例如高度、宽度及带宽要求。此类特性可由MPD 122的数据描述,但此数据在图3的实例中未绘示。MPD 122可包含如3GPP规范所描述的特性,同时添加了本发明中所描述的用信号发送的信息中的任一者或全部。
区段128、132中的每一者可与统一资源定位符(URL)相关联。因此,可使用例如DASH的流式处理网络协议独立地检索区段128、132中的每一者。以此方式,例如客户端装置40的目的地装置可使用HTTP GET请求来检索区段128或132。在一些实例中,客户端装置40可使用HTTP部分GET请求来检索区段128或132的特定字节范围。
MPD 122可包含根据本发明的技术中的任一者或全部单独地或以任何组合构造的数据。
图4为绘示实例视频文件150的元素的框图,实例视频文件可对应于表示的区段,例如图3的区段114、124中的一者。区段128、132中的每一者可包含大体上符合图4的实例中所绘示的数据的布置的数据。视频文件150可被称为封装区段。如上文所描述,根据ISO基本媒体文件格式及其扩展的视频文件将数据存储于一系列对象(被称为“方框”)中。在图4的实例中,视频文件150包含文件类型(FTYP)方框152、电影(MOOV)方框154、区段索引(sidx)方框162、电影片段(MOOF)方框164及电影片段随机存取(movie fragment random access,MFRA)方框166。尽管图4表示视频文件的实例,但应理解,根据ISO基本媒体文件格式及其扩展,其它媒体文件可包含其它类型的媒体数据(例如音频数据、计时文本数据等等),其在结构上类似于媒体文件150的数据。
文件类型(FTYP)方框152通常描述视频文件150的文件类型。文件类型方框152可包含标识描述视频文件150的最佳用途的规范的数据。文件类型方框152可替代地放置于MOOV方框154、电影片段方框164及/或MFRA方框166之前。
在一些实例中,例如视频文件150的区段可包含在FTYP方框152之前的MPD更新方框(未展示)。MPD更新方框可包含指示对应于包含视频文件150的表示的MPD将被更新的信息,以及用于更新MPD的信息。举例来说,MPD更新方框可提供将用以更新MPD的资源的URI或URL。作为另一实例,MPD更新方框可包含用于更新MPD的数据。在一些实例中,MPD更新方框可紧接在视频文件150的区段类型(STYP)方框(未展示)之后,其中STYP方框可定义视频文件150的区段类型。下文更详细地论述的图7提供关于MPD更新方框的额外信息。
在图4的实例中,MOOV方框154包含电影标头(MVHD)方框156、播放轨(TRAK)方框158及一或多个电影扩展(MVEX)方框160。一般来说,MVHD方框156可描述视频文件150的一般特性。举例来说,MVHD方框156可包含描述视频文件150何时最初创建、视频文件150何时经最后修改、视频文件150的时间刻度、视频文件150的回放持续时间的数据,或大体上描述视频150的其它数据。
TRAK方框158可包含视频文件150的播放轨的数据。TRAK方框158可包含播放轨标头(TKHD)方框,其描述对应于TRAK方框158的播放轨的特性。在一些实例中,TRAK方框158可包含经译码视频图片,而在其它实例中,播放轨的经译码视频图片可包含于电影片段164中,其可由TRAK方框158及/或sidx方框162的数据参考。此外,根据本发明的技术,清单文件(例如MPD)可包含表示TRAK方框158的数据的数据,即使是独立于视频文件150。以此方式,客户端装置40(图1)可首先避免检索视频文件150且确定是否应使用清单文件的表示TRAK方框158的的数据来检索视频文件150(或其部分,例如视频文件150的特定播放轨)。
在一些实例中,视频文件150可包含多于一个播放轨。因此,MOOV方框154可包含数目等于视频文件150中的播放轨的数目的TRAK方框。TRAK方框158可描述视频文件150的对应播放轨的特性。举例来说,TRAK方框158可描述对应播放轨的时间及/或空间信息。当封装单元30(图3)包含视频文件(例如视频文件150)中的参数集播放轨时,类似于MOOV方框154的TRAK方框158的TRAK方框可描述参数集播放轨的特性。封装单元30可在描述参数集播放轨的TRAK方框内用信号发送序列层级SEI消息存在于参数集播放轨中。
MVEX方框160可描述对应电影片段164的特性,例如用信号发送视频文件150除了包含MOOV方框154(如果存在)内的视频数据以外还包含电影片段164。在流式处理视频数据的内容背景中,经译码视频图片可包含于电影片段164中,而非包含于MOOV方框154中。因此,所有经译码视频样本可包含于电影片段164中,而非包含于MOOV方框154中。
MOOV方框154可包含数目等于视频文件150中的电影片段164的数目的MVEX方框160。MVEX方框160中的每一者可描述电影片段164中的对应电影片段的特性。举例来说,每一MVEX方框可包含电影扩展标头方框(movie extends header box,MEHD)方框,其描述电影片段164中的对应电影片段的时间持续时间。
如上文所指出,封装单元30可存储视频样本中的序列数据集,其并不包含实际经译码视频数据。视频样本可大体上对应于存取单元,其为在特定时间实例的经译码图片的表示。在AVC的内容背景中,经译码图片包含一或多个VCL NAL单元,其含有用以构造存取单元的所有像素的信息,及其它相关联的非VCL NAL单元(例如SEI消息)。因此,封装单元30可包含电影片段164中的一者中的序列数据集,其可包含序列层级SEI消息。封装单元30可进一步用信号发送存在于电影片段164中的一者中的序列数据集及/或序列层级SEI消息存在于对应于电影片段164中的一者的MVEX方框160中的一者内。
SIDX方框162为视频文件150的任选元素。即,符合3GPP文件格式或其它此类文件格式的视频文件未必包含SIDX方框162。根据3GPP文件格式的实例,SIDX方框可用以标识区段(例如含于视频文件150内的区段)的子区段。3GPP文件格式将子区段定义为“具有一或多个对应媒体数据方框及含有由电影片段方框参考的数据的媒体数据方框的一或多个连续电影片段方框的自含式集合,必须跟在电影片段方框之后,并在含有关于同一播放轨的信息的下一电影片段方框之前”。3GPP文件格式还指示SIDX方框“含有对由方框记录的(子)区段的子区段参考的序列。所参考子区段在呈现时间上邻接。类似地,由区段索引方框参考的字节始终在区段内邻接。所参考大小给出所参考材料中的字节的数目的计数”。
SIDX方框162通常提供表示包含于视频文件150中的区段的一或多个子区段的信息。举例来说,此信息可包含子区段开始及/或结束的回放时间、子区段的字节偏移、子区段是否包含流存取点(SAP)(例如以其开始)、SAP的类型(例如SAP是否是瞬时解码器刷新(IDR)图片、清洁随机存取(CRA)图片、断链存取(BLA)图片等等)、子区段中的SAP的位置(根据回放时间及/或字节偏移)等等。
电影片段164可包含一或多个经译码视频图片。在一些实例中,电影片段164可包含一或多个图片群组(group of picture,GOP),其中的每一者可包含数个经译码视频图片,例如帧或图片。另外,如上文所描述,在一些实例中,电影片段164可包含序列数据集。电影片段164中的每一者可包含电影片段标头方框(MFHD,图4中未展示)。MFHD方框可描述对应电影片段的特性,例如电影片段的序列号。电影片段164可按序列号次序包含于视频文件150中。
MFRA方框166可描述视频文件150的电影片段164内的随机存取点。这可辅助执行特技模式,例如执行对由视频文件150封装的区段内的特定时间位置(即,回放时间)的寻找。在一些实例中,MFRA方框166通常是任选的且无需包含于视频文件中。同样地,例如客户端装置40的客户端装置未必需要参考MFRA方框166来对视频文件150的视频数据进行正确解码及显示。MFRA方框166可包含数个播放轨片段随机存取(track fragment randomaccess,TFRA)方框(未展示),其数目等于视频文件150的播放轨的数目或在一些实例中等于视频文件150的媒体播放轨(例如非提示播放轨)的数目。
在一些实例中,电影片段164可包含一或多个流存取点(SAP),例如IDR图片。同样地,MFRA方框166可提供对SAP在视频文件150内的位置的指示。因此,视频文件150的时间子序列可由视频文件150的SAP形成。所述时间子序列还可包含其它图片,例如取决于SAP的P帧及/或B帧。时间子序列的帧及/或切片可布置于片段内,使得时间子序列的取决于子序列的其它帧/切片的帧/切片可被恰当地解码。举例来说,在数据的层次布置中,用于其它数据的预测的数据也可包含于时间子序列中。
视频文件150可包含根据本发明的技术中的任一者或全部单独地或以任何组合构造的数据。
图5为绘示用于DASH多播放轨的实例内容模型180的概念图。在DASH考虑中技术(Technology under Consideration,TuC)中,已更新关于内容标注及决策的模型以解决对内容的选择。为支持内容原创者来以一致方式提供内容,图5在MPD的一个周期中提供用于DASH内容的概念内容模型。内容可整体上由资产标识符描述且可含有不同媒体类型、视频、音频、副标题及应用程序类型。
特定地说,内容模型180包含由资产描述204描述为完整的内容182。内容182可包含多个各种媒体类型206,例如媒体类型视频184、媒体类型音频186、媒体类型副标题188(也被称作计时文本)及/或媒体类型应用程序190。各种类型的媒体内容可以媒体类型的集合提供,例如媒体类型内容主要方案192、媒体类型内容替代方案(alt)1 194及媒体类型内容alt 2 196。媒体应用程序可选择这些媒体类型集合中的一者,使得媒体类型的集合的汇集可被称作基于应用程序的选择媒体208。这些集合可进一步对应于目标版本适配集200A至200C(目标版本适配集200),客户端装置40可经由基于自动化系统的选择过程210而选择所述目标版本适配集。目标版本适配集200可各自包含各种位速率的相应经编码表示202A至202C,以例如随可用带宽增大或减小而实现动态切换212。
在多个媒体类型206中的每一者内,内容原创者可能想要提供时间对准的不同替代内容(例如媒体类型内容主要方案、媒体类型内容alt 1 194及媒体类型内容alt 2196),但各替代方案表示不同内容。替代内容的自动选择不预期由DASH客户端完成,这是因为DASH客户端将不具有充足的信息以作出此类决策。然而,预期通常使用适合于选择的用户接口来通过与应用程序或用户通信完成选择。
在不存在此外部通信的情况下或在启动时,DASH客户端仍需要回放内容,且因此受益于指示默认内容的信息。此类信号发送应由内容原创者提供。此类默认内容可被称作主要内容(例如媒体类型内容主要方案192),而并非主要的任何内容可被称作替代方案(例如媒体类型内容alt 1 194、媒体类型内容alt 2 196)。可存在可能需要区分的多个替代方案。本发明定义主要及替代内容。此类内容的实例是一个主内容的同步相机视图。主要相机视图被提供为主要内容,所有其它视图被提供为替代内容。
此外,有可能不同媒体类型的内容由内容原创者链接,以表达不同媒体类型的两个内容优选地一起播放。本发明出于此目的而定义相关联内容。作为实例,可存在与主要相机视图相关联的主要注释符,但对于不同相机视图,提供不同相关联注释。
除了语义内容层级分化以外,还可基于内容准备属性(降混、子采样、转换、适合于特技模式等等)、客户端偏好(解码或显现偏好,例如编解码器)、客户端能力(DASH配置文件支持、解码能力、显现能力)或用户偏好(可存取性、语言等等)而以不同目标版本准备各替代内容。在简单AV播出中且在不存在来自应用程序的指南的情况下,内容原创者预期DASH客户端针对每一群组选择至多一个目标版本(例如目标版本适配集200中的一者),同时考虑其能力及偏好及媒体子系统的能力及偏好。然而,应用程序可显然选择多个群组且播出不同视频适配集以支持例如子母画面、多角度等等。
另外,如果接收者支持根据多个优先级的内容选择,那么内容原创者还可提供目标版本的优先级。典型实例是针对具H.264/AVC及H.265/HEVC能力的接收者而准备内容,且内容原创者偏好选择H.265/HEVC版本,这是因为其分布更高效。支持两个解码器的装置可接着选择具有由内容原创者用信号发送的较高优先级的解码器。在类似版本中,可以不同语言提供相同内容。在此情况下,仍可预期客户端可自动选择语言,因此将语言指派给目标版本。再次,内容原创者可表达关于语言的优先级,例如相比于配音语言偏好土著语言。语言也可被视为替代内容,但只要可提供自动选择,那么其可被视为不同目标版本。因此对于一个媒体类型的各内容,可存在不同目标版本,且表达预期可完成自动化选择的内容标注。各目标版本较佳地在一个适配集中累积,但具有例如可扩展编解码器的例外。
最后,在内容模型中,目标版本中的每一者通常具有经准备以启用动态切换的多个经编码表示202。此方面在此区段的范围外部,这是因为预期主要使用带宽及可能使用摘要质量信息来独立于媒体类型以及目标版本而完成客户端的切换。然而,目标版本上的信号发送可提供关于如何跨越不同媒体类型分布可用位速率的信息。
基于此内容模型及DASH中的可用元素、属性及描述符,DASH的TuC提供适配集信号发送要求及推荐以寻址主要及替代内容、相关联内容以及不同目标版本。基于信号发送而开发出客户端决策模型,其可作为参考客户端服务内容提供商以测试MPD中提供的标注是否提供恰当结果。
图6为绘示实例客户端模型220的概念图。特定地说,客户端模型220包含DASH客户端232、媒体应用程序238、文件格式处理单元240、媒体解码器242、媒体显现器244及输出装置246。DASH客户端232及媒体应用程序238可大体上对应于图1的检索单元52,文件格式处理单元240可对应于图1的解封装单元50,且媒体解码器242可对应于音频解码器46及视频解码器48中的任一者或两者,且媒体显现器244及输出装置246可对应于图1的音频输出42及视频输出44中的任一者或两者。
在此实例中,文件格式222A至222C(文件格式222)中的每一者包含由描述MPD 230(清单文件的实例)的相应表示224A、224B、226A、226B、228A、228B。MPD 230包含根据本发明的技术的描述根据文件格式222中的一者格式化的媒体文件的播放轨的属性的数据。因此,DASH客户端232首先检索MPD 230。在此实例中,DASH客户端232从媒体应用程序238接收所请求媒体数据(例如用户偏好、优先级、装置等等)。DASH客户端232处理MPD 230的数据以确定文件格式222的播放轨的属性,使得选择单元234选择用于例如文件格式处理单元240且符合用户偏好、优先级等等的文件格式222中的适当一者。DASH客户端232的下载及切换单元236接着根据选择文件格式222中的哪一者及网络带宽的可用量而检索表示224A、224B、226A、226B、228A或228B中的一者的媒体数据。DASH客户端230将所检索媒体数据提供至文件格式处理单元240,所述文件格式处理单元解封装媒体数据且将媒体数据提供至媒体应用程序238。媒体应用程序238又将媒体数据提供至媒体解码器242,所述媒体解码器对媒体数据进行解码且将经解码媒体数据传递至媒体显现器244。媒体显现器244又显现媒体数据且将所显现媒体数据提供至输出装置246以供输出(例如音频或视频输出)。
参考以上术语“主要内容”、“相关联内容”及“目标版本”,DASH客户端232可操作经配置以根据与图6中的媒体应用程序238的通信而执行选择的选择单元234。此选择是基于MPD 230中的指派给文件格式222的各适配集(或预选择,如果DASH Amd.4在适当的位置)的信息。例如图1的内容准备装置20的内容准备装置向MPD 230添加充足的额外元数据,以便启用根据本发明的技术的选择。通常,DASH客户端232提取与ISO BMFF播放轨中还存在的信息对准的此信息,这主要是因为播放轨元数据提供充足的信息以描述播放轨。
在甚至另一选项中,文件格式222(以及潜在地应用程序格式,例如OMAF)定义用于描述播放轨以供选择的充足信息。一般文件格式处理器通常还与应用程序通信以便恰当地利用播放轨及可能显现播放轨。
DASH中的信息与ISO基本媒体文件格式可在表达媒体应用程序238的信息上相同以进行其选择。呈文件格式的元数据不与呈文件格式的信息对准可能令人混淆的。
不一定需要出于选择的目的而在DASH层级上表达所有信息,但可表达充足信息以便为媒体应用程序238及选择234提供在文件格式222之间恰当地进行区分及选择的能力。
常规地,此问题主要由定义特定元数据信息的文件格式解决,且在DASH层级上,定义多少可匹配的一些描述符。然而,此需要DASH中的完全新定义且会不必要地延迟工作,这是因为需要随后完成描述符。所述方法也是易错的,且通常并非完全且全面的。以下情况将合适得多:ISO BMFF格式中的任何元数据定义自动暴露于DASH层级且DASH客户端知晓包含于DASH“描述符”中的信息与文件格式定义对准。这还允许相同信息由应用程序独立于源而以相同方式解释。
常规地,针对需要暴露于DASH MPD的各类型的文件格式信息定义描述符,从而引起许多复杂描述符清晰度,且会易于发生MPD中的信号发送与文件格式方框中的信号发送之间的失配。
返回参考图1,根据本发明的技术,内容准备装置20、服务器装置60及客户端装置40可根据以下基本设计而配置:
1)对于描述播放轨的属性的任何文件层级信息,可通过自动转换方框的4字符代码(4CC)、版本号码及内容来在DASH层级处暴露信息。
2)提供方框中的所有信息,或提供所有信息的相关部分。
3)信息可用作DASH中的可用于适配集及预选择的选择的正规描述符。
以上机制可用以替换m40849的OMAF草案文本的第8.2条款中定义的所有描述符,即,PF、RWPK、CC及RWQR描述符,或可与这些描述符一起使用。
此信息的暴露可遵循不同设计选择。下文描述实例设计选择:
实例选项0:添加电影标头。这是最简单的版本,且仅提供MPD中的电影标头。这显然含有相关信息,但会产生详细解析,且关键信息会丢失。
实例选项1:产生自动化描述符。在此实例中,产生可用于DASH基本及补充属性描述符的自动化描述符。在此情况下,可使用DASH中的正规描述符模式。描述符可由例如urn:mpeg:isobmff-dash:<4cc>:<version>的前缀产生,且所述值可为方框中的数据的内容。此方法的一个优点是其简单性,但值字段可能大,且可能会添加非基本数据。此实例还允许此方法应用于现有特征。
实例选项2:产生扩展命名空间及XML。在此实例中,当定义新方框时,还创建可用作MPD中的扩展命名空间的元素。有意识地产生元素,使得还可例如通过使用元素及属性、强制及任选参数、恰当数据类型等等来在XML描述符中记录方框的所有相关参数。此方法的一个优点是其更强力且可读,但设计的努力是重要的,且这不适用于现有数据。为指示元数据的处理是补充的还是基本的,可添加参考4CC的通用描述符。
实例选项3:实例选项1及2的混合。在此实例中,自动产生描述符,但提供表达方框中的所有数据的自动化语法,而非使用单一值字段。举例来说,语法可为自动产生的XML或自动产生的扩充巴克斯-诺尔形式(ABNF)。鼓励再使用现有功能性。
在一个实例中,可添加经投影全向视频方框。下文描述用于将数据添加至适配集元素的各种选项。
实例选项1:添加电影标头:
@movieHeader="Xxxuxox"
实例选项2:添加描述符:
实例选项3:扩展命名空间:
实例选项4:自动化产生:
图7为绘示根据本发明的技术的用于产生媒体数据及用于检索媒体数据的实例方法的流程图。关于图1的内容准备装置20及客户端装置40阐释图7的方法,但应理解,其它装置可经配置以执行此或类似方法。举例来说,服务器装置60可经配置以执行归因于内容准备装置20的元素的一些或全部。
首先,内容准备装置20获得媒体文件(300)。媒体文件可包含音频数据、视频数据、计时文本数据等等。举例来说,媒体文件可对应于根据图5中所展示的模型的媒体内容。媒体文件可遵守例如如图4中所展示的ISO BMFF。假定媒体文件包含描述媒体文件的相应播放轨的属性的一或多个播放轨方框,例如TRAK方框158。因此,内容准备装置20确定描述播放轨的媒体文件的方框(302)。
在此实例中,内容准备装置20进一步产生包含方框的数据的描述符(304)。举例来说,描述符可为扩展命名空间的单一元素或多个元素,如上文所论述。方框的用于可包含例如方框的四字符代码(4CC)、方框的版本及方框的一些或所有内容。举例来说,所产生描述符可对应于上文所论述的任何或所有实例选项1至4。
内容准备装置20可接着将描述符添加至媒体内容的清单文件,例如DASH MPD(306)。内容准备装置20接着将清单文件发送至客户端装置40(306)。客户端装置40接收清单文件(310)且处理清单文件的描述符(312)以使用描述符来选择一或多个适配集(314)。举例来说,如上文所论述,客户端装置40可根据用户偏好、优先级、客户端装置40的能力(例如解码及显现能力、处理能力文件格式等等)或其它此类选择准则而选择适配集。
最终,客户端装置40可将对于所选适配集的媒体数据的请求发送至内容准备装置20(或服务器装置60)(316)。特定地说,客户端装置40可例如基于网络带宽的可用量及表示的位速率而确定适配集的表示中的从其中检索对应于所选适配集的播放轨的媒体数据的表示。内容准备装置20(或服务器装置60)可接收请求(318)且将所请求媒体数据发送至客户端装置40(320)。最终,客户端装置40可接收媒体数据(322)且将媒体数据发送至媒体解码器(324)以供解码且最终显现及呈现。
以此方式,图7的方法表示一种产生媒体数据的方法的实例,所述方法包含:处理文件层级信息的方框,文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;产生媒体内容的清单文件的描述符,描述符对应于媒体内容的适配集,且包含表示文件层级信息的方框的数据,播放轨的媒体数据包含于适配集中;及向客户端装置发送包含描述符的清单文件。
图7的方法还表示一种检索媒体数据的方法的实例,所述方法包含:处理媒体内容的清单文件的描述符,描述符对应于媒体内容的适配集,且包含表示文件层级信息的方框的数据,文件层级信息描述包含适配集的媒体数据的媒体内容的媒体文件的播放轨的属性;根据表示文件层级信息的数据而确定是否应检索适配集的媒体数据;及响应于确定应检索媒体数据而发送检索媒体数据的请求。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含:计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体;或通信媒体,其包含例如根据通信协议促进计算机程序从一处传送至另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置、快闪存储器,或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。此外,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是涉及非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(compactdisc,CD)、激光光盘、光学光盘、数字多功能光盘(digital versatile disc,DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合也应包含于计算机可读媒体的范围内。
可由一或多个处理器执行指令,所述一或多个处理器是例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路系统。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于经配置以供编码及解码的专用硬件及/或软件模块内,或并入于组合式编解码器中。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种各样的装置或设备中,包含无线手机、集成电路(integrated circuit,IC)或IC集合(例如芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求由不同硬件单元来实现。确切地说,如上文所描述,各种单元可与合适软件及/或固件一起组合于编解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
已描述了各种实例。这些及其它实例在所附权利要求书的范围内。
Claims (46)
1.一种检索媒体数据的方法,所述方法包括:
处理媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;
根据表示所述文件层级信息的方框的所述数据而确定是否检索所述适配集的所述媒体数据;及
响应于确定检索所述媒体数据而发送检索所述媒体数据的请求,
其中,表示所述文件层级信息的方框的所述数据包括至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
2.根据权利要求1所述的方法,其中处理所述描述符包括处理包括值之前的包括“urn:mpeg:isobmff-dash:<4cc>:<version>”的前缀,其中<4cc>包括表示所述方框的四字符代码的数据,<version>包括表示所述方框的版本的数据,且所述值包括表示所述方框的内容的数据。
3.根据权利要求1所述的方法,其中所述描述符是所述清单文件的单一值字段。
4.根据权利要求1所述的方法,其中所述描述符包括基本描述符或补充描述符中的一者。
5.根据权利要求1所述的方法,其中处理所述描述符包括处理所述描述符的扩展命名空间标识符,所述方法进一步包括处理所述扩展命名空间的所述清单文件的一或多个元素,所述一或多个元素包含表示所述方框的内容的数据。
6.根据权利要求5所述的方法,其中处理所述一或多个元素包括处理一或多个属性、强制参数、任选参数或具有恰当数据类型的值。
7.根据权利要求5所述的方法,其中处理所述描述符包括处理值之前的包括“urn:mpeg:isobmff-dash:processing”的前缀,所述值定义所述扩展命名空间标识符。
8.根据权利要求5所述的方法,其中所述一或多个元素是以可扩展标记语言XML格式表达。
9.根据权利要求5所述的方法,其中所述一或多个元素是以扩充巴克斯-诺尔形式ABNF表达。
10.根据权利要求5所述的方法,其中处理所述描述符包括处理所述描述符的对应于所述方框的四字符代码的数据。
11.根据权利要求1所述的方法,其中所述清单文件包括HTTP动态自适应流式处理DASH媒体呈现描述MPD。
12.一种用于检索媒体数据的装置,所述装置包括:
存储器,其经配置以存储媒体数据;及
处理器,其实施于电路系统中且经配置以进行以下操作:
处理包含所述媒体数据的媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;
根据表示所述文件层级信息的方框的所述数据而确定是否检索所述适配集的所述媒体数据;及
响应于确定检索所述媒体数据而发送检索所述媒体数据的请求,
其中,表示所述文件层级信息的方框的所述数据包括至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
13.根据权利要求12所述的装置,其中所述处理器经配置以处理包括值之前的包括“urn:mpeg:isobmff-dash:<4cc>:<version>”的前缀,其中<4cc>包括表示所述方框的四字符代码的数据,<version>包括表示所述方框的版本的数据,且所述值包括表示所述方框的内容的数据。
14.根据权利要求12所述的装置,其中所述描述符是所述清单文件的单一值字段。
15.根据权利要求12所述的装置,其中所述处理器经配置以处理所述描述符的扩展命名空间标识符及所述扩展命名空间的所述清单文件的一或多个元素,所述一或多个元素包含表示所述方框的内容的数据。
16.根据权利要求15所述的装置,其中所述处理器经配置以处理值之前的包括“urn:mpeg:isobmff-dash:processing”的前缀,所述值定义所述扩展命名空间标识符。
17.根据权利要求15所述的装置,其中所述一或多个元素是以可扩展标记语言XML格式或扩充巴克斯-诺尔形式ABNF中的一者表达。
18.根据权利要求15所述的装置,其中所述处理器经配置以处理所述描述符的对应于所述方框的四字符代码的数据。
19.根据权利要求12所述的装置,其中所述清单文件包括HTTP动态自适应流式处理DASH媒体呈现描述MPD。
20.一种用于对视频数据进行编码的装置,所述装置包括:
用于处理媒体内容的清单文件的描述符的装置,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;
用于根据表示所述文件层级信息的方框的所述数据而确定是否检索所述适配集的所述媒体数据的装置;及
用于响应于确定检索所述媒体数据而发送检索所述媒体数据的请求的装置,
其中,表示所述文件层级信息的方框的所述数据包括至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
21.一种计算机可读存储媒体,其上存储有指令,所述指令在执行时使处理器进行以下操作:
处理媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示文件层级信息的方框的数据,所述文件层级信息描述包含所述适配集的媒体数据的所述媒体内容的媒体文件的播放轨的属性;
根据表示所述文件层级信息的方框的所述数据而确定是否检索所述适配集的所述媒体数据;及
响应于确定检索所述媒体数据而发送检索所述媒体数据的请求,
其中,表示所述文件层级信息的方框的所述数据包括至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
22.根据权利要求21所述的计算机可读存储媒体,其中使所述处理器处理所述描述符的所述指令包括使所述处理器处理所述描述符的扩展命名空间标识符的指令,其进一步包括使所述处理器处理所述扩展命名空间的所述清单文件的一或多个元素的指令,所述一或多个元素包含表示所述方框的内容的数据。
23.根据权利要求22所述的计算机可读存储媒体,其中使所述处理器处理所述描述符的所述指令包括使所述处理器处理所述描述符的对应于所述方框的四字符代码的数据的指令。
24.一种产生媒体数据的方法,所述方法包括:
处理文件层级信息的方框,所述文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;
产生所述媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及
向客户端装置发送包含所述描述符的所述清单文件,
其中,产生所述描述符包括产生所述描述符以包含至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
25.根据权利要求24所述的方法,其中产生所述描述符包括产生值之前的包括“urn:mpeg:isobmff-dash:<4cc>:<version>”的前缀及产生所述值,其中<4cc>包括表示所述方框的四字符代码的数据,<version>包括表示所述方框的版本的数据,且所述值包括表示所述方框的内容的数据。
26.根据权利要求24所述的方法,其中所述描述符是所述清单文件的单一值字段。
27.根据权利要求24所述的方法,其中所述描述符包括基本描述符或补充描述符中的一者。
28.根据权利要求24所述的方法,其中产生所述描述符包括产生所述描述符的扩展命名空间标识符,所述方法进一步包括产生所述扩展命名空间的所述清单文件的一或多个元素,所述一或多个元素包含表示所述方框的内容的数据。
29.根据权利要求28所述的方法,其中产生所述一或多个元素包括产生一或多个属性、强制参数、任选参数或具有恰当数据类型的值。
30.根据权利要求28所述的方法,其中产生所述描述符产生值之前的包括“urn:mpeg:isobmff-dash:processing”的前缀及产生所述值,所述值定义所述扩展命名空间标识符。
31.根据权利要求28所述的方法,其中产生所述一或多个元素包括以可扩展标记语言XML格式产生所述元素。
32.根据权利要求28所述的方法,其中产生所述一或多个元素包括以扩充巴克斯-诺尔形式ABNF格式产生所述元素。
33.根据权利要求28所述的方法,其中产生所述描述符包括产生所述描述符的用以表示所述方框的四字符代码的数据。
34.根据权利要求24所述的方法,其中所述清单文件包括HTTP动态自适应流式处理DASH媒体呈现描述MPD。
35.一种用于产生媒体数据的装置,所述装置包括:
存储器,其经配置以存储媒体数据;及
处理器,其实施于电路系统中且经配置以进行以下操作:
处理文件层级信息的方框,所述文件层级信息描述包含所述媒体数据的媒体内容的媒体文件的播放轨的属性;
产生所述媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及
向客户端装置发送包含所述描述符的所述清单文件,
其中,所述处理器经配置以产生所述描述符以包含至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
36.根据权利要求35所述的装置,其中所述处理器经配置以产生值之前的包括“urn:mpeg:isobmff-dash:<4cc>:<version>”的前缀及产生所述值,其中<4cc>包括表示所述方框的四字符代码的数据,<version>包括表示所述方框的版本的数据,且所述值包括表示所述方框的内容的数据。
37.根据权利要求35所述的装置,其中所述描述符是所述清单文件的单一值字段。
38.根据权利要求35所述的装置,其中产生所述描述符包括产生所述描述符的扩展命名空间标识符,方法进一步包括产生所述扩展命名空间的所述清单文件的一或多个元素,所述一或多个元素包含表示所述方框的内容的数据。
39.根据权利要求38所述的装置,其中所述处理器经配置以产生值之前的包括“urn:mpeg:isobmff-dash:processing”的前缀及产生所述值,所述值定义所述扩展命名空间标识符。
40.根据权利要求38所述的装置,其中所述处理器经配置以以可扩展标记语言XML格式或扩充巴克斯-诺尔形式ABNF中的一者产生所述元素。
41.根据权利要求38所述的装置,其中所述处理器经配置以产生所述描述符的用以表示所述方框的四字符代码的数据。
42.根据权利要求35所述的装置,其中所述清单文件包括HTTP动态自适应流式处理DASH媒体呈现描述MPD。
43.一种用于产生媒体数据的装置,所述装置包括:
用于处理文件层级信息的方框的装置,所述文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;
用于产生所述媒体内容的清单文件的描述符的装置,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及
用于向客户端装置发送包含所述描述符的所述清单文件的装置,
其中,用于产生所述描述符的装置包括用于产生所述描述符以包含至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据的装置。
44.一种计算机可读存储媒体,其上存储有指令,所述指令在执行时使处理器进行以下操作:
处理文件层级信息的方框,所述文件层级信息描述包含媒体数据的媒体内容的媒体文件的播放轨的属性;
产生所述媒体内容的清单文件的描述符,所述描述符对应于所述媒体内容的适配集,且包含表示所述文件层级信息的所述方框的数据,所述播放轨的所述媒体数据包含于所述适配集中;及
向客户端装置发送包含所述描述符的所述清单文件,
其中,所述指令使所述处理器产生所述描述符以包含至少表示所述方框的四字符代码、所述方框的版本及所述方框的内容的数据。
45.根据权利要求44所述的计算机可读存储媒体,其中使所述处理器产生所述描述符的所述指令包括使所述处理器产生所述描述符的扩展命名空间标识符的指令,其进一步包括使所述处理器产生所述扩展命名空间的所述清单文件的一或多个元素的指令,所述一或多个元素包含表示所述方框的内容的数据。
46.根据权利要求45所述的计算机可读存储媒体,其中使所述处理器产生所述描述符的所述指令包括使所述处理器产生所述描述符的对应于所述方框的四字符代码的数据的指令。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762530761P | 2017-07-10 | 2017-07-10 | |
US62/530,761 | 2017-07-10 | ||
US16/030,387 US11665219B2 (en) | 2017-07-10 | 2018-07-09 | Processing media data using a generic descriptor for file format boxes |
US16/030,387 | 2018-07-09 | ||
PCT/US2018/041423 WO2019014210A1 (en) | 2017-07-10 | 2018-07-10 | PROCESSING MULTIMEDIA DATA USING A GENERIC DESCRIPTOR FOR FILE FORMAT PAVERS |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110832872A CN110832872A (zh) | 2020-02-21 |
CN110832872B true CN110832872B (zh) | 2021-12-28 |
Family
ID=64902965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880044662.5A Active CN110832872B (zh) | 2017-07-10 | 2018-07-10 | 使用用于文件格式方框的通用描述符处理媒体数据 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11665219B2 (zh) |
EP (1) | EP3652952A1 (zh) |
CN (1) | CN110832872B (zh) |
AU (1) | AU2018299983A1 (zh) |
BR (1) | BR112020000015A2 (zh) |
SG (1) | SG11201911559YA (zh) |
TW (1) | TW201909007A (zh) |
WO (1) | WO2019014210A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2554877B (en) * | 2016-10-10 | 2021-03-31 | Canon Kk | Methods, devices, and computer programs for improving rendering display during streaming of timed media data |
US11146608B2 (en) | 2017-07-20 | 2021-10-12 | Disney Enterprises, Inc. | Frame-accurate video seeking via web browsers |
CN110765111B (zh) * | 2019-10-28 | 2023-03-31 | 深圳市商汤科技有限公司 | 存储和读取方法、装置、电子设备和存储介质 |
US20220124135A1 (en) * | 2020-09-25 | 2022-04-21 | Mediatek Singapore Pte. Ltd. | Systems and methods of server-side streaming adaptation in adaptive media streaming systems |
US20220272394A1 (en) * | 2021-02-19 | 2022-08-25 | Rovi Guides, Inc. | Systems and methods for improved adaptive video streaming |
CN113840173A (zh) * | 2021-09-18 | 2021-12-24 | 北京百度网讯科技有限公司 | 网页视频播放方法、装置、设备、存储介质及程序产品 |
US20230108426A1 (en) * | 2021-10-05 | 2023-04-06 | Tencent America LLC | Method and apparatus for dynamic dash picture-in-picture streaming |
CN116456166A (zh) * | 2022-01-10 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 媒体数据的数据处理方法及相关设备 |
US20240022786A1 (en) * | 2022-07-12 | 2024-01-18 | Tencent America LLC | Signaling for Picture In Picture In Media Container File and In Streaming Manifest |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107911332B (zh) * | 2009-11-04 | 2021-01-08 | 阿莫泰克有限公司 | 媒体内容流播的方法、系统和计算机可读介质 |
US10063606B2 (en) * | 2012-06-12 | 2018-08-28 | Taiwan Semiconductor Manufacturing Co., Ltd. | Systems and methods for using client-side video buffer occupancy for enhanced quality of experience in a communication network |
GB2506911B (en) | 2012-10-12 | 2015-12-09 | Canon Kk | Method and correponding device for streaming video data |
US9646162B2 (en) * | 2013-04-10 | 2017-05-09 | Futurewei Technologies, Inc. | Dynamic adaptive streaming over hypertext transfer protocol service protection |
US10009643B2 (en) * | 2014-03-31 | 2018-06-26 | Blackberry Limited | Apparatus and method for processing media content |
EP3131300A4 (en) | 2014-04-09 | 2018-01-17 | LG Electronics Inc. | Broadcast transmission device, broadcast reception device, operating method of broadcast transmission device, and operating method of broadcast reception device |
JP6459006B2 (ja) * | 2014-05-30 | 2019-01-30 | ソニー株式会社 | 情報処理装置および情報処理方法 |
KR20170101983A (ko) | 2014-12-31 | 2017-09-06 | 노키아 테크놀로지스 오와이 | 스케일러블 비디오 코딩 및 디코딩을 위한 계층 간 예측 |
GB2534136A (en) * | 2015-01-12 | 2016-07-20 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
US10270823B2 (en) | 2015-02-10 | 2019-04-23 | Qualcomm Incorporated | Low latency video streaming |
WO2016182371A1 (ko) * | 2015-05-12 | 2016-11-17 | 엘지전자 주식회사 | 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법 |
WO2017030865A1 (en) * | 2015-08-14 | 2017-02-23 | Vid Scale, Inc. | Method and systems for displaying a portion of a video stream |
US9854375B2 (en) * | 2015-12-01 | 2017-12-26 | Qualcomm Incorporated | Selection of coded next generation audio data for transport |
US10237589B2 (en) * | 2015-12-15 | 2019-03-19 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for facilitating fast channel change |
US11172005B2 (en) * | 2016-09-09 | 2021-11-09 | Nokia Technologies Oy | Method and apparatus for controlled observation point and orientation selection audiovisual content |
-
2018
- 2018-07-09 US US16/030,387 patent/US11665219B2/en active Active
- 2018-07-10 AU AU2018299983A patent/AU2018299983A1/en not_active Abandoned
- 2018-07-10 TW TW107123911A patent/TW201909007A/zh unknown
- 2018-07-10 BR BR112020000015-9A patent/BR112020000015A2/pt not_active IP Right Cessation
- 2018-07-10 SG SG11201911559YA patent/SG11201911559YA/en unknown
- 2018-07-10 WO PCT/US2018/041423 patent/WO2019014210A1/en unknown
- 2018-07-10 EP EP18746481.3A patent/EP3652952A1/en active Pending
- 2018-07-10 CN CN201880044662.5A patent/CN110832872B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110832872A (zh) | 2020-02-21 |
AU2018299983A1 (en) | 2020-01-16 |
US20190014165A1 (en) | 2019-01-10 |
KR20200024207A (ko) | 2020-03-06 |
TW201909007A (zh) | 2019-03-01 |
SG11201911559YA (en) | 2020-01-30 |
EP3652952A1 (en) | 2020-05-20 |
WO2019014210A1 (en) | 2019-01-17 |
US11665219B2 (en) | 2023-05-30 |
BR112020000015A2 (pt) | 2020-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110431850B (zh) | 在使用mime类型参数的网络视频流式传输中发信重要视频信息 | |
CN110832872B (zh) | 使用用于文件格式方框的通用描述符处理媒体数据 | |
KR102580982B1 (ko) | 미디어 데이터 스트리밍을 위한 선취 지원을 위한 데이터 시그널링 | |
JP2019521584A (ja) | Httpを介した動的適応型ストリーミングにおけるバーチャルリアリティビデオのシグナリング | |
US10567734B2 (en) | Processing omnidirectional media with dynamic region-wise packing | |
CN112771876A (zh) | 媒体数据的网络流式传输的初始化集合 | |
CN110870323B (zh) | 使用全向媒体格式处理媒体数据 | |
KR102654999B1 (ko) | 강화된 영역별 패킹 및 뷰포트 독립적 hevc 미디어 프로파일 | |
KR102659380B1 (ko) | 파일 포맷 박스들에 대한 제네릭 디스크립터를 사용한 미디어 데이터의 프로세싱 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40017031 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |