CN110089122B - 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体 - Google Patents

用于检索媒体数据的方法、媒体装置及计算机可读存储媒体 Download PDF

Info

Publication number
CN110089122B
CN110089122B CN201880005097.1A CN201880005097A CN110089122B CN 110089122 B CN110089122 B CN 110089122B CN 201880005097 A CN201880005097 A CN 201880005097A CN 110089122 B CN110089122 B CN 110089122B
Authority
CN
China
Prior art keywords
media
data
data structure
information
dash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880005097.1A
Other languages
English (en)
Other versions
CN110089122A (zh
Inventor
王业奎
托马斯·斯托克哈默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110089122A publication Critical patent/CN110089122A/zh
Application granted granted Critical
Publication of CN110089122B publication Critical patent/CN110089122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4331Caching operations, e.g. of an advertisement for later insertion during playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • H04N21/64322IP
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种媒体装置预取很可能被检索的媒体数据。实例媒体装置包含:存储器,其用于存储媒体数据;及一或多个处理器,其实施于电路中且经配置以进行以下操作:接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,所述数据结构包含媒体数据;及在从所述用户装置接收对于所述媒体数据的请求之前检索所述数据结构的所述媒体数据。所述信息可包含于例如清单文件、特殊参数增强递送PED消息及/或与视频文件的其它播放轨一起多路复用的所述视频文件的单独播放轨中。

Description

用于检索媒体数据的方法、媒体装置及计算机可读存储媒体
本申请案主张2017年1月10日申请的美国临时申请案第62/444,730号的权利,所述申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及经编码媒体数据的传送。
背景技术
数字媒体能力可并入至广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话、视频电话会议装置等等。数字视频装置实施视频压缩技术,例如由ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-TH.262或ISO/IEC MPEG-2 Visual、MPEG-2、MPEG-4、ITU-T H.263或ITU-T H.264/MPEG-4Visual第10部分高级视频译码(AVC)、ITU-T H.265(也被称为高效率视频译码(HEVC)及ISO/IEC 23008-2)所定义的标准,及这些标准的扩展(例如可缩放视频译码(SVC)及多视图视频译码(MVC))中描述的那些压缩技术,以更有效地传输及接收数字视频信息。HEVC扩展包含其可缩放译码扩展(即,可缩放高效视频译码,SHVC)及多视图扩展(即,多视图高效率视频译码,MV-HEVC)。
在视频数据已编码之后,可将视频数据包化以用于传输或存储。可以将视频数据汇编成符合多种标准中的任一者的视频文件,所述标准是例如国际标准化组织(ISO)基本媒体文件格式及其扩展,例如AVC。
发明内容
一般来说,本发明描述用于将指示某一数据与其它数据相比更可能例如在数据的流式处理或其它传送期间使用的信息发信的技术。此信息可用于由自适应流式处理系统中的客户端装置或客户端与源服务器之间的中间网络元件进行数据预取。具体来说,媒体装置可使用本发明的技术以预取更可能被使用的数据。
在一个实例中,一种检索媒体数据的方法包含:由媒体装置接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,所述数据结构包含媒体数据;及由所述媒体装置在从所述用户装置接收对于所述媒体数据的请求之前检索所述数据结构的所述媒体数据。
在另一实例中,一种用于检索媒体数据的媒体装置包含:存储器,其用于存储媒体数据;及一或多个处理器,其实施于电路中且经配置以进行以下操作:接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,所述数据结构包含媒体数据;及在从所述用户装置接收对于所述媒体数据的请求之前检索所述数据结构的所述媒体数据。
在另一实例中,一种用于检索媒体数据的媒体装置包含:用于接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息的装置,所述数据结构包含媒体数据;及用于在从所述用户装置接收对于所述媒体数据的请求之前检索所述数据结构的所述媒体数据的装置。
在另一实例中,一种计算机可读存储媒体在其上存储有指令,所述指令在执行时致使媒体装置的处理器执行以下操作:接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,所述数据结构包含媒体数据;及在从所述用户装置接收对于所述媒体数据的请求之前检索所述数据结构的所述媒体数据。
在以下附图及具体实施方式中阐述一或多个实例的细节。其它特征、目标及优点将从具体实施方式及附图以及权利要求书显而易见。
附图说明
图1为绘示实施用于经由网络而流式处理媒体数据的技术的实例系统的框图。
图2为更详细地绘示图1的检索单元的组件的实例集合的框图。
图3为绘示实例多媒体内容的元素的概念图。
图4为绘示可对应于表示的区段的实例视频文件的元素的框图。
图5为绘示用于执行本发明的技术的实例方法的流程图。
图6为绘示用于执行本发明的技术的实例方法的流程图。
具体实施方式
一般来说,本发明描述对于用于流式处理媒体数据的预取支持的数据发信的技术,例如使用HTTP动态自适应流式处理(DASH)。DASH描述于例如第三代合作伙伴计划;技术规范群组服务及系统方面;透明端对端包交换流式处理服务(PSS);渐进式下载及HTTP动态自适应流式处理(3GP-DASH)(版本12)(2013年12月)中。DASH还在信息技术-HTTP动态自适应流式处理(DASH)-部分1:媒体呈现描述及区段格式,ISO/IEC23009-1(2012年4月1日)中指定。
尽管出于阐释及实例的目的而主要关于DASH来论述,但应理解,这些技术可应用于其它流式处理技术。举例来说,本发明的技术可结合苹果HTTP实况流式处理(HLS)或常见媒体应用格式(CMAF)来执行。本发明的技术还可结合微软平滑流式处理来执行。
如下文更详细地所论述,流式处理媒体协议常常涉及将清单文件从服务器装置传输至客户端装置,其中所述清单文件描述对应媒体呈现的特性。举例来说,在DASH中,媒体呈现描述(MPD)描述包含可切换表示的适配集合。表示中的每一者包含多个区段,即,可个别检索的文件(其可与对应统一资源定位符(URL)相关联)。
本发明的技术通常包含将指示多个数据结构中的哪一数据结构最可能被检索(例如,由用户装置)的信息发信,使得媒体装置可预取数据结构的媒体数据。举例来说,数据结构可为特定媒体呈现(例如,特定电影标题)、媒体呈现的特定适配集合、媒体呈现的表示,或甚至为表示的区段的集合。信息可形成在清单文件层级或在表示或适配集合层级(例如在MPD内)的清单文件的部分(例如MPD)。另外或替代地,信息可作为旁侧信息单独地从清单文件发信,例如用于中间网络装置,例如媒体感知网络元件(MANE)或DASH感知网络元件(DANE)。
如上文所提及,DASH中的区段为可个别检索文件的实例。一般来说,这些文件可根据ISO基本媒体文件格式(ISOBMFF)或ISOBMFF的扩展而格式化。本发明的技术可应用于符合根据以下的任一者囊封的视频数据的视频文件:ISO BMFF、可缩放视频译码(SVC)文件格式、高级视频译码(AVC)文件格式、第三代合作伙伴计划(3GPP)文件格式及/或多视图视频译码(MVC)文件格式或其它类似视频文件格式。
文件格式标准包含ISO基本媒体文件格式(ISOBMFF、ISO/IEC 14496-12),及从ISOBMFF导出的其它标准,包含MPEG-4文件格式(ISO/IEC 14496-15)、3GPP文件格式(3GPPTS 26.244)及用于视频编解码器的AVC及HEVC家族的文件格式(ISO/IEC 14496-15)。ISO/IEC 14496-12及14496-15的版本的草案文本可分别在phenix.int-evry.fr/mpeg/doc_end_user/documents/111_Geneva/wg11/w15177-v6-w15177.zip及wg11.sc29.org/doc_end_user/documents/115_Geneva/wg11/w16169-v2-w16169.zip处得到。ISOBMFF用作许多编解码器囊封格式(例如AVC文件格式)以及用于许多多媒体容器格式(例如MPEG-4文件格式、3GPP文件格式(3GP)及数字视频广播(DVB)文件格式)的基础。
除例如音频及视频的连续媒体之外,例如图像的静态媒体以及元数据也可存储于符合ISOBMFF的文件中。根据ISOBMFF结构化的文件可用于许多目的,包含本地媒体文件回放、渐进式下载远程文件、用于DASH的区段、用于待流式处理的内容的容器及其包化指令及记录所接收的实时媒体流。
方框为ISOBMFF中的基本语法结构,包含四字符译码方框类型、方框的字节计数及有效负载。ISOBMFF文件包含一系列方框,且方框可含有其它方框。电影方框(“moov”)含有用于存在于文件中的连续媒体流的元数据,每一媒体流在文件中表示为播放轨。将用于播放轨的元数据围封于播放轨方框(“trak”)中,而将播放轨的媒体内容围封于媒体数据方框(“mdat”)中或直接围封于单独文件中。用于播放轨的媒体内容包含一系列样本,例如音频或视频存取单元。
ISOBMFF指定以下类型的播放轨:媒体播放轨,其含有基本媒体流;提示播放轨,其包含媒体传输指令或表示接收的包流;及计时元数据播放轨,其包括时间同步的元数据。尽管最初针对存储而设计,但ISOBMFF已证明用于流式处理(例如,用于渐进式下载或DASH)极有价值。为了流式处理目的,可使用在ISOBMFF中定义的电影片段。
每一播放轨的元数据包含样本描述条目的列表,每一条目提供在播放轨中使用的译码或封装格式及对于处理所述格式需要的初始化数据。每一样本与播放轨的样本描述条目中的一者相关联。
ISOBMFF实现藉由各种机制指定样本特定元数据。样本表方框(“stbl”)内的特定方框已经标准化以响应常见需求。举例来说,同步样本方框(“stss”)用以列举播放轨的随机存取样本。样本分组机制实现根据四字符分组类型将样本映射成共享指定为文件中的样本群组描述条目的相同性质的样本的群组。已在ISOBMFF中指定若干分组类型。
在HTTP流式处理中,例如根据DASH,频繁使用的操作包含HEAD、GET及部分GET。HEAD操作检索与给定的统一资源定位符(URL)或统一资源名称(URN)相关联的文件的标头,但不检索与URL或URN相关联的有效负载。GET操作检索与给定URL或URN相关联的整个文件。部分GET操作接收字节范围作为输入参数且检索文件的连续数目个字节,其中字节的数目对应于所接收字节范围。因此,可提供电影片段以用于HTTP流式处理,这是因为部分GET操作可得到一或多个单独的电影片段。在电影片段中,可能存在不同播放轨的若干播放轨片段。在HTTP流式处理中,媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求及下载媒体数据信息以向用户呈现流式处理服务。
在DASH的实例中,可存在用于多媒体内容的视频及/或音频数据的多个表示。如下文所阐释,不同表示可对应于不同编码特性(例如,视频编码标准的不同配置文件或层级)、不同编码标准或编码标准的扩展(例如多视图及/或可缩放扩展)或不同位速率。这些表示的清单可在媒体呈现描述(MPD)数据结构中定义。媒体呈现可对应于HTTP流式处理客户端装置可存取的数据的结构化集合。HTTP流式处理客户端装置可请求及下载媒体数据信息以向客户端装置的用户呈现流式处理服务。媒体呈现可在MPD数据结构中描述,MPD数据结构可包含MPD的更新。
媒体呈现可含有一系列一或多个周期。每一周期可延长,直到下一周期开始为止,或在最后一个周期的状况下,直到媒体呈现结束为止。每一周期可含有针对同一媒体内容的一或多个表示。表示可为音频、视频、计时文本或其它此类数据的数个替代性经编码版本中的一者。表示可因编码类型而异(例如,对于视频数据,因位速率、分辨率及/或编解码器而异,及对于音频数据,因位速率、语言及/或编解码器而异)。术语表示可用以是指经编码音频或视频数据的对应于多媒体内容的特定周期且以特定方式编码的部分。
特定周期的表示可指派至由MPD中的属性(其指示表示所属的适配集合)指示的群组。同一适配集合中的表示通常被视为彼此的替代,这是因为客户端装置可在这些表示之间动态地且顺畅地切换,例如执行带宽适配。举例来说,特定周期的视频数据的每一表示可指派至同一适配集合,使得可选择所述表示中的任一者进行解码以呈现对应周期的多媒体内容的媒体数据(例如视频数据或音频数据)。在一些实例中,一个周期内的媒体内容可由来自群组0(如果存在)的一个表示来表示,或由来自每一非零群组的至多一个表示的组合来表示。周期的每一表示的计时数据可相对于所述周期的开始时间来表达。
一表示可包含一或多个区段。每一表示可包含初始化区段,或表示的每一区段可自初始化。当存在时,初始化区段可含有用于存取表示的初始化信息。大体来说,初始化区段不含有媒体数据。区段可由标识符唯一地参考,例如统一资源定位符(URL)、统一资源名称(URN)或统一资源标识符(URI)。MPD可为每一区段提供标识符。在一些实例中,MPD还可提供呈范围属性的形式的字节范围,所述范围属性可对应于可由URL、URN或URI存取的文件内的区段的数据。
可选择不同表示以用于大体上同时检索不同类型的媒体数据。举例来说,客户端装置可选择音频表示、视频表示及计时文本表示,从所述表示检索区段。在一些实例中,客户端装置可选择特定适配集合以用于执行带宽适配。即,客户端装置可选择包含视频表示的适配集合、包含音频表示的适配集合及/或包含计时文本的适配集合。替代地,客户端装置可选择用于某些媒体类型(例如视频)的适配集合,且直接选择用于其它类型的媒体(例如音频及/或计时文本)的表示。
DASH为用于HTTP(自适应)流式处理应用的标准。DASH主要指定媒体呈现描述(MPD)的格式、清单文件的实例,及媒体区段格式。MPD描述可在服务器装置上得到的媒体且在感兴趣的特定媒体时间让DASH客户端自主地下载媒体版本。
用于基于DASH的HTTP流式处理的典型过程包含以下步骤:
1.客户端装置获得流式处理内容(媒体呈现)的MPD,例如,电影。MPD包含关于流式处理内容的不同替代表示(例如,位速率、视频分辨率、帧速率、音频语言)的信息,以及HTTP资源(初始化区段及媒体区段)的URL。
2.基于MPD中的信息及客户端的本地信息(例如,网络带宽、解码/显示能力及用户偏好),客户端每次请求所要表示、一个区段(或其部分)。
3.当客户端检测到网络带宽变化时,其请求具有较好匹配位速率的不同表示的区段,理想地从以随机存取点(RAP)开始的区段开始。
在HTTP流式处理“会话”期间,为对后向寻找过去位置或前向寻找未来位置(也被称作特技模式)的用户请求作出响应,客户端装置请求从接近于所要位置的区段及理想地以随机存取点开始的区段开始的过去或未来区段。用户还可请求快速转递内容(特技模式的另一实例),其可通过请求足以用于解码仅经帧内译码视频图片或视频流的仅时间子集的数据而实现。
ISO/IEC 23009-5指定服务器及网络辅助DASH(SAND)。出于改善流式处理会话的效率的目的,通过提供关于网络、服务器、代理、高速缓冲存储器、内容递送网络(CDN)的实时操作特性以及DASH客户端的性能及状况的信息,SAND引入在DASH客户端装置与网络元件之间或各种网络元件之间交换的消息。
在SAND中,具有关于DASH的至少最小智能的网络元件被称作DASH感知网络元件(DANE)。举例来说,DANE可经配置以识别DASH格式化递送对象(例如MPD或DASH区段),且可优先排序、解析或甚至修改这些对象。DASH源服务器也被视为DANE。
SAND消息是指DASH客户端、DANE及/或量度服务器之间交换的消息,以便增加DASH服务的接收或递送,或将来自DASH客户端的状况或量度报告至DASH感知网络元件或量度服务器。SAND消息分类成如下四种类型:
·在DANE之间交换的参数增强递送(PED)消息,
·从DANE发送至DASH客户端的参数增强接收(PER)消息,
·从DASH客户端发送至DANE的状态消息,及
·从DASH客户端发送至量度服务器的量度消息。
定义于SAND中的状态消息包含AnticipatedRequests SAND消息,其允许DASH客户端向DANE发布其感兴趣的区段的哪一特定集合。意图是将所述DASH客户端很可能迅速选择及请求的表示中的区段的集合发信。当前,不存在定义于SAND中的PED消息。
虚拟实境(VR)为虚拟地存在于通过再现自然及/或合成图像及与浸入式用户的运动相关的声音而创建的非物理世界中的能力,从而允许用户与所述世界交互。在再现装置(例如头戴式显示器(HMD))及VR视频(常常也被称作360度视频)创建中的最新进展中,可提供显著体验质量。VR应用包含游戏、训练、教育、运动视频、线上购物、夹带等。
典型VR系统包含如下组件及步骤:
·相机套件,其通常包含在不同方向上指向的多个个别相机,所述方向可共同地涵盖围绕所述相机套件的所有视点。
·图像拼接,其中由多个个别相机拍摄的视频图片在时域中经同步并在空间域中拼接,以形成球体视频,但映射至矩形格式,例如等矩形(类似于世界地图)或立方体映射。
·映射矩形格式中的视频是使用视频编解码器(例如,H.265/HEVC或H.264/AVC)来编码/压缩。
·经压缩视频位流可存储及/或囊封于媒体格式中且经由网络传输(可能涵盖仅由用户见到的区域的仅子集)至接收器装置(即,客户端装置)。
·接收器装置接收可能以一格式囊封的视频位流或其部分,且将经解码视频信号或其部分发送至再现装置(其可形成同一装置的部分或单独装置)。
·再现装置可为例如头戴式显示器(HMD),其可跟踪头部运动,且可甚至跟踪眼部运动,且再现视频的对应部分,使得浸入式体验经递送至用户。
在撰写此文档时,全向媒体应用格式(OMAF)是由MPEG开发以定义实现全向媒体应用的媒体应用格式,聚焦于具有360度视频及相关联音频的VR应用。OMAF指定可用于将球体或360度视频转换成二维矩形视频,继而如何使用ISO基本媒体文件格式(ISOBMFF)存储全向媒体及相关联元数据,及如何使用HTTP动态自适应流式处理(DASH)将全向媒体囊封、发信及流式处理,及最终哪些视频及音频编解码器以及媒体译码配置可用于压缩及回放全向媒体信号的投影方法的列表。OMAF经规划以变成ISO/IEC 23000-20,且其草案规范可从wg11.sc29.org/doc_end_user/documents/116_Chengdu/wg11/w16439.zip获得。
存在流式处理媒体数据的合乎需要的使用状况,涉及指示感兴趣区或最感兴趣区的信息的产生、发信及使用。在MPEG提案m37819中,使用状况是关于将导演剪辑版的信息发信并使用所述信息而论述,使得VR回放可包含甚至在用户不转动他的/她的头部或经由其它用户界面(UI)改变视区时,显示导演想要观众聚焦于的动态改变的视区。可逐个场景地将全向视频提供给这些视区。
2017年5月8日申请的公开为美国专利公开案第2017/0339415号的美国申请案第15/589,782号(其全文以引用的方式并入本文中)描述用于产生关于来自由服务或内容提供者提供(例如经由当经由流式处理服务提供VR视频内容时已由用户请求/见到最多的哪些区的统计数据)的用户统计数据的最感兴趣区的信息的技术,其中VR视频图片中的最感兴趣区为在图片的呈现时间以统计方式最可能向用户再现的区中的一者。临时申请案第63/339,009号中还揭示了用于出于各种VR性能改善目的使用关于最感兴趣区的信息的技术,例如由边缘服务器或客户端在VR自适应流式处理中的数据预取,当VR视频转码至例如不同编解码器或投影映射时转码优化,由边缘服务器或高速缓冲存储器进行的高速缓冲存储管理,及通过VR视频流式处理服务器进行的内容管理。最感兴趣区的发信还已例如通过使用视频位流中的SEI消息、媒体文件中的文件格式样本群组或使用样本群组的DASH媒体呈现描述(MPD)元素或属性而揭示。
如美国专利公开案第2017/0344843号公开的2016年5月24日申请的美国申请案第14/491,805号(其全文以引用的方式并入本文中)描述用于VR视频中的一或多个最感兴趣区的高级发信的若干方法,其中方法包含如下:
·样本群组(当包含于播放轨片段方框中时)可记录在跟随含有播放轨中的样本群组(分组类型的SampleToGroupBox及对应样本群组描述方框)的播放轨片段的后续播放轨片段中的样本的信息。
·上文所提及的样本群组的实例。
·直接使用如HEVC中指定的图块ID、如ISO/IEC 14496-15中所定义的groupID、如ISO/IEC 14496-12中所定义的播放轨ID或如ISO/IEC 23009-1所定义的DASH表示ID将最感兴趣区域发信。
VR/360-视频中的感兴趣区(ROI)可以至少两种方式定义。第一实例方式是基于球体坐标系统(例如,通过定义360视频的球体表面上的区)对其定义。第二实例方式是基于2D图片上的2D笛卡尔坐标系统定义ROI。后者是在上文所标识美国临时申请案第62/339,009及62/341,017号中使用的方式。
MPEG输出文档N16440提及用于基于球体坐标系统定义感兴趣区的若干方法。特定地说,这些方法指定球体表面上的由四个大圆的四个区段围封或由两个大圆及两个小圆的四个区段围封的区,每一区段是在球体表面上的两个点之间。本文中,圆、大圆及小圆定义如下:
平面与球体的相交区为圆(当相交区为点时除外)。此圆的所有点属于球体的表面。球体的大圆(也被称为大圆弧圆或黎曼圆)为球体与通过球体中心点的平面的相交区。球体的中心及大圆的中心始终共置。平面与球体的不满足此条件且并非为点的任何其它相交区为小圆。
当VR/360视频在头戴式显示器(HMD)或非HMD显示器(例如TV)上回放时,视区向用户再现。通常,视区为平面上与球体相切(即,与球体在一个点处相交)的矩形区,其中视区平面与用户的观察方向正交。视区可通过应用长方体投影(例如,如在ITU-T SG16WP3及ISO/IEC JTC1/SC29/WG11的联合视频探索小组,JVET-D1030,2016年10月第4次会议,J.Boyce,E.Alshina,A.Abbas,Y.Ye的“JVET common test conditions and evaluationprocedures for 360°video”中所论述)而产生。
对应于视区的球体上的区为由四个大圆的四个区段围封的区。
VR视频中的一或多个最感兴趣区的双发信的其它技术包含基于球体表面上的区将一个区发信,及基于经解码图片上的区将其它区发信。
可应用本发明的技术以解决例如在VR中及/或在媒体流式处理技术中可产生的与感兴趣区的发信有关的某些问题。AnticipatedRequests SAND消息可由DASH客户端使用以向DANE发布其对哪一特定集合有兴趣,并将DASH客户端很可能迅速选择并请求的表示中的区段的集合发信。此SAND消息适合于其中DASH客户端参与DASH流式处理会话且其基于客户端的实时状态及用户行为外加可用于客户端的其它相关信息具有对哪些区段很可能希望向用户再现的良好估计的情形。
包括导演剪辑版的VR视频中的那些区或如经由对统计数据的分析所指示的其它最感兴趣区的信息可应用于整个VR视频内容。除客户端的实时状态及用户行为之外,此信息也可由DASH客户端使用,以确定哪些区在DASH流式处理会话期间包含于AnticipatedRequests SAND消息中。此信息(如果作为文件格式元数据而存在)可直接由DASH客户端存取。然而,这需要DASH客户端解析文件格式元数据外加MPD,且还可需要DASH客户端在编码VR视频之前应用用于投影的几何过程及用于产生图片的逐区封装。
另外,(包括导演剪辑版的VR视频中的那些区,或由统计数据指示的其它最感兴趣区的)上述信息还可由DANE(源服务器及/或高速缓冲存储器或CDN元件)使用以预取包括导演剪辑版或最感兴趣区的DASH表示的所有区段。由于其实时性质及其仅源自DASH客户端的状态消息,AnticipatedRequests SAND消息并不适合于将此信息传达至DANE。
与用于将导演剪辑版或最感兴趣区传达至DANE的常规设计相关联的又一个问题在于可存在不同的感兴趣层级或感兴趣区的概率。
使用预期请求的又一个问题在于客户端装置需要支持SAND。然而,许多客户端装置不支持SAND。另外,预期请求通常仅解决单一客户端的短期依附性,从而可能甚至利用MANE或DANE来创建客户端的状态。
另外,可存在不同的感兴趣层级或内容层级上的不同内容的使用速率。举例来说,与其它电影或标题相比,一些电影或标题会更多地被用户消费。当前DASH设计不提供此信息的发信,此信息还可用于预取大部分被消费内容。
图1为绘示实施用于经由网络而流式处理媒体数据的技术的实例系统10的框图。在此实例中,系统10包含内容准备装置20、服务器装置60、媒体感知网络元件(MANE)76及客户端装置40。客户端装置40、MANE 76、内容准备装置20及服务器装置60以通信方式由网络74耦合,网络74可包括互联网。在一些实例中,内容准备装置20及服务器装置60可包括相同装置。
在图1的实例中,内容准备装置20包括音频源22及视频源24。音频源22可包括例如麦克风,其产生表示待由音频编码器26编码的所俘获音频数据的电信号。替代地,音频源22可包括存储媒体(其存储先前记录的音频数据)、音频数据产生器(例如计算机化的合成器)或任何其它音频数据源。视频源24可包括:视频相机,其产生待由视频编码器28编码的视频数据;存储媒体,其编码有先前记录的视频数据;视频数据产生单元,例如计算机图形源;或任何其它视频数据源。内容准备装置20未必在所有实例中均以通信方式耦合至服务器装置60,而可将多媒体内容存储至由服务器装置60读取的单独媒体。
原始音频及视频数据可包括模拟或数字数据。模拟数据在由音频编码器26及/或视频编码器28编码之前可被数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据,且视频源24可同时获得说话参与者的视频数据。在其它实例中,音频源22可包括包含所存储的音频数据的计算机可读存储媒体,且视频源24可包括包含所存储的视频数据的计算机可读存储媒体。以此方式,本发明中所描述的技术可应用于实况、流式处理、实时音频及视频数据或所存档的、预先记录的音频及视频数据。
对应于视频帧的音频帧通常为含有由音频源22俘获(或产生)的音频数据的音频帧,音频数据同时伴随含于视频帧内的由视频源24俘获(或产生)的视频数据。举例来说,当说话参与者通常通过说话而产生音频数据时,音频源22俘获音频数据,且视频源24同时(即,在音频源22正俘获音频数据的同时)俘获说话参与者的视频数据。因此,音频帧在时间上可对应于一或多个特定视频帧。因此,对应于视频帧的音频帧通常对应于同时俘获到音频数据及视频数据且音频帧及视频帧分别包括同时俘获到的音频数据及视频数据的情形。
在一些实例中,音频编码器26可对每一经编码音频帧中表示记录经编码音频帧的音频数据的时间的时戳进行编码,且类似地,视频编码器28可对每一经编码视频帧中表示记录经编码视频帧的视频数据的时间的时戳进行编码。在这些实例中,对应于视频帧的音频帧可包括:包括时戳的音频帧及包括相同时戳的视频帧。内容准备装置20可包含内部时钟,音频编码器26及/或视频编码器28可根据所述内部时钟产生时戳,或音频源22及视频源24可使用所述内部时钟以分别使音频数据及视频数据与时戳相关联。
在一些实例中,音频源22可向音频编码器26发送对应于记录音频数据的时间的数据,且视频源24可向视频编码器28发送对应于记录视频数据的时间的数据。在一些实例中,音频编码器26可对经编码音频数据中的序列标识符进行编码以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器28还可使用序列标识符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列标识符可映射或以其它方式与时戳相关。
音频编码器26通常产生经编码音频数据的流,而视频编码器28产生经编码视频数据的流。每一个别数据流(不论音频或视频)可被称作基本流。基本流为表示的单一的经数字译码(可能经压缩)的分量。举例来说,表示的经译码视频或音频部分可为基本流。基本流可在被囊封于视频文件内之前被转换成包化基本流(PES)。在相同表示内,可使用流ID来区分属于一个基本流的PES包与属于其它基本流的PES包。基本流的数据的基本单元为包化基本流(PES)包。因此,经译码视频数据通常对应于基本视频流。类似地,音频数据对应于一或多个相应基本流。
许多视频译码标准(例如ITU-T H.264/AVC及高效视频译码(HEVC)标准)定义无误差位流的语法、语义及解码过程,所述无误差位流中的任一者符合特定配置文件或层级。视频译码标准通常并不指定编码器,但编码器具有保证所产生的位流对于解码器来说是标准相容的任务。在视频译码标准的上下文中,“配置文件”对应于算法、特征或工具及应用于算法、特征或工具的限制的子集。如例如H.264标准所定义,“配置文件”为由H.264标准指定的整个位流语法的子集。“层级”对应于解码器资源消费(例如解码器存储器及计算)的限制,所述限制是关于图片分辨率、位速率及块处理速率。配置文件可用profile_idc(配置文件指示符)值来发信,而层级可用level_idc(层级指示符)值来发信。
举例来说,H.264标准认为,在由给定配置文件的语法所强加的界限内,仍然可能需要编码器及解码器的性能有较大变化,这取决于位流中的语法元素(例如经解码图片的指定大小)所取的值。H.264标准进一步认为,在许多应用中,实施能够处理特定配置文件内的语法的所有假设使用的解码器既不实际又不经济。因此,H.264标准将“层级”定义为强加于位流中的语法元素的值的约束的指定集合。这些约束可仅为对值的限制。替代地,这些约束可呈对值的算术组合(例如,图片宽度乘以图片高度乘以每秒解码的图片数目)的约束的形式。H.264标准进一步规定,个别实施方案对于每一所支持配置文件可支持不同层级。
符合配置文件的解码器一般支持配置文件中所定义的所有特征。举例来说,作为译码特征,B图片译码在H.264/AVC的基线配置文件不被支持,但在H.264/AVC的其它配置文件中被支持。符合一层级的解码器应能够对不需要超出所述层级中所定义的限制的资源的任何位流进行解码。配置文件及层级的定义可对可解释性有帮助。举例来说,在视频传输期间,可针对整个传输会话阶段协商及同意一对配置文件定义及层级定义。更具体地说,在H.264/AVC中,层级可以定义需要处理的宏块数目、经解码图片缓冲器(DPB)大小、经译码图片缓冲器(CPB)大小、竖直运动向量范围、每两个连续MB的运动向量的最大数目及B块是否可以具有小于8x8像素的子宏块分区的限制。以此方式,解码器可确定解码器是否能够适当地对位流进行解码。
在图1的实例中,内容准备装置20的囊封单元30从视频编码器28接收包括经译码视频数据的基本流且从音频编码器26接收包括经译码音频数据的基本流。在一些实例中,视频编码器28及音频编码器26可各自包含用于从经编码数据形成PES包的包化器。在其它实例中,视频编码器28及音频编码器26可各自与用于从经编码数据形成PES包的相应包化器介接。在另外其它实例中,囊封单元30可包含用于从经编码音频及视频数据形成PES包的包化器。
视频编码器28可以多种方式对多媒体内容的视频数据进行编码,从而以各种位速率且以各种特性产生多媒体内容的不同表示,所述特性是例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种配置文件及/或配置文件层级的符合性、具有一或多个视图的表示(例如,对于二维或三维回放)或其它此类特性。如本发明中所使用,表示可包括音频数据、视频数据、文本数据(例如,用于封闭字幕)或其它此类数据中的一者。表示可包含例如音频基本流或视频基本流的基本流。每一PES包可包含stream_id,所述stream_id识别PES包所属的基本流。囊封单元30负责将基本流汇编成各种表示的视频文件(例如,区段)。
囊封单元30从音频编码器26及视频编码器28接收表示的基本流的PES包且从所述PES包形成对应的网络抽象层(NAL)单元。译码视频区段可经组织成NAL单元,其提供“网络友好”视频表示寻址应用程序,例如视频电话、存储、广播或流式处理。NAL单元可分类为视频译码层(VCL)NAL单元及非VCL NAL单元。VCL单元可含有核心压缩引擎,且可包含块、宏块及/或切片层级数据。其它NAL单元可为非VCL NAL单元。在一些实例中,一个时间实例中的经译码图片(通常呈现为初级经译码图片)可包括于存取单元中,所述存取单元可包含一或多个NAL单元。
非VCL NAL单元可尤其包含参数集NAL单元及SEI NAL单元。参数集可含有序列层级标头信息(在序列参数集(SPS)中)及不频繁改变的图片层级标头信息(在图片参数集(PPS)中)。对于参数集(例如,PPS及SPS),不频繁改变的信息不需要关于每一序列或图片重复,因此可改善译码效率。此外,使用参数集可实现重要标头信息的带外传输,从而避免对于用于抗误码的冗余传输的需要。在带外传输实例中,参数集NAL单元可在与其它NAL单元(例如SEI NAL单元)不同的信道上传输。
补充增强信息(SEI)可含有对于对来自VCL NAL单元的经译码图片样本进行解码并非必需的信息,但可辅助与解码、显示、抗误码及其它目的相关的过程。SEI消息可含于非VCL NAL单元中。SEI消息为一些标准规范的标准化部分,且因此对于标准相容的解码器实施方案并非始终是必选的。SEI消息可为序列层级SEI消息或图片层级SEI消息。某一序列层级信息可含于SEI消息中,例如SVC的实例中的可缩放性信息SEI消息,及MVC中的视图可缩放性信息SEI消息。这些实例SEI消息可传达关于例如操作点的提取及操作点的特性的信息。另外,囊封单元30可形成清单文件,例如描述表示的特征的媒体呈现描述符(MPD)。囊封单元30可根据可扩展标记语言(XML)来格式化MPD。
囊封单元30可向输出接口32提供多媒体内容的一或多个表示的数据以及清单文件(例如,MPD)。输出接口32可包括网络接口或用于对存储媒体进行写入的接口,例如通用串行总线(USB)接口、CD或DVD写入器或烧录器、至磁性或快闪存储媒体的接口,或用于存储或传输媒体数据的其它接口。囊封单元30可向输出接口32提供多媒体内容的表示中的每一者的数据,所述输出接口可经由网络传输或存储媒体向服务器装置60发送所述数据。在图1的实例中,服务器装置60包含存储各种多媒体内容64的存储媒体62,每一多媒体内容64包含相应清单文件66及一或多个表示68A至68N(表示68)。在一些实例中,输出接口32还可将数据直接发送至网络74。
在一些实例中,表示68可分成若干适配集合。即,表示68的各种子集可包含相应共同特性集合,例如编解码器、配置文件及层级、分辨率、视图数目、区段的文件格式、可识别待与待解码及呈现的表示及/或音频数据(例如,由扬声器发出)一起显示的文本的语言或其它特性的文本类型信息、可描述适配集合中的表示的场景的相机角度或真实世界相机视角的相机角度信息、描述对于特定观众的内容适合性的分级信息,等等。
清单文件66可包含指示对应于特定适配集合的表示68的子集以及所述适配集合的共同特性的数据。清单文件66还可包含表示适配集合的个别表示的个别特性(例如位速率)的数据。以此方式,适配集合可提供简化的网络带宽适配。适配集合中的表示可使用清单文件66的适配集合元素的子代元素来指示。
服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60的特征中的任一者或全部可在内容递送网络的其它装置(例如路由器、网桥、代理装置、交换机或其它装置)上实施。在一些实例中,内容递送网络的中间装置可高速缓冲存储多媒体内容64的数据,且包含大体上符合服务器装置60的那些组件的组件。一般来说,网络接口72经配置以经由网络74来发送及接收数据。
请求处理单元70经配置以从客户端装置(例如客户端装置40)接收对存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施超文本传送协议(HTTP)版本1.1,如RFC 2616中R.Fielding等人于1999年6月在网络工作组,IETF的“Hypertext TransferProtocol-HTTP/1.1”中所描述。即,请求处理单元70可经配置以接收HTTP GET或部分GET请求,且响应于所述请求而提供多媒体内容64的数据。请求可指定表示68中的一者的区段,例如使用区段的URL。在一些实例中,所述请求还可指定区段的一或多个字节范围,因此包括部分GET请求。请求处理单元70可经进一步配置以服务于HTTP HEAD请求以提供表示68中的一者的区段的标头数据。在任何情况下,请求处理单元70可经配置以处理所述请求以向请求装置(例如客户端装置40)提供经请求数据。
另外或替代地,请求处理单元70可经配置以经由例如eMBMS的广播或多播协议而递送媒体数据。内容准备装置20可用与所描述大体上相同的方式创建DASH区段及/或子区段,但服务器装置60可使用eMBMS或另一广播或多播网络传送协议来递送这些区段或子区段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。即,服务器装置60可向客户端装置(包含客户端装置40)公告与多播群组相关联的互联网协议(IP)地址,其与特定媒体内容(例如,实况事件的广播)相关联。客户端装置40转而可呈送加入多播群组的请求。此请求可遍及网络74(例如,组成网络74的路由器)传播,使得致使所述路由器将去往与多播群组相关联的IP地址的业务导向至订阅的客户端装置(例如客户端装置40)。
如图1的实例中所绘示,多媒体内容64包含清单文件66,所述清单文件可对应于媒体呈现描述(MPD)。清单文件66可含有不同替代表示68(例如,具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值、层级值、位速率及表示68的其它描述性特性。客户端装置40可检索媒体呈现的MPD以确定如何存取表示68的区段。
具体来说,检索单元52可检索客户端装置40的配置数据(未展示)以确定视频解码器48的解码能力及视频输出44的再现能力。配置数据还可包含由客户端装置40的用户选择的语言偏好中的任一者或全部、对应于由客户端装置40的用户设定的深度偏好的一或多个相机视角及/或由客户端装置40的用户选择的分级偏好。举例来说,检索单元52可包括网页浏览器或媒体客户端,其经配置以提交HTTP GET及部分GET请求。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(未展示)执行的软件指令。在一些实例中,关于检索单元52所描述的功能性的全部或部分可在硬件或硬件、软件及/或固件的组合中实施,其中可提供必需的硬件以执行软件或固件的指令。
检索单元52可将客户端装置40的解码及再现能力与由清单文件66的信息所指示的表示68的特性进行比较。检索单元52可最初检索清单文件66的至少一部分以确定表示68的特性。举例来说,检索单元52可请求描述一或多个适配集合的特性的清单文件66的一部分。检索单元52可选择具有可满足客户端装置40的译码及再现能力的特性的表示68的子集(例如适配集合)。检索单元52可接着确定用于适配集合中的表示的位速率,确定网络带宽的当前可用量,且从具有网络带宽可满足的位速率的表示中的一者检索区段。
一般来说,较高位速率表示可产生较高质量的视频回放,而较低位速率表示可在可用网络带宽减少时提供足够质量的视频回放。因此,当可用网络带宽相对高时,检索单元52可从相对高位速率的表示检索数据,而当可用网络带宽较低时,检索单元52可从相对低位速率的表示检索数据。以此方式,客户端装置40可经由网络74来流式处理多媒体数据,同时还适应网络74的改变的网络带宽可用性。
另外或替代地,检索单元52可经配置以根据例如eMBMS或IP多播的广播或多播网络协议来接收数据。在这些实例中,检索单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后,检索单元52可在没有另外请求发出至服务器装置60或内容准备装置20的情况下接收多播群组的数据。检索单元52可提交当不再需要多播群组的数据时离开多播群组的请求,例如停止回放或将信道改变至不同多播群组。
网络接口54可接收选定表示的区段的数据且将所述数据提供至检索单元52,检索单元52又可将所述区段提供至解囊封单元50。解囊封单元50可将视频文件的元素解囊封成组成性PES流,解包化所述PES流以检索经编码数据,且取决于经编码数据为音频流还是视频流的部分(例如,如由流的PES包标头所指示)而将经编码数据发送至音频解码器46或视频解码器48。音频解码器46解码经编码音频数据,且将经解码音频数据发送至音频输出42,而视频解码器48解码经编码视频数据,且将经解码视频数据发送至视频输出44,经解码视频数据可包含流的多个视图。
视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及解囊封单元50各自可被实施为适用的多种合适的处理电路(例如固定功能及/或可编程处理电路)中的任一者,处理电路可包含一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式视频编码器/解码器(CODEC)的部分。同样地,音频编码器26及音频解码器46中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式CODEC的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及/或解囊封单元50的设备可包括集成电路、微处理器及/或无线通信装置,例如蜂窝电话。
客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本发明的技术而操作。出于实例的目的,本发明关于客户端装置40及服务器装置60描述这些技术。然而,应理解,替代服务器装置60(或除此之外),内容准备装置20也可经配置以执行这些技术。
囊封单元30可形成NAL单元,所述NAL单元包括识别NAL单元所属的节目的标头,以及有效负载,例如音频数据、视频数据或描述NAL单元对应于的传送或节目流的数据。举例来说,在H.264/AVC中,NAL单元包含1字节标头及变化大小的有效负载。在有效负载中包含视频数据的NAL单元可包括各种粒度层级的视频数据。举例来说,NAL单元可包括视频数据块、多个块、视频数据的切片或视频数据的整个图片。囊封单元30可从视频编码器28接收呈基本流的PES包的形式的经编码视频数据。囊封单元30可使每一基本流与对应节目相关联。
囊封单元30还可汇编来自多个NAL单元的存取单元。一般来说,存取单元可包括用于表示视频数据的帧以及对应于所述帧的音频数据(当此音频数据可用时)的一或多个NAL单元。存取单元通常包含一个输出时间实例的所有NAL单元,例如,一个时间实例的所有音频及视频数据。举例来说,如果每一视图具有20帧每秒(fps)的帧速率,那么每一时间实例可对应于0.05秒的时间间隔。在此时间间隔期间,可同时再现相同存取单元(相同时间实例)的所有视图的特定帧。在一个实例中,存取单元可包括一个时间实例中的经译码图片,其可呈现为初级经译码图片。
因此,存取单元可包括共同时间实例的所有音频帧及视频帧,例如对应于时间X的所有视图。本发明还将特定视图的经编码图片称为“视图分量”。即,视图分量可包括在特定时间针对特定视图的经编码图片(或帧)。因此,存取单元可被定义为包括共同时间实例的所有视图分量。存取单元的解码次序未必与输出或显示次序相同。
媒体呈现可包含媒体呈现描述(MPD),所述媒体呈现描述可含有不同替代表示(例如,具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值及层级值。MPD为清单文件(例如清单文件66)的一个实例。客户端装置40可检索媒体呈现的MPD以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段方框(moof方框)中。
清单文件66(其可包括例如MPD)可公告表示68的区段的可用性。即,MPD可包含指示表示68中的一者的第一区段变得可用时的挂钟时间的信息,以及指示表示68内的区段的持续时间的信息。以此方式,客户端装置40的检索单元52可基于开始时间以及在特定区段之前的区段的持续时间而确定每一区段何时可用。
在囊封单元30已基于所接收的数据将NAL单元及/或存取单元汇编成视频文件之后,囊封单元30将视频文件传递至输出接口32以用于输出。在一些实例中,囊封单元30可将视频文件存储在本地,或经由输出接口32而将视频文件发送至远程服务器,而非将视频文件直接发送至客户端装置40。输出接口32可包括例如发射器、收发器、用于将数据写入至计算机可读媒体的装置(例如光学驱动器、磁性媒体驱动器(例如软盘驱动器))、通用串行总线(USB)端口、网络接口或其它输出接口。输出接口32将视频文件输出至计算机可读媒体,例如传输信号、磁性媒体、光学媒体、存储器、闪存驱动器或其它计算机可读媒体。
网络接口54可经由网络74接收NAL单元或存取单元,且经由检索单元52将NAL单元或存取单元提供至解囊封单元50。解囊封单元50可将视频文件的元素解囊封成组成性PES流,解包化所述PES流以检索经编码数据,且取决于经编码数据为音频流还是视频流的部分(例如,如由流的PES包标头所指示)而将经编码数据发送至音频解码器46或视频解码器48。音频解码器46解码经编码音频数据,且将经解码音频数据发送至音频输出42,而视频解码器48解码经编码视频数据,且将经解码视频数据发送至视频输出44,经解码视频数据可包含流的多个视图。
根据本发明的技术,媒体装置(例如客户端装置40)可接收关于什么数据结构(例如表示、适配集合、媒体呈现、区段等等)经预期比其它数据结构更为用户感兴趣的发信的信息。媒体数据通常被称作“内容”,但内容流行性可转变成由HTTP网络元件(例如服务器装置60、客户端装置40、内容准备装置20及其它装置(例如MANE或DANE))容易地处置的DASH递送结构。如果内容提供者(例如内容准备装置20及/或服务器装置60)提供此数据,那么此信息可用于由自适应流式处理系统(例如系统10)中的客户端装置与源服务器装置之间的客户端装置40或网络74内的中间网络元件(图1的实例中未展示)进行数据预取。此信息还可用以例如在优选数据链路上(例如在多播或广播上)递送被认为最相关的数据,而不太流行数据可仅在单播中从源服务器(例如服务器装置60)提供。客户端装置40或网络74的中间网络装置还可预取预期为流行的较高质量数据,以便确保此数据可以良好质量用于许多用户。这些技术中的一或多者可独立地应用,或与其它技术组合而应用。
在一个实例中,服务器装置60提供指示存储媒体62的不同内容当中的内容层级或清单文件层级(例如MPD层级)相关的消费或请求速率的清单文件66中发信的MPD层级。举例来说,指示可没有单位,且较大值可指示被消费/请求的表示(例如表示68中的一者)或媒体呈现的适配集合的较高可能性或概率。此信息可由DANE使用以预取准备好很可能将迅速由客户端装置(例如客户端装置40)请求的最热的(例如最需要的)标题或其部分。
作为实例,服务器装置60可将任选属性@contentRequestRate添加至清单文件66(例如MPD),其可在表示、适配集合及/或MPD层级上经指派。当存在时,此属性的值指示不同内容当中的内容层级或MPD层级相对消费或请求速率。此属性的值可为无单位的。较大值可指示表示、适配集合或媒体呈现将被消费/请求的较高可能性。替代地,较低值可指示被消费/请求的数据的较高可能性或概率。
因此,MANE、DANE或客户端装置40可使用此属性的值以确定例如表示68中的每一者将被消费的相关可能性,并预取具有被消费/请求的最高可能性/概率的表示68中的一者的媒体数据。即,MANE/DANE/客户端装置40可预取对应媒体数据,原因在于MANE/DANE/客户端装置40可在没有显式请求的情况下例如从用户(或在MANE/DANE的情况下,从客户端装置40或其它客户端装置)检索媒体数据。
另外或替代地,服务器装置60可提供指示相同媒体呈现内的所有表示(例如表示68)当中的一表示的时间(temporal/time)分段相对消费或请求速率的适配集合及/或表示层级发信(例如,在清单文件66中,例如MPD)。客户端装置40及/或MANE/DANE可使用此信息来预取已准备好的媒体呈现的将很可能迅速由一些客户端装置(例如,客户端装置40)请求的最可能被请求片段。这些片段例如可涵盖VR/360视频内容的导演剪辑版表示。
在一个实例中,服务器装置60可将表示层级RepRequestRate元素发信,其可为清单文件66的任选元素。此元素可包括{@repRequestRate、@validTimeEnd}的两个属性对的阵列,其中@repRequestRate可指示相同媒体呈现内的相对消费或请求速率(其同样可为无单位的,且较大值可意指(子)区段在如下文所指定之持续时间内被消费/请求的的较高可能性),且@validTimeEnd可指示应用相对消费或请求速率值@repRequestRate的持续时间的媒体时间线的终止。持续时间的开始可为当前周期的开始或由@validTimeEnd的先前实例指示的时间。因此,客户端装置40或MANE/DANE可从具有被请求/消费的最高概率的对应表示确定并预取对应时间内的一或多个区段。
另外或替代地,服务器装置60可将相同媒体呈现内的所有表示(例如表示68)当中的该表示的相对消费或请求速率的表示层级信息在该表示的整个持续时间(即,非时间分段)内作为固定值发信。因此,客户端装置40(或MANE/DANE)可确定个别表示在该表示的整个持续时间内的相对消费或请求速率。
另外或替代地,服务器装置60可在周期层级、适配集合层级、表示层级及/或子表示层级中的一或多者上将相对消费或请求速率发信。客户端装置40可经配置以确定较低层级发信的值(如果其存在)盖写任一较高层级发信。即,值可在DASH周期层级、DASH适配集合层级、DASH表示层级或DASH子表示层级中的两者或大于两者处发信,且DASH客户端40可确定在较低层级处发信的值替代在较高层级处发信的值。替代地,较低值可指示被消费/请求的数据的较高可能性或概率。
另外或替代地,服务器装置60可将关于计时元数据层级的信息发信,其中服务器装置60可提供元数据作为可由客户端装置40或MANE/DANE利用此信息理解的单独播放轨。元数据播放轨可与相同表示中的某一媒体播放轨多路复用或排它性地囊封于其自身表示中。
作为又一个实例,服务器装置60可将可携带如上文针对媒体呈现所描述的相对消费或请求速率信息的新PED消息发信。消息体可仅携带相对消费或请求速率信息及识别信息应用于的MPD的MPD ID,但不携带MPD的其它部分。替代地,PED消息体可仅携带MPD自身,其含有相对消费或请求速率信息以及MPD的所有其它部分。当所有目的地存取MPD时可使用仅携带相对消费或速率请求信息的PED消息,而当目的地中的至少一者不存取MPD时可使用携带MPD自身的PED消息。
举例来说,对于存取MPD自身的MANE/DANE,服务器装置60可构造PED消息以包含用于更新相对消费或请求速率的信息,且所述消息可包含:@mpdId的值,其识别此消息应用于的MPD;如上文所论述的@contentRequestRate的值;及{@repId、RepRequestRate}的阵列的值,其中@repId为表示ID,且RepRequestRate为具有与上文所论述相同的语法及语义的元素。替代地,对于未存取MPD自身的MANE/DANE,PED消息接着可含有具有经更新相对消费或请求速率信息的MPD自身。
以此方式,客户端装置40表示用于检索媒体数据的媒体装置的实例,所述媒体装置包含一或多个处理器,其经配置以接收指示很可能为用户感兴趣的多个数据结构中的至少一个数据结构(所述数据结构包含媒体数据)的信息,且在从用户接收对于媒体数据的请求之前检索数据结构的媒体数据。在此实例中,客户端装置40可从服务器装置60检索(即,预取)媒体数据。
MANE 76通常表示可根据本发明的技术执行媒体数据的预取的媒体装置。MANE 76可包含:存储器,其经配置以例如存储经检索媒体数据;及一或多个处理器,其实施于电路中且经配置以执行本发明的技术。因此,MANE 76表示用于检索媒体数据的媒体装置的实例,所述媒体装置包含一或多个处理器,其经配置以接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构(所述数据结构包含媒体数据)的信息,并在从用户装置接收对于媒体数据的请求之前检索数据结构的媒体数据。用户装置可包含客户端装置40。MANE 76可从例如服务器装置60检索(即,预取)媒体数据。在一些实例中,MANE 76可为DASH感知网络元件(DANE)。另外,客户端装置40可从MANE 76而非从服务器装置60检索媒体数据。因此,客户端装置40及MANE 76中的任一者或两者可应用本发明的技术以预取可为用户感兴趣的特定媒体数据。
图2为更详细地绘示图1的检索单元52的组件的实例集合的框图。在此实例中,检索单元52包含eMBMS中间件单元100、DASH客户端110及媒体应用程序112。
在此实例中,eMBMS中间件单元100进一步包含eMBMS接收单元106、高速缓冲存储器104及代理服务器单元102。在此实例中,eMBMS接收单元106经配置以经由eMBMS接收数据,例如,根据T.Paila等人在“FLUTE-File Delivery over Unidirectional Transport”(网络工作组,RFC 6726,2012年11月)中所描述的经由单向传送的文件递送(FLUTE),可于http://tools.ietf.org/html/rfc6726获得。即,eMBMS接收单元106可经由广播而从例如服务器装置60(其可充当BM-SC)接收文件。
当eMBMS中间件单元100接收文件的数据时,eMBMS中间件单元可将所接收的数据存储于高速缓冲存储器104中。高速缓冲存储器104可包括计算机可读存储媒体,例如快闪存储器、硬盘、RAM或任何其它合适的存储媒体。
代理服务器单元102可充当DASH客户端110的服务器。举例来说,代理服务器单元102可将MPD文件或其它清单文件提供至DASH客户端110。代理服务器单元102可公告MPD文件中的区段的可用性时间,以及可检索所述区段的超链接。这些超链接可包含对应于客户端装置40的本地主机地址前缀(例如,IPv4的127.0.0.1)。以此方式,DASH客户端110可使用HTTP GET或部分GET请求向本地服务器单元102请求区段。举例来说,对于可从链接http://127.0.0.1/rep1/seg3获得的区段,DASH客户端110可构造包含针对http://127.0.0.1/rep1/seg3的请求的HTTPGET请求,且将请求提交至代理服务器单元102。代理服务器单元102可从高速缓冲存储器104检索经请求数据且响应于这些请求而将数据提供至DASH客户端110。DASH客户端110将从代理服务器单元102检索的媒体数据递送至媒体应用程序112以用于回放。
根据本发明的技术的某些实例,eMBMS中间件单元100可接收最可能经由eMBMS(例如经由广播/多播)呈现给用户的媒体数据,而检索单元52(参看图1)(例如eMBMS中间件单元100或DASH客户端110)可检索不可能经由单播呈现给用户的其它媒体数据。
图3为绘示实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1),或对应于存储于存储媒体62中的另一多媒体内容。在图3的实例中,多媒体内容120包含媒体呈现描述(MPD)122及多个表示124A至124N(表示124)。表示124A包含任选标头数据126及区段128A至128N(区段128),而表示124N包含任选标头数据130及区段132A至132N(区段132)。为了方便起见,使用字母N来指定表示124中的每一者中的最后一个电影片段。在一些实例中,表示124之间可存在不同数目的电影片段。
MPD 122可包括与表示124分隔的数据结构。MPD 122可对应于图1的清单文件66。同样地,表示124可对应于图1的表示68。一般来说,MPD 122可包含大体上描述表示124的特性的数据,例如译码及再现特性、适配集合、MPD 122所对应的配置文件、文本类型信息、相机角度信息、分级信息、特技模式信息(例如,指示包含时间子序列的表示的信息)及/或用于检索远程周期(例如,用于在回放期间将针对性广告插入至媒体内容中)的信息。
MPD 122通常将关于各种层级处的各种数据结构的特性发信。举例来说,MPD 122将关于适配集合的特性发信,包含多个表示、表示自身、表示内的区段的群组,及个别区段。MPD 122可经形成为可扩展标记语言(XML)文档,包含标签的递归集合。因此,适配集合层级可使用适配集合标签而形成,表示集合层级可使用适配集合内的表示标签而形成,区段层级的群组可使用表示内的区段标签的群组而形成,且区段层级可使用区段的群组内或表示内的区段标签而形成。
根据本发明的技术,MPD 122可包含指示很可能是用户感兴趣的多个数据结构中的至少一个数据结构的信息,所述数据结构包含媒体数据。举例来说,数据结构可为媒体呈现、适配集合、表示,或表示的子段(例如一或多个区段或子区段的集合)。
如上文所论述,MPD 122可包含包括{@repRequestRate、@validTimeEnd}的两个属性对的阵列的RepRequestRate元素。在此实例中,@repRequestRate的无单位值可指示对应表示的相同媒体呈现内的相对消费或请求速率,且@validTimeEnd的值可指示其中值@repRequestRate应用的时间持续时间的媒体时间线终止时间。
在一些实例中,MPD 122可包含表示在表示的整个时间持续时间中的相同媒体呈现内的所有表示当中的对应表示的相对消费或请求速率的语法元素的值。语法元素可对应于DASH周期、DASH适配集合、DASH表示或DASH子表示中的一或多者的相同媒体呈现内的所有表示。
在一些实例中,MPD 122可包含表示来自相同媒体呈现内的所有适配集合当中的适配集合的数据的时间分段相对消费或请求速率的数据。
标头数据126(当存在时)可描述区段128的特性,例如随机存取点(RAP,其也被称作流存取点(SAP))的时间位置、区段128中的哪一者包含随机存取点、与区段128内的随机存取点的字节偏移、区段128的统一资源定位符(URL),或区段128的其它方面。标头数据130(当存在时)可描述区段132的类似特性。另外或替代地,这些特性可完全包含于MPD 122内。
区段128、132包含一或多个经译码视频样本,其中的每一者可包含视频数据的帧或切片。区段128的经译码视频样本中的每一者可具有类似特性,例如,高度、宽度及带宽要求。此类特性可由MPD 122的数据描述,但此数据在图3的实例中未绘示。MPD 122可包含如3GPP规范所描述的特性,并且添加了本发明中所描述的发信信息中的任一者或全部。
区段128、132中的每一者可与唯一的统一资源定位符(URL)相关联。因此,区段128、132中的每一者可使用流式处理网络协议(例如DASH)来独立地检索。以此方式,例如客户端装置40的目的地装置可使用HTTP GET请求来检索区段128或132。在一些实例中,客户端装置40可使用HTTP部分GET请求来检索区段128或132的特定字节范围。
图4为绘示实例视频文件150的元素的框图,所述实例视频文件可对应于表示的区段,例如图3的区段128、132中的一者。区段128、132中的每一者可包含大体上符合图4的实例中所绘示的数据的布置的数据。视频文件150可以说囊封一区段。如上所述,根据ISO基本媒体文件格式及其扩展的视频文件将数据存储于一系列对象(被称为“方框”)中。在图4的实例中,视频文件150包含文件类型(FTYP)方框152、电影(MOOV)方框154、区段索引(sidx)方框162、电影片段(MOOF)方框164及电影片段随机存取(MFRA)方框166。尽管图4表示视频文件的实例,但应理解,根据ISO基本媒体文件格式及其扩展,其它媒体文件可包含其它类型的媒体数据(例如,音频数据、计时文本数据等等),其在结构上类似于媒体文件150的数据。
文件类型(FTYP)方框152通常描述视频文件150的文件类型。文件类型方框152可包含识别描述视频文件150的最佳用途的规范的数据。在各种替代例中,文件类型方框152可紧接地放置在MOOV方框154、电影片段方框164或MFRA方框166之前。
在一些实例中,区段(例如视频文件150)可包含在FTYP方框152之前的MPD更新方框(未展示)。MPD更新方框可包含指示对应于包含视频文件150的表示的MPD待更新的信息,以及用于更新MPD的信息。举例来说,MPD更新方框可提供待用以更新MPD的资源的URI或URL。作为另一实例,MPD更新方框可包含用于更新MPD的数据。在一些实例中,MPD更新方框可紧接在视频文件150的区段类型(STYP)方框(未展示)之后,其中STYP方框可定义视频文件150的区段类型。
在图4的实例中,MOOV方框154包含电影标头(MVHD)方框156、播放轨(TRAK)方框158及一或多个电影扩展(MVEX)方框160。一般来说,MVHD方框156可描述视频文件150的一般特性。举例来说,MVHD方框156可包含描述视频文件150何时最初创建、视频文件150何时经最后修改、视频文件150的时间标度、视频文件150的回放持续时间的数据,或通常描述视频文件150的其它数据。
TRAK方框158可包含视频文件150的播放轨的数据。TRAK方框158可包含播放轨标头(TKHD)方框,其描述对应于TRAK方框158的播放轨的特性。在一些实例中,TRAK方框158可包含经译码视频图片,而在其它实例中,播放轨的经译码视频图片可包含于电影片段164中,所述电影片段可由TRAK方框158及/或sidx方框162的数据参考。
根据本发明的技术,TRAK方框158可包含指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,所述数据结构包含媒体数据。举例来说,TRAK方框158可包含经多路复用的多个播放轨,所述多个播放轨包含电影片段164的媒体播放轨及具有在计时元数据层级上发信的指定指示很可能被检索的所述多个数据结构中的至少一个数据结构的信息的语法元素的单独播放轨。举例来说,数据结构可包括电影片段164中的一或多者。在一些实例中,单独播放轨可经形成为不包含任何媒体数据的表示,且与包含确实包含媒体数据的相应表示的其它播放轨多路复用。
在一些实例中,视频文件150可包含一个以上播放轨。因此,MOOV方框154可包含数目等于视频文件150中的播放轨的数目的TRAK方框。TRAK方框158可描述视频文件150的对应播放轨的特性。举例来说,TRAK方框158可描述对应播放轨的时间及/或空间信息。当囊封单元30(图3)包含视频文件(例如视频文件150)中的参数集播放轨时,类似于MOOV方框154的TRAK方框158的TRAK方框可描述参数集播放轨的特性。囊封单元30可在描述参数集播放轨的TRAK方框内将序列层级SEI消息存在于参数集播放轨中发信。
MVEX方框160可描述对应电影片段164的特性,例如,以将视频文件150除包含于MOOV方框154(如果存在)内的视频数据之外还包含电影片段164发信。在流视频数据的上下文中,经译码视频图片可包含于电影片段164中而非包含于MOOV方框154中。因此,所有经译码视频样本可包含于电影片段164中,而非包含于MOOV方框154中。
MOOV方框154可包含数目等于视频文件150中的电影片段164的数目的MVEX方框160。MVEX方框160中的每一者可描述电影片段164中的对应电影片段的特性。举例来说,每一MVEX方框可包含电影扩展标头方框(MEHD)方框,其描述电影片段164中的对应电影片段的时间持续时间。
如上文关于图1所提及,囊封单元30可存储视频样本中的序列数据集,其并不包含实际经译码视频数据。视频样本可大体上对应于存取单元,其为特定时间实例下的经译码图片的表示。在AVC的情况下,经译码图片包含一或多个VCL NAL单元,其含有用以构造存取单元的所有像素的信息,及其它相关联非VCL NAL单元(例如SEI消息)。因此,囊封单元30可包含电影片段164中的一者中的序列数据集,其可包含序列层级SEI消息。囊封单元30可进一步将存在于电影片段164中的一者中的序列数据集及/或序列层级SEI消息存在于对应于电影片段164中的一者的MVEX方框160中的一者内发信。
SIDX方框162为视频文件150的任选元素。即,符合3GPP文件格式或其它这些文件格式的视频文件未必包含SIDX方框162。根据3GPP文件格式的实例,SIDX方框可用以识别区段(例如,含于视频文件150内的区段)的子区段。3GPP文件格式将子区段定义为“具有对应媒体数据方框及含有由电影片段方框参考的数据的媒体数据方框的一或多个相连电影片段方框的自含式集合必须跟在电影片段方框之前,但在含有关于同一播放轨的信息的下一个电影片段方框之前”。3GPP文件格式还指示SIDX方框“含有对由方框记录的(子)片段的子片段的一系列参考。所参考的子区段在呈现时间上邻接。类似地,由区段索引方框参考的字节始终在区段内连续。所参考大小给出所参考材料中的字节的数目的计数”。
SIDX方框162通常提供表示包含于视频文件150中的区段的一或多个子区段的信息。举例来说,此信息可包含子片段开始及/或结束的回放时间、子片段的字节偏移、子片段是否包含流存取点(SAP)(例如,以流存取点(SAP)开始)的指示、SAP的类型(例如,SAP为瞬时解码器刷新(IDR)图片、干净随机存取(CRA)图片、断链存取(BLA)图片还是其类似者)、子区段中SAP(依据回放时间及/或字节偏移)的位置等等。
电影片段164可包含一或多个经译码视频图片。在一些实例中,电影片段164可包含一或多个图片群组(GOP),其中的每一者可包含数个经译码视频图片,例如帧或图片。另外,如上文所描述,在一些实例中,电影片段164可包含序列数据集。电影片段164中的每一者可包含电影片段标头方框(MFHD,图4中未展示)。MFHD方框可描述对应电影片段的特性,例如电影片段的序号。电影片段164可按序号次序包含于视频文件150中。
MFRA方框166可描述视频文件150的电影片段164内的随机存取点。这可辅助执行特技模式,例如执行对由视频文件150囊封的区段内的特定时间位置(即,回放时间)的寻找。在一些实例中,MFRA方框166通常是任选的且无需包含于视频文件中。同样地,客户端装置(例如客户端装置40)未必需要参考MFRA方框166来对视频文件150的视频数据进行正确解码及显示。MFRA方框166可包含数个播放轨片段随机存取(TFRA)方框(未展示),其数目等于视频文件150的播放轨的数目,或在一些实例中等于视频文件150的媒体播放轨(例如,非暗示播放轨)的数目。
在一些实例中,电影片段164可包含一或多个流存取点(SAP),例如IDR图片。同样地,MFRA方框166可提供对SAP在视频文件150内的位置的指示。因此,视频文件150的时间子序列可由视频文件150的SAP形成。时间子序列还可包含其它图片,例如取决于SAP的P帧及/或B帧。时间子序列的帧及/或切片可布置于区段内,使得时间子序列的取决于子序列的其它帧/切片的帧/切片可被恰当地解码。举例来说,在数据的层次布置中,用于其它数据的预测的数据还可包含于时间子序列中。
图5为绘示用于执行本发明的技术的实例方法的流程图。图5的方法是关于图1的服务器装置60、MANE 76及客户端装置40而阐释。然而,应理解,此方法或类似方法可由例如除服务器装置60、MANE 76及客户端装置40之外或其替代的其它装置执行。举例来说,归因于MANE 76的预取技术可实际上由客户端装置40自身执行。作为另一实例,内容准备装置20可执行归因于服务器装置60的技术。在此实例中,客户端装置40表示多个用户装置(例如用户设备(UE))中的一者,其可各自由相应不同用户操作。
最初,在此实例中,服务器装置60发送指示很可能由多个用户(例如,例如客户端装置40的客户端装置的用户)检索的媒体数据的信息(200)。此信息可指示一或多个标题(即,个别电影,也被称作媒体呈现)、媒体呈现的适配集合、媒体呈现的表示,及/或区段、区段的群组或媒体呈现的子区段。如上文所论述,此信息可包含于例如在MPD层级、适配集合层级、表示层级、区段层级等等处的清单文件(例如DASH MPD)中。另外或替代地,此信息可包含于与视频文件的其它播放轨多路复用的播放轨中。另外或替代地,此信息可包含于特殊PED消息(例如,所述特殊PED消息特别地识别PED消息应用于的MPD)、对应于MPD的媒体呈现的相对消费或请求速率及/或指示媒体呈现的一或多个表示的相对消费或请求速率的数据中。
在此实例中,MANE 76接收信息(202)并使用信息以确定很可能被检索的媒体数据(204)。举例来说,MANE 76可从MPD、特殊PED消息或媒体文件的单独播放轨提取信息。MANE76接着可请求很可能被检索的媒体数据(206)。具体来说,MANE 76可预取很可能被检索的媒体数据。即,在此实例中,MANE 76在所述多个客户端装置中的任一者(例如客户端装置40)请求媒体数据之前检索很可能被检索的媒体数据。换句话说,MANE 76并不响应于来自客户端装置40(或其它客户端装置)的请求而使用指示媒体数据很可能被检索的信息来检索媒体数据。
在此实例中,服务器装置60接收对于媒体数据的请求(208),并响应于所述请求而将经请求媒体数据发送至MANE 76(210)。MANE 76接收及高速缓冲存储例如在经配置为高速缓冲存储器的MANE 76的存储器中的媒体数据(212)。以此方式,MANE 76具有很可能由客户端装置在客户端装置实际上已请求媒体数据之前检索的媒体数据。因此,MANE 76可服务于来自MANE 76的高速缓冲存储器的对于媒体数据的请求,而非在接收到对于媒体数据的请求之后从服务器装置60检索媒体数据。
具体来说,如图5的实例中所示,客户端装置40请求很可能被检索的媒体数据(214)。MANE 76从客户端装置40接收对于媒体数据的请求(216)。因为MANE 76预取媒体数据,所以MANE 76可将经请求媒体数据发送至客户端装置40(218),而不在从客户端装置40接收请求之后从服务器装置60检索媒体数据。客户端装置40接着可接收及呈现媒体数据(220)。以此方式,本发明的技术可减少对对于媒体数据的请求作出响应的时延。以此方式减少时延可改善用户体验,并还减少由MANE 76所需要的处理。具体来说,通过经由预取此类媒体数据高速缓冲存储很可能被检索的媒体数据,MANE 76可确保此数据可供用于多个用户,且因此减少MANE 76必须从服务器装置60检索媒体数据所花费时间量,以便将媒体数据服务至多个用户。
以此方式,图5的方法表示一种方法的实例,所述方法包含:由媒体装置接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,数据结构包含媒体数据;及由媒体装置在从用户装置接收对于媒体数据的请求之前检索数据结构的媒体数据。
如上文所论述,出于实例的目的,关于预取媒体数据的MANE 76而阐释图5的方法。在其它实例中,客户端装置40可在以类似方式从客户端装置40的用户接收请求之前例如从MANE 76或服务器装置60预取媒体数据。
图6为绘示用于执行本发明的技术的实例方法的流程图。出于实例的目的,关于图1的服务器MANE 76而阐释图6的方法。然而,应理解,此或类似方法可由例如除MANE 76之外或替代MANE 76的其它装置执行。举例来说,图1的客户端装置40可执行此或类似方法。同样地,服务器装置60可执行在概念上类似于图6中展示的方法(但互逆)的方法。即,图6中,服务器装置60可发送指示为由MANE 76接收及检索的信息。
最初,MANE 76接收指示很可能由相应多个用户操作的多个用户装置检索的多个数据结构中的至少一个数据结构的信息,数据结构包含媒体数据(230)。MANE 76接着在从用户装置接收对于媒体数据的请求之前检索数据结构的媒体数据(232)。即,MANE 76在最初不从客户端装置接收对于媒体数据的请求的情况下(即,不响应于对于来自客户端装置的媒体数据的任何请求)检索媒体数据。以此方式,MANE 76可在媒体数据由客户端装置请求之前预取媒体数据,使得所述媒体数据可在来自客户端装置的对于媒体数据的请求情况下供用于分布至客户端装置。当由客户端装置(例如客户端装置40(图1))执行时,图6的方法通常包含客户端装置40在从客户端装置40的用户接收对于媒体数据的任何请求之前(即,不响应于来自用户的对于媒体数据的请求)检索媒体数据。
在一或多个实例中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体(其包含例如根据通信协议促进计算机程序从一处传送至另一处的任何媒体)。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
作为实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外、无线电及微波的无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光缆、双绞线、DSL或例如红外、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是涉及非暂时性有形存储媒体。如本文中所使用的磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各者的组合也应包含于计算机可读媒体的范围内。
可由一或多个处理器执行指令,所述一或多个处理器是例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所描述的功能性可提供于经配置以供编码及解码或并入于组合式编解码器中的专用硬件及/或软件模块内。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于多种装置或设备中,所述装置或设备包含无线手机、集成电路(IC)或IC集合(例如芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必需要由不同硬件单元实现。更确切地说,如上文所描述,各种单元可组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合与适合的软件及/或固件一起组合来提供所述单元。
已描述了各种实例。这些及其它实例在所附权利要求书的范围内。

Claims (40)

1.一种检索媒体数据的方法,所述方法包括:
由媒体装置从服务器装置接收与所述媒体数据的清单文件分隔的参数增强递送PED消息中指示很可能由相应多个用户操作的多个用户装置检索的共同媒体内容的多个数据结构中的至少一个数据结构的信息,所述多个数据结构中的每一者包含媒体数据,所述至少一个数据结构包括第一数据结构,且所述信息指示所述第一数据结构与所述多个数据结构中的不同的第二数据结构相比更可能由所述多个用户装置检索,其中,所述PED消息携带用于媒体呈现的相对消费或请求速率信息;及
响应于所述信息指示所述第一数据结构与所述第二数据结构相比更可能由所述多个用户装置检索,由所述媒体装置在从所述用户装置接收对于所述第一数据结构的所述媒体数据的请求之前从所述服务器装置检索所述第一数据结构的所述媒体数据,而不在接收对于所述第二数据结构的所述媒体数据的请求之前检索所述第二数据结构的所述媒体数据。
2.根据权利要求1所述的方法,其中所述媒体装置包括与所述服务器装置及所述多个用户装置通信的媒体感知网络元件MANE。
3.根据权利要求1所述的方法,其中所述媒体装置包括HTTP动态自适应流式处理DASH感知网络元件DANE。
4.根据权利要求1所述的方法,其中所述第一数据结构包括HTTP动态自适应流式处理DASH表示、DASH适配集合,或包含多个相关DASH表示及对应于特定电影标题的媒体呈现的集合中的一者。
5.根据权利要求1所述的方法,其中接收所述信息包括接收所述媒体数据的清单文件中的所述信息。
6.根据权利要求5所述的方法,其中所述清单文件包括HTTP动态自适应流式处理DASH媒体呈现描述MPD。
7.根据权利要求1所述的方法,其中所述媒体装置包括媒体感知网络元件MANE或DASH感知网络元件DANE,所述方法进一步包括从所述PED消息提取所述信息及使用所述提取的信息更新相对消费或请求速率。
8.根据权利要求1所述的方法,其中所述PED消息包含识别所述PED消息应用于的媒体呈现描述MPD的@mpdId元素的值、指示对应于所述MPD的媒体数据的相对消费或请求速率的@contentRequestRate元素的值,及指示相应表示的相对消费或请求速率的{@repId、RepRequestRate}语法元素的阵列。
9.根据权利要求1所述的方法,其中所述PED消息包含所述媒体数据的DASH MPD。
10.根据权利要求1所述的方法,其中接收所述信息包括接收所述数据结构的@contentRequestRate属性的值,所述@contentRequestRate属性指示所述相应数据结构的消费或请求速率。
11.根据权利要求10所述的方法,其中所述@contentRequestRate属性具有指示对应数据结构的内容层级或清单文件层级消费或请求速率的无单位值,且其中所述@contentRequestRate属性的较高值指示所述对应数据结构与具有较低@contentRequestRate属性值的数据结构相比更可能被消费或请求。
12.根据权利要求10所述的方法,其中所述@contentRequestRate属性具有指示对应数据结构的内容层级或清单文件层级消费或请求速率的无单位值,且其中所述@contentRequestRate属性的较低值指示所述对应数据结构与具有较高@contentRequestRate属性值的数据结构相比更可能被消费或请求。
13.根据权利要求1所述的方法,其中所述第一数据结构包括适配集合或表示,且其中接收所述信息包括接收在适配集合层级或表示层级处的所述信息。
14.根据权利要求13所述的方法,其中所述信息指示相同媒体呈现内的所有表示当中的一表示的时间分段相对消费或请求速率。
15.根据权利要求13所述的方法,其中所述信息包括包含{@repRequestRate、@validTimeEnd}的两个属性对的阵列的RepRequestRate元素,其中@repRequestRate的无单位值指示对应表示在相同媒体呈现内的相对消费或请求速率,且其中@validTimeEnd的值指示应用值@repRequestRate的持续时间的媒体时间线终止时间。
16.根据权利要求13所述的方法,其中所述信息包括表示相同媒体呈现内的所有表示当中的对应表示在所述表示的整个持续时间内的相对消费或请求速率的值。
17.根据权利要求13所述的方法,其中所述信息包括表示对于DASH周期、DASH适配集合、DASH表示或DASH子表示中的一或多者的相同媒体呈现内的所有表示当中的对应表示的相对消费或请求速率的语法元素的值。
18.根据权利要求17所述的方法,其中所述信息包括在DASH周期层级、DASH适配集合层级、DASH表示层级或DASH子表示层级中的两者或大于两者处发信的语法元素的值,所述方法进一步包括确定在较低层级处发信的值替代在较高层级处发信的值。
19.根据权利要求17所述的方法,其进一步包括确定表示所述相对消费或请求速率的所述语法元素的较高值指示所述对应表示与具有所述语法元素的较低值的表示相比更可能被检索。
20.根据权利要求17所述的方法,其进一步包括确定表示所述相对消费或请求速率的所述语法元素的较低值指示所述对应表示与具有所述语法元素的较高值的表示相比更可能被检索。
21.根据权利要求13所述的方法,其中接收所述信息包括从与一或多个媒体播放轨多路复用的单独播放轨接收在计时元数据层级上发信的语法元素的值。
22.根据权利要求21所述的方法,其中提取所述值包括从与表示多路复用的所述单独播放轨提取所述值。
23.根据权利要求21所述的方法,其中提取所述值包括从囊封于不包含媒体数据的表示中的所述单独播放轨提取所述值。
24.根据权利要求13所述的方法,其中所述信息指示来自相同媒体呈现内的所有适配集合当中的一适配集合的数据的时间分段相对消费或请求速率。
25.根据权利要求13所述的方法,其中接收在所述适配集合或表示层级处的所述信息包括从清单文件提取所述信息。
26.根据权利要求1所述的方法,其中检索所述媒体数据包括预取所述媒体数据。
27.一种用于检索媒体数据的媒体装置,所述媒体装置包括:
存储器,其用于存储媒体数据;及
一或多个处理器,其实施于电路中且经配置以进行以下操作:
从服务器装置接收与所述媒体数据的清单文件分隔的参数增强递送PED消息中指示很可能由相应多个用户操作的多个用户装置检索的共同媒体内容的多个数据结构中的至少一个数据结构的信息,所述多个数据结构中的每一者包含媒体数据,所述至少一个数据结构包括第一数据结构,且所述信息指示所述第一数据结构与所述多个数据结构中的不同的第二数据结构相比更可能由所述多个用户装置检索,其中,所述PED消息携带用于媒体呈现的相对消费或请求速率信息;及
响应于所述信息指示所述第一数据结构与所述第二数据结构相比更可能由所述多个用户装置检索,在从所述用户装置接收对于所述第一数据结构的所述媒体数据的请求之前从所述服务器装置检索所述第一数据结构的所述媒体数据,而不在接收对于所述第二数据结构的所述媒体数据的请求之前检索所述第二数据结构的所述媒体数据。
28.根据权利要求27所述的媒体装置,其中所述第一数据结构包括HTTP动态自适应流式处理DASH表示、DASH适配集合,或包含对应于特定电影标题的多个相关DASH表示的媒体呈现的集合中的一者。
29.根据权利要求27所述的媒体装置,其中接收所述信息包括接收所述媒体数据的清单文件中的所述信息。
30.根据权利要求29所述的媒体装置,其中所述清单文件包括HTTP动态自适应流式处理DASH媒体呈现描述MPD。
31.根据权利要求27所述的媒体装置,其中所述媒体装置包括媒体感知网络元件MANE或DASH感知网络元件DANE,且其中所述一或多个处理器经进一步配置以从所述PED消息提取所述信息并使用所述提取的信息更新相对消费或请求速率。
32.根据权利要求27所述的媒体装置,其中所述PED消息包含识别所述PED消息应用于的媒体呈现描述MPD的@mpdId元素的值、指示对应于所述MPD的媒体数据的相对消费或请求速率的@contentRequestRate元素的值,及指示相应表示的相对消费或请求速率的{@repId、RepRequestRate}语法元素的阵列。
33.根据权利要求27所述的媒体装置,其中所述第一数据结构包括适配集合或表示,且其中所述一或多个处理器经配置以从清单文件的适配集合层级或表示层级提取所述信息。
34.根据权利要求27所述的媒体装置,其中所述一或多个处理器经配置以预取所述数据结构的所述媒体数据。
35.根据权利要求27所述的媒体装置,其进一步包括显示器,所述显示器经配置以显示所述媒体数据的图片。
36.根据权利要求27所述的媒体装置,其中所述媒体装置包括相机、计算机、移动装置、广播接收器装置或机顶盒中的一或多者。
37.根据权利要求27所述的媒体装置,其中所述媒体装置包括媒体感知网络元件MANE。
38.根据权利要求27所述的媒体装置,其中所述媒体装置包括HTTP动态自适应流式处理DASH感知网络元件DANE。
39.一种用于检索媒体数据的媒体装置,所述媒体装置包括:
用于从服务器装置接收与所述媒体数据的清单文件分隔的参数增强递送PED消息中指示很可能由相应多个用户操作的多个用户装置检索的共同媒体内容的多个数据结构中的至少一个数据结构的信息的装置,所述多个数据结构中的每一者包含媒体数据,所述至少一个数据结构包括第一数据结构,且所述信息指示所述第一数据结构与所述多个数据结构中的不同的第二数据结构相比更可能由所述多个用户装置检索,其中,所述PED消息携带用于媒体呈现的相对消费或请求速率信息;及
用于响应于所述信息指示所述第一数据结构与所述第二数据结构相比更可能由所述多个用户装置检索,在从所述用户装置接收对于所述第一数据结构的所述媒体数据的请求之前从所述服务器装置检索所述第一数据结构的所述媒体数据,而不在接收对于所述第二数据结构的所述媒体数据的请求之前检索所述第二数据结构的所述媒体数据的装置。
40.一种计算机可读存储媒体,其上存储有指令,所述指令在执行时致使媒体装置的处理器执行以下操作:
从服务器装置接收与媒体数据的清单文件分隔的参数增强递送PED消息中指示很可能由相应多个用户操作的多个用户装置检索的共同媒体内容的多个数据结构中的至少一个数据结构的信息,所述多个数据结构中的每一者包含媒体数据,所述至少一个数据结构包括第一数据结构,且所述信息指示所述第一数据结构与所述多个数据结构中的不同的第二数据结构相比更可能由所述多个用户装置检索,其中,所述PED消息携带用于媒体呈现的相对消费或请求速率信息;及
响应于所述信息指示所述第一数据结构与所述第二数据结构相比更可能由所述多个用户装置检索,在从所述用户装置接收对于所述第一数据结构的所述媒体数据的请求之前从所述服务器装置检索所述第一数据结构的所述媒体数据,而不在接收对于所述第二数据结构的所述媒体数据的请求之前检索所述第二数据结构的所述媒体数据。
CN201880005097.1A 2017-01-10 2018-01-05 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体 Active CN110089122B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762444730P 2017-01-10 2017-01-10
US62/444,730 2017-01-10
US15/862,251 US11290755B2 (en) 2017-01-10 2018-01-04 Signaling data for prefetching support for streaming media data
US15/862,251 2018-01-04
PCT/US2018/012600 WO2018132319A1 (en) 2017-01-10 2018-01-05 Signaling data for prefetching support for streaming media data

Publications (2)

Publication Number Publication Date
CN110089122A CN110089122A (zh) 2019-08-02
CN110089122B true CN110089122B (zh) 2021-12-10

Family

ID=62783504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880005097.1A Active CN110089122B (zh) 2017-01-10 2018-01-05 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体

Country Status (9)

Country Link
US (1) US11290755B2 (zh)
EP (1) EP3568991B1 (zh)
KR (1) KR102580982B1 (zh)
CN (1) CN110089122B (zh)
AU (1) AU2018207060A1 (zh)
BR (1) BR112019014070A2 (zh)
ES (1) ES2892329T3 (zh)
TW (1) TW201830974A (zh)
WO (1) WO2018132319A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107637045B (zh) * 2015-06-16 2020-11-27 苹果公司 使用动态无线接入网信息的自适应视频流送
WO2018131813A1 (en) * 2017-01-10 2018-07-19 Samsung Electronics Co., Ltd. Method and apparatus for generating metadata for 3d images
KR102277267B1 (ko) * 2017-03-29 2021-07-14 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
US10924822B2 (en) 2017-04-04 2021-02-16 Qualcomm Incorporated Segment types as delimiters and addressable resource identifiers
US10601886B2 (en) * 2018-02-05 2020-03-24 Telefonaktiebolaget Lm Ericsson (Publ) Method, a user equipment and a computer program product for enabling a dynamic adaptive streaming over HTTP, DASH, player to fetch media segments from a network
US11050843B2 (en) * 2018-03-30 2021-06-29 Facebook, Inc. Systems and methods for prefetching content
JP7028811B2 (ja) * 2019-01-29 2022-03-02 Kddi株式会社 コンテンツ配信ネットワークの転送装置
GB2582014A (en) * 2019-03-08 2020-09-09 Canon Kk Method, device, and computer program for optimizing transmission of portions of encapsulated media content
US10979477B1 (en) * 2019-03-26 2021-04-13 Amazon Technologies, Inc. Time synchronization between live video streaming and live metadata
EP3948593B1 (en) * 2019-03-26 2023-05-03 Google LLC Separating the authorization of content access and content delivery using multiple cryptographic digital signatures
WO2021156194A1 (en) * 2020-02-04 2021-08-12 Dolby International Ab Method and device for adaptive playout of media content
US11546406B2 (en) * 2020-04-13 2023-01-03 Tencent America LLC Media systems and methods including mixed event message tracks
US11394932B2 (en) 2020-06-03 2022-07-19 Honeywell International Inc. System and method for auto selecting a video for display on a mobile device based on the proximity of the mobile device relative to the video source
US11750815B2 (en) 2020-09-17 2023-09-05 Lemon, Inc. Versatile video coding track coding
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding
US11910032B1 (en) * 2022-08-02 2024-02-20 Rovi Guides, Inc. Systems and methods for distributed media streaming

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101951395A (zh) * 2010-08-30 2011-01-19 中国科学院声学研究所 一种基于访问预测的P2P VoD系统服务端的数据缓存策略
CN104486350A (zh) * 2014-12-24 2015-04-01 电子科技大学 一种基于用户行为的网络内容加速方法
CN104618506A (zh) * 2015-02-24 2015-05-13 庄奇东 一种众包的内容分发网络系统、方法与装置
WO2016204815A1 (en) * 2015-06-16 2016-12-22 Intel IP Corporation Adaptive video streaming using dynamic radio access network information

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8090761B2 (en) 2002-07-12 2012-01-03 Hewlett-Packard Development Company, L.P. Storage and distribution of segmented media data
DE102005001286A1 (de) * 2005-01-11 2006-07-20 Siemens Ag Verfahren und Vorrichtung zur Übertragung von skalierbaren Daten
US20090183215A1 (en) 2008-01-16 2009-07-16 Qualcomm Incorporated Hybrid services: data, audio, and clipcast
CN101242430B (zh) 2008-02-22 2012-03-28 华中科技大学 对等网络点播系统中的定点数据预取方法
US8347340B2 (en) 2008-09-11 2013-01-01 Livetv, Llc Aircraft communications system with video file library and associated methods
WO2011139305A1 (en) * 2010-05-04 2011-11-10 Azuki Systems, Inc. Method and apparatus for carrier controlled dynamic rate adaptation and client playout rate reduction
US9282354B2 (en) 2011-10-28 2016-03-08 Qualcomm Incorporated Method and apparatus to detect a demand for and to establish demand-based multimedia broadcast multicast service
US8903955B2 (en) * 2011-12-02 2014-12-02 Cisco Technology, Inc. Systems and methods for intelligent video delivery and cache management
US9804668B2 (en) * 2012-07-18 2017-10-31 Verimatrix, Inc. Systems and methods for rapid content switching to provide a linear TV experience using streaming content distribution
US20140089467A1 (en) * 2012-09-27 2014-03-27 Andre Beck Content stream delivery using pre-loaded segments
US9491457B2 (en) 2012-09-28 2016-11-08 Qualcomm Incorporated Signaling of regions of interest and gradual decoding refresh in video coding
US20140223502A1 (en) * 2013-02-06 2014-08-07 General Instrument Corporation Method of Operating an IP Client
EP3399763A1 (en) * 2013-05-24 2018-11-07 Immersion Corporation Method and system for haptic data encoding
US20140365613A1 (en) * 2013-06-06 2014-12-11 Ericsson Television Inc. Defragmentation of adaptive streaming segment files in a content delivery network
US10171528B2 (en) * 2013-07-03 2019-01-01 Koninklijke Kpn N.V. Streaming of segmented content
EP2833640A1 (en) * 2013-08-02 2015-02-04 British Telecommunications public limited company Video caching
US9444856B2 (en) * 2013-09-25 2016-09-13 Ericsson Ab System and method for managing adjacent channels in an adaptive streaming environment
US10841353B2 (en) * 2013-11-01 2020-11-17 Ericsson Ab System and method for optimizing defragmentation of content in a content delivery network
WO2015197815A1 (en) 2014-06-27 2015-12-30 Koninklijke Kpn N.V. Determining a region of interest on the basis of a hevc-tiled video stream
US9509742B2 (en) * 2014-10-29 2016-11-29 DLVR, Inc. Configuring manifest files referencing infrastructure service providers for adaptive streaming video
KR102379530B1 (ko) 2015-01-07 2022-03-29 삼성전자주식회사 통신 시스템에서 미디어 정보를 송수신하는 방법 및 장치
US10721505B2 (en) * 2015-01-21 2020-07-21 Lg Electronic Inc. Broadcast signal transmission apparatus, broadcast signal reception apparatus, broadcast signal transmission method, and broadcast signal reception method
US10375452B2 (en) * 2015-04-14 2019-08-06 Time Warner Cable Enterprises Llc Apparatus and methods for thumbnail generation
US10193994B2 (en) 2015-06-18 2019-01-29 Qualcomm Incorporated Signaling cached segments for broadcast
US10096130B2 (en) * 2015-09-22 2018-10-09 Facebook, Inc. Systems and methods for content streaming
US10225546B2 (en) 2016-02-26 2019-03-05 Qualcomm Incorporated Independent multi-resolution coding
US11184624B2 (en) 2016-05-19 2021-11-23 Qualcomm Incorporated Regional random access in pictures
US10582201B2 (en) 2016-05-19 2020-03-03 Qualcomm Incorporated Most-interested region in an image
US10565463B2 (en) 2016-05-24 2020-02-18 Qualcomm Incorporated Advanced signaling of a most-interested region in an image
US10034033B2 (en) * 2016-07-28 2018-07-24 Cisco Technology, Inc. Predictive media distribution system
CN110463208A (zh) * 2017-03-24 2019-11-15 索尼公司 内容处理装置、内容处理方法以及程序
US10062414B1 (en) * 2017-08-22 2018-08-28 Futurewei Technologies, Inc. Determining a future field of view (FOV) for a particular user viewing a 360 degree video stream in a network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101951395A (zh) * 2010-08-30 2011-01-19 中国科学院声学研究所 一种基于访问预测的P2P VoD系统服务端的数据缓存策略
CN104486350A (zh) * 2014-12-24 2015-04-01 电子科技大学 一种基于用户行为的网络内容加速方法
CN104618506A (zh) * 2015-02-24 2015-05-13 庄奇东 一种众包的内容分发网络系统、方法与装置
WO2016204815A1 (en) * 2015-06-16 2016-12-22 Intel IP Corporation Adaptive video streaming using dynamic radio access network information

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Descriptions of Core Experiments on DASH Amendment;Alex Giladi;Thomas Stockhammer;CE coordinators;《3GPP ISO/IEC JTC1/SC29/WG11,MPEG2014/N14858》;20141024;全文 *
流媒体代理缓存和预取方法的研究;张俊清;余镇危;张英;白云鹤;《微机发展》;20050710;第15卷(第7期);全文 *

Also Published As

Publication number Publication date
AU2018207060A1 (en) 2019-06-13
CN110089122A (zh) 2019-08-02
EP3568991A1 (en) 2019-11-20
TW201830974A (zh) 2018-08-16
KR20190104147A (ko) 2019-09-06
EP3568991B1 (en) 2021-09-01
ES2892329T3 (es) 2022-02-03
BR112019014070A2 (pt) 2020-02-04
US20180199075A1 (en) 2018-07-12
KR102580982B1 (ko) 2023-09-20
WO2018132319A1 (en) 2018-07-19
US11290755B2 (en) 2022-03-29

Similar Documents

Publication Publication Date Title
CN110089122B (zh) 用于检索媒体数据的方法、媒体装置及计算机可读存储媒体
AU2023200083B2 (en) Signaling important video information in network video streaming using mime type parameters
CN109076229B (zh) 在图片中最感兴趣的区域
KR102342274B1 (ko) 이미지에서 가장 관심있는 영역의 진보된 시그널링
CN109076238B (zh) 通过http在动态自适应流式传输中用信号传送虚拟现实视频
US11665219B2 (en) Processing media data using a generic descriptor for file format boxes
CN110870323B (zh) 使用全向媒体格式处理媒体数据
KR102654999B1 (ko) 강화된 영역별 패킹 및 뷰포트 독립적 hevc 미디어 프로파일

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40005258

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant