CN109076252A - 高效自适应流传输 - Google Patents

高效自适应流传输 Download PDF

Info

Publication number
CN109076252A
CN109076252A CN201780023999.3A CN201780023999A CN109076252A CN 109076252 A CN109076252 A CN 109076252A CN 201780023999 A CN201780023999 A CN 201780023999A CN 109076252 A CN109076252 A CN 109076252A
Authority
CN
China
Prior art keywords
video
stream
layer
media
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780023999.3A
Other languages
English (en)
Other versions
CN109076252B (zh
Inventor
罗伯特·斯库宾
雅戈·桑切斯
托马斯·斯切尔
科内柳斯·海尔奇
卡尔斯滕·古内博格
托马斯·威甘德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN109076252A publication Critical patent/CN109076252A/zh
Application granted granted Critical
Publication of CN109076252B publication Critical patent/CN109076252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/438Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
    • H04N21/4383Accessing a communication channel
    • H04N21/4384Accessing a communication channel involving operations to reduce the access time, e.g. fast-tuning for reducing channel switching latency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440227Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

通过配置用于取回视频的设备使得其在从第一视频流切换到第二视频流之前安排过渡阶段,和/或通过配置用于根据自适应流传输协议输出视频的设备使得其支持以分层视频流或增加的空间分辨率流的形式切换输出视频,通过结合使用开放GOP结构更有效地呈现自适应流传输,分层视频流具有第二层,该第二层使用层间预测而不使用残差编码以增加的空间分辨率在其中对视频进行编码。以依赖(第二)表示来表示诸如视频的媒体内容,该依赖(第二)表示由第一组时间片段和第二组时间片段组成,该第一组时间片段已经在其中依赖于与第一组时间片段时间上相对应的媒体内容的第一(参考)表示的第一部分对媒体内容进行编码,并且第二表示的第二组时间片段已经在其中独立于与第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,使得成功地重建。通过在随机接入点的时间分布上不同的各个频道的一组表示,对于每个频道,使得更有效地流传输由几个频道组成的媒体场景。

Description

高效自适应流传输
技术领域
本申请涉及诸如使用DASH的自适应流传输。
背景技术
使用自适应流传输,将媒体数据流以时间片段从服务器提供到客户端。服务器可以根据应用以不同比特率向客户端提供媒体。也就是说,针对媒体内容的不同版本的时间片段的序列可供客户端下载,并且在媒体流传输期间,不同版本之间的切换是可行的。因此,客户端从服务器取回的时间片段的序列以交错的方式包括源于第一版本的时间片段的序列和源于另一版本的时间片段。然而,如果一个时间片段想要利用更高效的开放GOP结构对媒体内容进行编码,则可能出现问题,在这种情况下,参考图片,具体是对流的解码开始于其相关联的随机接入点时丢失参考的前导图片(例如,随机接入跳过前导图片-HEVC中的RASL图片)在这种情况下可能会丢失。使用闭合GOP结构对媒体内容进行编码不会引起这些问题,但是最终会降低编码/压缩效率。
对实现自适应流传输的改进普遍感兴趣的其他方面涉及流传输参数,例如从客户端向服务器请求发布下一时间片段的必要请求的频率、平均调入时延(即,客户端能够接入特定媒体内容的平均时间,该时延应被最小化)、以及避免比特率峰值,因为流传输媒体内容中的这种比特率峰值需要客户端处的较大的输入缓冲器来补偿比特率变化。
发明内容
因此,本发明的目的是提供实现以上概述的改进的自适应流传输概念。
该目的是通过独立权利要求的主题来实现的。
根据与本申请的第一方面有关的思想,通过配置用于取回视频的设备使得在其从第一视频流切换到第二视频流之前安排过渡阶段,可以结合使用开放GOP结构更有效地呈现自适应流传输。通过该措施,第二视频流可以使用开放GOP结构进行编码,因为过渡阶段可以提供足够的时间来补偿基于第一视频流的诸如RASL图片的随机访问依赖图片的丢失参考图片。
根据与本申请的第一方面有关的第二思想,通过配置用于根据自适应流传输协议输出视频的设备,使得其支持以分层视频流或增加的空间分辨率流的形式输出视频切换,分层视频流具有第二层,第二层在其中以增加的空间分辨率使用层间预测而不使用残差编码对视频进行编码。通过该措施,在客户端处可以容易地获得用于替换诸如RASL图像的随机接入依赖图像的上述缺失参考图像的信息。通过使用在没有残差编码的情况下进行编码的分层视频使得针对随机记录依赖图片的参考图片可用的第二流可以是使用层间预测或甚至单层视频流进行编码的分层视频的层,即,未使用层间预测进行编码的层。对于后一种情况,这意味着层间预测仅用于针对可用的随机接入依赖图片制作参考图片。
根据本申请的第二方面,诸如视频的媒体内容通过允许以依赖(第二)表示来表示,可以通过自适应流传输更有效地进行流传输,依赖(第二)表示由第一组时间片段和第二表示的第二组时间片段组成,第一组时间片段在其中依赖于与第一组时间片段时间上相对应的媒体内容的第一(参考)表示的第一部分对媒体内容进行编码,第二组时间片段在其中独立于与第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,使得可以在没有第一表示的第二部分的情况下成功从第二表示重建媒体内容。
根据本申请的第三方面,对于每个频道,针对随机接入点的时间分布不同的各个频道的一组表示,使得由多个频道组成的媒体场景可以更有效地进行流传输。通过该措施,客户端设备可以安排表示之间的切换以优化快速调入和低比特率变化。
根据本申请的第四方面,通过向客户端除了第一和第二媒体流之外还提供在其中依赖于第一和第二媒体流对媒体内容进行编码的辅助媒体流,当在二个表示或服务器处提供的媒体流之间转换时,增加了自适应流传输质量。当通过衰落阶段从第一表示切换到第二表示时,客户端可以使用该衰落阶段进行衰落,在该衰落阶段内设备取回辅助媒体流以及第一和第二媒体流并且播放辅助媒体流而不是第二辅助流。
附图说明
有利的实现是从属权利要求的主题。以下参照附图描述本申请的优选实施例,其中:
图1示出了说明在其中使用开放GOP结构对视频进行编码的视频数据流的图,其中图1以呈现时间顺序示出了视频数据流的图片;
图2示出了说明视频数据流的图片的路径的示意图,该视频数据流在其中使用开放GOP结构以呈现时间顺序且在下半部以解码顺序对图片进行编码,其中,该开放GOP结构对应于图1的开放GOP结构并仅作为示例;
图3示出了说明两个单独/独立编码的视频数据流的示意图,其在上半部分经时间细分为用于自适应流传输的分段,且在下半部分以拼接数据流的形式到达客户端,从而实现从较低质量到较高质量的转换;
图4示出了根据涉及本申请的第一方面的实施例的输出设备的示意图;
图5示出了根据实施例的由图4的输出设备使用的分层视频流和增加的空间分辨率视频流的示意图;
图6示出了根据涉及本申请的第一方面的实施例的客户端设备的示意图;
图7示出了根据实施例的说明图6的客户端设备在从较低空间分辨率切换到增加的空间分辨率时插入过渡阶段的操作模式的示意图;
图8示出了说明在使用图5的流时由图6的客户端设备从服务器获得的入站拼接视频数据流的示意图;
图9是通过示出增加的空间分辨率视频流也可以是分层视频流来说明图8所使用的流的示意图;
图10示出了说明当针对增加的空间分辨率视频流使用独立编码层且针对分层视频数据流使用携带第一层和第二层的片段时,由图6的客户端设备接收的拼接视频数据流的拼接点的示意图;
图11示出了根据实施例的说明准备用于服务器侧的自适应流传输的数据结构的示意图,其中分层视频流的片段包括共同片段内的第一层和第二层;
图12示出了根据图11的备选实施例的数据结构的示意图,其中独立片段用于分层视频流内的第一层和第二层;
图13示出了说明图10的情况的示意图,但是这里将独立片段用于分层视频流的第一层和第二层;
图14示出了说明二个表示的四个连续片段的示意图,表示Q2依赖于表示Q1,其中在上半部分示出携带RAP的片段在时间上对齐且在下半部分说明片段未对齐的示例,并且在下载表示Q2处示出了所得到的下载比特率,从而说明在使用未对齐的RAP的情况下较低的比特率峰值;
图15示出了说明在表示Q2依赖于表示Q1的情况下的八个连续片段的示意图,其中以独立于表示Q1的方式对表示Q2的一些片段进行编码;
图16示出了说明可以利用图15所示结构的输出设备的示意图;
图17示出了说明可适配图16的输出设备的客户端设备的示意图;
图18示出了说明在表示中具有时间对准的RAP的共同特征场景的每个片段具有一个表示的情况的示意图,其示出了在下载完整的场景中所得到的比特率峰值;
图19示出了说明改进的媒体场景结构的示意图,该媒体场景结构针对多频道媒体场景的每个频道具有不同时间分布RAP的若干表示;
图20示出了说明输出设备的示意图的示意图;
图21示出了说明图13的情况的示意图,其中在服务器处出于衰落目的另外提供辅助轨道以说明本申请的第四方面;
图22示出了二个时间图,一个在另一个上,说明预测的线性组合的因子根据示例在衰落阶段期间基于辅助轨道内的第一表示和第二表示的时间减少和增加,该示例中,减少和增加线性地发生;
图23示出了说明根据涉及本申请的第四方面的实施例的输出设备的示意图;
图24示出了说明根据涉及本申请的第四方面的实施例的客户端设备的示意图;以及
图25示出了说明与图25相比被修改的客户端设备的示意图,其中客户端设备也根据本申请的第一方面进行操作。
具体实施方式
关于附图的本申请的描述从本申请的第一方面开始。这里,在与不同空间分辨率相关的视频的表示之间切换方面,开放GOP结构的使用可以减少的损失用于使用自适应流传输协议的视频流传输。
为了易于理解后面描述的第一方面的实施例,先解释开放GOP结构。
与具有相同随机接入周期的GOP结构相比,开放GOP结构允许视频的更有效的压缩。如图1所示,当随机接入利用开放GOP结构进行编码的流时,存在由于丢失参考而不能恰当解码的某些图片(在图1中表示为RASL),因此,不能进行再现/输出/显示。
图1在指示图片类型时使用HEVC命名法按照输出顺序示出开放GOP结构。这里,随机接入点是干净随机接入(CRA)图片,并且随机接入跳过前导(RASL)图片是无法向用户显示的随机接入依赖图片,因为当在CRA图片处进行随机接入时,左侧图中所示的参考P图片丢失。
为了更易于呈现该描述,参考图2,在图2的上部以呈现时间顺序示出视频12的九个图片10。图片10沿呈现时间顺序编号为1至9。在图2的下部,图2以其解码顺序示出图片10,其中图片10被编码为数据流。图2的说明示出了使用图1中所示的开放GOP结构将图片10编码为数据流的情况。图2的下半部分中的图片10的编号示出了图片10按时间重新排列,即,解码顺序偏离呈现时间顺序。
具体地,图2示出了呈现时间顺序中的第五图片10被编码为随机接入点图片。也就是说,呈现时间顺序中的第五图片或编号5的图片独立于另一呈现时间且在解码顺序中在先的任何图片而编码。如图2所示,编号2至编号4的图片以通过时间预测直接或间接参考编号5的图片(即,随机接入点图片)和另一图片(这里即编号1的图片)的方式进行编码,该另一图片在呈现时间顺序和解码顺序二方面先于随机接入点图片。例如,编号3的图片通过时间预测直接参考编号5的图片和编号1的图片。也就是说,例如基于编号5的图片和编号1的图片通过运动补偿预测对编号3的图片进行时间预测。编号4的图片不是通过时间预测直接参考图片1,而是经由编号3的图片间接参考图片1。也就是说,编号2、3和4的图片集合具有以下共同点:1)它们通过时间预测直接或间接地参考随机接入点图片,这里示例为编号5的图片,和2)通过时间预测直接或间接地参考在呈现时间顺序和解码顺序方面在先的参考图片,直接或间接参考的随机接入点图片在图2中示例为编号1的参考图片。如果编号5的随机接入点图片用于随机接入使用开放GOP结构对视频10进行编码的视频数据流,则该图片集合可能会被跳过,因为对于编号2、3、4的该图片集合来说,作为该集合的参考图片的编号1的图片在解码顺序中位于编号5的随机接入点图片上游,从而编号1的参考图片可能丢失。
除了在典型的广播场景中使用开放GOP结构之外,在随机接入时跳过诸如RASL图片之类的一些图片(例如在节目之间的频道切换期间)是可接受的,开放GOP结构已被证明对自适应流传输(例如,DASH)是有价值的,其中切换到具有不同质量的一个或另一个流在不跳过图片的情况下与诸如CRA的随机接入点图片对齐而进行。只要分辨率相同且仔细地对流进行编写,就有可能可以连接或拼接具有不同质量的二个流,并获得符合规范的比特流,从视频编解码器规范的角度来看,该比特流可以形成单个视频序列。
后一情况参照图3进行说明,图3在其上半部分示出了视频的二个表示Q1和Q2,并且具体地,示出了视频的二个连续的时间片段Seg#1和Seg#2。在图3的下半部分,以连接方式示出这些时间片段,其实际上是由客户端从服务器取回的。如图3所示,在图3的示例中,客户端已选择从表示Q1中取回时间片段Seg#1,并从表示Q2中取回后续时间片段Seg#2。换言之,图3示出了客户端以质量Q1下载第一片段Seg#1,然后以质量Q2下载第二时间片段Seg#2的示例。
与图1和图2中的情况一样,图3通过箭头的方式示出图片之间的相互依赖关系,箭头从预测编码的图片指向相应的参考图片,这里通过时间预测参考相应的图片。在解码顺序中,每个片段以CRA图片(即,随机接入点图片)开始,但是在图3所示的对图片进行排序的呈现时间顺序中,RASL图片先于每个片段的该随机接入点图片。上面已经参考图2解释了这种情况。通过从质量Q1切换到质量Q2,数据流Q2的第二片段的RASL图片的参考图片不会丢失:在流Q2内,流Q2的第二片段的RA SL图片参考流Q2的第一片段的图片P,并且在流Q2的第二片段跟随流Q1的第一片段的拼接数据流内,这些RASL图片参考指令Q1的第一片段时间上对齐的低质量图片P作为替代。图3示出了该参考图片改变的效果。具体地,图3以阴影形式描绘了表示Q2的图片,而以没有阴影的形式描述表示Q1的图片。在质量Q2的片段跟随质量Q1的第一片段的拼接或连接流中,指令Q2的第二片段的RASL图片被描绘为一半没有阴影而另一半具有阴影,从而指示对这些RASL图片进行解码的结果不是对Q2或Q1的连续流进行解码时的相应RASL图片。然而,除了符合规范之外,如果对它们进行恰当地编写,则相对于Q2的质量劣化并不显著。已经可以用DASH的媒体呈现描述(MPD)中的属性@mediaStreamStructure(即,在清单文件内)对此进行传信。
当不同质量Q1和Q2具有不同的分辨率时出现问题,因为开放GOP切换所需的参考图片无法以恰当的分辨率存在。这意味着例如不可能利用当前现有的单层编解码器(例如,HEVC)执行具有分辨率改变的开放GOP切换。为此目的,可以使用诸如SHVC的分层编解码器。
在SHVC中,当将解码过程从较低层向上切换到较高层时,RASL图片被自动标记为非输出图片。在将指定过程用于不可用的参考图片之后,可以对RASL图片进行解码。然而,解码结果将在视觉上受损并且说明书指出,由于这些图片不影响之后的非RASL图片,因此在输出较低层图片的所有结果时刻,可以丢弃RASL图片。
随后解释的实施例通常遵循二个选项。第一选项向用户提供足够的信息,使得针对在整个时间内使用层间预测(使所有层不断出现)对分层编解码器使用开放GOP结构的情况,以最高质量显示较高质量的RASL图片,而不是显示较低质量的RASL图片。然而,针对该情况提供另一选项:由于较高的压缩效率希望具有独立层比特流,但是仍然将层间预测用于向上切换。
为了易于理解关于本申请的第一方面的各种实施例的以下更详细的描述,图4示出了用于使用自适应流传输协议向客户端输出视频的设备。该设备在图4中表示为输出设备并且使用附图标记20来表示。因此,输出设备20用作流传输服务器,并且设备20使用的自适应流传输协议可以是DASH或任何其他自适应流传输协议。设备20可以以硬件、固件或软件的形式实现。当以硬件实现时,设备20可以例如是集成电路。如果以固件实现,则设备20可以是FPGA,并且如果以软件实现,则设备20可以包括由适当的计算机程序编程的一个或多个过程。
设备20支持至少在以第一空间分辨率操作视频和以第二空间分辨率输出视频之间切换。也就是说,输出设备20向客户端输出的流22可以表示空间分辨率下的视频24或在其中已对空间分辨率下的视频24进行编码,该空间分辨率随时间变化,且例如在第一时间空间分辨率和比第一空间分辨率高的第二空间分辨率之间切换。例如,“空间分辨率”以每个图片的样本数进行测量。例如,图4示出了输出设备20在时间间隔26期间以第一空间分辨率且在时间间隔28内以第二空间分辨率从流22输出视频24。在时间间隔26内,流22表示视频24在第一空间分辨率下的图片30,并且在时间间隔28期间,流22表示第二空间分辨率下的图片30。在时间间隔26和28期间由图片30捕获的场景部分可以仅与样本间距相同,在该样本间距下,图片30在空间上对在时间间隔26和28之间不同的场景进行采样,或者根据备选实施例,它们可以示出相同场景的不同大小部分,或其组合。
输出设备20支持在以第一空间分辨率输出视频24和以第二空间分辨率输出视频之间切换的事实可以例如表现为客户端的能力,其实施例将稍后描述,以通过向输出设备20请求特定的表示而以不同的空间分辨率从输出设备20取回视频24。如稍后所解释的,输出设备20例如可以是存储器32的组合,存储器32一方面存储适当概念化的数据结构,另一方面存储清单提供器34。清单提供器34例如可以向客户端提供清单,该清单描述客户端如何通过各自的请求接入存储器32。在这样做时,客户端基于清单在已经以第一空间分辨率编码到视频中的时间片段和已经以第二空间分辨率编码到视频中的时间片段之间切换。这方面的细节如下。
图5示出了输出设备20如何能够使用开放GOP结构以增加的空间分辨率表示并对视频24进行编码,同时,在空间表示之间切换的情况下,避免了如图2所示的随机接入依赖图片的丢失。具体地,图5示出了输出设备20在输出分层视频流36和增加的空间分辨率视频流38的形式的视频之间及时切换。关于这些流的细节将在下面进一步描述。也就是说,输出设备20输出的流22在以下二者之间改变:输出流22是分层视频流36的时间间隔26、输出流22是增加的空间分辨率视频流38的时间阶段。例如,在间隔26期间输出的分层视频流36表示间隔26期间的视频,并且与增加的空间分辨率视频流38相连接或拼接,增加的空间分辨率视频流38表示例如在时间上后续的间隔28处的视频或其中已编码有该视频。
如图5所示,分层视频流36包括第一层L1,其中以第一空间分辨率对视频进行编码。在图5中,视频的图片被编码到层L1中时,由附图标记40表示。然而,分层视频流36还包括第二层L2,其中以第二空间分辨率对视频进行编码。使用附图标记42在图5中描绘了第二层L2的图片。然而,视频24被编码到层L1和L2的方式是不同的。如稍后将描述的,例如,时间预测可以用于将图片40编码到层L1中。例如,可以使用闭合GOP结构。然而,通过层间上采样而不采用残差编码,使用从第一层L1到第二层L2的层间预测,将第二层的图片42编码到层L2中。使用垂直箭头44在图5中示出层间上采样,从而示出每个图片42单纯基于在时间上对齐的层L1的图片40进行层间预测。例如,通过对图片40的相应部分进行上采样来获得图片42的整个图片内容。需要强调的是,图片42的这种“编码”以非常低的比特率成本出现,因为对层L2来说,不需传送残差数据,且层间预测模式例如可以以最粗糙的粒度对图片42进行传信。
增加的空间分辨率视频流38使用开放GOP结构以第二空间分辨率在其中对视频进行编码。也就是说,视频24的图片46由于被编码到增加的空间分辨率视频流38中而具有第二空间分辨率,且在这些图片中存在随机接入点图片(例如,图2中所示的编号5的图片)和随机接入依赖图片(例如,图2中的编号2、3和4的图片)。尽管图5示出了层L1、层L2和增加的空间分辨率视频流38针对每个图片,在各个其他图片中具有相应的时间上对齐的图片的情况,但是应当注意的是,根据备选实施例,并不一定是这种情况。为了说明输出设备20的操作模式如何能够使用开放GOP结构来形成增加的空间分辨率视频流38而不丢失该流的随机接入依赖图片,将由图6中所示的相应客户端设备的描述短暂地中断输出设备20的描述。
图6示出了用于使用自适应流传输协议从诸如图4的输出设备的服务器取回视频的设备。图6的设备被表示为客户端设备50,并且可以如关于输出设备20的情况那样以硬件、固件或软件实现。也就是说,设备50可以是集成电路、适当编程的FPGA或由适当的计算机程序适当编程的一个或多个过程。客户端设备50支持在以第一空间分辨率取回视频和以第二空间分辨率取回视频之间切换。为此,客户端设备50从服务器取回时间片段的流52,其按照时间片段从视频的不同版本或以不同比特率表示视频的不同流中选择。例如,流52可以是图4和5的流22,客户端设备50在经由分层视频流36和经由增加的空间分辨率视频流38取回视频之间切换,增加的空间分辨率视频流38对应于比分层视频流36高的比特率。在内部,客户端设备50可以包括请求器54,其例如负责从服务器请求上述清单并向服务器发送请求以获取由服务器提供的流的时间片段(例如,流36和38的时间片段),请求器54请求在上述时间片段之间切换以例如,避免缓冲器溢出或下溢。例如,客户端设备50还包括缓冲器56,用于在通过将缓冲的时间片段转发到视频解码器进行解码之前缓冲由请求器54获取的入站时间片段。视频解码器可以是客户端设备50的一部分或者可以在其外部。图6将视频解码器58示出为在客户端设备50外部。
因此,设备50通过请求以不同比特率在其中对视频进行编码的不同流的时间片段从服务器接收流52,并且将流52输出或转发到视频解码器58,从而以变化的空间分辨率取回视频。
在这样做时,设备50被配置为在以第一空间分辨率取回视频的第一部分和以第二空间分辨率取回视频的第三部分之间的过渡阶段,利用从第一空间分辨率到第二空间分辨率的上采样以第二空间分辨率取回视频的第二部分,该第二部分在第一部分之后且先于第三部分。
为了说明后一种情况以及设备50如何能够使用开放GOP结构以第二空间分辨率将视频编码到流52中而不丢失随机接入依赖图片,参考图7。如图7所示,客户端设备50在第一时间部分60内以第一空间分辨率取回视频24,并在第三时间部分62内以增加的第二空间分辨率取回视频24。图7通过以不同大小描绘视频24的图片来说明这种情况。也就是说,在阶段60的时间部分内,客户端设备50在服务器处取回提供或呈现为可用于输出的第一流的时间片段,并且在第三时间部分62或阶段内,客户端设备50在服务器处取回提供或呈现为可用于下载的另一流的时间片段。在它们之间,存在第二时间部分64,即,先于时间部分62且在时间部分60之后。在该时间部分内,客户端设备50通过从第一空间分辨率到第二空间分辨率的上采样来获得第二增加的空间分辨率的图片的替代,如箭头66所示。通过该措施,客户端设备50获得第二空间分辨率的图片的替代或补充估计68,即替代图片68。在这些替代图片68中,一些可以用作时间部分62内的视频24的随机接入依赖图片的随机接入依赖图片的参考图片的替代。也就是说,客户端设备50在时间阶段62期间下载的表示可以使用开放GOP结构进行编码,然而,可以防止随机接入依赖图片丢失。
图8示出了根据一个实施例的客户端设备50的操作模式,其中客户端设备50与输出设备20协作,输出设备20提供如参考图5所述的流36和38。也就是说,流52是类似于参考图5所解释的流22的流。如图8所示,客户端设备50在第二时间部分64期间通过从输出设备20获取其时间片段来从输出设备取回分层视频流36的层1和层2(L1和L2)。客户端设备50将层L1和L2二者提交给视频解码器58,然后在对第二层L2进行解码时执行上采样66,因为使用上面讨论的层间预测44对第二层L2进行编码。通过该措施,视频解码器58用第二空间分辨率的图片填充内部的解码图片缓冲器,该第二空间分辨率的图片然后可以用作增加的空间分辨率视频流38的随机接入依赖图片的参考图片,客户端设备50通过在后续时间部分62期间获取相应的时间片段而取回增加的空间分辨率视频流38。在先前时间部分60中,客户端设备50可以仅将用于解码的第一层提交给视频解码器58,即,不提交第二层。客户端设备50可以在时间部分60期间取回第二层,或者例如独立于输出设备20是否允许对分层视频流36的层L1和L2的单独取回或获取而取回第二层。
图9示出了增加的空间分辨率视频流38也可以是具有第一层L1和第二层L2的分层视频流的情况,其中第二空间分辨率的图片46不仅使用开放GOP结构进行编码,即,不仅使用时间预测,还使用从流38的层L1的图片72到第二分辨率的图片46的上采样所进行的层间预测70。然而,流38还使用残差编码来对层L2的图片42进行编码。换言之,在图9的示例中,分层视频流36的层L2的图片42在不采用时间冗余的情况下编码到数据流36中,而图片46在采用层间和时间冗余二者的情况下编码到流38中,即,通过移除层间和时间冗余并使用残差预测的方式来编码。这对应于之前在图4的描述中提到的第一选项。根据备选实施例,在不进行层间预测的情况下将图片46编码到流38中,作为分层视频流的层,即,作为独立层。编码到数据流38中的图片46的层索引可以与分层视频流36中的L2的层索引相同。然后,在图10中示出产生的时间部分64和62之间的过渡。图10示出了在时间部分64和62之间的连接点处到达设备50的流52内的二个连续部分,即,数据流52中的第一部分携带分层视频流36的层L1和L2,并且其后续的时间片段携带流38的独立编码层L2。可以看出,通过层间上采样获得的分层数据流36的层L2的图片用作后续的流38的片段的RASL图片的参考图片,流38的片段在未进行层间预测的情况下进行编码。也就是说,尽管流38的独立层L2中的RASL图片的参考图片需要以正确分辨率存在于解码器58的解码图片缓冲器(DPB)中,但是由于以上描述并采用的措施,这并不妨碍在不同空间分辨率之间进行切换的可能性。
因此,关于以上示例,已经描述了一个实施例,其中已经使用诸如SHVC的分层编解码器以允许在自适应流传输中使用开放GOP结构对视频的较高空间分辨率表示进行编码。实施例产生并提供“辅助切换轨道”以及向用户/客户机提供这种轨道的存在和使用的信息。
如下面将更详细描述的,时序信息可以从服务器传递到客户端,以通知客户端从较低空间分辨率切换到较高空间分辨率表示的过渡阶段64应当有多长。通过这种措施,向客户端通知例如关于在“辅助切换轨道”内封装的附加NAL单元进行解码的必要性,在时间部分62期间,应当在切换到实际较高质量的轨道之前一些时间对该“辅助切换轨道”进行解码。因此,在考虑使用层间预测的分层编解码器的开放GOP结构的情况下,可以在视觉上吸引人的质量下以明显更少的损伤对较高质量层RASL图片(如图10中所示的那些)进行解码,并代替较低质量轨道的相应图片而被输出。在将分层编解码器用于单层预测(所谓独立层)的情况下,客户端应当安排足够的时间来对图片42表示的“辅助切换轨道”进行解码,在开始对以开放GOP配置编码的较高独立层(例如,具有相关联的RASL图片的图片46)进行解码之间的特定时间。
简言之,返回参考图6的描述,应当注意,服务器处可取回的流或表示被编码的方式对于客户端设备50来说可以是不可知的。因此,根据一个实施例,输出设备或服务器向客户端设备或客户端通知如下必要性:安排过渡阶段,该过渡阶段关于以第一空间分辨率取回视频和以第二空间分辨率取回视频之间的、或切换视频流38之前的第二时间部分64。根据该信号,客户端设备50可以跳过或取消过渡阶段。通过这种措施,当从较低空间分辨率表示切换到较高空间分辨率表示时,可以在没有任何过渡阶段的情况下取回以不同空间分辨率表示的在同一服务器或另一服务器处可用的另一视频,该不同空间分辨率表示具有例如以闭合GOP结构编码的较高的空间分辨率表示。
在具体示例中,流22和52可以分别以文件格式在服务器和客户端或设备20和设备50之间传输,其中花费附加的轨道来携带分层视频流36的层L2。该轨道可以标记为“切换轨道/表示”。作为切换轨道的标记指示不必包含在文件格式中,而是可以包含在从服务器发送到客户机的清单中,即,设备20到设备50的清单(例如,DASH的MPD)中或相应视频的初始片段。尽管服务器和客户端(即设备20和50)可以使用默认时间名称用于时间部分64的过渡阶段,使得例如关于过渡阶段的清单中的上述信号在预定长度的过渡阶段的必要性或相应过渡阶段的离开之间切换的意义上仅对应于二进制信号,备选地,服务器可以分别通知客户端过渡阶段的长度和时间部分64的长度。可以通过对服务器和客户端之间商定的多个预定长度值之一、指示视频可由自适应流传输协议取回的时间片段的长度和单位、或以时间(例如,以图片顺序计数等为单位)为单位进行索引来指示该长度。例如,可以时间部分64的长度的指示来提供从服务器或设备20向客户端或设备50发送的清单或媒体呈现描述,如在切换时移或numSwitchRepSegments处的指示。
稍后,将示出流38可以是包括补充增强信息(SEI)的视频流,其允许通过提供关于从RASL图片到参考图片的最大距离的信息来导出刚刚提到的过渡阶段长度,该RASL参考相应的参考图片,其中该信息应被理解为承诺。在HEVC中,例如,图片SEI的结构不是针对整个编码视频序列(CVS)的范围,因此在这方面可能是不够的。因此,新类型的补充增强信息SEI将是有利的。
因此,服务器的设备20可以从该补充增强信息导出过渡时段64的长度,并相应地经由清单通知设备50上的客户端。
从上面的讨论中也可以清楚地看出,客户端或设备50可以被配置为不可避免地应用关于时间部分64的过渡阶段,从而不可避免地播放层L2形式的切换轨道或切换表示,或者过渡阶段将是可选的,并且将由服务器或设备20使用例如清单中的上述信号打开该过渡阶段。换言之,播放分层视频流36的层L2形式的表示的切换轨道是可选的或必选的。
就分层视频流36的层L1而言,应当注意,可以使用例如IDR图片以闭合GOP结构对其进行编码。通过这种措施,客户端或客户端设备50可以直接(即,没有任何过渡)从较高空间分辨率(即,下载流38)切换到较低空间分辨率(即,流36的下载层L1)。
图11示出了关于分层视频流36的层L2形式的辅助切换轨道被提供给客户端的方式的具体示例。图11示出了可以存储在输出设备20的存储器32中的数据结构。使用附图标记18表示该数据结构,并且数据结构包括增加的空间分辨率视频流38和分层视频流36。二者在时间上被细分为一系列时间片段。流38的时间片段表示为301…38N,且流36的时间片段表示为361…36N。时间上对齐的时间片段38i和36i涉及视频的相应时间部分或者在其中对该相应时间部分进行编码。根据图11的实施例,分层视频流36的层L2不能由客户端单独取回。相反,层L2作为附加轨道包括在流36传送层L1内的相同的片段36i内。因此,在82处示出,客户端或客户端设备50将在从服务器或设备20取回数据流38的形式的视频的任何开始86之前安排过渡阶段84。在过渡阶段84内,流22/52包括流36的相应时间片段的序列。也就是说,在过渡阶段84期间,设备50从分层视频流36的片段中获取属于过渡阶段84的片段,从而形成时间部分64。从时间86开始,设备50从流38的那些片段序列中获取时间片段,直到从增加的空间分辨率切换回较低的空间分辨率为止。设备50的操作模式在过渡阶段84期间和先前时间之间的差异如下。
如在图11中可以看到的,在所示实施例中,客户端设备仅具有在取回分层视频流36的片段或取回增加的空间分辨率视频流38的片段之间的选择。在切换到增加的空间分辨率视频流38之前,客户端设备50安排过渡阶段84。在过渡阶段之前,客户端设备50仅转发分层视频流36的层L1以由视频解码器58进行解码,而在过渡阶段期间,客户端设备50将层L1和L2二者转发到视频解码器58。在该时间84期间,视频解码器58重建分层视频流的层L2的图片42,然后,图片42用作从时间86向前从服务器或设备20取回的增加的空间分辨率视频流38的一个或多个片段的随机接入依赖图片的参考图片。图11示出了上面概述的可能性,即客户端设备50响应于来自服务器或输出设备20的相应信号88来安排过渡阶段84,该信号88可以例如包括在媒体呈现描述或清单90中。如果信号88指示层L2在过渡阶段84中将用作参考图片替代贮存器,则客户端设备50如之前所描述起作用。如果不,则客户端设备50并不在开始取回增加的空间分辨率视频流38的时间片段的时间86之前安排过渡阶段84,而是直接扩展仅使层L1经由视频解码器58解码到切换时间86的阶段,如图11下部所示。
图11的后一实施例涉及在分层视频流36的片段内包括流36的“辅助切换轨道”L2。在媒体呈现描述或清单90中,该辅助切换轨道将被指示为与由分层视频流36的层L1形成的表示分开的表示。例如,清单90将向视频解码器58传信所需的解码能力以对层L2进行解码,而层L2又依赖于层L1,即,以对“辅助切换轨道”进行解码并指示视频解码器58的解码能力,以仅对分层视频流36的低分辨率层L1进行解码。
可在清单内使用以下具体信号,以向客户端设备50传信关于辅助切换轨道L2的信息,例如,指示辅助切换轨道L2的存在的信息88,该信息88可以同时表示过渡阶段84的长度。此外,如刚刚所概述的,仅仅传信关于L2所需的能力。
表示所需的能力当前利用@mimeType属性传信。需要定义的第一个属性是允许切换到给定表示,即,所需的“辅助轨道”包括在片段内。这种属性可以被命名为例如@switchableTo。此外,应当定义@switchingMimeType属性,以描述对“辅助切换轨道”进行解码时所需的能力。最后,需要传信以下时间:需要对“辅助切换轨道”进行解码的切换之前的时间,使得DASH客户端可以决定它是否可以无缝切换到较高分辨率的表示(@switchingTimeShift/@numSwitchRepSegments)。为了能够切换到这种较高分辨率的表示,用户需要在(@switchingTimeShift/@numSwitchRepSegments)描述的时间之前从SAP随机接入较低的表示。具体信令如下:
关于图11提出的描述的备选方案可以是在客户端设备50和输出设备20之间达成协议:客户端设备50使辅助切换轨道L2经受视频解码器58的解码。视频解码器58将自动具有针对增加的空间分辨率视频流38的随机接入依赖图片的参考图片替代,条件是任何到增加的空间分辨率视频流38的切换都不会早于过渡阶段84从开始获取分层视频流36的一系列片段开始的长度而发生。因此,即使在要求客户端设备50不可避免地使层L2进行解码的这种情况下,客户端设备50也要在切换到增加的空间分辨率数据流38之前安排过渡阶段84。因此,关于图11描述的实施例的备选实施例是,备选地,另一实施例是向用户传信:为了无缝地切换到另一表示n+1,不需要附加的时间信息,但是用户必须从片段n中的辅助轨道中存在的第一个AU对“辅助切换轨道”的整个时间进行解码。仍然在这种情况下,该备选表示的mimeType对于用户知道它要对这种轨道进行解码都需要什么信息来说是必须的。此外,用户可以从@switchableTo属性指向的表示导出输出的分辨率。为了能够切换到这种较高分辨率的表示,用户需要从早于较高分辨率中的SAP的任何SAP随机接入较低的表示。
如上所述,可以将过渡阶段84的长度设置为默认值,使得不需要发送该长度。例如,默认情况下,过渡阶段84可以是一个片段长度的长度。也就是说,至少就关于表示切换时刻(即,允许表示之间的切换的时间)而言,可以限制时间编码相互依赖性,以不超过一个片段长度。使用过渡阶段以改进不同质量之间的切换的另一备选实施例使用该默认设置并且可以如下实现。具体地,刚才描述的实施例可以用于在诸如DASH MPD之类的清单文件中通知客户端切换到较高质量层时过渡阶段的有利之处。
例如,补充属性描述符可以表示为“urn:mpeg:dash:resolution Switching:2016”,并用于指示哪些表示允许在以范围1至3(包括)中的SAP类型开始的任何片段的开始处进行无缝分辨率切换。当用于DASH时,描述符可以放置在适应集或MPD层级中的表示级。补充属性描述符的@value是如下表中指定的具有二个值的以空白分割的列表:
SupplementalProperty@value属性分辨率切换:2016
也就是说,该示例示出了描述符针对某些表示(例如,L1)可以指示可切换到到哪些表示(例如,L2)。与该描述符明确指示这种表示无关,该描述符可以通过其在MPD中的存在来指示在切换到表示L2之前预先完成的一个片段由于开放GOP结构,足以使所有时间参考在切换点之前。换言之,默认情况下,分辨率切换描述符不应当存在,除非具有[TEPT,TDEC)内的呈现时间的片段N中的所有接入单元以这样的方式被约束,即它们仅依赖于段片N或片段N-1的接入单元。因此,如果表示在存在该描述符的片段N处发生改变,则可能需要在片段N-1期间对附加媒体流进行解码,即图11中的分层流的增强层,不同于符合“切换自”表示处指示的@codecs属性的层,由switchingMimeType的存在指示其存在,即图11中的单层高质量流,以能够对“切换到”表示的片段N的第一SAP(即,间隔[TEPT,TDEC)中)前的所有接入单元进行解码。
图12示出了与图11的实施例相比的备选实施例,其中对于分层视频流36的层L1和L2,数据结构80具有单独时间对齐的片段,即时间对齐的片段362 i和361 i。所有时间片段361 i、362 i和38i与不同地址相关联,因此可由客户端设备50单独获取。这里,在过渡阶段84之前的时间部分,客户端设备50仅从输出设备20获取片段361 i。在过渡阶段84期间,针对视频的每个时间片段i,客户端设备50从输出设备20取回时间片段361 i和362 i二者,从而不仅向视频解码器58转发层L1,还向其转发层L2。从时间86开始,客户端设备50取回或获取增加的空间分辨率视频流38的时间片段38i,并向视频解码器58转发这些时间片段。再者,图12示出了信息88可以控制客户端设备50应用或不应用过渡阶段84。
也就是说,图12示出了使用单独表示的实施例,该单独表示包含切换所需的附加数据,即分层视频流36的层L2内的数据。也就是说,在图12的实施例中,该数据不包括在也承载基本层L1的相同片段内。
图13示出了针对后一实施例的图3所示的相同情况,然而针对视频的第一时间片段,客户端设备取回二个片段,即与分层视频流36的层L1相对应的表示1的一个片段和表示3的相应时间片段,该表示3的相应时间片段与分层视频流的层L2相对应。就清单90和视频在输出设备或服务器20处的可用性的描述而言,可以注意以下内容。
在这种情况下,Rep3应当包括@dependencyId=Rep1,并且Rep2和Rep3应当具有相同的@mediaStreamStructureId。在这种情况下,Rep3将不需要附加的@mimeType作为Rep3应当已经包括的表示。然而,该表示应当例如利用参数@switchingRepresenation标记为“仅用于切换”。对于先前的情况,可以包括时序信息,以指示从哪个点开始需要对这种表示进行解码以能够切换到另一表示,或者可以以这种方式进行限制:只要先于Rep2中的切换点,从Rep1中的SAP对时序信息进行解码,所有需要的参考就是可用的。
另一实施例包括仅在最低分辨率中具有闭合GOP RAP(或切换电),并仅在较高分辨率中具有开放GOP RAP。这允许在所有可用的RAP处无缝切换到最低质量。备选地,如果有更多分辨率可用,例如3种,则最低分辨率仅具有闭合GOP RAP,最高分辨率仅具有开放GOPRAP,并且中间分辨率表示具有闭合GOP RAP和开放GOP RAP的混合。在存在任何RAP的情况下,可以向上切换,而仅在存在闭合GOP的情况下,可以向下切换。在这种情况下,应扩展现有的@switchingPeriod以区分向上切换和向下切换。
另一实施例涉及在视频中存在关于过去最大量图片的信息,RASL图片可以参考这些图片进行预测。需要这些信息来获得先前段落中的MPD处描述的属性。例如,可以以SEI的形式或在VUI本身中包括该信息。
SEI:
VUI:
在以上语法示例中,示例了子层特定信令,其中max_reference_poc_difference[i]指示RAD图片和RAM图片之间的最大差异,例如,图3的Q2中的TRAIL图片和RASl图片之间的最大差异。在VUI中包括语法元素的情况下,范围可以是从SPS(即,图片序列)直到被下一有效SPS代替的范围,并且在SEI中传送语法元素的情况下,范围可以是从图片序列直到被该分类的下一SEI(即,constrained_skipped_leading_pictures SEI消息)代替的范围。也就是说,在该范围期间,视频被编码为遵循关于max_reference_poc_difference[i]的承诺的视频流。“子层”i区分不同的时间层,例如,其中随着子层ID i的减少,越来越多的图片被遗漏的层,使得由于从较高子层到较低子层的时间图片相互依赖关系消失,max_reference_poc_difference[i]随着i的减少而单调减少,或者备选地称为max_reference_poc_difference[i]max_reference_poc_difference[i+1]。然而,其他结构也是可以想象的。然而,应当注意,上面的信令仅被理解为示例,并且可以关闭长度指示max_reference_poc_difference[i]的子层依赖性,其中,完全不支持时间可伸缩性,或仅可针对最高子层传信max_reference_poc_difference。max_reference_poc_difference测量第一经参考的尾随到第一参考RASL之间的感兴趣时间差,例如,以POC的数量(即,图片的数量)测量。以呈现时间顺序测量差异或长度。
因此,上述实施例揭示了用于使用自适应流传输协议(例如DASH或另一自适应流传输协议)向客户端输出视频24的设备20,设备20支持至少在以下二种方式间切换:以分层视频流36的形式输出视频24、和以增加的空间分辨率视频流38的形式输出视频24。使用开放GOP(图片组)结构对增加的空间分辨率视频流38进行编码,即,使用如图2中示例性描绘的开放GOP配置中的时间预测,即,将图片分组为GOP的配置,每个GOP包括解码顺序中跟随有RAD(随机接入依赖)图片的RA(随机接入)图片,RAD(随机接入依赖)图片在呈现/显示顺序中先于RA图片并且参考RA图片和RAM(在随机接入可能丢失的情况下)参考图片,RAM参考图片在解码顺序中先于RA图片。增加的空间分辨率视频流38以第二(增加的)空间分辨率和第二(增加的)质量或比特率编码到视频中。切换的支持是设备20提供流36和38的结果,用于由客户端取回以及向客户端提供清单,该清单向客户端提供相应的信息。原则上,实施例也可以与DASH2一起工作,即允许服务器驱动将流片段推送到客户端的自适应流传输协议。分层视频流36包括以第一空间分辨率对其中的视频进行编码的第一层L1以及以第二空间分辨率和低于第二质量的第一质量对其中的视频进行编码的第二层L2,并且通过层间上采样从第一层到第二层使用层间预测(44),而不使用预测残差编码。如以上示例中所示,第二层L2可以仅通过层间上采样从第一层到第二层使用层间预测(44)对其中视频的图片进行编码,即,未使用预测残差编码和时间预测,即,L2的图片仅被编码为层L1时间上相应图片的上采样版本。
由于设备20可以对提供视频流以在其间切换的确切方式不可知,上述实施例还揭示了用于使用自适应流传输协议向客户端输出视频的设备20,该设备支持至少在以下之间进行切换:以第一视频流的形式输出视频,即在以单独片段传输层L1和L2的情况下为L2,在公共片段内传输层L1和L2的情况下为分层视频流36;以及以第二视频流38的形式输出视频,其中设备20被配置为在从以第一视频流的形式取回视频切换到以第二视频流38的形式取回视频之前,通知客户端50安排过渡阶段64的必要性。在使用如图10和图11所示的公共片段的情况下,输出设备向客户端提供清单,该清单描述对于客户端来说,以第一视频流36的形式的第一空间分辨率和以第二视频流38的形式的第二空间分辨率的视频的可用性,并且指示在第一视频流的时间片段中存在第二层L2和第二层L2的目的:即,在切换到第二视频流(38)之前的过渡阶段期间从第一空间分辨率切换到第二空间分辨率时进行播放。然后,清单将指示计算分别用于获取第一视频流和第二视频流的时间片段的地址的计算规则。在使用单独片段的情况下,设备20将向客户端提供视频以便以第三视频流的形式另外取回,即由层L1表示该流。设备20将向客户端提供清单,该清单描述对于客户端来说,以第三视频流L1的形式的第一空间分辨率和以第二视频流38的第二空间分辨率的视频的可用性。然后,该清单指示当从第一空间分辨率切换到第二空间分辨率时(即,从第三视频流切换到第一视频流,然后从第一视频流切换到第二视频流之间),在过渡阶段64期间将取回第一视频流(即L2)的时间片段以及第三视频流L1的时间片段。清单指示计算用于获取第一、第二和第三视频流的时间片段的地址的计算规则。如上所述,此外,可以以附加的第三空间分辨率(甚至高于第一空间分辨率)将视频以另一视频流的形式提供给客户端,然而,可能使用闭合和开放GOP结构对第二视频流44交替地进行编码。然后,该设备可以被配置为向客户端提供视频,以便利用清单以另一视频流的形式另外取回,该清单描述对于客户端来说,以另一视频流的形式的第三空间分辨率(高于第一和第二空间分辨率)的视频的可用性,并且在清单中指示计算用于获取另一视频流的时间片段的地址的计算规则,并且设备20可以分别在向下切换时刻通知客户端从第三空间分辨率切换到第二空间分辨率,并在向上切换时刻通知客户端从第一或第三视频流切换到第二视频流,因为它可能落在不同的时刻上。通常,例如,可以仅在闭合GOP结构随机接入点处允许向下切换,而在开放GOP结构的随机接入点处允许向上切换第二视频流,即,以上述方式使用第一视频流L2并服从时移或过渡阶段长度。设备20可以在清单中指示第一视频流L2和第二视频流可以拼接在一起,以便被馈送到一个解码器。对于在限制向下切换到L1的闭合GOP结构的情况下将L1和流38拼接在一起也是如此。
上述实施例还揭示了一种设备50,用于使用自适应流传输协议(例如但不限于DASH)来取回视频24,该设备支持在至少以第一视频流36的形式取回视频和以第二视频流38的形式取回视频之间进行切换。应当注意,在备选实施例中,设备50甚至能够使用仅与流36的层L1相对应的第一视频流,例如,如果设备50将被设计为内部地执行上采样66。使用从服务器向设备50输出的分层视频流36的概念减轻了设备50的负担,并且在通过如上所述的另一分层视频流设计第二视频流38的情况下,使得在从流36到流38的切换的连接处能够容易地连接流36和38,使得由可伸缩视频解码器执行上采样66。设备50被配置为在从以第一视频流的形式取回视频切换到以第二视频流的形式取回视频之前安排过渡阶段64。这提供了足够的时间来使用上采样66替换RAM图片。
如上所述,增加的空间分辨率(第二)视频流38可以是另一分层视频流,其包括以第一空间分辨率对其中的视频进行编码的另一第一层L1和以第二空间分辨率对其中的视频进行编码的另一第二层L2,该另一分层视频流使用开放GOP结构中的时间预测并通过层间上采样和使用预测残差编码使用从另一第一层L1到另外的第二层L2的层间预测。第一层和另一第一层可以以第一空间分辨率对其中的视频相同地进行编码,使得基于分层视频流36和另一分层数据流38以第一空间分辨率在拼接点处拼接在一起所重建的视频分别等于基于分层视频流和另一分层数据流中任一个以第一空间分辨率所重建的视频。可以使用开放GOP结构对第一层以及另一第一层和另一第二层进行编码。从流38或增加的空间分辨率切换回流36或层L1以获得降低的空间分辨率将是没有问题的,因为将对层L1连续地进行解码。
增加的空间分辨率(第二)视频流38还可以是包括另一第二层L2的另一分层视频流,另一第二层L2使用开放GOP结构中的时间预测并使用预测残差编码,而不使用层间预测以第二空间分辨率对其中的视频进行编码。这里可能完全没有层L1。然后可以使用闭合GOP结构对流36的第一层L1进行编码,即,在没有RAD图片的GOP中使用时间预测。从流38或增加的空间分辨率切换回流36或层L1以获得降低的空间分辨率将是没有问题的,因为开放GOP结构允许在切换之后立即播出而不必替换任何参考图片。
可以使用公共层ID来标记流36和38的第二层和另一第二层,使得拼接分层视频流和另一分层视频流产生拼接分层视频流,该拼接分层视频流包括具有公共层ID的层,该具有公共层ID的层以第二空间分辨率对其中的视频进行编码。
设备20可以被配置为通知客户端50客户端将在从第一视频流36切换到增加的空间分辨率(第二)视频流38之前安排过渡阶段66,在该阶段中客户端将通过使用分层视频流的第二层以第二空间分辨率导出视频的补充估计,该补充估计至少相对于RAM参考图片。过渡阶段的长度可以超过或等于RAD图片和参考RAM参考图片对之间的最大距离。该信息可以被包含在清单中。该设备可以被配置为从增加的空间分辨率视频流的SEI(例如语法元素max_referenee_poc_differenee)获得过渡阶段的长度。在这方面,以上描述还揭示了一种例如以如下方式对其中的图片序列进行编码的视频流:使用开放GOP结构中的时间预测的方式,如图2中所示的示例,即,使得在图片序列中,至少一个RAD图片直接或间接通过时间预测参考在呈现时间顺序方面在后的图片序列的RA图片,并且参考在呈现时间顺序和解码顺序方面先于随机接入点图片的RAM参考图片,其中,该视频流包括诸如max_referenee_poc_differenee的与法院诉,指示至少一个随机接入依赖图片参考图片和该至少一个随机接入依赖图片直接或间接参考的图片之间的最大时间距离。视频流可以是分层视频流,并且图片序列是分层视频流的层中的一个的图片。例如,流38可以是这种视频流。对应地将图片序列编码到视频流中的视频编码器可以将该语法元素插入数据流中。这种编码器在图2中以19示例性地示出。因此,语法元素是指示最大时间距离的信息。它可以测量POC(图片顺序计数)或一些其他合适的单元中的距离。
流36的层L1和层L2可以分别由客户端20单独取回或者由设备20单独输出。换言之,设备20可以支持至少在以下输出方式之间切换:通过客户端取回层L1和L2二者的片段361 i和362 i,以包括L1和L2二者的分层视频流36的形式输出视频、以第二视频流38的形式输出视频、以及以第一空间分辨率对其中的视频进行编码的降低的空间分辨率流的形式输出视频。后一选项可以与客户端50仅取回关于流36的层L1的片段相对应。也就是,设备50将能够在分别包含第一层L1和第二层L2的时间片段361 i和362 i中取回分层视频流36,并且设备50可以避免在过渡阶段之外取回包含第二层L2的时间片段362 i以及涉及层L1的片段361 i。应当注意,备选地,也可以提供传送降低的空间分辨率视频流的单独片段(相同地编码为流36的层L1或甚至不同地编码)以便在设备20处下载。
流36的层L1和层L2仅在公共片段36中可以分别由客户端20一起取回或由设备20一起输出。然后,设备50将在包含第一层和第二层的时间片段中取回分层视频流。设备50可以将第二层与第一层一起进行解码限制到过渡阶段期间的时间。在过渡阶段之外,仅第一层L1可以经历解码,尽管在取回的流36的片段内也传送了层L2。
在另一/客户端侧,如上所述,设备50可以例如通过可伸缩解码器对以拼接在一起的方式的第一视频流36和第二视频流38进行解码,使得对于第二视频流38的RAD图像,从第一视频流36解码的图片形成该RAD图片所参考的RAM参考图片的替代。
设备20可以向设备50发送并且设备50可以从设备20获取以下信息:例如以片段或时间单元为单位的过渡阶段的长度。附加地或备选地,信号可以从设备20发送到设备50,并且利用设备50,根据该信号,停用安排或激活安排。因此,设备50将能够从同一服务器或不同的服务器取回另一视频,也可以在两个视频流之间切换,而不需要在从一个视频流切换到另一视频流之前安排过渡阶段,因为在没有开放GOP结构编码视频流的损失的情况下是可能的。信息和/或信号可以包含在清单中。
接下来描述实施例的本申请的方面涉及能够以这种方式对自适应流传输的依赖表示进行编码的方面,使得仅依赖于该依赖表示的时间片段的子集需要输出或取回由依赖表示参考/由客户端设备参考的表示的时间上相应的片段。在描述这些实施例之前,提供了可能由此产生的优点的简要描述。
众所周知,与相应的单层编解码器相比,现有的可伸缩视频编码技术伴随着不可忽略的编码效率损失。同时,尽管可伸缩编解码器具有这种缺点,但是存在一些可伸缩编解码器提供使它们非常有吸引力的一些能力的使用情况。
例如,可伸缩编解码器允许不等随机接入以及未对齐随机接入点(RAP),与提供与对齐的RAP相同的功能相比,后者允许在随机接入点处的比特率的更好的时间分布。图14示出了所描述的问题,其中图14的上半部分示出了对齐的RAP,而图14的下半部分示出了未对齐的RAP。对于对齐的RAP和未对齐的RAP,分别在右侧描绘了相关联的片段分布上的比特率。从图14中可以看出,在对齐的RAP的情况下,随机接入图片(这里是IDR图片)被包含在表示Q1和Q2的时间上对齐的时间片段中,即第一段和第三段,使得从服务器传送到客户端的流的比特率示出与视频的这些时间片段相对应的比特率峰值。在未对齐的RAP的情况下,情况不太严重。这里,当比较表示Q1和Q2时,RAP(例如,IDR图片)被布置在时间上未对齐的时间片段内。表示Q1的随机接入点图片被包含在片段Seg#1和Seg#3内,而表示Q2的随机接入图片被布置在时间片段Seg#2和Seg#4内。当在表示Q2处从服务器向客户端发送视频内容时,减少了从服务器发送到客户端的流的比特率的时间方差。也就是说,与对齐的RAP的情况相比,比特率峰值不太显著。
然而,由于通常希望较低层(即,图14的示例中的基本层Q1)中的随机接入点的数量比较高层(即,图14中的增强层Q2)中的随机接入点的数量更高以允许快速调入,所以与单层情况相比,可伸缩流将伴随合理的高压缩开销,使得如图14的下半部分所描述的解决方案不是那么吸引人。
因此,期望提供允许分配随时间提供随机接入所必需的比特率但是避免压缩开销损失的内容,尤其是在所描述的基本层中具有频繁RAP的情况下。
图15示出了可用于由客户端在服务器处取回的媒体内容的有利实施例。如在到目前为止所描述的其他实施例中,假设媒体内容是视频,但是媒体内容可以备选地是其他内容,例如音频内容等。以第一比特率和质量Q1以及第二比特率和质量Q2提供媒体内容。第二比特率相对于第一比特率增加,正如质量Q2相对于质量Q1一样。由基本层形成表示Q1。基本层在时间上细分为八个时间上连续的片段。图15中示出了八个这种连续片段。第一、第三、第五和第七片段包含随机接入点(这里以IDR图片的形式),因此允许调入。通过以依赖于基本层的方式编码的增强层对第二表示Q2进行编码。增强层还在时间上细分为在时间上与表示Q1的时间片段对齐的时间片段。然而,在表示Q2的这些时间片段中,仅其子集以依赖于基本层的时间上相应的时间片段的方式进行编码。例如,表示Q2中如图15所示的第三、第四、第七和第八片段以依赖于表示Q2的各个先前片段的方式进行编码,而独立于基本层的时间上共位的时间片段。因此,为了获得质量Q2的媒体内容,对于在表示Q2处取回媒体内容感兴趣的客户端除了表示Q2的时间片段之外不需要下载基本层的所有时间片段。相反,客户端可以取消对表示Q2的第三、第四、第七和第八片段的取回。
因此,根据本申请的实施例,可以扩展从服务器发送到客户端的清单或媒体呈现描述,以向客户端传信如图15所示的分层和单层编码的混合信号,使得后者能够跳过下载参考表示的不需要的片段。
例如,当前的DASH规范将不同的可伸缩层视为所谓的表示。目前,DASH仅基于表示相对粗略地描述编码依赖性。使用下面进一步描述的编码将导致非必要的基本层片段的大量不必要的业务,因为当根据图15进行编码时,一些增强层片段以实现单层编码性能而未应用帧间预测的方式进行编码。因此,根据本申请的实施例,DASH中的语法元素@dependencyId可以例如用附加属性扩展,该附加属性允许传信片段依赖性以仅指示必要的片段,使得用户可以避免下载不需要的基础层片段。关于图15的实施例,客户端能够从Q1和Q2下载片段#1、#2、#5和#6,而仅下载表示Q2(即,增强层)的片段#3、#4、#7和#8。
在下表中给出可以解释这种清单的属性的示例。它包含@depende ncyPattern,它为客户端提供了挑选某些增强层表示很少需要的那些基本层片段的能力。
例如,在图15的示例中,属性将读作:
@dependencyPattern=412
这意味着解码需要索引为1+4*n或2+4*n的任何片段。因此,与仅使用@dependencyId相比,不能下载所有其他没有此索引的片段,从而提高了下载比特率。
除了以更细粒度的方式传信片段的依赖性或非依赖性之外,未对齐RAP还有助于随时间分配比特率。另一实施例包括在RAP上传信不同表示的偏移。@rapOffset或@switchingOffset。
最后,可以将描述所保存的吞吐量的属性添加到MDP@savedBand width以修改所描述的@bandwidth属性,这意味着不下载来自互补表示的非依赖片段(即,给定表示所依赖的表示)。
图16示出了相应的输出设备或服务器的实施例以及它可以呈现给客户端以供下载的相关联的数据结构。图16的输出设备使用附图标记100示出,并且可以以上面参考图4概述的方式以硬件、固件或软件实现。在内部,输出设备可以被构造为类似于关于图4描述的输出设备,即它可以包括存储器102和清单提供器104。如关于图15所描述的,输出设备100经由自适应流传输协议以变化的比特率输出或允许下载媒体内容。例如,输出设备100向客户机提供分别与第一表示和第二表示相关联的第一比特率和第二比特率之间的切换。表示可以与分层编解码器的层相对应。在图16中,用Q2表示与较高比特率和较高质量相对应的表示,用Q1表示与较低比特率和较低质量相对应的表示。因此,表示Q1是媒体数据流的时间片段106的序列,其分别表示相应质量Q1的视频内容的时间部分序列108的相应时间部分。这些片段106中的一些可适用于媒体播放或调入。也就是说,可以独立于表示Q1的任何先前片段对它们进行编码。表示Q1的其他片段可以依赖于时间上在前的片段。后者在图16中以阴影线示出。同样地,表示Q2也可以由数据流的时间片段的序列形成。在图16中用110表示这些片段,并且分别在其中对媒体内容的时间部分108中的相应一个进行编码。然而,片段110包括依赖于表示Q1的时间上对齐的片段106进行编码的片段和独立于表示Q1的时间上相应的片段106进行编码的片段。前者在图16中以阴影线示出。其他片段在图16中以非阴影线描绘,并且可以以依赖于前一个片段110的方式在其中对媒体内容的相应时间部分108进行编码。在依赖于表示Q1的相应的时间上对齐的片段106进行编码的那些片段110中,一些片段可以独立于质量Q2的任何先前片段110进行编码,其在图16的情况下以交叉阴影线示出,而其他片段依赖于先前片段110。
输出设备100可以以时间片段106和110的形式将数据结构存储在存储器102内。片段106和110中的每一个可以具有与其相关联的唯一地址,客户端可以基于清单提供器104输出到客户端的清单来计算该唯一地址。清单还可以包括表示Q1和Q2关于以下方面的描述:例如,下载相应表示所需的比特率和各个表示所表示的媒体内容的质量。例如,质量可以与某个表示将视频表示为媒体内容的示例的空间分辨率相对应。
图17示出了客户端设备120,其可以以硬件、固件或软件实现,如已经参照图6所描述的那样。在内部,客户端设备可以包括请求器122和缓冲器124。图17的客户端设备120被配置为根据自适应流传输协议与输出设备100进行通信以取回或下载媒体内容。如果客户端设备120例如寻求下载表示Q1处的媒体内容,则客户端设备120通过请求器122顺序地请求来自输出设备100的表示Q1的片段106的序列。例如,输出设备100在接收到请求器122的相应请求时,向客户端设备120发送清单,在该清单内传信相应的片段模板,请求器将基于该片段模板计算片段106的地址。经缓冲器124缓冲后,在媒体内容是视频的情况下,客户端设备120将如此取回的片段106的序列转发到诸如视频解码器的媒体解码器。
然而,在对媒体内容的表示Q2感兴趣的情况下,客户端设备120将跳过取回相对于表示Q2的独立于表示Q1进行编码的那些片段的表示Q1。也就是说,客户端设备120将从输出设备100取回或下载表示Q2的片段110的序列以及仅在时间上与依赖于表示Q1进行编码的片段110相对齐的表示Q1的那些片段。因此,客户端设备120将避免下载或取回在时间上与图16中所示的非阴影片段110相对齐的表示Q1的那些片段106。
如前所述,从输出设备100发送到客户端设备120的清单可以包括关于确定的周期性方式的信息,在该信息中,独立于表示Q1进行编码的第二表示的片段110与依赖于表示Q1进行编码的表示Q2的片段110在时间上交错。此外,从设备100发送到设备120的清单可以包括一个或多个片段模板,基于该片段模板,客户端设备120能够计算片段106和110的唯一地址。使用片段模板和周期性信息,客户端设备120和请求器122能够分别专门仅下载片段106和110中所需的片段。清单可以指示表示Q2的比特率,其是通过仅下载刚刚提到的片段106和110中所需的片段而得到的比特率。备选地,输出设备100可以将跳过表示Q1的片段106中不需要的片段视为可选的,并在清单内针对表示Q2指示二个比特率:一个针对除了片段110之外还下载表示Q1的所有片段106的情况,另一个针对除了片段110之外跳过并不下载表示Q1的片段106中不需要的那些片段的情况。
根据备选实施例,可以使用片段110的文件头中的消息框,以便从输出设备100向客户端设备120传信无论后者是否依赖于的一个或多个后续片段110,并且因此需要下载表示Q1的时间上相应的片段。通过该措施,输出设备120将如下操作:客户端设备120将检查清单并且例如决定下载表示Q2,在开始时,客户端设备120可以沿表示Q1的时间上相应的片段106的线开始下载表示Q2的第一片段。例如,清单可以包括提示,其向客户端设备120通知消息框的存在,该消息框指示Q2的后续片段是否需要Q1的时间上相应的片段。然后,客户端设备120将检查该片段110内的消息框,以检查是否还必须取回/下载与一个或多个后续片段110沿线对应的表示Q1的各个时间上相应的片段106。将由客户端设备120下载/取回所需的片段106。以这种方式,客户端设备120将检查后续片段110的消息框以检查其他片段110是否需要或不需要取回/下载表示Q1的各个时间上相应的片段106。
因此,在上面揭示的实施例中,设备100用于使用自适应流传输协议(例如但不限于DASH)向客户端输出媒体内容。媒体内容不限于视频,也可以是音频数据或其他媒体数据。设备100支持在至少第一表示Q1和第二表示Q2之间以时间片段108为单位进行切换,第二表示Q2依赖于第一表示Q1对其中的视频进行编码,其中设备100向客户端提供区分以下二者的信息:第二表示的第一组时间片段110(在图16中以阴影线示出),其依赖于与第一组时间片段时间上相对应的第一表示的第一部分(即,与阴影片段110时间上对齐的Q1的片段106)对其中的媒体内容进行编码,以及第二表示Q2的第二组时间片段110(在图16中以非阴影线示出),其独立于与第二组时间片段时间上相对应的第一表示的第二部分(即,与非阴影片段110时间上对齐的片段106)对其中的媒体内容进行编码。因此,在没有第一表示的第二部分的情况下从第二表示成功重建媒体内容,即,在没有后面的片段106的情况下重建是可行的。
已经描述了用于使用自适应流传输协议取回媒体内容的相应设备120,该设备120支持至少在取回媒体内容的第一表示和取回媒体内容的第二表示之间以时间片段为单位进行切换,并被配置为当取回第二表示时,取回第二表示的第一组时间片段以及第一表示的第一部分,并且取回第二表示的第二组时间片段而不取回第一表示的第二部分。
可以在设备100和120之间商定计算规则以供客户端设备120使用以区分分别位于第一部分和第二部分内的第一表示的时间片段的地址。可以从设备100发送的清单中导出计算规则,从设备100取回媒体内容。因此,上述实施例还揭示了用于自适应流传输协议的清单,描述了媒体内容,清单将媒体内容描述为以媒体内容的第一表示的形式可用,以及依赖于第一表示对其中的媒体内容进行编码的第二表示,其中清单包括区分以下二者的信息:第二表示的第一组时间片段,其依赖于与第一组时间片段时间上相对应的第一表示的第一部分对其中的媒体内容进行编码,以及第二表示的第二组时间片段,其独立于与第二组时间片段时间上相对应的第一表示的第二部分对其中的媒体内容进行编码,使得可以在没有第一表示的第二部分的情况下从第二表示成功重建媒体内容。
附加地或备选地,第二表示的第一组和/或第二组时间片段的预定时间片段中的提示(例如在文件框内)可以允许设备120将预定时间片段之后的第二表示的一个或多个后续时间片段归于第一组和第二组时间片段中的一个。表示媒体内容并且使用自适应流传输协议将媒体内容概念化到客户端的数据结构,该数据结构包括媒体内容的第一表示,以及依赖于第一表示对其中的媒体内容进行编码的第二表示,其中数据结构包括区分以下二者的信息:第二表示的第一组时间片段,其依赖于与第一组时间片段时间上相对应的第一表示的第一部分对其中的媒体内容进行编码,以及第二表示的第二组时间片段,其独立于与第二组时间片段的时间上相对应的第一表示的第二部分对其中的媒体内容进行编码,使得可以在没有第一表示的第二部分的情况下从第二表示成功重建媒体内容。这里,媒体内容可以包括第二表示的第一组和/或第二组时间片段的预定时间片段中的清单或提示。
在转到本申请的下一方面之前,应当注意的是,诸如视频之类的媒体内容可以以这样的方式提供给输出设备或服务器,以便为后者提供使其能够导出表示间依赖和表示内编码的时间片段的交错的信息,即,它们在流Q2的时间片段序列中交替出现的顺序。换言之,分层视频流可以在其中对与图14中的Q1和Q2相对应的层L1和L2中的视频进行编码,以图片序列包括如下交替方式的方式进行:独立于任何其他层进行编码的图片子序列(即,没有层间预测)和依赖于诸如L1的另一层进行编码的图片子序列(即,使用层间预测),并且该分层视频数据流可以包括关于子序列的这种交替的指示,使得输出设备可以相应地通知客户端,即通过将分层视频流沿着时间和层之间细分为时间片段,以便通过16个矩形获得图14中所示的片段,例如,考虑或不考虑分层视频流中的指示并根据视频流中的指示指定每个时间片段的表示间依赖片段或表示内编码的时间片段。具体地,在分层视频流中指示的仅在层内编码图片的行程之一内包括或已在其中进行编码的图片的那些时间片段在图16中将变为非阴影的,即,Q2的表示内编码的片段,而在时间上细分的分层视频流的层L2中的所有其他片段在图16中变为表示Q2的阴影所示的片段。
换言之,在上述实施例中,在传输级别上指示具有时间片段粒度的视频表示的依赖性信息可以仅通过来自编码器的侧信道信息或通过解析和分析完整的视频比特流来导出,即,所有指示的层依赖性、参考图片集和层间预测随时间的实际使用。针对编码器提供用于以容易获得的方式在视频比特流内直接传送该信息的方法是方便的。以下示例性语法允许该功能作为SEI消息。
对于给定层,针对SEI的范围,描述/保证/指示层与参考层的层间预测依赖性。范围持续到下一次出现SEI(当num_AUs=0时)或接入单位的显式给定数量(其他情况下)。ilp_idc的值指示在SEI范围期间表达的层之间是否不存在ILP依赖性。也就是说,SEI将指示直到该类型的下一个SEI,针对特定层i的所有后续图片,将该层i编码到分层视频流中将完全取决于哪个层j<i。然后,该图片的行程使用上述命名法形成图片的行程或子序列,并且图片的下一行程或子序列将通过下一SEI开始,其可以改变层i所依赖的参考层组。如图16中使用附图标记119所示的视频编码器可以提供具有这种信息的分层视频流,并且诸如设备120的网络设备可以使用该信息并且例如将每个SEI消息应用到那些图片上,其将图片序列从各个SEI消息跨越到下一SEI消息。
接下来描述的实施例涉及本申请的另一方面,即一方面在由频道本身跨越的空间中的多频道信号中分配随机接入点以及另一方面在表示中分配随机接入点的方面。如前所述,与本申请的其他方面一致,该描述以介绍解释潜在问题的介绍开始。
随机接入点通常用于流传输系统,因为它们允许在不同点处调入流以用于实时服务或搜索功能,并且同时可以用作动态自适应流传输会话中的切换点,其中媒体比特率需要适应从网络测量的可用吞吐量。
优化随机接入点的频率最终是编码效率和随机接入能力之间的折衷。此外,RAP越频繁,则用户可以在实时场景中调入更接近实时的事件。
除了编码效率之外,在客户端缓冲器保持尽可能低的低延迟场景的情况下,峰值比特率不能被缓冲器真正吸收并且可以导致用户基于峰值比特率优化其操作点。同时,在DASH场景中,可以尽可能小(例如,GOP大小)地保持片段,从而减少服务器端延迟。在这种环境中,并非所有片段都将以RAP开头进行编码,从而导致大小随时间高度变化的片段:包含RAP的片段将比不包含RAP的片段大得多。
然后,用户将为最坏情况场景选择所需的质量,即,与包含RAP的片段相对应的最大片段。片段大小可变性的问题如图18所示。图18示出了由特定服务器提供的四个表示对应于一个场景的四个不同瓦片或部分的情况,如图18右侧的200所示。例如,每个表示由沿着从左到右的时间顺序布置在图18中的时间片段序列组成。包含RAP的片段被描绘为3x3阵列。如图18的底部所示,到客户端的所有表示的传输导致具有与包含RAP的时间片段相关联的比特率峰值的时变比特率,其在图18的示例中在表示1至表示之间在时间上对齐。
逐步解码刷新(GDR)是一种允许编码器随时间(或比特流中的图片)分配编码预测的刷新(重新开始)的技术,例如,通过在图片的不同空间区域的不同时间点中断预测。提供这种功能的简单方式是使用瓦片对视频进行编码,并通过将RAP或预测中断(预测-重置)图片分配到不同(子)片段中来及时使用分散的RAP。简单地在服务器端执行此操作将不允许具有尽可能多的(“干净”-针对整个图片)随机接入点。因此,随表示时间上分布的包含RAP的片段,每个涉及共同场景的另一频道(例如,场景的相应部分),并不能非常令人满意地解决比特率峰值的问题,因为实际上通过该测量来说各种频道的“共同的”或时间对齐的随机接入点仅仅在时间上被抹去,而将调入速率保持在整个场景或媒体内容中。根据随后描述的实施例,可以降低比特率峰值问题并降低客户端所需的调入时间。
首先参照图19解释由随后说明的实施例应用的解决方案,图19使用与图18相同的示例作为媒体场景的多个频道的示例,即场景的四个不同部分。在图19的示例中,针对每个频道提供三个表示,即第一频道的首先三个表示对应于场景的右上部分,第二频道的表示4至6属于场景的右上部分,与第三频道相对应的表示7至9属于场景的左下部分,并且用于第四频道的表示10至12属于场景的右下部分。因此,对取回完整场景感兴趣的客户端需要取回每个频道的表示之一。针对每个频道多于一个表示可用的事实使客户端有机会专门访问某个时间片段,包括RAP的频道的那些表示,例如用于快速调入或访问表示,其平均数在相应的时间片段处具有RAP,使得包含针对四个频道下载的RAP的时间片段的平均数随时间基本恒定,从而有助于将用于从服务器到客户端的频道的时间片段流传输的时间比特率方差保持为合理地低。
可以看出下载比特率随时间的变化比前一种情况更均匀。
MPD中必要的信令:
第一实施例
-RAP偏移或类似
o如上所定义的@rapOffset或@switchingOffset
o它可用于如上所述的瓦片用例,或用于快速调入分散的RAP/切换点。因此,每个表示的比特率更小但是与更频繁的RAP/切换点具有相同的粒度
发信号通知它们是等效的表示。
第二实施例
-仅对齐调入所需的RAP->仅提供分散的RAP Rep和带有漂移的对齐RAP的其他“非完整”Rep
第三实施例
-峰值速率降低测量
o描述@peakBitrateReduction的属性。可以使用@minBufferTime和@bandwidth导出峰值比特率。调度器将基于峰值比特率的这种推导而工作。这种属性有助于调度器考虑实际的分布速率。这有助于延长高质量流的时间。对齐RAP还可用于切换或随机接入。
图20示出了输出设备或服务器220,其可以利用关于图19概述的想法。输出设备220可以用硬件、固件或软件实现,如上面参考图4和图16所述。在内部,输出设备220可以包括存储器222和清单提供器224。图20的输出设备220用于通过使用自适应流传输协议呈现客户端可用的由多个频道组成的媒体场景。对于每个频道,输出设备220支持以若干表示之一取回或下载相应频道。在图20中,示例性地示出了每个信道仅二个表示,其中频道的数量示例性地为三个。然而,频道的数量可以是大于1的任何数量,并且每个频道的表示的数量同样可以是大于1的任何数量。对于每个频道的每个表示,输出设备22提供片段序列的输出或取回。在图20中,使用三个字母数字符号表示片段。第一个指示频道,第二个指示表示,第三个使用大写字母A、B、C…区分时间上的片段序列。所有这些片段都可以由相应的客户端通过相应的请求单独取回或下载。也就是说,每个片段包含其自己的唯一地址。
输出设备220在清单中描述可用媒体场景,即就可用表示及其与媒体场景的各个频道的关联而言。应当注意,表示可以彼此依赖或者可以是独立的。频道可以对应于音频频道,其中媒体场景是音频场景,或者频道可以是全景场景的场景部分。各个表示是具有在其中编码的相关联的频道的数据流,例如,视频流,每个视频流具有编码在其中的相关联的场景部分。属于一个频道的表示不需要对应于不同的比特率等。属于一个频道的表示可以具有相同的比特率或相同的质量。然而,输出设备220向清单提供指示各种频道的各个表示中的接入点的位置的信息。它们在时间上的分布彼此不同。也就是说,与属于一个频道的表示相比,包括随机接入点的时间片段在时间上不同地定位/分布。优选地,它们以这种方式分布:包括随机接入点的时间片段与属于一个频道的表示之间的时间不一致或者考虑到在一个频道的这些表示内携带随机接入点的时间片段的数量和该频道的多个表示,这种重合对应于最小值。例如,随机接入点的时间分布使得在每个频道的每个表示内,携带时间片段的随机接入点以周期性方式布置在距整个媒体场景的开始的特定偏移j处的每第i个时间片段中。在一个频道内,周期i和/或偏移j可以在各个频道的表示中变化。
适合于图20的实施例的客户端设备可以被组成和构造为图17中所示的客户端设备,从而取消额外的图示。根据适合于图20的实施例,客户端设备120将请求清单并从中导出属于频道的各种表示的随机接入点的位置,如上所述,当与属于一个频道的表示相比较时,这些随机接入点在时间上不同地分布,对于所有频道都是如此。然后,客户端设备将针对当前时间片段的每个频道选择相应频道的表示之一,并且将根据携带随机接入点的片段的位置进行该选择。如上所述,客户端设备120可以例如用于快速调入选择针对某个时间片段处的每个频道的那些表示,其允许快速调入并且可以在下载媒体场景期间针对每个频道的那些表示选择每个时间片段,其中表示显示随机接入点携带片段的时间上变化较小的数量。
因此,应当注意,根据第三方面,设备200可以被配置为使用自适应流传输协议(例如但不限于DASH)向客户端输出媒体场景的频道。媒体场景可以是图片,并且频道可以是其部分。备选地,媒体场景可以是音频场景,并且频道可以是音频频道。设备200可以支持针对每个频道在相应频道的一组表示之间切换,所述表示在随机接入点的时间分布上不同。也就是说,设备200向客户端提供这种表示以供下载或者用于获取它们。可以彼此独立地对属于不同频道的表示进行编码。可以彼此独立地对属于相应频道的表示进行编码或者属于相应频道的表示之间相互依赖。
在间歇出现的时刻中,频道的一组表示中的至少一个的随机接入点可以在时间上对齐。例如,第一、第八和第十六片段处的表示#1、4、7和10。用于使用自适应流传输协议取回媒体场景的频道的相应客户端设备120可以被配置为针对每个频道在相应频道的一组表示之间进行切换。在这样做时,设备120可以被配置为根据频道的一组表示中随机接入点的时间分布,来针对每个频道选择当前要针对相应频道的该组表示中的相应频道取回的表示。可以在服务器和客户端之间商定时间分布,即各种表示内的随机接入点的时间位置。设备120可以被配置为从取回媒体场景的服务器取回揭示频道的该组表示中的随机接入点的时间分布的信息。具体地,可以经由服务器200发送的清单来传输信息。备选地,可以通过使用频道的该组表示的预定时间片段中的提示来传送信息。预定片段可以是在时间上在间歇出现的时刻的所有频道的所有表示的片段,使得无论当前取回的每个频道的表示如何,客户端都获得所包含的信息。然后,该信息可以例如包含在格式文件框中。
应当注意,服务器220可以通知客户端可实现的比特率峰值降低。可实现的峰值比特率降低可以是通过针对每个频道,从相应频道的该组表示中选择相应频道当前要取回的表示所获取的取回媒体场景的比特率,这取决于频道的该组表示中的随机接入点的时间分布,使得包括随机接入点的所选时间片段中的多个时间片段以最小可能方式在时间上变化。服务器220可以以不同的方式向客户端通知可实现的峰值比特率降低:服务器220可以通知客户端1)在下载媒体场景(即,每个频道选择一个表示的一个或多个预定表示集合处的所有频道)时所需的平均比特率,2)与这些一个或多个预定集合的下载相关联的比特率峰值,以及3)当以RAP数量方差避免方式在其表示之间切换每个频道时,与媒体场景的下载相关联的比特率峰值。备选方式也是可行的。
以下描述涉及本申请的第四方面。该方面涉及在客户端和服务器之间的自适应流传输场景中的不同表示之间的切换。为了改善到达客户端的媒体流的质量,下面给出的概念建议在从一个表示切换到另一个表示时安排衰落阶段。
图21示例性地示出了可以有利地应用这种衰落阶段的示例,其中图21示例性地示出了将本衰落阶段插入想法与上面关于本申请的第一方面的实施例概述的过渡阶段插入相结合的情况。也就是说,图21示出了在相应客户端的请求下从服务器发送到客户端的两个连续时间片段。图21说明性地描绘了图13的情况作为起始点,其中客户端从片段Seg#1中的第一表示切换到片段Seg#2中的表示2。为了补偿表示2的RAD图片的RAM图片的丢失,除了在时间片段Seg#1期间的第一表示的相应时间片段之外,客户端还以单独时间片段的形式取回辅助轨道。因此,在客户端处播放的视频将从基于第一表示重建的图片序列转换到第二表示的图片。然而,由于从表示1到表示2的改变,这种转换可能导致呈现质量下降,而在例如图21的示例中,另外遭受对第二表示的RASL图片的参考图片的补充估计。为了解决该缺陷,本申请的第四方面的实施例建议向客户端提供附加辅助轨道290,附加辅助轨道290是使用层间预测基于表示1和表示2双向预测得到的数据流,即,利用分别在表示1和表示2的基础上单独导出的预测器的线性组合。换言之,通过使用层间预测对附加辅助轨道290进行编码而没有利用残差编码,即,对于附加辅助轨道290的每个图片,通过使用表示1的时间上相应的图片的副本和表示2的时间上相应的图片的副本并将二者相加来预测相应的图片,可选地使用权重来计算,其中在阶段292期间,一个权重减少,而另一个权重增加,使得二个表示之间的衰落即发生在权重递减属于增加权重所属的权重的范围内。在图21中,为了导出辅助轨道290的数据流的每个图片的单独预测器,使用从辅助轨道290的相应图片分别垂直引导到表示1和表示2的时间上相应的图片的两个虚线箭头来说明性地描绘层间预测。因此,除了涉及第二表示的片段之外,在衰落阶段期间客户端还获取辅助请求290和表示1的时间上相应的片段,并且在该衰落阶段292期间播放辅助轨道290的重建,以便随后在衰落阶段之后,继续仅取回和播放第二表示。例如,辅助轨道290的图片可以以双向预测形式编码为分别从第二表示的图片和第一表示的图片导出的预测器的线性组合。在衰落阶段期间,线性组合可以在时间上改变二个预测器的权重,使得第一表示的图片对线性组合的贡献越来越小,而第二表示的图片在衰落阶段期间对线性组合的贡献越来越大。例如,辅助轨道290的图片由第一因子乘以第一表示的时间上相应的图片的层间预测副本加上第二因子乘以第二表示的时间上相应的图片的层间副本版本的线性组合而形成,其中第一因子在衰落阶段期间单调地从1减少到0,而第二因子在衰落阶段期间单调地从0增加到1。这在图22中示例性地示出,其分别示出第一因子和第二因子的时间变化的单独图,其中时间轴处的花括号示出了衰落阶段292。
图23示出了使用刚刚概述的第四方面的另一实施例中的输出设备300。输出设备300可以被实现为,并且可以具有可选的内部结构,如关于本申请的其他方面的其他输出设备所描述的。也就是说,输出设备300可以如上所述以硬件、固件或软件实现,并且可以在内部由存储器302和清单提供器304组成。
图23的输出设备300被配置为使用自适应流传输协议(例如但不限于DASH)输出媒体内容(例如但不限于视频)。设备300向客户端提供媒体内容以至少以以下形式进行取回:以第一质量对其中的媒体内容进行编码的第一媒体流306、以第二质量对其中的媒体内容进行编码的第二媒体流308、以及依赖于第一媒体流306和第二媒体流308对其中的媒体内容进行编码的辅助媒体流310。因此,第一媒体流306形成媒体内容的第一表示,第二媒体流308形成第二表示。第二表示可以或可以不依赖于第一表示。媒体流306至310分别被描绘为时间片段312的序列,其中客户端可以从输出设备300中从媒体流306和308的时间片段312单独取回辅助媒体流310的时间片段312,但是,如图中使用虚线框所示出的,辅助媒体流310可以备选地包括在第二媒体流308的时间片段(以24示出该选项)内,或者可以包括在第一媒体流306的时间片段内。例如,在相应的客户端请求时,清单提供器304将向客户端输出清单,该清单例如将描述表示1和2,例如解码相应表示的必要解码能力,其质量、其传输比特率等。附加地,清单将为客户端提供一个或多个片段模板,用于计算用于获取时间片段312的地址,一方面针对媒体流306的时间片段、另一方面针对媒体流308的时间片段,地址将是不同的,辅助媒体流310包括在这些时间片段中,或者将一个或多个片段模板与结果分别计算用于获取流306、308和310的时间片段的单独地址。
图24的客户端设备320可以以与上述相同的方式相对于其他客户端设备关于硬件、固件或软件的形式的实现来实现,并且对于内部结构,客户端设备320可以可选地包括请求器322和缓冲器324。图24的客户端设备被配置为使用自适应流传输协议(例如但不限于DASH)从服务器取回媒体内容(例如但不限于视频),并且为此支持至少在从诸如图23的输出设备的服务器取回第一媒体流或第二媒体流之间进行切换。客户端设备被配置为在从取回第一媒体流切换到取回第二媒体流时安排衰落阶段292,在第二媒体流中设备320利用第一和第二媒体流取回辅助媒体流,并且播放辅助媒体流而不是播放第二辅助流。例如,图24示出了第二表示308独立于第一表示的情况,使得客户端设备320在衰落阶段之前的时间阶段326期间仅从服务器获取或取回第一媒体流306的片段,并且使相应解码器对其进行解码。在衰落阶段292期间,客户端设备320获取辅助媒体流310的衰落阶段292内的时间片段以及媒体流306和308在时间上对应的时间片段,并使相应解码器对其进行解码,而在衰落阶段292之后的时间阶段328中,客户端设备320通过从服务器取回并播放第二媒体流308来避免取回辅助媒体流310。如果第二表示将是依赖于第一表示的表示,则客户端设备320将取回时间阶段328期间的第二媒体流308的时间片段以及媒体流306在时间上对于的片段。
如上所述,可以组合上面关于本申请的第一方面描述的实施例和关于本申请的第四方面描述的实施例。例如,图25示出了客户端设备320与服务器交互,该服务器除了第一表示306、第二表示308和辅助表示310之外还提供媒体内容,这里是视频,用于以36的切换轨道L2的形式取回。因此,客户端设备320被配置为在从表示1转换到表示2处安排过渡阶段84和衰落阶段292二者。在过渡阶段84期间,客户端设备320将从服务器取回切换轨道,即除了第一媒体流306之外的分层视频流36的第二层L2,其随后将对应于分层视频流36的层L1,或者在单独的时间片段或公共时间片段中,随后转换到衰落阶段,其中客户端设备320不像在过渡阶段84期间那样播放36的切换轨道L2,而是从辅助媒体流310导出的辅助表示分别依赖于媒体流306和308进行编码。
换言之,根据一个实施例,利用多个轨道的加权版本的输出信号显示叠加新号;在叠加之前,可以对一些轨道进行上采样;一个这种加权在指定点处的两个轨道之间切换;另一个加权允许从一个轨道到另一个轨道的逐渐过渡。可以利用二个轨道的加权版本的输出信号显示叠加新号;
*其中一个轨道包含更高质量的视频(例如,更高的分辨率或更高的原始保真度),可能还有在叠加之前受影响的编码漂移(例如,如果使用开放GOP进行编码);
*一个这种加权允许从一个轨道到另一个轨道的逐渐过渡
*在编解码器域之外实现叠加。
*在下面的图中,在编解码器域内实现叠加,其中表示作为附加表示“加权”的第三“层”,其特征在于仅来自Rep 1和Rep 2的加权预测(虚线橙色箭头)。
即使没有(漂移影响或不影响)开放GOP之类的编码前导图片,该方法也允许(逐渐的)层切换。
关于后面的实施例,应当注意,备选实施例涉及设备300向客户端提供元数据,该元数据在第一和第二媒体流之间切换时控制客户端的衰落。元数据可以描述例如用于衰落的上述权重的增加/减少的强度。客户端设备120将从服务器接收元数据,并使用元数据控制在第一和第二媒体流之间切换时的衰落。
关于以上描述,应当注意,所示的任何编码器、解码器或网络设备可以用硬件、固件或软件来体现或实现。当以硬件实现时,相应的编码器、解码器或网络设备可以例如以专用集成电路的形式实现。如果以固件实现,则相应的设备可以实现为现场可编程阵列,并且如果以软件实现,则相应的设备可以是被编程为执行所描述的功能的处理器或计算机。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。
本发明的编码数据流或信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。已经描述了将某些信息插入或编码到数据流中,同时将该描述理解为以下公开:所得到的数据流包括相应信息、标志的语法元素等。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。
本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。

Claims (115)

1.一种用于使用自适应流传输协议将视频(24)输出到客户端的设备,所述设备支持至少在以下之间进行切换,
以分层视频流(36)的形式输出视频(24);以及
以使用开放GOP结构进行编码的增加的空间分辨率视频流(38)的形式输出视频(24),其中以第二空间分辨率和第二质量将视频编码到所述视频流中,
所述分层视频流(36)包括:
第一层(L1),其中以第一空间分辨率对视频进行编码,和
第二层(L2),其中以第二空间分辨率和低于第二质量的第一质量并且通过层间上采样使用从第一层到第二层的层间预测(44)而不使用预测残差编码对视频进行编码。
2.根据权利要求1所述的设备,其中所述增加的空间分辨率视频流(38)是另一分层视频流,所述另一分层视频流包括:
另一第一层(L1),其中以第一空间分辨率对视频进行编码,和另一第二层(L2),其中以第二空间分辨率、使用开放GOP结构中的时间预测并且通过层间上采样使用从所述另一第一层(L1)到所述另一第二层(L2)的层间预测并且使用预测残差编码对视频进行编码。
3.根据权利要求2所述的设备,其中所述第一层和所述另一第一层在其中以第一空间分辨率相同地对视频进行编码,使得以第一空间分辨率基于分层视频流(36)和另一分层数据流在拼接点处拼接在一起所得到的视频的重建等同于分别以第一空间分辨率基于分层视频流和另一分层数据流中的任一个所得到的视频的重建。
4.根据权利要求2或3所述的设备,其中使用开放GOP结构对所述第一层和所述另一第一层以及所述另一第二层进行编码。
5.根据权利要求1所述的设备,其中,所述增加的空间分辨率视频流是另一分层视频流,所述另一分层视频流包括另一第二层,所述另一第二层在其中以第二空间分辨率使用开放GOP结构中的时间预测并且使用预测残差编码而不使用层间预测对视频进行编码。
6.根据权利要求2、3和5中任一项所述的设备,其中使用闭合GOP结构对所述第一层进行编码。
7.根据权利要求2至6中任一项所述的设备,其中使用共同层ID标记所述第二层和所述另一第二层,使得拼接所述分层视频流和所述另一分层视频流以产生拼接分层视频流,所述拼接分层视频流包括在其中以第二空间分辨率对视频进行编码的具有所述共同层ID的层。
8.根据权利要求1所述的设备,其中,所述增加的空间分辨率视频流(38)是另一分层视频流,所述另一分层视频流包括另一第二层,所述另一第二层在其中以第二空间分辨率对视频进行编码,并且使用共同层ID标记所述第二层和所述另一第二层,使得拼接所述分层视频流和所述另一分层数据流以产生拼接分层视频流,所述拼接分层视频流包括在其中以第二空间分辨率对视频进行编码的具有所述共同层ID的层。
9.根据前述权利要求中任一项所述的设备,其中所述设备被配置为向客户端通知所述客户端将在从所述分层视频流切换到所述增加的空间分辨率视频流之前安排过渡阶段,在所述过渡阶段中所述客户端将通过使用分层视频流的第二层以第二空间分辨率导出视频的补充估计。
10.根据权利要求9所述的设备,其中,所述过渡阶段的长度超过或等于以下二者间的最大距离:
一方面,所述增加的空间分辨率视频流的随机接入依赖图片,所述随机接入依赖图片通过时间预测,分别直接或间接参考所述增加的空间分辨率视频流在呈现时间顺序方面的后续的随机接入点图片和在呈现时间顺序和解码顺序方面先于所述随机接入点图片的参考图片,以及
另一方面,所述随机接入依赖图片直接或间接参考的参考图片。
11.根据权利要求9或10所述的设备,其中,所述设备被配置为以以下为单位向客户端指示所述过渡阶段的长度:
所述分层视频流和所述增加的空间分辨率视频流的时间片段,或者
时间单元。
12.根据前述权利要求中任一项所述的设备,其中,所述设备被配置为向客户端提供清单:
所述清单描述以分层视频流(36)的形式的第一空间分辨率的视频和以增加的空间分辨率视频流(38)的形式的第二空间分辨率的视频针对客户端的可用性,以及
所述清单指示分层视频流(36)的第二层(L2)以及分层视频流(36)的第一层(L1)在分层视频流的时间片段中的存在,以及第二层(L2)的目的是作为用于以第二空间分辨率导出视频的补充估计的手段,以便从分层视频流切换到增加的空间分辨率视频流;
所述清单指示计算用于获取分层视频流和增加的空间分辨率视频流的时间片段的地址的计算规则。
13.根据权利要求9至12中任一项所述的设备,其中服务器被配置为向清单中插入指示客户端将在从分层视频切换到增加的空间分辨率视频流之前安排过渡阶段的信息,在所述过渡阶段中所述客户端通过使用第一流的第二层以第二空间分辨率导出视频的补充估计。
14.根据权利要求13所述的设备,其中,所述设备被配置为从所述增加的空间分辨率视频流的SEI获得所述过渡阶段的长度。
15.根据权利要求1至14中任一项所述的设备,其中,所述设备支持至少在以下之间进行切换,
以分层视频流的形式输出视频;
以增加的空间分辨率视频流的形式输出视频;以及
以降低的空间分辨率流的形式输出视频,在降低的空间分辨率流中以第一空间分辨率对视频进行编码。
16.根据权利要求15所述的设备,其中所述降低的空间分辨率流是:
单层视频流,或者
又一分层视频流,包括又一第一层,在所述又一第一层中以第一空间分辨率对视频进行编码。
17.根据权利要求15所述的设备,其中所述降低的空间分辨率流是:
又一分层视频流,包括又一第一层,
其中所述第一层和所述又一第一层在其中以第一空间分辨率相同地对视频进行编码,使得以第一空间分辨率基于分层视频流和又一分层数据流在拼接点处拼接在一起所得到的视频的重建等同于分别以第一空间分辨率基于分层视频流和又一分层数据流中的任一个所得到的视频的重建。
18.根据权利要求17所述的设备,其中使用闭合GOP结构对所述又一第一层进行编码。
19.根据权利要求17或18所述的设备,其中所述设备被配置为向客户端提供清单,所述清单描述服务器处第一空间分辨率和第二空间分辨率的视频针对客户端的可用性,并且指示计算用于获取第一层、第二层、又一第一层和增加的空间分辨率视频流的时间片段的地址的计算规则,所述地址对于第一层、第二层和增加的空间分辨率视频流来说不同,但是对于又一第一层和第一层来说相同。
20.根据权利要求15至19中任一项所述的设备,其中,所述设备被配置为向客户端提供清单,所述清单描述服务器处第一空间分辨率和第二空间分辨率的视频针对客户端的可用性,并且指示计算用于获取增加的空间分辨率视频流、第一层、第二层和降低的空间分辨率流的时间片段的地址的计算规则,所述地址对于增加的空间分辨率视频流、第一层、第二层和降低的空间分辨率流来说不同。
21.一种用于使用自适应流传输协议取回视频的设备,所述设备支持至少在以下之间进行切换,
以第一视频流(36)的形式取回视频;以及
以第二视频流(38)的形式取回视频,
其中所述设备被配置为:在从以第一视频流(36)的形式取回视频切换到以第二视频流(38)的形式取回视频之前安排过渡阶段(64)。
22.根据权利要求21所述的设备,其中所述第二视频流(38)是使用开放GOP结构编码的,并且所述设备被配置为使所述第一视频流(36)和所述第二视频流(38)以拼接在一起的方式进行解码,使得针对所述第二视频流的随机接入依赖图片,从所述第一视频流解码的图片形成参考图片的替代,其中所述第二视频流的随机接入依赖图片通过时间预测分别直接或间接参考第二视频流在呈现时间顺序方面的后续的随机接入点图片和在呈现时间顺序和解码顺序方面先于所述随机接入点图片的所述参考图片。
23.根据权利要求21或22所述的设备,其中所述第一视频流是分层视频流,包括:
第一层,其中以第一空间分辨率对视频进行编码,和
第二层,其中以高于第一空间分辨率的第二空间分辨率并且通过层间上采样使用从所述第一层到所述第二层的层间预测而不使用残差编码对视频进行编码。
24.根据权利要求23所述的设备,其中所述设备被配置为以包含第一层和第二层的时间片段取回分层视频流。
25.根据权利要求24所述的设备,其中所述设备被配置为将所述第二层与所述第一层一起进行的解码限制到所述过渡阶段期间的时间。
26.根据权利要求23所述的设备,其中所述设备被配置为以单独包含第一层和第二层的时间片段取回分层视频流。
27.根据权利要求26所述的设备,其中所述设备被配置为禁止在所述过渡阶段之外取回包含所述第二层的时间片段。
28.根据权利要求23至27中任一项所述的设备,其中所述第二视频流是另一分层视频流,所述另一分层视频流包括另一第二层,在所述另一第二层中以第二空间分辨率而不使用层间预测对视频进行编码,
其中所述设备被配置为:在过渡阶段,提交第一层和第二层以由可伸缩视频解码器进行解码,并且在过渡阶段之后立即提交所述另一分层视频流以由所述可伸缩视频解码器进行解码,使得所述可伸缩视频解码器从分层视频流的第二层获得针对所述另一分层视频流的第二空间分辨率的随机接入依赖图片的参考图片的替代,其中所述另一分层视频流的第二空间分辨率的随机接入依赖图片通过时间预测分别直接或间接参考所述另一分层视频流在呈现时间顺序方面的后续的随机接入点图片和在呈现时间顺序和解码顺序方面先于所述随机接入点图片的所述参考图片。
29.根据权利要求28所述的设备,其中所述第一层是使用闭合GOP结构编码的,
其中所述设备被配置为:当从以第二视频流的形式取回视频切换到以第一视频流的形式取回视频时,
立即连续地向可伸缩视频解码器提交与视频的第一部分有关的另一分层视频流的一部分,以便以第二空间分辨率取回视频的第一部分,随后取回与视频的紧跟第一部分的第二部分有关的分层视频流的第二部分的第一层,以便以第一空间分辨率取回视频的第二部分。
30.根据权利要求21至29中任一项所述的设备,被配置为从取回视频的服务器获取过渡阶段的长度的信息。
31.根据权利要求21至29中任一项所述的设备,被配置为从取回视频的服务器获取信号,并且根据该信号停用所述安排或激活所述安排。
32.根据权利要求30或31所述的设备,被配置为从服务器请求清单,所述清单描述服务器处以第一视频流和第二视频流的形式的视频针对客户端的可用性,并且从所述清单获得关于过渡阶段的长度或所述信号的信息。
33.一种表示视频的数据结构,所述数据结构被概念化用于由客户端使用自适应流传输协议取回视频,所述客户端至少在以第一空间分辨率取回和以高于第一空间分辨率的第二空间分辨率取回之间进行切换,所述数据结构包括:
增加的空间分辨率视频流,其中以第二空间分辨率和第二质量使用开放GOP结构对视频进行编码,以及
分层视频流,包括:
第一层,其中以第一空间分辨率对视频进行编码,和
第二层,其中以第二空间分辨率和与第二质量相比降低的第一质量并且通过层间上采样使用从第一层到第二层的层间预测而不使用残差编码对视频进行编码。
34.根据权利要求33所述的数据结构,其中所述增加的空间分辨率视频流是另一分层视频流,所述另一分层视频流包括:
另一第一层,其中以第一空间分辨率对视频进行编码,和
另一第二层,其中以第二空间分辨率并且通过层间上采样使用从另一第一层到另一第二层的层间预测并且使用残差编码对视频进行编码。
35.根据权利要求34所述的数据结构,其中所述第一层和另一第一层在其中以第一空间分辨率相同地对视频进行编码,使得以第一空间分辨率基于分层视频流和另一分层数据流在拼接点处拼接在一起所得到的视频的重建等同于分别以第一空间分辨率基于第一流和第二流中的任一个所得到的视频的重建。
36.根据权利要求34或35所述的数据结构,其中,使用开放GOP结构对所述第一层和所述另一第一层和所述另一第二层进行编码。
37.根据权利要求33所述的数据结构,其中,所述增加的空间分辨率视频流是另一分层视频流,所述另一分层视频流包括另一第二层,所述另一第二层在其中以第二空间分辨率而不使用层间预测对视频进行编码。
38.根据权利要求34至37中任一项所述的数据结构,其中使用闭合GOP结构对所述第一层进行编码。
39.根据权利要求35至38中任一项所述的数据结构,其中使用共同层ID标记所述第二层和所述另一第二层,使得拼接所述分层视频流和所述另一分层视频流以产生拼接分层视频流,所述拼接分层视频流包括在其中以第二空间分辨率对视频进行编码的具有所述共同层ID的层。
40.根据权利要求33所述的数据结构,其中,所述增加的空间分辨率视频流是另一分层视频流,所述另一分层视频流包括另一第二层,所述另一第二层在其中以第二空间分辨率对视频进行编码,并且使用共同层ID标记所述第二层和所述另一第二层,使得拼接所述分层视频流和所述另一分层视频流以产生拼接分层视频流,所述拼接分层视频流包括在其中以第二空间分辨率对视频进行编码的具有所述共同层ID的层。
41.一种用于使用自适应流传输协议将视频输出到客户端的设备,所述设备被配置为向客户端提供至少以下形式的视频以供取回:
第一视频流(36);和
第二视频流(38),
其中所述设备被配置为:通知客户端在从以第一视频流(36)的形式取回视频切换到以第二视频流(38)的形式取回视频之前安排过渡阶段(64)的必要性。
42.根据权利要求41所述的设备,其中:
所述设备被配置为向客户端提供清单:
所述清单描述以第一视频流(36)的形式的第一空间分辨率和以第二视频流(38)的形式的高于第一空间分辨率的第二空间分辨率的视频针对客户端的可用性,以及
所述清单指示第二层(L2)在第一视频流的时间片段中的存在和在切换到第二视频流(38)之前的过渡阶段期间从第一空间分辨率切换到第二空间分辨率时要播放的第二层(L2)的目的;
所述清单指示计算分别用于获取第一视频流和第二视频流的时间片段的地址的计算规则。
43.根据权利要求41所述的设备,其中所述设备被配置为向客户端提供视频以便以第三视频流的形式另外取回视频,以及
所述设备被配置为向客户端提供清单:
所述清单描述以第三视频流(L1)的形式的第一空间分辨率和以第二视频流(38)的形式的高于第一空间分辨率的第二空间分辨率的视频针对客户端的可用性,以及
所述清单指示在经由第一视频流从第三视频流切换到第二视频流之间从第一空间分辨率切换到第二空间分辨率时,在过渡阶段期间将与第三视频流的时间片段一起取回第一视频流的时间片段;
所述清单指示计算用于获取第一、第二和第三视频流的时间片段的地址的计算规则。
44.根据权利要求42和43中任一项所述的设备,其中所述设备被配置为向所述客户端提供所述视频以供另外地以另一视频流的形式取回,并提供清单来描述以所述另一视频流的形式的高于第一和第二空间分辨率的第三空间分辨率的视频针对客户端的可用性,并且通知客户端:
从第三空间分辨率切换到第二空间分辨率的向下切换时机,和
从第一或第三视频流切换到第二视频流的向上切换时机。
45.根据权利要求42至44中任一项所述的设备,其中所述设备在清单中指示可以将所述第一视频流和所述第二视频流能够拼接在一起以馈送给一个解码器。
46.根据权利要求41至45中任一项所述的设备,其中所述设备向所述客户端通知所述过渡阶段的长度。
47.一种视频流,其中以如下方式对图片序列进行编码:在图片序列中存在至少一个随机接入依赖图片,所述至少一个随机接入依赖图片通过时间预测直接或间接参考所述图片序列在呈现时间顺序方面的后续的随机接入点图片,并参考在呈现时间顺序方面和解码顺序方面先于所述随机接入点图片的参:考图片,其中所述视频流包括:
语法元素,指示所述至少一个随机接入依赖图片和所述至少一个随机接入依赖图片直接或间接参考的参考图片之间的最大时间距离。
48.一种视频编码器,被配置为
以如下方式将图片序列编码到视频流中:在图片序列中存在至少一个随机接入依赖图片,所述至少一个随机接入依赖图片通过时间预测直接或间接参考所述图片序列在呈现时间顺序方面的后续的随机接入点图片,并参考在呈现时间顺序方面和解码顺序方面先于随机接入点图片的参考图片,以及
在数据流中插入语法元素,所述语法元素指示所述至少一个随机接入依赖图片参考图片和所述至少一个随机接入依赖图片参考图片直接或间接参考的参考图片之间的保证的最大时间距离。
49.一种用于使用自适应流传输协议将媒体内容输出到客户端的设备,所述设备支持以时间片段为单位至少在以下之间进行切换:
第一表示,
第二表示,其中具有依赖于所述第一表示进行编码的视频,
其中所述设备向客户端提供区分以下二者的信息:
第二表示的第一组时间片段,其中依赖于与所述第一组时间片段时间上相对应的第一表示的第一部分对媒体内容进行编码,以及
第二表示的第二组时间片段,其中独立于与所述第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,使得在没有所述第一表示的第二部分的情况下,从第二表示成功重建媒体内容。
50.根据权利要求49所述的设备,被配置为向客户端提供计算规则,使用所述计算规则能够区分分别位于第一部分和第二部分内的第一表示的时间片段的地址。
51.根据权利要求50所述的设备,被配置为将所述计算规则插入发送给客户端的清单中。
52.根据权利要求49至51中任一项所述的设备,被配置为使用所述第二表示的所述第一组时间片段和/或第二组时间片段的预定时间片段中的提示,将所述预定时间片段之后的第二表示的一个或多个后续时间片段归于所述第一组时间片段和第二组时间片段之一。
53.根据权利要求49至52中任一项所述的设备,被配置为向客户端提供清单,所述清单包括关于以下内容的信息:
除了第二表示的第一时间片段和第二时间片段之外,与第一表示的第一部分和第二部分的传输相对应的第二表示的第一传输比特率,以及
除了第二表示的第一时间片段和第二时间片段之外,在没有第一表示的第二部分的情况下与第一表示的第一部分的传输相对应的第二表示的第二传输比特率。
54.一种用于使用自适应流传输协议取回媒体内容的设备,所述设备支持以时间片段为单位至少在以下之间进行切换:
取回第一表示,
取回第二表示,其中具有依赖于所述第一表示进行编码的媒体内容,
其中所述设备被配置为:当取回所述第二表示时,
取回所述第二表示的第一组时间片段和所述第一表示的第一部分,其中所述第二表示的第一组时间片段在其中依赖于与所述第二表示的第一组时间片段在时间上相对应的第一表示的第一部分对媒体内容进行编码,以及
取回所述第二表示的第二组时间片段,其中所述第二表示的第二组时间片段在其中独立于与所述第二组时间片段在时间上相对应的第一表示的第二部分对媒体内容进行编码,而不取回所述第一表示的第二部分。
55.根据权利要求54所述的设备,被配置为使用计算规则区分分别位于第一部分和第二部分内的第一表示的时间片段的地址。
56.根据权利要求55所述的设备,被配置为从取回媒体内容的服务器所发送的清单中导出计算规则。
57.根据权利要求54至56中任一项所述的设备,被配置为使用所述第二表示的所述第一组时间片段和/或第二组时间片段的预定时间片段中的提示,将预定时间片段之后的第二表示的一个或多个后续时间片段归于所述第一组时间片段和第二组时间片段之一。
58.根据权利要求57中任一项所述的设备,被配置为响应于从取回媒体内容的服务器发送的清单中的信号,使用预定时间片段中的提示以将预定时间片段之后的第二表示的一个或多个后续时间片段归于第一组时间片段和第二组时间片段之一。
59.一种用于自适应流传输协议的描述媒体内容的清单,所述清单将媒体内容描述为以下可用的形式:
媒体内容的第一表示,
第二表示,其中具有依赖于所述第一表示进行编码的媒体内容,
其中所述清单包括区别以下二者的信息:
第二表示的第一组时间片段,其中依赖于与所述第一组时间片段时间上相对应的第一表示的第一部分对媒体内容进行编码,以及
第二表示的第二组时间片段,其中独立于与所述第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,使得可以在没有第一表示的第二部分的情况下从第二表示成功重建媒体内容。
60.一种表示媒体内容的数据结构,所述数据结构被概念化用于使用自适应流传输协议将媒体内容流传输到客户端,所述数据结构包括:
第一表示,其中对媒体内容进行编码,
第二表示,其中具有依赖于所述第一表示进行编码的媒体内容,
其中所述数据结构包括区别以下二者的信息:
第二表示的第一组时间片段,其中依赖于与所述第一组时间片段时间上相对应的第一表示的第一部分对媒体内容进行编码,以及
第二表示的第二组时间片段,其中独立于与所述第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,使得可以在没有第一表示的第二部分的情况下从第二表示成功重建媒体内容。
61.一种分层视频流,其中使用从第一层到第二层的层间预测将视频编码为第一层和第二层(L1,L2),
其中,所述分层视频流包括指示以下内容的信息:将第二层的图片序列以交替方式在时间上细分为独立于第一层进行编码的图片子序列和依赖于第一层进行编码的图片子序列。
62.一种视频编码器,被配置为:
使用从第一层到第二层的层间预测将视频编码为分层视频流,以使所述分层视频流具有第一层和第二层(L1,L2),使得所述第二层的图片序列包括独立于第一层进行编码的第一图片子序列,所述第一图片子序列之间是所述第二层的图片序列的第二图片子序列,以及
向所述分层视频流提供指示以下内容的信息:将所述第二层的图片序列在时间上细分为所述第二图片子序列和独立于所述第一层进行编码的所述第一图片子序列。
63.一种网络设备,被配置为:
接收分层视频流,所述分层视频流在其中使用从第一层到第二层的层间预测将视频编码为第一层和第二层(L1,L2),以及
从所述分层视频流读取信息,所述信息指示将第二层的图片序列以交替方式在时间上细分为独立于第一层进行编码的图片子序列和依赖于第一层进行编码的图片子序列,以及
使用所述信息以使用自适应流传输协议流传输视频。
64.一种用于使用自适应流传输协议将媒体场景的频道输出到客户端的设备,所述设备支持针对每个频道在随机接入点的时间分布上不同的各个频道的一组表示之间切换。
65.根据权利要求63所述的设备,其中在间歇出现的时刻,所述频道的一组表示中的至少一个的随机接入点在时间上对齐。
66.根据权利要求63或64所述的设备,被配置为向客户端提供揭示所述频道的一组表示中的随机接入点的时间分布的信息。
67.根据权利要求65所述的设备,被配置为在清单内提供所述信息。
68.根据权利要求66所述的设备,被配置为使用所述频道的多组表示的预定时间片段中的提示来提供所述信息。
69.根据权利要求63至67中任一项所述的设备,被配置为通过以下方式来通知客户端可实现的比特率峰值降低:根据所述频道的一组表示中的随机接入点的时间分布,通过针对每个频道从相应频道的一组表示中选择针对相应频道当前要取回的表示以取回媒体场景,使得包括随机接入点的所选时间片段中的多个时间片段以最小可能方式在时间上变化。
70.一种用于使用自适应流传输协议取回媒体场景的频道的设备,所述设备被配置为:针对每个频道,在随机接入点的时间分布上不同的相应频道的一组表示之间切换。
71.根据权利要求70所述的设备,被配置为根据所述频道的一组表示中的随机接入点的时间分布,针对每个频道从相应频道的一组表示中选择针对相应频道当前要取回的表示。
72.根据权利要求70或71所述的设备,被配置为从取回媒体场景的服务器取回揭示所述频道的一组表示中的随机接入点的时间分布的信息。
73.根据权利要求72所述的设备,被配置为从服务器发送的清单取回所述信息。
74.根据权利要求72所述的设备,被配置为使用所述频道的多组表示的预定时间片段中的提示取回所述信息。
75.一种表示媒体场景的数据结构,所述数据结构被概念化用于使用自适应流传输协议将媒体场景的频道流传输到客户端,其中所述数据结构针对每个频道包括在随机接入点的时间分布上不同的相应频道的一组表示。
76.一种用于使用自适应流传输协议将媒体内容输出到客户端的设备,所述设备至少以以下形式向客户端提供媒体内容以供取回:
第一媒体流,其中以第一质量对媒体内容进行编码,
第二媒体流,其中以第二质量对媒体内容进行编码,以及
辅助媒体流,其中依赖于所述第一媒体流和所述第二媒体流对媒体内容进行编码。
77.根据权利要求76所述的设备,其中所述设备被配置为通知客户端在从取回第一媒体流切换到取回第二媒体流时安排衰落阶段的可能性,在所述衰落阶段内要播放所述辅助媒体流而不播放所述第二媒体流。
78.根据权利要求76或77所述的设备,其中所述设备被配置为通知客户端关于客户端应当在从取回第一媒体流切换到取回第二媒体流时安排的衰落阶段的长度,并且在所述衰落阶段内要播放所述辅助媒体流而不播放所述第二媒体流。
79.根据权利要求76至78中任一项所述的设备,其中所述第一媒体流、所述第二媒体流和所述辅助媒体流表示分层媒体流的单独的层,所述辅助媒体流的层由预测器的线性组合进行编码,所述预测器通过层间预测分别从第一媒体流和第二媒体流的层导出。
80.根据权利要求76至79中任一项所述的设备,其中所述第二媒体流具有依赖于第一媒体流进行编码的媒体内容。
81.根据权利要求76至79中任一项所述的设备,其中所述第二媒体流具有独立于第一媒体流进行编码的媒体内容。
82.根据权利要求76至81中任一项所述的设备,其中所述客户端能够在与第一媒体流和第二媒体流的时间片段分离的时间片段中从所述设备取回第三媒体流。
83.根据权利要求76至82中任一项所述的设备,其中所述设备被配置为另外以以下形式向所述客户端提供所述媒体内容以供取回:
切换媒体流,其中依赖于第一媒体流对媒体内容进行编码。
84.根据权利要求83所述的设备,其中所述设备被配置为通知客户端在从以第一媒体流的形式取回视频切换到以第二媒体流的形式取回视频之前安排过渡阶段(64)的必要性,所述过渡阶段在所述衰落阶段之前。
85.一种用于使用自适应流传输协议从服务器取回媒体内容的设备,所述设备至少支持在以下之间进行切换:
取回在其中以第一质量对媒体内容进行编码的第一媒体流,以及
取回在其中以第二质量对媒体内容进行编码的第二媒体流,
其中所述设备被配置为:在从取回第一媒体流切换到取回第二媒体流时安排衰落阶段,在所述衰落阶段内所述设备取回辅助媒体流以及第一媒体流和第二媒体流,并且播放所述辅助媒体流而不播放所述第二辅助流,其中在所述辅助媒体流中依赖于所述第一媒体流和所述第二媒体流对媒体内容进行编码。
86.根据权利要求85所述的设备,其中所述设备被配置为:根据来自服务器的信号,在从取回第一媒体流切换到取回第二媒体流时激活或停用安排所述衰落阶段。
87.根据权利要求85或86所述的设备,其中所述设备被配置为:从服务器接收关于衰落阶段的长度的信息,并相应地设置衰落阶段的长度。
88.根据权利要求85至87中任一项所述的设备,其中所述第一媒体流、所述第二媒体流和所述辅助媒体流表示分层媒体流的单独的层,所述辅助媒体流的层由预测器的线性组合进行编码,所述预测器通过层间预测分别从第一媒体流和第二媒体流的层导出,其中所述设备被配置为:在所述衰落阶段期间将所述第一媒体流、所述第二媒体流和所述辅助媒体流的层一起输入到媒体解码器,同时禁止在所述衰落阶段之外将所述辅助媒体流输入到所述媒体解码器。
89.根据权利要求85至88中任一项所述的设备,其中在所述第二媒体流具有依赖于所述第一媒体流进行编码的媒体内容,其中所述设备被配置为:在衰落阶段之外,
伴随着取回第二媒体流而取回第一媒体流,以及
在取回第一媒体流期间避免取回第二媒体流。
90.根据权利要求85至89中任一项所述的设备,其中在所述第二媒体流中具有独立于所述第一媒体流进行编码的媒体内容,其中所述设备被配置为:在衰落阶段之外,
在取回第二媒体流期间避免取回第一媒体流,以及
在取回第一媒体流期间避免取回第二媒体流。
91.根据权利要求85至90中任一项所述的设备,被配置为:在所述衰落阶段期间,除了在所述第一媒体流和第二媒体流的时间片段中、还在与所述第一媒体流和第二媒体流的时间片段分离的时间片段中取回所述第三媒体流。
92.根据权利要求85至91中任一项所述的设备,其中所述设备被配置为:在从取回第一媒体流切换到取回第二媒体流之前,在过渡阶段中,除了第一媒体流之外还从服务器取回切换媒体流,在所述切换媒体流中依赖于所述第一媒体流对媒体内容进行编码;以及针对所述第二媒体流的随机接入依赖图片,使用所述切换媒体流作为所述第二媒体流的参考图片的替代,其中所述第二视频流的随机接入依赖图片通过时间预测直接或间接参考所述第二视频流在呈现时间顺序方面的后续的随机接入点图片和在呈现时间顺序和解码顺序方面先于所述随机接入点图片的所述第二媒体流的所述参考图片。
93.根据权利要求92所述的设备,其中所述设备被配置为根据从服务器发送的信息来设置所述过渡阶段(64)的长度。
94.一种表示媒体内容的数据结构,所述数据结构被概念化用于使用自适应流传输协议将媒体内容流传输到客户端,所述数据结构包括:
第一媒体流,其中以第一质量对媒体内容进行编码,
第二媒体流,其中以第二质量对媒体内容进行编码,以及
辅助媒体流,其中依赖于第一表示和第二表示对媒体内容进行编码。
95.一种用于使用自适应流传输协议将媒体内容输出到客户端的设备,所述设备至少以以下形式向客户端提供媒体内容以供取回:
第一媒体流,其中以第一质量对媒体内容进行编码,
第二媒体流,其中以第二质量对媒体内容进行编码,
其中所述设备被配置为:向所述客户端提供在所述第一媒体流和第二媒体流之间切换时控制客户端处的衰落的元数据。
96.一种用于使用自适应流传输协议从服务器取回媒体内容的设备,所述设备至少支持在以下之间进行切换:
取回在其中以第一质量对媒体内容进行编码的第一媒体流,以及
取回在其中以第二质量对媒体内容进行编码的第二媒体流,
其中所述设备被配置为:从所述服务器接收元数据,并且在所述第一媒体流和第二媒体流之间切换时使用所述元数据控制衰落。
97.一种用于使用自适应流传输协议将视频(24)输出到客户端的方法,所述方法包括至少在以下之间进行切换:
以分层视频流(36)的形式输出视频(24);以及
以使用开放GOP结构进行编码的增加的空间分辨率视频流(38)的形式输出视频(24),其中以第二空间分辨率和第二质量将所述视频编码到所述增加的空间分辨率视频流中,
所述分层视频流(36)包括:
第一层(L1),其中以第一空间分辨率对视频进行编码,和
第二层(L2),其中以第二空间分辨率和低于第二质量的第一质量并且通过层间上采样使用从第一层到第二层的层间预测(44)而不使用预测残差编码对视频进行编码。
98.一种用于使用自适应流传输协议取回视频的方法,所述方法包括至少在以下之间进行切换:
以第一视频流(36)的形式取回视频;以及
以第二视频流(38)的形式取回视频,
其中所述设备被配置为:在从以第一视频流(36)的形式取回视频切换到以第二视频流(38)的形式取回视频之前安排过渡阶段(64)。
99.一种数字存储介质,存储有根据权利要求33至40、60和94中任一项所述的数据结构。
100.一种用于使用自适应流传输协议将视频输出到客户端的方法,所述方法包括:
至少以以下形式将视频提供给客户端以供取回:
第一视频流(36);和
第二视频流(38);以及
向客户端通知在从以第一视频流(36)的形式取回视频切换到以第二视频流(38)的形式取回视频之前安排过渡阶段(64)的必要性。
101.一种数字存储介质,存储有根据权利要求47所述的视频流。
102.一种视频编码方法,包括:
以如下方式将图片序列编码到视频流中:在图片序列中存在至少一个随机接入依赖图片,所述至少一个随机接入依赖图片通过时间预测直接或间接参考所述图片序列在呈现时间顺序方面的后续的随机接入点图片和在呈现时间顺序方面和解码顺序方面先于所述随机接入点图片的参考图片,以及
在数据流中插入语法元素,所述语法元素指示所述至少一个随机接入依赖图片参考图片和上述至少一个随机接入依赖图片参考图片直接或间接参考的参考图片之间的保证的最大时间距离。
103.一种用于使用自适应流传输协议将媒体内容输出到客户端的方法,所述方法包括:
以时间片段为单位至少在以下之间进行切换:
第一表示,
第二表示,其中具有依赖于所述第一表示进行编码的视频,
向客户端提供区分以下二者的信息:
第二表示的第一组时间片段,其中依赖于与第一组时间片段时间上相对应的第一表示的第一部分对媒体内容进行编码,以及
第二表示的第二组时间片段,其中独立于与第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,使得在没有所述第一表示的第二部分的情况下从第二表示成功重建媒体内容。
104.一种用于使用自适应流传输协议取回媒体内容的方法,所述方法包括:
支持以时间片段为单位至少在以下之间进行切换:
取回第一表示,
取回第二表示,其中具有依赖于所述第一表示进行编码的媒体内容,
当取回第二表示时,
取回所述第二表示的第一组时间片段和所述第一表示的第一部分,其中在所述第二表示的第一组时间片段中依赖于与所述第二表示的第一组时间片段时间上相对应的第一表示的第一部分对媒体内容进行编码,以及
取回所述第二表示的第二组时间片段,在所述第二表示的第二组时间片段中独立于与所述第二组时间片段时间上相对应的第一表示的第二部分对媒体内容进行编码,而不取回所述第一表示的第二部分。
105.一种数字存储介质,存储有根据权利要求59所述的清单。
106.一种数字存储介质,存储有根据权利要求61所述的分层视频流。
107.一种视频编码方法,包括:
使用从第一层到第二层的层间预测将视频编码为分层视频流,以使所述分层视频流具有第一层和第二层(L1,L2),使得所述第二层的图片序列包括独立于第一层进行编码的第一图片子序列,所述第一图片子序列之间是所述第二层的图片序列的第二图片子序列,以及
向所述分层视频流提供指示以下内容的信息:将所述第二层的图片序列在时间上细分为所述第二图片子序列和独立于所述第一层进行编码的所述第一图片子序列。
108.一种网络设备,被配置为:
接收分层视频流,在所述分层视频流中使用从第一层到第二层的层间预测将视频编码为第一层和第二层(L1,L2),以及
从所述分层视频流读取信息,所述信息指示将第二层的图片序列以交替方式在时间上细分为独立于第一层进行编码的图片子序列和依赖于第一层进行编码的图片子序列,以及
使用所述信息以使用自适应流传输协议流传输视频。
109.一种用于使用自适应流传输协议将媒体场景的频道输出到客户端的方法,所述方法包括:针对每个频道,在随机接入点的时间分布上不同的相应频道的一组表示之间切换。
110.一种用于使用自适应流传输协议取回媒体场景的频道的方法,所述方法包括:针对每个频道,在随机接入点的时间分布上不同的相应频道的一组表示之间切换。
111.一种用于使用自适应流传输协议将媒体内容输出到客户端的方法,所述方法包括至少以以下形式向客户端提供媒体内容以供取回:
第一媒体流,其中以第一质量对媒体内容进行编码,
第二媒体流,其中以第二质量对媒体内容进行编码,以及
辅助媒体流,其中依赖于所述第一媒体流和所述第二媒体流对媒体内容进行编码。
112.一种用于使用自适应流传输协议从服务器取回媒体内容的方法,所述方法包括:
至少在以下之间进行切换:
取回在其中以第一质量对媒体内容进行编码的第一媒体流,以及
取回在其中以第二质量对媒体内容进行编码的第二媒体流,
在从取回第一媒体流切换到取回第二媒体流时安排衰落阶段,在所述衰落阶段内设备取回辅助媒体流以及第一媒体流和第二媒体流,并且播放所述辅助媒体流而不播放所述第二辅助流,其中在所述辅助媒体流中依赖于所述第一媒体流和所述第二媒体流对媒体内容进行编码。
113.一种用于使用自适应流传输协议将媒体内容输出到客户端的方法,所述方法包括:
至少以以下形式向客户端提供媒体内容以供取回:
第一媒体流,其中以第一质量对媒体内容进行编码,
第二媒体流,其中以第二质量对媒体内容进行编码,
向所述客户端提供在第一媒体流和第二媒体流之间切换时控制客户端处的衰落的元数据。
114.一种用于使用自适应流传输协议从服务器取回媒体内容的方法,所述方法包括:
至少在以下之间进行切换:
取回在其中以第一质量对媒体内容进行编码的第一媒体流,以及
取回在其中以第二质量对媒体内容进行编码的第二媒体流,
从所述服务器接收元数据,并且在第一媒体流和第二媒体流之间切换时使用所述元数据控制衰落。
115.一种具有程序代码的计算机程序,所述程序代码用于当在计算机上运行时执行根据权利要求97至114中任意一项所述的方法。
CN201780023999.3A 2016-02-16 2017-02-14 使用自适应流传输协议取回视频的设备及其方法 Active CN109076252B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16156015 2016-02-16
EP16156015.6 2016-02-16
PCT/EP2017/053310 WO2017140685A1 (en) 2016-02-16 2017-02-14 Efficient adaptive streaming

Publications (2)

Publication Number Publication Date
CN109076252A true CN109076252A (zh) 2018-12-21
CN109076252B CN109076252B (zh) 2022-07-01

Family

ID=55361405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780023999.3A Active CN109076252B (zh) 2016-02-16 2017-02-14 使用自适应流传输协议取回视频的设备及其方法

Country Status (8)

Country Link
US (1) US10986383B2 (zh)
EP (1) EP3417625A1 (zh)
JP (2) JP7026627B2 (zh)
KR (1) KR102287703B1 (zh)
CN (1) CN109076252B (zh)
CA (1) CA3014370A1 (zh)
TW (1) TWI670974B (zh)
WO (1) WO2017140685A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113287323A (zh) * 2019-01-08 2021-08-20 高通股份有限公司 用于流媒体数据的多解码器接口

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264508B2 (en) 2011-08-19 2016-02-16 Time Warner Cable Enterprises Llc Apparatus and methods for reduced switching delays in a content distribution network
KR102177990B1 (ko) * 2014-05-02 2020-11-12 엘지전자 주식회사 압축기 및 스크롤 압축기
US10652594B2 (en) 2016-07-07 2020-05-12 Time Warner Cable Enterprises Llc Apparatus and methods for presentation of key frames in encrypted content
US10958948B2 (en) * 2017-08-29 2021-03-23 Charter Communications Operating, Llc Apparatus and methods for latency reduction in digital content switching operations
SE542242C2 (en) * 2017-09-04 2020-03-24 Divideon Ab Compression of segmented video
US10863250B2 (en) 2017-09-15 2020-12-08 Imagine Communications Corp. Systems and methods for production of fragmented video content
KR20200119877A (ko) * 2018-02-20 2020-10-20 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 가변 해상도를 지원하고 그리고/또는 영역별 패킹을 효율적으로 처리하는 화상/비디오 코딩
US10939142B2 (en) 2018-02-27 2021-03-02 Charter Communications Operating, Llc Apparatus and methods for content storage, distribution and security within a content distribution network
US10963697B2 (en) * 2018-06-05 2021-03-30 Philip Martin Meier Systems and methods for generating composite media using distributed networks
CN109218763A (zh) * 2018-11-12 2019-01-15 青岛海信传媒网络技术有限公司 一种流媒体视频切换的方法及智能电视
GB201905400D0 (en) * 2019-04-16 2019-05-29 V Nova Int Ltd Video coding technology
CN111836076B (zh) * 2019-04-18 2023-01-20 腾讯科技(深圳)有限公司 视频分辨率切换方法及装置、电子设备
US11307655B2 (en) * 2019-09-19 2022-04-19 Ati Technologies Ulc Multi-stream foveal display transport
CN111031385B (zh) * 2019-12-20 2022-03-08 北京爱奇艺科技有限公司 视频播放的方法及装置
CN114946192A (zh) 2020-01-15 2022-08-26 杜比国际公司 利用比特率切换自适应流式传输媒体内容
US11196795B2 (en) * 2020-03-25 2021-12-07 Arris Enterprises Llc Method and apparatus for predicting video decoding time
KR20220032938A (ko) * 2020-09-08 2022-03-15 삼성전자주식회사 전자 장치 및 그 동작 방법
WO2022136313A2 (en) * 2020-12-21 2022-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. File parser, file generator, encoder, decoder, client, server, and methods using parameter sets for coded video sequences
CN113438512A (zh) * 2021-05-28 2021-09-24 福州市拾联信息科技有限公司 一种视频数据快速切换画质及低码流控制系统及其控制方法
CN114466227B (zh) * 2021-12-22 2023-08-04 天翼云科技有限公司 一种视频分析方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050117641A1 (en) * 2003-12-01 2005-06-02 Jizheng Xu Enhancement layer switching for scalable video coding
US20080022331A1 (en) * 2006-06-30 2008-01-24 Microsoft Corporation Multi-DVR Media Stream Transition
US20130016791A1 (en) * 2011-07-14 2013-01-17 Nxp B.V. Media streaming with adaptation
US20130282917A1 (en) * 2012-04-24 2013-10-24 Vid Scale, Inc. Method and apparatus for smooth stream switching in mpeg/3gpp-dash
US20130298170A1 (en) * 2009-06-12 2013-11-07 Cygnus Broadband, Inc. Video streaming quality of experience recovery using a video quality metric
WO2015004323A1 (en) * 2013-07-11 2015-01-15 Nokia Corporation An apparatus, a method and a computer program for video coding and decoding
CN105144727A (zh) * 2013-03-13 2015-12-09 苹果公司 用于快速切换的编解码技术

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101742324A (zh) 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
KR20120138712A (ko) * 2011-06-15 2012-12-26 광운대학교 산학협력단 스케일러블 비디오 코딩 및 디코딩 방법과 이를 이용한 장치
US9253233B2 (en) * 2011-08-31 2016-02-02 Qualcomm Incorporated Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
US9161039B2 (en) * 2012-09-24 2015-10-13 Qualcomm Incorporated Bitstream properties in video coding
US10616573B2 (en) * 2013-01-07 2020-04-07 Nokia Technologies Oy Method and apparatus for video coding and decoding
JP6149562B2 (ja) * 2013-07-12 2017-06-21 富士通株式会社 ストリーム配信システム、ストリーム作成装置、ストリーム配信方法およびストリーム作成方法
JP6094688B2 (ja) 2013-12-27 2017-03-15 ソニー株式会社 画像処理装置及び画像処理方法
CN107431819B (zh) 2014-12-31 2022-02-01 诺基亚技术有限公司 用于视频解码的方法、装置、计算机可读存储介质及视频解码器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050117641A1 (en) * 2003-12-01 2005-06-02 Jizheng Xu Enhancement layer switching for scalable video coding
US20080022331A1 (en) * 2006-06-30 2008-01-24 Microsoft Corporation Multi-DVR Media Stream Transition
US20130298170A1 (en) * 2009-06-12 2013-11-07 Cygnus Broadband, Inc. Video streaming quality of experience recovery using a video quality metric
US20130016791A1 (en) * 2011-07-14 2013-01-17 Nxp B.V. Media streaming with adaptation
US20130282917A1 (en) * 2012-04-24 2013-10-24 Vid Scale, Inc. Method and apparatus for smooth stream switching in mpeg/3gpp-dash
CN104509119A (zh) * 2012-04-24 2015-04-08 Vid拓展公司 用于mpeg/3gpp-dash中平滑流切换的方法和装置
CN105144727A (zh) * 2013-03-13 2015-12-09 苹果公司 用于快速切换的编解码技术
WO2015004323A1 (en) * 2013-07-11 2015-01-15 Nokia Corporation An apparatus, a method and a computer program for video coding and decoding

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
3GPP DRAFT;S4-141120 ATTACHMENT: "OUTLINE", 《URL:HTTP://WWW.3GPP.ORG/FTP/TSG_SA/WG4_CODEC/TSGS4_81/DOCS/》 *
GARY J.SULLIVAN ET AL: "Overview of the high efficiency video coding(HEVC)standard", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
JASON J.QUINLAN: "ALD:adaptive layer distribution for scale video", 《MULTIMEDIA SYSTEMS》 *
NOKIA CORPORATION: "FS_VE_3MS:Addtional results for SHVC in 3GP-DASH", 《URL:HTTP://WWW.3GPP.ORG/FTP/TSG_SA/WG4_CODEC/TSGS4_85/DOCS/》 *
XUEHUI HUANG ET AL: "Improved downstream rate-distortion performance of SHVC in DASH using sub-layer-selective interlayer prediction", 《2015 IEEE 17TH INTERNATIONAL WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING(MMSP)》 *
YAN YE ET AL: "Seamless switching of H.265/HEVC-coded dash representations with open GOP prediction structure", 《2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING(ICIP)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113287323A (zh) * 2019-01-08 2021-08-20 高通股份有限公司 用于流媒体数据的多解码器接口
CN113287323B (zh) * 2019-01-08 2023-08-18 高通股份有限公司 用于检索媒体数据的方法、客户端设备及计算机可读介质

Also Published As

Publication number Publication date
KR102287703B1 (ko) 2021-08-10
KR20180113593A (ko) 2018-10-16
WO2017140685A1 (en) 2017-08-24
US20190014363A1 (en) 2019-01-10
US10986383B2 (en) 2021-04-20
JP7026627B2 (ja) 2022-02-28
JP2019509672A (ja) 2019-04-04
CA3014370A1 (en) 2017-08-24
CN109076252B (zh) 2022-07-01
JP2021145343A (ja) 2021-09-24
TWI670974B (zh) 2019-09-01
EP3417625A1 (en) 2018-12-26
JP7483657B2 (ja) 2024-05-15
TW201731295A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN109076252A (zh) 高效自适应流传输
US9253233B2 (en) Switch signaling methods providing improved switching between representations for adaptive HTTP streaming
TWI672040B (zh) 視訊串流伺服器、用戶端、用於視訊串流處理之方法以及數位、電腦可讀儲存媒體
CN104221390B (zh) 用于处置低等待时间流送的增强型块请求流送系统
CN105052160B (zh) 用于向客户端设备流传输媒体内容的方法和装置
CN106209892B (zh) 使用可伸缩编码的增强型块请求流送
US9042449B2 (en) Systems and methods for dynamic transcoding of indexed media file formats
CN107750461A (zh) 从能够动态地设置操作点描述符的封装位流中获得媒体数据和元数据的方法、装置和计算机程序
US20080052414A1 (en) Network adaptation of digital content
US20120030723A1 (en) Method and apparatus for streaming video
CN106576182A (zh) 视频质量提升
CN109155875A (zh) 用于对定时媒体数据进行封装和解析的方法、装置和计算机程序
CN102577307A (zh) 使用url模板和构造规则的增强型块请求流送
CN102549999A (zh) 使用协作式并行http和前向纠错的增强型块请求流送
JP2021064943A (ja) セグメント流動性のためのトランスコーダ調整
US20190373308A1 (en) Media streaming concept allowing efficient support of fast tune-in and any-time switching
US20230336798A1 (en) File parser, file generator, encoder, decoder, client, server, and methods using parameter sets for coded video sequences
CN105657448A (zh) 一种编码视频流的转发方法、装置及系统
Stockhammer MPEG's Dynamic Adaptive Streaming over HTTP (DASH)–Enabling Formats for Video Streaming over the Open Internet
CN106105241B (zh) 发送和接收用于提供hevc流特技播放服务的广播信号的方法和设备
Suchomski Format independence provision of audio and video data in multimedia database management systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant