CN108028948A

CN108028948A - 用于多媒体应用的比特流随机访问与同步的方法及装置

Info

Publication number: CN108028948A
Application number: CN201680046430.4A
Authority: CN
Inventors: 陈鲁林; 刘杉
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2015-08-07
Filing date: 2016-08-05
Publication date: 2018-05-11
Anticipated expiration: 2036-08-05
Also published as: CN108028948B; EP3332553A1; WO2017024990A1; EP3332553A4; US10924820B2; US20180213300A1

Abstract

本发明公开了一种用于切换表示的方法和设备。在服务器侧，将与开放式图像组中的前导图像相关的前导图像信息发信在媒体展现描述中。每个前导图像以输出顺序对应于位于段中的随机访问图像之前的一个图像，且该图像的编码基于随机访问图像。在客户端侧，接收原始表示和目标表示，并自所接收的媒体展现描述确定用于目标表示的前导图像信息。呈现已切换呈现，其中在流访问点处通过从原始表示中的图像切换呈现到目标表示中的图像，给出一个从原始表示切换到目标表示的呈现，该访问点对应于根据前导图像信息为确定的目标表示的一个段中的随机访问图像。

Description

用于多媒体应用的比特流随机访问与同步的方法及装置

优先权声明

本申请要求在2015年08月07日提出申请号为62/202,588的美国临时专利申请、在2015年08月14日提出申请号为62/205,153的美国临时专利申请以及2016年05月13日提出申请号为62/335,871的美国临时专利申请的优先权。上述美国临时专利申请整体以引用方式并入本文中。

技术领域

本发明涉及互联网上的媒体流(media streaming)。具体地，本发明涉及一种使用开放式图像组(Group of Pictures，GOP)结构渲染包含多个段的两个流之间的无缝切换的方法及设备。

背景技术

超文本传输协议(HyperText Transfer Protocol，HTTP)为一标准集，其允许万维网(World Wide Web)的用户交换网页(web page)上找到的信息。目前已经解决了互联网访问的标准。来自于各开发者的浏览器均支持HTTP作为通信协议，以将客户端连接到互联网上的Web服务器。通过HTTP，用户与服务器之间的连接可以被建立，使得超文本标记语言(HyperText Markup Language，HTML)页面可以被发送至用户的浏览器。这个协议也可以用于从服务器下载文件到浏览器或者使用HTTP的任何其他请求应用。

近年来，互联网上的视频流已成为一个重要应用。目前，视频流有助于互联网流量最大化。各种多媒体流协议已被广泛地使用，且这些协议中的一些基于HTTP。HTTP上的动态适应流(Dynamic Adaptive Streaming over HTTP，DASH)，也称为MPEG-DASH，是一种适应比特率流技术，其使得基于传统的HTTP Web服务器在互联网上进行媒体内容传输。

在DASH标准中，媒体流切换(即表示切换(Representation switching))和搜索被支持。基本上，DASH客户端需要访问特定切换时间或者搜索位置处的表示中的流访问点(Stream Access Point，SAP)。表示(Representation)对应于以传输格式且与描述性元数据相关的一个或多个媒体流的集合和封装。这些操作的条件可以涉及属性设置，例如@segmentAlignment,@startWithSAP,@mediaStreamStructureId等。通常，如2014年05月的ISO/IEC 23009-1,“Dynamic adaptive streaming over HTTP(DASH)–Part 1:Mediapresentation description and segment formats”中所述，这些操作依赖于具有第1类型、第2类型或者第3类型的流访问点。现在的流服务通常使用第1类型或者第2类型的流访问点(即封闭式图像组结构)并期待试用第3类型的流访问点(即,开放式图像组结构)，以用于平衡服务与带宽效率。

DASH核心实验-流访问点-独立段发信(SAP-Independent Segment Signaling，SISSI)，如m36597所报告的(T.Stockhammer,ISO/IEC JTC1/SC29/WG11,“CE-SISSIReport”,m36597,Warsaw,Poland,June 2015)，考虑了使大部分特性描述(profile)能有所松动，其中每个段从第1类型或者第2类型的流访问点开始。除了发信之外，核心实验中的基本且基础特征之一是有效且准确地支持表示之间的切换。在m36167(M.M.Hannuksela,ISO/IEC JTC1/SC29/WG11,“CE-SISSI:Supplemental property descriptor for seamlessswitching with open GOPs”,m36167,Warsaw,Poland,June 2015)中，提出了一种基于附加属性描述符(Supplemental Property Descriptor)以用于使用开放式图像组的无缝切换的方法。如DASH中所公开，描述符元素被以相同的方式构造，以包括提供URI来识别方案的@schemeIdUri属性，以及可选属性@value和可选属性@id。元素的语义特定于所使用的方案。识别方案的统一资源标识符(Uniform Resource Identifier，URI)可以是统一资源名称(Uniform Resource Names，URN)或者统一资源定位符(Uniform Resource Locator，URL)。对于元素SupplementalProperty，媒体呈现授权者表示，这个描述符包含了附加信息，其可以由DASH客户端使用以用于优化处理。

对于具有开放式图像组的表示中的媒体段/电影片段，一些访问单元可能需要使用来自于之前媒体段/电影片段的参考信息，其可以在切换发生时不可用。另外，如果特定切换跨过具有不同空间分辨率的表示，则参考图像的重新采样被推荐，以提高随机访问点的前导图像(leading picture)的图像质量。这样的重新采样处理支持被留给应用或者相应解码处理来决策。对于基于自适应图像组结构(例如，不同图像组结构或者不同图像组尺寸)的媒体段，其通常提高编码效率，但是切换变得复杂，甚至不可能。前导图像被定义成在输出顺序中位于相关的帧内随机访问点(Intra Random Access Point，IRAP)图像之前的图像。每个图像组中的帧内图像为帧内随机访问点图像。前导图像基于帧内随机访问点图像而被编码。此外，对于开放式图像组，前导图像也可以基于之前图像而被编码。

在DASH中，@startWithSAP为自适应集(Adaptation Set)、表示(Representation)、子表示(Sub-Representation)中的通用属性之一，其指定了相关表示中的每个媒体段从流访问点开始，其不大于在存在且大于1的情况中的属性值。如DASH中所指定，自适应集对应于一个或几个媒体内容分量的可互换编码版本集。SAP表示流访问点，其对应于表示中所选择的位置以仅适用包含在表示数据中的信息来开始回放媒体流。回放将使用表示中从所选择的位置开始的信息，若存在的话，其可以包括位于初始化若存在的初始化段中的数据之前的信息。根据可扩展标记语言(EXtensible Markup Language，XML)约定，属性由小写首字母识别，并且前面是‘@’符号。这个约定在本发明中被使用。

在DASH中，在切换表示中，@segmentAligment,@sub-segment Alignment和@startWithSAP被联合使用。DAHS-部分1和3GP-DASH中的DASH说明的附录A.6中提供这些属性的使用示例。

在DASH中，@mediaStreamStructureId是表示中的属性之一，其表示媒体流结构的标识符值的列表。根据DASH说明中的属性的描述，如@mediaStreamStructureId的描述中所指定，共享相同的媒体流结构标识符具有有关于流访问点的特定指示。这个属性用于提供比特流结构标识符值列表，其用于不同流之间的切换的目的。用这个比特流结构标识符值列表，两个比特流是否具有相同比特流结构可以被确定。比特流切换可以发生在某个随机访问点(Random Access Point，RAP)处。多个媒体流结构标识符值(multiple bitstreamstructure identifier values)的使用实例已在下面描述的@mediaStreamStructureId描述中进行说明。具体地，在使用多个比特流结构标识符值的某个比特流切换使用实例中，如果表示B共享存在于表示A和表示C中的比特流结构标识符值，则表示A和表示B之间的比特流切换和表示B与表示C之间的切换被允许。但是，如果表示A和表示C不共享相同的比特流结构ID，则不同的表示A与表示C之间的切换不被允许。换言之，使用多个媒体流结构标识符值，跨过表示B的表示A与表示C之间的比特流切换可以被实现。

在W15526(Stockhammer,et al,“Technologies under Consideration forDynamic Adaptive Streaming over HTTP 23009,parts 1,3and 4”,W15526,,ISO/IEC,Warsaw,Poland,June 2015)中，公开了段独立的流访问点发信的机制，以支持具有低延时服务与无缝切换的高级使用实例。

另一方面，HEVC标准指定了诸如瞬时解码刷新(Instantaneous DecodingRefresh，IDR)图像、帧内随机访问点图像、纯随机访问(Clean Random Access，CRA)图像、断链访问(Broken Link Access，BLA)图像、随机访问跳过前导(Random Access SkippedLeading，RASL)图像和随机访问可解码前导(Random Access Decodable Leading，RADL)图像的几种图像类型及相应的解码流程，以保证这些图像类型可以由应用中HEVC媒体格式解码器准确地解码或者处理。仍然需要了解的更多的是，各种应用如何利用这些图像类型的特征以用于同步，例如信道改变和比特流切换。

通常，所有I图像可以用作随机访问点。但是，在编码流程中，编码器可能不了解底层媒体数据将被使用的实际应用。因此，编码随机访问点I图像作为瞬时解码刷新图像或者断链访问图像的决策不能考虑所有可能性。因此，实际上，在封闭式图像组或者开放式图像组中，大部分I图像被编码成常规I图像(即非瞬时解码刷新图像和非断链访问图像)。开放式图像组结构允许位于图像组开端处的前导图像的编码，以依赖于图像组中的帧内图像和之前图像组中的这个图像。因此，开放式图像组经常导致更有效的编码，并且实际上大部分系统使用开放式图像组结构。图像组编码结构暴露给诸如MPEG文件格式(MPEGFileFormat，MPEG FF)和MPEG DASH MPD的上层，使得其用于应用来执行所有可能的随机访问。根据DASH，媒体展现描述(Media Presentation Description，MPD)为媒体表示的形式化描述，以用于提供流服务的目的。

当开放式图像组中的I图像被发信为应用中可能的同步或者切换点时，由于随机访问跳过前导图像可以包含对不存在于比特流中的图像的参考，如HEVC标准中所述的相关随机访问跳过前导图像(即RASL图像)可能不是正确解码的，因此，涉及开放式图像组结构的切换表示需要被仔细处理以保证正确的解码和呈现。

发明内容

本发明公开了一种用于切换表示的方法及设备。在服务器侧，将视频比特流分割成多个段，其中每个段属于包括开放式类型的段类型组。用0个或者多个前导图像(0个意味着封闭式图像组)，具有开放式图像组类型的每个段中的图像被编码。每个前导图像以输出顺序对应于位于段的随机访问图像之前的一个图像，且该图像的编码基于段的随机访问图像和先前段中可能的图像。将前导图像信息发信在表示、自适应集、媒体展现描述或者包括有关于视频流内容的信息的相似描述文件中，其中前导图像信息与具有开放式图像组类型的每个段中的0个或者多个前导图像的数量相关。随机访问图像可以对应于帧内图像。可选地，随机访问图像可以对应于依存随机访问图像，其中每个依存随机访问图像对应于P图像或者B图像。

在媒体展现描述中，使用表示或者自适应集中的属性，前导图像信息可以被发信。使用表示或者自适应集中的附加属性描述符，前导图像信息可以被发信。附加属性描述符还可以包括第一指示和第二指示，并且其中第一指示向解码器指示是否继续解码并呈现原始表示中的图像，第二指示向解码器指示是否一直呈现来自于位于流访问点处待切换的两个流的两个图像中质量排名或者分辨率更高的图像。

对于客户端设备，本方法接收与所接收的当前媒体流相关的原始表示和与目标媒体流相关的目标表示。原始表示包括具有第一图像组结构的多个第一段，目标表示包括具有第二图像组结构的多个第二段。由自适应集或者表示中的属性或者附加属性描述符确定与目标媒体流的每个第二段中的0个或多个前导图像相关的前导图像信息。呈现已切换呈现，其在流访问点处通过从原始表示中图像到目标表示中图像的切换呈现，给出一个从原始表示切换到目标表示的呈现。

附加属性描述符还包括第一指示，以向解码器指示有关于是否继续解码并呈现原始表示中的N个图像。当N大于0，且第一指示的值为1时，原始表示中的N个前导图像被解码并呈现，随后与目标表示的流访问点相关的第一I图像(即帧内图像)被解码，并且具有比与目标表示的流访问点相关的帧内图像的呈现时间更小的呈现时间的N个前导图像在解码流程中被丢弃，或者被设置成不被呈现。附加属性描述符还可以包括第二指示，用于向解码器指示有关于是否一直呈现位于流访问点处的两个图像中质量排名或者分辨率更高的图像。当第二指示的值为1时，与目标表示的流访问点相关的帧内图像和位于与目标表示的流访问点相同的时间处的原始表示中的锚图像中且具有较高质量排名的一个被呈现。当第二指示的值为0时，与目标表示的流访问点相关的帧内图像或者位于与目标表示的流访问点相同的时间处的原始表示中的锚图像被呈现。当N为0时，则第一指示被忽略。

在另一实施例中，随机访问点图像对应于依存随机访问点图像，其中每个依存随机访问点图像对应于P图像或者B图像。若N大于0，且与目标表示的流访问点相关的随机访问点图像作为同步样本被指示，则第一变量被设置以指示将一个纯随机访问图像处理为一个断链访问图像，随后第一变量用于设置第二变量以指示用于生成多个不可用参考图像的解码流程被调用，解码流程对应于将一个纯随机访问图像处理为一个断链访问图像。

附图说明

图1A是具有两个前导图像的开放式图像组结构的示例。

图1B是具有包括一个参考B图像的三个前导图像的开放式图像组结构的示例。

图2是用于可能切换的两个表示的示例，其中表示2(底行)的段尺寸为表示1(上行)的段尺寸的两倍。在这两个表示中，段从瞬时解码刷新图像开始或者作为开放式图像组。

图3是根据本发明实施例的具有相同图像组结构的锚P图像的时间T_n处的示例性切换。

图4是根据本发明实施例的具有相同图像组结构的锚I图像的时间T_m处的示例性切换。

图5是根据本发明实施例的具有不同图像组结构的B图像的时间T_n处的一示例性切换。

图6是根据本发明实施例的具有不同图像组结构的B图像的时间T_n处的另一示例性切换。

图7是根据本发明实施例的具有不同图像组结构的锚B_r图像的时间T_n处的示例性切换。

图8是根据本发明实施例的具有延伸到非I图像的随机访问点的示例性切换。

图9是根据本发明实施例的服务器侧中的切换表示的示例性流程图。

图10是根据本发明实施例的客户端侧中的切换表示的示例性流程图。

具体实施方式

以下描述为实施本发明的较佳方式。本描述的目的在于阐释本发明的一般原理，并非起限定意义。本发明的保护范围当视权利要求书所界定为准。

图1A和图1B显示了图像组结构的两个示例，以用于表示顺序中图像/访问点序列，其中帧内图像为第3类型的流访问点而不是瞬时解码刷新图像。瞬时解码刷新图像为具有解码器刷新点的帧内编码帧(Intra frame)。换言之，其为具有更有效的编码优点的基于开放式图像组结构的媒体段，以形成更低编码速率。箭头线表示编码参考依存(referencedependency)。在本发明中，I图像、P图像和B_r图像被称为锚图像(anchor picture)，这意味着其可以用作参考图像。在图1A中，仅传统的B图像被使用，其不由其他图像参考。在呈现顺序(presentation order)中位于I图像之前的这两个B图像(即111和112)依存于I图像。另一方面，由于在这个图像组中其不依存于I图像，位于I图像之前的P图像(即113)不是前导图像。因此，这两个B图像被称为前导图像。在图1B中，参考B(即B_r)图像也被使用，其由其他图像参考。位于I图像之前的B_r图像与这两个B图像(即114和115)也是前导图像。B图像(即114)依存于B_r图像(即116)，B_r图像(即116)依存于I图像。因此，B图像(即114)也依存于I图像，并被考虑成前导图像。

用开放式图像组结构，由于P图像不存在于解码器中的随机访问流程，或者P图像可以属于不同表示中的先前段的比特流/表示切换，如果第一P图像在解码时间处不可用，则前面几个B图像可能是不被可解码的。称为前导图像的这些B图像的解码和处理，在典型的应用中通常是尽最大努力的解码流程。其可能经常会引起显示错误或者冻结，并甚至会停止解码流程。在一些实践中，这些前导图像被识别，并因此被丢弃而在切换时显示黑色。

为了克服上述的前导图像解码问题，本发明公开了一种具有用于自适应集或者表示的附加属性描述符的时间处理方案，其包括DASH标准(即ISO/IEC 23009-1)中所指定的视频媒体分量。本方案提供包括访问点的时间关系的视频媒体分量信息。在切换或者随机访问被执行时，其可以在解码流程和呈现流程中被使用，以用于无缝切换或者访问质量。

上述参数的名称仅用于示意目的，并将不用于限定本发明的范围。

图2示出了用于可能切换的两个表示(即210和220)的示例，其中每个表示包括等大小的段。表示2(即220)的段尺寸为表示1(即210)的段尺寸的两倍。相对于表示2，表示1可以用更高比特率而被编码，并因此具有更高质量排名。这两个表示也可以具有不同的图像分辨率。本发明所描述的方案是针对如图2所示的这两个表示之间在时间T_n或者时间T_m处的可能切换，其中T_n对应于用于表示1中的段的可能切换点，T_m对应于表示1和表示2中的段的可能切换点。切换点也被称为流访问点(stream access point,SAP)。虽然这两个示例性表示被描述成对齐，但是本发明并不限于对齐表示的切换。

根据DASH标准(即ISO/IEC 23009-1)，附加属性描述符(即SupplementalProperty)被定义。对于元素SupplementalProperty，媒体呈现授权者表示描述符包括附加信息，其可以由DASH客户端使用以用于优化处理。在本方案中，用于这个时间处理描述的SupplementalProperty元素的@schemeIdUri的值等于urn:mpeg:dash:temporalprocessing:2015。使用本时间处理方案的SupplementalProperty元素的属性@value是对应于(numDiscardablePics contOrigPicPresentation tgtIPicPresentation)这三个值的空间间隔列表。下面描述SupplementalProperty元素的这三个值的语义。

属性值numDiscardablePics是0到N的整数值，其表示具有比流访问点的I图像的呈现时间更小的呈现时间的图像数量，即目标切换表示的前导图像。当流客户端接收附加属性描述符中的属性值numDiscardablePics时，其具有一选项来以本发明所指定的方案值的形式处理这些前导图像，即前导图像可以被丢弃或者被设置成不被呈现。因此，I图像将变成目标切换表示中的段的第一图像。

属性值contOrigPicPresentation是为0值或1值的标志。默认被设置成1。当numDiscardablePics>0时，contOrigPicPresentation等于1，意味着解码器继续解码并呈现其原始表示中的N(即numDiscardablePics)个图像，接着是解码目标切换表示上的流访问点的I及以后的图像。具有比目标切换表示中I图像的呈现时间更小的呈现时间的numDiscardablePics个图像(即前导图像)将被丢弃或者设置成在解码流程中不存在，以满足整个呈现时间线。换句话说，根据本发明，为了在切换后保持呈现时间对齐，目标切换表示中的I图像解码时间被延迟了numDiscardablePics个图像的时间，并且其呈现时间变成段的最早呈现时间。当numDiscardablePics等于0时，contOrigPicPresentation被忽略，且contOrigPicPresentation等于0不被定义。

属性值tgtIPicPresentation是为0值或1值的标志。默认被设置成1。切换可能发生在原始切换表示中的锚图像处，例如I图像、P图像或者B_r图像。原始切换表示可以具有与目标表示切换中的I图像的呈现时间相同的呈现时间。在这种情况中，当contOrigPicPresentation被设置成1，且若tgtIPicPresentation等于1时，解码器将呈现位于诸如T_n或T_m的切换点处的两个图像中具有更高质量排名或者更高图像分辨率的图像。如果tgtIPicPresentation等于0，则解码器具有这个选项以呈现锚图像中的任一个。当numDiscardablePics或者contOrigPicPresentation被设置成0时，tgtIPicPresentation被忽略。图3和图4显示了根据本方法的两个示例。在图3中，从表示2(即320)到表示1(即310)的切换发生在表示1(即310)的第一I图像的T_n处，这个第一I图像对应于表示2(即320)的锚P图像。在图4中，从表示2(即420)到表示1(即410)的切换发生在表示1(即410)和表示2(即420)的第一I图像的T_m处。

假设这两个表示(即原始切换表示和目标切换表示)具有相同的图像组结构但不同的图像组尺寸(例如，呈现顺序中的图1A或图1B)，则numDiscardablePics等于2以用于图1A，numDiscardablePics等于3以用于图1B。对于contOrigPicPresentation等于1，且tgtIPicPresentation等于1，图3示出了当从表示2到表示1的切换在T_n处时的按照时间的呈现路径(相同的图像组结构但不同的图像组尺寸)的示例。两个前导图像被丢弃或者不存在，且切换点处的表示2的P图像被解码但不被呈现。图4示出了当切换在T_m处时的按照时间的呈现路径的示例。同理，两个前导图像被丢弃或者不存在，且切换点处的表示2的I图像被解码但不被呈现。

如图3和图4所示，对于目标切换表示而言，切换点总是在I图像处。其意味着本方案仅描述目标切换表示中段的流访问点结构和前导图像与覆盖原始切换表示中按照时间的前导图像的这些图像的处理。

如图5所示，切换可能不会发生在原始切换表示的锚图像处，其中，切换发生在B图像处。图5显示了从原始表示(即520)到目标切换表示(即510)的切换示例，该目标切换表示(即，510)的前导图像中的有参考B图像(即512)(即这两个表示具有不同的图像组结构)。在这种情况中，numDiscardablePics等于3。原始表示(即520)中位于T_n之后的P图像(即522)不需要被解码。位于T_n之前的P图像(即524)被解码并以整个呈现时间线的形式被呈现。图6显示了原始表示(即620)中到目标表示(610)的参考B图像(即B_r图像)的切换的另一示例。在这种情况中，numDiscardablePics等于2。根据整个呈现时间线，作为位于T_n处的B图像的参考图像的位于T_n之后的P图像(即622)被解码，但不被呈现。与图3和图4相同，切换点是用于目标切换表示的I图像，且是用于原始切换表示的任意图像。

在图7中，在从原始表示(即720)切换到目标表示(即710)之前，位于T_n处的B_r图像和位于T_n之后的P图像(即722)均是B图像(即724)的参考图像。根据整个呈现时间线，P图像(即722)被解码但不被呈现，并且如图3或图4中位于锚图像处的切换的情况一样，位于T_n处的B_r图像被解码且可以被设置成以tgtIPicPresentation值的形式被呈现。

在前述示例中，与切换点相关的目标切换表示的I图像被称为随机访问图像(Random Access Picture，RAP)。如根据本发明的上述示例所示，由于参考依存已经被保持在原始表示内，本方案在切换被执行时无需重构用于目标切换表示的参考图像。对于相同原因，在两个表示具有不同分辨率的情况中，如m36167所公开，无需重新采样参考图像以用于提高前导图像的视觉图像质量。

本方案也可以被应用到超出自适应集的切换，或者流程序或者信道之间的切换。在流程序(streaming program)或者信道中进行调谐的情况中，numDiscaredablePics的值表示前导图像的数量可以被丢弃或者不被呈现，而忽略contOrigPicPresentation和tgtIPicPresentation这两个值作为非原始表示被涉及。

基于W15526，本发明公开了一种发信自适应集合表示中与开放式图像组结构相关的信息的方法，例如给定的第3类型的流访问点的前导图像的数量。用被并入到自适应集和表示的层处的开放式图像组结构信息，DASH客户端将具有多个选项来执行具有实现无缝切换和随机访问的应用方案的时间处理。

用W15526，下面条件被假设为一示例：段为0.5秒的持续时间，且帧速率为50fps，用于上述图2中的自适应集的发信如下。

οAdaptationSet

ο@timescale＝50

οSegmentTimeline.S:@t＝0,@d＝25,@r＝-1

οSwitching:@period＝150,@type＝”媒体”

οSwitching:@period＝50,@type＝”开放式图像组”

οSegmentTemplate@media＝”http://example.com/$RepresentationID$”/segment_$Time$.mp4

■Representation:@id＝1,

@randomAccessPeriod＝25

■Representation:@id＝2,

@randomAccessPeriod＝50

除了m36167(M.M.Hannuksela,“CE-SISSI:Supplemental property descriptorfor seamless switching with open GOPs”,m36167,Warsaw,Poland,June 2015)中提出的扩展之外，本发明公开了一种将新属性@numberLeadingPicture添加到表示层中的方法。根据本发明实施例的用于图2中表示的发信如下：

■Representation:@id＝1,

@randomAccessPeriod＝25,

@numberLeadingPicture＝3

■Representation:@id＝2,

@randomAccessPeriod＝50

@numberLeadingPicture＝3

在一些应用中，开放式图像组结构随着表示的前导图像的变化数量而变化，例如自适应图像组结构。这样@numberLeadingPicture可以具有不同的值以用于每个表示。

前导图像的数量提供第3类型流访问点的时间信息。无需解析媒体流，DASH客户端可以使用这个信息来建立更好方案以用于表示之间、自适应集之间，甚至程序/信道之间的无缝切换和随机访问。

在上述公开中，编码的图像组结构可以被发信在媒体展现描述中，并具体地用自适应集和表示中给定的第3类型的流访问点的前导图像的数量而被发信。编码的图像组结构也可以用SupplementalProperty描述符而被发信，方案值中的一个描述符表示前导图像的数量。由于编码的图像组结构信息暴露在自适应集和表示的层处，或者作为附加属性，DASH客户端将具有一选项以执行具有实现无缝切换和随机访问的应用方案的时间处理。

上述公开的时间处理方案在执行切换时能解耦来自于两个表示的质量和分辨率问题。当用位于切换点处的前导图像的数量来发信图像组结构时，可能位于切换点处的切换通过解码并呈现从切换起点(switch-from)/原始表示(original Representation)到位于时间t_s处的切换点，并且继续解码并呈现自时间t_s开始的切换终点(switch-to)/目标表示。当HEVC用作段中的媒体格式时，DASH客户端可以设置解码变量HandleCraAsBlaFlag等于1，且解码流程反过来设置变量NoRaslOutputFlag等于HandleCraAsBlaFlag。用这些设置，无论随机访问跳过前导图像的数量如何，时间t_s均为切换到表示的I图像的呈现时间。对于无缝切换，DASH客户端可以设置媒体解码器来解码从表示切换到时间t_s处的图像，其吸收了切换到表示的随机访问跳过前导图像数量的呈现时间跨度。

本发明也公开了一种扩展概念的前导图像。扩展前导图像被定义为一种图像，其在解码顺序中位于给定图像，I图像、P图像或者B图像之后，但在输出顺序中位于这个给定图像之前。只要定义的前导图像在正确解码和呈现流程中可以被处理，如果给定图像可以被正确地解码，则扩展前导图像可以被发信为切换点或者随机访问点以用于同步。

用扩展概念的前导图像，本发明也提出了用于位于依存随机访问点(DependentRandom Access Point，DRAP)图像之后的图像的文本变化和ISO/IEC 23008-2的D.3.36中DPB中的标记图像的分类，以避免过于约束声明并允许更一般的情况。用于D.3.36中第三段落和第四段落所提出的文本变化如下：

在其RPS中，除了与依存随机访问点图像相关的帧内随机访问点图像之外，解码顺序中位于依存随机访问点图像之后的任何图像将不包括在输出顺序或者解码顺序中位于依存随机访问点图像之前的任何图像。

当执行位于依存随机访问点图像处的随机访问时，无论用于解码顺序和输出顺序中位于依存随机访问点图像之前的所有图像的pic_output_flag如何，PicOutputFlag值均应被设置成0。并且在开始解码依存随机访问点图像时，除了帧内随机访问点图像之外的这些之前图像(preceding picture)应被标记为“不用于参考”。

所提出的文本变化保证了在解码顺序中位于依存随机访问点图像之后的所有图像可以被正确地解码且输出。在解码顺序中位于依存随机访问点图像之后的图像也包括依存随机访问点图像的前导图像。对于图8中的示例性图像组结构(即820)，两个前导B图像(即824)，其在解码顺序中位于依存随机访问点图像(即822)之后，但在输出顺序中位于依存随机访问点图像之前，仅参考在DPB中可用的之前帧内随机访问点图像和依存随机访问点图像。这样，解码流程可以正确地解码这两个前导图像，并用与依存随机访问点图像相关的更早呈现时间来输出这两个前导图像。在所提出的文本变化之前和之后的第一输出图像的呈现时间差异如图8所示，其中图像组结构(即810)的处理对应于传统方式(即没有所提出的文本变化)。实线(即832,834)表示相应的呈现时间。

在DASH流应用的另一示例中，当执行自适应集内与段对齐的表示的依存随机访问点图像处的切换时，根据本发明实施例，从切换起点到切换终点的表示之间将不存在呈现间隙。

在MPEG文件格式标准14496-15(ISO/IEC JTC1/SC29/WG11,“Draft text 14496-15FDIS 4th edition d01”,w15928,February 2016,San Diego,US)中，用于HEVC轨迹的同步样本(Sync Sample)被定义为"如果样本中的VCL NAL单元表示包含在样本中的编码图像为瞬时解码刷新图像、纯随机访问图像或者断链访问图像，则HEVC样本被考虑为同步样本"。其利用HEVC中丰富的图像类型，并且开放比先前编码标准更多的用于应用的随机访问机会。注意的是，一缺陷被识别出，即这个定义可以包括I图像作为同步样本，其具有相关随机访问跳过前导图像，即开放式图像组情况。对于随机访问跳过前导图像，解码流程可能会遇到不可用参考的问题。

在MPEG DASH标准23009-1中，即2015年10月的w15686的“Draft Text of ISO/IEC23009-1 3^rd edition”，Switching和RandomAccess这两个元素被添加以用于自适应集内的切换和到表示的随机访问的发信。实际上，只要开放式图像组结构在发信与解码中被处理好，RandomAccess元素也可以用于发信自适应集内的切换(有时是无缝切换)。在这个标准中没有关于开放式图像组的RandomAccess元素是否可以用作无缝切换点以及如何可以用作无缝切换点的说明。

当使用ISO/IEC 23008-2第3版本(ISO/IEC JTC1/SC29/WG11,“Study Text ofISO/IEC DIS 23008-2:201X 3rd Edition”,W15776,October 2015,Geneva,Switzerland)中的依存随机访问图像(RAP)指示附加增强信息(Supplemental EnhancementInformation，SEI)消息时，随机访问点可以被扩展到非I图像。子从句D.3.36指定了参考图像集(Reference Picture Set，RPS)中相关图像包含和用于依存随机访问点图像与其他相关图像的pic_output_flag的设置。但是，对于使用依存随机访问点图像特征的可能应用而言，这是过于约束的。

因此，本发明也公开了一种在HEVC解码流程中将应用层同步发信链接到相关解码变量的设置。这将使能上述描述用于标准14496-15中Sync Sample和标准23009-1中的RandomAccess的流程，以用于同步应用与切换应用。

在HEVC标准的子从句8.1.3中，编码图像的解码流程如下面描述。

当当前图像为帧内随机访问点图像时，下列使用：

-如果当前图像为瞬时解码刷新图像、断链访问图像、解码顺序中第一图像或者在解码顺序中位于序列NAL单元的一端之后的第一图像，则变量NoRaslOutputFlag被设置成等于1。

-否则，如果本说明中没有指定的一些外部方式可用以将变量HandleCraAsBlaFlag设置成当前图像的值，则变量HandleCraAsBlaFlag被设置成等于这些外部方式所提供的值，并且变量NoRaslOutputFlag被设置成等于HandleCraAsBlaFlag。

解码变量NoRaslOutputFlag用于处理这些随机访问跳过前导图像，而无需干扰正确的解码流程和呈现。基本上，当NoRaslOutputFlag等于1时，生成不可用参考图像的解码流程被调用。变量HandleCraAsBlaFlag可以以一些外部方式被设置，且NoRaslOutputFlag可以被设置成等于HandleCraAsBlaFlag。

为了修正14496-15中的缺陷，通过将下面文本添加到第一段落中，本发明也公开了14496-15的8.4.3同步样本中的文本变化。

使用本从句中所指定的同步样本暗示着这样一个外部方式是在HEVC媒体格式解码流程中可用，以设置相应的变量HandleCraAsBlaFlag并因此设置NoRaslOutputFlag以保证正确的解码和呈现。

由于与上述所提出的ISO/IEC 14496-15的8.4.3同步样本中的改变相关，由于使用流访问点类型定义ISO/IEC 14496-12中的同步样本可能在流访问点类型用作访问点的属性的意义上不再适合，而同步样本用作应用的发信或者同步信息，本发明提出了下面ISO/IEC14496-12中的变形和添加，以用于同步样本的松散定义。所提出的具有同步样本的定义的ISO/IEC 14496-12的3.1.17同步样本中的文本变化如下：

轨迹中的样本为随机访问点，其中这个样本和解码顺序中的随后的样本可以均由媒体格式解码流程正确地解码或者很好处理；非正式地，如附录I中定义，从第1类型或者第2类型的流访问点的ISAU开始的媒体样本；开始新独立序列样本的媒体样本；如果解码从同步样本开始，则其和解码顺序中成功样本可以均被正确地解码，包括具有不可用参考样本的解码需求的这些样本的处理，并且得到的已解码样本集形成了从具有最早合成时间的已解码样本处开始的媒体的正确呈现；媒体格式可以提供用于那个格式的同步样本的更精确定义。

用于ISO/IEC 23009-1(w15686)的5.3.5.5中的开放式图像组的类型的文本变化被提出以添加如下：

使用RandonAccess发信暗示着这样一个外部方式在HEVC媒体格式解码流程中可用，以设置相应的变量HandleCraAsBlaFlag，并因此设置NoRaslOutputFlag以保证正确的解码和呈现。

作为基于标准14496-15来处理开放式图像组的一示例，按照标准14496-15，一旦接收Sync Sample的发信，根据本发明实施例，客户端应用可以设置HandleCraAsBlaFlag为‘真’。作为处理开放式图像组的另一示例，按照标准23009-1，一旦接收RandomAccess元素的发信，客户端应用可以设置HandleCraAsBlaFlag为‘真’。在这两个情况中，客户端应用中HEVC解码流程因此设置NoRaslOutputFlag等于HandleCraAsBlaFlag，并保证比特流被正确地解码而无解码失败。

图9示出了根据本发明实施例的服务器侧中的切换表示的示例性流程图。在步骤910中，本方法将视频比特流分割成多个段，其中每个段属于一段类型组，其包括开放式图像组类型，其中用0个或者多个前导图像，具有开放式图像组类型的每个段中的图像被编码，并且每个前导图像以输出顺序对应于位于段的随机访问图像之前的一个图像，和该图像的编码基于段的随机访问图像和先前段中可能的一个其他图像。在步骤920中，将前导图像信息发信在表示、自适应集、媒体展现描述或者包括有关于视频流内容的信息的相似描述文件中，其中前导图像信息与具有开放式图像组类型的每个段中的0个或者多个前导图像的数量相关。

图10示出了根据本发明实施例的客户端侧中的切换表示的示例性流程图。在步骤1010中，本方法首先接收媒体展现描述以用于视频流内容，其中媒体展现描述对应于包括原始表示和目标表示的自适应集和表示。随后，在步骤1020中，本方法接收原始表示，其中原始表示包括多个第一段，其具有第一图像组结构。在步骤1030中，也接收目标表示，其中目标表示包括多个第二段，其具有第二图像组结构。在步骤1040中，自媒体展现描述确定前导图像信息，其中前导图像信息与每个第二段中的0个或多个前导图像相关，并且每个前导图像以输出顺序对应于位于每个第二段的随机访问图像之前的一个图像，且该图像的编码基于每个第二段的随机访问图像和先前第二段中的这个图像。在步骤1050中，呈现已切换的呈现，其中在流访问点处通过从原始表示中的图像到目标表示中的图像的呈现，给出一个从原始表示切换到目标表示的呈现，流访问点对应于根据前导图像信息为确定的每一个第二段的随机访问点图像。

本发明所示的流程图用于示出根据本发明的用于媒体流的服务器与客户端之间的消息传送的示例。在不脱离本发明的精神的情况，本领域的技术人员可以修改每个步骤、重组这些步骤、将一个步骤进行分离或者组合这些步骤而实施本发明。

上述说明，使得本领域的普通技术人员能够在特定应用程序的内容及其需求中实施本发明。对本领域技术人员来说，所描述的实施例的各种变形将是显而易见的，并且本文定义的一般原则可以应用于其他实施例中。因此，本发明不限于所示和描述的特定实施例，而是将被赋予与本文所公开的原理和新颖特征相一致的最大范围。在上述详细说明中，说明了各种具体细节，以便透彻理解本发明。尽管如此，将被本领域的技术人员理解的是，本发明能够被实践。

如上所述的本发明的实施例可以在各种硬件、软件代码或两者的结合中实现。例如，本发明的实施例可以是集成在视频压缩芯片内的电路，或者是集成到视频压缩软件中的程序代码，以执行本文所述的处理。本发明的一个实施例也可以是在数字信号处理器(Digital Signal Processor，DSP)上执行的程序代码，以执行本文所描述的处理。本发明还可以包括由计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(fieldprogrammable gate array，FPGA)所执行的若干函数。根据本发明，通过执行定义了本发明所实施的特定方法的机器可读软件代码或者固件代码，这些处理器可以被配置为执行特定任务。软件代码或固件代码可以由不同的编程语言和不同的格式或样式开发。软件代码也可以编译为不同的目标平台。然而，执行本发明的任务的不同的代码格式、软件代码的样式和语言以及其他形式的配置代码，不会背离本发明的精神和范围。

本发明以不脱离其精神或本质特征的其他具体形式来实施。所描述的例子在所有方面仅是说明性的，而非限制性的。因此，本发明的范围由附加的权利要求来表示，而不是前述的描述来表示。权利要求的含义以及相同范围内的所有变化都应纳入其范围内。

Claims

1.一种媒体通信的方法，其特征在于，用于服务器和客户端设备，该方法包括：

将视频比特流分割成多个段，其中每个段属于包括开放式图像组类型的段类型组，其中用0个或者多个前导图像，具有该开放式图像组类型的每个段中的多个图像被编码，并且其中每个前导图像以输出顺序对应于位于该段的随机访问图像之前的一个图像，且该图像的编码基于该段的该随机访问图像和先前段中可能的一个其他图像；以及

将前导图像信息发信在表示、自适应集、媒体展现描述或者包括有关于视频流内容的信息的相似描述文件中，其中该前导图像信息与具有该开放式图像组类型的每个段中的该0个或者多个前导图像的数量相关。

2.如权利要求1中所述的媒体通信的方法，其特征在于，该随机访问图像对应于帧内图像。

3.如权利要求1中所述的媒体通信的方法，其特征在于，该随机访问图像对应于依存随机访问图像，其中每个依存随机访问图像对应于P图像或者B图像。

4.如权利要求1中所述的媒体通信的方法，其特征在于，使用该表示或者该自适应集中的属性，该前导图像信息被发信。

5.如权利要求4中所述的媒体通信的方法，其特征在于，使用该表示或者该自适应集中的附加属性描述符，该前导图像信息被发信。

6.如权利要求5中所述的媒体通信的方法，其特征在于，该附加属性描述符还包括第一指示和第二指示，并且其中该第一指示向解码器指示是否继续解码并呈现原始表示中的该0个或多个前导图像，该第二指示向该解码器指示是否一直呈现来自于位于流访问点处待切换的两个流的两个图像中质量排名或者分辨率更高的图像。

7.一种服务器设备，其特征在于，用于到客户端的媒体流，该服务器设备包括：

接口，用于建立与该客户端的通信连接；以及

一个或多个电子电路或处理器，被配置为：

将视频比特流分割成多个段，其中每个段属于包括开放式图像组类型的段类型组，其中用0个或者多个前导图像，具有该开放式图像组类型的每个段中的多个图像被编码，并且其中每个前导图像以输出顺序对应于位于该段的帧内图像之前的一个图像，且该图像的编码基于该段的该帧内图像和先前段中可能的一个其他图像；以及

8.一种切换表示的方法，其特征在于，用于客户端设备，该方法包括：

接收视频流内容的媒体展现描述，其中该媒体展现描述对应于包括原始表示和目标表示的多个自适应集和多个表示；

接收该原始表示，其中该原始表示包括具有第一图像组结构的多个第一段；

接收该目标表示，其中该目标表示包括具有第二图像组结构的多个第二段；

自该媒体展现描述确定前导图像信息，其中该前导图像信息与每个第二段中的0个或多个前导图像相关，并且每个前导图像以输出顺序对应于位于每个第二段的随机访问点图像之前的一个图像，且该图像的编码基于每个第二段的该随机访问点图像和先前第二段中可能的一个其他图像；以及

在流访问点处通过从该原始表示中图像到该目标表示中图像的切换呈现，给出一个从该原始表示切换到该目标表示的呈现，该流访问点对应于根据该前导图像信息为确定的每一个第二段的该随机访问点图像。

9.如权利要求8中所述的切换表示的方法，其特征在于，该随机访问点图像对应于帧内图像。

10.如权利要求9中所述的切换表示的方法，其特征在于，该前导图像信息对应于每个第二段中位于该帧内图像之前的该0个或多个前导图像的数量N，并且N自表示层或者自适应集层中的属性而确定。

11.如权利要求9中所述的切换表示的方法，其特征在于，该前导图像信息对应于每个第二段中位于该帧内图像之前的该0个或多个前导图像的数量N，并且N自附加属性描述符而确定。

12.如权利要求11中所述的切换表示的方法，其特征在于，该附加属性描述符还包括第一指示，用于向解码器指示有关于是否继续解码并呈现该原始表示中的该N个前导图像。

13.如权利要求12中所述的切换表示的方法，其特征在于，当N大于0，且该第一指示的值为1时，该原始表示中的N个图像被解码并呈现，并且与该目标表示的该流访问点相关的该帧内图像被解码，并且具有比与该目标表示的流访问点相关的该帧内图像的呈现时间更小的呈现时间的N个前导图像在解码流程中被丢弃，或者被设置成不被呈现。

14.如权利要求13中所述的切换表示的方法，其特征在于，该附加属性描述符还包括第二指示，用于向该解码器指示有关于是否一直呈现位于该流访问点处的两个图像中质量排名或者分辨率更高的图像，并且，当该第二指示的值为1时，与该目标表示的该流访问点相关的该帧内图像和位于与该目标表示的该流访问点相同的时间处的该原始表示中的锚图像中且具有较高质量排名的一个被呈现。

15.如权利要求14中所述的切换表示的方法，其特征在于，当该第二指示的值为0时，与该目标表示的该流访问点相关的该帧内图像或者位于与该目标表示的该流访问点相同的时间处的该原始表示中的锚图像被呈现。

16.如权利要求12中所述的切换表示的方法，其特征在于，当N为0时，则该第一指示被忽略。

17.如权利要求8中所述的切换表示的方法，其特征在于，该随机访问点图像对应于依存随机访问点图像，其中每个依存随机访问点图像对应于P图像或者B图像。

18.如权利要求17中所述的切换表示的方法，其特征在于，该前导图像信息对应于每个第二段中位于随机访问点图像之前的该0个或多个前导图像的数量N，并且若N大于0，且与该目标表示的该流访问点相关的随机访问点图像作为同步样本被指示，则第一变量被设置以指示将一个纯随机访问图像处理为一个断链访问图像，并且该第一变量用于设置第二变量以指示用于生成多个不可用参考图像的解码流程被调用，该解码流程对应于该将一个纯随机访问图像处理为一个断链访问图像。

19.一种切换表示的客户端设备，其特征在于，该客户端设备包括：

接口电路，用于建立与服务器的通信连接；以及

一个或多个电子电路或处理器，被配置为：

在流访问点处通过从该原始表示中的多个图像到该目标表示中的多个图像的切换呈现，给出一个从该原始表示切换到该目标表示的呈现，该流访问点对应于根据该前导图像信息为确定的每一个第二段的该随机访问点图像。