CN101455081A - 生成数字数据流的方法 - Google Patents

生成数字数据流的方法 Download PDF

Info

Publication number
CN101455081A
CN101455081A CNA2007800109252A CN200780010925A CN101455081A CN 101455081 A CN101455081 A CN 101455081A CN A2007800109252 A CNA2007800109252 A CN A2007800109252A CN 200780010925 A CN200780010925 A CN 200780010925A CN 101455081 A CN101455081 A CN 101455081A
Authority
CN
China
Prior art keywords
media data
data flow
metadata
section
nalu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007800109252A
Other languages
English (en)
Inventor
P·阿蒙
A·赫特
T·拉思根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Solutions and Networks GmbH and Co KG
Original Assignee
Nokia Siemens Networks GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Siemens Networks GmbH and Co KG filed Critical Nokia Siemens Networks GmbH and Co KG
Publication of CN101455081A publication Critical patent/CN101455081A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及一种生成数字数据流的方法,所述方法可生成媒体数据流(MDS),其中包含多个按照时间排序的媒体数据流段(S0,…,S7),每一个媒体数据流段均包含用来生成数字数据流(NALu)的一个或多个媒体数据包;给媒体数据流(MDS)分配一个与媒体数据流(MDS)时间同步的元数据流(MTS),所述元数据流(MTS)包含元数据流段(M0,…,M7),且给一个或多个媒体数据流段(S0,…,S7)各分配一个元数据流段(M0,…,M7)。所述方法的特征在于,在一个相应的元数据流段(M0,…,M7)中适当布置一个或多个第一元数据元素(ME),使得给被分配了相应元数据流段(M0,…,M7)的媒体数据流段(S0,…,S7)的每一个媒体数据包(NALu)分配相应元数据流段(M0,…,M7)的第一元数据元素(ME)。

Description

生成数字数据流的方法
技术领域
本发明涉及一种生成数字数据流的方法,以及一种对如此生成的数据流进行处理的方法。此外,本发明还涉及一种用来发送或接收数字数据流的发送器或接收器,以及一种相应的数字信息载体。
背景技术
在从多媒体数据生成数据流时,通常与真正的多媒体数据流同步地传输元数据流,该元数据流提供对媒体数据流的相应数据包的内容描述。例如在视频编码领域,公知可针对代表视频图像(称作“视频样本”)的每一个视频数据流段,以相应的文件格式保存与该视频图像同步的相应元数据流段(也称作“元数据样本”)。
已知的视频编码有MPEG4-SVC(MPEG=动态图像专家组;SVC=可伸缩视频编码),其中构成所生成的视频流,使得可以提取不同分辨率的视频图像。这时通常希望视频数据流的质量与预定的数据传输速率匹配。尤其应实现视频数据的R/D优化提取,这里R/D表示“率失真”(Rate Distortion),利用R/D优化提取(专业人士十分熟悉的方法,以下将对其进行详细解释)应可保证在预定的数据传输速率下实现尽可能最佳的视频数据流质量。这种优化提取方法非常复杂,而且要求提供特定的信息。不仅要提供每一个视频样本的元数据,而且需要针对该视频样本内的各个视频数据包提供视频图像的R/D优化提取参数。
按照现有技术,公知在各个视频数据包的层面上提供元数据。例如在各个视频数据包的包头之中保存这些元数据。这种在包头中进行保存的缺点在于:无法实现简单和标准化的方法来存取每一个媒体数据包的参数。
文献WO 03/091905 A2公布了一种对数据流进行分类的方法,该方法将数据流划分成多个个数据流子域,每一个数据流子域对应于一个类。可以适当选择这些类,使其与待描述数据流的结构和句法无关,尤其与该数据流的编码格式无关。该文献并未涉及时间同步地生成媒体数据流的元数据。
发明内容
本发明的任务在于,实现一种生成数字数据流的方法,以及一种对此类数据流进行管理的方法,可用来简单地存取媒体数据流的元数据。此外,本发明的任务还在于实现一种相应的发送器或接收器以及一种相应的数字信息载体。
该任务可通过相关独立权利要求加以解决。本发明的改进实施型式均在相关从属权利要求中进行定义。
通过本发明所述的方法可生成一种媒体数据流,该媒体数据流含有多个以特定方式按照时间排序的媒体数据流段,每一个媒体数据流段均包含一个或多个媒体数据包。例如,媒体数据流段可以按照时间先后顺序排序。但也可以按照解码顺序对媒体数据流段进行排序。例如,媒体数据流段是视频数据流中的预定视频图像。给生成的媒体数据流分配一个与其时间同步的媒体数据流,该媒体数据流包括元数据流段,并且给一个或多个媒体数据流段,尤其给每一个媒体数据流段各分配一个元数据流段。这样就可为一个或多个媒体数据流段生成一个元数据流段,其中涉及相应媒体数据流段的元数据均保存在该元数据流段之中。
本发明的特征在于,将一个或多个第一元数据元素设置在相应的元数据流段之中,使得将相应的元数据流段的第一元数据元素分配给媒体数据流段的每一个媒体数据包,该相应的元数据流段被分配给该媒体数据流段。通过这种分配方式将相应媒体数据流段的结构映射于元数据流段之中。以这种方式实现一种标准化方法来保存每一个媒体数据包的元数据。按照本发明所述将元数据元素分配给媒体数据包的方法,尤其对每一个媒体数据包都存在分配给该媒体数据包的唯一的第一元数据元素。
在一种实施型式中,当一个或多个媒体数据流段之中分别有多个媒体数据包被合并成一个或多个集合体时,也可以使用本发明所述的方法。所谓集合体是指将多个媒体数据包合并成一组媒体数据包的任何方式。尽管如此,集合体这一术语也理解为由MPEG4数据格式公开的特殊含义。这里使用集合体来合并具有相同质量等级的媒体数据包,该质量等级例如以DTQ值表示。为了将包括集合体的媒体数据流段的结构也映射于相应的元数据流之中,分配给相应媒体数据流段的元数据流段包含第二元数据元素,该第二元数据元素被设置为使得向每一个集合体分配一个第二元数据元素。这样尤其可将元数据元素唯一地分配给一个聚合体,使得也可以将媒体数据流中的一个聚合体预定义地映射于相应的元数据流之中。究竟应根据哪些标准将媒体数据包合并成集合体,这是任意的而且对于本发明而言无关紧要。但优选适当使用聚合体来合并那些基本上具有相同数据质量的媒体数据包。
按照另一种优选实施型式,第二元数据元素包含用来描述相应集合体的元数据元素,并且包含第一元数据元素中所包含的那些元数据,所述第一元数据元素已经分配给合并在相应聚合体之内的媒体数据包。
按照本发明所述方法的另一种实施型式,数据流包含多个媒体数据流以及所分配的元数据流。其中至少一个媒体数据流可以包含一个或多个所谓的提取器,该提取器分别引用另一个媒体数据流的一个或多个媒体数据包,按照本发明,向每一个提取器分配在已分配给至少一个媒体数据流的元数据流之内的第三元数据元素。按照本发明所述的方法,用这种方式也可以将媒体数据流映射在含有提取器形式的参考点的元数据之中。这时分配给提取器的第三元数据元素优选具有适当的结构,使其包含用来描述提取器自身以及元数据的元数据元素,所述元数据包含在第一和/或第二元数据元素之中,且这些第一和/或第二元数据元素已分配给通过提取器引用的媒体数据包。
按照本发明的另一种优选实施型式,在一个或多个第一元数据元素之中指定是否以及/或者多少个后续的第一和/或第二和/或第三元数据元素具有相同的内容。以这种方式可以很方便地从数据流中读取元数据,因为并非每一次都要针对多个第一和/或第二和/或第三元数据元素来存取各个元数据元素的内容,而是使用连续元数据元素的第一元数据元素的内容即可。
按照本发明所述方法的一种优选实施型式,在数据流中引用媒体数据流段和/或元数据流段。此外,在数据流中还可以包含对一个或多个质量等级的描述,以及对具有相应质量等级的媒体数据包直接进行存取的指令。按照本发明所述方法的另一种实施型式,可以在数据流中对包含在元数据流段内的第一和/或第二和/或第三元数据元素进行存取。
本发明所述的方法尤其用于视频数据流,其中每一个媒体数据流段均表示一预定时刻的视频图像,且媒体数据包就是视频数据包。视频数据流尤其可以是现有技术条件下已知的MPEG4-SVC视频数据流,这种视频数据流可用来对视频数据进行可伸缩的编码和解码。
本发明的一个主要方面在于:利用元数据元素将媒体数据的结构映射在元数据之中,其中元数据元素内究竟保存了哪些信息无关紧要。按照本发明的一种实施型式,元数据元素例如包含能够以预定的数据速率实现数据流的优化传输的内容。尤其是第一和/或第二和/或第三媒体数据元素包含涉及数据流速率控制的参数,优选包含媒体数据的R/D优化提取参数,和/或用来匹配数据流质量的参数。
按照本发明所述方法的另一种实施型式,在至少一部分元数据流段之中存在第四元数据元素,用来对已分配有相应元数据流段的媒体数据流段进行描述。
除了上述用来产生数字数据流的方法之外,本发明还涉及对如此生成的数字数据流进行处理的一种方法。按照该方法所述,以适当方式读取数据流,对读出的媒体数据包和/或集合体和/或提取器进行编号,同时对读出的第一和/或第二和/或第三元数据元素进行编号,从而确定媒体数据包与第一元数据元素之间的对应关系,和/或集合体与第二元数据元素之间的对应关系,和/或提取器与第三元数据元素之间的对应关系。因此不必针对元数据元素和媒体数据包之间的对应关系来保存单独的索引,将媒体数据的结构映射在元数据之中即可得到该对应关系。
本发明还涉及一种发送器,用来发送本发明所述的数据流,包括用来生成媒体数据流的第一装置,该媒体数据流包含多个按照时间排序的媒体数据流段,每一个媒体数据流段均包含一个或多个媒体数据包;包括用来将与媒体数据流同步的元数据流分配给媒体数据流的第二装置,其中元数据流包含元数据流段,且分别向一个或多个媒体数据流段分配一个元数据流段;包括用来将一个或多个第一元数据元素适当设置于相应元数据流段之中的第三装置,使得将相应的元数据流段的第一元数据元素分配给被分配了相应的元数据流段的媒体数据流段的每一个媒体数据包。此外,发送器优选还包括一个用来按照上述处理方法对数据流进行处理的装置。发送器优选可以按照预定的标准,尤其是按照涉及数据率和/或数据质量的标准,利用这种处理数据流的装置从数据流中提取部分数据,然后发送器可以发送所提取的部分数据。
本发明还涉及一种接收器,用来接收按照本发明所述生成的数据流,包括读取装置,用来适当读取数据流,使得通过对所读出的媒体数据包和/或集合体和/或提取器进行编号,同时对所读出的第一和/或第二和/或第三元数据元素进行编号,确定媒体数据包与第一元数据元素之间的对应关系,和/或集合体与第二元数据元素之间的对应关系,和/或提取器与第三元数据元素之间的对应关系。接收器优选构造为使其能够按照预定的标准,尤其是按照涉及数据率和/或数据质量的标准从数据流中读取部分数据。
与上述生成数据流的方法相类似,本发明还包括一种相应的数字信息载体,其含有数字信息,可按照本发明所述的数据流生成方法利用这些数字信息来生成数据流。数字信息载体优选包含用来生成媒体数据流的第一数据存储区,该媒体数据流含有多个按照时间排序的媒体数据流段,每一个媒体数据流段均含有一个或多个媒体数据包。此外还有第二数据存储区,用来生成与媒体数据流同步的元数据流,其中元数据流包括元数据流段,并且分别将一个元数据流段分配给一个或多个媒体数据流段,尤其是分配给每一个媒体数据流段。该信息载体的特征在于,将一个或多个第一元数据元素适当设置于相应的元数据流段之中,使得可将相应的元数据流段的第一元数据元素分配给被分配了相应元数据流段的媒体数据流段的每一个媒体数据包。
按照一种优选实施型式所述,数字信息载体包括用来引用媒体数据流段的轨道(Track),和/或包括一个或多个用来引用元数据流段的轨道。用来引用元数据流段的轨道可以包括对第一和/或第二和/或第三元数据元素的分组情况的描述,例如可利用这些描述来设定预定的数据流传输质量等级。
图说明
以下将根据图对本发明的实施例进行详细说明。
相关图如下:
图1现有技术条件下已知的一种文件格式的示意图,在其中通过视频轨道来引用所保存的视频数据;
图2现有技术条件下已知的一种文件格式的示意图,在其中通过视频轨道来引用视频数据,此外元数据与视频数据通过元数据轨道进行时间同步;
图3按照本发明所述将元数据元素分配给媒体数据包的示意图;
图4一种本发明所述文件格式的示意图,在其中主要使用包含提取器的媒体数据流;
图5一种本发明所述文件格式的示意图,在其中通过相应的轨道来引用媒体数据流以及与其同步的元数据流;
图6一种本发明所述文件格式的示意图,在媒体数据流的多个分层的平面中均有元数据;
图7一种本发明所述文件格式的示意图,可以利用附加信息在元数据轨道中直接存取元数据元素组;以及
图8本发明所述实施型式的一种发送器、接收器以及数字信息载体的示意图。
具体实施方式
以下将以按照MPEG4-SVC标准编码的视频数据为例,对本发明所述的方法进行说明。SVC表示“可伸缩视频编码”(Scalable Video Coding),可用来对不同质量等级的视频数据进行编码和解码。涉及位置分辨率的可伸缩性、涉及时间分辨率的可伸缩性以及SNR可伸缩性(SNR=Signal to Noise Ratio信噪比)是不同的。SNR可伸缩性涉及到像素精度,精度越高,则图像中出现的伪影越少。在视频数据流中设置不同的质量层,即一个基本层和位于其上的增强层,就可在SVC标准中实现视频数据流的可伸缩性。在MPEG4-SVC标准中通过DTQ值来规定各个视频数据包的质量(DTQ=dependency_id,,quality_level)。D值表示位置分辨率,T值表示时间分辨率,Q值表示每一个视频数据包e的S伸缩方向。这些值越大,则相应分辨率的质量越好。
图1所示是一种在涉及对MPEG4-SVC数据存放格式的标准文档[1]中描述的文件格式。该格式包含一个媒体数据容器MD,该容器包含"mdat"区域,其中保存有一个或多个媒体数据流MDS;该格式还包含描述容器MT,该容器包括"moov"区域,其中含有一个或多个视频轨道VT。视频轨道用来存储那些使得可以存取媒体数据(或者其中部分数据)的信息。媒体数据流MDS例如可包含按照时间组织存放的各个视频数据包,这些视频数据包被称作NALu(NALu=Network Abstraction Layer unit网络抽象层单元)。视频轨道VT中的数据用来描述媒体数据流MDS中的相关媒体数据,并且提供用于存取媒体数据的引用。在图1中用两个粗箭头表示这些引用,且这些箭头的起源点均在视频轨道VT之中。此外视频轨道VT中包含可用来存取具有所定义的分辨率和图像刷新率的预定操作点的数据,其中在定义的“层(Tier)”中将该操作点构成群组,使得某一层内的操作点具有定义的分辨率和图像刷新率。对这些数据进行分析,形成图1中通过其余(非粗体)箭头表示的提取指令。根据不同的应用,某一层的质量就像视频数据流的最终数据传输速率那样可能会在特定范围内变化。
由此,视频轨道VT对各个层包含描述最终质量的元数据。这种静态描述涉及对数据流的总的表示方法。例如,文件阅读器或者流客户端可以使用这些元数据,以便从所提供的操作点中选择所需的操作点。在利用层(Tier)对数据流进行的描述中还含有一些附加数据,该附加数据可用来从全部媒体数据中提取表达视频图像所需的媒体数据。此外,视频轨道VT还包含允许高效存取所需媒体数据的一系列数据结构。
在图1中,从媒体数据流MDS再现出两个媒体数据流段S0和S1。其中的每一个数据流段均表示一预定时刻的视频图像,并且在多个视频数据包内包含有关该视频图像的相应信息。在媒体数据流段S0中含有六个视频数据包NALu,而数据流段S1则包括五个NALu。针对每一个视频数据包NALu保存一个相应的DTQ值。例如,媒体数据流段S0中的从左边开始的第一个视频数据包具有一个三元组(0,0,0)形式的DTQ值。这表示位置分辨率的值或索引为0,时间分辨率的索引为0且SNR可伸缩性的索引同样也为0。在图1所示的文件格式中,只要相邻的数据包具有相同的DTQ值,则将这些视频数据包合并成一个集合体。如图1所示,第一媒体数据流段S0中的从左侧开始的第二个和第三个视频数据包被合并成一个集合体A,因为这两个视频数据包具有相同的DTQ值(1,0,0)。
在图1所示文件格式的一种变体中,还可以将随时间变化的元数据以该文件格式保存。图2所示就是这种情况。与图1类似,文件格式包含一个描述容器MT和一个媒体数据容器MD。但在描述容器MT中除了有视频轨道VT之外,还有另一个轨道TMT(TMT=timed meta data track同步元数据轨道)。该轨道也具有一些以箭头形式指向媒体数据容器MD内的元数据流MTS的引用。元数据流MTS包含“元数据样本”(meta data samples)形式的多个元数据流段M0,M1,...,M7,这些元数据流段与各个媒体数据流段S0,S1,...,S7同步。例如,在标准[4]中就有对图2所示文件格式的描述。使用该格式可以利用例如二进制XML(BiM)对元数据进行编码。
按照现有技术,参照MPEG4-SVC编码可知以“完全可伸缩”格式保存数据。“完全可伸缩”表示:可以在伸缩方向上提取每一个允许的质量等级组合(即位置分辨率,时间分辨率和SNR可伸缩性)。当传输此类“完全可伸缩”比特流时,尤其希望比特流的质量与预定的比特率匹配。在MPEG4-SVC标准中提供了能够对数据流进行细微伸缩的机制。尤其在该标准中针对每一个位置分辨率等级或CGS分辨率等级(CGS=Coarse Grain Scalability粗粒度可伸缩性)并且针对在某一位置分辨率等级的时间分析过程中的每一个图像,定义了最多四个质量等级。如MPEG4-AVC标准(AVC=高级视频编码)所述对最低的质量等级进行编码,其中量化参数QP可影响原始图像和解码图像之间的差别。其它质量等级(“Fine Grain Scalability(FGS)Refinements”细粒度可伸缩性(FGS)精化)的编码方法为:例如将量化参数减小六。分两个等级对各个FGS精化进行编码,这两个等级被称作"significant pass"和"refinement pass",并且保存在FGS-NALu之中。
在MPEG4-SVC标准中可以在使用FGS-NALu时,通过对各个FGS-NALu进行剪切的方式将视频数据流与预定的比特传输速率匹配。可以始终在相同的比特位置上剪切NALu,但是这会导致非最佳的解码。与标准化文献[3]所描述的一样,还可以在定义的位置上“预先剪切”FGS-NALu,其中将这些预先剪切的片段(称作质量层“quality layers”)保存在自身的NALu之中。这样就可将具有位置可伸缩性、时间可伸缩性以及SNR可伸缩性(分别考虑预先剪切的片段)并且具有特定传输速率和特定质量的所有图像组合起来,产生这些组合的集合。
利用预先剪切的NALu可以使得视频数据流的质量与比特率最佳匹配。这就是已知的FGS-NALu的R/D优化提取。如前所述,RD表示率失真(依据数据率变化的图像失真)。采用R/D优化提取时,在RD曲线图中绘制具有特定位置分辨率等级的视频图像的RD值与比特率之间的关系。这样就可得到一个凸起的包络,可以针对该凸起包络上的每一个点来确定角度λ,该角度表示随数据率变化引起的失真变化程度有多大。可以根据相应的伸缩率,为每一个NALu生成并且适当保存λ值。然后在采用R/D优化提取时,能够通过对λ值进行分析针对给定的位置分辨率和预定的数据率最佳地选择待保存的NALu。关于视频数据包的R/D优化提取的详细情况可查阅文献[3]。
在根据R/D优化提取来选择NALu时采用的参数在上述文献[3]中被称作"quality_id"。与前述值的不同之处在于,在编码标准(参见文献i2中没有在D哪T个位置上指定i值的E规4定因此只能在NALu的头部内任意可用的字段中非规范地给出该值。
按照本发明的下述实施型式,在时间同步的元数据流MTS中保存元数据元素的各个字段,其中向一个元数据元素恰好分配来自媒体数据流的一个视频数据包NALu。在这些元数据元素中可以保存涉及各个视频数据包的任意信息,尤其可以针对每一个视频数据包保存视频数据的R/D优化提取的相应参数(例如前面提及的quality_id)。在图3中针对图2所示的媒体数据流段或者元数据流段S0和M0对本发明进行了描述。媒体数据流段S0具有与图1所示媒体数据流段S0一样的结构。从图3可以看出,根据本发明元数据流段M0具有与媒体数据流段S0一样的结构。尤其是为S0中的每一个NALu均在M0中设置一个元数据元素ME,在图3中使用箭头P表示各个元数据元素ME与NALu之间的对应关系。S0中的集合体A将具有相同DTQ值的第二和第三NALu合并在一起,为了使用本发明所述的方法对S0中的集合体A进行处理,也给该集合体分配了相应的元数据元素,在图3中将该元数据元素表示为MA′,使用箭头P′表示该元数据元素与集合体A之间的对应关系。元数据元素MA′包含一个用来描述集合体特性的元数据元素MEA,该集合体特性例如是集合体中包含的所有NALu都具有的特性。在图3所示的选项中,元数据元素MA′在元数据元素MEA之后包括可用于集合体内所含的每一个NALu的第一元数据元素ME。替换的,MA′不是对集合体内所含的每一个NALu都包含元数据元素ME。在这种情况下,MEA描述集合体以及其中所含的每一个NALu。
从图3可明显看出,本发明的主要方面在于:将媒体数据流段的结构映射在相应的元数据流段之中。可以通过对元数据流中的元数据元素以及媒体数据流中的视频数据包同时进行计数的方式,实现元数据元素和视频数据包之间的对应关系。这种计数如图3所示,即对视频数据包NALu和元数据元素ME以及元数据元素MEA进行相应地编号。编号方式如下:
左侧第一个NALu获得计数索引1,后续的集合体A获得计数索引2,紧随集合体之后的NALu获得计数索引3、4和5。在元数据流中以类似方式进行计数。即对应于具有计数索引1的NALu的第一元数据元素同样也获得计数索引1,给集合体A的元数据元素MA′分配计数索引2,该计数索引也被分配给集合体A,集合体A后面的元数据元素与相应的NALus一样获得计数索引3、4和5。当存取一集合体中的NALu时,就在该集合体之内重新进行编号,使得集合体A中的NALu以及相应的元数据元素ME具有索引1和2。这里可看出,图3中所示的编号并未以该数据格式保存,而是在存取数据时使用计数索引自动产生该编号。
图4所示为本发明所述文件格式的另一种实施型式,其中不仅有一个单独的媒体数据流MDS和一个单独的同步元数据流MTS,而且有另一个媒体数据流MDS′,且给该另一个媒体数据流分配相应的元数据流MTS′。媒体数据流MDS中所示的媒体数据流段S0在这里相当于图3中的媒体数据流段S0。元数据流MTS中的元数据流段M0同样也相当于图3中的元数据流段M0。附加设置的媒体数据流段MDS′含有提取器。关于这些提取器的使用说明可查阅标准化文献[1]的第7.6节。这些提取器表示可用来引用其它媒体数据流中的媒体数据的包。在图4所示的实施例中,媒体数据流MDS′中的提取器E引用媒体数据流MDS中的第一NALu、随后的集合体A以及包含在该集合体内的两个NALu。而媒体数据流MDS′中的第二提取器E则引用媒体数据流MDS中的后三个NALu。
为了也能使用本发明所述的方法对包含提取器的媒体数据流MDS′进行处理,设置另一种类型的元数据元素用于元数据流MTS′中的提取器。这些元数据元素在图4的数据流MTS′中被表示成用于MDS′的左侧提取器的ME1′,以及用于MDS′的右侧提取器的ME2′。一般也将这些元数据元素表示为ME′。通过对具有计数索引1和2的提取器E以及具有相同索引1和2的相应元数据元素ME1′、ME2′进行编号,在这些提取器以及元数据元素ME1′和ME2′之间形成对应关系。元数据元素ME1′或ME2′在开始时包含一个用来描述整个提取器的元数据元素MEE。紧随该元数据元素MEE之后的可以是被提取器引用的那些媒体数据包(NALu)的元数据元素ME。
图5所示是按照本发明所述生成的文件格式的全貌示意图。图5所示的结构相当于图2所示的结构,但其中详细示出视频轨道VT、元数据轨道TMT以及媒体数据流MDS和元数据流MTS的内容。视频轨道VT包含全局描述视频轨道的一系列元数据结构。例如,这些元数据结构涉及下列描述:
-视频流的描述,包括编码方法、位置分辨率、初始化参数等等(称作"visual sample entry"视觉样本记录);
-操作点的描述(称作"scalable tier entry"可伸缩层记录),其中每个操作点均有一个记录;
-结构模式的描述,以及将组标识分配给数据元素的分配(称作"NALumap entry"NALu映射记录);
-结构模式与"样本(Samples)"的对应,也就是视频图像与预定时刻的对应(称作"sample to group box"样本到组盒),
-其它必要的结构,例如"sample size box"(样本大小盒)。
元数据轨道TMT中含有用来全局描述元数据流MTS中的同步元数据的数据结构。元数据轨道尤其含有元数据流的描述(称作“meta data sample entry”元数据样本记录)以及其它必要的结构(例如"sample size box")。
在MPEG4文件格式和SVC文件格式描述中已对上述数据结构进行了充分说明,因此不再予以赘述。
在图5中使用箭头Z0或Z1表示通过元数据轨道TMT引用元数据流段M0或M1。除了图3中所示的数据流段S0和M0之外,在图5中还有数据流段S1和M1。数据流段S1表示某一时刻的视频图像,且该数据流段S1包含5个NALu。与数据流段S0的不同之处在于,在S1中没有集合体。因此按照本发明所述,向S1中的每一个NALu恰好分配元数据流段M1中的一个元数据元素ME。
图6所述的数据格式类似于图5,但还有元数据保存在媒体数据流的多个分层的平面之中。在图6中将涉及整个元数据轨道TMT的元数据保存为“轨道元数据”("track meta data")TMD。针对不同的质量等级形成不同的层,在元数据轨道TMT中将这些层保存为“分层元数据”("tier meta data")TI,且针对不同的质量等级设置不同的层。图6所示为TI1和TI2层的示例。在样本层上,也就是参照一个单独的视频图像,在元数据流MTS中有相应的元数据元素MS,该元数据元素MS用来描述某一时刻的相应的样本或者视频图像。因此如图6所示,可针对视频图像在元数据流MTS中形成元数据流段M0′或M1′,且这些元数据流段分别含有一个元数据元素MS和元数据流段M0或M1。在位于其下面的视频数据平面上设置有前面所述的元数据元素ME或MA′或ME′。这样就将样本平面和数据包平面上的元数据与媒体数据具有时间上和结构上的同步地保存在元数据流MTS之中。
图7所示的文件格式类似于图6,可以将元数据轨道TMT中的元数据进行适当分组,使得可以通过元数据轨道TMT存取元数据流MTS中的各个元数据元素ME或MA′。元数据轨道TMT中的存取机制相当于视频轨道VT中的存取机制。这样就可在提取媒体数据流的片段时,从元数据流中取得那些描述相关媒体数据的片段。例如可以通过网络(例如以“RTP负载格式”或者以专用的SEI消息)将这些元数据与媒体数据一起发送,同时可以在该网络中或者在相应的终端设备中继续进行匹配。
例如可以使用文献[3]中所描述的提取方法从数据流中提取元数据。这时可适当使用该方法,使得数据读取装置除了媒体数据之外还可存取相应的元数据,以便在提取比特流的片段时提高质量。某些情况下并不需要存取所有元数据,因为例如已通过轨道中的描述指定了哪些媒体数据属于特定的位置伸缩等级,就当前所选的质量而言不需要附加的元数据来用于对该媒体数据进行处理。
由于按照本发明所述的方法元数据具有和视频数据一样的结构,因此无论是元数据还是媒体数据,均可使用同样的方法来稀疏数据流(称作streamthinning,流细化)或者提取数据。如果在元数据轨道TMT以及视频轨道VT中使用相同的分组方法,如图7所示,则尤其如此。如图7所示的分组主要用来生成可伸缩的元数据流,即可以将元数据适当分组,使得可以例如根据相关性对其进行伸缩。还可以实现元数据的时间上的伸缩。如果象媒体数据一样对元数据进行分组,则当匹配数据流时很容易提取剩余的相关元数据。尤其可以针对某一个元数据流(同样也可针对媒体数据)将多个分组保存在不同的轨道之中。这些分组方法可用来例如将媒体数据的片段合并成前面所述的层。可以在SVC文件格式中摘要性描述并选择这些层。如标准化文献[1]所述,可以将数据元素分配给具有"Sample to Groupbox"和"Scalable NALu Nap Entry"的分组,同时给每一个数据元素分配一个分组标识。
如图8所示,其中有按照本发明的一种实施方式实现的发送器1、接收器2以及数字信息载体3。使用发送器1可以生成本发明所述的数字数据流。为此发送器1包括用来生成媒体数据流的第一装置4,该媒体数据流含有多个按照时间排序的媒体数据流段,每一个媒体数据流段均含有一个或多个媒体数据包。发送器还包括将与媒体数据流时间同步的元数据流分配给该媒体数据流的第二装置,其中该元数据流含有元数据流段,并且给该媒体数据流段中的一个或多个分别分配一个元数据流段。除此之外,在发送器中设置第三装置6,可用来将一个或多个第一元数据元素适当设置于相应的元数据流段之中,使得可将相应的元数据流段的第一元数据元素分配给被分配了相应元数据流段的媒体数据流段的每一个媒体数据包。
可以通过任意一种无线或有线的通信路径,将发送器1中生成的数据流发送给接收器2,如箭头10所示。接收器2然后就可以对本发明所述的数字数据流进行适当处理。接收器2具有以适当方式读取该数据流的读取装置7,从而可通过对读出的媒体数据包和/或集合体和/或提取器进行编号,同时对读出的第一和/或第二和/或第三元数据元素进行编号,确定媒体数据包与第一元数据元素之间的对应关系,和/或集合体与第二元数据元素之间的对应关系,和/或提取器与第三元数据元素之间的对应关系。
为了生成本发明所述的数据流,发送器1优选与一种数字信息载体3相互作用,如图8中的双箭头11所示。在数字信息载体3上有第一数据存储区8和第二数据存储区9。使用第一数据存储区8中的信息可以生成媒体数据流,该媒体数据流中含有多个按照时间排序的媒体数据流段,且每一个媒体数据流段均含有一个或多个媒体数据包。使用第二数据存储区9中的信息可以生成与媒体数据流时间同步的元数据流,该元数据流含有元数据流段,并且给该媒体数据流段中的一个或多个各分配一个元数据流段。在数字信息载体内将一个或多个第一元数据元素适当布置于相应的元数据流段之中,使得可将相应元数据流段的第一元数据元素分配给被分配了相应元数据流段的媒体数据流段的每一个媒体数据包。
文献参考:
[1]ISO/IEC JTC1/SC29/WG11 N7906-WD 3.0 of ISO/IEC 14496-15/PDAM2(SVC File Format),Bangkok,Thailand,Januar 2006
[2]ISO/IEC JTC1/SC29/WG11 N7555-Working Draft 4 of ISO/IEC14496-10:2005/AMD3 Scalable Video Coding,Nice,France,October 2005
[3]I.Amonou,N.Cammas,S.Kervadec,S.Pateux,′On the high level syntax forSVC′,ISO/IEC JTC 1/SC 29/WG 11 and ITU-T Q6/SG16,Document JVT-P032,Poznan,Poland,July 2005
[4]ISO/IEC JTC1/SC29/WG11 N7475-ISO/IEC 14496-12-ISO base mediafile format Amd2,Poznan,Poland,July 2005
附图标记清单
VT 视频轨道
MT 元数据容器
MD 媒体数据容器
MDS 媒体数据流
S0,...,S7 媒体数据流段
A 集合体
M0,...,M7 元数据流段
MTS 元数据流
TMT 随时间变化的元数据轨道
ME 第一元数据元素
MA′ 第二元数据元素
MEA 集合体的元数据元素
P,P′ 分配
NALu 视频数据包
E 提取器
MDS′ 媒体数据流
MTS′ 元数据流
ME1′,ME2′ 第三元数据元素
MS 元数据段的元数据元素
TMD 轨道元数据
TI 层元数据
TI1,TI2 层
1 发送器
2 接收器
3 数字信息载体
4 发送器的第一装置
5 发送器的第二装置
6 发送器的第三装置
7 接收器的读取装置
8  数字信息载体的第一存储区
9  数字信息载体的第二存储区
10 箭头
11 双箭头

Claims (25)

1.一种用于生成数字数据流的方法,其中:
-生成媒体数据流(MDS),该媒体数据流(MDS)含有多个按照时间排序的媒体数据流段(S0,...,S7),每一个媒体数据流段均含有一个或多个媒体数据包(NALu);
-给该媒体数据流(MDS)分配与该媒体数据流(MDS)时间同步的元数据流(MTS),该元数据流(MTS)含有元数据流段(M0,...,M7),并且给一个或多个媒体数据流段(S0,...,S7)各分配一个元数据流段(M0,...,M7);
其特征在于,
在一个相应的元数据流段(M0,...,M7)中设置一个或多个第一元数据元素(ME),使得给被分配了相应元数据流段(M0,...,M7)的媒体数据流段(S0,...,S7)的每一个媒体数据包(NALu)分配相应元数据流段(M0,...,M7)的第一元数据元素(ME)。
2.根据权利要求1所述的方法,其特征在于,在一个或多个媒体数据流段(S0,...,S7)中分别将多个媒体数据包(NALu)合并成一个或多个集合体(A),在分配给相应媒体数据流段(S0,...,S7)的元数据流段(M0,...,M7)中设置一个或多个第二元数据元素(MA′),使得给每一个集合体(A)分配一个第二元数据元素(MA′)。
3.根据权利要求2所述的方法,其特征在于,第二元数据元素(MA′)含有用来描述相应集合体(A)的元数据元素(MEA),并且含有在第一元数据元素(ME)中包含的那些元数据,所述第一元数据元素已经分配给合并在相应集合体内的媒体数据包(NALu)。
4.根据权利要求2或3所述的方法,其特征在于,通过集合体(A)合并基本上具有相同数据质量的媒体数据包(NALu)。
5.根据上述权利要求中任一项所述的方法,其特征在于,所述数据流包括多个媒体数据流(MDS)以及相应分配的元数据流(MTS)。
6.根据权利要求5所述的方法,其特征在于,至少一个媒体数据流(MDS)含有一个或多个提取器(E),所述提取器分别引用另一个媒体数据流(MDS)的一个或多个媒体数据包(NALu),其中将分配给至少一个媒体数据流(MDS)的元数据流(MTS)中的第三元数据元素(ME′)分配给每一个提取器(E)。
7.根据权利要求6所述的方法,其特征在于,第三元数据元素(ME′)含有用来描述提取器(E)的元数据元素(MEE),并且含有在第一和/或第二元数据元素(ME,MA′)中所含的那些元数据,所述第一或第二数据元素已分配给通过提取器(E)引用的媒体数据包(NALu)。
8.根据上述权利要求中任一项所述的方法,其特征在于,在一个或多个第一元数据元素(ME)中分别指定是否以及/或者多少个后续的第一和/或第二和/或第三元数据元素(ME,MA′,ME′)具有相同的内容。
9.根据上述权利要求中任一项所述的方法,其特征在于,在所述数据流中引用媒体数据流段(S0,...,37)和/或者元数据流段(M0,...,M7)。
10.根据上述权利要求中任一项所述的方法,其特征在于,在所述数据流中含有对一个或多个质量等级的描述,以及存取具有相应质量等级的媒体数据包(NALu)的指令。
11.根据上述权利要求中任一项所述的方法,其特征在于,在所述数据流中存取包含在元数据流段(M0,...,M7)中的第一和/或第二和/或第三元数据元素(ME,MA′,ME′)。
12.根据上述权利要求中任一项所述的方法,其特征在于,所述媒体数据流(MDS)是一种视频数据流,每一个媒体数据流段(S0,...,S7)均表示预定时刻的视频图像,而媒体数据包(NALu)是视频数据包。
13.根据权利要求12所述的方法,其特征在于,所述视频数据流是一种MPEG4-SVC视频数据流。
14.根据上述权利要求中任一项所述的方法,其特征在于,至少一部分第一和/或第二和/或第三元数据元素(ME,MA′,ME′)含有涉及数据流速率控制的参数,尤其是媒体数据的R/D优化提取的参数,并且/或者含有用于匹配数据流质量的参数。
15.根据上述权利要求中任一项所述的方法,其特征在于,在至少一部分元数据流段(M0,...,M7)中分别存在一个第四元数据元素(MS),用来对被分配了相应元数据流段(M0,...,M7)的媒体数据流段(S0,...,S7)进行描述。
16.一种对使用上述权利要求中任一项所述方法生成的数字数据流进行处理的方法,其特征在于,读取数据流,使得通过对读出的媒体数据包(NALu)和/或集合体(A)和/或提取器(E)进行编号,同时对读出的第一和/或第二和/或第三元数据元素(MA′,ME′)进行编号,确定媒体数据包(NALu)与第一元数据元素(ME)之间的对应关系,和/或集合体(A)与第二元数据元素(MA′)之间的对应关系,和/或提取器(E)与第三元数据元素(ME′)之间的对应关系。
17.用于发送权利要求1至15中任一项所述数据流的发送器,其特征在于,该发送器包含
-第一装置(4),用来生成媒体数据流(MDS),所述媒体数据流含有多个按照时间排序的媒体数据流段(S0,...,S7),每一个媒体数据流段均含有一个或多个媒体数据包(NALu);
-第二装置(5),用来将与媒体数据流(MDS)时间同步的元数据流(MTS)分配给媒体数据流(MDS),该元数据流(MTS)含有元数据流段(M0,...,M7),并且给一个或多个媒体数据流段(S0,...,S7)各分配一个元数据流段(M0,...,M7);
-第三装置(6),用来将一个或多个第一元数据元素(ME)设置在相应的元数据流段(M0,...,M7)之中,使得给被分配了相应元数据流段(M0,...,M7)的媒体数据流段(S0,...,S7)的每一个媒体数据包(NALu)分配相应元数据流段(M0,...,M7)的第一元数据元素(ME)。
18.根据权利要求17所述的发送器,其特征在于,发送器(1)具有对权利要求16所述的数据流进行处理的装置,并且发送经过处理的数据流。
19.根据权利要求18所述的发送器,其特征在于,发送器(1)利用所述对数据流进行处理的装置,根据预定的标准,尤其是根据涉及数据率或者数据质量的标准,从数据流中读取数据片段,并且发送读出的数据片段。
20.一种用于接收权利要求1至15中任一项所述数据流的接收器,特征在于该接收器具有读取装置(7),用于读取数据流,使得通过对读出的媒体数据包(NALu)和/或集合体(A)和/或提取器(E)进行编号,同时对读出的第一和/或第二和/或第三元数据元素(MA′,ME′)进行编号,确定媒体数据包(NALu)与第一元数据元素(ME)之间的对应关系,和/或集合体(A)与第二元数据元素(MA′)之间的对应关系,和/或提取器(E)与第三元数据元素(ME′)之间的对应关系。
21.根据权利要求20所述的接收器,其特征在于,接收器(2)构成为根据预定的标准,尤其是根据涉及数据率和/或数据质量的标准,从数据流中读取数据片段。
22.一种数字信息载体,其特征在于,该信息载体(3)包括数字信息,根据权利要求1至13中任一项所述的方法利用这些数字信息生成数据流。
23.根据权利要求22所述的数字信息载体,其特征在于,该信息载体(3)包括:
-第一数据存储区(8),用来生成媒体数据流(MDS),所述媒体数据流含有多个按照时间排序的媒体数据流段(S0,...,S7),每一个媒体数据流段(S0,...,S7)含有一个或多个媒体数据包(NALu);
-第二数据存储区(9),用来生成与媒体数据流(MDS)时间同步的元数据流(MTS),该元数据流(MTS)含有元数据流段(M0,...,M7),并且给一个或多个媒体数据流段(S0,...,S7)各分配一个元数据流段(M0,...,M7);
其中在一个相应的元数据流段(M0,...,M7)中设置一个或多个第一元数据元素(ME),使得给被分配了相应元数据流段(M0,...,M7)的媒体数据流段(S0,...,S7)的每一个媒体数据包(NALu)分配相应元数据流段(M0,...,M7)的第一元数据元素(ME)。
24.根据权利要求22或23所述的数字信息载体,其特征在于,该信息载体(3)包括用来引用媒体数据流段(S0,...,S7)的轨道,并且/或者包括用来引用元数据流段(M0,...,M7)的轨道。
25.根据权利要求24所述的数字信息载体,其特征在于,用来引用元数据流段(M0,...,M7)的轨道包括对第一和/或第二和/或第三元数据元素(ME,MA′,ME′)的分组的描述。
CNA2007800109252A 2006-03-27 2007-02-19 生成数字数据流的方法 Pending CN101455081A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006014036.2 2006-03-27
DE102006014036 2006-03-27
DE102006045140.6 2006-09-25

Publications (1)

Publication Number Publication Date
CN101455081A true CN101455081A (zh) 2009-06-10

Family

ID=40735977

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007800109252A Pending CN101455081A (zh) 2006-03-27 2007-02-19 生成数字数据流的方法

Country Status (1)

Country Link
CN (1) CN101455081A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102438151A (zh) * 2011-12-14 2012-05-02 哈尔滨工业大学 一种嵌入数字水印的视频流媒体传输信道的差错控制方法
CN103931199A (zh) * 2011-11-14 2014-07-16 苹果公司 多媒体片段的生成
CN107066347A (zh) * 2015-09-30 2017-08-18 罗伯特·博世有限公司 用于生成输出数据流的方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103931199A (zh) * 2011-11-14 2014-07-16 苹果公司 多媒体片段的生成
US9792955B2 (en) 2011-11-14 2017-10-17 Apple Inc. Automatic generation of multi-camera media clips
CN102438151A (zh) * 2011-12-14 2012-05-02 哈尔滨工业大学 一种嵌入数字水印的视频流媒体传输信道的差错控制方法
CN102438151B (zh) * 2011-12-14 2013-07-03 哈尔滨工业大学 一种嵌入数字水印的视频流媒体传输信道的差错控制方法
CN107066347A (zh) * 2015-09-30 2017-08-18 罗伯特·博世有限公司 用于生成输出数据流的方法和设备

Similar Documents

Publication Publication Date Title
CN102132562A (zh) 用于轨道和轨道子集归组的方法和设备
CN103404140B (zh) 指示比特流子集的方法和设备
CN102271249B (zh) 用于可伸缩视频的感兴趣区域信息设置方法和解析方法
CN105637884B (zh) 多层视频文件格式设计的方法及装置
CN101548548B (zh) 用于在视频编码中提供画面输出指示的系统和方法
WO2021049333A1 (ja) 情報処理装置、情報処理方法、再生処理装置及び再生処理方法
KR102304687B1 (ko) 정보 처리 장치 및 방법
CN109155861A (zh) 用于编码媒体内容的方法和装置以及计算机程序
CN108702503A (zh) 用于视频编码和解码的装置、方法及计算机程序
CN101669369B (zh) 媒体文件中的多个解码时间的信号传输
CN102224733B (zh) 用于处理视频文件的系统和方法
CN107113476A (zh) 用于视频流的方法、装置以及计算机可读存储介质
CN104221386A (zh) 译码视频及存储视频内容的方法
CN106464891A (zh) 用于视频编码和解码的方法和装置
US20140003799A1 (en) Systems and methods for decoding a video sequence encoded using predictions that include references to frames in reference segments from different video sequences
CN102484700A (zh) 3d视频编码格式
CN104137550A (zh) 用于多视图视频译码mvc兼容三维视频译码3dvc的深度分量去除
CN104641642A (zh) 用于视频编码的方法和装置
CN104661025A (zh) 可缩放视频编码中的编码依赖指示
CN102177718A (zh) 多视图媒体数据
CN101982979A (zh) 立体适配方法和立体适配装置
CN104813657B (zh) 用于将数字视频编码和解码的方法以及相关编码和解码设备
CN103621075A (zh) 图像数据发送装置、图像数据发送方法、图像数据接收装置和图像数据接收方法
CN114762356A (zh) 图像处理装置和方法
KR20240017138A (ko) 송신 장치, 송신 방법, 수신 장치 및 수신 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090610