CN107079174B - 流拼接器、音频编码器/解码器、拼接方法、音频编码/解码方法和计算机存储介质 - Google Patents

流拼接器、音频编码器/解码器、拼接方法、音频编码/解码方法和计算机存储介质 Download PDF

Info

Publication number
CN107079174B
CN107079174B CN201580048451.5A CN201580048451A CN107079174B CN 107079174 B CN107079174 B CN 107079174B CN 201580048451 A CN201580048451 A CN 201580048451A CN 107079174 B CN107079174 B CN 107079174B
Authority
CN
China
Prior art keywords
audio
data stream
audio data
access unit
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580048451.5A
Other languages
English (en)
Other versions
CN107079174A (zh
Inventor
赫伯特·托马
罗伯特·布雷特
斯特芬·卡拉格鲁
马克斯·诺伊恩多夫
亚琴·昆兹
安德鲁斯·尼德梅尔
麦克尔·卡特斯莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN202110114803.XA priority Critical patent/CN113038172B/zh
Publication of CN107079174A publication Critical patent/CN107079174A/zh
Application granted granted Critical
Publication of CN107079174B publication Critical patent/CN107079174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/10Arrangements for replacing or switching information during the broadcast or the distribution
    • H04H20/103Transmitter-side switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/34Flow control; Congestion control ensuring sequence integrity, e.g. using sequence numbers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44004Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving video buffer management, e.g. video decoder buffer or video display buffer

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Circuits Of Receivers In General (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

通过使用一个或多个截断单元分组,使得音频拼接更有效,其中一个或多个截断单元分组被插入到音频数据流中以针对预定访问单元向音频解码器指示与预定访问单元相关联的音频帧的端部要在播出时被丢弃。

Description

流拼接器、音频编码器/解码器、拼接方法、音频编码/解码方 法和计算机存储介质
技术领域
本申请涉及音频拼接。
背景技术
被编码的音频通常以样本的区块(chunk)来呈现,通常针对每一区块有1024、2048或4096个样本。这些区块在下文中被称为帧。在MPEG音频编解码器(例如AAC或MPEG-H 3D音频)的上下文中,这些区块/帧被称为细粒(granule),被编码的区块/帧被称为访问单元(AU)并且被解码的区块被称为组成单元(CU)。在传输系统中,音频信号只能以这些被编码的区块(访问单元)的粒度可访问且可寻址。然而更好的是,能够以某一最终的粒度来寻址音频数据,特别是为了以下的目的:例如被编码的音频数据的流拼接或配置改变、与另一流(例如视频流)同步并对齐。
目前所知道的是丢弃编码单元的一些样本。例如,MPEG-4文件格式具有所谓的编辑列表,其可以用于丢弃被编码的音频文件/比特流的起始和末端处的音频样本[3]。不利的是,该编辑列表方法只与MPEG-4文件格式一同工作,即其是文件格式特定的,而无法与诸如MPEG-2传输流的流格式一同工作。除此之外,编辑列表被深深地嵌入MPEG-4文件格式中,因而无法在操作中(on the fly)被流拼接设备轻易地修改。在AAC[1]中,截断信息可以以extension_payload的形式插入到数据流中。然而,被编码的AAC访问单元中的这种extension_payload是不利的,其原因在于截断信息被深深地嵌入AAC AU中并且无法在操作中被流拼接设备轻易地修改。
发明内容
因此,本发明的目的在于提供一种音频拼接的构思,其在例如流拼接器及/或音频解码器处的拼接过程的程序复杂性方面更有效。
该目的是由随附的独立权利要求的主题实现的。
本申请的发明是由下面思想所启发,即通过使用插入到音频数据流中的一个或多个截断单元分组以针对预定访问单元向音频解码器指示与预定访问单元相关联的音频帧的端部在播出时被丢弃,可以更高效地呈现音频拼接。
根据本发明的一个方面,最初向音频数据流提供截断单元分组,以按比音频帧长度更细的时间粒度呈现在预定访问单元处更容易拼接的由此设置的音频数据流。因此,一个或多个截断单元分组分别被寻址到音频解码器和流拼接器。根据实施例,流拼接器简单地搜索这样的截断单元分组以定位可能的拼接点。流拼接器据此设置截断单元分组以指示与预定访问单元相关联的音频帧的端部在播出时被丢弃,在预定访问单元处切断第一音频数据流,并且将音频数据流与另一音频数据流进行拼接,以在预定访问单元处彼此邻接。由于截断单元分组已经被提供在可拼接的音频数据流内,因此拼接过程不会插入额外的数据,因此比特率消耗到目前为止保持不变。
备选地,截断单元分组可以在拼接时被插入。不管是在初始时就向音频数据流提供了截断单元分组还是在拼接时向音频数据流提供截断单元分组,被拼接的音频数据流中插入了这样的截断单元分组,其端部在预定访问单元是音频数据流的在拼接点之前的部分的情况下是尾端部并且在预定访问单元是音频数据流的在拼接点之后的部分的情况下是前端部。
附图说明
本申请的实现方式的有利方面是从属权利要求的主题。具体地,下面参照附图描述本申请的优选实施例,其中:
图1从上到下示意地示出了音频信号(该音频数据流具有以音频信号的音频帧为单位被编码于其中的音频信号)、视频(其是由帧序列构成)以及另一音频数据流和被编码于其中的音频信号(将潜在地从某一视频帧开始替换初始音频信号);
图2示出了根据本申请的实施例的可拼接的音频数据流的示意图,即具有TU分组以减轻拼接动作的音频数据流;
图3示出了说明根据实施例的TU分组的示意图;
图4示意性地示出了根据备选实施例的TU分组,其中根据该备选实施例,TU分组能够分别发信号通知前端部和尾端部;
图5示出了根据实施例的音频编码器的框图;
图6示出了说明根据实施例的针对拼接输入时刻和拼接输出时刻的触发源的示意图,其中拼接输入时刻和拼接输出时刻取决于视频帧光栅;
图7示出了根据实施例的流拼接器的示意性框图,其中该图附加地示出了流拼接器接收图2的音频数据流并据此输出被拼接的音频数据流;
图8示出了根据实施例的图7的流拼接器将较低音频数据流拼接为较高音频数据流的操作模式的流程图;
图9示出了根据实施例的流拼接器从较低音频数据流拼接回到较高音频数据流的操作模式的流程图;
图10示出了根据实施例的音频解码器的框图,其中该图附加地示出了音频解码器接收图7所示的被拼接的音频数据流;
图11示出了图10的音频解码器的操作模式的流程图,以根据访问单元是IPF访问单元和/或包括TU分组的访问单元说明访问单元的不同处理;
图12示出了TU分组的语法的示例;
图13A-C示出了如何从一个音频数据流拼接为另一个音频数据流的不同示例,其中拼接时刻由视频(这里是每秒50帧的视频)和音频信号(在48kHz处以1024个样本宽度的细粒或音频帧并且以90kHz的时间戳时基被编码为音频数据流,使得一个视频帧持续时间等于1800个时基刻度,而一个音频帧或音频细粒等于1920个时基刻度)确定;
图14示出了说明在由音频帧光栅确定的拼接时刻使用图13A-C的示例性帧和采样率对两个音频数据流进行拼接的另一示例性情况的示意图;
图15示出了说明根据实施例的对不同编码配置的两个音频数据流进行拼接的编码器动作的示意图;
图16示出了根据实施例的使用拼接的不同情况;以及
图17示出了根据实施例的支持不同编码配置的音频编码器的框图。
具体实施方式
图1示出了音频数据流的示例性部分,以说明当试图将相应音频数据流与另一音频数据流进行拼接时出现的问题。至此,图1的音频数据流形成了后续附图中所示的音频数据流的一种基础。因此,利用图1的音频数据流进行的描述对于下面进一步描述的音频数据流也是有效的。
图1的音频数据流总体上用附图标记10表示。音频数据流中编码有音频信号12。具体地,音频信号12以音频帧14(即音频信号12的时间部分)为单位被编码为音频数据流,如图1所示,时间部分在时间上彼此不重叠并且彼此邻接,或者备选地彼此重叠。音频信号12以音频帧14为单位被编码为音频数据流10的方式可以不同地选择:可以使用变换编码,以将音频信号以音频帧14为单位编码为数据流10。在这种情况下,可以对音频帧14的音频信号应用一个或多个频谱分解变换,其中一个或多个频谱分解变换在时间上覆盖音频帧14并且延伸超过其前端和尾端。频谱分解变换系数包含在数据流内,使得解码器能够通过逆变换来重构相应的帧。在编码器和/或解码器侧使用所谓的窗函数将相互重叠并且甚至超过音频帧边界重叠的变换部分(以变换部分为单位对音频信号进行频谱分解)加窗,使得解码器侧处的所谓的重叠添加过程揭示音频信号12的重构,其中根据重叠相加处理,将逆变换的发信号通知的频谱组成变换相互重叠并且相加。
备选地,例如,音频数据流10具有使用线性预测以音频帧14为单位编码在其中的音频信号12,其中根据该线性预测,使用线性预测系数和进而使用长期预测(LTP)系数(如LTP增益和LTP延迟、码本索引和/或激励的变换编码(残差信号))的预测残差的编码表示来对音频帧进行编码。甚至在这里,音频帧14在解码侧的重构可以取决于前一帧的编码或例如从一个音频帧到另一个音频帧的时间预测或用于对激励信号进行变换编码的变换窗口的重叠等。这里提到该情况,这是因为它在以下描述中起作用。
为了传输和网络处理的目的,音频数据流10由有效载荷分组16的序列组成。每一个有效载荷分组16属于音频数据流10沿流顺序20被划分成的访问单元18的序列中的相应访问单元。每一个访问单元18与音频帧14中的相应音频帧相关联,如图2中的双箭头22所指示的。如图1所示,音频帧14的时间顺序可以与数据流10中相关联的音频帧18的顺序一致:紧邻另一帧之后的音频帧14可以与紧邻数据流10中的另一音频帧的访问单元之后的数据流10中的访问单元相关联。
也就是说,如图1所示,每一个访问单元18可以具有一个或多个有效载荷分组16。特定访问单元18的一个或多个有效载荷分组16中编码有描述相关联的帧14的上述编码参数,例如频谱分解变换系数、LPC和/或激励信号的编码。
音频数据流10还可以包括时间戳信息24,该时间戳信息24针对数据流10的每一个访问单元18指示播出与相应的访问单元18AUi相关联的音频帧i的时间戳ti。如图1所示,时间戳信息24可以被插入到每一个访问单元18的一个或多个分组16之一中,以指示相关联的音频帧的时间戳,但是不同的解决方案也是可行的,例如将音频帧i的时间戳信息ti插入到相关联的访问单元AUi的一个或多个分组的每一个分组中。
由于分组化、访问单元划分和时间戳信息24,音频数据流10特别适合于在编码器和解码器之间流式传输。也就是说,图1的音频数据流10是流格式的音频数据流。图1的音频数据流可以例如是符合MPEG-H 3D音频或MHAS[2]的音频数据流。
为了便于传输/网络处理,分组16可以具有字节对齐的大小,并且可以区分不同类型的分组16。例如,一些分组16可以与第一音频信道或第一音频信道集合有关,并且具有与其相关联的第一分组类型,而具有与其相关联的另一分组类型的分组中编码有音频信号12的另一音频信道或另一音频信道集合。又一些分组可以是携带很少改变的数据的分组类型,例如配置数据、有效的或被访问单元序列使用的编码参数。又一些分组16可以是携带对于其所属的访问单元有效的编码参数的分组类型,而其他有效载荷分组携带样本值、变换系数、LPC系数等的编码。因此,每一个分组16可以具有分组类型指示符,其可以分别容易地被中间网络实体和解码器访问。下面描述的TU分组可以通过分组类型与有效载荷分组区分开。
只要音频数据流10按照原样发送,就不会发生问题。然而,假设音频信号12将在解码侧被播出,仅直到由图1中的τ示例性地指示的某个时间点为止。图1示出了这个时间点τ可以由诸如视频帧时钟的某个外部时钟确定。例如,图1在26处示出了以相对于音频信号12的接连时间对齐方式由帧28的序列组成的视频。例如,时间戳Tframe可以是新场景、新节目等的第一画面的时间戳,因此可能期望在该时间τ=Tframe切断音频信号12,并且从该时间开始用另一音频信号12替换该音频信号12,从而表示例如新场景或节目的音调信号。例如,图1示出了以与音频数据流10相同的方式(即,使用由一个或多个有效载荷分组16组成的访问单元18)构造的已经存在的音频数据流30,其中,音频信号32以时间帧14为单位伴随或描述从时间戳Tframe开始的帧28的画面序列,使得第一音频帧14的前端与时间戳Tframe重合,即,音频信号32要以帧14的前端播出,其中帧14的前端被登记到时间戳Tframe的播出。
然而,不利地,音频数据流10的帧14的帧速率完全独立于视频26的帧速率。因此,τ=Tframe落入音频信号12的某一帧14内是完全随机的。也就是说,在没有任何附加措施的情况下,只可以完全地丢掉与τ所在的音频帧14,j相关联的访问单元AUj,并且在音频数据流10的在前访问单元AUj-1附加音频数据流30的访问单元18的序列,从而导致音频信号12的音频帧j的前端部34中的静音。
下文描述的各种实施例克服了上述缺陷并且使得能够处理这种拼接问题。
图2示出了根据本申请的实施例的音频数据流。图2的音频数据流通常用附图标记40指示。主要地,音频信号40的构造与上面关于音频数据流10解释的构造一致,即音频数据流40包括有效载荷分组的序列,即针对数据流40被划分成的每个访问单元18有一个或多个有效载荷分组。每个访问单元18与音频信号的音频帧中的某一音频帧相关联,其中音频信号以音频帧14为单位被编码为数据流40。然而,除此之外,音频数据流40已被“准备”被拼接在与任意预定访问单元相关联的音频帧内。这里,这例如是访问单元AUi和访问单元AUj。首先参考访问单元AUj。具体地,通过在音频数据流40中插入截断单元分组42而使音频数据流40呈现为“可拼接的”,截断单元分组42可设置为针对访问单元AUi指示相关联的音频帧i的端部在播出时被丢弃。下面将讨论截断单元分组42的优点和效果。然而,关于截断单元分组42的定位及其内容,将做出一些初步的说明。例如,尽管图2示出了截断单元分组42位于访问单元AUi内,即截断单元分组42指示了其端部的那个访问单元,但是截断单元分组42可以替换地位于访问单元AUi之前的任何访问单元中。类似地,即使截断单元分组42在访问单元AUi内,访问单元42也不需要是相应访问单元AUi中的第一分组,如图2示例性所示。
根据图3中所示的实施例,截断单元分组42指示的端部是尾端部44,即,帧14的从音频帧14内的某个时刻tinner延伸到帧14的尾端的部分。换句话说,根据图3的实施例,不存在发信号通知截断单元分组42指示的端部将是前端部还是尾端部的语法元素。然而,图3的截断单元分组42包括指示分组42是截断单元分组的分组类型索引46和指示截断长度(即,尾端部44的时间长度Δt)的截断长度元素48。截断长度48可以以单独音频样本为单位或以连续音频样本的n元组来度量部分44的长度,其中,n个大于1且例如小于N个样本,N是帧14中的样本的数量。
稍后将描述截断单元分组42可以可选地包括一个或多个标志50和52。例如,标志50可以是拼接输出标志,该拼接输出标志指示截断单元分组42指示其端部44的访问单元AUi被准备用作拼接输出点。标志52可以是专用于解码器的标志,该标志用于指示当前访问单元AUi是否实际上已被用作拼接输出点。然而,如刚刚概述的,标志50和52仅仅是可选的。例如,TU分组42本身的存在可以是去往流拼接器和解码器的关于截断单元42所属的访问单元是适合于拼接输出的访问单元的信号,并且将截断长度48设置为零相应地可以是面向解码器的关于不执行截断并且不进行拼接输出的指示。
上面关于TU分组42的说明对于诸如TU分组58的任何TU分组是有效的。
如下面将进一步描述的,还可能需要访问单元的前端部的指示。在这种情况下,诸如TU分组58的截断单元分组可设置为指示诸如图3所示的尾端部的尾端部。这样的TU分组58可以通过截断单元分组的类型索引46与诸如42的前端部截断单元分组区分开。换句话说,不同的分组类型可以分别与指示尾端部的TU分组42和用于指示前端部的TU分组相关联。
为了完整性,除了图3所示的语法元素之外,图4还示出了截断单元分组42包括前/尾指示符54的可能性,前/尾指示符54指示截断长度48是从音频帧i的前端还是尾端向音频帧i的内部度量的,由截断长度48指示其长度的端部是尾端部44还是前端部56。TU分组的分组类型将是相同的。
如下面将更详细地描述的,截断单元分组42使得访问单元AUj适合于拼接输出,这是因为下面进一步描述的流拼接器可以设置尾端部44,使得从外部定义的拼接输出时间τ(比较图1)开始,停止播出音频帧i。从那时起,可以播出拼接输入的音频数据流的音频帧。
然而,图2还示出了另一截断单元分组58被插入到音频数据流40中,该另一截断单元分组58可设置为针对访问单元AUj(其中j>i)指示其端部在播出时被丢弃。然而,此时,访问单元AUj(即访问单元AUj+1)以独立于紧邻在前的访问单元AUj-1的方式编码有其相关联的音频帧j,即,没有预测参考或内部解码器寄存器根据在前访问单元AUj-1来设置,或者没有重叠相加处理使得访问单元AUj-1的重构需要正确重构和播出访问单元AUj。为了将作为即时播出访问单元的访问单元AUj与遭受上述访问单元相互依赖性的其它访问单元(例如,尤其是AUi)区分开,使用阴影来高亮显示访问单元AUj
图2示出了这样的事实,即,图2所示的其它访问单元编码有其相关联的音频帧,使得在基于相关联的访问单元正确重构和播出相应音频帧仅在有权访问紧邻在前的访问单元(如从在前访问单元指向相应访问单元的小箭头60所指示的)的情况下可行的意义上,其重构取决于紧邻在前的访问单元。在访问单元AUj的情况下,从紧邻在前的访问单元(即AUj-1)指向访问单元AUj的箭头被去掉,以指示访问单元AUj的即时播出能力。例如,为了提供这种即时播出能力,访问单元AUj编码有附加数据,例如用于初始化解码器的内部寄存器的初始化信息、允许估计通常由紧邻在前的访问单元的逆变换的时间重叠部分提供的混叠消除信息的数据等。
访问单元AUi和AUj的能力彼此不同:如下所述,由于存在截断单元分组42,因此访问单元AUi适合作为拼接输出点。换句话说,流拼接器能够在访问单元AUi处切断音频数据流40,以附加来自另一音频数据流(即,拼接输入的音频数据流)的访问单元。
如果TU分组58能够指示尾端部44,则这在访问单元AUj处也是可行的。另外地或备选地,截断单元分组58可设置为指示前端部,在这种情况下,访问单元AUj适合于作为拼接(返回)输入的场合。也就是说,截断单元分组58可以指示音频帧j的前端部不被播出,并且直到该时间点,即直到该尾端部的尾端,(初始地)拼接输入的音频数据流的音频信号才可以被播出。
例如,截断单元分组42可能已经将拼接输出标志50设置为0,而截断单元分组58的拼接输出标志50可以被设置为0或可以被设置为1。下面将例如参照图16进一步描述一些明确的示例。
应当注意,不需要存在具有拼接输入能力的访问单元AUj。例如,要被拼接输入的音频数据流可以意在从时刻τ开始完全替换音频数据流40的播出,即,音频数据流40没有发生拼接(返回)输入。然而,如果要被拼接输入的音频数据流仅仅初始地替换音频数据流40的音频信号,则需要拼接输入回到音频数据流40,在这种情况下,对于任何拼接输出的TU分组42,应当存在按数据流顺序20后接的拼接输入的TU分组58。
图5示出了用于产生图2的音频数据流40的音频编码器70。音频编码器70包括音频编码内核72和截断分组插入器74。音频编码内核72被配置为以上文已经例如关于图1所述的方式以进入音频编码内核72的音频信号12的音频帧为单位将该音频信号编码为音频数据流40的有效载荷分组。也就是说,音频编码内核72可以是使用重叠变换(例如,MDCT)对音频信号12进行编码并且然后对变换系数进行编码的变换编码器,其中重叠变换的窗口可以如上所述的与连续音频帧之间的帧间边界相交,从而导致紧邻接续的音频帧及其相关联的访问单元的相互依赖性。备选地,音频编码器内核72可以使用基于线性预测的编码,以将音频信号12编码为数据流40。例如,音频编码内核72在附加地对激励信号进行编码的情况下至少逐帧地对描述音频信号12或其预先滤波的某一版本的频谱包络的线性预测系数进行编码。关于激励信号编码的预测编码或重叠变换问题的连续更新可能导致紧邻接续的音频帧及其相关联的访问单元之间的相互依赖性。然而,其他编码原则也是可设想的。
截断单元分组插入器74将诸如图2中的42和58的截断单元分组插入到音频数据流40中。如图5所示,为此,TU分组插入器74可以对拼接位置触发器76进行响应。例如,可以向拼接位置触发器76通知视频中(即,帧序列中)的场景或节目改变或其他改变,并且可以相应地向截断单元分组插入器74发信号通知这种新场景或节目的任何第一帧。例如,在例如视频中的单独场景或节目没有被其它帧序列等替换的情况下,音频信号12连续地表示视频的音频伴奏。例如,假设视频表示直播足球比赛,并且音频信号12是与其相关的音调信号。然后,可以手动或自动地操作拼接位置触发器76,以识别足球游戏视频的受到广告(即,广告视频)的潜在替换的时间部分,因此触发器76将向TU分组插入器74发信号通知这些部分的开始,使得TU分组插入器74可以响应于此在这样的位置处插入TU分组42,即涉及与视频的潜在要替换的部分的第一视频帧开始的音频帧相关联的访问单元所处的位置。此外,触发器76向TU分组插入器74通知这种潜在要替换的部分的尾端,以在与这样的部分的末端落入的音频帧相关联的相应访问单元处插入TU分组58。就这样的TU分组58而言,音频编码内核72还对触发器76进行响应,以便以如上所述的允许即时播出的方式将相应的音频帧不同地或例外地编码为这样的访问单元AUj中(比较图2)。在视频的这种潜在要替换的部分之间,即在视频的这种潜在要替换的部分内,触发器76可以间歇地插入TU分组58,以用作拼接输入点或拼接输出点。根据具体示例,触发器76向例如音频编码器70通知这种潜在要替换的部分的第一帧或起始帧的时间戳以及这种部分的最后一个帧或结束帧的时间戳,其中编码器70通过识别从触发器76接收的时间戳落入其中的那些音频帧来识别音频帧和相关联的访问单元,其中关于这些音频帧和相关联的访问单元将进行TU分组插入和潜在的即时播出编码。
为了说明这一点,参考图6,图6示出了音频编码内核72在其处(即在80处)工作的固定帧光栅以及音频信号12所属的视频的固定帧光栅82。使用花括号指示视频86之外的部分84。该部分84例如由操作者手动地确定或者通过场景检测完全或部分自动地确定。第一帧88和最后一个帧90具有与其相关联的时间戳Tb和Te,其位于帧光栅80的音频帧i和j内。因此,由TU分组插入器74向这些音频帧14(即i和j)提供了TU分组,其中音频编码内核72使用即时播出模式以产生与音频帧j相对应的访问单元。
应当注意,TU分组插入器74可以被配置为插入具有默认值的TU分组42和58。例如,截断长度语法元素48可以被设置为0。就拼接输入标志50(可选的)而言,拼接输入标志50由TU分组插入器74以上面关于图2至图4概述的方式设置,即指示针对TU分组42和除了与视频86的最终帧或图像一起登记的TU分组之外的所有TU分组58的拼接输出可能性。拼接活动标志52将被设置为0,这是因为迄今为止还未施加拼接。
注意到关于图6的音频编码器,控制TU分组的插入的方式,即选择针对其执行插入的访问单元的方式(如参照图5和图6解释的)仅仅是说明性的,并且确定针对其执行插入的那些访问单元的其它方式也是可行的。例如,每个访问单元、每N(N>2)个访问单元或每个IPF访问单元可以备选地设置有对应的TU分组。
上面没有明确提到,但是优选地,以未压缩形式对TU分组进行编码,使得相应TU分组的比特消耗(编码比特率)独立于TU分组的实际设置。尽管如此,还值得注意的是,编码器可以可选地包括速率控制(图5中未示出),其被配置为记录编码音频缓冲器的填充水平,以确保编码音频缓冲器在解码器的接收数据流40的一侧不会下溢从而导致停滞,也不会溢出从而导致分组12的丢失。编码器可以例如控制/改变量化步长以在优化某一速率/失真度量的情况下服从填充水平约束。具体地,速率控制可以在假设预定的传输容量/比特率的情况下来估计解码器的编码音频缓冲器的填充水平,其中该传输容量/比特率可以是恒定的或者准恒定的,并且例如由诸如传输网络的外部实体预先设置。速率控制考虑了数据流40的TU分组的编码速率。因此,在图2所示的形式中,即在由编码器70产生的版本中,如果音频信号12在其速率/失真率方面没有过载解码器的编码音频填充水平(导致溢出)也没有降低该编码音频填充水平(导致下溢),则数据流40保持预设的比特率但是在预设的比特率附近变化,以补偿变化的编码复杂度。然而,如上面已经简要概述并且将在下面更详细地描述的,根据优选实施例,每一个拼接输出访问单元AUi被认为对解码器侧的播出仅贡献小于其音频帧i的时间长度的时间持续时间。从下面给出的描述中将清楚地看到,在作为拼接接口的相应的拼接输出AU(例如,AUi)处与数据流40拼接的拼接输入的音频数据流的(前)访问单元将替换相应的拼接输出AU的在后AU。因此,从那时起,在编码器70内执行的比特率控制是过时的。除此之外,优选地,以自包含的方式对所述前AU进行编码,以允许即时播出,从而与非IPF AU相比消耗更多的编码比特率。因此,根据实施例,编码器70计划或调度速率控制,使得在相应拼接输出AU的端部处(即,在其与紧邻在后AU的边界处)的记录填充水平取例如预定值,例如1/4或最大填充水平的3/4和1/8之间的值。通过该措施,准备被假定在数据流40的拼接输出AU处被拼接输入到数据流40中的音频数据流的其他编码器可以依赖于这样的事实,即,在开始接收其自己的AU(在下文中有时通过撇号与原始的AU区分开)时解码器的编码音频缓冲器填充水平处于预定值,使得这些其他编码器可以相应地进一步开发速率控制。到目前为止给出的描述集中在数据流40的拼接输出AU上,但是对预定估计/记录填充水平的遵守也可以通过针对拼接(返回)输入AU(例如AUj)的速率控制来实现,即使不起作为拼接输入点和拼接输出点的双重作用也是如此。因此,所述其他编码器同样可以控制其速率控制,使得估计或记录的填充水平假定其数据流的AU序列的尾AU处的预定填充水平。该填充水平可以与针对编码器70关于拼接输出AU所提及的填充水平相同。这样的尾AU可以被认为来自拼接返回AU,拼接返回AU被认为来自与数据流40的拼接输入AU(例如AUj)的拼接点。因此,如果编码器70的速率控制已经计划/调度编码比特率,使得估计/记录的填充水平假定AUj(或更好地在其之后的AU)处的预定填充水平,则该比特率控制在已经对数据流40进行编码和输出之后执行拼接的情况下保持甚至有效。刚才提到的预定填充水平可以默认为编码器已知,即在它们之间协定的。备选地,可以向相应的AU提供在相应的拼接输入或拼接输出AU之后立即假定的估计/记录的填充水平的显式信令。例如,可以在相应的拼接输入或拼接输出AU的TU分组中发送该值。这花费附加的辅助信息开销,但是编码器的速率控制可以在开发拼接输入或拼接输出AU处的估计/记录的填充水平方面具有更多的自由度:例如,可以满足相应的拼接输入或拼接输出AU之后的估计/记录的填充水平低于某个阈值,例如最大填充水平的3/4,即解码器的编码音频缓冲器的最大保证容量。
对于数据流40,这意味着对数据流40进行速率控制以在预定的平均比特率附近变化,即它具有平均比特率。可拼接的音频数据流的实际比特率在分组序列上变化,即在时间上变化。可以在时间上对与预定平均比特率的(当前)偏差进行积分。该积分偏差在拼接输入和拼接输出访问单元处假设预定区间内的值,该预定区间的宽度可以小于积分比特率偏差的范围(max-min)的1/2,或者可以取固定值,例如针对所有拼接输入和拼接输出AU相等的值,其可以小于积分比特率偏差的最大值的3/4。如上所述,该值可以默认地预先设置。备选地,该值对于所有拼接输入和拼接输出AU不是固定的并且不相等,而是可以在数据流中发信号通知。
图7示出了根据实施例的用于对音频数据流进行拼接的流拼接器。流拼接器使用附图标记100来指示,并且包括第一音频输入接口102、第二音频输入接口104、拼接点设置器106和拼接复用器108。
在接口102处,流拼接器期望接收“可拼接的”音频数据流,即,具有一个或多个TU分组的音频数据流。在图7中,已经示例性地示出了图2的音频数据流40在接口102处进入流拼接器100。
期望在接口104处接收另一音频数据流110。根据流拼接器100的实现方式,在接口104处进入的音频数据流110可以是“未准备的”音频数据流,例如关于图1解释并描述的音频数据流,或者是如下面将示例性阐述的准备的音频数据流。
拼接点设置器106被配置为设置在接口102处进入的数据流中包括的截断单元分组(即在图7的情况下数据流40的TU分组42和58)以及(如果存在的话)在接口104进入的其他数据流110的截断单元分组,其中在图7中示例性地示出了两个这样的TU分组,即音频数据流110的前访问单元或第一访问单元AU’1中的TU分组112和音频数据流110的最后一个访问单元或尾访问单元AU’K中的TU分组114。具体地,在图7中使用撇号以将音频数据流110的访问单元与音频数据流40的访问单元区分开。此外,在关于图7所述的示例中,音频数据流110被假定为是预编码的并且是固定长度的,即这里具有K个访问单元,其对应于K个音频帧,这些音频帧一起在时间上覆盖一个时间间隔,在该时间间隔内要替换已被编码成数据流40的音频信号。在图7中,示例性地假设要替换的时间间隔从与访问单元AUi相对应的音频帧延伸到与访问单元AUj相对应的音频帧。
具体地,拼接点设置器106将以下面更详细地概述的方式被配置为设置截断单元分组,使得清楚实际发生截断。例如,虽然进入接口102和104的数据流的截断单元内的截断长度48可以被设置为0,但是拼接点设置器106可以将TU分组的变换长度48的设置改变为非零值。如何确定值是下面提出的解释的主题。
拼接复用器108被配置为在具有TU分组的访问单元(例如,具有TU分组42的访问单元AUi)处切断进入接口102的音频数据流40,以获得该音频数据流40的有效载荷分组子序列,即,这里在图7示例性地是与访问单元AUi之前的访问单元和访问单元AUi相对应的有效载荷分组子序列,然后将该子序列与在接口104处进入的另一音频数据流110的有效载荷分组的序列进行拼接,使得它们相对于彼此紧邻接续并且在预定访问单元处彼此邻接。例如,拼接复用器108在访问单元AUi处切断音频数据流40,以仅包括属于该访问单元AUi的有效载荷分组,然后从访问单元AU’1开始附加音频数据流110的访问单元AU’,使得访问单元AUi和AU′1彼此邻接。如图7所示,在包括TU分组58的访问单元AUj的情况下,拼接复用器108类似地作用:此时,拼接复用器108从属于访问单元AUj的有效载荷分组开始将数据流40附加到音频数据流110的末端,使得访问单元AU’K邻接访问单元AUj
因此,拼接点设置器106将访问单元AUi的TU分组42设置为指示要在播出时被丢弃的端部是尾端部,这是因为音频数据流40的音频信号将从那时起初始地替换为被编码为音频数据流110的音频信号。在截断单元58的情况下,该情形是不同的:这里,拼接点设置器106将TU分组58设置为指示要在播出时被丢弃的端部是与访问单元AUj相关联的音频帧的前端部。然而,应当记得,TU分组42属于尾端部而TU分组58涉及前端部这样的事实已经可以通过针对一方面TU分组42并且另一方面TU分组58使用例如不同的TU分组标识符46而根据进入的音频数据流40得到。
流拼接器100在输出接口116处输出如此获得的被拼接的音频数据流,其中,使用附图标记120来指示被拼接的音频数据流。
应当注意,拼接复用器108和拼接点设置器106对访问单元操作的顺序不需要如图7所示。也就是说,虽然图7表明拼接复用器108的输入端分别连接到接口102和104,其输出端通过拼接点设置器106连接到输出接口116,但是可以切换拼接复用器108和拼接点设置器106之间的顺序。
在操作中,流拼接器100可以被配置为检查音频数据流40内的截断单元分组52和58所包括的拼接输入语法元素50,以在拼接输入语法元素是否指示相应的截断单元分组涉及拼接输入访问单元的条件下执行切断和拼接操作。这意味着以下内容:到目前为止所说明的并且下面更详细地概述的拼接过程可能已经由TU分组42触发,拼接输入标志50被设置为1,如关于图2所描述的。因此,通过流拼接器100检测到该标记被设置为1,由此执行下面更详细描述但以上已经概述的拼接输入操作。
如上所述,拼接点设置器106可以不需要改变截断单元分组内的任何设置,只要考虑在诸如TU分组42的拼接输入TU分组和诸如TU分组58的拼接输出TU分组之间的区别即可。然而,拼接点设置器106设置要在播出时被丢弃的相应端部的时间长度。为此,拼接点设置器106可以被配置为根据外部时钟设置TU分组42、58、112和114所涉及的端部的时间长度。该外部时钟122例如源于视频帧时钟。例如,假设被编码为音频数据流40的音频信号表示伴随视频的音调信号,并且该视频是图6的视频86。进一步假设遇到帧88,即,从要在其中插入广告的时间部分84开始的帧。拼接点设置器106可能已经检测到相应的访问单元AUi包括TU分组42,但是外部时钟122向拼接点设置器106通知该视频的原始音调信号将结束并且被替换为被编码为数据流110的音频信号的确切时间Tb。例如,该拼接点时刻可以是与要由广告视频替换的第一画面或帧相对应的时刻,其中广告视频又伴随有编码为数据流110的音调信号。
为了更详细地示出图7的流拼接器100的操作模式,参考图8,图8示出了流拼接器100执行的步骤序列。该过程从加权回路130开始。也就是说,诸如拼接复用器108和/或拼接点设置器106的流拼接器100检查音频数据流40以获得拼接输入点,即截断单元分组42所属的访问单元。在图7的情况下,访问单元i是通过检查132(“是”)的第一访问单元,直到检查132循环回其自身。一旦检测到拼接输入点访问单元AUi,其TU分组(即42)被设置为将拼接输入点访问单元的尾端部(其前端)与从外部时钟122得到的时刻登记在一起。在由拼接点设置器106进行该设置134之后,拼接复用器108切换到另一数据流(即,音频数据流110),使得在当前拼接输入访问单元AUi之后,数据流110的访问单元而不是音频数据流40的随后的访问单元被放到输出接口116。假设要从拼接输入时刻开始替换音频数据流40的音频信号的音频信号被编码成音频数据流110,使得该音频信号与同第一访问单元AU’1相关联的第一音频帧的起始登记在一起,即立即开始,流拼接器100仅仅适配音频数据流110包括的时间戳信息,使得与第一访问单元AU’1相关联的前帧的时间戳例如与拼接输入时刻(即,AUi的时刻)加上与AUi相关联的音频帧的时间长度减去尾端部的时间长度(如在步骤134中所设置的)一致。也即是说,在复用器切换136之后,适配138是针对数据流110的访问单元AU′连续执行的任务。然而,在此时间期间,也执行接下来描述的拼接输出例程。
具体地,由流拼接器100执行的拼接输出例程从等待循环开始,根据该等待循环,连续地检查音频数据流110的访问单元以确定该访问单元被提供有TU分组114还是音频数据流110的最后一个访问单元。针对访问单元AU′的序列连续执行该检查142。一旦遇到拼接输出访问单元,即图7的情况下的AU’K,拼接点设置器106就设置该拼接输出访问单元的TU分组114以将要在播出时被丢弃的尾端部、同该访问单元AUK相对应的音频帧与从外部时钟获得的时刻(例如,视频帧的时间戳,即编码为音频数据流110的音调信号所属的广告之后的第一个时间戳)登记在一起。在该设置144之后,拼接复用器108从数据流110进入的其输入端切换到其另一输入端。具体地,执行切换146,使得在被拼接的音频数据流120中,访问单元AUj紧邻在访问单元AU’K之后。具体地,访问单元AUj是数据流40的访问单元,其音频帧在时间上与同拼接输入访问单元AUi相关联的音频帧相隔一定时间量,该时间量对应于编码为数据流110的音频信号的时间长度,或与其偏离小于预定量,例如音频数据流40的访问单元的音频帧的长度或长度的一半。
在下文中,拼接点设置器106在步骤148中设置访问单元AUj的TU分组58以将要在播出时被丢弃的其前端部与在步骤144中已经与访问单元AU’K的音频帧的尾端部一起登记的时刻登记在一起。通过该措施,访问单元AUj的音频帧的时间戳等于访问单元AU’K的音频帧的时间戳加上访问单元AU’K的音频帧的时间长度减去访问单元AU’K的音频帧的尾端部和访问单元AUj的音频帧的前端部之和。将在下面进一步提供的示例处更清楚地看到这个事实。
这种拼接输入例程也在切换146之后开始。类似于乒乓,流拼接器100在一方面连续音频数据流40与预定长度的音频数据流之间切换,以替换预定部分,即一方面具有TU分组的访问单元与另一方面具有TU分组58的访问单元之间的那些,并且再次返回到音频流40。
从接口102到104的切换由拼接输入程序执行,而拼接输出程序从接口104到102。
然而,再次强调的是,关于图7提供的示例是仅仅出于说明的目的而选择的。也就是说,图7的流拼接器100不限于要从一个音频数据流40替换为音频数据流110的“桥接”部分,其中音频数据流110编码有适当长度的音频信号,其中编码有第一音频帧的第一访问单元被登记到要插入到要替换的时间部分中的音频信号的起始。更确切地,流拼接器可以例如仅用于执行一次性拼接过程。此外,音频数据流110不限于使其第一音频帧与要拼接输入的音频信号的起始登记在一起。更确切地,音频数据流110本身可以源自具有其自己的音频帧时钟的某一源,该音频帧时钟独立于音频数据流40下面的音频帧时钟运行。在这种情况下,除了图8所示的步骤,从音频数据流40切换到音频数据流110还包括对应于步骤148的设置步骤:设置音频数据流110的TU分组。
应当注意,流拼接器的操作的上述描述可以相对于被拼接的音频数据流120的AU的时间戳而改变,其中TU分组针对该被拼接的音频数据流120指示前端部要在播出时被丢弃。代替留下AU的原始时间戳,流复用器108可以被配置为通过将前端部的时间长度添加到原始时间戳,从而指向前端部的尾端(并因而指向实际播出AU的音频帧段的时间),来修改其原始时间戳。这种替换方案由下文讨论的图16中的时间戳示例来说明。
图10示出了根据本申请的实施例的音频解码器160。示例性地,音频解码器160被示为接收由流拼接器100生成的被拼接的音频数据流120。然而,类似于关于流拼接器做出的陈述,图10的音频解码器160不限于接收关于图7至图9解释的类型的被拼接的音频数据流120,其中一个基本音频数据流被初步地替换为编码有相应的音频信号长度的其它音频数据流。
音频解码器160包括接收被拼接的音频数据流的音频解码器内核162和音频截断器164。音频解码内核162以来自进入的音频数据流120的有效负载分组序列的音频信号的音频帧为单位对音频信号执行重构,其中,如上所述,有效载荷分组单独地与被拼接的音频数据流120被划分成的访问单元序列中的相应访问单元相关联。由于每个访问单元120与音频帧中的相应音频帧相关联,所以音频解码内核162分别输出针对每个音频帧和相关联的访问单元重构的音频样本。如上所述,解码可以涉及逆频谱变换,并且由于重叠/相加处理或者可选地预测编码构思,音频解码内核162可以根据相应的访问单元同时另外使用(即根据)在前访问单元重构音频帧。然而,每当即时播出访问单元(例如,访问单元AUj)到达时,音频解码内核162能够使用附加数据以允许即时播出,而不需要或期望来自先前访问单元的任何数据。此外,如上所述,音频解码内核162可以使用线性预测解码来操作。也就是说,音频解码内核162可以使用包含在相应访问单元中的线性预测系数以形成合成滤波器,并且可以对来自访问单元的激励信号进行解码,其涉及例如变换解码(即逆变换)、使用包含在相应访问单元中的索引的表查找和/或预测编码或内部状态更新,然后使如此获得的激励信号经历合成滤波器,或者备选地,使用形成为与合成滤波器的传递函数相对应的传递函数在频域中对激励信号进行成形。音频截断器164对插入到音频数据流120中的截断单元分组进行响应,并且截断与具有这样的TU分组的特定访问单元相关联的音频帧,以丢弃被指示为要在播出TU分组时被丢弃的其端部。
图11示出了图10的音频解码器160的操作模式。在检测到170新的访问单元时,音频解码器检查该访问单元是否是使用即时播出模式编码的访问单元。如果当前访问单元是即时播出帧访问单元,则音频解码内核162将此访问单元视为用于重构与该当前访问单元相关联的音频帧的自包含信息源。也就是说,如上所述,音频解码内核162可以预填充内部寄存器,以用于基于编码到该访问单元中的数据来重构与当前访问单元相关联的音频帧。另外或备选地,音频解码内核162防止使用来自任何在前访问单元的预测(如在非IPF模式中一样)。另外或备选地,为了在当前访问单元的音频帧的时间前端处的混叠消除,音频解码内核162不执行关于任何在前访问单元或其相关联的在前音频帧的任何重叠相加处理。更确切地,例如,音频解码内核162根据当前访问单元本身得到时间混叠消除信息。因此,如果检查172揭示当前访问单元是IPF访问单元,则由音频解码内核162执行IPF解码模式174,从而获得当前音频帧的重构。备选地,如果检查172揭示当前访问单元不是IPF访问单元,则音频解码内核162将如往常一样将非IPF解码模式应用于当前访问单元。也就是说,音频解码内核162的内部寄存器可以在处理先前的访问单元之后被原样采用。备选地或另外地,可以使用重叠相加处理,以帮助重构当前访问单元的音频帧的时间尾端。备选地或另外地,可以使用来自在前访问单元的预测。非IPF解码176以当前访问单元的音频帧的重构结束。下一个检查178检查是否要执行任何截断。由音频截断器164执行检查178。具体地,音频截断器164检查当前访问单元是否具有TU分组以及该TU分组是否指示端部要在播出时被丢弃。例如,音频截断器164检查TU分组是否包含在当前访问单元的数据流中以及是否设置了拼接活动标志52和/或截断长度48是否不等于0。如果不发生截断,则在步骤180中完全播出通过步骤174或176中的任一步骤重构的经重构的音频帧。然而,如果要执行截断,则在步骤182,音频截断器164执行截断,并且仅播出剩余部分。在由TU分组指示的端部是尾端部的情况下,从与该音频帧相关联的时间戳开始播出重构的音频帧的剩余部分。在由TU分组指示为要在播出时被丢弃的端部是前端部的情况下,在该音频帧的时间戳加上前端部的时间长度处播出音频帧的剩余部分。也就是说,当前音频帧的剩余部分的播出被延迟了前端部的时间长度。然后,利用下一个访问单元进一步执行该处理。
参见图10中的示例:音频解码内核162对访问单元AUi-1和AUi执行正常的非IPF解码176。然而,AUi具有TU分组42。该TU分组42指示尾端部要在播出时被丢弃,因此音频截断器164防止与访问单元AUi相关联的音频帧14的尾端184被播出,即,防止参与形成输出音频信号186。此后,访问单元AU’1到达。AU’1是即时播出帧访问单元,并且在步骤174中由音频解码内核162相应地处理。应当注意,音频解码内核162可以例如包括打开其自身的多于一个例示的能力。也就是说,每当执行IPF解码时,这涉及打开音频解码内核162的另一例示。在任何情况下,由于访问单元AU’1是IPF访问单元,所以与其在前的AUi-1和AUi相比,其音频信号实际上与完全新的音频场景相关是没有关系的。音频解码内核162不关心这一点。更确切地,它将访问单元AU′1作为自包含的访问单元并根据该访问单元来重构音频帧。由于在前访问单元AUi的音频帧的尾端部的长度可能已经由流拼接器100设置,所以访问单元AU’1的音频帧的起始紧邻接访问单元AUi的音频帧的剩余部分的尾端。也就是说,它们在访问单元AUi的音频帧的中间某处的过渡时间T1处邻接。在遇到访问单元AU’K时,音频解码内核162在步骤176中对该访问单元进行解码,以展现或重构该音频帧,因此由于该音频帧的TU分组114对尾端部的指示,该音频帧在其尾端被截断。因此,只播出访问单元AU’K的音频帧直到尾端部的剩余部分。然后,访问单元AUj在IPF解码174中由音频解码内核162解码,即,以自包含的方式独立于访问单元AU’K,并且由于其截断单元分组58指示前端部,因此由其获得的音频帧在其前端处被截断。访问单元AU’K和AUj的音频帧的剩余部分在过渡时刻T2彼此邻接。
上述实施例基本上使用描述在对相关联的访问单元进行解码之后是否应该丢弃某个音频帧的音频样本以及应该丢弃多少个音频样本的信令。上述实施例可以例如被应用于扩展诸如MPEG-H 3D音频的音频编解码器。MEPG-H 3D音频标准定义了用于转换称为MHAS[2]的MPEG-H 3D音频数据的自包含的流格式。根据上述实施例,可以在MHAS级别发信号通知上述截断单元分组的截断数据。在那里,可以在操作中通过诸如图7的流拼接器100等的流拼接设备对容易地对其进行检测并且容易地对其进行修改。例如,这种新的MHAS分组类型可以用PACTYP_CUTRUNCATION标记。该分组类型的有效载荷可以具有图12所示的语法。为了简化图12的特定语法示例与上面关于例如图3和图4提出的描述之间的一致性,图3和图4的附图标记被重用以标识图12中的相应语法元素。语义可以如下:
isActive:如果为1,则截断消息是活动的,如果为0,则解码器应该忽略该消息。
canSplice:向拼接设备告知拼接可以在这里开始或继续。(注意:这基本上是一个广告-开始(ad-begin)标志,但是拼接设备可以将其重置为0,这是因为它不携带解码器的任何信息。)
truncRight:如果为0,则从AU的末端开始截断样本,如果为1,则从AU的起始开始截断样本。
nTruncSamples:要截断的样本数量。
注意,MHAS流保证MHAS分组有效载荷总是字节对齐的,所以截断信息容易在操作中由例如流拼接设备访问并且可以容易地插入、移除或修改。MPEG-H 3D音频流可以包含针对每个AU或者针对isActive被设置为0的合适的AU子集的具有分组类型(pactype)PACTYP_CUTRUNCATION的MHAS分组类型。然后,流拼接设备可以根据其需要来修改该MHAS分组。否则,流拼接设备可以容易地插入这样的MHAS分组,而不增加如下文所述的显著的比特率开销。MPEG-H 3D音频的最大细粒大小为4096个样本,因此nTruncSamples的13个比特足以发信号通知所有有意义的截断值。nTruncSamples和3个一比特标志一起占用16个比特或2个字节,从而不需要进一步的字节对齐。
图13a-c示出了CU截断的方法可以如何用于实现样本准确流拼接。
图13a示出了视频流和音频流。在视频帧号5处,节目被切换到不同的源。新源中的视频和音频的对齐与旧源中的对齐不同。为了实现解码的音频的样本准确切换,必须移除旧流的最后一个CU的末尾和新流的起始处的PCM样本。可能需要在解码的PCM域中的短期交叉衰落以避免输出的PCM信号中的毛刺。图13a示出了具体值的示例。如果由于某种原因不期望AU/CU的重叠,则可能存在图13B)和图13C)中描述的两种可能的解决方案。新流的第一个AU必须携带新流的配置数据和使用新配置初始化解码器所需的所有预先滚动(preroll)。这可以通过在MPEG-H 3D音频标准中定义的即时播出帧(IPF)来完成。
CU截断方法的另一个应用是改变MPEG-H 3D音频流的配置。不同的MPEG-H 3D音频流可以具有完全不同的配置。例如,立体声节目可以后接具有11.1通道和附加音频对象的节目。配置通常将在不与音频流的细粒未对齐的视频帧边界处改变。CU截断的方法可以用于实现样本准确音频配置改变,如图14所示。
图14示出了视频流和音频流。在视频帧号5处,节目切换到不同的配置。具有新音频配置的第一CU与发生配置改变的视频帧对齐。为了实现样本准确配置改变音频,必须移除具有旧配置的最后一个CU的末端处的PCM样本。具有新配置的第一AU必须携带新配置数据和使用新配置初始化解码器所需的所有预先滚动。这可以通过在MPEG-H 3D音频标准中定义的即时播出帧(IPF)来完成。另一编码器可以使用来自旧配置的PCM音频样本来对存在于两个配置中的通道的新配置的预先滚动进行编码。示例:如果配置改变是从立体声到11.1,则新11.1配置的左右通道可以使用来自旧立体声配置的预先滚动数据形式的左右。新11.1配置的其他通道针对预先滚动使用0。图15示出了该示例的编码器操作和比特流生成。
图16示出了可拼接或被拼接的音频数据流的其他示例。例如,参见图16A。图16A示出了示例性地包括七个连续访问单元AU1至AU7的可拼接的音频数据流的一部分。第二访问单元和第六访问单元分别设置有TU分组。通过将标志52设置为0,两个访问单元都不使用,即不活动。访问单元AU6的TU分组由IPF类型的访问单元组成,即,它实现返回数据流的拼接。在B处,图16示出了在插入广告之后的A的音频数据流。广告被编码为访问单元AU’1至AU’4的数据流。在C和D处,图16示出了与A和B相比的修改情况。具体地,这里访问单元AU1......的音频数据流的音频编码器已决定改变访问单元AU6的音频帧内的某处的编码设置。因此,C的原始音频数据流已经包括时间戳6.0的两个访问单元,即AU6和AU’1,其相应的尾端部和前端部分别被指示为要在播出时被丢弃。这里,截断激活已经由音频解码器预先设置。然而,访问单元AU’1仍然可以用作拼接-返回-输入访问单元,并且在D中示出了这种可能性。
在E和F中示出了在拼接输出点处改变编码设置的示例。最后,在G和H处,图16中的A和B的示例通过提供给访问单元AU5的另一个TU分组(其可以用作拼接输入点或连续点)来扩展。
如上所述,尽管预先提供具有TU分组的音频数据流的访问单元可以在访问单元生成中的非常早的阶段考虑这些TU分组的比特率消耗的能力方面是有利的,但是这不是强制性的。例如,上文关于图7至图9解释的流拼接器可以被修改,这是因为流拼接器通过除了在第一接口102处的输入音频数据流中的TU分组的出现之外的其他方式来识别拼接输入点或拼接输出点。例如,流拼接器可以同样关于拼接输入点和拼接输出点的检测对外部时钟122做出反应。根据该替换方案,拼接点设置器106将不仅设置TU分组,而且还将它们插入到数据流中。然而,请注意,音频编码器没有摆脱任何准备任务:音频编码器仍然必须为用作拼接-返回-输入点的访问单元选择IPF编码模式。
最后,图17示出了有利的拼接技术也可以在能够在不同编码配置之间改变的音频编码器内使用。以与图5的方式相同的方式构造图17中的音频编码器70,但是此时,音频编码器70对配置改变触发器200进行响应。也就是说,参见例如图16中的情况C:音频编码内核72将音频信号12连续地编码为访问单元AU1至AU6。在访问单元AU6的音频帧内的某处,配置改变时刻由触发器200指示。因此,音频编码内核72使用相同的音频帧光栅还使用新配置(例如,涉及更多编码音频通道等的音频编码模式)对访问单元AU6的当前音频帧进行编码。音频编码内核72使用新配置另外使用IPF编码模式来对音频帧进行另一次编码。这在访问单元AU’1中结束,AU’1立即遵循访问单元顺序。TU分组插入器74向两个访问单元(即访问单元AU6和访问单元AU’1)提供了TU分组,访问单元AU6具有被指示为在播出时被丢弃的尾端部,AU’1具有被指示为在播出时被丢弃的前端部。因为AU’1是IPF访问单元,因此AU’1也可以用作拼接-返回-输入点。
对于所有上述实施例,应当注意,可能在解码器处在一方面根据被拼接的音频数据流直到拼接输出AU(例如,AUi)(其实际上被假定为终止于该拼接输出AU的音频帧的尾端部的前端)的AU子序列重构的音频信号与根据被拼接的音频数据流的从紧邻拼接输出AU之后的AU(例如,AU’1)(其可以被假定为从在后AU的音频帧的前端立即开始或者在该在后AU的音频帧的前端部的尾端处开始)开始的AU子序列重构的音频信号之间执行交叉衰落(cross-fading):也就是说,在围绕并越过要播出的紧邻接续AU的部分彼此邻接的时刻的时间间隔内,解码器从被拼接的音频数据流播出的实际播出的音频信号可以由以下各项的组合形成:两个紧邻接的AU的音频帧以及在该时间间隔内时间增加的在前AU的音频帧的组合贡献和在该时间间隔内时间减小的拼接输出AU的音频帧的组合贡献。类似地,在围绕并越过拼接输入AU的音频帧的前端部和在前AU的音频帧的尾端部彼此邻接的时刻的时间间隔内,交叉衰落可以在拼接输入AU(例如AUj)及其紧邻在前AU(例如AU’K)之间执行,即通过拼接输入AU的音频帧与在前AU的音频帧的组合形成实际播出的音频信号。
使用另一措辞,上述实施例尤其揭示了利用传输流以及可用的解码器可用的带宽MHz的可能性:一种音频拼接点消息与其将替换的音频帧一起被发送。对拼接点周围的输出音频和输入音频进行解码,并且可以执行它们之间的交叉衰落。音频拼接点消息仅向解码器告知在何处执行交叉衰落。这在本质上是一个“完美”的拼接,这是因为拼接发生并正确地登记在PCM域中。
因此,上述描述尤其揭示了以下方面:
A1.一种可拼接的音频数据流40,包括:
有效载荷分组16的序列,所述有效载荷分组中的每一个有效载荷分组属于所述可拼接的音频数据流被划分成的访问单元18的序列中的相应访问单元,每一个访问单元与音频信号12的音频帧14中的相应音频帧相关联,所述音频信号12以音频帧为单位编码为所述可拼接的音频数据流;以及
截断单元分组42;58,被插入到所述可拼接的音频数据流中并且能够设置以针对预定访问单元指示与所述预定访问单元相关联的音频帧的端部44;56在播出时被丢弃。
A2.根据方面A1所述的可拼接的音频数据流,其中,所述音频帧的端部是尾端部44。
A3.根据方面A1或A2所述的可拼接的音频数据流,其中,所述可拼接的音频数据流还包括:
另一截断单元分组58,被插入到所述可拼接的音频数据流中并且能够设置以针对另一预定访问单元指示与所述另一预定访问单元相关联的另一音频帧的端部44;56在播出时被丢弃。
A4.根据方面A3所述的可拼接的音频数据流,其中,所述另一音频帧的端部是前端部56。
A5.根据方面A3或A4所述的可拼接的音频数据流,其中,所述截断单元分组42和所述另一截断单元分组58分别包括拼接输出语法元素50,所述拼接输出语法元素50指示截断单元分组或另一截断单元分组中的相应截断单元分组是否与拼接输出访问单元有关。
A6.根据方面A3至A5中任一项所述的可拼接的音频数据流,其中,所述预定访问单元(例如,AUi)编码有相应相关联的音频帧,使得所述音频帧在解码侧的重构取决于紧邻所述预定访问单元之前的访问单元,并且大多数访问单元编码有相应相关联的音频帧,使得所述音频帧在解码侧的重构取决于相应紧邻在前的访问单元,并且所述另一预定访问单元AUj编码有相应相关联的音频帧,使得所述音频帧在解码侧的重构与紧邻所述另一预定访问单元之前的访问单元无关,从而允许即时播出。
A7.根据方面A6所述的可拼接的音频数据流,其中,所述截断单元分组42和所述另一截断单元分组58分别包括拼接输出语法元素50,所述拼接输出语法元素50指示所述截断单元分组或所述另一截断单元分组中的相应截断单元分组是否涉及拼接输出访问单元,其中所述截断单元分组包括的所述拼接输出语法元素50指示所述截断单元分组涉及拼接输出访问单元,并且所述另一截断单元分组包括的所述语法元素指示所述另一截断单元分组不涉及拼接输出访问单元。
A8.根据方面A6所述的可拼接的音频数据流,其中,所述截断单元分组42和所述另一截断单元分组58分别包括拼接输出语法元素50,所述拼接输出语法元素50指示所述截断单元分组或所述另一截断单元分组中的相应截断单元分组是否涉及拼接输出访问单元,其中所述截断单元分组包括的所述语法元素50指示所述截断单元分组涉及拼接输出访问单元,并且所述另一截断单元分组包括的所述拼接输出语法元素指示所述另一截断单元分组也涉及拼接输出访问单元,其中所述另一截断单元分组包括前/尾端截断语法元素54和截断长度元素48,其中所述前/尾端截断语法元素用于指示所述另一音频帧的所述端部是尾端部44还是前端部56,并且所述截断长度元素用于指示所述另一音频帧的所述端部的长度Δt。
A9.根据方面A1至A8中任一项所述的可拼接的音频数据流,其中,对所述可拼接的音频数据流进行速率控制以在预定的平均比特率周围改变并且服从预定的平均比特率,使得与预定的平均比特率的积分比特率偏差在预定的访问单元处假定预定区间内的值,该预定区间的宽度小于随着整个可拼接的音频数据流而改变的积分比特率偏差的范围的1/2。
A10.根据方面A1至A8中任一项所述的可拼接的音频数据流,其中,对所述可拼接的音频数据流进行速率控制以在预定的平均比特率周围改变并且服从预定的平均比特率,使得与预定的平均比特率的积分比特率偏差在预定的访问单元处取固定值,该固定值小于随着整个可拼接的音频数据流而改变的积分比特率偏差的最大值的3/4。
A11.根据方面A1至A8中任一项所述的可拼接的音频数据流,其中,对所述可拼接的音频数据流进行速率控制以在预定的平均比特率周围改变并且服从预定的平均比特率,使得与预定的平均比特率的积分比特率偏差在预定的访问单元以及在可拼接的音频数据流中存在其截断单元分组的其他访问单元处取预定值。
B1.一种被拼接的音频数据流,包括:
有效载荷分组16的序列,所述有效载荷分组中的每一个有效载荷分组属于所述被拼接的音频数据流被划分成的访问单元18的序列中的相应访问单元,每一个访问单元与音频帧14中的相应音频帧相关联;以及
截断单元分组42;58;114,被插入到所述被拼接的音频数据流中并且指示与预定访问单元相关联的音频帧的端部44;56在播出时被丢弃,
其中在所述有效载荷分组的序列的第一有效载荷分组子序列中,每一个有效载荷分组属于以第一音频信号的音频帧为单位编码有所述第一音频信号的第一音频数据流的访问单元AU#,并且所述第一音频数据流的访问单元包括所述预定访问单元,并且在所述有效载荷分组的序列的第二有效载荷分组子序列中,每一个有效载荷分组属于以第二音频数据流的音频帧为单位编码有第二音频信号的第二音频数据流的访问单元AU’#,
其中所述第一有效载荷分组子序列和所述第二有效载荷分组子序列在所述预定访问单元处彼此紧邻接续并且彼此邻接,并且所述端部在所述第一子序列在所述第二子序列之前的情况下是尾端部44并且在所述第二子序列在所述第一子序列之前的情况下是前端部56。
B2.根据方面B1所述的被拼接的音频数据流,其中,所述第一子序列在所述第二子序列之前,并且所述端部用作尾端部44。
B3.根据方面B1或B2所述的被拼接的音频数据流,其中,所述被拼接的音频数据流还包括另一截断单元分组58,所述另一截断单元分组58被插入到所述被拼接的音频数据流中并且指示与另一预定访问单元AUj相关联的另一音频帧的前端部58在播出时被丢弃,其中在所述有效载荷分组的序列的第三有效载荷分组子序列中,每一个有效载荷分组属于编码有第三音频信号的第三音频数据流的访问单元AU”#或属于所述第一子序列的有效载荷分组所属的所述第一音频数据流的访问单元之后的所述第一音频数据流的访问单元AU#,其中所述第二音频数据流的访问单元包括所述另一预定访问单元。
B4.根据方面B3所述的被拼接的音频数据流,其中,分别地,所述被拼接的音频数据流的包括所述预定访问单元的大多数访问单元编码有相应相关联的音频帧,使得所述音频帧在解码侧的重构取决于相应紧邻在前的访问单元,其中紧邻所述预定访问单元之后并且形成所述第二音频数据流的访问单元的起始的访问单元(例如,AUi+1)编码有相应相关联的音频帧,使得所述音频帧的重构与所述预定访问单元(例如,AUi)无关,从而允许即时播出,并且所述另一预定访问单元AUj编码有所述另一音频帧,使得所述另一音频帧的重构与紧邻所述另一预定访问单元之前的访问单元无关,从而允许即时播出。
B5.根据权利要求方面B3或B4所述的被拼接的音频数据流,其中,所述被拼接的音频数据流还包括又一截断单元分组114,所述又一截断单元分组114被插入到所述被拼接的音频数据流中并且指示与紧邻所述另一预定访问单元(例如,AUj)之前的访问单元(例如,AU’K)相关联的又一音频帧的尾端部44在播出时被丢弃,其中所述被拼接的音频数据流包括时间戳信息24,所述时间戳信息针对所述被拼接的音频数据流的每一个访问单元指示播出与相应访问单元相关联的音频帧的相应时间戳,其中所述另一预定访问单元的时间戳等于紧邻所述另一预定访问单元之前的访问单元的时间戳加上与紧邻所述另一预定访问单元之前的访问单元相关联的音频帧的时间长度减去所述另一音频帧的前端部与所述又一音频帧的尾端部的时间长度之和,或者等于紧邻所述另一预定访问单元之前的访问单元的时间戳加上与紧邻所述另一预定访问单元之前的访问单元相关联的音频帧的时间长度减去与所述又一音频帧的尾端部的时间长度。
B6.根据权利要求方面B2所述的被拼接的音频数据流,其中,所述被拼接的音频数据流还包括又一截断单元分组58,所述又一截断单元分组58被插入到所述被拼接的音频数据流中并且指示与紧邻所述预定访问单元(例如,AU’K)之后的访问单元(例如,AUj)相关联的又一音频帧的前端部56在播出时被丢弃,其中所述被拼接的音频数据流包括时间戳信息24,所述时间戳信息针对所述被拼接的音频数据流的每一个访问单元指示播出与相应访问单元相关联的音频帧的相应时间戳,其中紧邻所述预定访问单元之后的访问单元的时间戳等于所述预定访问单元的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去与所述预定访问单元相关联的音频帧的尾端部与所述又一访问单元的前端部的的时间长度之和,或者等于所述预定访问单元的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去与所述预定访问单元相关联的音频帧的尾端部的时间长度。
B7.根据方面B6所述的被拼接的音频数据流,其中,所述被拼接的音频数据流的大多数访问单元编码有相应相关联的音频帧,使得所述音频帧在解码侧的重构取决于相应紧邻在前的访问单元,其中紧邻所述预定访问单元之后并且形成所述第二音频数据流的访问单元的起始的访问单元编码有相应相关联的音频帧,使得所述音频帧在解码侧的重构与所述预定访问单元无关,从而允许即时播出。
B8.根据方面B7所述的被拼接的音频数据流,其中,使用不同的编码配置对第一频数据流和第二音频数据流进行编码,其中紧邻预定访问单元之后并形成第二音频数据流的访问单元的开始的访问单元编码有用于重新配置解码器的配置数据cfg。
B9.根据权利要求方面B4所述的被拼接的音频数据流,其中,所述被拼接的音频数据流还包括再一截断单元分组112,所述再一截断单元分组112被插入到所述被拼接的音频数据流中并且指示与紧邻所述预定访问单元之后的访问单元相关联的再一音频帧的前端部在播出时被丢弃,其中所述被拼接的音频数据流包括时间戳信息24,所述时间戳信息针对所述每一个访问单元指示播出与相应访问单元相关联的音频帧的相应时间戳,其中紧邻所述预定访问单元之后的访问单元的时间戳等于所述预定访问单元的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去所述再一音频帧的前端部的时间长度和与所述预定访问单元相关联的音频帧的尾端部的时间长度之和,或者等于所述预定访问单元的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去与所述预定访问单元相关联的音频帧的尾端部的时间长度。
B10.根据方面B4、B5或B9所述的被拼接的音频数据流,其中,紧邻预定访问单元之后的访问单元的时间时间戳等于预定访问单元的时间戳加上与预定访问单元相关联的音频帧的时间长度减去与预定访问单元相关联的音频帧的尾端部的时间长度。
C1.一种用于对音频数据流进行拼接的流拼接器,包括:
第一音频输入接口102,用于接收包括有效载荷分组16的序列的第一音频数据流40,所述有效载荷分组中的每一个有效载荷分组属于所述第一音频数据流被划分成的访问单元18的序列中的相应访问单元,所述第一音频数据流的每一个访问单元与第一音频信号12的音频帧14中的相应音频帧相关联,所述第一音频信号12以所述第一音频信号的音频帧为单元被编码为所述第一音频数据流;
第二音频输入接口104,用于接收包括有效载荷分组的序列的第二音频数据流110,所述有效载荷分组中的每一个有效载荷分组属于所述第二音频数据流被划分成的访问单元序列中的相应访问单元,所述第二音频数据流的每一个访问单元与第二音频信号的音频帧中的相应音频帧相关联,所述第二音频信号以所述第二音频信号的音频帧为单元被编码为所述第二音频数据流;
拼接点设置器;以及
拼接复用器,
其中所述第一音频数据流还包括截断单元分组42;58,所述截断单元分组42;58被插入到所述第一音频数据流中并且能够设置为针对预定访问单元指示与预定访问单元相关联的音频帧的端部44;56在播出时被丢弃,并且所述拼接点设置器106被配置为设置所述截断单元分组42;58使得所述截断单元分组指示与所述预定访问单元相关联的音频帧的端部44;56在播出时被丢弃,或者所述拼接点设置器106被配置为将截断单元分组42;58插入到所述第一音频数据流中,并且将所述截断单元分组42;58设置为针对预定访问单元指示与预定访问单元相关联的音频帧的端部44;56在播出时被丢弃,设置所述截断单元分组42;58,使得所述截断单元分组指示与所述预定访问单元相关联的音频帧的端部44;56以在播出时被丢弃;以及
其中所述拼接复用器108被配置为在所述预定访问单元处切断所述第一音频数据流40,以获得所述第一音频数据流的有效载荷分组子序列,其中每一个有效载荷分组属于所述第一音频数据流的包括所述预定访问单元的一系列访问单元中的相应访问单元,并且将所述第一音频数据流的所述有效载荷分组子序列与所述第二音频数据流的所述有效载荷分组的序列进行拼接,使得所述第一音频数据流的所述有效载荷分组子序列和所述第二音频数据流的所述有效载荷分组的序列在所述预定访问单元处彼此紧邻接续并且彼此邻接,其中与所述预定访问单元相关联的所述音频帧的所述端部在所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的所述有效载荷分组的序列之前的情况下是尾端部44并且在所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的所述有效载荷分组的序列之后的情况下是前端部56。
C2.根据方面C1所述的流拼接器,其中,所述第一音频数据流的所述有效载荷分组子序列在所述第二子序列所述第二音频数据流的有效载荷分组的序列之前并且与所述预定访问单元相关联的音频帧的端部是尾端部44。
C3.根据方面C2所述的流拼接器,其中,所述流拼接器被配置为检查由所述截断单元分组包括的拼接输出语法元素50,并且在拼接输出语法元素50是否指示截断单元与拼接输出访问单元有关的条件下执行剪切和拼接。
C4.根据方面C1至C3中任一项所述的流拼接器,其中,所述拼接点设置器被配置为将所述端部的时间长度设置为与外部时钟相一致。
C5.根据方面C4所述的流拼接器,其中,外部时钟是视频帧时钟。
C6.根据方面C2所述的被拼接的音频数据流,其中,所述第二音频数据流具有或者所述拼接点设置器106通过插入引起另一截断单元分组114,所述另一截断单元分组114被插入到所述第二音频数据流110中并且能够设置为指示与所述第二音频数据流110的端接访问单元(例如,AU’K)相关联的另一音频帧的端部在播出时被丢弃,并且所述第一音频数据流还包括又一截断单元分组58,所述又一截断单元分组58被插入到所述第一音频数据流40中并且能够设置为指示与所述又一预定访问单元(例如,AUj)相关联的又一音频帧的端部在播出时被丢弃,其中所述预定访问单元(例如,AUi)的所述音频帧与所述又一预定访问单元(例如,AUj)的所述又一音频帧之间的时间距离与在拼接之后所述第二音频信号在所述预定访问单元(例如,AUi)之后的所述第二音频信号的前访问单元(例如,AU’1)与所述尾访问单元(例如,AU’K)之间的时间长度一致,其中所述拼接点设置器106被配置为设置所述另一截断单元分组114,使得所述另一截断单元分组114指示所述另一音频帧的尾端部44在播出时被丢弃,并且设置又一截断单元分组58使得所述又一截断单元分组58指示所述又一音频帧的前端部在播出时被丢弃,其中所述拼接复用器108被配置为适配所述第二音频数据流110包括的时间戳信息24,所述时间戳信息针对每一个访问单元指示播出与相应访问单元相关联的音频帧的相应时间戳,使得与所述第二音频数据流110的前访问单元相关联的前音频帧的时间戳与同所述预定访问单元相关联的音频帧的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去与所述预定访问单元相关联的音频帧的尾端部的时间长度,并且所述拼接点设置器106被配置为设置所述另一截断单元分组114和所述又一截断单元分组58,使得所述又一音频帧的时间戳等于所述另一音频帧的时间戳加上所述另一音频帧的时间长度减去所述另一音频帧的尾端部与所述又一音频帧的前端部的时间长度之和。
C7.根据方面C2所述的被拼接的音频数据流,其中,所述第二音频数据流110具有或者所述拼接点设置器106通过插入引起另一截断单元分组112,所述另一截断单元分组112被插入到所述第二音频数据流中并且能够设置为指示与所述第二音频数据流的前访问单元(例如,AU’1)相关联的另一音频帧的端部在播出时被丢弃,其中所述拼接点设置器106被配置为设置所述另一截断单元分组112,使得所述另一截断单元分组112指示所述另一音频帧的前端部以在播出时被丢弃,其中所述第一音频数据流和所述第二音频数据流包括的时间戳信息24针对每一个访问单元指示播出与所述第一音频数据流和所述第二音频数据流的相应访问单元相关联的音频帧的相应时间戳在时间上对齐,并且所述拼接点设置器106被配置为设置所述另一截断单元分组112使得所述另一音频帧的时间戳减去与所述预定访问单元(例如,AUi)相关联的音频帧的时间长度加上所述前端部的时间长度等于与所述预定访问单元相关联的音频帧的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去尾端部的时间长度。
D1.一种音频解码器,包括:
音频解码内核162,被配置为以音频信号12的音频帧14为单位根据音频数据流120的有效载荷分组16的序列重构所述音频信号,其中所述有效载荷分组中的每一个有效载荷分组属于所述音频数据流被划分成的访问单元18的序列中的相应访问单元,其中每一个访问单元与所述音频帧中的相应音频帧相关联;以及
音频截断器164,被配置为响应于被插入到所述音频数据流中的截断单元分组42;58;114,截断与预定访问单元相关联的音频帧以在播出所述音频信号时丢弃通过所述截断单元分组指示要在播出时被丢弃的所述音频帧的端部。
D2.根据方面D1所述的音频解码器,其中,所述端部是尾端部44或前端部56。
D3.根据方面D1或D2所述的音频解码器,其中,音频数据流的大多数访问单元编码有相应相关联的音频帧,使得所述音频帧的重构取决于相应的紧邻在前的访问单元,并且所述音频解码内核162被配置为根据相应紧邻在前的访问单元来重构与大多数访问单元中的每一个访问单元相关联的音频帧。
D4.根据方面D3所述的音频解码器,其中,所述预定访问单元编码有相应相关联的音频帧,使得音频帧的重构独立于紧邻预定访问单元之前的访问单元,其中所述音频解码内核162被配置为独立于紧邻预定访问单元之前的访问单元来重构与预定访问单元相关联的音频帧。
D5.根据方面D3或D4所述的音频解码器,其中,所述预定访问单元编码有配置数据,并且所述音频解码单元162被配置为使用配置数据以根据配置数据配置解码选项,并应用解码选项来重构与预定访问单元和紧邻预定访问单元之后的一系列访问单元相关联的音频帧。
D6.根据方面D1至D5中任一项所述的音频解码器,其中,所述音频数据流包括时间戳信息24,所述时间戳信息针对所述音频数据流的每个访问单元指示播出与相应访问单元相关联的音频帧的相应时间戳,其中所述音频解码器被配置为根据所述时间戳信息来播出与所述音频帧的前端在时间上对齐的音频帧,并且丢弃与所述预定访问单元相关联的音频帧的端部。
D7.根据方面D1至D6中任一项所述的音频解码器,被配置为在所述音频帧的所述端部和剩余部分的接合点处执行交叉衰落。
E1.一种音频编码器,包括:
音频编码内核72,被配置为以音频信号12的音频帧14为单位将所述音频信号编码为音频数据流40的有效载荷分组16,使得每一个有效载荷分组属于所述音频数据流被划分成的访问单元18中的相应访问单元,每一个访问单元与所述音频帧中的相应音频帧相关联,以及
截断分组插入器74,被配置为将截断单元分组44;58插入到所述音频数据流中,所述截断单元分组44;58能够设置为指示与预定访问单元相关联的音频帧的端部在播出时被丢弃。
E2.根据方面E1所述的音频编码器,其中,所述音频编码器被配置为生成根据方面A1至A9中任一项所述的可拼接的音频数据流。
E3.根据方面E1或E2所述的音频编码器,其中,所述音频编码器被配置为根据外部时钟在所述访问单元之中选择所述预定访问单元。
E4.根据方面E3所述的音频编码器,其中,所述外部时钟是视频帧时钟。
E5.根据方面E1至E5中任一项所述的音频编码器,被配置为执行速率控制以使所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与预定的平均比特率的积分比特率偏差在预定的访问单元处取预定区间内的值,该预定区间的宽度小于随着整个可拼接的音频数据流而改变的积分比特率偏差的范围的1/2。
E6.根据方面E1至E5中任一项所述的音频编码器,被配置为执行速率控制以使所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与预定的平均比特率的积分比特率偏差在预定的访问单元处取固定值,该固定值小于随着整个可拼接的音频数据流而改变的积分比特率偏差的最大值的3/4。
E7.根据方面E1至E5中任一项所述的音频编码器,被配置为执行速率控制以使所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与预定的平均比特率的积分比特率偏差在预定的访问单元以及其截断单元分组被插入到音频数据流中的其他访问单元处取预定值。
E8.根据方面E1至E7中任一项所述的音频编码器,被配置为通过记录编码音频解码器缓冲器填充状态来执行速率控制,使得记录的填充状态在预定访问单元处取预定值。
E9.根据方面E8所述的音频编码器,其中,所述预定值在其截断单元分组被插入到音频数据流中的访问单元之间是公共的。
E10.根据方面E8所述的音频编码器,被配置为发信号通知音频数据流内的预定值。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对相应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
新颖的被拼接的或可拼接的音频数据流可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。该装置或系统可以例如包括用于向接收机传输计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的方法可以使用硬件设备、或使用计算机、或者使用硬件设备和计算机的组合来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
METHOD AND ENCODER AND DECODER FOR SAMPLE-ACCURATE REPRESENTATION OFAN AUDIO SIGNAL,IIS1b-10F51302WO-ID,FH110401PID
ISO/IEC 23008-3,Information technology-High efficiency coding andmedia delivery in heterogeneous environments-Part 3:3D audio
ISO/IEC DTR 14496-24:Information technology-Coding of audio-visualobjects-Part 24:Audio and systems interaction

Claims (16)

1.一种用于对音频数据流进行拼接的流拼接器,包括:
第一音频输入接口(102),用于接收包括有效载荷分组(16)的序列的第一音频数据流(40),所述有效载荷分组中的每一个有效载荷分组属于所述第一音频数据流被划分成的访问单元(18)的序列中的相应访问单元,所述第一音频数据流的每一个访问单元与第一音频信号(12)的音频帧(14)中的相应音频帧相关联,所述第一音频信号(12)以所述第一音频信号的音频帧为单位被编码为所述第一音频数据流;
第二音频输入接口(104),用于接收包括有效载荷分组的序列的第二音频数据流(110),所述有效载荷分组中的每一个有效载荷分组属于所述第二音频数据流被划分成的访问单元的序列中的相应访问单元,所述第二音频数据流的每一个访问单元与第二音频信号的音频帧中的相应音频帧相关联,所述第二音频信号以所述第二音频信号的音频帧为单位被编码为所述第二音频数据流;
拼接点设置器;以及
拼接复用器,
其中所述第一音频数据流还包括截断单元分组(42;58),所述截断单元分组(42;58)被插入到所述第一音频数据流中并且能够设置为针对预定访问单元指示与预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃,并且所述拼接点设置器(106)被配置为设置所述截断单元分组(42;58)使得所述截断单元分组指示与所述预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃,或者所述拼接点设置器(106)被配置为将截断单元分组(42;58)插入到所述第一音频数据流中,并且将所述截断单元分组(42;58)设置为针对预定访问单元指示与所述预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃;以及
其中所述拼接复用器(108)被配置为在所述预定访问单元处切断所述第一音频数据流(40),以获得所述第一音频数据流的有效载荷分组子序列,所述有效载荷分组子序列中的每一个有效载荷分组属于所述第一音频数据流中的包括所述预定访问单元的一系列访问单元中的相应访问单元,并且将所述第一音频数据流的所述有效载荷分组子序列与所述第二音频数据流的所述有效载荷分组的序列进行拼接,使得所述第一音频数据流的所述有效载荷分组子序列和所述第二音频数据流的所述有效载荷分组的序列彼此紧邻接续并且在所述预定访问单元处彼此邻接,其中与所述预定访问单元相关联的所述音频帧的所述端部在所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的所述有效载荷分组的序列之前的情况下是尾端部(44)并且在所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的所述有效载荷分组的序列之后的情况下是前端部(56)。
2.根据权利要求1所述的流拼接器,其中,所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的有效载荷分组的序列之前,并且与所述预定访问单元相关联的音频帧的端部是尾端部(44)。
3.根据权利要求1所述的流拼接器,其中,所述拼接点设置器被配置为将所述端部的时间长度设置为与外部时钟相一致,其中所述外部时钟是视频帧时钟。
4.根据权利要求2所述的流拼接器,其中,所述第二音频数据流具有或者所述拼接点设置器(106)通过插入引起另一截断单元分组(114),所述另一截断单元分组(114)被插入到所述第二音频数据流(110)中并且能够设置为指示与所述第二音频数据流(110)的端接访问单元相关联的另一音频帧的端部要在播出时被丢弃,并且所述第一音频数据流还包括又一截断单元分组,所述又一截断单元分组被插入到所述第一音频数据流(40)中并且能够设置为指示与又一预定访问单元相关联的又一音频帧的端部要在播出时被丢弃,其中所述预定访问单元的所述音频帧与所述又一预定访问单元的所述又一音频帧之间的时间距离与在拼接之后所述第二音频信号在所述预定访问单元之后的所述第二音频信号的前访问单元与所述端接访问单元之间的时间长度一致,其中所述拼接点设置器(106)被配置为设置所述另一截断单元分组(114),使得所述另一截断单元分组(114)指示所述另一音频帧的尾端部(44)要在播出时被丢弃,并且设置又一截断单元分组使得所述又一截断单元分组指示所述又一音频帧的前端部要在播出时被丢弃,其中所述拼接复用器(108)被配置为适配所述第二音频数据流(110)包括的时间戳信息(24),所述时间戳信息针对每一个访问单元指示要播出与相应访问单元相关联的音频帧的相应时间戳,使得与所述第二音频数据流(110)的前访问单元相关联的前音频帧的时间戳与同所述预定访问单元相关联的音频帧的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去与所述预定访问单元相关联的音频帧的尾端部的时间长度相一致,并且所述拼接点设置器(106)被配置为设置所述另一截断单元分组(114)和所述又一截断单元分组,使得所述又一音频帧的时间戳等于所述另一音频帧的时间戳加上所述另一音频帧的时间长度减去所述另一音频帧的尾端部与所述又一音频帧的前端部的时间长度之和。
5.根据权利要求2所述的流拼接器,其中,所述第二音频数据流(110)具有或者所述拼接点设置器(106)通过插入引起另一截断单元分组(112),所述另一截断单元分组(112)被插入到所述第二音频数据流中,所述另一截断单元分组(112)能够设置为指示与所述第二音频数据流的前访问单元相关联的另一音频帧的端部要在播出时被丢弃,其中所述拼接点设置器(106)被配置为设置所述另一截断单元分组(112),使得所述另一截断单元分组(112)指示所述另一音频帧的前端部要在播出时被丢弃,其中所述第一音频数据流和所述第二音频数据流包括的时间戳信息(24)针对每一个访问单元指示要播出与所述第一音频数据流和所述第二音频数据流的相应访问单元相关联的音频帧的相应时间戳在时间上对齐,并且所述拼接点设置器(106)被配置为设置所述另一截断单元分组使得所述另一音频帧的时间戳减去与所述预定访问单元相关联的音频帧的时间长度加上所述前端部的时间长度等于与所述预定访问单元相关联的音频帧的时间戳加上与所述预定访问单元相关联的音频帧的时间长度减去尾端部的时间长度。
6.一种音频解码器,包括:
音频解码内核(162),被配置为以音频信号(12)的音频帧(14)为单位根据音频数据流(120)的有效载荷分组(16)的序列重构所述音频信号,其中所述有效载荷分组中的每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)的序列中的相应访问单元,其中每一个访问单元与所述音频帧中的相应音频帧相关联;以及
音频截断器(164),被配置为响应于被插入到所述音频数据流中的截断单元分组(42;58;114),截断与预定访问单元相关联的音频帧以在播出所述音频信号时丢弃由所述截断单元分组指示的要在播出时被丢弃的所述音频帧的端部,
其中,所述截断单元分组包括:
前/尾端截断语法元素(54);以及
截断长度元素(48),
其中,所述解码器使用所述前/尾端截断语法元素来指示所述端部是尾端部(44)还是前端部(56),并且使用所述截断长度元素来指示所述音频帧的所述端部的长度(Δt)。
7.一种音频编码器,包括:
音频编码内核(72),被配置为以音频信号(12)的音频帧(14)为单位将所述音频信号编码为音频数据流(40)的有效载荷分组(16),使得每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)中的相应访问单元,每一个访问单元与所述音频帧中的相应音频帧相关联,以及
截断分组插入器(74),被配置为将截断单元分组(44;58)插入到所述音频数据流中,所述截断单元分组(44;58)能够设置为指示与预定访问单元相关联的音频帧的端部要在播出时被丢弃,
其中,所述音频编码器被配置为执行速率控制以使所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与所述预定的平均比特率的积分比特率偏差在所述预定访问单元处取预定区间内的值,所述预定区间的宽度小于在整个可拼接的音频数据流上改变的所述积分比特率偏差的范围的1/2。
8.一种音频编码器,包括:
音频编码内核(72),被配置为以音频信号(12)的音频帧(14)为单位将所述音频信号编码为音频数据流(40)的有效载荷分组(16),使得每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)中的相应访问单元,每一个访问单元与所述音频帧中的相应音频帧相关联,以及
截断分组插入器(74),被配置为将截断单元分组(44;58)插入到所述音频数据流中,所述截断单元分组(44;58)能够设置为指示与预定访问单元相关联的音频帧的端部要在播出时被丢弃,
其中,所述音频编码器被配置为执行速率控制以使所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与所述预定的平均比特率的积分比特率偏差在所述预定访问单元处取固定值,所述固定值小于在整个可拼接的音频数据流上改变的所述积分比特率偏差的最大值的3/4。
9.一种音频编码器,包括:
音频编码内核(72),被配置为以音频信号(12)的音频帧(14)为单位将所述音频信号编码为音频数据流(40)的有效载荷分组(16),使得每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)中的相应访问单元,每一个访问单元与所述音频帧中的相应音频帧相关联,以及
截断分组插入器(74),被配置为将截断单元分组(44;58)插入到所述音频数据流中,所述截断单元分组(44;58)能够设置为指示与预定访问单元相关联的音频帧的端部要在播出时被丢弃,
其中,所述音频编码器被配置为执行速率控制以使所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与所述预定的平均比特率的积分比特率偏差在所述预定访问单元以及截断单元分组被插入到所述音频数据流中的其他访问单元处取预定值。
10.一种音频编码器,包括:
音频编码内核(72),被配置为以音频信号(12)的音频帧(14)为单位将所述音频信号编码为音频数据流(40)的有效载荷分组(16),使得每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)中的相应访问单元,每一个访问单元与所述音频帧中的相应音频帧相关联,以及
截断分组插入器(74),被配置为将截断单元分组(44;58)插入到所述音频数据流中,所述截断单元分组(44;58)能够设置为指示与预定访问单元相关联的音频帧的端部要在播出时被丢弃,
其中,所述音频编码器被配置为通过记录编码音频解码器缓冲器填充状态来执行速率控制,使得记录的填充状态在所述预定访问单元处取预定值。
11.根据权利要求10所述的音频编码器,其中,所述预定值在截断单元分组被插入到所述音频数据流中的访问单元之间是公共的。
12.根据权利要求11所述的音频编码器,被配置为发信号通知所述音频数据流内的所述预定值。
13.一种用于对音频数据流进行拼接的方法,所述音频数据流包括:第一音频数据流(40),所述第一音频数据流(40)包括有效载荷分组(16)的序列,所述有效载荷分组(16)中的每一个有效载荷分组属于所述第一音频数据流被划分成的访问单元(18)的序列中的相应访问单元,所述第一音频数据流的每一个访问单元与第一音频信号(12)的音频帧(14)中的相应音频帧相关联,所述第一音频信号(12)以所述第一音频信号的音频帧为单位被编码为所述第一音频数据流;以及第二音频数据流(110),所述第二音频数据流(110)包括有效载荷分组的序列,所述有效载荷分组中的每一个有效载荷分组属于所述第二音频数据流被划分成的访问单元序列中的相应访问单元,所述第二音频数据流的每一个访问单元与第二音频信号的音频帧中的相应音频帧相关联,所述第二音频信号以所述第二音频信号的音频帧为单位被编码为所述第二音频数据流;
其中
所述第一音频数据流还包括截断单元分组(42;58),所述截断单元分组(42;58)被插入到所述第一音频数据流中并且能够设置为针对预定访问单元指示与预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃,并且所述方法包括设置所述截断单元分组(42;58),使得所述截断单元分组指示与所述预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃,或者所述方法包括将截断单元分组(42;58)插入到所述第一音频数据流中,并且将所述截断单元分组(42;58)设置为针对预定访问单元指示与预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃,并且设置所述截断单元分组(42;58),使得所述截断单元分组指示与所述预定访问单元相关联的音频帧的端部(44;56)要在播出时被丢弃;以及
所述方法还包括在所述预定访问单元处切断所述第一音频数据流(40),以获得所述第一音频数据流的有效载荷分组子序列,所述有效载荷分组子序列中的每一个有效载荷分组属于所述第一音频数据流的包括所述预定访问单元的一系列访问单元中的相应访问单元,并且将所述第一音频数据流的所述有效载荷分组子序列与所述第二音频数据流的所述有效载荷分组的序列进行拼接,使得所述第一音频数据流的所述有效载荷分组子序列和所述第二音频数据流的所述有效载荷分组的序列彼此紧邻接续并且在所述预定访问单元处彼此邻接,其中与所述预定访问单元相关联的所述音频帧的所述端部在所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的所述有效载荷分组的序列之前的情况下是尾端部(44),并且在所述第一音频数据流的所述有效载荷分组子序列在所述第二音频数据流的所述有效载荷分组的序列之后的情况下是前端部(56)。
14.一种音频解码方法,包括:
以音频信号(12)的音频帧(14)为单位根据音频数据流(120)的有效载荷分组(16)的序列重构所述音频信号,其中所述有效载荷分组中的每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)的序列中的相应访问单元,其中每一个访问单元与所述音频帧中的相应音频帧相关联;以及
响应于被插入到所述音频数据流中的截断单元分组(42;58;114),截断与预定访问单元相关联的音频帧,以在播出所述音频信号时丢弃由所述截断单元分组指示的要在播出时被丢弃的所述音频帧的端部,
其中,所述截断单元分组包括:
前/尾端截断语法元素(54);以及
截断长度元素(48),
其中,使用所述前/尾端截断语法元素来指示所述端部是尾端部(44)还是前端部(56),并且使用所述截断长度元素来指示所述音频帧的所述端部的长度(Δt)。
15.一种音频编码方法,包括:
以音频信号(12)的音频帧(14)为单位将所述音频信号编码为音频数据流(40)的有效载荷分组(16),使得每一个有效载荷分组属于所述音频数据流被划分成的访问单元(18)中的相应访问单元,每一个访问单元与所述音频帧中的相应音频帧相关联,以及
将截断单元分组(44;58)插入到所述音频数据流中,所述截断单元分组(44;58)能够设置为指示与预定访问单元相关联的音频帧的端部要在播出时被丢弃,
其中,所述方法包括:执行速率控制以使:
所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与所述预定的平均比特率的积分比特率偏差在所述预定访问单元处取预定区间内的值,所述预定区间的宽度小于在整个可拼接的音频数据流上改变的所述积分比特率偏差的范围的1/2;或者
所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与所述预定的平均比特率的积分比特率偏差在所述预定访问单元处取固定值,所述固定值小于在整个可拼接的音频数据流上改变的所述积分比特率偏差的最大值的3/4;或者
所述音频数据流的比特率在预定的平均比特率周围改变并且服从预定的平均比特率,使得与所述预定的平均比特率的积分比特率偏差在所述预定访问单元以及截断单元分组被插入到所述音频数据流中的其他访问单元处取预定值。
16.一种其上存储有计算机程序的计算机可读数字存储介质,所述计算机程序具有用于当在计算机上运行时执行根据权利要求13至15中任一项所述的方法的程序代码。
CN201580048451.5A 2014-09-09 2015-09-08 流拼接器、音频编码器/解码器、拼接方法、音频编码/解码方法和计算机存储介质 Active CN107079174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110114803.XA CN113038172B (zh) 2014-09-09 2015-09-08 音频数据流拼接以及播出方法、音频解码器和音频解码方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14184141 2014-09-09
EP14184141.1 2014-09-09
EP15154752.8A EP2996269A1 (en) 2014-09-09 2015-02-11 Audio splicing concept
EP15154752.8 2015-02-11
PCT/EP2015/070493 WO2016038034A1 (en) 2014-09-09 2015-09-08 Audio splicing concept

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110114803.XA Division CN113038172B (zh) 2014-09-09 2015-09-08 音频数据流拼接以及播出方法、音频解码器和音频解码方法

Publications (2)

Publication Number Publication Date
CN107079174A CN107079174A (zh) 2017-08-18
CN107079174B true CN107079174B (zh) 2021-02-05

Family

ID=51542159

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110114803.XA Active CN113038172B (zh) 2014-09-09 2015-09-08 音频数据流拼接以及播出方法、音频解码器和音频解码方法
CN201580048451.5A Active CN107079174B (zh) 2014-09-09 2015-09-08 流拼接器、音频编码器/解码器、拼接方法、音频编码/解码方法和计算机存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110114803.XA Active CN113038172B (zh) 2014-09-09 2015-09-08 音频数据流拼接以及播出方法、音频解码器和音频解码方法

Country Status (16)

Country Link
US (5) US10511865B2 (zh)
EP (3) EP2996269A1 (zh)
JP (2) JP6605025B2 (zh)
KR (1) KR101997058B1 (zh)
CN (2) CN113038172B (zh)
AR (1) AR101783A1 (zh)
AU (1) AU2015314286C1 (zh)
CA (1) CA2960114C (zh)
ES (1) ES2969748T3 (zh)
MX (1) MX366276B (zh)
MY (1) MY189151A (zh)
PL (1) PL3192195T3 (zh)
RU (1) RU2696602C2 (zh)
SG (1) SG11201701516TA (zh)
TW (1) TWI625963B (zh)
WO (1) WO2016038034A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2996269A1 (en) 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
US11895369B2 (en) * 2017-08-28 2024-02-06 Dolby Laboratories Licensing Corporation Media-aware navigation metadata
CN108053821B (zh) * 2017-12-12 2022-09-06 腾讯科技(深圳)有限公司 生成音频数据的方法和装置
KR20240119188A (ko) 2018-02-22 2024-08-06 돌비 인터네셔널 에이비 Mpeg-h 3d 오디오 스트림에 내장된 보조 미디어 스트림들의 처리를 위한 방법 및 장치
MX2021001970A (es) * 2018-08-21 2021-05-31 Dolby Int Ab Métodos, aparatos y sistemas para generación, transporte y procesamiento de tramas de ejecución inmediata (ipfs).
CN109949792B (zh) * 2019-03-28 2021-08-13 优信拍(北京)信息科技有限公司 多音频的合成方法及装置
CN112837709B (zh) 2021-02-24 2022-07-22 北京达佳互联信息技术有限公司 一种音频文件拼接的方法及装置
CN113516969B (zh) * 2021-09-14 2021-12-14 北京远鉴信息技术有限公司 一种拼接语音的鉴别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678332B1 (en) * 2000-01-04 2004-01-13 Emc Corporation Seamless splicing of encoded MPEG video and audio
CN102971788A (zh) * 2010-04-13 2013-03-13 弗兰霍菲尔运输应用研究公司 音频信号无缝播放的方法及编码器和解码器
US8589999B1 (en) * 2009-08-11 2013-11-19 Arris Solutions, Inc. Methods and systems for splicing between media streams

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6806909B1 (en) * 1997-03-03 2004-10-19 Koninklijke Philips Electronics N.V. Seamless splicing of MPEG-2 multimedia data streams
US5899969A (en) * 1997-10-17 1999-05-04 Dolby Laboratories Licensing Corporation Frame-based audio coding with gain-control words
JP3539615B2 (ja) 1998-03-09 2004-07-07 ソニー株式会社 符号化装置、編集装置及び符号化多重化装置並びにそれらの方法
JP2000206994A (ja) 1999-01-20 2000-07-28 Victor Co Of Japan Ltd 音声符号化装置及び復号化装置
US20060093045A1 (en) * 1999-06-29 2006-05-04 Roger Anderson Method and apparatus for splicing
CN1413347A (zh) * 1999-12-22 2003-04-23 萨尔诺夫公司 对拼接的不连续音频流进行平滑的方法和装置
US6792047B1 (en) * 2000-01-04 2004-09-14 Emc Corporation Real time processing and streaming of spliced encoded MPEG video and associated audio
US7096481B1 (en) * 2000-01-04 2006-08-22 Emc Corporation Preparation of metadata for splicing of encoded MPEG video and audio
US6907081B2 (en) * 2001-03-30 2005-06-14 Emc Corporation MPEG encoder control protocol for on-line encoding and MPEG data storage
ATE305164T1 (de) 2001-06-08 2005-10-15 Koninkl Philips Electronics Nv Editieren von audiosignalen
AU2002327217A1 (en) * 2001-07-09 2003-01-29 Visible World, Inc. System and method for seamless switching of compressed audio streams
US7496283B2 (en) * 2002-06-28 2009-02-24 Microsoft Corporation Methods and systems for processing digital data rate and directional playback changes
JP2004272054A (ja) 2003-03-11 2004-09-30 Toshiba Corp 圧縮音声データの編集方法、編集プログラム及び編集装置
US7400653B2 (en) * 2004-06-18 2008-07-15 Dolby Laboratories Licensing Corporation Maintaining synchronization of streaming audio and video using internet protocol
US7512705B2 (en) * 2004-12-01 2009-03-31 Hewlett-Packard Development Company, L.P. Truncating data units
JP4371127B2 (ja) * 2006-07-14 2009-11-25 ソニー株式会社 再生装置、再生方法、プログラム
JP5368988B2 (ja) * 2008-02-22 2013-12-18 パナソニック株式会社 音楽再生装置、音楽再生方法、音楽再生プログラム、及び集積回路
ES2570967T4 (es) 2008-10-06 2017-08-18 Telefonaktiebolaget Lm Ericsson (Publ) Método y aparato para proporcionar audio alineado de múltiples canales
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
US8743906B2 (en) * 2009-01-23 2014-06-03 Akamai Technologies, Inc. Scalable seamless digital video stream splicing
CN102461196B (zh) * 2009-04-28 2015-08-19 福拜特斯印度私人有限公司 用于多个流的协调拼接的方法和设备
US9031850B2 (en) 2009-08-20 2015-05-12 Gvbb Holdings S.A.R.L. Audio stream combining apparatus, method and program
BR112012009490B1 (pt) * 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
JP5624159B2 (ja) * 2010-01-12 2014-11-12 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化および復号するための方法、ならびに以前に復号されたスペクトル値のノルムに基づいてコンテキストサブ領域値を取得するコンピュータプログラム
US9094658B2 (en) 2010-05-10 2015-07-28 Mediatek Inc. Method and apparatus of adaptive loop filtering
US20110293021A1 (en) * 2010-05-28 2011-12-01 Jayant Kotalwar Prevent audio loss in the spliced content generated by the packet level video splicer
US9055305B2 (en) 2011-01-09 2015-06-09 Mediatek Inc. Apparatus and method of sample adaptive offset for video coding
US9008170B2 (en) 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
US9357235B2 (en) 2011-10-13 2016-05-31 Qualcomm Incorporated Sample adaptive offset merged with adaptive loop filter in video coding
US20140321552A1 (en) 2011-11-18 2014-10-30 Dolby Laboratories Licensing Corporation Optimization of Deblocking Filter Parameters
KR101638720B1 (ko) 2012-05-29 2016-07-20 미디어텍 인크. 샘플 어댑티브 오프셋 정보를 부호화하는 방법 및 장치
JP6132161B2 (ja) 2012-06-08 2017-05-24 サン パテント トラスト 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
DK3297284T3 (da) 2012-06-11 2019-09-23 Samsung Electronics Co Ltd Indkodning og afkodning af videoer, der deler sao-parametre, ifølge en farvekomponent
US9596461B2 (en) 2012-11-26 2017-03-14 Qualcomm Incorporated Loop filtering across constrained intra block boundaries in video coding
KR20150009122A (ko) * 2013-07-15 2015-01-26 주식회사 케이티 지역 광고를 합성하는 서버 및 장치, 그리고 영상 스트림을 합성하는 서버
EP2996269A1 (en) 2014-09-09 2016-03-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio splicing concept
US10057574B2 (en) 2015-02-11 2018-08-21 Qualcomm Incorporated Coding tree unit (CTU) level adaptive loop filter (ALF)
CN105989577B (zh) * 2015-02-17 2020-12-29 中兴通讯股份有限公司 一种图像校正的方法和装置
WO2016199330A1 (ja) 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
US10841581B2 (en) 2016-07-14 2020-11-17 Arris Enterprises Llc Region specific encoding and SAO-sensitive-slice-width-adaptation for improved-quality HEVC encoding
US10200687B2 (en) 2017-06-02 2019-02-05 Apple Inc. Sample adaptive offset for high dynamic range (HDR) video compression
CN107707915B (zh) 2017-09-30 2019-11-12 上海兆芯集成电路有限公司 采样点自适应偏移滤波的控制方法及其影像处理系统
CN110740246A (zh) * 2018-07-18 2020-01-31 阿里健康信息技术有限公司 一种图像矫正方法、移动设备和终端设备
CN111178278B (zh) * 2019-12-30 2022-04-08 上海商汤临港智能科技有限公司 视线方向确定方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678332B1 (en) * 2000-01-04 2004-01-13 Emc Corporation Seamless splicing of encoded MPEG video and audio
US8589999B1 (en) * 2009-08-11 2013-11-19 Arris Solutions, Inc. Methods and systems for splicing between media streams
CN102971788A (zh) * 2010-04-13 2013-03-13 弗兰霍菲尔运输应用研究公司 音频信号无缝播放的方法及编码器和解码器

Also Published As

Publication number Publication date
EP3192195A1 (en) 2017-07-19
WO2016038034A1 (en) 2016-03-17
EP4307686A3 (en) 2024-04-17
CN113038172A (zh) 2021-06-25
US20230074155A1 (en) 2023-03-09
PL3192195T3 (pl) 2024-06-17
US20170230693A1 (en) 2017-08-10
JP6920383B2 (ja) 2021-08-18
KR101997058B1 (ko) 2019-07-08
US20240129560A1 (en) 2024-04-18
US11025968B2 (en) 2021-06-01
SG11201701516TA (en) 2017-03-30
US10511865B2 (en) 2019-12-17
US11882323B2 (en) 2024-01-23
US20210352342A1 (en) 2021-11-11
AU2015314286C1 (en) 2020-06-04
JP2020008864A (ja) 2020-01-16
CA2960114A1 (en) 2016-03-17
AR101783A1 (es) 2017-01-11
TWI625963B (zh) 2018-06-01
US11477497B2 (en) 2022-10-18
KR20170049592A (ko) 2017-05-10
EP2996269A1 (en) 2016-03-16
RU2017111578A (ru) 2018-10-10
EP3192195C0 (en) 2024-01-03
BR112017003288A2 (pt) 2017-11-28
MX2017002815A (es) 2017-05-17
MX366276B (es) 2019-07-04
US20200195985A1 (en) 2020-06-18
TW201626803A (zh) 2016-07-16
CN107079174A (zh) 2017-08-18
JP6605025B2 (ja) 2019-11-13
EP3192195B1 (en) 2024-01-03
RU2017111578A3 (zh) 2018-10-10
CA2960114C (en) 2019-08-20
AU2015314286A1 (en) 2017-04-13
CN113038172B (zh) 2023-09-22
JP2017534898A (ja) 2017-11-24
RU2696602C2 (ru) 2019-08-05
ES2969748T3 (es) 2024-05-22
MY189151A (en) 2022-01-28
EP4307686A2 (en) 2024-01-17
AU2015314286B2 (en) 2019-01-03

Similar Documents

Publication Publication Date Title
CN107079174B (zh) 流拼接器、音频编码器/解码器、拼接方法、音频编码/解码方法和计算机存储介质
US12094479B2 (en) Audio decoder, apparatus for generating encoded audio output data and methods permitting initializing a decoder
BR112012026326B1 (pt) método e codificador e decodificador para representação com amostragem precisa de um sinal de áudio
BR112017003288B1 (pt) Conceito de combinação de áudio

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant