CN116631415A

CN116631415A - 音频解码器、提供解码的音频信号的方法、和计算机程序

Info

Publication number: CN116631415A
Application number: CN202310552328.3A
Authority: CN
Inventors: 马克斯·诺伊恩多夫; 马赛厄斯·费利克斯; 马赛厄斯·希尔登布兰德; 卢卡斯·舒斯特; 英戈·霍夫曼; 贝恩德·赫尔曼; 尼古拉斯·里特尔博谢
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-01-10
Filing date: 2018-01-10
Publication date: 2023-08-22
Also published as: US11217260B2; CN117037804A; AU2024201516A1; JP7295190B2; EP3822969A1; JP6955029B2; US11837247B2; CA3049729C; CN116631413A; CN117037806A; CA3206050A1; KR20230129569A; US20190371351A1; MX2022015787A; MX2022015782A; ZA201905161B; PL3568853T3; KR20210129255A; CN116631414A; AU2022201458B2

Abstract

公开了用于基于编码的音频信号表示来提供解码的音频信号表示的音频解码器，其被配置为根据配置信息调整解码参数，并使用当前配置信息解码一个或多个音频帧。音频解码器被配置为将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较，并且如果配置结构中的配置信息、或者配置结构中的配置信息的相关部分与当前配置信息不同，则进行转换以使用配置结构中的配置信息作为新配置信息来进行解码。音频解码器被配置为当比较配置信息时考虑包括在配置结构中的流标识符信息，使得先前由音频解码器获取的流标识符和配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换。还公开了对应的方法和计算机程序。

Description

音频解码器、提供解码的音频信号的方法、和计算机程序

本申请是申请日为2018年1月10日、国际申请号为PCT/EP2018/050575、中国申请号为“201880017357.7”、发明名称为“音频解码器、音频编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序”的申请的分案申请。

技术领域

根据本发明的实施例涉及一种基于编码的音频信号表示来提供解码的音频信号表示的音频解码器。

根据本发明的其他实施例涉及一种提供编码的音频信号表示的音频编码器。

根据本发明的其他实施例涉及一种提供解码的音频信号表示的方法。

根据本发明的其他实施例涉及一种提供编码的音频信号表示的方法。

根据本发明的其他实施例涉及音频流。

根据本发明的其他实施例涉及音频流提供器。

根据本发明的其他实施例涉及执行这些方法之一的计算机程序。

背景技术

在下文中，将描述本发明各个方面背后的问题和根据本发明的实施例的可能的使用场景。

存在在不同音频流之间或不同编码的音频帧序列之间转换的情况。例如，不同的音频帧序列可以包括不同的音频内容，在这些音频内容之间应该进行转换。

例如，当在自适应流式传输用例中采用MPEG-D USAC(ISO/IEC23003-3+Amd.1+Amd.2+Amd.3)时，可能发生所谓的自适应集合(例如，其可以使用户可以在其中切换的两个或更多个流形成组)内的两个流具有完全相同的配置结构(即使它们的比特率不同)的情况。例如，如果编码器仅选择使用针对两种比特率设置的完全相同的编码工具来操作编码器，则会发生这种情况。

例如，音频编码器可以使用相同的基本编码设置(其也被发信号通知给音频解码器)，但是仍然可以提供音频值的不同表示。例如，当希望实现较低的比特率时，即使基本编码器设置或解码器设置保持不变，音频编码器也可以使用较粗略的频谱值量化，这导致较小的比特需求。

然而，这(例如，即使自适应集合内的两个流的比特率不同，这两个流具有完全相同的配置结构的情况的出现)也不是问题。

然而，已经发现，在自适应流式传输用例中，解码器应该知道随后接收的接入单元(或“帧”)是否源自相同的流或者是否发生了流改变。

已经发现，如果已经检测到流的改变，则音频解码器将在某些情况下运行指定的操作步骤序列，以确保以下步骤：

·正确关闭一个解码器实例，并将临时内部存储的解码的信号部分馈送到解码器输出——称为“刷新”的过程。

·解码器将使用与改变的流相关联的配置信息重新实例化并重新配置自身。

·解码器将“预滚动”嵌入式接入单元，这些接入单元搭载在立即播出帧(IPF)中。这种接入单元的预滚动使解码器处于完全初始化状态，使得解码第一帧的输出产生完全兼容的解码的音频信号。

·可选地，例如，取决于相应的比特流信令元素，来自解码器刷新过程的音频输出和来自解码重新配置的解码器的第一接入单元的输出在很短的时间段内淡入淡出。

例如，可以运行所有上述步骤以实现获得从一个流的解码的音频到另一个流的解码的音频的“无缝”转换的唯一目标。“无缝”意味着流转换本身没有可听见的伪声和小故障。事实上，流转换可能在感知上是显而易见的，因为——例如——整体编码质量或音频带宽或音色的变化。然而，转换的实际点(时间点)本身不会引起听觉印象。换句话说，在转换点没有“点击”或“噪声突发”或类似的令人不安的声音。

已经发现，可以通过分析嵌入在立即播出帧中的配置结构并将其与当前解码的流的配置进行比较来获得是否已经发生流改变的信息。例如，当且仅当接收的配置与当前配置不同时，音频解码器才可以假设流的改变。

例如，如果解码器接收具有变化比特率的流的立即播出帧(IPF)，则解码器检测音频预滚动扩展有效载荷的存在，提取配置结构并进行该新配置和当前配置之间的比较。有关更多详细信息，另请参见ISO/IEC 23003-3：2012/Amd.3，子条款“比特率自适应”。

然而，已经发现，如果当前配置结构和新配置结构两者相同，则解码器将无法识别出它正在从与之前不同的流中接收接入单元，因此将既不重新配置解码器且解码器也不会解码驻留在IPF的扩展有效载荷中的音频预滚动。

相反，解码器将尝试继续解码，就像其已从先前活跃流接收到继续的接入单元一样。这将(例如，在没有使用或评估streamID的传统情况下)导致窗口边界和最后解码的帧的编码模式与新流的新帧不对应的可能情况，这继而又导致听觉伪音，如咔嗒声或噪音突发。这将挫败IPF的主要目的和自适应音频流传输理念，该理念基于流之间无缝转换的概念。

在下文中，将描述一些传统方法。

应该注意，对于统一语音和音频编码(USAC)，没有已知的解决方案。

在MPEG-H 3D音频(ISO/IEC 23008-3+所有修改)中，如果通过MPEG-H音频流(“MHAS”)打包流格式来发送音频数据，则可以解决该问题。MHAS包包含了可以在流之间不同的分组标签，因此可以用于区分配置。但是，没有针对MPEG-D USAC指定MHAS格式。

在MPEG-4HE-AAC(ISO/IEC 14496-3+所有修改)中，有一种解决方法需要编码器确保在潜在的转换点(所谓的流接入点(SAP))处所有流都具有相同的窗口形状和窗口序列以及针对所采用的信号处理工具的其他约束。这会对最终的音频质量产生不利影响。上面提到的IPF的设计完全是为了释放新编解码器的所有这些约束。

总之，需要一种允许在不同音频流之间进行切换的概念，并且该概念在开销量和易于实现之间提供了改进的折衷。

发明内容

根据本发明的实施例创建了一种音频解码器，用于根据编码的音频信号表示来提供解码的音频信号表示。音频解码器被配置为根据配置信息调整解码参数。音频解码器被配置为使用当前配置(例如，使用当前活动的配置信息)解码一个或多个音频帧。此外，音频解码器被配置为将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较，并且如果与要解码的一个或多个帧相关联的配置结构中的配置信息、或者与要解码的一个或多个帧相关联的配置结构中的配置信息的相关部分(例如，直到并且包括流标识符的部分)与当前配置信息不同，则进行转换以使用与要解码的一个或多个帧相关联的配置结构中的配置信息作为新配置信息来进行解码。其中音频解码器被配置为在比较配置信息时考虑包括在配置结构中的流标识符信息，使得先前由音频解码器获取的流标识符和与要解码的一个或多个帧相关联的配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换。

根据本发明的该实施例基于以下思想：即使在实际解码配置(例如，可以通过配置结构中的其余配置信息描述)对于两个流相同的情况下，包括在配置结构中的流标识符信息的存在和评估允许在音频解码器侧区分不同流，并且由此也允许转换的执行。因此，流标识符可以用作区分可以在其之间进行转换的不同流的标准。由于流标识符信息被包括在配置结构中(例如，与调整音频解码器的解码参数的其他配置信息一起)，因此在决定是否应该进行转换时，不必评估来自不同协议层的任何信息。例如，流标识符信息被包括在定义解码参数(“配置结构”)的数据结构的子数据结构中，使得不必将来自分组级别的任何信息转发到实际音频解码器。通过将流标识符信息包括在配置结构中，其允许音频解码器识别从第一流到第二流的转换，而当解码单个流的连续部分时对解码参数没有任何影响，即使在不同流中使用相同解码参数的情况下，也可以在音频解码器侧识别不同流之间的切换而不需要访问来自不同协议级别的信息。而且，不必在不同流中在允许不同流之间的切换的位置处使用相同的解码参数。

总之，由独立权利要求1定义的概念允许以中等实现复杂度来识别不同流之间的切换(例如，无需从不同协议级别提取专用信令信息并将其转发到音频解码器)，同时避免需要在转换点强制执行特定的编码/解码设置(例如选择窗口等)。因此，也可以避免过度的开销和音频质量的下降。

在优选实施例中，音频解码器被配置为检查配置结构是否包括流标识符信息，并且如果流标识符信息被包括在配置结构中，则在比较中选择性地考虑流标识符信息。因此，不必在每个配置结构中包括流标识符信息。相反，可以在不需要在不同流之间进行切换的可能性的音频帧的配置结构中省略流标识符。因此，可以节约一些比特，并且可以在不允许不同流之间的切换的点处避免对流标识符信息的评估。

在优选实施例中，音频解码器被配置为检查配置结构是否包括配置扩展结构并检查配置扩展结构是否包括流标识符。如果流标识符信息被包括在配置扩展结构中，则音频解码器可以被配置为在比较中选择性地考虑流标识符信息。

因此，流标识符可以被放置在配置扩展结构中，配置扩展结构的存在是可选的，其中即使存在配置扩展结构，流标识符信息的存在甚至也可以被认为是可选的。因此，音频解码器可以灵活地识别是否存在流标识符信息，这给音频编码器提供了避免包含不必要信息的可能性。将流标识符放置在可以被激活和去激活的数据结构中(例如，通过配置结构的固定(始终存在)部分中的标志)，流标识符信息可以被准确地放置在需要的位置，而如果不需要流标识符信息则节省比特。这是有利的，因为对于具有配置结构的每个帧也不必包括流标识符信息，因为流之间的切换通常仅在指定时间才可能。

在优选实施例中，音频解码器被配置为接受配置扩展结构中的配置信息项的可变排序。例如，音频解码器被配置为：当将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较时考虑在配置扩展结构中布置在流标识符信息之前(例如，在名为“streamID”的项目之前)的配置信息项(例如，配置扩展)(例如，以及流标识符信息)。此外，音频解码器可以被配置为：在将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较时，不考虑在配置扩展结构(例如“UsacConfigExtension()”)中布置在流标识符信息之后的配置信息项(例如，配置扩展)。

通过使用这样的概念，可以以非常灵活的方式检测不同流之间的转换。例如，指示音频流的“显著”变化的所有这样的配置信息项可以放置在配置扩展结构中流标识符信息之前，使得这些参数的改变触发从一个流到另一个流的转换。另一方面，在将与要解码的一个或多个帧相关联的配置结构中的信息与当前配置信息进行比较时，通过不考虑一些配置信息项，可以改变音频解码器的“次要”配置参数而不会触发“转换”，即从一个流切换到另一个流，这可以与重新初始化关联。换句话说，通过仅评估在配置扩展结构中布置在流标识符信息之前的配置信息项和流标识符信息本身，在比较中，可以避免“次要”解码参数的任何改变触发“转换”。相反，音频编码器可以在配置扩展结构中在流标识符信息之后放置这样的“次要”配置信息项(其与次要解码参数有关)。然后，音频编码器可以改变流内的这种“次要”配置信息项，而不会由于每个改变而触发“转换”(或重新初始化)。另一方面，在流中保持不变的那些配置信息项可以放置在配置扩展结构中的流标识符信息之前，并且改变这种“高度相关”的配置信息项(例如，可以指示音频流的“显著”变化)将导致“转换”(并且通常在音频解码器的重新初始化中)。由于音频解码器还可以接受配置扩展结构中的配置信息项的可变排序，因此音频编码器可以根据信号特性或根据其他标准来决定哪些配置信息项的改变应该触发“转换”或者音频解码器的重新初始化，以及在流内哪些配置信息项应该可以改变而不会触发“转换”或音频解码器的重新初始化。

在优选实施例中，音频解码器被配置为基于相应配置信息项之前的一个或多个配置扩展类型标识符来识别配置扩展结构中的一个或多个配置信息项。通过使用这种配置扩展类型标识符，可以实现配置信息项的可变排序。

在优选实施例中，配置扩展结构是配置结构的子数据结构，其中配置扩展结构的存在由音频解码器评估的配置结构的比特来指示。流标识符信息是配置扩展结构的子数据项，其中流标识符信息的存在由与由音频解码器评估的流标识符信息相关联的配置扩展类型标识符来指示。因此，可以灵活地决定何时应该将流标识符信息添加到音频流，并且音频解码器可以容易地确定何时这样的流标识符信息可用。因此，在可以在不同流之间切换的点处包括音频流的流标识符信息(其需要多个比特)就足够了。在连续音频流内的立即播放帧(IPF)在不可能在不同流之间切换的位置处不需要携带流标识符信息，这节省了比特率。

在优选实施例中，音频解码器被配置为获得并处理包括随机接入信息(例如，“音频预滚动扩展有效载荷”，也称为“AudioPreRoll()”)的音频帧表示(例如，立即播出帧，IPF)。随机接入信息包括配置结构(例如，称为“Config()”)和用于使音频解码器的处理链的状态处于期望状态的信息(例如，用“AccessUnit()”表示)。音频解码器被配置为：如果音频解码器发现随机接入信息(例如，立即播出帧，IPF)的配置结构(例如，“Config()”)中的配置信息、或者随机接入信息的配置结构中的配置信息的相关部分与当前配置信息不同，则在使用随机接入信息的配置结构初始化音频解码器之后以及在使用用于使处理链状态处于期望状态的信息来调整所述音频解码器的状态之后，在由在到达包括随机接入信息的音频帧表示之前处理的(解码的)音频帧所表示的音频信息和基于包括随机接入信息的音频帧表示而获得的音频信息之间进行淡入淡出。例如，如果值“numPreRollFrames”为零，则可以省略对预滚动帧的解码。

换句话说，通过评估配置结构中的配置信息或其相关部分(例如，直到并包括流标识符信息)，音频解码器可以识别是否存在不同流之间的转换，并且在不同流之间转换的情况下，音频解码器可以利用随机接入信息。随机接入信息可以帮助使音频解码器的处理链处于适当的状态(通常，在没有转换的情况下，由一个或多个先前的帧实现)，从而避免转换处的伪音。总之，该概念允许在不同流之间进行无伪音切换，其中音频解码器不需要除了帧表示序列之外的来自不同协议级别的任何信息。

在优选实施例中，音频解码器被配置为：如果所述音频解码器已经解码了紧接在由包括随机接入信息(例如，立即播出帧，IPF)的音频帧表示所表示的音频帧之前的音频帧，以及如果音频解码器发现所述随机接入信息的配置结构中的配置信息的相关部分与当前配置信息相同，则继续进行解码而不执行所述音频解码器的初始化以及不使用使所述音频解码器的处理链的状态处于期望状态(例如，预滚动扩展播放)的信息。因此，如果音频解码器通过将配置结构中的配置信息的相关部分与当前配置信息进行比较来识别出不同流之间没有转换而是相同流的连续播出，则避免了将由执行音频解码器的初始化引起的开销(例如，处理开销或计算开销)。因此，实现了高效率，并且仅在需要时才执行音频解码器的初始化。

在优选实施例中，音频解码器被配置为：如果音频解码器尚未解码紧接在由包括随机接入信息的音频帧表示所表示的音频帧之前的音频帧，则使用所述随机接入信息的配置结构执行音频解码器的初始化，以及使用使处理链的状态处于期望状态的信息来调整音频解码器的状态。换句话说，如果存在实际的“随机接入”(其中音频解码器知道尚未解码前一音频帧)，则还执行初始化。因此，在真实“随机接入”的情况下(即，当跳转到某个帧时)和在不同流之间切换时使用随机接入信息(其中“真实”随机接入可以被发信号通知给音频解码器，并且其中，不同流之间的切换可以仅由音频解码器通过评估流标识符信息来识别)。

应当注意，这里讨论的音频解码器可以可选地通过本文描述的任何特征、功能和细节单独地或组合地补充。

根据本发明的实施例创建了用于提供编码的音频信号表示的音频编码器。音频编码器被配置为使用编码参数对音频信号的重叠或非重叠帧进行编码，以获得编码的音频信号表示。音频编码器被配置为提供描述编码参数(或等效地，音频解码器要使用的解码参数)的配置结构。配置结构还包括流标识符。

因此，音频编码器提供可由上述音频解码器很好地使用的音频信号表示。例如，音频编码器可以在不同流的配置结构中包括不同的流标识符。因此，流标识符可以是不描述音频解码器要使用的解码器配置(或解码参数)而是识别流的信息。因此，编码的音频信号表示包括流标识符，并且基于编码的音频信号信息本身可以识别不同的流，而不需要来自不同协议级别的任何信息。例如，由于流标识符信息是音频信号表示的必需部分，或者是包括在音频信号表示内的配置结构的必需部分，因此不需要使用在分组级别上提供的信息。因此，如本文所讨论的，音频解码器可以识别不同流之间的切换，即使解码器的实际配置参数保持不变。

在优选实施例中，音频编码器被配置为在配置结构的配置扩展结构中包括流标识符，其中包括流标识符的配置扩展结构可以由音频编码器启用和禁用。因此，可以在音频编码器侧灵活地决定是否应该包括流标识符信息。例如，对于音频编码器知道将不存在流切换的音频帧，可以选择性地省略包括流标识符信息。

在优选实施例中，音频编码器被配置为在配置扩展结构中包括指定流标识符的配置扩展类型标识符，以发信号通知在配置扩展结构中存在流标识符。因此，如果在配置扩展结构中存在其他配置扩展信息，则甚至可以省略流标识符信息。换句话说，并非每个配置扩展结构都必须包括流标识符，这有助于节省比特。

在优选实施例中，音频编码器被配置为提供包括所述流标识符的至少一个配置结构和不包括所述流标识符的至少一个配置结构。因此，如果音频编码器认识到这是必要的，则流标识符仅被包括在配置结构中。例如，音频编码器仅需要将流标识符包括在可以进行流之间的切换的帧的配置结构中。通过这样做，比特率可以保持为相当小。

在优选实施例中，音频编码器被配置为在由第一音频帧序列表示的第一编码音频信息和由第二音频帧序列表示的第二编码音频信息的提供之间进行切换；其中，在呈现第一音频帧序列的最后帧之后正确地呈现所述第二音频帧序列的第一音频帧需要重新初始化音频解码器。在这种情况下，音频编码器被配置为在表示第二音频帧序列的第一帧的音频帧表示中包括配置结构，该配置结构包括与第二音频帧序列相关联的流标识符。与第二音频帧序列相关联的流标识符被选择为和与第一帧序列相关联的流标识符不同。因此，音频编码器可以在配置结构内提供允许音频解码器区分不同流并且识别何时应该执行重新初始化(也称为“转换”)的信令。

在优选实施例中，除流标识符之外，音频编码器不提供指示从第一音频帧序列切换到第二音频帧序列的任何其他信令信息。因此，比特率可以保持为相当小。特别地，可以避免除了编码的音频信息之外的信令被包括在不同协议级别中。此外，音频编码器事先不知道何时实际发生从第一音频帧序列到第二音频帧序列的切换。例如，音频解码器可首先请求来自第一音频帧序列的音频帧，并且当音频解码器识别出某些需要时(例如，当可用比特率增加或减少时)音频解码器(或控制音频帧的提供的任何其他控制设备)可以决定现在应该由音频解码器处理来自第二流的音频帧。然而，在某些情况下，音频解码器可能不知道何时(或确切地何时)在提供来自第一序列的音频帧和提供来自第二序列的音频帧之间切换，并且仅能够通过评估配置结构中包括的流标识符来识别当前接收的音频帧源自哪个音频帧序列。

在优选实施例中，音频编码器被配置为使用不同的比特率来提供第一音频帧序列(例如，第一流)和第二音频帧序列(例如，第二流)(其中第一流和第二流可以表示相同的音频内容)。此外，音频编码器可以被配置为：向音频解码器发信号通知除了不同的比特流标识符之外的用于解码第一音频帧序列以及用于解码第二音频帧序列的相同的解码器配置信息。换句话说，音频编码器可以向音频解码器发信号以使用相同的解码器参数，但是第一流和第二流仍然可以包括不同的比特率。例如，这可以由在提供第一音频流和第二音频流时使用不同的量化分辨率或不同的心理声学模型引起。然而，这些不同的量化分辨率或不同的心理声学模型不影响音频解码器要使用的解码参数，而仅影响实际比特率。因此，不同的比特流标识符可以是音频解码器区分要解码的音频帧是来自第一流还是来自第二流的唯一可能性，并且比特流标识符的评估还允许音频解码器识别何时应进行转换(或重新初始化)。

因此，音频编码器可以在可能发生可用比特率变化的环境中服务，并且信令开销可以保持为相当小。

此外，应该注意，这里讨论的音频编码器可以可选地由本文描述的任何特征和功能和细节来补充。

根据本发明的另一个实施例涉及一种用于基于编码的音频信号表示来提供解码的音频信号表示的方法。该方法包括：根据配置信息调整解码参数，并且该方法包括：使用当前配置信息(例如，当前活动的配置信息)解码一个或多个音频帧。此外，该方法还包括：将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息进行比较，并且该方法包括：如果与要解码的一个或多个帧相关联的配置结构中的配置信息、或者与要解码的一个或多个帧相关联的配置结构中的配置信息的相关部分(例如，直到并且包括流标识符)与当前配置信息不同，则进行转换(例如，包括对解码的重新初始化)以使用与要解码的一个或多个帧相关联的配置结构中的配置信息作为新配置来进行解码。该方法还包括：在比较配置信息时考虑包括在配置结构中的流标识符信息，使得先前由音频解码器获取的流标识符和与要解码的一个或多个帧相关联的配置结构中的流标识符信息所表示的流标识符之间的差异导致进行转换。该方法基于与上述音频解码器相同的考虑因素。

该方法可以通过本文所述的任何特征和功能以及细节单独地或组合地补充。

根据本发明的另一个实施例创建了一种用于提供编码的音频信号表示的方法。该方法包括：使用编码参数对音频信号的重叠或非重叠帧进行编码，以获得编码的音频信号表示。该方法包括：提供描述编码参数(或等效地，音频解码器要使用的解码参数)的配置结构，其中配置结构包括流标识符。该方法基于与上述音频编码器相同的考虑因素。

此外，应该注意，这里描述的方法可以通过上面关于相应的音频解码器和音频编码器描述的任何特征和功能来补充。此外，这些方法可以通过本文所述的任何特征、功能和细节单独或组合地补充。

根据本发明的实施例创建音频流。音频流包括音频信号的重叠或非重叠帧的编码表示。音频流还包括描述编码参数(或等效地，音频解码器要使用的解码参数)的配置结构。配置结构包括表示流标识符的流标识符信息(例如，以整数值的形式)。

音频流基于上述考虑因素。特别地，包括在音频流的配置结构中的流标识符(其也描述编码参数(或等效地，音频解码器要使用的解码参数))允许音频解码器区分不同的流，即使使用相同的编码参数(或解码参数)。

在优选实施例中，流标识符信息被包括在配置扩展结构中。在这种情况下，配置扩展结构优选地是配置结构的子数据结构，其中配置扩展结构的存在由配置结构的比特来指示。此外，流标识符信息是配置扩展结构的子数据项，其中，流标识符信息的存在由与流标识符信息相关联的配置扩展类型标识符来指示。这种音频流的使用允许在需要时灵活地包括流标识符信息，而在不需要时可以省略包括流标识符信息(例如，对于不允许在多个流之间进行切换的帧来说)。因此，可以节省比特率。

在优选实施例中，流标识符被嵌入在音频帧的表示的子数据结构中(并且可以由音频解码器从这种子数据结构中提取)。通过将流标识符嵌入音频帧的表示的子数据结构中，可以避免音频解码器必须使用来自更高协议级别的信息。相反，为了解码音频帧，音频解码器仅需要音频帧的表示，并且可以决定是否存在不同流之间的切换。

在优选实施例中，流标识符仅被嵌入在包括配置结构的音频帧的表示的子数据结构中(并且可以由音频解码器从包括配置结构的音频帧的表示的子数据结构中提取)。该想法基于以下发现：流之间的切换(没有明显的伪音)只能在包括配置结构的帧处执行。因此，已经发现，将流标识符嵌入包括配置结构的音频帧的表示的子数据结构中就足够了，而在并未包括配置结构的音频帧的表示中不包括流标识符。

这里描述的音频流可以通过本文讨论的任何特征、功能和细节单独或组合地补充。特别地，针对音频编码器、音频解码器和流提供器描述的这些特征也可以应用于音频流。

根据本发明的实施例创建用于提供编码的音频信号表示的音频流提供器。音频流提供器被配置为提供使用编码参数编码的音频信号的时间上重叠或非重叠的帧的编码版本，作为编码的音频信号表示的一部分。音频流提供器被配置为提供描述编码参数(或者，等效地，音频解码器要使用的解码参数)的配置结构，作为编码的音频信号表示的一部分，其中配置结构包括流标识符。该音频流提供器基于与上述音频编码器以及上述音频解码器相同的考虑因素。

在优选实施例中，音频流提供器被配置为：提供编码的音频信号表示，使得流标识符被包括在配置结构的配置扩展结构中，其中包括流标识符的所述配置扩展结构可以由配置结构中的一个或多个比特启用和禁用。该实施例基于与上面关于音频编码器以及关于音频解码器所讨论的相同的想法。换句话说，音频流提供器提供与音频编码器提供的音频流相对应的音频流(即使音频流提供器可以被配置为在不同流的提供之间切换，不同流例如由以并行方式操作的多个音频编码器提供，或者从存储介质提供)。

在优选实施例中，音频流提供器被配置为提供编码的音频信号表示，使得配置扩展结构包括指定流标识符的配置扩展类型标识符，以发信号通知在配置扩展结构中存在流标识符。该实施例基于与上面关于音频编码器和关于音频流提到的相同的考虑。

在优选实施例中，音频流提供器被配置为提供编码的音频信号表示，使得编码的音频信号表示包括包含所述流标识符的至少一个配置结构和不包含所述流标识符的至少一个配置结构。如上所述，流标识符不必被包括在每个配置结构中。相反，可以存在应该包括流标识符的配置结构的灵活的调整。通常，流标识符将被包括在这样的音频帧的配置结构中：对于这样的音频帧存在流之间的切换(或者预期或允许在流之间切换)。换句话说，包括相同配置结构的除了流标识符不同的不同流之间的切换将仅由流提供器在存在流标识符的帧处执行。因此，音频解码器(从音频流提供器接收编码的音频表示)具有识别不同流之间的切换的可能性，即使解码参数(由配置结构发信号通知)基本相同或甚至完全相同。

在优选实施例中，音频流提供器被配置为在编码的音频信息的第一部分(由第一音频帧序列表示)和编码的音频信息的第二部分(由第二音频帧序列表示)的提供之间切换，其中在呈现第一音频帧序列的最后帧之后正确地呈现第二音频帧序列的第一音频帧需要重新初始化音频解码器。音频流提供器被配置为提供编码的音频信号表示，使得表示第二音频帧序列的第一帧的音频帧表示包括配置结构，该配置结构包括与第二音频帧序列相关联的流标识符，其中与第二音频帧序列相关联的流标识符和与第一音频帧序列相关联的流标识符不同。换句话说，音频流提供器在具有相关联的不同流标识符的两个音频流(音频帧序列)之间切换。因此，音频解码器通常将知道与第一音频帧序列相关联的流标识符(例如，通过评估与第一音频帧序列相关联的配置结构)，以及在音频解码器接收第二音频帧序列的第一帧时，音频解码器将能够评估包括与第二音频帧序列相关联的流标识符的配置结构，并且能够通过比较流标识符(对于不同的流是不同的)识别从第一流到第二流的切换。因此，音频流提供器提供来自第一流的音频帧，然后切换到提供来自第二流的音频帧，并在切换之后提供的第二音频流的第一帧的配置结构内提供适当的信令信息(即流标识符)。因此，不需要额外的信令来发信号通知不同音频流之间的切换。

在优选实施例中，音频流提供器被配置为提供编码的音频信号表示，使得编码的音频信号表示除了流标识符之外，不提供指示从第一音频帧序列切换到第二音频帧序列的任何其他信令信息。因此，可以实现比特率的显著节省。协议复杂性也保持很小，因为不必包括在不同协议级别的任何信息并且不必在音频解码器侧从不同协议级别提取这样的信息。

在优选实施例中，音频流提供器被配置为提供编码的音频信号表示，使得第一音频帧序列(例如，第一流)和第二音频帧序列(例如，第二流)是使用不同的比特率编码的。此外，音频流提供器被配置为提供编码的音频信号表示，使得编码的音频信号表示向音频解码器发信号通知除了不同的比特流标识符之外的用于解码第一音频帧序列和用于解码第二音频序列帧的相同的解码器配置信息(或解码器参数或解码参数)。因此，音频流提供器为不同的流(第一流和第二流)提供非常类似的配置信息，不同的流可以例如仅比特流标识符不同。在这种情况下，使用比特流标识符特别有用，因为它们允许以最小的信令开销可靠地区分不同的比特流。

在优选实施例中，音频流提供器被配置为在向音频解码器提供第一音频帧序列和第二音频帧序列之间切换，其中，第一音频帧序列和第二音频帧序列是使用不同的比特率编码的。音频流提供器被配置为选择性地在音频帧表示(例如，立即播出帧，IPF)包括随机接入信息(例如，音频预滚动扩展有效载荷“AudioPreRoll()”)的音频帧处在提供第一音频帧序列和在提供第二音频帧序列之间进行切换，而避免在不包括随机接入信息的音频帧处在序列之间切换。音频流提供器被配置为提供编码的音频信号表示，使得流标识符被包括在从第一音频帧序列切换到第二音频帧序列时提供的音频帧的配置结构中。例如，通过音频流提供器的这种配置确保仅在第二音频帧序列的第一帧包括具有流标识符的配置结构以及随机接入信息时在第一音频帧序列的帧的提供和第二音频帧序列的帧的提供之间切换。因此，音频解码器可以检测不同音频流之间的切换，并且因此可以识别应该评估随机接入信息(而当没有不同音频流之间的切换时以及当音频解码器假设呈现单个流的连续音频帧序列时，通常不评估随机接入信息。)。

因此，通过这样的概念可以实现在不同音频流之间切换时没有伪音的良好音频质量。

在另一实施例中，音频流提供器被配置为获得使用不同比特率编码的多个并行音频帧序列，并且其中，所述音频流提供器被配置为在向音频解码器提供来自不同并行序列的帧之间进行切换，其中所述音频流提供器被配置为使用包括在切换之后提供的第一音频帧表示的所述配置结构中的所述流标识符，向音频解码器发信号通知一个或多个帧序列与序列中的哪个序列相关联。因此，音频解码器可以以较小的开销识别不同流之间的转换，而无需使用来自其他协议层的信息。

应当注意，这里讨论的音频流提供器可以由本文描述的任何特征、功能和细节单独地或组合地补充。

根据本发明的另一个实施例创建了一种用于提供编码的音频信号表示的方法。该方法包括提供使用编码参数编码的音频信号的重叠或非重叠帧的编码版本，作为编码的音频信号表示的一部分。该方法包括提供描述编码参数(或者，等效地，音频解码器要使用的解码参数)的配置结构，作为编码的音频信号表示的一部分，其中配置结构包括流标识符。

该方法基于与上面讨论的流提供器相同的考虑因素。该方法可以通过本文例如关于流提供器、还关于音频编码器、音频解码器或音频流描述的任何其他特征、功能和细节来补充。

根据本发明的另一个实施例创建了用于执行本文所述方法的计算机程序。

附图说明

后续将参考所附的图来描述根据本发明的实施例，其中：

图1示出了根据本发明(简单)实施例的音频解码器的示意框图；

图2示出了根据本发明实施例的音频解码器的示意框图；

图3示出了根据本发明(简单)实施例的音频编码器的示意框图；

图4示出了根据本发明(简单)实施例的音频流提供器的示意框图；

图5示出了根据本发明实施例的音频流提供器的示意框图；

图6示出了根据本发明实施例的允许随机接入并且包括在配置扩展部分中具有流标识符的配置部分的音频帧的表示；

图7示出了根据本发明实施例的示例音频流的表示；

图8示出了根据本发明实施例的示例音频流的表示；

图9示出了如本文所述的音频解码器的可能解码器功能的示意表示；

图10a示出了由本文所述的音频编码器和音频解码器使用的示例配置结构的表示；以及

图10b示出了由本文所述的音频编码器和音频解码器使用的示例配置扩展结构的表示；

图10c示出了示例流标识符比特流元素的表示；和

图10d示出了“usacConfigExtType”的值的示例，其可以可选地替换USAC标准中的表74；

图11a示出了根据本发明实施例的基于编码的音频信号表示来提供解码的音频信号表示的方法的流程图；

图11b示出了根据本发明实施例的用于提供编码的音频信号表示的方法的流程图；以及

图11c示出了根据本发明实施例的用于提供编码的音频信号表示的方法的流程图。

具体实施方式

1.根据图1的音频解码器

图1示出了根据本发明(简单)实施例的音频解码器的示意框图。

音频解码器100接收编码的音频信号表示110，并基于该编码的音频信号表示110来提供解码的音频信号表示112。例如，编码的音频信号表示110可以是包括统一语音和音频编码(USAC)帧序列的音频流。然而，编码的音频信号表示可以采用不同的形式，并且例如可以是由任何已知音频编码标准的比特流语法定义的音频表示。编码的音频信号表示可以例如包括配置信息110，该配置信息110可以例如被包括在配置结构中并且可以例如包括流标识符。流标识符可以例如被包括在配置信息中或配置结构中。配置信息或配置结构可以例如与要解码的一个或多个帧相关联，并且可以例如描述音频解码器要使用的解码参数。

这里，解码器100可以例如包括解码器核心130，其可以被配置为使用当前配置信息解码一个或多个音频帧(其中，当前配置信息可以例如定义解码参数)。音频解码器还被配置为根据配置信息110a调整解码参数。

例如，音频解码器被配置为将与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息(例如，用于解码一个或多个先前解码的帧的配置信息)进行比较。此外，音频解码器可以被配置为：如果与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息不同、或者与要解码的一个或多个帧相关联的配置结构中的配置信息的相关部分与当前配置信息不同，进行转换以使用与要解码的一个或多个帧相关联的配置结构中的配置信息作为新配置信息来执行解码。当进行“转换”时，音频解码器可以例如使用随机接入信息重新初始化解码器核心130，该随机接入信息旨在描述在“转换”之后应该用于正确解码音频帧(第一个音频帧)的解码器核心的状态。

特别地，音频解码器被配置为在比较配置信息时(即，在比较与要解码的一个或多个帧相关联的配置结构中的配置信息与当前配置信息时)考虑配置结构中(即，在配置信息内)包括的流标识符，使得先前由音频解码器获取的流标识符与由与要解码的一个或多个帧相关联的配置结构中的流标识符信息所表示的流标识符之间的差异导致进行该转换。

换句话说，音频解码器可以例如包括用于当前配置(或用于当前配置信息)的存储器，其可以用140表示。音频解码器100还可以包括比较器(或用于执行比较的任何其他装置)150，其可以将当前配置信息的至少相关部分(包括流标识符)和与要解码的下一(音频)帧相关联的配置信息的对应部分(包括流标识符)进行比较。例如，相关部分可以是直到流标识符并且包括流标识符的部分，其中在一些实施例中可以忽略在表示配置信息的比特流中在流标识符之后的配置信息。

如果可以由比较器150执行的该比较指示当前配置信息(或其相关部分)和与要解码的下一(音频)帧(或其相关部分)相关联的配置信息之间的差异，比较器150可以认识到应该进行“转换”。

进行转换可以例如包括重新初始化解码器核心，即使由与要解码的下一(音频)帧相关联的配置信息描述的解码参数与由当前配置信息描述的解码器配置(解码参数)相同(其中，与要解码的下一音频帧相关联的配置信息与当前配置信息的不同之处仅在于流标识符不同)。另一方面，如果与要解码的下一音频帧相关联的配置信息与当前配置信息差异更大，例如，通过定义不同的解码参数，则音频解码器100也将自然进行“转换”，这通常是表示重新初始化解码器核心130并改变解码参数。

总之，根据图1的音频解码器100通过评估在音频帧的配置结构中包括的流标识符，能够识别不同音频流的帧之间的转换，即使解码器核心130要使用的解码参数保持不变，这消除了对音频流之间的转换的专用信令和/或用于重新初始化解码器核心的条件的需要。因此，即使存在从一个流到另一个流的转换，解码器100也可以正确地解码音频帧，因为音频解码器可以识别这样的转换并适当地处理它，例如通过重新初始化音频解码器和利用新配置参数来重新配置音频解码器(如果需要)。

应当注意，根据图1的音频解码器100可以可选地通过本文描述的任何特征和功能以及细节单独地或组合地补充。

2.根据图2的音频解码器

图2示出了根据本发明实施例的音频解码器200的示意框图。

音频解码器200被配置为接收编码的音频信号表示210并且基于其提供解码的音频信号表示212。编码的音频信号表示210可以例如是包括统一语音和音频编码(USAC)帧序列的音频流。然而，也可以将使用不同音频编码概念编码的音频帧序列输入到音频解码器200中。例如，音频解码器可以接收第一流的音频帧220，并且可以随后(作为下一个音频帧)接收第二流的音频帧222。音频帧220、音频帧222可以例如由音频流提供器提供。例如，音频帧220可以包括以下形式的音频信号的编码的表示220a：以编码的频谱值和编码的缩放因子的形式和/或以编码的频谱值和编码的线性预测编码系数(TXC)的形式和/或以编码的激励和编码的线性预测编码系数的形式。音频帧222可以例如还包括音频信号的编码的表示222a，其可以与帧220中包括的音频信号的编码的表示220a具有相同的形式。然而，另外，帧222还可以包括随机接入信息222b，该随机接入信息222b又可以包括配置结构222c和用于使(例如，解码器核心的)处理链的状态处于期望状态的信息222d。该信息222d可以例如被表示为“AudioPreRoll”。

音频解码器200可以例如从编码的音频信号表示210中提取配置结构222c，配置结构222c也可以被视为配置信息。配置结构222c可以例如包括指示配置扩展结构226是否作为配置结构的一部分而存在的信息或标志(或比特)。该信息或标志或比特用224a表示。

配置扩展结构226可以例如包括指示是否存在流标识符的信息或标志或比特或标识符。后一信息、标志、比特或标识符用228表示。如果信息或标志或比特或标识符228指示存在流标识符，则还存在流标识符230，流标识符230通常可以是配置扩展结构226的一部分。

此外，配置扩展结构可以包括是否存在其他信息(例如适当的比特或标志或标识符)的信息，并且还可以包括其他信息(如果适用的话)。

音频解码器100可以例如包括存储器240，存储器240可以保存当前配置信息(例如，用于解码先前帧并且从先前帧或之前帧的配置结构中提取的配置信息)。音频解码器200还包括比较器或比较件250，比较器或比较件250被配置为将与要解码的音频帧相关联的配置信息与存储在存储器240中的当前配置信息进行比较。例如，比较器或比较件250可以被配置为将要解码的音频帧的配置结构222c的配置信息与存储在存储器中的当前配置信息进行比较，直到并包括流标识符。换句话说，可以将配置结构222c中直到并包括流标识符的任何信息项与来自存储器240的当前配置信息进行比较，以确定帧222中的配置信息(直到并包括流标识符)是否与从之前的音频帧之一提取的当前配置信息相同。在该比较中，当然将检查配置结构222c是否实际包括配置扩展结构226和流标识符230。如果不存在配置扩展结构226，则在比较中当然不会考虑它。此外，如果流标识符230不存在(例如，因为标志228指示它未被包括在帧222中)，则当然不会在比较中评估流标识符230。此外，在比较中通常将忽略配置结构222c中在流标识符230之后的任何配置信息，因为假设这样的配置信息具有次要的重要性并且这种配置信息(其在配置结构222c中在流标识符230之后)的改变并不表示不同流之间的切换，而是甚至可以在单个流内发生。

总之，比较件250通常将要解码的音频帧的配置信息(直到并包括流标识符)(但优选地省略在配置扩展结构中布置在流标识符之后的配置)与当前配置信息(从先前解码的音频帧获得)进行比较。因此，如果在比较中发现配置信息中存在差异，则比较件250检测新流(或子流)。因此，该比较用于控制从第一流(或子流)到第二流(或子流)的转换。

例如，实现这样的转换可以包括：刷新第一流的最后一帧的解码、重新配置、处理链的状态初始化为期望状态，以及，例如，第一流的最后一帧和第二流的第一帧的时域表示之间的淡入淡出的执行。

音频解码器200还包括解码器核心216，解码器核心216可以被配置为使用第一配置(可以由当前配置信息描述)来解码第一流(或第一帧序列)的帧。此外，解码器核心216可以被配置为使用第二配置来解码第二流或第二帧序列(例如，使用新配置，其由要解码的音频帧的配置信息222c描述)。例如，当比较250发现要解码的音频帧222的配置信息222c的重要部分与存储器240中的当前配置信息之间的差异时，可以触发解码器核心的重新初始化。

例如，可以在解码第一流的最后一帧和第二流的第一帧之间使用解码器的重新初始化。或者，例如，如果解码器(至少部分地)以软件实现，可以使用解码器的“新实例”。此外，当从第一流的解码切换到第二流的解码(“转换”)时，可以使用一些辅助信息使解码器核心的处理链的状态处于期望状态。例如，可以使算术解码的上下文状态处于期望状态，或者可以使时间离散滤波器的内容处于期望状态。这可以使用专用信息来完成，该专用信息也被称为“音频预滚动”APR。使处理链的状态处于期望状态是重要的，因为由音频解码器处理(解码)的第二流的第一帧可能不是第二音频流的实际第一帧。而是，当音频流提供器从提供来自第一音频流的帧切换到提供来自第二音频流的帧时，由音频解码器处理的第二音频流的第一帧可以是第二音频流期间的某个帧。因此，由音频解码器处理的“第二音频流的第一帧”可以依赖于解码链的状态的特定设置，这通常是由解码第二音频流的先前帧(在要解码的音频帧之前，要解码的音频帧是在转换之后由音频解码器处理的第二音频流的第一音频帧)的解码引起的。因此，当从第一音频流的音频帧的解码切换到第二音频流的音频帧的解码时，现在通过使用“音频预滚动”信息来实现音频解码器的状态的丢失设置(通常将通过解码第二音频流的先前帧来实现)，该“音频预滚动”信息定义了音频解码的状态的适当设置。

从参考标号270可以看出，第一音频流的最后一帧的解码提供了解码的部分272(也表示为“有用部分”)。可选地，第一音频流的最后一帧的解码可以提供甚至更长的解码的部分，其被部分地丢弃。此外，当解码第二音频流的第一帧时，提供“预滚动部分”274，在“预滚动部分”274期间初始化解码器状态以便适当地解码第二音频流的第一帧。此外，解码器核心260还提供由解码器200处理的第二音频流的第一帧的有用部分276，其中第二音频流的第一帧的有用部分276在时间上与第一流的最后一帧的有用部分272重叠。因此，可以可选地在第一流的最后一帧的有用部分272的末尾和第二流的第一帧的有用部分的开始之间执行淡入淡出。因此，可以导出解码的输出信号212，其中在第一流的最后一帧(由音频解码器200处理)和第二流的第一帧(由音频解码器200处理)之间进行无伪音的转换。

总而言之，音频解码器200可以识别音频编码器或音频流提供器何时从提供第一流的音频帧切换到提供第二流的音频帧。为此目的，音频解码器评估配置信息222c(也称为配置结构)并执行与存储在存储器240中的当前配置信息的比较。当与先前解码的音频帧相比时识别出要解码的音频帧属于不同的音频流时，执行解码器核心的重新初始化，这通常包括通过评估某“音频预滚动”信息使解码器核心的处理链的状态处于期望状态。因此，音频解码器可以适当地处理音频编码器或音频流提供器从新流(第二音频流)提供音频帧而无需另外通知的情况(除了提供包括流标识符230的配置结构222c之外)。

应当注意，这里描述的音频解码器200可以通过本文描述的任何特征和功能以及细节单独地或组合地补充。

3.根据图3的音频编码器

图3示出了根据本发明实施例的音频编码器的示意框图。

音频编码器300接收输入的音频信号310(例如，以时域表示的形式)，并且基于输入的音频信号310来提供编码的音频信号表示312。音频编码器300包括编码器核心320，编码器核心320被配置为使用编码参数对输入的音频信号310的重叠或非重叠帧进行编码，以获得编码的音频信号表示。音频编码器320可以例如包括时域到频谱域转换和频谱域表示的编码。例如，处理可以以逐帧方式执行。

此外，音频编码器可以例如包括配置结构提供330，配置结构提供330被配置为提供描述编码参数(或者等效地，音频解码器要使用的解码参数)的配置结构332。配置结构332可以例如与配置结构222c相对应。特别地，配置结构332可以包括编码参数(例如，以编码的形式)或等效地解码参数(例如，以编码的形式)，解码参数描述解码器(或解码器核心)在解码编码的音频信号表示312时要使用的设置。下面将描述配置结构332的示例。此外，配置结构332包括流标识符，流标识符可以与流标识符230相对应。例如，流标识符可以指定音频流(例如，使用特定编码器设置以连续方式编码的连续音频内容片段)。例如，可以选择由配置结构提供330提供的流标识符，使得在音频流之间应该可以切换而没有伪音并且无需明确地通知音频解码器关于该切换的所有这些音频流应该携带不同的流标识符。然而，在一些情况下，如果具有相关联的相同编码参数(或等效地，音频解码器要使用的解码参数)的这些流包括不同的流标识符，则可能就足够了。换句话说，对于其他编码参数或解码参数相同的这些流，可能仅需要不同的流标识符。

因此，编码器控制340可以例如控制编码器核心320和配置结构提供330两者。编码器控制340可以例如决定编码器核320要使用的编码参数(例如，其可以至少部分地对应于音频解码器要使用的解码参数)，并且还可以向配置结构提供330通知要包括在配置结构332中的编码参数/解码参数。因此，编码音频表示312包括编码音频内容以及还包括配置结构332。因此，音频解码器(例如，音频解码器100或音频解码器200)可以立即识别何时提供使用不同编码参数编码的不同音频流(即使并非所有编码参数都由被包括在配置结构中的解码参数反映)。

关于该问题，应该注意通常不需要将所有编码参数发信号通知给音频解码器。例如，仅需要将影响解码算法的那些编码参数发信号通知给音频解码器。为了确定音频解码器的设置而发送给音频解码器的编码参数也被指定为解码参数。另一方面，通常不将一些重要的编码参数发信号通知给音频解码器，而是隐含地反映在编码的音频信号表示中。例如，期望比特率可以是重要的编码参数，并且可以决定音频编码器如何粗略地量化频谱值和/或音频可以将多少频谱值量化为小值或甚至零值。然而，对于音频解码器，只要看到编码结果就足够了，但是他不需要知道编码器如何保持比特率相当小的具体策略。而且，在编码器侧可能存在不同的方法以实现足够小的比特率，这取决于音频内容的类型并且还取决于实际的期望比特率。这些参数可以被认为是“编码参数”，但它们将不会被反映在“解码参数”集合中(并且不会被包括在音频帧的编码表示中)，其中解码参数(以及并入编码的音频表示中的编码参数)通常仅描述解码器应该使用哪个设置，即，它应该如何处理由编码器提供的编码的信息。

因此，实际上可能是这样的情况：即使编码器核心使用不同的编码参数(例如，在目标比特率方面，或者在影响目标比特率的参数方面，如量化分辨率或所涉及的心理声学模型)，可以被包括在配置结构332中的解码参数可以是相同的。

换句话说，音频编码器可以例如能够使用不同的编码参数对给定的音频内容进行编码，即使解码器将使用的解码参数(以便处理和解码音频内容的编码表示)可能是相同的。

在这样的情况下，音频编码器可以在配置结构332内提供不同的流标识符，使得音频解码器仍然可以区分音频内容的这种不同的编码表示。

此外，应该注意，根据图3的音频编码器300可以可选地通过本文描述的任何特征、功能和细节来补充。

4.根据图4的音频流提供器

图4示出了根据本发明实施例的音频流提供器的示意框图。

音频流提供器400被配置为提供编码的音频信号表示412。音频流提供器被配置为提供使用编码参数编码的音频信号的(时间上)重叠或非重叠帧的编码的版本422，作为编码的音频信号表示412的一部分。

此外，音频流提供器被配置为提供配置结构424，配置结构424描述编码参数(或等效地，音频解码器要使用的解码参数)作为编码音频信号表示的一部分，其中配置结构424包括流标识符。

例如，音频流提供器可以包括音频信号的重叠或非重叠帧的编码版本的提供(或提供器)。此外，音频流提供器还可以包括用于提供配置结构424的配置结构提供或配置结构提供器423。

因此，音频流提供器可以提供不同音频流的部分，作为编码的音频信号表示412的一部分，音频流提供器可以例如将不同音频流的部分存储在存储器中或从音频编码器接收不同音频流的部分。当提供第一音频流的一部分然后切换到提供第二音频流的一部分时，配置结构424可以与在从第一音频流切换到第二音频流之后提供的第二音频流的第一音频帧相关联。配置结构424例如可以是由音频流提供器从音频编码器接收或者存储在音频流提供器的存储器中的相应音频流的一部分。因此，音频流提供器可以例如存储第一音频流的连续音频帧序列，并且还存储第二音频流的连续音频帧序列。第一音频流的至少一些帧和第二音频流的一些帧可以具有描述了音频解码器要使用的解码参数的相关联的相应配置结构。配置结构还可以包括相应的流标识符，例如，标识音频流的整数。例如，音频流提供器可以被配置为针对第一音频帧提供帧1到n-1(其中1到n-1可以是时间索引)和第二音频流的帧n到n+x(其中n到n+x可以是时间索引)，作为编码的音频信号表示412的一部分，其中第二音频流的帧1到n-1可以不被提供作为编码的音频信号表示412的一部分，其被导向到特定音频解码器或特定音频解码器组。例如，第一音频流和第二音频流可以表示以不同比特率编码的相同内容。因此，在去往特定设备或设备组的编码的音频信号表示412中音频内容的帧1到n-1由以第一比特率编码的第一音频流表示，并且音频内容的帧n到n+x由以不同于第一比特率的第二比特率编码的第二音频流的帧n到n+x表示。

例如，音频流提供器400或一些外部控制可以确保被包括在编码的音频信号表示412中的第二音频流的第一帧n包括配置结构。换句话说，例如，可以确保来自第一音频流的音频帧的提供和来自第二音频流的音频帧的提供之间的切换仅在“适当”帧处进行，该帧包括配置结构并且优选地还包括用于初始化音频解码器的一些信息(例如，音频预滚动)。

因此，音频流提供器可以例如提供以第一比特率编码的音频内容的一些部分(例如，通过提供第一音频流的帧1到n-1)和使用第二比特率编码的音频流的其他部分(例如，通过提供第二音频流的音频帧n到n+x)。可能的是，第一音频流和第二音频流的配置结构将是相同的，除了流标识符不同这一事实。这是因为在配置结构424中反映的解码参数不一定需要反映用于编码第一音频流和用于编码第二音频流的不同编码参数(或所有编码参数)，使得它实际上(仅)是流标识符，流标识符也被包括在配置结构中并且允许音频解码器确定是否应该进行“转换”(例如，通过重新初始化解码器核心)。

在一些实施例中，是否提供来自第一音频流或来自第二音频流的音频帧的决定可以由音频流提供器做出(例如，基于对网络条件的知识，例如，音频流提供器和音频解码器之间的网络的网络负载或可用网络比特率)。然而，替代地，音频解码器或中间设备(例如，网络管理设备)可以决定应该使用哪个音频流。

然而，应该注意，音频解码器或至少音频解码器核心可能未被音频流提供器和/或中间网络明确地通知已经发生了流的改变。换句话说，除了向音频解码器发信号通知帧n到n+x来自第二音频流而帧1到n-1来自第一音频流的配置结构424之外，音频解码器不接收任何附加信息。

总之，音频流提供器可以以编码的音频信号表示的形式灵活地向音频解码器提供音频内容的编码的表示。例如，音频流提供器可以在来自第一音频流的编码的帧的提供和来自第二音频流的编码的帧的提供之间灵活地切换，其中通过改变被包括在配置结构424(其是编码的音频信号表示412的一部分)中的流标识符来发信号通知音频流之间的切换。

这里应该注意，音频流提供器400可以可选地由本文描述的任何特征、功能和细节来补充。

在下文中，将参考图5描述音频流提供器400的功能的示例，图5示出了根据本发明实施例的音频流提供器的示意框图。

图5中所示的音频流提供器用500表示，并且可以对应于根据图4的音频流提供器400。音频流提供器500被配置为提供编码的音频信号表示512，编码的音频信号表示512可以与编码的音频信号表示412相对应。

特别地，音频流提供器可以被配置为在来自第一音频流和来自第二音频流的帧的提供之间切换。例如，音频流提供器500可以被配置为仅在所谓的“独立播出帧”(也称为“IPF”)处在来自第一音频流和来自第二音频流的帧的提供之间切换。

音频流提供器500可以在存储器中存储或者可以从音频编码器接收第一音频流520和第二音频流530。例如，第一音频流可以以第一比特率编码，并且可以在配置结构(例如，立即播出帧)中包括第一流标识符。第二音频流530可以以第二比特率编码，并且可以在配置结构(例如，立即播出帧)中包括第二流标识符。然而，第一音频流和第二音频流可以例如表示相同的音频内容。然而，第一音频流和第二音频流也可以表示不同的音频内容。

例如，第一音频流520可以包括在表示为n₁、n₂、n₃和n₄的帧处的独立播出帧。例如，不是独立播出帧的一个或多个“正常”音频帧可以布置在两个相邻的独立播出帧之间。但是，在某些情况下，独立播出帧也可能是相邻的。

类似地，第二音频流530还包括在帧位置n₁、n₂、n₃和n₄处的独立播出帧。

应当注意，两个流520、530中的独立播出帧的位置可以可选地相同但也可以不同。为简单起见，这里假设独立播出帧在两个流中的帧位置是相同的。

然而，原则上，重要的是切换之后的第一帧是独立播出帧。例如，当从第一音频流的音频帧的提供切换到第二音频流的音频帧的提供时，应该由音频流提供器500确保从第二音频流提供的帧的一部分的第一帧是独立播出帧。

将参考在参考标记550处示出的编码的音频信号表示来描述示例。可以看出，编码的音频信号表示512在其开始位置包括部分552，该部分552包括第一音频流的一个或多个帧。然而，在提供具有第一音频流的索引n1-1的音频帧之后，音频流提供器500可以(基于内部决定或基于外部接收的一些控制信息)确定切换到第二音频流。因此，在编码的音频信号表示512内提供第二音频流的音频帧的部分554。例如，在编码的音频信号表示512内的部分554中提供来自第二音频流的具有n1到n₂-1的帧索引的帧。应当注意，部分554的第一帧是独立播放帧，其在第二音频流530内的帧索引n1处。然而，当在编码的音频信号表示512内已经提供具有帧索引n₂-1的帧时，音频流提供器可以再次决定返回提供来自第一音频流520的音频帧。因此，在具有帧索引n₂-1(基于第二音频流530)的音频帧之后(或紧接其后)，可以在编码的音频信号表示内提供具有帧索引n₂的帧(从第一音频流520获取的)。应注意，具有索引n₂的帧也是独立播出帧。因此，来自第一音频流的一部分从具有索引n₂的帧开始并且在帧索引n₄-1处结束。

总之，编码的音频信号表示512是一个或多个帧的部分的级联，其中帧的一些部分取自第一音频流520，并且其中帧的一些部分取自第二音频流530。每个部分的第一帧优选地是独立播放帧，这优选地通过音频流提供器的操作来确保。

这种独立播出帧优选地包括具有流标识符的配置结构，其中流标识符可以例如被包含在配置扩展结构中。例如，除了流标识符之外(并且可能地，除了在包含在配置扩展结构内的流标识符之后的配置信息之外)，第一流和第二流的配置信息可以是相同的。

例如，独立播出帧可以与帧220相对应，如上面针对音频解码器200所解释的。

进一步总结，音频流提供器500能够访问多个音频流(例如，第一音频流520和第二音频流530以及可选地其他音频流)并且可以从这两个或更多个音频流中选择部分帧以包括在编码的音频信号表示512中，编码的音频信号表示512(例如，通过通信网络)被转发到音频解码器。当选择要包括在编码的音频信号表示512中的部分帧时，音频流提供器可以确保每个部分的第一帧是独立播出帧，该独立播出帧包括用于(无伪影)呈现的足够信息而无需具有任何所述音频流的解码的先前帧。此外，音频流提供器以这样的方式提供编码的音频信号表示：根据配置结构的相关部分内的差异，接收到编码的音频信号表示512的音频解码器能够识别来自不同流的音频帧的部分之间的切换。对于一些转换，配置结构可以关于解码器配置参数而不同，但是对于一个或多个其他转换，配置结构可以仅在流标识符方面不同，而其他解码配置参数可以是相同的。

因此，音频解码器可以识别不同音频流之间的切换，并在适当时执行重新初始化(“转换”)。

5.根据图6的音频帧

图6示出了允许随机接入、并且包括在配置扩展部分中具有流标识符的配置部分的音频帧的表示。

例如，图6示出了可以接管参考图2描述的音频帧222的角色的音频帧的示例。例如，音频帧可以是“USAC帧”。图6的音频帧可以被认为是“流接入点”或“中间播出帧”。

例如，帧可以遵循统一语音和音频编码标准的语法约定(其包括可用的修改)，但也可以适用于其他或更新的音频标准的比特流语法。

例如，USAC帧600可以包括USAC独立标志610。此外，USAC帧可以包括被表示为“USAC ExtElement”的扩展元素。扩展元素620可以是具有配置信息和预滚动数据的扩展元素。

可选地，可以存在标记“USAC ExtElementPresent”，其指示存在另外的数据。例如，在IPF的情况下(例如，流接入点)，该标志优选地是1。但是，该标志可以被认为是可选的。

此外，可选地，可以是标志“USAC ExtElementUseDefaultLength”，其可以用于编码是否应该使用扩展元素的默认长度或者是否编码扩展元素的长度。例如，在IPF的情况下，优选(但不是必须)地该标志的值为零。

此外，存在扩展元素段数据，其也被表示为“USACExtElementSegmentData”。这些扩展元素段数据包括音频预滚动信息，在USAC标准的修正中也被表示为“AudioPreRoll()”。音频预滚动可选地包括配置长度信息“configLen”和配置信息“Config()”，其中配置信息可以与“USAC配置信息”(其也表示为“UsacConfig()”)相同。优选地，但不是必须的，如果存在配置信息，“configLen”应该采用大于零的值。例如，“config Len”的零值可以指示配置信息不存在。配置信息可以包括一些基本配置信息，例如关于采样频率的信息和关于SBR帧长度的信息以及关于信道配置和多个其他(可选)解码器配置项的信息。其他解码器配置项可以例如包括USAC标准中的“UsacDecoderConfig()”语法元素的定义中描述的一个或多个或甚至所有配置项。

此外，配置信息包括配置扩展结构作为子数据结构。配置扩展结构可以例如遵循语法元素“UsacConfigExtension()”的语法。例如，配置扩展结构可以包括关于配置扩展的数量的信息“numConfigExtensions”。如果存在类型ID_Config_Ext_Stream_ID的配置扩展(这通常是根据本发明的实施例中的情况)，则流标识符由比特流语法元素“streamld()”表示，其可以例如由16比特值表示。

总之，包括在扩展元素中的USAC帧中的配置结构包括用于设置解码器参数的一些配置信息，并且还包括作为配置扩展的流标识符，流标识符可以表示为整数(例如，16)个比特。

音频预滚动信息可选地包括另外的信息，例如指示是否应用淡入淡出的标志“applyCrossfade”(其中，例如，零值可以指示不应用淡入淡出)，关于预滚动帧的数量的信息和关于预滚动帧的信息，其可以表示为“auLen”和“AccessUnit()”。

USAC帧可选地还包括附加扩展元素，并且通常包括单个信道元素、信道对元素或低频效应元素中的一个或多个。

总之，USAC帧(例如，USAC帧222或立即播放帧IPF中的一个播放帧IPF)可以例如包括扩展语法元素，其中所述扩展语法元素包括配置结构(例如，222c)和关于一个或多个预滚动帧的信息，关于一个或多个预滚动帧的信息可以例如用于使处理链的状态处于期望状态，并且可以例如与信息222d相对应。此外，USAC帧还包括编码的音频信息，如单信道元素、信道对元素或低频效应元素。因此，音频解码器可以基于流标识符“streamld()”识别音频流的改变。此外，音频解码器可以执行USAC帧600的无伪音解码，因为可以基于包括在配置结构中的配置信息来设置解码参数，并且因为可以基于预滚动帧信息来设置音频解码的适当状态。因此，所描述的USAC帧允许在来自不同音频流的帧的解码之间切换，并且还允许在没有附加控制信息的情况下由音频解码器检测到切换。

本文描述的USAC帧600可以与音频帧222相对应，或者可以与包括在编码的音频信号表示312中的第二音频流的第一帧相对应，或者可以与包括在编码的信号表示412中的第二音频流的第一帧相对应，或者可以与如图5所示的立即播出帧IPF相对应。

6.根据图7的示例音频流

图7示出了示例音频流的表示，其可以由本文描述的音频编码器中的一个音频解码器提供，并且可以由本文描述的音频解码器中的一个音频解码器解码。图7的音频流也可以由如本文所述的音频流提供器提供。

音频流700包括例如解码器配置信息，作为第一信息块。解码器配置信息可以例如包括比特流元素“UsacConfig()”，如USAC标准中所定义的。解码器配置信息可以例如指示一个流的流标识符，并且可以被认为是位于流的起始的流接入点。

音频流还包括音频帧数据信息单元720，其可以例如不包括任何预滚动数据并且还可以不包括任何流标识符信息。例如，信息单元720可以是USAC帧，并且可以例如对应于USAC标准中定义的比特流语法元素“UsacFrame()”。

例如，信息单元710和720二者都可以属于第一音频流。

音频流700还可以包括信息单元730，其可以例如表示包括在音频流700中的第二流的第一帧。信息单元730可以例如包括音频帧数据、预滚动数据和流标识符信息。流标识符信息可以例如指示与信息单元710中包括的流标识符不同的两个流标识符。

例如，信息单元730可以被视为流接入点。

例如，信息单元730可以根据比特流单元“UsacFrame()”的语法，如USAC标准中所定义的。然而，信息单元730可以包括类型“id_ext_ele_audiopreroll”的扩展元素。例如，该扩展元素可以包括根据具有配置扩展结构(例如，根据比特流语法“UsacConfigExtension”)的比特流语法“UsacConfig”的配置结构。配置扩展结构可以例如包括对流标识符进行编码的类型“ID_CONFIG_EXT_STREAM_ID”的扩展元素。因此，信息项或信息单元730可以例如包括如上所述的USAC帧600的信息。

因此，信息单元730可以表示第二流的音频帧，并提供用于配置音频解码器以正确解码音频帧的完整配置信息。特别地，配置信息还包括用于设置音频解码器的状态的音频预滚动信息，并且配置信息包括流标识符，该流标识符允许音频解码器在与信息单元700、710相比较时识别信息单元730是否与不同的音频流相关联。

音频流700还包括信息单元740，信息单元740跟随在信息单元700之后。例如，信息单元740可以是“正常”音频帧，其仅包括音频帧数据，没有预滚动数据，没有配置数据并且没有流标识符。例如，信息单元740可以遵循比特流语法“UsacFrame()”而不使用任何扩展元素。

音频流700还可以包括信息单元750，信息单元750可以例如包括音频帧数据和预滚动数据，但是可以不包括流标识符。因此，信息单元750可以用作流接入点，但是可能不允许检测不同流之间的切换。

例如，信息单元750可以根据比特流语法“UsacFrame()”，具有扩展元素“ID_ext_ele_audiopreroll”。然而，在信息单元750中，作为音频预滚动扩展元素的一部分的配置信息不包括流标识符。因此，信息单元750不能可靠地用作在不同音频流之间切换之后的第一信息单元。另一方面，信息单元730可以可靠地用作在不同音频流之间切换之后的第一信息单元，因为其中包括的流标识符允许检测不同流之间的切换并且因为信息单元也包括用于解码的完整信息，该完整信息包括配置信息和预滚动信息。

总之，音频流700可以包括具有不同信息内容的“信息单元”或编码音频帧。可能存在“非常简单”的音频帧，其仅包括编码的音频数据，没有配置数据且没有预滚动数据。此外，可能存在包括编码的音频信息的音频帧以及配置信息的音频帧，该音频帧还包括流标识符和预滚动信息。这样的帧允许识别不同音频流之间的切换以及完全独立的解码。

此外，可选地，还可以存在仅具有部分信息但是例如由于没有流标识符信息而不允许可靠地识别不同流之间的切换的帧。

应该注意，根据图1和图2的音频解码器通常可以使用音频流700，并且根据图3和图4的音频流提供器通常可以提供如图7所示的音频流700(例如，作为编码的音频信号表示312和314)。

7.根据图8的音频流

图8示出了根据本发明另一实施例的示例音频流的表示。

根据图8的音频流整体用800表示。

应注意，信息单元810a至810e属于第一音频流。例如，信息单元810a可以包括解码器配置，并且可以例如遵循USAC标准中定义的比特流语法“UsacConfig()”。解码器配置可以例如包括可以与配置结构222c类似的配置结构。例如，信息单元810可以包括流标识符扩展，其中流标识符可以例如被包括在配置结构的配置扩展结构中。

信息单元810b可以例如包括音频帧数据(例如，编码的频谱值和编码的缩放因子信息)，而没有预滚动数据并且没有流标识符。信息单元810d在结构上可以与信息单元810b类似或相同，并且还表示没有前滚动数据且没有流标识符的音频帧数据。

此外，音频流可以包括部分820，部分820跟随在部分810之后，并且与不同于第一音频流的第二音频流相关联。部分820包括信息单元820a，信息单元820a包括具有预滚动数据的音频帧数据，其中预滚动数据包括(例如，在配置结构内)流标识符扩展。因此，信息单元820a表示音频帧。如果音频解码器基于流标识符扩展发现先前解码的音频帧来自另一音频流，则音频解码器可以在解码信息单元820a中的音频帧数据之前使用预滚动数据将音频解码器设置为适当的状态。因此，信息单元820a非常适合于成为在不同音频流之间切换之后的第一信息单元。

块820还包括一个、两个或更多个信息单元820b和820d，其包括音频帧数据但不包括预滚动数据并且也不包括流标识符。

数据流800还包括与第三音频流相关联的部分830。部分830包括信息单元830a，信息单元830a包括具有预滚动数据并且包括流标识符扩展的音频帧数据。部分830还包括信息单元830b，信息单元830b包括没有预滚动数据且没有流标识符的音频帧数据。第三部分830还包括信息单元830d，信息单元830d包括具有预滚动数据但没有流标识符的音频帧数据。

因此，可以看出音频流800包括源自不同音频流的后续部分，其中在从一个流到另一个流的每个转换处，存在包括具有预滚动数据且具有流标识符的音频帧数据的信息单元(例如，编码的音频帧)。因此，由于在编码的音频帧内在从音频流到另一音频流的每次切换时存在可用的流标识符信息，所以音频解码器可以通过评估流标识符(例如，在与先前获得的存储的流标识符的比较方面)容易地识别所述转换。

应当注意，音频流可以由音频编码器或本文描述的比特流提供器提供，并且音频流800可以由本文描述的音频解码器评估。

8.根据图9的解码器功能

图9示出了如本文所述的音频解码器的可能解码器功能的示意表示。

例如，参考图9描述的功能可以在根据图1的音频编码器100中或在根据图2的音频解码器200中实现。例如，图5中描述的功能可用于决定如何继续解码。

然而，应该注意，参考图9描述的功能仅是示例，并且例如，只要整体功能保持相同，可以改变判决的顺序。此外，只要不修改整体功能，可以组合判决。

假设如图9中解释的功能具有关于先前解码的帧的信息的知识并评估新的音频帧，其可以符合本文描述的语法。

例如，在第一检查110中，音频解码器可以检查是否存在“随机接入”，即，跳转到流接入点的操作。如果识别出跳转到流接入点，其中有意地改变帧的“正常”顺序，则解码器功能继续进行评估流接入点的配置数据的步骤920，以便重新初始化解码器。可以可选地执行淡入淡出以避免突然切换。应当注意，随机接入意味着从第一帧“跳转”到第二帧，其中第二帧具有不紧接在先前解码的帧的帧索引之后的帧索引。换句话说，随机接入是从具有帧索引n的帧跳转到具有帧索引o的帧，其中o与n+1不同。

在步骤920中，执行跳转，其中跳转目标是作为立即播出帧的帧，并且其包括足以重新初始化解码器的信息。

然而，如果在检查910中发现不存在“随机接入”而是“连续回放”，则可以执行进一步检查930。换句话说，如果解码从具有帧索引n的帧进行到具有帧索引n+1的帧，则执行检查930。

在检查930中，检查在不考虑流标识符(例如，直到但不包括流标识符)的情况下在流接入点(或中间播放帧)的配置结构中定义的(相关)配置是否与从当前配置不同。如果在流接入点的配置结构中描述的(相关)配置与当前配置不同(路径“是”)，则解码可以进行到步骤940。然而，应当注意，如果下一帧是包括配置结构的流接入点，则自然只能执行步骤930。如果下一帧不包括配置结构，则自然不能执行步骤930，并且不能找到与当前配置的差异。

然而，如果在步骤930中发现下一帧的配置结构中的配置(不考虑流标识符)与当前配置相同，则进行下一检查，其在框950中示出。在步骤950中，确定流接入点是否包括(例如，在配置结构内)流标识符。例如，不一定需要包括流标识符，但是如果存在配置扩展结构并且如果该配置扩展结构实际上包括作为流标识符的数据结构元素，则流标识符仅被包括在配置结构中。如果在比较950中发现流接入点包括流标识符(分支“是”)，则将包括在下一帧(要解码的帧)的流接入点中的流标识符与当前(存储的)流标识符进行比较。如果发现包括在下一帧(要解码的帧)中的流标识符与当前流标识符不同(判决960的分支“是”)，则跳转到块940。另一方面，如果发现下一帧的流标识符与存储的流标识符相同，则对于确定是否执行“转换”或初始初始化(步骤960的分支“否”)，不考虑跟在配置扩展结构中的流标识符之后的其他配置信息(例如，配置扩展)。

然而，如果在检查950中发现流接入点(要解码的下一帧)不包括流标识符，或者如果发现要解码的下一帧的流标识符与存储的流标识符相同，该过程继续至步骤970。

此外，应该注意，步骤940包括使用旧配置的音频帧和使用新配置的音频帧之间的淡入淡出。为了使用新配置对音频帧进行解码，存在音频解码器的重新初始化(其可以包括初始化新的解码器实例)。此外，旧的解码器实例是“刷新”并且执行淡入淡出。

另一方面，步骤970包括解码下一帧而不重新初始化解码器，其中丢弃可能包括在下一帧中的预滚动信息(不加以考虑)。

总之，每当音频解码器到达“中间播出帧”时，存在可以执行的不同可能，“中间播出帧”也可以被认为是“流接入点”。而且，应当注意，通常不在不是“中间播放帧”或“流接入点”的帧处进行特定处理，因为这样的帧不允许音频解码器的重新初始化，因为没有配置结构并且在这种音频帧中没有可用的预滚动信息。

当解码器知道存在“跳转”，即偏离正常帧排序时，当然存在音频解码器的重新初始化，其通常使用预滚动信息以及新的配置结构(即使在同一个流中跳转)。

如果没有这种“跳转”，则存在不同的情况：

如果音频解码器发现要解码的下一个流的配置信息(直到并且包括配置标识符)与存储的信息不同，则还将重新初始化音频解码器。另一方面，如果音频解码器发现要解码的下一帧的配置信息(直到并包括流标识符(如果存在))与从先前解码的帧获得的存储信息相同，则不执行初始化。在任何情况下，当决定是否执行重新初始化时，音频解码器将忽略在配置结构中放置在流标识符之后的配置信息。而且，如果音频解码器发现配置结构中没有流标识符，其自然不会在与存储的信息进行比较时考虑流标识符。

然而，为了以计算有效的方式执行评估，解码器可以首先利用存储的配置信息来检查流标识符之前的配置信息，然后检查配置结构中是否包括流标识符，以及之后进行流标识符(如果存在于配置结构中)与存储的流标识符的比较。一旦音频解码器发现差异，其就可以决定重新初始化。另一方面，如果音频解码器没有发现配置信息(直到并且包括流标识符)之间的差异，其可以决定省略重新初始化。

因此，可以由音频编码器在配置扩展结构中在流标识符之后发信号通知不会导致重新初始化的次要配置改变，并且音频解码器在这种情况下可以利用仅稍微改变的配置(不需要重新初始化)进行解码。

总之，参考图9描述的解码器功能可以用在本文描述的任何音频解码器中，但是应该被认为是可选的。

9.根据图10a、图10b、图10c和图10d的比特流语法

在下文中，将描述比特流语法。特别地，将描述配置结构的语法。作为示例，将描述配置结构“UsacConfig()”的语法，其可以取代配置结构222c或配置结构332或配置结构424或图6所示的配置结构“Config()”或图7所示的配置结构“UsacConfig()”或图8所示的配置结构“Config”。

图10a示出了配置结构“UsacConfig()”的表示。可以看出，所述配置结构可以例如包括采样频率索引信息1020a和可选的采样频率信息1020b。采样频率索引信息1020a(可能结合采样频率信息1020b)例如描述编码器使用的采样频率，因此还描述了音频解码器要使用的采样频率。

此外，配置结构还可以包括用于频谱带复制(SBR)的帧长度索引信息。例如，索引可以确定用于频谱带宽复制的参数的数量，例如，如USAC标准中所定义的。

此外，配置结构还可以包括信道配置索引1024a，其可以例如确定信道配置。例如，信道配置索引信息可以定义多个信道和相关联的扬声器映射。例如，信道配置索引信息可以具有USAC标准中定义的含义。例如，如果信道配置索引信息等于零，则关于信道配置的细节可以包括在“UsacChannelConfig()”数据结构1024b中。

此外，配置结构可以包括解码器配置信息1026a，其可以例如描述(或枚举)存在于音频帧数据结构中的信息元素。例如，解码器配置信息可以包括USAC标准中描述的一个或多个元素。

此外，配置结构1010还包括标志(例如，命名为“UsacConfigExtensionPresent”)，其指示配置扩展结构的存在(例如，配置扩展结构226)。配置结构1010还包括配置扩展结构，其例如用“UsacConfigExtension()”1028a表示。配置扩展结构优选地是配置结构1010的一部分，并且可以例如由紧跟在表示配置结构1010的其他配置项的比特之后的比特序列表示。配置扩展结构可以例如携带流标识符信息，如下所述。

在下文中，将参考图10b描述配置扩展结构的可能语法，其中配置扩展结构整体用1030指定并且对应于配置扩展结构1028a。

配置扩展结构(也称为“UsacConfigExtension()”)可以例如在语法元素1040a中编码多个配置扩展。应当注意，由于存在针对每个配置扩展项的配置扩展类型信息1042a和配置扩展长度信息1044a，因此可以任意选择不同配置扩展信息项的顺序。因此，配置扩展结构1030可以以可变顺序携带多个配置扩展项(或配置扩展信息项)，其中音频编码器可以确定首先编码哪个配置扩展项以及稍后编码哪个配置扩展项。例如，针对每个配置信息项，首先可以存在配置扩展类型标识符1042a，之后是配置扩展长度信息1044，然后可以存在相应配置扩展信息项的“有效载荷”。相应配置扩展信息项的有效载荷的编码可以例如根据配置扩展类型信息指示的配置扩展信息项的类型而变化，并且相应配置扩展信息项的有效载荷的长度可以由相应的配置扩展长度信息1044a的值确定。例如，在配置扩展信息项是填充信息的情况下，可以存在一个或多个填充字节。另一方面，如果配置扩展信息项是配置扩展响度信息，则可以存在包括关于响度的信息的数据结构(例如，表示为“响度信息集()”)。

此外，如果配置扩展信息项是流标识符，则可以存在表示为“streamld()”的流标识符的数字表示。用于不同类型的配置扩展信息项的语法示例在附图标记1046a、1048a和1050a处示出。

总之，配置扩展结构的语法使得可以改变不同配置信息项的顺序。例如，流标识符配置扩展信息项可以由音频编码器放置在其他配置扩展信息项之前或之后。因此，音频编码器可以通过在配置扩展结构内放置流标识符配置扩展信息项来控制在由当前配置结构指示的配置和先前由音频解码器获取的配置信息之间的比较中应该考虑配置扩展结构的哪些其他信息。通常，在这样的比较中将考虑配置扩展结构之前的配置信息项和直到并包括流标识符信息的任何配置扩展信息项，而在比较中将忽略编码在比特流中的在流标识符配置扩展信息项之后的任何配置扩展信息项。

因此，针对图10a和图10b解释的配置结构非常适合于根据本发明的概念。

图10c示出了流标识符(配置扩展)信息项的语法，其也用“Streamld()”(或用“streamld()”)指定。可以看出，流标识符可以由16位二进制数表示来表示。因此，可以将超过65000个不同的值编码为流标识符，这通常足以识别不同音频流之间的任何转换。

图10d示出了用于不同配置扩展信息项的类型标识符的分配的示例。例如，类型“流标识符”的配置扩展信息项可以由配置扩展类型信息1042a的值7表示。其他类型的配置扩展信息项可以例如由配置扩展类型标识符1042a的其他值表示。

总之，图10a到图10d描述了配置结构的可能语法(或语法扩展)，其可以由音频编码器用于编码流标识符信息，该流标识符信息可以由音频解码器用于提取流标识符信息。

然而，应该注意，这里描述的配置结构应该仅被视为示例并且可以在很宽的范围内进行修改。例如，采样频率索引信息和/或采样频率信息和/或频谱带宽复制帧长度索引信息和/或信道配置索引信息可以以不同方式编码。此外，可选地，可以丢弃一个或多个上述信息项。此外，还可以省略UsacDecoderConfig信息项。

此外，可以修改配置扩展的数量、配置扩展类型和配置扩展长度的编码。此外，不同的配置扩展信息项也应该被认为是可选的，并且还可能以不同的方式编码。

此外，流标识符还可以用更多或更少的比特编码，其中可以使用不同类型的数字表示。此外，将标识符号分配给不同的配置扩展类型应该被视为优选示例，而不是必要特征。

9、结论

在下文中，将描述根据本发明的一些方面，其可以单独使用或者与本文描述的实施例组合使用。

特别地，这里将描述根据本发明的解决方案。

应该注意，所附权利要求描述了根据本发明的实施例的各方面。

然而，由权利要求限定的实施方案可任选地通过本文所述的任何特征单独或组合地补充。此外，应当注意，括号“()”或“[]”中的任何定义应被视为是可选的，特别是当在权利要求中使用时。

然而，应该注意，以下描述的本发明的特征也可以与权利要求的特征分开使用。

此外，权利要求中描述的和以下描述的特征和功能可以可选地与在描述本发明的各方面的问题的部分中描述的特征和功能、实施例的可能的使用场景和传统方法相结合。特别地，这里描述的特征和功能可以用在根据ISO/IEC 23003-3的USAC音频解码器中：2012年，包括修正案3，“比特率适应”子条款(例如，在本申请优先权申请的提交日标准化，或在本发明的申请日标准化，但也——可选——包括未来的进一步修改)。

根据本发明的一个方面，建议引入(例如，到USAC比特流语法中)用于USAC的新配置扩展，其中usacConfigExtType＝＝ID_CONFIG_EXT_STREAM_ID具有包含简单通用16比特标识符比特字段的相关比特流结构。该标识符应当在用于在流之间无缝切换的流集合内的所有流的任何两个配置结构之间不同(例如，可以由音频编码器或音频流提供器不同地选择)。这种流的集合的一个例子是MPEG-DASH传送用例中的所谓的“自适应集合”。

例如，建议的唯一流lD配置扩展将确保在将当前(或当前配置)与新配置结构(例如，在音频编码器侧或音频解码器侧)进行比较的点处新配置(以及新流)被正确识别，并且解码器将按预期和所期望来运行，例如，解码器将进行适当的解码器刷新、预滚动接入单元并执行淡入淡出(如果适用)。

以下是在本申请的提交日标准化或在优先权申请的提交日标准化的提议的规范文本(修改)(例如，MPEG-D USAC(ISO/IEC 23003-3+AMD.1+AMD-2+AMD.3))，并且可选地包括任何未来的修改。

在本发明的以下描述的方面中提到的段落可以单独使用或与USAC音频解码器组合使用或者在另一个基于帧的音频解码器中使用。

如下表15所示的配置扩展可以由音频编码器使用，以便提供音频比特流并且可以由音频解码器使用以便从音频比特流中提取信息。

当根据上述USAC标准使用音频编码和解码时，5.2节中的表15应替换为表15的以下更新版本：

表15-UsacConfigExtension()的语法

/>

此外，当根据USAC标准考虑音频编码或音频解码时，在USAC标准的第5.2节末尾，应添加如下的新表AMD.01(其中编码细节、比特数是可选的)：

表AMD.01-StreamId()的语法

然而，在所述表中，编码细节和例如比特数应被视为是可选的。

此外，在根据USAC标准考虑编码或解码时，应在“6.1.14UsacConfigExtension()”之后添加以下子条款6.1.15：

“6.1.15唯一流标识符(流ID)

6.1.15.1术语、定义和语义

streamldentifier(流标识双字节无符号整数流标识符(流符)ID)，其将唯一地标识用于在流之间无缝切换的关联的流的集合内的流的配置。streamldentifier(流标识符)可以取0到65535之间的值。(编码细节是可选的)

示例当作为ISO/IEC 23009中定义的MPEG-DASH自适应集的一部分时，该DASH自适应集合中的流的所有流ID应成对地不同。

6.1.15.2流标识符描述

类型ID_CONFIG_EXT_STREAM_ID的配置扩展提供了用于发信号通知流标识符(简称为：“流ID”)的容器。流ID配置扩展允许将唯一的整数附加到配置结构，使得即使配置结构的其余部分(比特)相同，也可以区分两个流的音频比特流配置。

类型ID_CONFIG_EXT_STREAM_ID的配置扩展的usacConfigExtLength应具有值2(二)。(可选地，也可以不同)

任何给定的音频比特流都不应具有多于一个的类型ID_CONFIG_EXT_STREAM_ID的配置扩展。(可选的)

如果常规操作的解码器实例例如通过ID_EXT_ELE_AUDIOPREROLL扩展有效负载中的Config()接收新的配置结构，则它应将该新配置结构与当前活动的配置进行比较(例如，参见7.18.3.3)。例如，这种比较可以通过对应配置结构的逐比特比较来进行。

如果配置结构包含配置扩展，那么，例如，所有配置扩展(直到并且包括类型ID_CONFIG_EXT_STREAM_ID的配置扩展)都应包括在比较中。例如，在比较期间不应考虑类型ID_CONFIG-EXT_STREAM_ID的配置扩展之后的所有配置扩展。(可选的)

注意上述规则允许编码器控制特定配置扩展的更改是否会导致解码器重新配置。”

应该注意的是，要添加到标准中的该段落的定义和细节可以可选地单独地或组合地用于根据本发明的实施例中。

当考虑USAC编码或解码时，第6节中的表74应该由如图10d所示的表格替换。

总之，描述了一些可能引入USAC标准的可能变化。然而，这里描述的概念也可以与其他音频编码标准结合使用。换句话说，还可以将如本文所述的流标识符信息引入任何其他音频编码标准的一些配置结构中。

当与其他编码标准结合使用时，也可以应用这里针对流标识符信息描述的特征。在这种情况下，术语应该适应相应音频编码标准的术语。

在下文中，将描述根据本发明的一些可选效果和优点或特征。

所呈现的配置扩展提供了易于实现的解决方案，以区分原本是比特相同的配置结构。所获得的配置之间的可区分性实现了例如动态自适应流传输的正确和最初期望的功能，且在流之间无缝转换。

在下文中，将描述一些替代解决方案。

例如，如果编码器确保流集合内的所有流具有不同的配置，即它们使用不同的编码工具或使用不同的参数化，则可以避免上述问题。如果各个流的比特率的差异足够大，则这通常导致成对不同的配置。如果需要精细的比特率网格(通常是这种情况)，该(传统的)解决方案在某些情况下将无法工作。

相反，通过使用包括在配置部分(也称为配置结构)中的流标识符来区分不同的流，如果配置结构的其余部分是相同的(有时是比特率相似的情况)，则也可以区分流。

或者(例如，作为使用流标识符的替代方案)，可以创建适当的、未指定的配置扩展，其对于每个流是变化的，但是以某种方式不同地构造。效果是一样的。尽管不能保证正确的功能，因为在上述场景中比较配置时，不能保证所有解码器实现都评估该未指定的配置扩展。

相反，根据本发明的实施例创建了其中在配置结构中清楚地指定流标识符并允许明确区分不同的流的一种构思。

应当注意，可以通过分析USAC流的配置结构来识别本发明构思的实现。此外，可以通过测试如上所述的配置扩展的存在来识别本发明构思的实现。

在下文中，将描述根据本发明的方面的一些可能的应用领域。

根据本发明的实施例提供了原本相同的数据结构的可区分性。

根据本发明的其他实施例提供了原本相同的音频编解码器配置结构的可区分性。

根据本发明的实施例允许在任何传输网络上进行音频的无缝动态自适应流传输。

在下文中，将描述一些其他方面，其应被视为是可选的。

例如，下面将描述音频编码器/音频流提供器行为。在下文中，将描述关于音频编码器(其也可以采用音频流提供器的形式)的一些可选细节。

音频编码器通常不生成突然改变其配置的一个(单个)流，但是编码器或包括多个编码器实例的编码器框架生成并行的多个流，这些流分别包括在流内的同步位置(时间点)处的IPF(“立即播出帧”)。

然后，解码器框架根据特定和/或预定标准(例如，互联网连接的质量)选择并行生成的流中的一个流并且“询问”(或请求)编码器侧服务器准确地发送该流然后将流转发到解码器。简单地忽略所有其他编码的流。然后只允许在IPF的位置进行流之间的更改。

音频解码器最初不识别这种改变和/或不被例如解码器框架通知这种改变。相反，音频解码器需要通过嵌入的配置结构的比较来检测流改变(“配置结构”)。从解码器的角度看，似乎编码器只生成了具有改变配置(“Config”)的流。实际上，通常情况并非如此。相反，编码器总是(连续地)并行地生成多个变体(包括不同的比特率)；只有解码器框架和编码器侧服务器(或流提供者)拆分流并重新布置(重新连接)流的一部分(或流)。

其他可选细节显示在附图中。

此外，应该注意的是，附图中所示的装置可以通过在此描述的任何特征和功能单独或组合地补充。

总之，音频编码器或音频流提供器可以在向某个音频解码器(或音频解码设备)提供不同流之间切换，其中可以基于以下进行切换：例如在音频解码器或者音频解码设备的请求下，或者在任何其他网络管理设备的请求下，或者甚至由音频编码器或音频流提供器决定。可以使用来自不同音频流的帧的提供之间的切换来使实际比特率适应可用比特率。从音频编码器(或音频流提供器)向音频解码器发信号通知的解码器配置在不同的流之间可以是相同的，但是流标识符在不同的流之间应该是不同的。因此，音频解码器可以使用流标识符来识别何时应当使用包括在立即播出帧中的附加信息(例如，配置信息和预滚动信息)来进行音频解码器的重新初始化。

为了进一步得出结论，如本文所述，使用流标识符(“streamID”)可以克服在描述本发明的各方面的问题以及实施例的可能的使用场景的部分中提到的问题。

10、方法

图11a至11c示出了根据本发明实施例的方法的流程图。

可以通过本文描述的任何特征和功能来补充图11a至11c中所示的方法。

11、实施替代方案

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件设备(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的一个或多个方法步骤。

新颖的编码音频信号可以存储在数字存储介质上，或者可以在诸如无线传输介质或有线传输介质(例如，互联网)等的传输介质上传输。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现，该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)传送计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收器可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收器传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。

本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。

本文描述的方法可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来执行。

本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或由软件执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

Claims

1.一种用于基于编码的音频信号表示(110；210；312；412；550；600；700；800)来提供解码的音频信号表示(112；212)的音频解码器(100；200)，

其中，所述音频解码器被配置为根据配置信息(110a；222c；332；424；1010，1030)调整解码参数，

其中所述音频解码器被配置为使用当前配置信息(140；240)解码一个或多个音频帧，以及

其中所述音频解码器被配置为将与要解码的一个或多个帧(222)相关联的配置结构中的配置信息(110a；222c；332；424；1010，1030)与当前配置信息(140；240)进行比较，并且如果与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息、或者与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息的相关部分(1020a，1020b，1022a，1024a，1024b，1026a，1050a)与所述当前配置信息不同，则进行转换以使用与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息作为新配置信息来进行解码；

其中所述音频解码器被配置为在比较所述配置信息时考虑包括在所述配置结构中的流标识符信息(230；streamID，1050a，streamIdentifier)，使得先前由所述音频解码器获取的流标识符和与要解码的所述一个或多个帧相关联的所述配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换，

其中所述音频解码器被配置为：将与要解码的所述一个或多个帧(222)相关联的所述配置结构中的配置信息与所述当前配置信息进行比较，直到并包括所述流标识符。

2.根据权利要求1所述的音频解码器，其中所述音频解码器被配置为：当将与要解码的一个或多个帧相关联的所述配置结构中的所述配置信息与所述当前配置信息(140；240)进行比较时，考虑在所述配置结构中布置在所述流标识符信息(230；streamID，1050a，streamldentifier)之前的配置信息项，以及

其中所述音频解码器被配置为：在将与要解码的一个或多个帧相关联的所述配置结构中的所述配置信息与所述当前配置信息进行比较时，不考虑在所述配置结构中布置在所述流标识符信息之后的配置信息项。

3.一种用于基于编码的音频信号表示来提供解码的音频信号表示的方法，

其中所述方法包括根据配置信息(110a；222c；332；424；1010，1030)调整解码参数，

其中所述方法包括使用当前配置信息(140；240)解码一个或多个音频帧，和

其中所述方法包括：将与要解码的一个或多个帧(222)相关联的配置结构中的配置信息(110a；222c；332；424；1010，1030)与当前配置信息进行比较，并且其中所述方法包括：如果与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息、或者与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息的相关部分(1020a，1020b，1022a，1024a，1024b，1026a，1050a)与所述当前配置信息不同，则进行转换以使用与要解码的所述一个或多个帧相关联的所述配置结构中的配置信息作为新配置信息来进行解码；

其中所述方法包括：在比较所述配置信息时考虑包括在所述配置结构中的流标识符信息(230；streamID(流ID)，1050a，streamldentifier(流标识符))，使得先前在音频解码中获取的流标识符和与要解码的所述一个或多个帧相关联的所述配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换，

其中所述方法包括：将与要解码的所述一个或多个帧(222)相关联的所述配置结构中的配置信息与所述当前配置信息进行比较，直到并包括所述流标识符。

4.一种计算机程序，用于当所述计算机程序在计算机上运行时执行根据权利要求3所述的方法。

5.一种用于基于编码的音频信号表示(110；210；312；412；550；600；700；800)来提供解码的音频信号表示(112；212)的音频解码器(100；200)，

其中所述音频解码器被配置为在比较所述配置信息时考虑包括在所述配置结构中的流标识符信息(230；streamID，1050a，streamldentifier)，使得先前由所述音频解码器获取的流标识符和与要解码的所述一个或多个帧相关联的所述配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换，

其中所述音频解码器被配置为：逐比特地将与要解码的一个或多个帧(222)相关联的配置结构中的配置信息与当前配置信息进行比较。

6.一种用于基于编码的音频信号表示来提供解码的音频信号表示的方法，

其中所述方法包括：在比较所述配置信息时考虑包括在所述配置结构中的流标识符信息(230；streamID(流ID)，1050a，streamIdentifier(流标识符))，使得先前在音频解码中获取的流标识符和与要解码的所述一个或多个帧相关联的所述配置结构中的流标识符信息表示的流标识符之间的差异导致进行所述转换，

其中所述方法包括：逐比特地将与要解码的一个或多个帧(222)相关联的配置结构中的配置信息与当前配置信息进行比较。

7.一种计算机程序，用于当所述计算机程序在计算机上运行时执行根据权利要求6所述的方法。