CN112492501B

CN112492501B - 使用呈现变换参数的音频编码和解码

Info

Publication number: CN112492501B
Application number: CN202011586425.7A
Authority: CN
Inventors: D·J·布瑞巴特; D·M·库珀; L·J·萨缪森; J·科喷斯; R·J·威尔逊; H·普恩哈根; A·斯塔尔曼
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2015-08-25
Filing date: 2016-08-24
Publication date: 2022-10-14
Anticipated expiration: 2036-08-24
Also published as: HK1257673A1; US20200227052A1; AU2021203143B2; CN112492501A; CA2999328C; US10978079B2; CA3219512A1; AU2023203584A1; US20240105186A1; WO2017035281A2; WO2017035281A3; EP3342186A2; CA2999328A1; KR20230105002A; EA201890576A1; PH12018500648A1; US11798567B2; EP4224887A1; CN108141685A; AU2016311335A1

Abstract

本公开涉及使用呈现变换参数的音频编码和解码。一种用于对输入音频流进行编码的方法包括以下步骤：获得输入音频流的意图用于在第一音频再现系统上再现的第一回放流呈现；获得输入音频流的意图用于在第二音频再现系统上再现的第二回放流呈现；确定适合于将中间回放流呈现变换为第二回放流呈现的近似的变换参数的集合，其中，变换参数是通过最小化第二回放流呈现的近似和第二回放流呈现之间的差异的测度确定的；并且对第一回放流呈现和变换参数的集合进行编码以用于发送到解码器。

Description

使用呈现变换参数的音频编码和解码

本申请是申请号为201680062138.1、申请日为2016年8月24日、发明名称为“使用呈现变换参数的音频编码和解码”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2015年8月25日提交的美国临时申请No.62/209,735和2015年10月9日提交的欧洲专利申请No.15189094.4的优先权，这两篇申请特此全文通过引用并入。

技术领域

本发明涉及信号处理领域，具体地，公开了一种用于高效地发送具有空间化分量(即，与不同空间位置相关联的音频分量)的音频信号的系统。

背景技术

整个说明书中背景技术的任何讨论决不应该被认为是承认这样的技术是众所周知的或者形成本领域中的公知常识的一部分。

音频的内容创建、编码、分发和再现传统上是以基于声道的格式执行的，也就是说，一个特定的目标回放系统是针对整个内容生态系统的内容预想的。这样的目标回放系统音频格式的示例是单声道、立体声、5.1、7.1等。

如果内容要在与预期的回放系统不同的回放系统上再现，则可以应用下混或上混处理。例如，5.1内容可以通过采用特定的下混方程来通过立体声回放系统再现。另一示例是立体声编码的内容通过7.1扬声器设置的回放，该回放可以包括所谓的上混处理，该上混处理可以由立体声信号中存在的信息引导或者可以不由立体声信号中存在的信息引导。能够上混的系统是杜比实验室公司的Dolby Pro Logic(Roger Dressler，“Dolby Pro Logic环绕解码器(Dolby Pro Logic Surround Decoder),Principles of Operation”，www.Dolby.com)。

替代的音频格式系统是比如由Dolby Atmos系统提供的音频对象格式，参见Robinson,C.Q.、Mehta,S.和Tsingos,N.(2012)“扩展电影音频的可能性的可扩展格式和工具(Scalable format and tools to extend the possibilities of cinema audio)”Motion Imaging Journal,SMPTE,121(8)，63-69。在这种类型的格式中，对象被定义为具有围绕收听者的特定位置，该位置可以是时变的。在这样的基于对象的格式中，内容是以对于特定回放或再现系统不变的方式表示的。因此，需要专用的渲染处理来将内容变换为适合于特定回放系统(比如扩音器设置或耳机)的呈现。

当立体声、多声道或基于对象的内容要通过耳机再现时，通常期望的是借助于头部相关脉冲响应(HRIR)或双耳(binaural)房间脉冲响应(BRIR)来模拟多声道扬声器设置(对于基于声道的内容)或虚拟声源的集合(对于基于对象的内容)，HRIR或BRIR分别模拟消声的(anechoic)或拟声的(echoic)(模拟的)环境中的从每个扩音器到耳鼓的声学路径。具体地说，音频信号可以被与HRIR或BRIR卷积以恢复耳间声强差(inter-aural leveldifference)(ILD)、耳间时间差(ITD)和频谱线索，ILD、ITD和频谱线索允许收听者确定每个单个的声道的位置。声学环境(混响)的模拟还帮助实现某个感知的距离。转到图1，示出了用于渲染两个对象或声道信号x_i 10、11的处理流程的示意性概览，这两个对象或声道信号从内容储存器12被读出以用于由4个HRIR(例如14)处理。然后HRIR输出被针对每个声道信号求和15、16，以便产生用于经由耳机18向收听者回放的耳机输出。HRIR的基本原理例如在Wightman,F.L.和Kistler,D.J.(1989b).“Headphone simulation of free-fieldlistening.I.Stimulus synthesis”,J.Acoust.Soc.Am.85,858-867中被解释。所得的立体声耳机信号15、16常常被称为双耳信号、双耳呈现或(双耳)耳机呈现。而且，与意图在与扩音器呈现信号(一个或多个)中存在的声道匹配的扩音器设置上再现的扩音器呈现相反，这样的双耳呈现意图(或被专门设计为)通过耳机再现。这些不同的再现系统被称为形态(modality)，例如，一个回放形态包括耳机，而另一回放或再现形态包含一个或多个扩音器。不论回放形态如何，不同的呈现(立体声、双耳、5.1)可以从输入流(比如多声道的或基于对象的内容格式)被渲染(生成)。理想地，为了确保艺术意图被正确地传达给收听者，呈现是针对特定的回放形态被渲染或生成的。对于耳机回放，这暗示应用HRIR或BRIR来创建双耳呈现，而对于扩音器，普遍使用振幅平移技术。这样的渲染处理因此可以应用于基于声道的输入内容(5.1、7.1等)以及沉浸式的基于对象的内容(比如Dolby Atmos)。对于后者，通常在每一个输入对象上独立地使用振幅平移(对于扩音器呈现)或BRIR(对于耳机呈现)，接着把对于所得双耳信号的各个对象贡献进行求和。

产生意图用于在耳机上回放的双耳呈现的卷积处理可以被构造为使得根据输入声道或对象的(意图的、感知的)位置、对于每一个输入独立地恢复(消声)HRTF中存在的声源局部化线索，而拟声的被模拟环境则可以至少部分地被跨输入中的两个或更多个的共用算法共享。为了这个目的，一个或多个输入信号被混音或组合到一个或多个环境模拟算法输入信号中，这个/这些输入信号随后被处理以生成可以与消声HRTF卷积处理的输出组合的环境模拟输出信号。环境模拟算法可以模拟早期反射、后期混响或这两者，并且可以借助于已知技术(比如卷积、延迟、反馈-延迟网络、全通滤波器等)来实现。

HRIR/BRIR卷积方法伴随有几个缺点，这些缺点中的一个是耳机回放所需要的大量卷积处理。需要对每一个输入对象或声道单独地应用HRIR或BRIR卷积，因此复杂度通常随着声道或对象的数量线性地增长。因为耳机常常是与电池供电的便携式设备结合使用的，所以高计算复杂度是不期望的，因为它可能大幅缩短电池寿命。而且，随着基于对象的音频内容(其可以包括比如说多于100个的同时作用的对象)的引入，HRIR卷积的复杂度可以远高于传统的基于声道的内容。

减小解码器端计算负荷的一个解决方案是在处理链中的进一步的上游应用卷积处理。例如，在内容创建或编码级期间。在该特定情况(其被称为“双耳预渲染”)下，在预渲染级期间创建的所得的双耳信号或双耳呈现包含意图用于耳机回放的所有局部化线索，并且在再现设备处不需要进一步的处理。该方法的缺点是，所引入的存在于HRIR中的声源局部化线索(比如耳间时间差ITD、耳间声强差ILD、频谱线索和混响)在该特定双耳表示通过扩音器再现时使感知的质量劣化(degrade)，因为这些局部化线索然后将被有效地应用两次；一次在算法上通过预渲染步骤应用，一次在声学上，作为扩音器和收听者的耳朵之间的声学路径的结果而应用。

发明内容

本发明的一个目的以其优选形式来说是提供用于再现的音频信号的编码和解码的改进形式。

根据本发明的第一方面，提供了一种对具有一个或多个音频分量的输入音频流进行编码的方法，其中，每个音频分量与空间位置相关联，该方法包括以下步骤：获得输入音频流的第一回放流呈现，第一回放流呈现是意图用于在第一音频再现系统上再现的M1个信号的集合；获得输入音频流的第二回放流呈现，第二回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合；确定适合于将中间回放流呈现变换为第二回放流呈现的近似的变换参数的集合，其中，中间回放流呈现是第一回放流呈现、第一回放流呈现的下混以及第一回放流呈现的上混中的一个，其中，变换参数是通过最小化第二回放流呈现的近似和第二回放流呈现之间的差异的测度而确定的；并且对第一回放流呈现和变换参数的集合进行编码以用于发送到解码器。

根据本发明的第二方面，提供了一种从数据流解码回放流呈现的方法，该方法包括以下步骤：接收第一回放流呈现并且进行解码，第一回放流呈现是意图用于在第一音频再现系统上再现的M1个信号的集合；接收适合于将中间回放流呈现变换为第二回放流呈现的近似的变换参数的集合并且进行解码，第二回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合，其中，中间回放流呈现是第一回放流呈现、第一回放流呈现的下混以及第一回放流呈现的上混中的一个，其中，变换参数确保第二回放流呈现的近似和第二回放流呈现之间的差异的测度最小化；并且将变换参数应用于中间回放流呈现以产生第二回放流呈现的近似。

通过该解码方案，数据流将包含解码第一音频回放流呈现和第二音频回放流呈现这二者的足够信息。如果期望的输出音频再现系统对应于第一音频再现系统，则可以直接使用第一呈现。另一方面，如果确定期望的输出音频再现系统对应于第二音频再现系统，则可以使用变换参数来获得第二呈现。

在一些实施例中，第一音频再现系统可以包括固定空间位置处的一系列扬声器，并且第二音频再现系统可以包括与收听者的耳朵相邻的耳机的集合。第一或第二回放流呈现可以是拟声或消声双耳呈现。

变换参数优选为时变的且频率相关的。

变换参数优选地是通过最小化以下各项之间的差异的测度而确定的：变换参数应用于第一回放流呈现和第二回放呈现的结果。

根据本发明的另一方面，提供了一种用于将音频声道或音频对象编码为数据流的方法，该方法包括以下步骤：接收N个输入音频声道或对象；通过形成N个输入音频声道或对象的组合来计算M个信号的集合，其中，M≤N，M个信号的集合意图用于在第一音频回放系统上再现；计算时变变换参数W的集合，时变变换参数W将意图用于在第一音频再现系统上再现的M个信号的集合变换为第二音频再现系统上的近似再现，该近似再现近似通过在第二再现系统上再现N个输入音频声道或对象而产生的任何空间化效果；以及将M个信号和变换参数W组合到用于发送到解码器的数据流中。

在一些实施例中，变换参数形成M1×M2增益矩阵，该矩阵可以被直接应用于第一回放流呈现以形成第二回放流呈现的所述近似。在一些实施例中，M1等于M2，即，第一呈现和第二呈现这二者具有相同的声道数量。在特定情况下，第一呈现和第二呈现这二者是立体声呈现，即，M1＝M2＝2。

本领域技术人员将意识到，在编码器中编码的第一呈现流可以是多声道扩音器呈现，例如，环绕或沉浸式(3D)扩音器呈现，比如5.1、7.1、5.1.2、5.1.4、7.1.2或7.1.4呈现。在这样的情况下，为了避免或最小化计算复杂度的提高，根据本发明的实施例，确定变换参数的集合的步骤可以包括将第一回放流呈现下混为具有较少声道的中间呈现。

在特定示例中，中间呈现是两声道呈现。在这种情况下，变换参数因此适合于将中间两声道呈现变换为第二回放流呈现。第一回放流呈现可以是环绕或沉浸式扩音器呈现。

数据流可以进一步包括对话信号估计参数，该方法进一步包括：将对话信号估计参数应用于意图用于在第一音频再现系统上再现的信号以产生一个或多个估计的对话信号；从意图用于在第一音频再现系统上再现的信号减去一个或多个估计的对话信号以产生对话减少的中间信号；将对话减少的中间信号应用于声学环境模拟处理以产生一个或多个模拟的声学环境信号；并且将一个或多个模拟的声学环境信号与适合于在第二音频再现系统上再现的音频流组合。

数据流可以进一步包括声学环境模拟处理输入信号生成参数W(W_F、W_E)，该方法进一步包括：将声学环境模拟处理输入信号生成参数W(W_F、W_E)应用于意图用于在第一音频再现系统上再现的信号以产生一个或多个声学环境模拟处理输入信号；将一个或多个声学环境模拟处理输入信号应用于声学环境模拟处理以产生一个或多个模拟的声学环境信号；并且将一个或多个模拟的声学环境信号与适合于在第二音频再现系统上再现的音频流组合。

优选地，一个或多个模拟的声学环境信号可以包括以下中的一个或多个：早期反射信号和后期混响信号。声学环境模拟处理可以包括以下中的一个或多个：早期反射模拟处理和后期混响模拟处理。早期反射模拟处理可以包括通过延迟元件来对声学环境模拟处理输入信号中的一个或多个进行处理。在一些实施例中，后期混响模拟处理可以包括通过反馈延迟网络来对声学环境模拟处理输入信号中的一个或多个进行处理。

数据流优选地可以包括附加的声学环境模拟处理输入信号生成参数W(W_F、W_E)，该方法进一步包括以下步骤：将附加的声学环境模拟处理输入信号生成参数W(W_F、W_E)应用于意图用于在第一音频再现系统上再现的信号以产生一个或多个附加的声学环境模拟处理输入信号；将一个或多个附加的声学环境模拟处理输入信号应用于附加的声学环境模拟处理以产生一个或多个附加的模拟的声学环境信号；并且将一个或多个附加的模拟的声学环境信号与以下中的一个或多个组合：一个或多个模拟的声学环境信号以及适合于在第二音频再现系统上再现的音频流。

声学环境模拟处理可以响应于一个或多个参数而配置，其中，参数依赖于以下中的一个或多个：用户设置和数据流中包括的信息。

根据本发明的又一方面，提供了一种对具有一个或多个音频分量的输入音频流进行编码的编码器，其中，每个音频分量与空间位置相关联，该编码器包括：第一渲染单元，用于渲染输入音频流的第一回放流呈现，第一回放流呈现是意图用于在第一音频再现系统上再现的M1个信号的集合；第二渲染单元，用于渲染输入音频流的第二回放流呈现，第二回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合；变换参数确定单元，用于确定适合于将中间回放流呈现变换为第二回放流呈现的近似的变换参数的集合，其中，中间回放流呈现是第一回放流呈现、第一回放流呈现的下混以及第一回放流呈现的上混中的一个，其中，变换参数是通过最小化第二回放流呈现的近似和第二回放流呈现之间的差异的测度确定的；以及编码单元，用于对第一回放流呈现和变换参数的集合进行编码以用于发送到解码器。

根据本发明的又一方面，提供了一种用于从数据流解码回放流呈现的解码器，该解码器包括：核心解码器单元，其被配置为：

接收第一回放流呈现并且进行解码，第一回放流呈现是意图用于在第一音频再现系统上再现的M1个信号的集合；并且

接收适合于将中间回放流呈现变换为第二回放流呈现的近似的变换参数的集合并且进行解码，第二回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合，其中，中间回放流呈现是第一回放流呈现、第一回放流呈现的下混以及第一回放流呈现的上混中的一个，其中，变换参数确保第二回放流呈现的近似和第二回放流呈现之间的差异的测度最小化。

解码器进一步包括矩阵乘法器，该矩阵乘法器用于将变换参数应用于中间回放流呈现以产生第二回放流呈现的近似。

根据本发明的进一步的方面，提供了一种用于从数据流解码音频声道和/或音频对象系列的解码器，该数据流包括用于在第一音频再现系统上再现的M个信号的集合以及变换参数W，变换参数W适于对M个信号进行变换以用于在第二音频再现系统上再现，该解码器包括：核心解码器单元，用于从数据流分离M个信号和W个变换参数，其中，M个信号被分离到至少高频带和低频带中；矩阵乘法器，用于将W个变换参数应用于M个信号以产生频率分离的输出信号的集合；以及逆变换单元，适于将频率分离的输出信号的集合变换为适合于在第二音频再现系统上再现的时域输出信号系列。

在一些实施例中，解码器可以进一步包括：混响单元，适于在由逆变换单元进行变换之前将混响添加到频率分离的输出信号的集合。

在一些实施例中，第一音频再现系统可以包括扬声器的集合，第二音频再现系统可以包括耳机的集合，从第二回放流呈现是拟声或消声双耳呈现的意义上来说，变换参数W提供频率分离的输出信号的集合的双耳化。

根据本发明的进一步的方面，提供了一种用于对具有一个或多个音频分量的输入音频流进行编码的编码器，其中，每个音频分量与空间位置相关联，该系统包括：第一编码单元，用于针对第一回放形态对输入音频流进行编码，输出第一回放流呈现；变换参数确定单元，用于确定用于将第一回放流呈现映射到第二回放流呈现的变换参数系列；以及第二编码单元，用于将第一回放流呈现和变换参数编码到输出编码流中。

编码参数确定单元通过最小化期望的第二回放流呈现之间的误差测度的幅度并且将变换参数系列应用于第一回放流呈现来确定变换参数系列。系列可以是指具有时变的变换参数和/或频率相关的变换参数的性质。第二回放流呈现可以包括用于耳机回放的双耳化音频。

根据本发明的进一步的方面，提供了一种用于产生通过耳机呈现的音频信号的方法，该方法包括以下步骤：接收数据流，该数据流包括编码的消声双耳信号和声学环境模拟处理输入信号生成参数W(W_F、W_E)；对编码的消声双耳信号进行解码以产生解码的消声双耳信号；将声学环境模拟处理输入信号生成参数W(W_F、W_E)应用于解码的消声双耳信号以产生一个或多个声学环境模拟处理输入信号；将一个或多个声学环境模拟处理输入信号应用于声学环境模拟处理以产生一个或多个模拟的声学环境信号；并且将一个或多个模拟的声学环境信号与解码的消声双耳信号组合以产生用于通过耳机呈现的音频信号。

在一些实施例中，一个或多个模拟的声学环境信号优选地为以下中的一个或多个：早期反射信号和后期混响信号。声学环境模拟处理可以包括以下中的一个或多个：早期反射模拟处理和后期混响模拟处理。早期反射模拟处理可以包括通过延迟元件来对声学环境模拟处理输入信号中的一个或多个进行处理。后期混响模拟处理可以包括通过反馈延迟网络来对声学环境模拟处理输入信号中的一个或多个进行处理。

数据流优选地可以包括附加的声学环境模拟处理输入信号生成参数W(W_F、W_E)，并且该方法进一步包括以下步骤：将附加的声学环境模拟处理输入信号生成参数W(W_F、W_E)应用于解码的消声双耳信号以产生一个或多个附加的声学环境模拟处理输入信号；将一个或多个附加的声学环境模拟处理输入信号应用于附加的声学环境模拟处理以产生一个或多个附加的模拟的声学环境信号；并且将一个或多个附加的模拟的声学环境信号与以下中的一个或多个组合：一个或多个模拟的声学环境信号以及解码的消声双耳信号。

根据本发明的进一步的方面，提供了一种用于产生通过耳机呈现的音频信号的解码器，该解码器包括一个或多个处理器，一个或多个处理器被配置为：接收数据流，该数据流包括编码的消声双耳信号和声学环境模拟处理输入信号生成参数W(W_F、W_E)；对编码的消声双耳信号进行解码以产生解码的消声双耳信号；将声学环境模拟处理输入信号生成参数W(W_F、W_E)应用于解码的消声双耳信号以产生一个或多个声学环境模拟处理输入信号；将一个或多个声学环境模拟处理输入信号应用于声学环境模拟处理以产生一个或多个模拟的声学环境信号；以及将一个或多个模拟的声学环境信号与解码的消声双耳信号组合以产生用于通过耳机呈现的音频信号。

附图说明

现在将仅以举例的方式来参照附图描述本发明的实施例，其中：

图1示出用于两个源对象的HRIR卷积处理的示意性概览，其中，每个声道或对象被用一对HRIR/BRIR处理；

图2示意性地示出通过扩音器再现的双耳预渲染内容(现有技术)；

图3示意性地示出通过扩音器再现的双耳预渲染内容；

图4示意性地示出对扩音器呈现进行处理以用于耳机再现的系数w的产生；

图5示意性地示出用于从核心解码器输出重构消声信号和一个早期反射(具有附加体(bulk)延迟级)的系数W(W_E)；

图6示意性地示出使用用于从核心解码器输出重构消声信号和FDN输入信号的系数W(W_F)的处理；

图7示意性地示出对消声呈现进行处理以用于耳机和扩音器的系数w的产生和处理；

图8a-8b是根据本发明的进一步的实施例的编码器/解码器的示意性框图；

图9a是根据本发明的进一步的实施例的解码器的示意性框图；

图9b是图9a中的解码器的简化版本的示意性框图。

具体实施方式

实施例提供了一种用于基于声道和/或对象的音频的适合于扩音器和耳机(双耳)回放的低速率、低复杂度表示的方法。这通过以下步骤来实现：(1)创建并编码意图用于特定回放再现系统(例如，但不限于扩音器)的渲染；以及(2)添加附加元数据，该附加元数据允许该特定渲染被变换为适合用于另一再现系统(例如，耳机)的修改的渲染。特定渲染可以被称为第一音频回放流呈现，而修改的渲染可以被称为第二音频回放流呈现。第一呈现可以具有M1个声道的集合，而第二呈现可以具有M2个声道的集合。声道的数量可以是相等的(M1＝M2)或不同的。元数据可以是参数集合(可能是时变的和频变的(frequencyvarying))的形式。

在一个实现中，变换元数据提供用于将立体声扩音器渲染变换为双耳耳机渲染(可能包括早期反射和后期混响)的部件(means)。此外，对于基于对象的音频内容，可以基于每个对象来控制虚拟声学属性，特别是后期混响的(相对)水平和/或一个或多个早期反射的水平、频谱和时间特性。

实施例针对通过引导在一个或多个再现系统上的再现的元数据来保持艺术意图和改进再现质量和/或消除伪像。具体地说，实施例包括元数据，该元数据具有改进当再现系统布局不对应于内容创建期间预想的预期布局时的再现质量的对象、声道或混合信号表示。就这一点而论，作为元数据的结果的应用和/或效果将依赖于预期的和实际的再现系统。

通过扩音器再现的双耳预渲染内容

如背景章节中所描述的，由于HRIR或BRIR中内在地存在的频谱线索被应用两次的事实，双耳预渲染内容通过扩音器的再现可以导致不自然的音色；一次在预渲染期间，另一次在声学环境中的回放期间。此外，双耳预渲染内容的这样的再现也将内在地使方位局部化(localization)线索被应用两次，引起错误的空间成像和局部化误差。

图2示出这种形式的处理20。声道或对象21在编码25之前首先被与HRIR 23卷积22。就这一点而论，在编码之前，基于声道或对象的内容借助于HRIR或BRIR处理进行扩音器再现模拟。随后，处理的信号被编码25、被解码26并且被通过扩音器再现27，从而引入了前述伪像。

由两次应用从扬声器到耳鼓的声学路径造成的频谱伪像可以至少部分通过在解码或再现期间应用频率相关的增益或衰减来补偿。这些增益或衰减参数随后可以被编码并且被与内容包括在一起。对于耳机再现，这些参数可以被丢弃，而对于扩音器上的再现，编码的增益在再现之前被应用于信号。

图3中示出了合适的结果性处理流程30的一个形式。在该方案中，当回放意图用于扩音器时，在渲染被创建时预先计算31增益元数据。该元数据被用双耳处理的信号编码。在解码期间，元数据信息也被解码32。这然后被用来将增益应用33于解码的信号以减小伪像的显著性。另一方面，对于耳机回放，级31-33是不需要的(被丢弃)，并且解码的信息可以被直接应用于耳机再现。

实现示例

在一个实现中，为了计算增益元数据31，在时间和频率片(tile)中对具有离散时间索引n和输入索引i的输入信号x_i[n]进行分析。每个输入信号x_i[n]可以被分解为时间帧，并且每个帧进而可以被划分为构造时间/频率片的频带。频带可以例如借助于滤波器组(比如正交镜像滤波器(QMF)组)、离散傅立叶变换(DFT)、离散余弦变换(DCT)或任何其他部件来实现以将输入信号分为各种频带。这样的变换的结果是，用于输入的具有索引i和离散时间索引n的输入信号x_i[n]对于时隙(或帧)k和子带b来说用子带信号x_i[k，b]表示。时间/频率片(K、B)中的短时能量由以下方程给出：

其中，频率(b)和时间(k)索引的B、K集合对应于期望的时间/频率片。

分别用于左耳和右耳的双耳信号y_l[n]、y_r[n]的离散时域表示由以下方程给出：

其中，h_l，i、h_r，i分别是用于左耳和右耳的对应于输入索引i的HRIR或BRIR。换句话说，可以通过输入i上(across)的卷积和求和的组合来创建双耳信号对y_l[n]、y_r[n]。随后，可以使用与应用于信号x_i[k，b]的处理相同的处理来将这些双耳信号转换到时间/频率片中。对于这些频域双耳信号，时间/频率片(K、B)中的短时能量因此可以被计算为：

现在可以基于在分子中的输入对象i上和分母中的双耳信号j上求和的每个时间/频率片中的能量守恒(preservation)来构造增益元数据w(K,B)：

元数据w(K,B)随后可以被量化、被编码并且被包括在音频编解码器位流中。解码器然后将把元数据w(K，B)应用于两个信号y₁和y_r(输入呈现)的帧K和频带B以产生输出呈现。共同的w(K，B)应用于y₁和y_r这二者的这样的使用确保输入呈现的立体声平衡得以保持。

除了借助于时域卷积创建双耳信号y₁[n],、y_r[n]的上述方法之外，双耳渲染处理也可以被应用于频域中。换句话说，不是首先在时域中计算双耳信号y₁[n],、y_r[n]，而是相反可以将输入信号x_i[n]转换为频域表示，并且在频域中应用HRIR卷积处理来生成双耳信号的频域表示y_j[k，b]，例如通过频域快速卷积方法。在该方法中，双耳信号的频域表示y_j[k，b]是在不需要在时域中生成这些信号的情况下获得的，并且不需要滤波器组或变换被应用于时域双耳信号上。

通过耳机再现的立体声内容，包括消声双耳渲染

在该实现中，意图用于扩音器回放的立体声信号被用附加数据编码以增强该扩音器信号在耳机上的回放。给定输入对象或声道x_i[n]的集合，扩音器信号z_s[n]的集合通常是借助于表示对象i对扬声器s的增益的振幅平移增益g_i，s生成的：

对于基于声道的内容，振幅平移增益g_i，s通常是恒定的，而对于其中对象的预期位置由时变的对象元数据提供的基于对象的内容，增益因此将是时变的。

给定要被编码和解码的信号z_s[n]，期望的是找到系数w的集合，以使得如果这些系数被应用于信号z_s[n]，则如下构造的所得的修改的信号

根据以下方程紧密匹配原始输入信号x_i[n]的双耳呈现：

可以通过最小化期望的和实际的双耳呈现之间的L2范数E来找到系数w：

w＝argmin(E)

可以通过闭合形式解、梯度下降法或最小化误差函数的任何其他合适的迭代方法来获得最小化误差E的解。作为这样的解的一个示例，可以用矩阵记号来撰写各种渲染步骤：

Y＝XH

Z＝XG

该矩阵记号基于包含N个采样的单声道帧，这些采样被表示为一个列：

以及作为多个声道i＝{1,…,I}的组合的矩阵，每个声道用该矩阵中的一个列矢量表示：

对于W的最小化E的解于是由以下方程给出：

W＝(G^*X^*XG+∈I)^-1G^*X^*XH

其中，(*)是复共轭转置算子，I是单位矩阵，∈是正则化常数。该解与基于增益的方法的不同之处在于，信号

是通过矩阵生成的而不是通过被应用于信号Z的包括具有交叉项(cross-term)的选项的标量W生成的(例如，举例来说，

的第二信号是(部分地)从Z中的第一信号重构的)。

理想地，对于每个时间/频率片确定系数w以最小化每个时间/频率片中的误差E。

在上面的章节中，最小均方误差准则(L2范数)被采用以确定矩阵系数。不失一般性地，其他众所周知的计算矩阵系数的准则或方法可以被类似地用来代替或增补最小均方误差原理。例如，可以使用高阶误差项或者通过最小化L1范数(例如，最小绝对差准则)来计算矩阵系数。可以采用另外的各种方法，包括非负因式分解或优化技术、非参数化估计量(estimator)、最大似然估计量等。另外，可以使用迭代或梯度下降处理、插值法、启发法、动态编程、机器学习、模糊优化、模拟退火或闭合形式解来计算矩阵系数，并且可以使用综合分析(analysis-by-synthesis)技术。最后但同样重要的，可以以各种方式约束矩阵系数估计，例如通过限制值范围、正则化项、能量守恒要求的叠加等。

在实际情况下，HRIR或BRIRh_l，i、h_r，i将涉及频率相关的延迟和/或相移。因此，系数w可以是具有远不同于零的虚数分量的复值。

图4中示出了该实施例的处理的实现的一个形式40。音频内容41被混合复(complex)正交镜像滤波器(HCQMF)分析组42处理为子带信号。随后，HRIR 44被应用43于滤波器组输出以生成双耳信号Y。并行地，输入被针对扩音器回放进行渲染45，得到扩音器信号Z。另外，从扩音器信号和双耳信号Y和Z计算46系数(或权重)w，并且这些系数(或权重)w被包括在核心编码器位流48中。可以使用不同的核心编码器，比如例如如以下文献中公开的MPEG-1层1、2和3：Brandenburg,K.和Bosi,M.(1997).“MPEG音频概述：低位速率音频编码的当前和未来标准(Overview of MPEG audio:Current and future standards for lowbit-rate audio coding)”.Journal of the Audio Engineering Society,45(1/2),4-21；或Riedmiller,J.、Mehta,S.、Tsingos,N.和Boon,P.(2015).“沉浸式个性化音频：实现下一代音频体验的交换，分发和交付的实用系统(Immersive and Personalized Audio:APractical System for Enabling Interchange,Distribution,and Delivery of Next-Generation Audio Experiences)”.Motion Imaging Journal,SMPTE,124(5),1-23，这两篇特此通过引用并入。如果核心编码器不能使用子带信号作为输入，则可以首先使用混合复正交镜像滤波器(HCQMF)合成滤波器组47来将子带信号转换到时域。

在解码端，如果解码器被配置用于耳机回放，则在HCQMF合成51和再现52之前提取49系数并且将这些系数应用50于核心解码器信号。如果核心编码器不产生HCQMF域中的信号，则可能如图4中所指示的那样需要可选的HCQMF分析滤波器组54。总之，被核心编码器编码的信号意图用于扩音器回放，而扩音器到双耳系数是在编码器中确定的，并且被应用于解码器中。解码器可以进一步配备有用户超控功能性，以使得在耳机回放模式下，用户可以选择通过耳机回放常规的扩音器信号，而不是双耳处理的信号。在这种情况下，权重被解码器忽视。最后，当解码器被配置用于扩音器回放时，权重可以被忽视，并且核心解码器信号可以直接地或在上混或下混以匹配扩音器再现系统的布局之后通过扩音器再现系统回放。

将清楚的是，前面的段落中描述的方法不限于使用正交镜像滤波器组；因为其他滤波器组结构或变换可以被同样地使用，比如短时加窗离散傅立叶变换。

该方案与常规方法相比具有各种益处。这些可以包括：1)解码器复杂度仅略(marginally)高于用于普通立体声回放的复杂度，因为解码器中的加法仅包含受位流信息控制的简单的(时间和频率相关的)矩阵。2)该方法适合于基于声道的和基于对象的内容，并且不依赖于内容中存在的对象或声道的数量。3)HRTF变为编码器调谐参数，即，它们可以在任何时间不考虑解码器兼容性地被修改、被改进、被改变或被改动。就本领域中存在的解码器而言，HRTF仍然可以在无需修改解码器端处理级的情况下被优化或定制。4)位速率与多声道的或基于对象的内容所需的位速率相比非常低，因为只有几个扩音器信号(通常为一个或两个)需要与关于系数w的附加(低速率)数据一起从编码器传递到解码器。5)相同的位流可以在扩音器和耳机上忠实地再现。6)可以以可伸缩的方式构造位流；如果在特定的服务背景下，端点被保证仅使用扩音器，则可以在对于常规的扩音器呈现没有影响的情况下从位流除去变换系数w。7)在扩音器呈现上操作的先进的编解码器特征(比如响度管理、对话增强等)将继续按照预期工作(当回放通过扩音器时)。8)通过对系数w进行缩放，可以独立于扩音器回放的响度来处理用于双耳呈现的响度。9)使用耳机的收听者可以选择收听双耳或常规的立体声呈现，而不是被迫收听一个或另一个。

具有早期反射的扩展

通常期望的是将作为地板、墙壁或天花板的存在的结果的一个或多个早期反射包括在双耳渲染中以提高双耳呈现的现实性。如果反射具有镜面(specular)性质，则它本身可以被解释为双耳呈现，在该双耳呈现中，对应的HRIR包括由于从声源到耳鼓的声学路径长度增大而导致的较低的总体水平、延迟的增大以及表面吸收的效果。

这些性质可以用修改的布置(比如在图5中被示为60的布置)来捕获，该布置是图4的布置上的修改。在编码器64中，确定系数W以用于：(1)从扩音器呈现(系数W_Y)重构消声双耳呈现以及(2)从扩音器呈现(系数W_E)重构反射的双耳呈现。在这种情况下，消声双耳呈现是通过双耳渲染HRIR H_e确定的，得到消声双耳信号对Y，而早期反射是通过HRIR H_e确定的，得到早期反射信号对E。为了允许从立体声混音参数化地重构早期反射，重要的是，从编码器中的HRIR H_e移除由于早期反射的路径长度较长而导致的延迟，并且将该特定延迟应用于解码器中。

解码器将通过把系数W(W_Y、W_E)应用于扩音器信号来生成消声信号对和早期反射信号对。早期反射随后被延迟级68处理以模拟早期反射的较长的路径长度。块68的延迟参数可以被包括在编码器位流中，或者可以是用户定义的参数，或者可以根据模拟的声学环境制定，或者可以根据收听者所在的实际声学环境制定。

具有后期混响的扩展

为了将后期混响的模拟包括在双耳呈现中，可以采用后期混响算法，比如反馈-延迟网络(FDN)。FDN采取一个或多个对象和/或声道作为输入，并且产生(在双耳混响器的情况下)两个后期混响信号。在常规算法中，可以使用解码器输出(或其下混)作为FDN的输入。该方法具有显著的缺点。在许多使用情况下，可能期望的是基于每个对象来调整后期混响的量。例如，如果后期混响的量减小，则对话清晰度得到改进。

在替代实施例中，可以以与从立体声混音构造的消声或早期反射双耳呈现相同的方式来提供混响量的每一对象或每一声道控制。

如图6所示，可以对前面的布置做出各种修改来进一步适应后期混响。在编码器81中，计算82FDN输入信号F，该FDN输入信号F可以是输入的加权组合。这些权重可以依赖于内容，例如，作为在通过媒体智能算法的内容创建或自动分类期间手动标记的结果。FDN输入信号本身被权重估计单元83丢弃，但是允许从扩音器呈现来估计、重构或近似FDN输入信号的系数数据W_F被包括85在位流中。在解码器86中，FDN输入信号被重构87，被FDN处理88，并且被包括89在用于收听者91的双耳输出信号中。

另外，FDN可以被重构为使得多个(两个或更多个)输入被允许以使得输入信号的空间质量在FDN输出处被保持。在这样的情况下，允许从扩音器呈现来估计每个FDN输入信号的系数数据被包括在位流中。

在这种情况下，可能期望的是控制关于FDN输入的对象和/或声道的空间定位。

在一些情况下，可以响应于出于单独的目的存在于数据流中的参数(例如，不是特定地意图被应用于基本信号来生成FDN输入信号的参数)来生成后期混响模拟(例如，FDN)输入信号。例如，在一个示例性对话增强系统中，通过将对话增强参数应用于基本信号来从基本信号的集合重构对话信号。然后增强(例如，放大)该对话信号并且将对话信号混音回基本信号中(从而，相对于基本信号的其余分量放大对话分量)。如上所述，常常期望的是构造FDN输入信号以使得它不包含对话分量。因此，在对话增强参数已经可用的系统中，可以通过首先从基本信号和对话增强参数重构对话信号、然后从基本信号减去(例如，取消)对话信号来重构期望的无对话的(或至少对话减少的)FDN输入信号。在这样的系统中，用于从基本信号重构FDN输入信号的专用参数可能不是需要的(因为可以改为使用对话增强参数)，因此可以被排除，导致所需参数数据速率减少而不损失功能。

组合早期反射和后期混响

尽管具有早期反射(一个或多个)和后期混响的消声呈现的扩展在前面的章节中是独立地表示的，但是组合也是可能的。例如，系统可以包括：1)从扩音器呈现确定消声呈现的系数W_Y；2)从扩音器呈现确定某个数量的早期反射的附加系数W_E；3)从扩音器呈现确定一个或多个后期混响输入信号、允许基于每个对象来控制后期混响量的附加系数W_F。

作为第一呈现的消声渲染

尽管扩音器呈现作为要被核心编码器编码的第一呈现的使用具有提供与不能解译或处理变换数据w的解码器的向后兼容性的优点，但是第一呈现不限于用于扩音器回放的呈现。图7示出了用于对音频内容105进行编码和解码以用于在耳机130或扩音器140上再现的方法100的示意性概览。编码器101获取输入音频内容105，并且通过HCQMF滤波器组106对这些信号进行处理。随后，由HRIR卷积元件109基于HRIR/HRTF数据库104来生成消声呈现Y。另外，由元件108产生扩音器呈现Z，元件108计算并应用扩音器平移矩阵G。此外，元件107产生FDN输入混音F。

消声信号Y可选地通过使用HCQMF合成滤波器组110被转换到时域，并且被核心编码器111编码。变换估计块114计算参数W_F(112)以及参数W_Z(113)，参数W_F(112)允许从消声呈现Y重构FDN输入信号F，参数W_Z(113)从消声呈现Y重构扩音器呈现Z。参数112和113这二者被包括在核心编码器位流中。可替代地或另外地，尽管图7中未示出，但是变换估计块可以计算参数W_E，参数W_E允许从消声呈现Y重构早期反射信号E。

解码器具有由解码器模式102和解码器模式103显现的两个操作模式，解码器模式102意图用于耳机收听130，解码器模式103意图用于扩音器回放14。在耳机回放的情况下，核心解码器115对消声呈现Y进行解码，并且对变换参数W_F进行解码。随后，由矩阵化块116将变换参数W_F应用于消声呈现Y以产生估计的FDN输入信号，该FDN输入信号随后被FDN 117处理以产生后期混响信号。由加法器150将该后期混响信号与消声呈现Y混音，接着到HCQMF合成滤波器组118以产生耳机呈现130。如果参数W_E也存在，则解码器可以将这些参数应用于消声呈现Y以产生估计的早期反射信号，该早期反射信号随后通过延迟被处理，并且被与消声呈现Y混音。

在扩音器回放的情况下，解码器在模式103下操作，在该模式下，核心解码器115对消声呈现Y和参数W_Z进行解码。随后，矩阵化级116将参数W_Z应用到消声呈现Y上以产生扩音器呈现Z的估计或近似。最后，该信号被HCQMF合成滤波器组118转换到时域，并且被扩音器140产生。

最后，应注意到，图7的系统可以可选地在不确定和发送参数W_Z的情况下被操作。在该操作模式下，不能从消声呈现Y生成扩音器呈现Z。然而，因为参数W_E和/或W_F被确定和发送，所以可以从消声呈现生成包括早期反射和/或后期混响分量的耳机呈现。

多声道扩音器呈现

本领域技术人员将意识到，编码器中编码的第一回放流呈现可以是多声道呈现，例如，环绕或沉浸式扩音器呈现，比如5.1、7.1、7.1.4等呈现。上面(例如，参照图4)讨论的本发明的实施例(其中第二回放流呈现是立体声呈现)将以类似的方式操作，但是矩阵的大小将被调整。例如，虽然2×2参数矩阵对于立体声到立体声变换是足够的，但是从五声道环绕呈现到立体声呈现的变换需要5×2矩阵，从5.1环绕呈现(五个全带宽声道和低频效果(LFE)声道)到立体声呈现的变换需要6×2矩阵。因此，呈现变换参数所需的辅助信息的量将随着扩音器呈现中的声道数量增加，并且解码处理的计算复杂度也将对应地提高。

为了避免或最小化当具有M1个声道的第一呈现被变换为具有M2个声道的第二呈现(其中M1>M2)时(例如，当环绕或沉浸式扩音器呈现被变换为双耳立体声呈现时)的这样的计算复杂度提高，可以有利的是在确定变换参数之前将第一呈现下混为中间呈现。例如，5.1环绕呈现可以被下混为2.0立体声扩音器呈现。

图8a示出了编码器200，在该编码器200中，音频内容201被渲染器202渲染为5.1环绕扩音器呈现S，该5.1环绕扩音器呈现S被核心编码器203编码。5.1呈现S还被下混模块204转换为中间2声道(立体声)下混呈现Z。例如，Z的左声道(Z_L)可以根据以下方程被表达为环绕呈现S的左声道(S_L)、左侧声道(S_LS)、中央声道(S_C)和低频效果声道(S_LFE)的加权和：

Z_L＝(S_L+a*S_C+b*S_LS+c*S_LFE)

其中，a、b和c是合适的常数，例如，a＝b＝sqrt(0.5)＝0.71，c＝0.5。

音频内容还被输入到双耳渲染器205，双耳渲染器205被配置为渲染消声双耳信号Y。参数计算块206接收消声信号Y和立体声下混信号Z，并且计算立体声到消声参数W_Y。与上面的图4相比，渲染器202是渲染器45的多声道变体，因为这两种情况下的输出被提供给核心编码器203/48。块205和206在原理上与块43和46是相同的。

此外，编码器还可以包括用于渲染FDN输入信号的块207(对应于图6中的块82)，计算块206于是可以被配置为还计算FDN参数W_F的集合(对应于图6中的块83)。

图8b示出了解码器210，在该解码器210中，核心解码器211接收5.1环绕呈现S以及参数集合W_Y和W_F并且进行解码。环绕呈现S借助于下混模块212被转换为2声道(立体声)下混信号Z，下混模块212以与其在编码器中的对应部分204相同的方式进行操作。第一矩阵化块213将参数W_Y应用于立体声呈现Z以提供重构的消声信号

第二矩阵化块214将参数W_F应用于立体声呈现Z以提供重构的FDN输入信号。FDN输入信号在FDN 215中被用来提供后期混响信号，该后期混响信号被与重构的消声信号

相加216以提供双耳输出。注意到，块213-216中的处理类似于图6中的解码器86中的处理。

对于低目标速率，已知使用参数化方法来在2.1下混和耦合参数集合的帮助下传达5.1呈现，参见例如ETSI TS 103 190-1 V1.2.1(2015-06)。在这样的系统中，核心解码器有效地执行上混以便提供解码的5.1呈现。如果图8b中的实施例是在这样的解码器中实现的，则结果将是如图9a中描绘的解码器。注意到，图9a中的核心解码器311包括用于将2.1呈现上混为5.1呈现的上混模块312。5.1呈现然后被下混模块212下混为2.0呈现，正如图8b中那样。

然而，在该上下文下，当2.1呈现已经被包括在位流中时，上混到5.1不是需要的，并且可以被省略以便简化解码器。图9b中描绘了这样的简化解码器。这里，核心解码器411仅解码2.1呈现。该呈现被简化的下混模块412接收，该简化的下混模块412被配置为根据以下方程将2.1呈现转换为2.0呈现：

Lo＝a*L+b*LFE

Ro＝a*R+b*LFE

其中，L、R和LFE是解码的2.1呈现的左全带宽声道、右全带宽声道和低频效果声道，a和b是考虑由图9a中的模块312和212执行的上混和下混的效果的合适的常数。

图9a和9b中描述的处理采取2.1下混和对应的耦合参数。类似的方法可以在使用例如3.1下混和对应的耦合参数的系统中被采用。可替代地，图8a和图8b中的系统还可以携载如ETSI TS 103 190-1V1.2.1(2015-06)中所讨论的、允许将5.1呈现上混为基于对象的表示的附加辅助信息。

解释

整个说明书中所称的“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。因此，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是可以指同一个实施例。此外，在一个或多个实施例中，特定的特征、结构或特性可以以本领域的普通技术人员从本公开将清楚的任何合适的方式组合。

如本文所使用的，除非另有指定，否则序数形容词“第一”、“第二”、“第三”等描述共同对象的使用仅指示相似对象的不同实例正被提到，而非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。

在所附权利要求书和本文的描述中，术语“包括”、“它包括”或“其包括”中的任何一个是意指至少包括后面的元件/特征、但不排除其他元件/特征的开放性术语。因此，术语“包括”在被用于权利要求中时不应被解释为是限制其后列出的部件或元件或步骤。例如，表达“包括A和B的设备”的范围不应限于仅由元件A和B组成的设备。如本文所使用的术语“包含”、“它包含”或“其包含”中的任何一个也是也意指至少包括该术语后面的元件/特征、但不排除其他元件/特征的开放性术语。因此，包括与包含是同义的，并且意指包含。

如本文所使用的，术语“示例性”是以提供示例的意义使用的，与指示质量相反。也就是说，“示例性实施例”是作为示例提供的实施例，与一定是示例性质量的实施例相反。

应意识到，在上面对本发明的示例性实施例的描述中，为了使本公开精简并且帮助理解各种发明方面中的一个或多个的目的，本发明的各种特征在单个实施例、附图或其描述中有时被分组在一起。然而，本公开的方法不应被解释为反映要求保护的发明需要比每个权利要求中明确记载的特征多的特征的意图。相反，如所附权利要求所反映的，发明方面在于比单个前述公开实施例的所有特征少的特征。因此，接着具体实施方式的权利要求特此被明确地并入到该具体实施方式中，每个权利要求独自作为本发明的单独的实施例。

此外，正如本领域技术人员将理解的，虽然本文描述的一些实施例包括在其他实施例中所包含的一些特征而不包括在这些其他实施例中所包含的其他特征，但是不同实施例的特征的组合意指在本发明的范围内，并且形成不同的实施例。例如，在所附权利要求中，要求保护的实施例中的任何一个可以以任何组合来使用。

此外，实施例中的一些在本文中被描述为可以由计算机系统的处理器或实现功能的其他部件实现的方法或方法的元素组合。因此，具有用于实现这样的方法或方法的元素所需要的指令的处理器形成用于实现方法或方法的元素的部件。此外，装置实施例的本文所描述的元素是用于实现由用于实现本发明的目的的元素执行的功能的部件的示例。

在本文提供的描述中，阐述了许多特定细节。然而，理解的是，可以在没有这些特定细节的情况下实施本发明的实施例。在其他情况下，为了不模糊该描述的理解，没有详细示出众所周知的方法、结构和技术。

类似地，要注意的是，术语“耦合的”在被用在权利要求中时不应被解释为仅限于直接连接。术语“耦合的”和“连接的”、连同它们的派生词可以被使用。应理解，这些术语并非意图是彼此的同义词。因此，表达“耦合到设备B的设备A”的范围不应限于其中设备A的输出直接连接到设备B的输入的设备或系统。它意味着，在A的输出和B的输入之间存在路径，该路径可以是包括其他设备或部件的路径。“耦合的”可以意味着两个或更多个元件直接的物理或电接触，或者两个或更多个元件不彼此直接接触，但是仍彼此合作或交互。

因此，虽然已经描述了据信是本发明的优选实施例的内容，但是本领域技术人员将认识到，在不脱离本发明的范围的情况下，可以对本发明做出其他的和进一步的修改，并且意图要求保护落在本发明的范围内的所有这样的改变和修改。例如，上面给出的任何公式仅表示可以使用的规程。可以添加功能性，或者从框图删除功能性，并且可以在功能块之间交换操作。对于在本发明的范围内描述的方法，可以添加或删除步骤。

Claims

1.一种对具有一个或多个音频分量的输入音频流进行编码的方法，其中，每个音频分量与空间位置相关联，所述方法包括以下步骤：

渲染所述输入音频流的第一回放流呈现，所述第一回放流呈现是意图用于在第一音频再现系统上再现的M1个信号的集合；

渲染所述输入音频流的第二回放流呈现，所述第二回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合；

确定适合于将中间回放流呈现变换为第二回放流呈现的近似的变换参数的集合，其中所述变换参数的集合是在通过矩阵乘法应用于中间回放流呈现时生成第二回放流呈现的近似的矩阵的矩阵系数，并且其中所述中间回放流呈现是第一回放流呈现、第一回放流呈现的下混、以及第一回放流呈现的上混中的一个；

其中，所述变换参数是通过最小化第二回放流呈现与第二回放流呈现的近似之间的差异的测度而确定的；并且

对第一回放流呈现和变换参数的所述集合进行编码以用于发送到解码器。

2.根据权利要求1所述的方法，其中，所述第一回放流呈现和所述第二回放流呈现中的一个且仅一个是扩音器呈现。

3.根据权利要求2所述的方法，其中，所述第一回放流呈现和所述第二回放流呈现中的一个且仅一个是拟声或消声双耳呈现。

4.根据权利要求1所述的方法，其中，所述变换参数是时变的和/或频率相关的。

5.一种从数据流解码回放流呈现的方法，所述方法包括以下步骤：

接收第一渲染的回放流呈现并且对该第一渲染的回放流呈现进行解码，所述第一渲染的回放流呈现是意图用于在第一音频再现系统上再现的M1个信号的集合；

接收适合于将中间回放流呈现变换为第二渲染的回放流呈现的近似的变换参数的集合并且对该变换参数的集合进行解码，所述第二渲染的回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合，其中所述变换参数的集合是在通过矩阵乘法应用于中间回放流呈现时生成第二回放流呈现的近似的矩阵的矩阵系数，并且其中所述中间回放流呈现是第一渲染的回放流呈现、第一渲染的回放流呈现的下混、以及第一渲染的回放流呈现的上混中的一个；

其中，变换参数确保第二渲染的回放流呈现的近似与第二渲染的回放流呈现之间的差异的测度最小化；并且

将所述变换参数应用于所述中间回放流呈现以产生第二渲染的回放流呈现的所述近似。

6.一种从数据流解码回放流呈现的方法，所述方法包括以下步骤：

接收第一渲染的回放流呈现并且对该第一渲染的回放流呈现进行解码，所述第一渲染的回放流呈现是消声双耳呈现；

接收适合于将消声双耳呈现变换为一个或多个声学环境模拟处理输入信号的变换参数的一个或多个集合，并且对变换参数的所述一个或多个集合进行解码；

将变换参数的所述一个或多个集合应用于第一渲染的回放流呈现以生成所述一个或多个声学环境模拟处理输入信号；

将所述一个或多个声学环境模拟处理输入信号应用于一个或多个声学环境模拟处理以产生一个或多个模拟的声学环境信号；并且

将所述一个或多个模拟的声学环境信号与第一渲染的回放流呈现进行组合。

7.一种从数据流解码回放流呈现的方法，所述方法包括以下步骤：

接收适合于将中间回放流呈现变换为第二渲染的回放流呈现的近似的变换参数的集合并且对该变换参数的集合进行解码，所述第二渲染的回放流呈现是意图用于在第二音频再现系统上再现的M2个信号的集合，其中所述变换参数的集合是在通过矩阵乘法应用于中间回放流呈现时生成第二回放流呈现的近似的矩阵的矩阵系数，并且其中所述中间回放流呈现是第一渲染的回放流呈现、第一渲染的回放流呈现的下混、以及第一渲染的回放流呈现的上混中的一个；并且

将所述变换参数应用于所述中间回放流呈现以产生第二渲染的回放流呈现的所述近似，

其中，变换参数确保第二渲染的回放流呈现的近似与第二渲染的回放流呈现之间的差异的测度最小化，并且

其中，第二渲染的回放流呈现的近似是消声双耳呈现。

8.根据权利要求7所述的方法，进一步包括：

接收适合于将中间回放流呈现变换为一个或多个声学环境模拟处理输入信号的变换参数的一个或多个附加的集合，并且对变换参数的所述一个或多个附加的集合进行解码；

将变换参数的所述一个或多个附加的集合应用于中间回放流呈现以生成所述一个或多个声学环境模拟处理输入信号；

将所述一个或多个模拟的声学环境信号与第二渲染的回放流呈现的近似进行组合。

9.根据权利要求8所述的方法，其中，所述一个或多个模拟的声学环境信号包括以下中的一个或多个：早期反射信号和后期混响信号。

10.根据权利要求9所述的方法，其中，声学环境模拟处理包括以下中的一个或多个：早期反射模拟处理和后期混响模拟处理。

11.根据权利要求10所述的方法，其中，早期反射模拟处理包括通过延迟元件来对声学环境模拟处理输入信号中的一个或多个进行处理。

12.根据权利要求11所述的方法，其中，后期混响模拟处理包括通过反馈延迟网络来对声学环境模拟处理输入信号中的一个或多个进行处理。

13.一种对具有一个或多个音频分量的输入音频流进行编码的设备，包括：

一个或多个处理器；以及

存储器，存储有指令，所述指令在被执行时使所述一个或多个处理器执行根据权利要求1-4中任一项所述的方法的步骤。

14.一种从数据流解码回放流呈现的设备，包括：

一个或多个处理器；以及

存储器，存储有指令，所述指令在被执行时使所述一个或多个处理器执行根据权利要求5-12中任一项所述的方法的步骤。

15.一种存储介质，其上存储有计算机程序，所述计算机程序在计算机处理器上执行时使得所述计算机处理器执行根据权利要求1-12中任一项所述的方法。

16.一种包含计算机程序的编码器计算机程序产品，所述计算机程序在计算机处理器上执行时使得所述计算机处理器执行根据权利要求1-4中任一项所述的方法。

17.一种包含计算机程序的解码器计算机程序产品，所述计算机程序在计算机处理器上执行时使得所述计算机处理器执行根据权利要求5-12中任一项所述的方法。

18.一种包括用于执行根据权利要求1-12中任一项所述的方法的部件的装置。