CN108352163A

CN108352163A - 用于解码立体声声音信号的左和右声道的方法和系统

Info

Publication number: CN108352163A
Application number: CN201680062619.2A
Authority: CN
Inventors: T.瓦尔兰科特; M.杰利内克
Original assignee: VoiceAge Corp
Current assignee: VoiceAge Corp
Priority date: 2015-09-25
Filing date: 2016-09-22
Publication date: 2018-07-31
Anticipated expiration: 2036-09-22
Also published as: MX2018003703A; US20190237087A1; MX2018003242A; MX382211B; US20180277126A1; EP4235659A3; DK3353779T3; US10522157B2; WO2017049396A1; ZA202003500B; CA2997296C; KR102636396B1; EP3353778B1; KR20180056662A; US10984806B2; US10339940B2; JP7244609B2; US10573327B2; CA2997513A1; RU2763374C2

Abstract

一种立体声声音解码方法和系统使用包括主声道的编码参数、辅声道的编码参数和因子β的接收的编码参数，来解码立体声声音信号的左和右声道。主声道编码参数包括主声道的LP滤波系数。响应于主声道编码参数来解码主声道。使用多个编码模型中的一个来解码辅声道，其中至少一个编码模型使用主声道LP滤波系数来解码辅声道。使用因子β对解码的主和辅声道进行时域上混合，以产生立体声声音信号的解码的左和右声道，其中因子β确定在所述左和右声道的产生时、所述主和辅声道的相应贡献。

Description

用于解码立体声声音信号的左和右声道的方法和系统

技术领域

本公开涉及立体声声音编码，具体但不排他地涉及能够按照低比特率和低延迟在复杂音频场景中产生好的立体声质量的立体声话音(speech)和/或音频编码。

背景技术

历史上，已利用仅具有一个换能器以仅向用户的一只耳朵输出声音的电话听筒(handset)来实现对话电话。最近十来年，用户已开始使用他们的便携式电话听筒结合头戴式受话器，来接收越过他们的双耳的声音，以主要收听音乐，并且有时收听话音。然而，当使用便携式电话听筒来传送和接收对话话音时，内容仍然是单声道的，但是当使用头戴式受话器时内容被呈现到用户的双耳。

利用参考文献[1](其全部内容通过引用合并在这里)中描述的最新3GPP话音编码标准，已显著改进了编码的声音的质量，例如通过便携式电话听筒传送和接收的话音和/或音频。下一自然步骤是传送立体声信息，使得接收机尽可能接近在通信链路的另一侧捕获的真实生活音频场景。

在音频编解码器中，例如如同参考文献[2](其全部内容通过引用合并在这里)中描述的，正常使用立体声信息的传送。

对于对话话音编解码器，单声道信号是规范。当传送单声道信号时，比特率通常需要加倍，因为使用单声道编解码器来编码左和右声道两者。这在大多数情景下工作良好，但是呈现了以下缺点，比特率加倍，并且不能充分利用两个声道(左和右声道)之间的任何潜在冗余。此外，为了在合理水平保持整体比特率，使用用于每一声道的非常低的比特率，由此影响整体声音质量。

可能的替换方案是使用参考文献[6](其全部内容通过引用合并在这里)中描述的所谓参数化立体声。参数化立体声发送诸如双耳时间差(ITD)或双耳强度差(IID)的信息。后一信息是按每个频带发送的，并且按照低比特率，与立体声传送相关联的比特预算不足够高到允许这些参数有效地工作。

传送平移因子(panning factor)可能有助于以低比特率创建基本的立体声效果，但这种技术无法保持周围环境并呈现固有的局限性。太快的平移因子的调节(adaptation)变得干扰听众，而太慢的平移因子的调节并不能反映说话者的真实位置，这使得在干扰说话者的情况下或者当背景噪声的波动重要时，难以获得良好的质量。当前，对于所有可能的音频场景编码具有适当(decent)质量的对话立体声话音需要用于宽带(WB)信号的约24kb/s的最小比特率；低于该比特率时，话音质量开始受损。

随着劳动力日益增长的全球化和工作团队在全球的分裂，存在改进通信的需求。例如，电话会议的参与者可能处于不同且遥远的位置。有些参与者可能会在他们的汽车中，其他人可能在大的消声室中或甚至在他们的客厅中。事实上，所有参与者都希望感觉好像他们进行面对面的讨论。在便携式设备中实现立体声话音(更一般的立体声声音)，将是朝这个方向迈出的一大步。

发明内容

根据第一方面，本公开涉及一种用于对立体声声音信号的左声道和右声道进行解码的立体声声音解码方法，包括：接收编码参数，所述编码参数包括主声道的编码参数、辅声道的编码参数和因子β，其中主声道编码参数包括主声道的LP滤波系数；响应于主声道编码参数对主声道进行解码；使用多个编码模型之一对所述辅声道进行解码，其中，所述编码模型中的至少一个使用所述主声道LP滤波系数对所述辅声道进行解码；和使用因子β对解码的主声道和辅声道进行时域上混合，以产生解码的立体声声音信号的左声道和右声道，其中该因子β确定在所述左和右声道的产生时、所述主和辅声道的相应贡献。

根据第二方面，提供了一种用于解码立体声声音信号的左和右声道的立体声声音解码系统，包括：用于接收包括主声道的编码参数、辅声道的编码参数、和因子β的编码参数的部件，其中该主声道编码参数包括该主声道的LP滤波系数；响应于该主声道编码参数的该主声道的解码器；使用多个编码模型之一的该辅声道的解码器，其中所述编码模型的至少一个使用所述主声道LP滤波系数来解码该辅声道；和使用因子β以产生所解码的立体声声音信号的左和右声道的所解码的主和辅声道的时域上混合器，其中该因子β确定在所述左和右声道的产生时所述主和辅声道的相应贡献。

根据第三方面，提供了一种用于解码立体声声音信号的左和右声道的立体声声音解码系统，包括：至少一个处理器；和存储器，耦接到该处理器，并且包括非瞬时指令，所述指令当运行时促使该处理器实现：用于接收包括主声道的编码参数、辅声道的编码参数、和因子β的编码参数的部件，其中该主声道编码参数包括该主声道的LP滤波系数；响应于该主声道编码参数的该主声道的解码器；使用多个编码模型之一的该辅声道的解码器，其中所述编码模型的至少一个使用所述主声道LP滤波系数来解码该辅声道；和使用因子β以产生所解码的立体声声音信号的左和右声道的所解码的主和辅声道的时域上混合器，其中该因子β确定在所述左和右声道的产生时所述主和辅声道的相应贡献。

另一方面涉及一种用于解码立体声声音信号的左和右声道的立体声声音解码系统，包括：至少一个处理器；和存储器，耦接到该处理器，并且包括非瞬时指令，所述指令当运行时促使该处理器：接收包括主声道的编码参数、辅声道的编码参数、和因子β的编码参数，其中该主声道编码参数包括该主声道的LP滤波系数；响应于该主声道编码参数解码该主声道；使用多个编码模型之一解码该辅声道，其中所述编码模型的至少一个使用所述主声道LP滤波系数来解码该辅声道；和使用因子β对所解码的主和辅声道进行时域上混合，以产生所解码的立体声声音信号的左和右声道，其中该因子β确定在所述左和右声道的产生时所述主和辅声道的相应贡献。

本公开还涉及一种处理器可读存储器，包括非瞬时指令，所述指令当运行时，促使处理器实现上述方法的操作。

通过阅读参考附图仅作为示例给出的其示意性实施例的以下非限制性描述，用于解码立体声声音信号的左和右声道的立体声声音解码方法和系统的前述和其他目的、优点和特征将变得更清楚。

附图说明

在附图中：

图1是立体声声音处理和通信系统的示意性框图，其描绘了在以下描述中公开的立体声声音编码方法和系统的实现的可能上下文；

图2是并发图示了根据第一模型(呈现为集成立体声设计)的立体声声音编码方法和系统的框图；

图3是并发图示了根据第二模型(呈现为嵌入式模型)的立体声声音编码方法和系统的框图；

图4是并发示出了图2和3的立体声声音编码方法的时域下混合操作的子操作、以及图2和3的立体声声音编码系统的声道混合器的模块的框图；

图5是示出了如何将线性化长期相关差映射到因子β和能量归一化因子ε的图表；

图6是示出了使用整个帧上的pca/klt方案和使用“余弦”映射函数之间的差别的多曲线图；

图7是示出了通过使用背景中具有办公室噪声的双耳麦克风设置、向小型回声室中已记录的立体声样本施加时域下混合、而产生的主声道、辅声道以及这些主声道和辅声道的谱的多曲线图；

图8是并发图示了立体声声音编码方法和系统的框图，具有立体声声音信号的主Y和辅X声道两者的编码的可能实现和优化；

图9是图示了图8的立体声声音编码方法和系统的LP滤波相干性分析操作和对应LP滤波相干性分析器的框图；

图10是并发图示了立体声声音解码方法和立体声声音解码系统的框图；

图11是图示了图10的立体声声音解码方法和系统的附加特征的框图；

图12是形成本公开的立体声声音编码系统和立体声声音解码器的硬件组件的示例配置的简化框图；

图13是并发图示了使用预调节因子以增强立体图像稳定性的、图2和3的立体声声音编码方法的时域下混合操作的子操作、以及图2和3的立体声声音编码系统的声道混合器的模块的其他实施例的框图；

图14是并发图示了时间延迟校正的操作和时间延迟校正器的模块的框图；

图15是并发图示了替换立体声声音编码方法和系统的框图；

图16是并发图示了音高相干性分析的子操作和音高相干性分析器的模块的框图；

图17是并发图示了具有时域和频域中的操作能力的使用时域下混合的立体声编码方法和系统的框图；和

图18是并发图示了具有时域和频域中的操作能力的使用时域下混合的其他立体声编码方法和系统的框图。

具体实施方式

本公开涉及来自具体但不排他的复杂音频场景的、例如话音和/或音频内容的立体声声音内容的现实表示(realistic representation)的、具有低比特率和低延迟的产生和传送。复杂音频场景包括以下情形，其中(a)麦克风记录的声音信号之间的相关性低，(b)存在背景噪声的重要波动，和/或(c)存在干扰说话者。复杂音频场景的示例包括具有A/B麦克风配置的大型无回声会议室、具有双耳麦克风的小型回声室、以及具有单声道/两边(mono/side)麦克风设置的小型回声室。所有这些房间配置能包括波动的背景噪声和/或干扰说话者。

诸如参考文献[7]中描述的3GPP AMR-WB+的已知立体声声音编解码器(其全部内容通过引用在此合并)对于编码不接近单声道模型的声音(特别是低比特率)是低效的。某些情况尤其难以使用现有立体声技术来编码。这样的情况包括：

-LAAB(具有A/B麦克风设置的大型无回声室)；

-SEBI(具有双耳麦克风设置的小型回声室)；和

-SEMS(具有单声道/两边麦克风设置的小型回声室)。

添加波动背景噪声和/或干扰说话者使得这些声音信号更难以使用专用于立体声的技术(诸如参数立体声)按照低比特率编码。编码这样的信号的缺陷在于使用两个单声道，由此使得正使用的比特率和网络带宽加倍。

最新的3GPP EVS对话话音标准提供从7.2kb/s到96kb/s的比特率范围用于宽带(WB)操作，并提供9.6kb/s到96kb/s的比特率范围用于超宽带(SWB)操作。这意味着使用EVS的三个最低双单声道比特率是用于WB操作的14.4、16.0和19.2kb/s以及用于SWB操作的19.2、26.3和32.8kb/s。尽管参考文献[3](其全部内容通过引用在此合并)中描述的部署的3GPP AMR-WB的话音质量在其先前(predecessor)编解码器上改进，但是噪声环境中7.2kb/s的编码话音的质量远远不透明，并所以能预期14.4kb/s的双单声道的话音质量也是有限的。按照这样的低比特率，比特率使用被最大化，使得尽可能经常地获得最佳可能话音质量。利用以下描述中公开的立体声声音编码方法和系统，用于对话立体声话音内容的最小总比特率(即使在复杂音频场景的情况下)应该是用于WB的大约13kb/s和用于SWB的大约15.0kb/s。按照比双单声道方案中使用的比特率更低的比特率，立体声话音的质量和清晰度(intelligibility)对于复杂音频场景大大改进。

图1是立体声声音处理和通信系统100的示意性框图，其描绘了在以下描述中公开的立体声声音编码方法和系统的实现的可能上下文。

图1的立体声声音处理和通信系统100支持立体声声音信号通过通信链路101的传送。通信链路101可包括例如线缆或光纤链路。作为选择，通信链路101可包括至少部分射频链路。射频链路通常支持诸如可利用蜂窝电话得到的需要共享带宽资源的多个同时通信。尽管没有示出，但是通信链路101可由记录和存储所编码的立体声声音信号用于稍后重放的处理和通信系统100的单一装置实现中的储存装置替代。

仍然参考图1，例如一对麦克风102和122产生例如在复杂音频场景中检测的原始模拟立体声声音信号的左103和右123声道。如以上描述中指示的，声音信号可具体但不排他地包括话音和/或音频。麦克风102和122可根据A/B、双耳或单声道/两边设置来排列。

原始模拟声音信号的左103和右123声道被供应到模数(A/D)转换器104，用于将它们转换为原始数字立体声声音信号的左105和右125声道。原始数字立体声声音信号的左105和右125声道也可被记录并从储存装置(未示出)供应。

立体声声音编码器106编码该数字立体声声音信号的左105和右125声道，由此产生在传递到可选误差校正编码器108的比特流107的形式下多路复用的编码参数的集合。在通过通信链路101传送得到的比特流111之前，可选误差校正编码器108(当存在时)向比特流107中的编码参数的二进制表示添加冗余。

在接收机侧，可选误差校正解码器109利用接收的数字比特流111中的上述冗余信息，来检测和校正可能在通过通信链路101的传送期间出现的误差，产生具有接收的编码参数的比特流112。立体声声音解码器110转换比特流112中的接收的编码参数，用于创建数字立体声声音信号的合成的左113和右133声道。立体声声音解码器110中重构的数字立体声声音信号的左113和右133声道在数模(D/A)转换器115中转换为模拟立体声声音信号的合成的左114和右134声道。

模拟立体声声音信号的合成的左114和右134声道分别在一对扬声器单元116和136中重放。作为选择，来自立体声声音解码器110的数字立体声声音信号的左113和右133声道也可被供应到储存装置(未示出)并在其中记录。

图1的原始数字立体声声音信号的左105和右125声道对应于图2、3、4、8、9、13、14、15、17和18的左L和右R声道。而且，图1的立体声声音编码器106对应于图2、3、8、15、17和18的立体声声音编码系统。

根据本公开的立体声声音编码方法和系统是双重的(two-fold)；提供第一和第二模型。

图2是并发图示了根据第一模型(呈现为基于EVS内核的集成立体声设计)的立体声声音编码方法和系统的框图。

参考图2，根据第一模型的立体声声音编码方法包括时域下混合操作201、主声道编码操作202、辅声道编码操作203、和多路复用操作204。

为了执行时域下混合操作201，声道混合器251混合两个输入立体声声道(右声道R和左声道L)以产生主声道Y和辅声道X。

为了执行辅声道编码操作203，辅声道编码器253选择并使用最小数目的比特(最小比特率)，以使用以下描述中定义的编码模式之一来编码辅声道X，并产生对应的辅声道编码的比特流206。关联的比特预算可取决于帧内容而每帧改变。

为了实现主声道编码操作202，使用主声道编码器252。辅声道编码器253将当前帧中用来编码辅声道X所使用的比特208的数目信令传输到主声道编码器252。能使用任何适当类型编码器作为主声道编码器252。作为非限制性示例，主声道编码器252能够是CELP类型编码器。在该示意性实施例中，主声道CELP类型编码器是传统EVS编码器的修改版本，其中修改EVS编码器以呈现更大比特率可伸缩性，以允许主和辅声道之间的灵活比特率分配。按照该方式，修改的EVS编码器将能够使用没有用来编码辅声道X的所有比特，用于利用对应比特率来编码主声道Y，并产生对应主声道编码的比特流205。

多路复用器254链接(concatenates)主声道比特流205和辅声道比特流206以形成多路复用的比特流207，以完成多路复用操作204。

在第一模型中，用来编码辅声道X的比特数目和对应比特率(比特流106中)小于用来编码主声道Y的比特数目和对应比特率(比特流205中)。这能被看作两个(2)可变比特率声道，其中两个声道X和Y的比特率之和表示恒定总比特率。该方案可具有不同特点(flavors)，其在主声道Y上具有或多或少的重点(emphasis)。根据第一示例，当在主声道Y上投入最大重点时，辅声道X的比特预算被强烈强制为最小。根据第二示例，如果在主声道Y上投入较少重点，则可使得辅声道X的比特预算更恒定，这意味着辅声道X的平均比特率与第一示例相比稍微高一些。

需要提醒的是，输入数字立体声声音信号的右R和左L声道由可对应于在EVS处理中使用的帧的持续时间的给定持续时间的连续帧处理。每一帧取决于正使用的给定的帧的持续时间和采样速率，而包括右R和左L声道的多个样本。

图3是并发图示了根据第二模型(呈现为嵌入式模型)的立体声声音编码方法和系统的框图。

参考图3，根据第二模型的立体声声音编码方法包括时域下混合操作301、主声道编码操作302、辅声道编码操作303和多路复用操作304。

为了完成时域下混合操作301，声道混合器351混合两个输入的右R和左L声道以形成主声道Y和辅声道X。

在主声道编码操作302中，主声道编码器352编码主声道Y，以产生主声道编码的比特流305。而且，能使用任何适当类型的编码器作为主声道编码器352。作为非限制性示例，主声道编码器352能够是CELP类型编码器。在该示意性实施例中，主声道编码器352使用诸如传统EVS单声道编码模式或AMR-WB-IO编码模式的话音编码标准，这意味着当比特率与这样的解码器兼容时，比特流305的单声道部分将与传统EVS、AMR-WB-IO或传统AMR-WB解码器共同操作。取决于选择的编码模式，可需要主声道Y的一些调整用于通过主声道编码器352处理。

在辅声道编码操作303中，辅声道编码器353使用以下描述中定义的编码模式之一按照较低比特率对辅声道X进行编码。辅声道编码器353产生辅声道编码的比特流306。

为了执行多路复用操作304，多路复用器354链接主声道编码的比特流305和辅声道编码的比特流306，以形成多路复用的比特流307。这被称为嵌入模式，因为在可共同操作的比特流305的顶部添加与立体声关联的辅声道编码的比特流306。如这里在上面描述的，辅声道比特流306能在任意时刻从导致传统编解码器可解码的比特流的、多路复用的立体声比特流307(链接的比特流305和306)剥离(stripped-off)，而最新版本的编解码器的用户仍能够享受完整的立体声解码。

上面描述的第一和第二模型事实上彼此接近。这两种模型之间的主要差别在于，在第一模型中，可能使用两个声道Y和X之间的动态比特分配，而在第二模型中，比特分配由于共同操作性考虑而更受限。

以下描述中给出用来实现上述第一和第二模型的实现和方案的示例。

1)时域下混合

如以上描述中表达的，按照低比特率操作的已知立体声模型在编码不接近单声道模型的话音时具有困难。传统方案使用例如Karhunen-Loève转换(klt)，使用例如与主要成分分析(pca)关联的每一频带的相关，执行频域中(每一频带)的下混合，以获得两个向量，如参考文献[4]和[5]中描述的，其全部内容通过引用在此合并。这两个向量之一合并所有高度相关的内容，而另一向量定义不非常相关的所有内容。按照低比特率编码话音的最佳已知方法使用时域编解码器，例如CELP(代码激励线性预测)编解码器，其中已知频域方案不可直接应用。为此原因，尽管每一频带pca/klt背后的思想是有趣的，但是当内容是话音时，主声道Y需要转换回时域，并且在这样的转换之后，其内容看上去不再是传统话音，特别是在使用诸如CELP的话音特定模型的上述配置的情况下。这具有降低话音编解码器的性能的效果。此外，按照低比特率，话音编解码器的输入应尽可能接近编解码器的内部模型期望值。

以低比特率话音编解码器的输入应尽可能接近期望的话音信号的思想开始，已开发了第一技术。第一技术基于传统pca/klt方案的演进。尽管传统方案计算每一频带的pca/klt，但是第一技术直接在时域中的整个帧上计算它。这在活动话音片段期间充分工作，如果不存在背景噪声或干扰说话者的话。pca/klt方案确定哪个声道(左L或右R声道)包括最有用的信息，该声道被发送到主声道编码器。不幸的是，在存在背景噪声或者两个或更多人彼此谈话时，基于帧的pca/klt方案不可靠。pca/klt方案的原理涉及一个输入声道(R或L)或另一个的选择，这通常导致要编码的主声道的内容的剧烈改变。至少因为以上原因，第一技术不足够可靠，并因此，这里呈现第二技术，用于克服第一技术的不足，并允许输入声道之间的更平滑的转变。下面将参考图4-9来描述该第二技术。

参考图4，时域下混合201/301(图2和3)的操作包括以下子操作：能量分析子操作401、能量趋势分析子操作402、L和R声道归一化相关性分析子操作403、长期(LT)相关差计算子操作404、长期相关差到因子β转换和量化子操作405、以及时域下混合子操作406。

紧记低比特率声音(诸如话音和/或音频)编解码器的输入应尽可能均匀(homogeneous)的思想，能量分析子操作401由能量分析器451在声道混合器252/351中执行，以使用关系式(1)通过帧首先确定每一输入声道R和L的rms(均方根)能量：

其中下标L和R分别代表左和右声道，L(i)代表声道L的样本i，R(i)代表声道R的样本i，N对应于每帧的样本的数目，并且t代表当前帧。

能量分析器451然后使用关系式(2)利用关系式(1)的rms值来确定每一声道的长期rms值

其中t表示当前帧并且t_-1表示先前帧。

为了执行能量趋势分析子操作402，声道混合器251/351的能量趋势分析器452使用长期rms值以使用关系式(3)来确定每一声道L和R中的能量的趋势

使用长期rms值的趋势作为以下信息，该信息示出麦克风所捕获的时间事件是否正消退(fading-out)或者它们是否正改变声道。长期rms值及其趋势也被用来确定长期相关差的收敛(convergence)速度α，如稍后将描述的那样。

为了执行声道L和R归一化相关性分析子操作403，L和R归一化相关性分析器453使用关系式(4)在帧t中计算针对声音(例如话音和/或音频)中的单声道信号版本m(i)归一化的左L和右R声道的每一个的相关性G_L|R：

其中如已经提及的，N对应于帧中的样本的数目，并且t代表当前帧。在当前实施例中，通过关系式1到4确定的所有归一化相关性和rms值对于整个帧在时域中计算。在另一种可能的配置中，能在频域中计算这些值。例如，适用于具有话音特性的声音信号的本文描述的技术能够是能在频域通用立体声音频编码方法与本公开中描述的方法之间切换的更大框架的一部分。在这种情况下，在频域中计算归一化相关性和rms值可在复杂性或代码重用方面呈现某些优势。

为了在子操作404中计算长期(LT)相关差，计算器454使用关系式(5)针对当前帧中的每个声道L和R，计算平滑的归一化相关性：

其中α是上述收敛速度。最后，计算器454使用关系式(6)确定长期(LT)相关差

在一个示例实施例中，取决于关系式(2)中计算的长期能量和关系式(3)中计算的长期能量的趋势，收敛速度α可以具有0.8或0.5的值。例如，当左L和右R声道的长期能量沿相同方向演变时，收敛速度α可以具有0.8的值，帧t处的长期相关差与帧t_-1处的长期相关差之间的差异是低的(对于该示例实施例，低于0.31)，并且左L和右R声道的长期rms值中的至少一个高于特定阈值(在该示例实施例中为2000)。这样的情况意味着两个声道L和R正在平滑演变，不存在从一个声道到另一个声道的能量的快速变化，并且至少一个声道包含有意义的能级。否则，当右R和左L声道的长期能量向不同方向演变时，当长期相关差之间的差异高时，或者当这两个右R和左L声道具有低能量时，α将被设置为0.5，以增加长期相关差的调节速度。

为了执行转换和量化子操作405，一旦在计算器454中已经适当地估计了长期相关差则转换器和量化器455就将该差值转换为量化的因子β，并将其供应到(a)主声道编码器252(图2)、(b)辅声道编码器253/353(图2和3)和(c)多路复用器254/354(图2和3)，用于通过诸如图1的101的通信链路在多路复用的比特流207/307中传送到解码器。

因子β表示组合成一个参数的立体声输入的两个方面。首先，因子β表示组合在一起以创建主声道Y的右R声道和左L声道的每一个的比例或贡献，并且其次，它还能表示为了获得在能量域中与声音的单声道信号版本将看上去的那样接近的主声道、而应用于主声道Y的能量缩放因子。因此，在嵌入式结构的情况下，它允许主声道Y被单独解码，而不需要接收携带立体声参数的辅比特流306。也能使用这个能量参数以在其编码之前重新缩放辅声道X的能量，使得辅声道X的全局能量更接近辅声道编码器的最佳能量范围。如图2所示，也可使用本质上存在于因子β中的能量信息，以改进主声道与辅声道之间的比特分配。

可以使用索引将量化因子β传送给解码器。因为因子β能表示(a)左和右声道对主声道的各自贡献、和(b)有助于更有效地在主声道Y和辅声道X之间分配比特的、向主声道施加以获得声音的单声道信号版本、或相关性/能量信息的能量比例因子，向解码器传送的索引传达具有相同比特数的两个不同信息元素。

为了获得长期相关差与因子β之间的映射，在该示例实施例中，转换器和量化器455首先将长期相关差限制在-1.5至1.5之间，并然后将该长期相关差在0和2之间线性化，以得到时间线性化的长期相关差G′_LR(t)，如关系式(7)所示：

在替代实现中，可以通过将其值进一步限制在例如0.4和0.6之间，来判断仅使用填充有线性化的长期相关差G′_LR(t)的空间的一部分。这种额外的限制将具有降低立体图像定位、以及节省一些量化比特的效果。根据设计选择，能考虑这个选项。

在线性化之后，转换器和量化器455使用关系式(8)执行线性化的长期相关差G′_LR(t)向“余弦”域的映射：

为了执行时域下混合子操作406，时域下混合器456使用关系式(9)和(10)产生主声道Y和辅声道X作为右R和左L声道的混合：

Y(i)＝R(i)·(1-β(t))+L(i)·β(t) (9)

X(i)＝L(i)·(1-β(t))-R(i)·β(t) (10)

其中i＝0、……、N-1是帧中的样本索引并且t是帧索引。

图13是并发示出使用预调节因子以增强立体图像稳定性的、图2和3的立体声声音编码方法的时域下混合操作201/301的子操作、以及图2和3的立体声声音编码系统的声道混合器251/351的模块的其他实施例的框图。在如图13所示的替代实现中，时域下混合操作201/301包括以下子操作：能量分析子操作1301、能量趋势分析子操作1302、L和R声道归一化相关性分析子操作1303、预调节因子计算子操作1304、将预调节因子应用于归一化相关性的操作1305、长期(LT)相关差计算子操作1306、增益到因子β转换和量化子操作1307、以及时域下混合子操作1308。

子操作1301、1302和1303基本上按照与图4的子操作401、402和403、以及分析器451、452和453相关的前述中所解释的相同方式，分别由能量分析器1351、能量趋势分析器1352、以及L和R归一化相关性分析器1353执行。

为了执行子操作1305，声道混合器251/351包括计算器1355，用于向根据关系式(4)的相关性G_L|R)(G_L(t)和G_R(t))直接应用预调节因子a_r，使得取决于两个声道的能量和特性，而平滑它们的演变。如果信号的能量低或者如果它具有一些无声(unvoiced)特性，则相关性增益的演变能更慢。

为了执行预调节因子计算子操作1304，声道混合器251/351包括预调节因子计算器1354，该预调节因子计算器1354被供应有(a)来自能量分析器1351的关系式(2)的长期左和右声道能量值、(b)先前帧的帧分类和(c)先前帧的语音活动信息。预调节因子计算器1354使用关系式(6a)计算预调节因子a_r，其可取决于来自分析器1351的左和右声道的最小长期rms值在0.1和1之间被线性化：

在实施例中，系数M_a可以具有0.0009的值，系数B_a可以具有0.16的值。在变型中，例如，如果两个声道R和L的先前分类指示无声特性和活动信号，则预调节因子a_r可以被强制为0.15。语音活动检测(VAD)拖尾(hangover)标志也可以用来确定帧的前一部分内容是活动段。

将预调节因子a_r应用于左L和右R声道的归一化相关性G_L|R(来自关系式(4)的G_L(t)和G_R(t))的操作1305与图4的操作404不同。代替通过向归一化相关性G_L|R(G_L(t)和G_R(t))应用因子(1-α)、α是以上定义的收敛速度(关系式(5))、来计算长期(LT)平滑的归一化相关性，计算器1355使用关系式(11b)向左L和右R声道的归一化相关性G_L|R(G_L(t)和G_R(t))直接应用预调节因子a_r：

计算器1355输出向长期(LT)相关差1356的计算器提供的调节的相关性增益τ_L|R。在图13的实现中，时域下混合201/301的操作(图2和3)包括与图4的子操作404、405和406分别类似的长期(LT)相关差计算子操作1306、长期相关差到因子β的转换和量化子操作1307、和时域下混合子操作1358。

在图13的实现中，时域下混合201/301的操作(图2和3)包括与图4的子操作404、405和406分别类似的长期(LT)相关差计算子操作1306、长期相关差到因子β转换和量化子操作1307、以及时域下混合子操作1358。

子操作1306、1307和1308分别由计算器1356、转换器和量化器1357以及时域下混合器1358基本上按照与前面关于子操作404、405和405、与计算器454、转换器和量化器455以及时域下混合器456的描述中解释的相同方式执行。

图5示出了如何将线性化长期相关差G′_LR(t)映射到因子β和能量缩放。能观察到，对于1.0的线性化长期相关差G′_LR(t)，这意味着右R和左L声道能量/相关性几乎相同，因子β等于0.5并且能量归一化(重新缩放)因子ε为1.0。在该情况下，主声道Y的内容基本上是单声道混合物，并且辅声道X形成边声道。下面描述能量归一化(重新缩放)因子ε的计算。

另一方面，如果线性化长期相关差G′_LR(t)等于2，这意味着大多数能量在左声道L中，则因子β为1，并且能量归一化(重新缩放)因子为0.5，这指示出主声道Y基本上包括集成设计实现中的左声道L、或者嵌入设计实现中的左声道L的缩减(downscaled)表示。在该情况下，辅声道X包括右声道R。在示例实施例中，转换器和量化器455或1357使用31个可能量化条目来量化因子β。因子β的量化版本使用5比特索引来表示，并且如上所述，被供应到多路复用器，用于集成在多路复用的比特流207/307中，并通过通信链路传送到解码器。

在实施例中，因子β也可以用作用于主声道编码器252/352和辅声道编码器253/353两者的指示符，以确定比特率分配。例如，如果β因子接近0.5，这意味着两个(2)输入声道能量/与单声道的相关性彼此接近，则将更多比特分配给辅声道X并将更少比特分配给主声道Y，除非如果两个声道的内容非常接近，则辅声道的内容将会实际上低能量，并且可能被看作不活动的，因此允许非常少的比特对其进行编码。另一方面，如果因子β接近于0或1，则比特率分配将有利于主声道Y。

图6示出了使用整个帧上的上述pca/klt方案(图6的上面两个曲线)和使用为了计算因子β在关系式(8)中开发的“余弦”函数(图6的下面曲线)之间的差别。本质上，pca/klt方案倾向于搜索最小值或最大值。这在图6的中间曲线所示的活动话音的情况下很好地工作，但是这对于具有背景噪声的话音来说实际上不能很好地工作，因为它趋于从0连续地切换到1，如图6的中间曲线所示。过度频繁地切换到端点0和1会在低比特率编码时导致大量伪像(artefacts)。潜在的解决方案本应该是消除(smooth out)pca/klt方案的判断，但这会对话音突发及其正确位置的检测产生负面影响，而关系式(8)的“余弦”函数在这方面更有效。

图7示出了通过使用背景中具有办公室噪声的双耳麦克风设置、向小型回声室中已记录的立体声样本施加时域下混合、而产生的主声道Y、辅声道X以及这些主声道Y和辅声道X的谱。在时域下混合操作之后，能看出两个声道仍具有相似谱形状，并且辅声道X仍具有与时间内容相似的话音，由此允许使用基于话音的模型来编码辅声道X。

在前面的描述中呈现的时域下混合可能在相位反相的右R和左L声道的特定情况下显示出一些问题。将右R和左L声道相加以获得单声道信号将导致右R和左L声道彼此抵消。为了解决这个可能的问题，在实施例中，声道混合器251/351将单声道信号的能量与右R声道和左L声道两者的能量进行比较。单声道信号的能量应该至少大于右R和左L声道之一的能量。否则，在该实施例中，时域下混合模型进入反相的特殊情况。在出现这种特殊情况时，因子β被强制为1，并且辅声道X被强制使用通用或无声模式编码，从而防止不活动编码模式，并确保辅声道X的正确编码。通过使用可用于传输因子β的最后比特组合(索引值)，而将这种特殊情况(其中不应用能量重新缩放)信令传输到解码器(基本上，因为如上所述使用5个比特量化β并且使用31个条目(量化等级)用于量化，所以使用第32个可能的比特组合(条目或索引值)用于信令传输这种特殊情况)。

在替代实现中，可以将更多的重点投入在对于上文所述的下混合和编码技术次优的信号的检测上，例如在异相或接近异相信号的情况下。一旦检测到这些信号，如果需要，则可以调节底层编码技术。

典型地，对于如本文所述的时域下混合，当输入立体声信号的左L和右R声道异相时，在下混合处理期间可能发生一些抵消，这可导致次优质量。在上面的例子中，这些信号的检测是简单的，并且编码策略包括分开编码两个声道。但是有时候，利用特殊的信号(例如异相信号)，仍然执行类似于单声道/边声道(β＝0.5)的下混合可能更有效，其中将更大的重点投入在边声道上。鉴于这些信号的某些特殊处理可能是有益的，需要仔细执行这些信号的检测。此外，从如前述描述中描述的正常时域下混合模型和处理这些特殊信号的时域下混合模型的转变可以在非常低能量的区域中或者在两个声道的音高(pitch)不稳定的区域中触发，使得这两个模型之间的切换具有最小的主观效应。

L声道和R声道之间的时间延迟校正(TDC)(参见图17和18中的时间延迟校正器1750)或与参考文献[8]中描述的技术类似的技术(其全部内容通过引用并入本文)可以在进入下混合模块201/301、251/351之前执行。在这样的实施例中，因子β可在具有与上文已经描述的含义不同的含义的情况下结束(end-up)。对于这种类型的实现，在时间延迟校正按照预期进行操作的情况下，因子β可以变得接近0.5，这意味着时域下混合的配置接近单声道/边声道配置。通过时间延迟校正(TDC)的适当操作，边声道可以包括含有较少量重要信息的信号。在这种情况下，当因子β接近0.5时，辅声道X的比特率可以是最小的。另一方面，如果因子β接近0或1，这意味着时间延迟校正(TDC)可能没有恰当地克服延迟未对准情形，并且辅声道X的内容可能更复杂，因此需要更高的比特率。对于两种类型的实现，可以使用因子β和通过关联的能量归一化(重新缩放)因子ε，以改进主声道Y和辅声道X之间的比特分配。

图14是并发示出形成下混合操作201/301和声道混合器251/351的一部分的、异相信号检测的操作和异相信号检测器1450的模块的框图。如图14所示，异相信号检测的操作包括异相信号检测操作1401、切换位置检测操作1402和声道混合器选择操作1403，以在时域下混合操作201/301和异相特定时域下混合操作1404之间进行选择。这些操作分别由异相信号检测器1451、切换位置检测器1452、声道混合器选择器1453、先前描述的时域下声道混合器251/351、以及异相特定时域下声道混合器1454执行。

异相信号检测1401基于先前帧中主和辅声道之间的开环相关性。为此，检测器1451使用关系式(12a)和(12b)在先前帧中计算边声道信号s(i)和单声道信号m(i)之间的能量差S_m(t)：

然后，检测器1451使用关系式(12c)计算长期边声道与单声道能量差

其中t指示当前帧，t_-1指示先前帧，并且其中不活动内容可从语音活动性检测器(VAD)拖尾标志或者从VAD拖尾计数器导出。

除了长期边声道与单声道能量差之外，也考虑参考文献[1]的条款5.1.10中定义的每一声道Y和X的最后音高开环最大相关性C_F|L，以判断何时将当前模型看作次优的。表示先前帧中的主声道Y的音高开环最大相关性，并且表示先前帧中的辅声道X的音高开环最大相关性。次优标记F_sub由切换位置检测器1452根据以下标准计算：

如果长期边声道与单声道能量差高于某一阈值，例如当时，如果音高开环最大相关性和两者在0.85和0.92之间，这意味着这些信号具有好相关性，但是不象语音信号那样相关，则次优标记F_sub被设置为1，这指示左L和右R声道之间的异相条件。

否则，次优标记F_sub被设置为0，这指示左L和右R声道之间不存在异相条件。

为了在次优标记判断中增加一些稳定性，切换位置检测器1452实现关于每一声道Y和X的音高升降曲线(pitch contour)的标准。当在示例实施例中将次优标记F_sub的至少三个(3)连续实例设置为1并且主声道p_pc(t-1)或辅声道p_sc(t-1)之一的最后帧的音高稳定性大于64时，切换位置检测器1452确定将使用声道混合器1454来编码次优信号。音高稳定性在于由切换位置检测器1452使用关系式(12d)计算的、参考文献[1]的5.1.10中定义的三个开环音高p_0|1|2的绝对差之和：

p_pc＝|p₁-p₀|+|p₂-p₁|and p_sc＝|p₁-p₀|+|p₂-p₁| (12d)

切换位置检测器1452向声道混合器选择器1453提供判断，声道混合器选择器1453因此接下来选择声道混合器251/351或声道混合器1454。声道混合器选择器1453实现滞后现象，使得当选择声道混合器1454时，该判断成立直到满足以下条件：例如20帧的多个连续帧被看作最优，主声道p_pc(t-1)或辅声道p_sc(t-1)之一的最后帧的音高稳定性大于例如64的预定数目，并且长期边声道与单声道能量差低于或等于0。

2)主和辅声道之间的动态编码

图8是并发图示了立体声声音编码方法和系统的框图，具有立体声信号(诸如话音或音频)的主Y和辅X声道两者的编码的优化的可能实现。

参考图8，立体声声音编码方法包括由低复杂度预处理器851实现的低复杂度预处理操作801、由信号分类器852实现的信号分类操作802、由判断模块853实现的判断操作803、由四(4)子帧模型通用唯一编码模块854实现的四(4)子帧模型通用唯一编码操作804、由两(2)子帧模型编码模块855实现的两(2)子帧模型编码操作805、和由LP滤波相干性分析器856实现的LP滤波相干性分析操作806。

在由声道混合器351已执行了时域下混合301之后，在嵌入模型的情况下，(a)使用诸如传统EVS编码器或任何其他合适的传统声音编码器之类的传统编码器作为主声道编码器352，来编码主声道Y(主声道编码操作302)(应当记住，如在前面的描述中所提及的，能使用任何适当类型的编码器作为主声道编码器352)。在集成结构的情况下，专用话音编解码器被用作主声道编码器252。专用话音编码器252可以是基于可变比特率(VBR)的编码器，例如传统EVS编码器的修改版本，其已经被修改为具有更大的比特率可伸缩性，允许在每帧级别上的可变比特率的处置(同样应该记住的是，如在前面的描述中所提及的，能使用任何合适类型的编码器作为主声道编码器252)。这允许用于编码辅声道X的最小比特量在每一帧中变化，并且适应要编码的声音信号的特性。最后，辅声道X的签名将尽可能均匀。

辅声道X的编码(即较低能量/与单声道输入的相关性)被优化以使用最小比特率，特别是但不排他用于如同话音的内容。为此目的，辅声道编码能利用已在主声道Y中编码的参数，诸如LP滤波系数(LPC)和/或音高滞后807。具体地，如稍后所述地，判断在主声道编码期间计算的参数是否充分接近在辅声道编码期间计算的对应参数，以在辅声道编码期间重新使用。

首先，使用低复杂度预处理器851将低复杂度预处理操作801应用于辅声道X，其中响应于辅声道X计算LP滤波器、语音活动检测(VAD)和开环音高。后面的计算可以例如通过在EVS传统编码器中执行并在参考文献[1]的条款5.1.9、5.1.12和5.1.10中分别描述的那些来实现，如上所述，全部内容通过引用在此并入。如前面描述中提及的，由于可以使用任何合适类型的编码器作为主声道编码器252/352，所以上述计算可以通过在这样的主声道编码器中执行的那些来实现。

然后，信号分类器852分析辅声道X信号的特性，以使用与同一参考文献[1]的条款5.1.13的EVS信号分类函数的技术类似的技术，将辅声道X分类为无声、通用或不活动的。这些操作对于本领域的普通技术人员是已知的，并且为了简单起见能从标准3GPP TS26.445v.12.0.0中提取，但是也可以使用替代实现。

a.重新使用主声道LP滤波系数

比特率消耗的重要部分在于LP滤波系数(LPC)的量化。按照低比特率，LP滤波系数的完整量化能占据比特预算的近25％。鉴于辅声道X的频率内容通常与主声道Y的频率内容接近，但是具有最低的能级，因此有必要检验是否可能重用主声道Y的LP滤波系数。为了这样做，如图8所示，已开发了由LP滤波相干性分析器856实现的LP滤波相干性分析操作806，其中计算并比较几个参数，以验证是否重新使用主声道Y的LP滤波系数(LPC)807的可能性。

图9是图示了图8的立体声声音编码方法和系统的LP滤波相干性分析操作806和对应LP滤波相干性分析器856的框图.

如图9所示，图8的立体声声音编码方法和系统的LP滤波相干性分析操作806和对应的LP滤波相干性分析器856包括由LP滤波分析器953实现的主声道LP(线性预测)滤波分析子操作903、由加权滤波器954实现的加权子操作904、由LP滤波分析器962实现的辅声道LP滤波分析子操作912、由加权滤波器951实现的加权子操作901、由欧几里德距离分析器952实现的欧几里德距离分析子操作902、由残差滤波器963实现的残差滤波子操作913、由残差能量的计算器964实现的残差能量计算子操作914、由减法器965实现的减法子操作915、由能量的计算器960实现的声音(诸如话音和/或音频)能量计算子操作910、由辅声道残差滤波器956实现的辅声道残差滤波操作906、由残差能量的计算器957实现的残差能量计算子操作907、由减法器958实现的减法子操作908、由增益比计算器实现的增益比计算子操作911、由比较器966实现的比较子操作916、由比较器967实现的比较子操作917、由判断模块968实现的辅声道LP滤波器使用判断子操作918、以及由判断模块969实现的主声道LP滤波器重用判断子操作919。

参考图9，LP滤波分析器953对主声道Y执行LP滤波分析，而LP滤波分析器962对辅声道X执行LP滤波分析。对每个主Y和辅X声道执行的LP滤波分析与参考文献[1]第5.1.9款中描述的分析类似。

然后，来自LP滤波分析器953的LP滤波系数A_y被供应到残差滤波器956，用于辅声道X的第一残差滤波r_Y。以相同的方式，来自LP滤波分析器962的最优LP滤波系数A_x被供应到残差滤波器963，用于辅声道X的第二残差滤波r_X。利用关系式(11)执行具有滤波系数A_Y或A_X的残差滤波：

其中，在该示例中，s_x表示辅声道，LP滤波器阶数是16，并且N是帧中样本的数目(帧尺寸)，其通常是与12.8kHz采样率的20ms帧持续时间对应的256。

计算器910使用关系式(14)计算辅声道X中的声音信号的能量E_x：

并且计算器957使用关系式(15)计算来自残差滤波器956的残差的能量E_ry：

减法器958从来自计算器960的声音能量减去来自计算器957的残差能量，以产生预测增益G_Y。

按照相同方式，计算器964使用关系式(16)计算来自残差滤波器963的残差的能量E_rx：

并且减法器965从来自计算器960的声音能量减去该残差能量，以产生预测增益G_X。

计算器961计算增益比率G_Y/G_X。比较器966比较该增益比率G_Y/G_X与阈值τ，该阈值在该示例实施例中是0.92。如果该比率G_Y/G_X小于阈值τ，则将比较的结果传送到判断模块968，判断模块968强制辅声道LP滤波系数的使用，用于编码辅声道X。

欧几里德距离分析器952执行LP滤波器相似性度量，诸如由LP滤波分析器953响应于主声道Y计算的线谱对lsp_Y、和由LP滤波分析器962响应于辅声道X计算的线谱对lsp_X之间的欧几里德距离。如本领域普通技术人员所知，线谱对lsp_Y和lsp_X表示量化域中的LP滤波系数。分析器952使用关系式(17)来确定欧几里德距离dist：

其中M表示滤波器阶数，并且lsp_Y和lsp_X分别表示对于主Y和辅X声道计算的线谱对。

在分析器952中计算欧几里德距离之前，可能通过相应加权因子来加权两组线谱对lsp_Y和lsp_X，使得对谱的某些部分投入或多或少的重点。也能使用其他LP滤波器表示来计算LP滤波器相似性度量。

一旦知道欧几里德距离dist，就在比较器967中将其与阈值σ进行比较。在示例实施例中，阈值σ具有0.08的值。当比较器966确定比率G_Y/G_X等于或大于阈值τ、并且比较器967确定欧几里德距离dist等于或大于阈值σ时，将比较结果传送到判断模块968，判断模块968强制使用辅声道LP滤波系数用于编码辅声道X。当比较器966确定比率G_Y/G_X等于或大于阈值τ、并且比较器967确定欧几里德距离dist小于阈值σ时，将这些比较的结果传送到判断模块969，判断模块969强制主声道LP滤波系数的重新使用，用于编码辅声道X。在后一种情况下，主声道LP滤波系数被重新使用作为辅声道编码的一部分。

在其中信号足够易于编码、也存在可用于编码LP滤波系数的静止比特率的特定情况下，例如在无声编码模式的情况下，能进行一些额外的测试，以限制主声道LP滤波系数的重用用于编码辅声道X。当利用辅声道LP滤波系数已经获得非常低的残差增益时，或者当辅声道X具有非常低的能级时，也可能强制重用主声道LP滤波系数。最后，能强制LP滤波系数的重用的变量τ、σ、残差增益水平或非常低的能级全部能根据可用的比特预算和/或根据内容类型来调节。例如，如果辅声道的内容被看作不活动的，则即使能量高，也可以判断重用主声道LP滤波系数。

b.辅声道的低比特率编码

由于主Y和辅X声道可以是右R和左L输入声道两者的混合，所以这暗示着即使辅声道X的能量内容低于主声道Y的能量内容，一旦执行声道的上混合，就可以感知编码伪影。为了限制这种可能的伪影，辅声道X的编码签名尽可能保持恒定，以限制任何意外的能量变化。如图7所示，辅声道X的内容具有与主声道Y的内容类似的特性，并且为此原因，已经开发了如同非常低比特率话音的编码模型。

返回参考图8，LP滤波相干性分析器856向判断模块853发送来自判断模块969的重新使用主声道LP滤波系数的判断、或来自判断模块968的使用辅声道LP滤波系数的判断。判断模块803然后判断当重新使用主声道LP滤波系数时、不量化辅声道LP滤波系数，并且当判断是使用辅声道LP滤波系数时、量化辅声道LP滤波系数。在后一种情况下，量化的辅声道LP滤波系数被发送到多路复用器254/354用于包含在多路复用的比特流207/307中。

在四(4)子帧模型通用唯一编码操作804和对应的四(4)子帧模型通用唯一编码模块854中，为了保持比特率尽可能低，仅当能重新使用来自主声道Y的LP滤波系数时、当信号分类器852将辅声道X分类为通用时、以及当输入右R和左L声道的能量靠近中心时(这意味着右R和左L声道两者的能量彼此接近)，使用参考文献[1]的第5.2.3.1款中描述的ACELP搜索。然后使用在四(4)子帧模型通用唯一编码模块854中的ACELP搜索期间得到的编码参数，以构造辅声道比特流206/306，并将其发送到多路复用器254/354用于包含在多路复用方比特流207/307中。

否则，在两(2)子帧模型编码操作805和对应的两(2)子帧模型编码模块855中，当不能重新使用来自主声道Y的LP滤波系数时，使用半带(halp-band)模型以编码具有通用内容的辅声道X。对于不活动和无声内容，仅谱形状被编码。

在编码模块855中，不活动内容编码包括(a)频域谱带增益编码加噪声填充和(b)在需要时编码辅声道LP滤波系数，分别在参考文献[1]的(a)第5.2.3.5.7和5.2.3.5.11款和(b)第5.2.2.1款中描述。不活动内容能以低至1.5kb/s的比特率进行编码。

在编码模块855中，辅声道X无声编码类似于辅声道X不活动编码，除了无声编码使用额外数量的比特，来量化对于无声辅声道编码的辅声道LP滤波系数。

半带通用编码模型与参考文献[1]的第5.2.3.1款中描述的ACELP类似地构造，但是其仅与两个(2)子帧逐帧一起使用。由此，为了这样做，参考文献[1]的第5.2.3.1.1款中描述的残差、参考文献[1]的第5.2.3.1.4款中描述的自适应码本的存储器、和输入辅声道通过因子2被首先下采样。使用参考文献[1]的第5.4.4.2款中描述的技术，LP滤波系数也被修改以表示下采样域，代替12.8kHz采样频率。

在ACELP搜索之后，在激励的频域中执行带宽扩展。带宽扩展首先将较低谱带能量复制到较高带中。为了复制谱带能量，前9个(9)谱带的能量G_bd(i)如参考文献[1]的第5.2.3.5.7款描述的那样得到，并且后面的带如关系式(18)所示被填充：

G_bd(i)＝G_bd(16-i-1),其中i＝8,…,15. (18)

然后，使用关系式(19)使用较低波段频率内容来占据(populated)如参考文献[1]的第5.2.3.5.9款中描述的频域中表示的激励向量的高频内容f_d(k)：

f_d(k)＝f_d(k-P_b),其中k＝128,…,255, (19)

其中音高偏移P_b基于如参考文献[1]的第5.2.3.1.4.1款中描述的音高信息的倍数，并如关系式(20)中所示被转换为频率盒(bins)的偏移：

其中表示每个子帧的解码音高信息的平均值，F_s是内部采样频率，在该示例实施例中是12.8kHz，并且F_r是频率分辨率。

然后使用在两个(2)子帧模型编码模块855中执行的低速率不活动编码、低速率无声编码或半带通用编码期间得到的编码参数，来构造向多路复用器254/354发送的辅声道比特流206/306，以包括在多路复用的比特流207/307中。

c.辅声道低比特率编码的替换实现

辅声道X的编码可以按照不同的方式实现，具有相同的目标，即，使用最少的比特数，同时实现尽可能好的质量，并同时保持恒定的签名。与LP滤波系数和音高信息的潜在重新使用独立地，辅声道X的编码可部分由可用比特预算驱动。而且，两个(2)子帧模型编码(操作805)可以是半带或全带。在辅声道低比特率编码的这种替代实现中，能重新使用主声道的LP滤波系数和/或音高信息，并且能基于用于编码辅声道X可用的比特预算，来选择两个(2)子帧模型编码。此外，已经通过将子帧长度加倍而不是对其输入/输出参数进行下采样/上采样，而创建了下面呈现的2子帧模型编码。

图15是并发图示了替换立体声声音编码方法和替换立体声声音编码系统的框图。图15的立体声声音编码方法和系统包括图8的方法和系统的几个操作和模块，使用相同的附图标记标识，并且为了简明起见，这里不重复其描述。另外，图15的立体声声音编码方法包括在操作202/302在其编码之前应用于主声道Y的预处理操作1501、音高相干性分析操作1502、无声/不活动判断操作1504、无声/不活动编码判断操作1505以及2/4子帧模型判断操作1506。

子操作1501、1502、1503、1504、1505和1506分别由类似于低复杂度预处理器851的预处理器1551、音高相干性分析器1552、比特分配估计器1553、无声/不活动判断模块1554、无声/不活动编码判断模块1555和2/4子帧模型判断模块1556执行。

为了执行音高相干性分析操作1502，预处理器851和1551向音高相干性分析器1552提供主Y和辅X声道两者的开环音高，分别为OLpitch_pri和OLpitch_sec。在图16中更详细地示出了图15的音高相干性分析器1552，图16是并发图示了音高相干性分析操作1502的子操作和音高相干性分析器1552的模块的框图。

音高相干性分析操作1502对主声道Y和辅声道X之间的开环音高的相似性执行评估，以判断在编码辅声道X时在什么情况下能重新使用主开环音高。为此，音高相干性分析操作1502包括主声道开环音高加法器1651执行的主声道开环音高加法子操作1601和辅声道开环音高加法器1652执行的辅声道开环音高加法子操作1602。使用减法器1653从来自加法器1651的和中减去来自加法器1652的和(子操作1603)。来自子操作1603的减法结果提供立体声音高相干性。作为非限制性示例，子操作1601和1602中的总和基于每一声道Y和X可用的三(3)个先前的连续开环音高。能例如如参考文献[1]的第5.1.10款中所定义的那样计算开环音高。使用关系式(21)在子操作1601、1602和1603中计算立体声音高相干性S_pc：

其中p_p|s(i)表示主Y和辅X声道的开环音高，并且i表示开环音高的位置。

当立体声音高相干性低于预定阈值Δ时，可以取决于可用比特预算而允许重新使用来自主声道Y的音高信息以编码辅声道X。此外，取决于可用比特预算，可能限制用于具有主Y和辅X声道两者的有声特性的信号的音高信息的重新使用。

为此，音高相干性分析操作1502包括由判断模块1654执行的判断子操作1604，判断模块1654考虑可用比特预算和声音信号的特性(例如由主声道和辅声道编码模式指示)。当判断模块1654检测到可用比特预算是足够的、或者主Y和辅X声道两者的声音信号不具有有声特性时，判断是编码与辅声道X相关的音高信息(1605)。

当判断模块1654为了编码辅声道X的音高信息的目的而检测到可用比特预算低时、或者当用于主Y和辅X声道两者的声音信号具有有声特性时，判断模块比较立体声音高相干性S_pc与阈值Δ。当比特预算低时，与其中比特预算更重要(足以编码辅声道X的音高信息)的情况相比，阈值Δ被设置为更大的值。当立体声音高相干性S_pc的绝对值小于或等于阈值Δ时，模块1654判断重新使用来自主声道Y的音高信息来编码辅声道X(1607)。当立体声音高相干性S_pc的值高于阈值Δ时，模块1654判断编码辅声道X的音高信息(1605)。

确保声道具有有声特性增加了平滑音高演变的可能性，从而通过重新使用主声道的音高来降低添加伪影的风险。作为非限制性示例，当立体声比特预算低于14kb/s并且立体声音高相关性S_pc低于或等于6(Δ＝6)时，在编码辅声道X时能重新使用主音高信息。根据另一个非限制性示例，如果立体声比特预算高于14kb/s并且低于26kb/s，则主Y和辅X声道两者被看作有声的，并且立体声音高相干性S_pc与较低的阈值Δ＝3相比，这导致22kb/s的比特率的主声道Y的音高信息的较小重新使用率。

返回参考图15，向比特分配估计器1553供应来自声道混合器251/351的因子β、来自LP滤波相干性分析器856的重新使用主声道LP滤波系数或者使用和编码辅声道LP滤波系数的判断、以及由音高相干性分析器1552确定的音高信息。取决于主声道和辅声道编码要求，比特分配估计器1553向主声道编码器252/352提供用于编码主声道Y的比特预算，并向判断模块1556提供用于编码辅声道X的比特预算。在一个可能的实现中，对于非不活动的(INACTIVE)所有内容，总比特率的一部分被分配给辅声道。然后，辅声道比特率将增加一个量，该量与前面描述的能量归一化(重新缩放)因子ε有关：

B_x＝B_M+(0.25·ε-0.125)·(B_t-2·B_M) (21a)

其中B_x表示分配给辅声道X的比特率，B_t表示可用的总立体声比特率，B_M表示分配给辅声道的最小比特率，并且通常大约为总立体声比特率的20％。最后，ε表示上述能量归一化因子。因此，分配给主声道的比特率对应于总立体声比特率和辅声道立体声比特率之间的差值。在替换实现中，辅声道比特率分配可以被描述为：

其中B_x再次表示分配给辅声道X的比特率，B_t表示可用的总立体声比特率并且B_M表示分配给辅声道的最小比特率。最后，ε_idx表示上述能量归一化因子的传送的索引。因此，分配给主声道的比特率对应于总立体声比特率和辅声道比特率之间的差值。在所有情况下，对于不活动内容，辅声道比特率被设置为对于给定一般接近2kb/s的比特率的辅声道的谱形状进行编码所需的最小比特率。

其间，信号分类器852将辅声道X的信号分类提供给判断模块1554。如果判断模块1554判断声音信号是不活动的或无声的，则无声/不活动编码模块1555向多路复用器254/354提供辅声道X的谱形状。作为选择，判断模块1554向判断模块1556通知何时声音信号既不是不活动的也不是无声的。对于这样的声音信号，使用用于编码辅声道X的比特预算，判断模块1556确定是否存在足够数量的可用比特，用于使用四(4)子帧模型通用唯一编码模块854来编码辅声道X；否则，判断模块1556选择使用两(2)子帧模型编码模块855来编码辅声道X。为了选择四子帧模型通用唯一编码模块，一旦所有其他部分被量化或重新使用，可用于辅声道的比特预算必须足够高，以至少将40比特分配到代数码本，包括LP系数和音高信息和增益。

从以上描述将理解的是，在四(4)子帧模型通用唯一编码操作804和对应的四(4)子帧模型通用唯一编码模块854中，为了尽可能低地保持比特率，使用参考文献[1]第5.2.3.1款中描述的ACELP搜索。在四(4)子帧模型通用唯一编码中，来自主声道的音高信息能被重新使用或不重新使用。然后使用在四(4)子帧模型通用唯一编码模块854中的ACELP搜索期间得到的编码参数，以构造辅声道比特流206/306，并且所述编码参数被发送到多路复用器254/354以包含在多路复用的比特流207/307中。

在替代的两(2)子帧模型编码操作805和对应的替代的两(2)子帧模型编码模块855中，与参考文献[1]的条款5.2.3.1中描述的ACELP类似地构造通用编码模型，但是其仅与两个(2)子帧逐帧一起使用。因此，为了这样做，子帧的长度从64个样本增加到128个样本，仍然保持内部采样率为12.8kHz。如果音高相干性分析器1552已经确定重新使用来自主声道Y的音高信息用于编码辅声道X，则计算主声道Y的前两个子帧的音高的平均值，并将其用作辅声道X的前半帧的音高估计值。类似地，计算主声道Y的后两个子帧的音高的平均值并用于辅声道X的后半帧。当从主声道Y重新使用时，对LP滤波系数进行插值，并且通过用第二和第四插值因子替代第一和第三插值因子，修改如参考文献[1]的条款5.2.2.1中所描述的LP滤波系数的插值，以适应两(2)子帧方案。

在图15的实施例中，通过可用于编码辅声道X的比特预算，来驱动在四(4)子帧和两(2)子帧编码方案之间判断的处理。如前所述，辅声道X的比特预算从不同的元素导出，例如可用的总比特预算、因子β或能量归一化因子ε、是否存在时间延迟校正(TDC)模块、是否重新使用LP滤波系数和/或来自主声道Y的音高信息的可能性。

当从主声道Y重新使用LP滤波系数和音高信息两者时、由辅声道X的两(2)子帧编码模型所使用的绝对最小比特率对于通用信号来说大约为2kb/s信号，而用于四(4)子帧编码方案的信号是大约3.6kb/s。对于类似ACELP的编码器，使用二(2)或四(4)子帧编码模型，质量的大部分来自能向代数码本(ACB)搜索分配的比特数，如参考文献[1]的条款5.2.3.1.5中定义的那样。

然后，为了使质量最大化，想法是比较可用于四(4)子帧代数码本(ACB)搜索和两(2)子帧代数码本(ACB)搜索的比特预算，然后考虑所有将编码的内容。例如，对于特定帧，如果存在可用于编码辅声道X的4kb/s(80比特/20ms帧)，并且能在需要传送音高信息的同时重新使用LP滤波系数。然后从80比特中去除用于编码用于两(2)子帧和四(4)子帧两者的辅声道信令、辅声道音高信息、增益和代数码本的最小数量的比特，以获得可用于编码代数码本的比特预算。例如，如果至少40比特可用于编码四(4)子帧代数码本，则选择四(4)子帧编码模型，否则使用两(2)子帧方案。

3)近似来自部分比特流的单声道信号

如在前面的描述中所描述的，时域下混合是单声道友好的，这意味着在其中利用传统编解码器编码主声道Y(应该记住，如在前面的描述中提及的，能使用任何合适类型的编码器作为主声道编码器252/352)并且将立体声比特附加到主声道比特流的嵌入式结构的情况下，能剥离立体声比特，并且传统解码器能创建主观上接近假设单声道合成的合成。为此，在对主声道Y进行编码之前，在编码器侧需要简单的能量归一化。通过将主声道Y的能量重新缩放到足以接近声音的单声道信号版本的能量的值，利用传统解码器对主声道Y的解码能类似于通过传统解码器进行的声音的单声道信号版本的解码。能量归一化的函数直接链接到使用关系式(7)计算的线性化的长期相关差G′_LR(t)，并使用关系式(22)计算：

ε＝-0.485·G′_LR(t)²+0.9765·G′_LR(t)+0.5. (22)

图5中示出了归一化的级别。实际上，代替使用关系式(22)，使用查找表将归一化值ε与因子β的每个可能值(在该示例实施例中为31个值)相关。即使在使用集成模型编码立体声声音信号(例如话音和/或音频)时不需要这个额外步骤，当仅解码单声道信号而不解码立体声比特时，这可能是有帮助的。

4)立体声解码和上混合

图10是并发图示了立体声声音解码方法和立体声声音解码系统的框图。图11是图示了图10的立体声声音解码方法和立体声声音解码系统的附加特征的框图。

图10和11的立体声声音解码方法包括由解多路复用器1057实现的解多路复用操作1007、由主声道解码器1054实现的主声道解码操作1004、由辅声道解码器1055实现的辅声道解码操作1005、和由时域通道上混合器1056实现的时域上混合操作1006。辅声道解码操作1005包括如图11所示的由判断模块1151执行的判断操作1101、由四(4)子帧通用解码器1152实现的四(4)子帧通用解码操作1102、和由两(2)子帧通用/无声/不活动解码器1153实现的两(2)子帧通用/无声/不活动解码操作1103。

在立体声音频解码系统中，从编码器接收比特流1001。解多路复用器1057接收比特流1001并从中提取供应到主声道解码器1054、辅声道解码器1055和声道上混合器1056的主声道Y的编码参数(比特流1002)、辅声道X的编码参数(比特流1003)、以及因子β。如前所述，因子β被用作主声道编码器252/352和辅声道编码器253/353两者确定比特率分配的指示符，由此主声道解码器1054和辅声道解码器1055两者正重新使用因子β来适当地解码比特流。

主声道编码参数对应于接收的比特率处的ACELP编码模型，并且可以与传统或修改的EVS编码器相关(这里应该记住，如在前面的描述中所提及的，任何合适类型的编码器可以用作主声道编码器252)。向主声道解码器1054供应比特流1002，以使用类似于参考文献[1]的方法来解码主声道编码参数(编解码器模式₁、β、LPC₁、音高₁、固定码本索引₁和增益₁，如图11所示)，以产生解码的主声道Y’。

辅声道解码器1055使用的辅声道编码参数对应于编码第二声道X所使用的模型，并且可包括：

(a)具有来自主声道Y的LP滤波系数(LPC₁)和/或其他编码参数(例如，音高滞后音高₁)的重新使用的通用编码模型。辅声道解码器1055的四(4)子帧通用解码器1152(图11)被供应来自解码器1054的主声道Y的LP滤波系数(LPC₁)和/或其它编码参数(例如，音高滞后音高₁)和/或被供应比特流1003(图11中所示的β、音高₂、固定码本索引₂和增益₂)，并且使用与编码模块854(图8)的方法相反的方法来产生解码的辅声道X’。

(b)其他编码模型可以或者可以不重新使用来自主声道Y的LP滤波系数(LPC₁)和/或其他编码参数(例如，音高滞后音高₁)，包括半带通用编码模型、低速率无声编码模型和低速率不活动编码模型。作为示例，不活动编码模型可以重新使用主声道LP滤波系数LPC₁。向辅声道解码器1055的两(2)子帧通用/无声/不活动解码器1153(图11)供应来自主声道Y的LP滤波系数(LPC₁)和/或其他编码参数(例如，音高滞后音高₁)和/或来自比特流1003的辅声道编码参数(图11中所示的编码模式₂、β、LPC₂、音高₂、固定码本索引₂和增益₂)，并使用与编码模块855(图8)的方法相反的方法以产生解码的辅声道X’。

接收到的与辅声道X对应的编码参数(比特流1003)包含与正在使用的编码模型相关的信息(编解码器模式₂)。判断模块1151使用该信息(编解码器模式₂)以确定并向四(4)子帧通用解码器1152和两(2)子帧通用/无声/不活动解码器1153指示哪个编码模型将被使用。

在嵌入结构的情况下，因子β用来恢复在解码器侧的查找表(未示出)中存储的能量缩放索引，并且用来在执行时域上混合操作1006之前重新缩放主声道Y’。最后将因子β供应到声道上混合器1056，并用于对解码后的主Y’和辅X’声道进行上混合。使用关系式(23)和(24)，执行时域上混合操作1006作为下混合关系式(9)和(10)的逆，以获得解码的右R’和左L’声道：

其中n＝0、……、N-1是帧中的样本的索引，并且t是帧索引。

5)时域和频域编码的集成

对于其中使用频域编码模式的本技术的应用，还构想了在频域中执行时间下混合，以节省一些复杂度或简化数据流。在这种情况下，对所有谱系数应用相同的混合因子，以便保持时域下混合的优点。可以观察到，这与每个频带应用谱系数有所不同，如大多数频域下混合应用的情况那样。下混合器456可以适于计算关系式(25.1)和(25.2)：

F_Y(k)＝F_R(k)·(1-β(t))+F_L(k)·β(t) (25.1)

F_X(k)＝F_L(k)·(1-β(t))-F_R(k)·β(t), (25.2)

其中F_R(k)表示右声道R的频率系数k，并且类似地，F_L(k)表示左声道L的频率系数k。然后，通过应用逆频率变换来计算主Y和辅X声道，以获得下混合信号的时间表示。

图17和18示出了能够在主Y和辅X声道的时域和频域编码之间切换的、使用频域下混合的时域立体声编码方法和系统的可能实现。

图17示出了这种方法和系统的第一变型，图17是并发图示了具有时域和频域中的操作能力的、使用时域下混合的立体声编码方法和系统的框图。

在图17中，立体声编码方法和系统包括参照前面附图描述的、并且由相同的附图标记标识的许多先前描述的操作和模块。判断模块1751(判断操作1701)确定来自时间延迟校正器1750的左L’和右R’声道是应该在时域还是在频域中被编码。如果选择时域编码，则图17的立体声编码方法和系统基本上按照与之前附图的立体声编码方法和系统相同的方式操作，例如但不限于如图15的实施例中那样。

如果判断模块1751选择频率编码，则时间频率转换器1752(时间到频率转换操作1702)将左L’和右R’声道转换到频域。频域下混合器1753(频域下混合操作1703)输出主Y和辅X频域声道。通过频率-时间转换器1754(频率-时间转换操作1704)将频域主声道转换回时域，并将得到的时域主声道Y应用于主声道编码器252/352。通过传统参数和/或残差编码器1755(参数和/或残差编码操作1705)来处理来自频域下混合器1753的频域辅声道X。

图18是并发图示了具有时域和频域中的操作能力的、使用频域下混合的其他立体声编码方法和系统的框图。在图18中，该立体声编码方法和系统与图17的立体声编码方法和系统类似，并且将仅描述新的操作和模块。

时域分析器1851(时域分析操作1801)代替先前描述的时域声道混合器251/351(时域下混合操作201/301)。时域分析器1851包括图4的大部分模块，但没有时域下混合器456。由此，其作用大部分在于提供因子β的计算。该因子β被供应到预处理器851和频域到时域转换器1852和1853(频域到时域转换操作1802和1803)，频域到时域转换操作1802和1803分别将从频域下混合器1753接收的频域辅X和主Y声道转换到时域，用于时域编码。因此，转换器1852的输出是提供给预处理器851的时域辅声道X，而转换器1852的输出是时域主声道Y，其被提供给预处理器1551和编码器252/352两者。

6)示例硬件配置

图12是形成上面描述的立体声声音编码系统和立体声声音解码系统的每一个的硬件组件的示例配置的简化框图。

立体声声音编码系统和立体声声音解码系统中的每一个可以实现为移动终端的一部分、便携式媒体播放器的一部分或者任何类似的设备。立体声声音编码系统和立体声声音解码系统中的每一个(在图12中标识为1200)包括输入1202、输出1204、处理器1206和存储器1208。

输入1202被配置为在立体声声音编码系统的情况下以数字或模拟形式接收输入立体声声音信号的左L和右R声道，或者在立体声声音解码系统的情况下接收比特流1001。输出1204被配置为在立体声声音编码系统的情况下供应多路复用的比特流207/307，或者在立体声声音解码系统的情况下供应解码的左声道L’和右声道R’。输入1202和输出1204可以在公共模块中实现，例如串行输入/输出设备。

处理器1206可操作地连接到输入1202、输出1204和存储器1208。处理器1206被实现为用于执行支持如图2、3、4、8、9、13、14、15、16、17和18所示的立体声声音编码系统以及如图10和11所示的立体声声音解码系统的每一系统的各个模块的功能的、代码指令的一个或多个处理器。

存储器1208可以包括用于存储可由处理器1206执行的代码指令的非瞬时存储器，具体地，包括非瞬时指令的处理器可读存储器，所述非瞬时指令当运行时，使得处理器实现本公开中描述的立体声声音编码方法和系统以及立体声声音解码方法和系统的操作和模块。存储器1208还可以包括随机存取存储器或(多个)缓冲器，以存储来自处理器1206执行的各种功能的中间处理数据。

本领域的普通技术人员将认识到立体声声音编码方法和系统以及立体声声音解码方法和系统的描述仅仅是说明性的，并不意欲以任何方式进行限制。受益于本公开的本领域普通技术人员将容易想到其他实施例。此外，可以定制所公开的立体声声音编码方法和系统以及立体声声音解码方法和系统，以针对现有的编码和解码立体声声音的需求和问题提供有价值的解决方案。

为了清楚起见，并未示出和描述立体声声音编码方法和系统以及立体声声音解码方法和系统的实现的所有常规特征。当然，将理解的是，在立体声声音编码方法和系统以及立体声声音解码方法和系统的任何这种实际实现的开发中，可能需要做出许多实现特定的判断，以实现开发者的特定目标，例如遵守与应用、系统、网络和业务相关的约束条件，并且这些特定目标将随着实现的不同以及开发人员的不同而变化。此外，将认识到，开发工作可能是复杂和耗时的，但是对于受益于本公开的声音处理领域的普通技术人员而言仍然是工程的常规任务。

根据本公开，可以使用各种类型的操作系统、计算平台、网络设备、计算机程序和/或通用目的机器，来实现这里描述的模块、处理操作和/或数据结构。另外，本领域的普通技术人员将认识到，也可以使用诸如硬连线设备、现场可编程门阵列(FPGA)、特定用途集成电路(ASIC)等的具有较少通用目的性质的设备。在包括一系列操作和子操作的方法由处理器、计算机或机器实现、并且这些操作和子操作可以作为处理器、计算机或机器可读取的一系列非瞬时代码指令存储的情况下，它们可以存储在有形和/或非瞬时介质上。

如本文所述的立体声声音编码方法和系统以及立体声声音解码方法和解码器的模块可以包括适于本文描述的目的的软件、固件、硬件或软件、固件或硬件的任何(多种)组合。

在这里描述的立体声声音编码方法和立体声声音解码方法中，可以按照各种顺序执行各种操作和子操作，并且一些操作和子操作可以是可选的。

尽管上文已经通过其非限制性的说明性实施例描述了本公开，但是这些实施例可以在所附权利要求的范围内随意修改，而不脱离本公开的精神和本质。

参考文献

以下参考文献在本申请中引用，并且其全部内容通过引用合并在这里。

[1]3GPP TS 26.445,v.12.0.0,“Codec for Enhanced Voice Services(EVS)；Detailed Algorithmic Description”,Sep 2014.

[2]M.Neuendorf,M.Multrus,N.Rettelbach,G.Fuchs,J.Robillard,J.Lecompte,S.Wilde,S.Bayer,S.Disch,C.Helmrich,R.Lefevbre,P.Gournay,et al.,“The ISO/MPEGUnified Speech and Audio Coding Standard-Consistent High Quality for AllContent Types and at All Bit Rates”,J.Audio Eng.Soc.,vol.61,no.12,pp.956-977,Dec.2013.

[3]B.Bessette,R.Salami,R.Lefebvre,M.Jelinek,J.Rotola-Pukkila,J.Vainio,H.Mikkola,and K."The Adaptive Multi-Rate Wideband SpeechCodec(AMR-WB),"Special Issue of IEEE Trans.Speech and Audio Proc.,Vol.10,pp.620-636,November 2002.

[4]R.G.van der Waal&R.N.J.Veldhuis,”Subband coding of stereophonicdigital audio signals”,Proc.IEEE ICASSP,Vol.5,pp.3601-3604,April 1991

[5]Dai Yang,Hongmei Ai,Chris Kyriakakis and C.-C.Jay Kuo,“High-Fidelity Multichannel Audio Coding With Karhunen-Loève Transform”,IEEETrans.Speech and Audio Proc.,Vol.11,No.4,pp.365-379,July 2003.

[6]J.Breebaart,S.van de Par,A.Kohlrausch and E.Schuijers,“ParametricCoding of Stereo Audio”,EURASIP Journal on Applied Signal Processing,Issue 9,pp.1305-1322,2005

[7]3GPP TS 26.290 V9.0.0,“Extended Adaptive Multi-Rate–Wideband(AMR-WB+)codec；Transcoding functions(Release 9)”,September 2009.

[8]Jonathan A.Gibbs,“Apparatus and method for encoding a multi-channel audio signal”,US 8577045 B2

Claims

1.一种用于解码立体声声音信号的左和右声道的立体声声音解码方法，包括：

接收包括主声道的编码参数、辅声道的编码参数、和因子β的编码参数，其中该主声道编码参数包括该主声道的LP滤波系数；

响应于该主声道编码参数解码该主声道；

使用多个编码模型之一来解码该辅声道，其中所述编码模型的至少一个使用所述主声道LP滤波系数来解码该辅声道；和

使用因子β对所解码的主和辅声道进行时域上混合，以产生所解码的立体声声音信号的左和右声道，其中该因子β确定在所述左和右声道的产生时、所述主和辅声道的相应贡献。

2.根据权利要求1的立体声声音解码方法，其中所述编码模型中的至少一个使用除了LP滤波系数之外的主声道编码参数，来解码该辅声道。

3.根据权利要求1或2的立体声声音解码方法，其中所述编码模型包括通用编码模型、无声编码模型和不活动编码模型。

4.根据权利要求1到3的任一个的立体声声音解码方法，其中所述辅声道编码参数包括标识在解码辅声道时要使用的编码模型之一的信息。

5.根据权利要求1到4的任一个的立体声声音解码方法，包括使用因子β来恢复能量缩放因子，以在对所解码的主和辅声道执行时域上混合之前，重新缩放所解码的主声道。

6.根据权利要求1到5的任一个的立体声声音解码方法，其中所解码的主和辅声道的时域上混合使用以下关系式以获得解码的左L’(n)和右R’(n)声道：

其中因子β(t)表示因子β，Y’(n)是解码的主声道，X’(n)是解码的辅声道，n＝0、……、N-1是帧中的样本索引，并且t是帧索引。

7.一种用于解码立体声声音信号的左和右声道的立体声声音解码系统，包括：

用于接收包括主声道的编码参数、辅声道的编码参数、和因子β的编码参数的部件，其中该主声道编码参数包括该主声道的LP滤波系数；

响应于该主声道编码参数的该主声道的解码器；

使用多个编码模型之一的该辅声道的解码器，其中所述编码模型的至少一个使用所述主声道LP滤波系数来解码该辅声道；和

使用因子β以产生所解码的立体声声音信号的左和右声道的所解码的主和辅声道的时域上混合器，其中该因子β确定在所述左和右声道的产生时、所述主和辅声道的相应贡献。

8.根据权利要求7的立体声声音解码系统，其中所述编码模型中的至少一个使用除了LP滤波系数之外的主声道编码参数来解码该辅声道。

9.根据权利要求7或8的立体声声音解码系统，其中所述辅声道解码器包括使用通用编码模型的第一解码器、以及使用通用编码模型、无声编码模型和不活动编码模型之一的第二解码器。

10.根据权利要求7到9的任一个的立体声声音解码系统，其中所述辅声道编码参数包括标识在解码辅声道时要使用的编码模型之一的信息，并且其中所述立体声声音信号解码系统包括判断模块，用于向所述第一和第二解码器指示在解码辅声道时要使用的编码模型。

11.根据权利要求7到10的任一个的立体声声音解码系统，包括查找表，用于使用因子β来恢复能量缩放因子，以在对所解码的主和辅声道执行时域上混合之前，重新缩放所解码的主声道。

12.根据权利要求7到11的任一个的立体声声音解码系统，其中所解码的主和辅声道的时域上混合器使用以下关系式以获得解码的左L’(n)和右R’(n)声道：

13.根据权利要求7到12的任一个的立体声声音解码系统，其中所述用于接收编码参数的部件包括解多路复用器，用于从编码器接收比特流，并从该比特流提取主声道编码参数、辅声道编码参数、和因子β。

14.一种用于解码立体声声音信号的左和右声道的立体声声音解码系统，包括：

至少一个处理器；和

存储器，耦接到该处理器，并且包括非瞬时指令，所述指令当运行时促使该处理器实现：

响应于该主声道编码参数的该主声道的解码器；

15.一种用于解码立体声声音信号的左和右声道的立体声声音解码系统，包括：

至少一个处理器；和

存储器，耦接到该处理器，并且包括非瞬时指令，所述指令当运行时促使该处理器：

接收包括主声道的编码参数、辅声道的编码参数、和因子β的编码参数的部件，其中该主声道编码参数包括该主声道的LP滤波系数；

响应于该主声道编码参数解码该主声道；

使用多个编码模型之一解码该辅声道，其中所述编码模型的至少一个使用所述主声道LP滤波系数来解码该辅声道；和

16.一种处理器可读存储器，包括非瞬时指令，所述指令当运行时，促使处理器实现权利要求1到6的任一个中阐述的方法的操作。