CN104170009A

CN104170009A - 感知音频编解码器中的谐波信号的相位相干性控制

Info

Publication number: CN104170009A
Application number: CN201380011094.6A
Authority: CN
Inventors: 萨沙·迪施; 于尔根·赫莱; 贝恩德·埃德勒; 福雷德里克·纳格尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-02-27
Filing date: 2013-02-26
Publication date: 2014-11-26
Anticipated expiration: 2033-02-26
Also published as: CN104170009B; US20140372131A1; KR20140130225A; TR201808452T4; AU2013225076A1; JP2015508911A; ES2673319T3; EP2820647B1; BR112014021054A2; IN2014KN01766A; CA2865651A1; BR112014021054B1; KR101680953B1; US10818304B2; RU2014138820A; CA2865651C; EP2820647A1; AU2013225076B2; MX2014010098A; RU2612584C2

Abstract

提供了一种用于解码编码的音频信号以获得相位调整的音频信号的解码器。该解码器包括解码单元(110)和相位调整单元(120)。解码单元(110)用于解码编码的音频信号以获得解码的音频信号。相位调整单元(120)用于调整解码的音频信号以获得相位调整的音频信号。相位调整单元(120)被配置为接收取决于编码的音频信号的垂直相位相干性的控制信息。此外，相位调整单元(120)用于基于控制信息调整解码的音频信号。

Description

感知音频编解码器中的谐波信号的相位相干性控制

技术领域

本发明涉及一种用于生成音频输出信号的装置和方法，具体地，涉及一种实现感知音频编解码器中的谐波信号的相位相干性控制的装置和方法。

背景技术

音频信号处理变得越来越重要。尤其是，对于利用有限容量的传输和存储信道向消费者提供音频和多媒体的各种类型的应用来说，感知音频编码已经激增为主流支持数字技术。现代感知音频编解码器被要求以越来越低的比特率传递满意的音频质量。反过来，一个必须忍受广大听众所最容忍的一些编码伪像(coding artifact，编码效应)。

这些伪像(artifacts，)之一是相位相干性在频率上的(“垂直”相位相干性)损失，参见[8]。对于许多平稳信号，在主观音频信号质量方面所产生的损害通常相当小。然而，在由被人类听觉系统作为单一复合物(singlecompound)所感知的许多频谱分量组成的谐波音调声音中，所产生的感知失真是令人讨厌的。

其中垂直相位相干性(VPC)的保留(preservation，保护)是重要的典型的信号是浊音(voiced speech)、铜管乐器或者拉弦乐器，例如‘乐器’通过它们身体的发声性质，产生泛音内容丰富的声音和谐波泛音之间的锁相。特别是在其中比特预算极其有限的非常低的比特率时，使用现有技术的编解码器基本上经常削弱频谱分量的VPC。然而，在之前提及的信号中，VPC是一个重要的感知听觉线索，并且信号的高VPC应当予以保留。

在下文中，将考虑根据现有技术的感知音频编码。在现有技术中，感知音频编码遵循若干共同的主题，包括：时域/频域处理的使用、冗余减小(熵编码)、以及通过感知效果的发音利用(pronounced exploitation)移除不相干(参见[1])。通常，输入信号由将时域信号转换成频谱表示(例如，时/频表示)的分析滤波器组来分析。转换成频谱系数允许根据它们的频率内容选择性地处理信号分量，例如，不同的乐器具有它们的单独的泛音结构。

同时，针对输入信号的感知特性来分析输入信号。例如，时间和频率相关的掩蔽阈值可以被计算。时间/频率相关掩蔽阈值可以以绝对能量值或者每个频带和编码时帧的掩蔽信号比率(MSR)的形式通过目标编码阈值被传递到量化单元。

由分析滤波器组传递的频谱系数被量化，以减少用于表示信号所需的数据速率。该步骤暗含信息的损失并且将编码失真(误差，噪声)引入了信号。为了减少该编码噪声的可听影响，根据用于每个频带和帧的目标编码阈值控制量化器步长。理想地，注入到每个频带的编码噪声低于编码(掩蔽)阈值，并且因此在主观音频中没有劣化是可感知的(不相干的移除)。根据心理声学要求的频率和时间上的量化噪声的这种控制导致复杂的噪声整形效果并且正是这种控制使得编码器成为感知音频编码器。

接着，现代音频编码器对量化频谱数据上执行熵编码，例如霍夫曼编码或者算术编码。熵编码是进一步节省比特率的无损编码步骤。

最后，所有编码的频谱数据和相关的附加参数，例如，边信息(sideinformation)，例如像每个频带的量化器设置，被一起打包成比特流，该比特流是旨在用于文件存储或者传输的最终编码表示。

现在，将考虑根据现有技术的带宽扩展。在基于滤波器组的感知音频编码中，所消耗的比特率的主要部分通常被消耗在量化频谱系数上。因此，在非常低的比特率中，没有足够的比特可以按实现感知未受损伤的再生所要求的精度来表示所有系数。因此，低比特率要求对通过感知音频编码所获得的音频带宽有效地设定了限制。

带宽扩展(参见[2])消除了这种长期的根本限制。带宽扩展的中心思想是，通过将缺失的高频内容以紧凑的参数形式传输和恢复的额外的高频处理器来补充带宽有限的感知编解码器。可以基于基带信号的单边带调制，例如参见[3]，或者基于变调(pitch shifting)技术的应用，(例如，[4]中的音码器)来生成高频内容。

特别对于低比特率，参数编码方案已经设计了通过紧凑的参数表示编码正弦分量(正弦)(例如，参见[9]、[10]、[11]及[12])。根据单独的编码器，剩余残差(remaining residual)进一步受到参数编码或者波形编码。

在下文中，将考虑根据现有技术的参数空间音频编码。如同音频信号的带宽扩展，空间音频编码(SAC)离开波形编码的域，而是专注于传递原始空间声像的感知满足副本。由人类听众感知的声音场景本质上通过听众的耳朵信号(所谓的耳间差异)之间的差确定，而不管场景是否由真实的音频源组成或者是否经由两个或更多投射幻声的扬声器来再生。不是离散地编码个别音频输入信道信号，基于SAC的系统将多信道音频信号的空间图像捕捉到紧凑的参数集，该参数集可被用于根据传输的缩混信号(downmix signal)合成高品质多信道(multichannel，多声道)表示(例如，参见[5]、[6]及[7])。

由于它的参数性质，空间音频编码未进行波形保持。因此，对于所有类型的音频信号来说其难以达到完全未受损伤的质量。虽然如此，空间音频编码在低和中比特率时是提供大量增益的非常有效方法。

诸如时间伸缩或者变调效果的数字音频效果通常通过应用如同步重叠相加(SOLA)的时域技术，或者通过应用频率域技术(例如通过采用音码器)来获得。此外，现有技术中已经提出在子带中应用SOLA处理的混合系统。音码器和混合系统通常经历称为相位错乱(phasiness)的伪像，可将该伪像归因于垂直相位相干性的损伤。一些出版物涉及通过保留重要的垂直相位相干性来改善时间拉伸算法的音质(例如，参见[14]和[15])。

使用现有技术的感知音频编解码器经常削弱音频信号的频谱成分的垂直相位相干性(VPC)，特别是在较低比特率情况下，这里应用参数编码技术。然而，在某些信号中，VPC是一个重要的感知线索。因此，这样的声音的感知质量变差。

现有技术的音频编码器通过疏忽将要被编码的信号的重要相位性质来折中音频信号的感知质量(例如，参见[1])。在声信号编码器中传输的频谱系数的粗量化已经改变解码信号的VPC。此外，特别是由于参数编码技术的应用，诸如带宽扩展(参见[2]、[3]以及[4])，参数多信道编码(例如，参见[5]、[6]以及[7])，或者正弦分量的参数编码(参见[9]、[10]、[11]以及[12])，频率上的相位相干性往往变差。

结果是浊音(dull sound)似乎来自遥远的距离，从而唤起听众很少参与[13]。很多信号分量类型存在，那里的垂直相位相干性是非常重要的。其中VPC是很重要的典型的信号是，例如，具有丰富的谐波泛音内容的音调(tone)，如浊音、铜管乐器或拉弦乐器。

发明内容

本发明的目的是提供一种用于音频信号处理的改进构思，并且具体，提供一种用于感知音频编解码器的谐波信号的相位相干性控制的改进构思。本发明的目的是通过根据权利要求1的解码器、通过根据权利要求8的编码器、通过根据权利要求14的装置、通过根据权利要求15的系统、通过根据权利要求16的用于解码的方法、通过根据权利要求17的用于编码的方法、通过根据权利要求18的用于处理音频信号的方法以及通过根据权利要求19的计算机程序来解决。

提供了一种用于解码编码的音频信号以获得相位调整的音频信号的解码器。解码器包括解码单元和相位调整单元。解码单元适用于解码编码的音频信号，以获得解码的音频信号。相位调整单元适用于调整解码的音频信号，以获得相位调整的音频信号。相位调整单元被配置为接收取决于编码的音频信号的垂直相位相干性的控制信息。此外，相位调整单元适用于基于控制信息调整解码的音频信号。

在实施方式中，相位调整单元可被配置为当控制信息指示相位调整被使能(activated)时，调整解码的音频信号。相位调整单元可被配置为当控制信息指示相位调整被禁用时，不调整解码的音频信号。

在另一个实施方式中，相位调整单元可被配置为接收控制信息，其中，控制信息包括指示相位调整强度的强度值。此外，相位调整单元可以被配置为基于强度值调整解码的音频信号。

根据进一步实施方式，解码器还可以包括用于将解码的音频信号分解成多个子带的多个子带信号的分析滤波器组。相位调整单元可以被配置为确定多个子带信号的多个第一相位值。此外，相位调整单元可以适用于通过修改多个第一相位值中的至少一些第一相位值来调整编码的音频信号，以获得相位调整的音频信号的第二相位值。

在另一个实施方式中，相位调整单元可以被配置为通过应用以下公式调整至少一些相位值：

px'(f)＝px(f)–dp(f),并且

dp(f)＝α*(p0(f)+const),

其中f是指示子带中将频率f作为中心频率的子带的频率，其中px(f)是将频率f作为中心频率的子带之一的子带信号之一的第一相位值之一，其中px'(f)是将频率f作为中心频率的子带之一的子带信号之一的第二相位值之一，其中const(常量)是范围为-π≤const≤π的第一角度，其中α是范围为0≤α≤1的实数；并且，其中p0(f)是范围在-π≤p0(f)≤π中的第二角度，其中第二角度p0(f)被分配给将频率f作为中心频率的子带之一。或者，以上相位调整同样可以将复数子带信号(例如，离散傅里叶变换的复数频谱系数)乘以指数相位项e^-jdp(f)，其中j是单位虚数。

根据另一实施方式，解码器还可以包括合成滤波器组。相位调整的音频信号可以是被表示在频谱域的相位调整的频谱域音频信号。合成滤波器组可以被配置为将相位调整的频谱域音频信号从频谱域转换到时域，以获得相位调整的时域音频信号。

在实施方式中，解码器可被配置用于解码VPC控制信息。

此外，根据另一实施方式，解码器可以被配置为应用控制信息获得具有比常规系统更好保留的VPC的解码信号。

此外，解码器可以被配置为操纵通过解码器中的量度(measurements，测量)和/或包含于比特流中的使能信息所引导的VPC。

此外，提供了一种用于基于音频输入信号编码控制信息的编码器。编码器包括：变换单元、控制信息生成器以及编码单元。变换单元适用于将音频输入信号从时域变换到频谱域，以获得包括被分配到多个子带的多个子带信号的变换音频信号。控制信息生成器适用于产生控制信息，使得控制信息指示变换音频信号的垂直相位相干性。编码单元适用于编码变换音频信号和控制信息。

在实施方式中，编码器的变换单元包括耳蜗滤波器组，用于将音频输入信号从时域变换到频谱域，以获得包括多个子带信号的变换音频信号。

根据进一步实施方式，控制信息生成器可以被配置为确定多个子带信号的各子带信号的子带包络，以获得多个子带信号包络。此外，控制信息生成器可以被配置为基于多个子带信号包络产生组合包络。此外，控制信息生成器可以被配置为基于组合包络生成控制信息。

在另一个实施方式中，控制信息生成器可以被配置为基于组合的包络生成表征数(characterizing number)。此外，控制信息生成器可以被配置为产生控制信息，使得控制信息指示当表征数大于阈值时相位调整被使能。此外，控制信息生成器可以被配置为生成控制信息，使得控制信息指示当表征数小于或者等于阈值时相位调整被禁用。

根据进一步实施方式，控制信息生成器可以被配置为通过计算组合包络的几何平均对组合包络的算术平均的比率来生成控制信息。

可选地，组合包络的最大值可以与组合包络的平均值相比。例如，最大/平均比率可以由，例如组合包络的最大值对组合包络的平均值的比率形成。

在实施方式中，控制信息生成器可以被配置为生成控制信息，使得控制信息包括指示子带信号的垂直相位相干性的程度的强度值。

根据实施方式的编码器可被配置用于在编码器侧上通过例如，在频率上的相位和/或相位导数测量进行VPC测量。

此外，根据实施方式的编码器可被配置为进行垂直相位相干性的感知显著性测量。

此外，根据实施方式的编码器可以被配置为从相位相干性的显著性和/或VPC测量进行使能信息(activation information)的推导。

此外，根据实施方式的编码器可以被配置为提取时间频率自适应VPC线索或者控制信息。

此外，根据实施方式的编码器可以被配置为确定VPC控制信息的紧凑表示。

在实施方式中，VPC控制信息可以在比特流中传输。

此外，提供了一种用于处理第一音频信号以获得第二音频信号的装置。该装置包括控制信息生成器和相位调整单元。控制信息生成器适用于生成控制信息，使得控制信息表示第一音频信号的垂直相位相干性。相位调整单元适用于调整第一音频信号，以获得第二音频信号。此外，相位调整单元适用于基于控制信息调整第一音频信号。

此外，提供了一种系统。该系统包括根据上述实施方式之一的编码器和根据上述实施方式之一的至少一个解码器。编码器被配置为变换音频输入信号，以获得变换音频信号。此外，编码器被配置为编码所变换的音频信号，以获得编码的音频信号。此外，编码器被配置为编码表示变换音频信号的垂直相位相干性的控制信息。此外，编码器被设置为将编码的音频信号和控制信息馈送入至少一个解码器中。至少一个解码器被配置为解码编码的音频信号，以获得解码的音频信号。此外，至少一个解码器被配置为基于编码的控制信息调整解码的音频信号，以获得相位调整的音频信号。

在实施方式中，VPC可以在编码器侧被测量，并作为适当紧凑边信息(side information)与编码的音频信号一起传输，并且信号的VPC在解码器被恢复。根据可替代实施方式，通过在解码器中产生的控制信息引导(steered)和/或由从编码器传输的边信息的使能信息引导来在解码器中操纵VPC。VPC处理可以是时间频率选择性的，使得VPC仅在感知有益处被恢复。

此外，提供了一种用于解码编码音频信号以获得相位调整的音频信号的方法。该用于解码的方法包括：

-接收控制信息，其中，控制信息指示编码的音频信号的垂直相位相干性。

-解码编码的音频信号以获得解码的音频信号，并且

-基于控制信息调整解码的音频信号以获得相位调整的音频信号。

此外，提供了一种用于基于音频输入信号编码控制信息的方法。该用于编码的方法包括：

-将音频输入信号从时域变换到频谱域，以获得变换音频信号，该变换音频信号包括被分配给多个子带的多个子带信号。

-产生控制信息，使得控制信息指示变换音频信号的垂直相位相干性，并且

-编码变换音频信号和控制信息。

此外，提供了一种用于处理第一音频信号以获得第二音频信号的方法。用于处理的方法包括：

-产生控制信息使得控制信息指示第一音频信号的垂直相位相干性，以及

-基于控制信息调整第一音频信号以获得第二音频信号。

此外，提供了一种用于当计算机程序在计算机或者信号处理器上执行时实现上述方法之一的计算机程序。

在实施方式中，提供一种用于当VPC因为信号处理、编码或者传输过程而损害时保持信号的垂直相位相干性(VPC)的装置(means)。

在一些实施方式中，本发明的系统在编码之前测量输入信号的VPC，将适当紧凑的边信息与编码的音频信号一起传输，并且基于传输的紧凑边信息在解码器处恢复信号的VPC。可选地，本发明方法操纵通过解码器中所产生的控制信息引导和/或由从编码器传输的边信息中的使能信息引导的解码器中的VPC。

在其他实施例中，受损信号的VPC可以通过利用VPC调整处理进行处理来恢复其原始的VPC，通过分析受损信号本身来控制该VPC调整处理。

在两种情况中，所述处理可以是时间频率选择性的，使得VPC仅在感知有益处恢复。

在以适度的边信息为代价，提供了感知音频编码器的改善的音质。除感知音频编码器之外，VPC的测量和恢复也有利于基于相位声码器的数字音频效果，例如时间拉伸或者变调。

实施方式被提供在从属权利要求中。

附图说明

在下文中，实施方式将关于附图进行描述，其中：

图1a示出了根据实施方式的用于解码编码的音频信号以获得相位调整的音频信号的解码器，

图1b示出了根据另一实施方式的用于解码编码的音频信号以获得相位调整的音频信号的解码器，

图2示出了根据实施方式的用于基于音频输入信号编码控制信息的编码器，

图3示出了根据实施方式的包括编码器和至少一个解码器的系统，

图4示出了根据实施方式的具有VPC处理的音频处理系统，

图5绘出了根据实施方式的感知音频编码器和解码器，

图6示出了根据实施方式的VPC控制生成器，

图7示出了根据实施方式的用于处理音频信号以获得第二音频信号的装置，以及

图8示出了根据另一实施方式的音频处理系统的VPC处理。

具体实施方式

图1a示出了根据实施方式的用于解码编码的音频信号以获得相位调整的音频信号的解码器。解码器包括解码单元110和相位调整单元120。解码单元110适用于解码编码的音频信号以获得解码的音频信号。相位调整单元120适用于调整解码的音频信号，以获得相位调整的音频信号。此外，相位调整单元120被配置为接收取决于编码的音频信号的垂直相位相干性(VPC)的控制信息。此外，相位调整单元120适用于基于控制信息调整解码的音频信号。

图1a的实施方式考虑到对于某些音频信号来说恢复编码的信号的垂直相位相干性是重要的。例如，当音频信号部分包括浊音、铜管乐器或者拉弦乐器时，垂直相位相干性的保留是重要的。为此，相位调整单元120适用于接收取决于编码的音频信号的VPC的控制信息。

例如，当编码的信号部分包括浊音、铜管乐器或者拉弦乐器时，那么编码的信号的VPC较高。在此情况下，控制信息可以指示相位调整被使能。

其它信号部分可不包括脉冲状的音调信号或者瞬变，并且这种信号部分的VPC可能较低。在此情况下，控制信息可以指示相位调整被禁用。

在其他实施方式中，控制信息可以包括强度值。这种强度值可以指示应该执行相位调整的强度。例如，强度值可以是值α，其中0≤α≤1。如果α＝1或者接近1这可指示高强度值。显著相位调整将由相位调整单元120进行。如果α接近0，将由相位调整单元120仅进行轻微的相位调整。如果α＝0，则不进行相位调整。

图1b示出了根据另一实施方式的用于解码编码的音频信号以获得相位调整的音频信号的解码器。除解码单元110和相位调整单元120之外，图1b的解码器还包括分析滤波器组115和合成滤波器组125。

分析滤波器组115被配置为将解码的音频信号分解成多个子带的多个子带信号。图1b的相位调整单元120可以被配置为确定多个子带信号的多个第一相位值。此外，相位调整单元120可以适用于通过改变多个第一相位值的至少一些第一相位值来调整编码的音频信号，以获得相位调整的音频信号的第二相位值。

相位调整的音频信号可以是在频谱域中表示的相位调整的频谱域音频信号。图1b的合成滤波器组125可以被配置为将相位调整的频谱域音频信号从频谱域变换到时域，以获得相位调整的时域音频信号。

图2描述了根据实施方式的基于音频输入信号编码控制信息的对应编码器。编码器包括变换单元210、控制信息生成器220以及编码单元230。变换单元210适用于将音频输入信号从时域变换为频谱域，以便获得包括被分配到多个子带的多个子带信号的变换音频信号。控制信息生成器220适用于产生控制信息，使得控制信息指示变换音频信号的垂直相位相干性(VPC)。编码单元230适用于编码变换音频信号和控制信息。

图2的编码器适用于编码取决于将要编码的音频信号的垂直相位相干性的控制信息。为了生成控制信息，编码器的变换单元210将音频输入信号变换到频谱域，使得所得到的变换音频信号包括多个子带的多个子带信号。

然后，控制信息生成器220确定取决于变换音频信号的垂直相位相干性的信息。

例如，控制信息生成器220可以将具体的音频信号部分分类为VPC高的信号部分，并且例如设定值α＝1。对于其它信号部分，控制信息生成器220可将具体的音频信号部分分类为VPC低的信号部分，并且例如设定值α＝0。

在其他实施方式中，控制信息生成器220可以确定取决于变换音频信号的VPC的强度值。例如，控制信息生成器可以分配关于检查信号部分的强度值，其中，强度值取决于信号部分的VPC。在解码器侧，强度值然后可以被采用来确定相对于解码的音频信号子带相位值应该仅进行小的相位调整，或者是否应该进行强相位调整，以恢复音频信号的原始VPC。

图3示出了另一个实施方式。在图3中，提供了一种系统。该系统包括编码器310和至少一个解码器。然而，图3仅示出了单个解码器320，其它实施方式可以包括多于一个的解码器。图3的编码器310可以是图2的实施方式的编码器。图3的解码器320可以是图1a的实施方式的解码器或者图1b的实施方式的解码器。图3的编码器310被配置为变换音频输入信号，以获得变换的音频信号(未示出)。此外，编码器310被配置为编码所变换的音频信号，以获得编码的音频信号。此外，编码器被配置为编码指示变换音频信号的垂直相位相干性的控制信息。编码器被设置为将编码的音频信号和编码的控制信息馈送入至少一个解码器中。

图3的解码器320被配置为解码编码的音频信号，以获得解码的音频信号(未示出)。此外，解码器320被配置为基于编码的控制信息调整解码的音频信号，以获得相位调整的音频信号。

总结上述内容，上述的实施方式旨在保留信号的垂直相位相干性，特别是在具有高度的垂直相位相干性的信号部分中保留信号的垂直相位相干性。

所提出的概念通过以下改善了通过音频处理系统(在下文中也被称作“音频系统”)传递的感知质量：通过测量音频处理系统的输入信号的VPC特性，并且通过基于所测量的VPC特性调整音频系统产生的输出信号的VPC来形成最终输出信号，使得最终输出信号的预定VPC得以实现。

图4显示了通过上述实施方式增强的一般音频处理系统。具体地，图4描述了用于VPC处理的系统。从音频系统410的输入信号，VPC控制生成器420测量VPC和/或它的感知显著性，并且生成VPC控制信息。音频系统410的输出馈送入VPC调整单元430，并且在VPC调整单元430中使用VPC控制信息以便恢复该VPC。

作为重要的实践实例，该原理可通过以下应用于(例如)常规音频编解码器：通过在编码器侧测量VPC和/或相位相干性的感知显著性，将适当紧凑边信息与编码的音频信号一起传输，并且基于所传输的紧凑边信息在解码器恢复信号的VPC。

图5示出了根据实施方式的感知音频编码器和解码器。具体地，图5描述了实现两侧VPC处理的感知音频编解码器。

在编码器侧上，示出了编码单元510、VPC控制生成器520以及比特流复用单元530。在解码器侧，描述了比特流解复用单元540、解码单元550以及VPC调整单元560。

在编码器侧，VPC控制信息由VPC控制生成器520产生，并且编码为紧凑边信息，该紧凑边信息与编码音频信号一起由复用单元530复用成比特流。VPC控制信息的生成可以是时间频率选择性的，使得仅在感知有益处测量VPC和编码控制信息。

在解码器侧，VPC控制信息通过比特流解复用单元540从比特流中提取，并且应用在VPC调整单元560中，以便使VPC恢复。

图6示出VPC控制生成器600可能的实施例的一些细节。在输入音频信号上，VPC被VPC测量单元610测量，并且VPC的感知显著性被VPC显著性测量单元620测量。由此，VPC控制信息通过VPC控制信息推导单元630推导出。音频输入可以包括多于一个的音频信号，例如，除第一音频输入之外，包括第一输入信号的处理的版本(参见图5)的第二音频输入可以被应用于VPC控制生成器。

在实施方式中，编码器侧可以包括用于测量输入信号的VPC和/或测量输入信号的VPC的感知显著性的VPC控制生成器。VPC控制生成器可以提供用于在解码器侧控制VPC调整的VPC控制信息。例如，控制信息可以信号启用或信号禁止解码器侧的VPC调整，或者控制信息可以确定解码器侧VPC调整的强度。

因为垂直相位相干性对于音频信号的主观质量是重要的，如果信号是音调和/或谐波(harmonic)，并且如果信号的音调不过于迅速的改变，VPC控制单元的典型的实施例可包括音调检测器或者谐波检测器，或者至少音调变化检测器，提供音调强度的测度。

此外，通过VPC控制生成器产生的控制信息可以将原始信号的VPC的强度作为信号发送。或者，控制信息可以将驱动解码器VPC调整的变形参数作为信号发送，使得在解码器侧VPC调整之后，原始信号的感知VPC被大致恢复。可选地或者附加地，可以发送将被赋予(instated)的一个或者若干目标VPC值的信号。

VPC控制信息可以例如通过将其插入比特流作为附加的边信息而从编码器紧凑地传输到解码器侧。

在实施方式中，解码器可以被配置为读取由编码器侧的VPC控制生成器提供的VPC控制信息。为此目的，解码器可以从比特流读取VPC控制信息。此外，解码器可以被配置为通过采用VPC调整单元处理取决于VPC控制信息的常规音频解码器的输出。此外，解码器可以被配置为传递处理的音频信号作为输出信号。

在下文中，提供了根据实施方式的编码器侧的VPC控制生成器。

展现高VPC的似稳态周期信号可以通过利用音调检测器来识别(因为从语音编码或者音乐信号分析它们是众所周知的)，该音调检测器传递音调强度和/或周期性的程度的测度。实际的VPC可以通过耳蜗滤波器组的应用来测量，后续子带包络检测紧接着跨频率的耳蜗包络的求和。例如，如果子带包络是相干的，总和提供了时间上的非平坦信号，然而，非相干的子带包络加起来时间上更平坦信号。从音调强度和/或周期性程度以及VPC测度的综合评估(例如，通过分别与预定的阈值比较)，可以推导出VPC控制信息，该VPC控制信息由表示“VPC调整打开”或者“VPC调整关闭”的信号标记组成。

在时域中的脉冲状事件展现出关于它们的频谱表示的强相位相干性。例如，傅立叶变换的迪拉克脉冲具有线性增加相位的平坦频谱。这也适用于一系列具有基频f_0的周期脉冲。在此，频谱是一种线状谱。这些具有f_0的频率距离的单线也是相位相干的。当它们的相位相干性被打乱(幅度保持不变)时，所产生的时域信号不再是一系列的狄拉克脉冲，但取而代之的是脉冲已在时间上显著地变宽。这种变形可听见的并且尤其与一系列脉冲相似的声音相关，例如浊音、铜管乐器或者拉弦乐器。

因此，VPC可以通过确定音频信号在时间上的包络的本地非平坦性被间接的测量(可以考虑包络的绝对值)。

通过求和跨频率的子带包封，可以确定包络相加是否为平坦组合包络(低VPC)或者非平坦组合包络(高VPC)。当求和包封涉及感知所适于的听觉准确的频带时，所提出的概念尤其有利。

例如，控制信息然后可以通过计算组合包络的几何平均数对组合包络的算术平均的比率产生。

可选地，组合包络的最大值可以与组合包络的平均值相比较。例如，最大/平均比率可以形成，例如，组合包络的最大值对组合包络的平均值的比率。

不是形成组合包络，例如，包络的和，应被编码的音频信号的频谱的相位值本身可以被检查为可预测性。高可预测性表示高VPC。低可预测性表示低VPC。

如果VPC或者VPC显著性应被定义为心理声学测量时，采用耳蜗滤波器组相对于音频信号是尤其有益的。因为选择具体的滤波器带宽限定了涉及共同的子带的频谱的部分色调，并且因此共同促进形成某个子带包络，感知适配的滤波器可以最精确地模拟(model，建模)人类听觉系统的内部处理。

而且，具有相同幅度频谱的相位相干信号和相位非相干信号之间的听觉感知的差异(difference，差值)取决于谐波光谱分量在信号(或者多个信号)中的优势(dominance)。这些谐波分量的低基频(例如100Hz)增加了差异而高基频减少差异，因为低基频导致更多的被分配到相同的子带的泛音。在相同子带中的泛音再次被总和，并能够检测它们的子带包络。

此外，泛音的振幅是有关联的。如果泛音的振幅较高时，时域包络的增加变得急剧，信号变得更加脉冲状，并且因此VPC变得越来越多重要，例如VPC变得更高。

在下文中，提供了根据实施方式的解码器侧的VPC调整单元。这种的VPC调整单元可以包括控制信息，该控制信息包括VPC控制信息标记。

如果VPC控制信息标记表示“VPC调整关闭”，则没有专用的VPC处理被施加(“穿过”或者可替代地，简单的延迟)。如果标记读取“VPC调整打开”，信号段被分析滤波器组分解，并且在频率f上的每个频谱线的相位p0(f)的测量开始。从此，计算相位调整偏移dp(f)＝α*(p0(f)+const)，其中“const”表示在-π与π之间的弧度角。对于所述信号段以及以下的连续段，在此“VPC调整快打开”被信号告知，频谱线x(f)的相位px(f)随后调整到px'(f)＝px(f)-dp(f)。VPC调整信号最终被合成滤波器组转换成时域。

概念基于该构思进行初始量测以从理想相位响应确定偏差。该偏差稍后被补偿。α可以是范围为0≤α≤1的角，α＝0意味着没有补偿、α＝1意味着关于理想相位响应的充分补偿。例如，理想相位响应可以是产生具有最大平坦度的相位响应的相位响应。“const”是不改变相位相干性但是允许引导替代绝对相位，并且因此产生相应信号的固定附加角(fixedadditive angle)，例如，当const是90°时信号的希尔伯特变换。

图7示出根据另一实施方式的用于处理第一音频信号以获得第二音频信号的装置。该装置包括控制信息生成器710和相位调整单元720。控制信息生成器710适用于产生控制信息，使得控制信息表示第一音频信号的垂直相位相干性。相位调整单元720适用于调整第一音频信号，以获得第二音频信号。此外，相位调整单元720适用于基于控制信息调整第一音频信号。

图7是单侧实施方式。控制信息和相位调整的确定不被分割在编码器(控制信息生成)和解码器(相位调整)。而是，控制信息生成和相位调整通过单个装置或者系统进行。

在图8中，也在解码器侧(“单侧系统”)生成在由控制信息所引导的解码器中操纵的VPC，其中，控制信息通过分析解码音频信号产生。在图8中，示出了根据实施方式的具有单侧VPC处理的感知音频编解码器。

例如，图7和图8示出的根据实施方式的单侧系统可具有以下特性：

任何现有信号处理过程的输出或者音频系统的输出(例如音频解码器的输出信号)，可以无需访问通过访问未受损害/原始信号(例如，在编码器侧)产生的VPC控制信息而被处理。相反，VPC控制信息可以直接从给定信号中产生，例如从音频系统(例如解码器)的输出(VPC控制信息可以是“盲目的”产生)。

用于控制VPC调整的VPC控制信息可以包括：用于启用/禁止VPC调整单元或者用于确定VPC调整强度的信号，或者VPC控制信息可以包括一个或者几个将要被赋予的目标VPC值。

此外，可以在VPC调整级执行处理，(VPC调整单元)使用盲目产生的VPC控制信息并作为系统输出传递它的输出。

在下文中，提供了解码器侧VPC控制生成器的实施方式。解码器侧控制生成器可以与编码器侧控制生成器十分相似。例如，其可以包括音调检测器，该音调检测器传递音调强度和/或周期性的程度的测度以及与预定的阈值的比较。然而，阈值可以不同于在编码器侧控制生成器中使用的阈值，因为解码器侧VPC生成器对已经VPC失真的信号操作。如果VPC失真程度较轻，也可能测量残余的VPC并且与给定的阈值相比较，以便生成VPC控制信息。

根据优选实施方式，如果测量的VPC较高，为了进一步增加输出信号的VPC，施加了VPC变形，并且如果测量的VPC较低，不施加VPC变形。既然VPC的保留对于音调(tonal)信号和谐波信号是最重要的，对于根据优选实施方式的VPC处理，可以采用音调检测器或者至少音调变化检测器，提供主导(dominant，主要)音调的强度的测度。

最后，两侧的方法和单侧方法可以组合，其中，通过传输从原始/未受损的信号和从处理(例如，解码)音频信号中提取的信息所推导的控制信息来控制VPC调整处理。例如，组合系统从这种组合产生。

尽管已经在装置的上下文中描述一些方面，显然这些方面也代表相应方法的描述，其中的块或设备对应方法步骤或者方法步骤的特征。类似地，在方法步骤的上下文中描述的各方面同样代表相应块或者相应装置的项或特征的描述。

根据某些实施要求，本发明的实施方式可以以硬件或者软件来实施。实施例可以使用数字存储介质(例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或者FLASH存储器)来执行，电子存储介质具有存储在其上的电子可读控制信号，该电子可读控制信号与可编程计算机系统配合(或者能够协作)使得相应方法得以执行。

根据本发明的一些实施方式包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作，使得本文所描述的方法之一能够被执行。

通常，本发明的实施方式可以实现为具有程序代码的计算机程序产品，当计算机程序产品运行在计算机上时，该程序代码被操作用于执行方法之一。例如，该程序代码可以被存储在机器可读载体上。

其它实施方式包括用于执行本文中描述的方法之一的、在机器可读载体或者非暂存性存储介质上存储的计算机程序。

换言之，因此，本发明方法的实施方式是一种当计算机程序在计算机上运行时，具有用于执行本文中描述的方法之一的程序代码的计算机程序。

因此，发明方法的进一步实施方式是一种数据记载体(或者数字存储介质、或者计算机可读介质)，该数据载体包括在其上记录的用于执行本文中描述的方法之一的计算机程序。

因此，本发明方法的进一步实施方式是表示用于执行本文中描述的方法之一的计算机程序的数据流或者信号序列。例如，数据流或者信号序列可以被配置为通过数据通信连接(例如，通过互联网)进行传输。

进一步实施方式包括处理装置(例如，计算机或者可编程逻辑设备)，该处理装置被配置为或者适用于执行本文中描述的方法之一。

进一步实施方式包括一种具有安装在其上的用于执行本文中描述的方法之一的计算机程序的计算机。

在一些实施方式中，可编程逻辑设备(例如现场可编程门阵列)可以被用来执行一些或者所有的本文中描述的方法的功能。在一些实施方式中，为了执行本文中描述的方法之一，现场可编程门阵列可以与微处理器配合。通常，所述方法优选地通过任何硬件装置执行。

以上描述的实施方式仅仅用于本发明的原理的说明。应理解的是，本文中描述的配置以及细节的变形和变化对本领域的技术人员是显而易见的。因此其意图是，本发明的范围仅仅由下面的专利申请范围限定，而不是通过本文中的实施方式的描述和说明呈现的特定细节来限定。

参考文献

[1]Painter,T.；Spanias,A.Perceptual coding of digital audio,Proceedings of the IEEE,88(4),2000；pp.451-513.

[2]Larsen,E.；Aarts,R.Audio Bandwidth Extension:Application ofpsychoacoustics,signal processing and loudspeaker design,JohnWiley and Sons Ltd,2004,Chapters5,6.

[3]Dietz,M.；Liljeryd,L.；Kjorling,K.；Kunz,0.Spectral BandReplication,a Novel Approach in Audio Coding,112th AESConvention,April2002,Preprint5553.

[4]Nagel,F.；Disch,S.；Rettelbach,N.A Phase Vocoder DrivenBandwidth Extension Method with Novel Transient Handling forAudio Codecs,126th AES Convention,2009.

[5]Faller,C.；Baumgarte,F.Binaural Cue Coding-Part II:Schemesand applications,IEEE Trans.On Speech and Audio Processing,Vol.11,No.6,Nov.2003.

[6]Schuijers,E.；Breebaart,J.；Purnhagen,H.；Engdegard,J.Lowcomplexity parametric stereo coding,116th AES Convention,Berlin,Germany,2004；Preprint6073.

[7]Herre,J.；K.；Breebaart,J.et al.MPEG Surround-TheISO/MPEG Standard for Efficient and Compatible MultichannelAudio Coding,Journal of the AES,Vol.56,No.11,November2008；pp.932-955.

[8]Laroche,J.；Dolson,M.,"Phase-vocoder:about this phasinessbusiness,"Applications of Signal Processing to Audio andAcoustics,1997.1997IEEE ASSP Workshop on,vol.,no.,pp.4pp.,19-22,Oct1997

[9]Purnhagen,H.；Meine,N.；,"HILN-the MPEG-4parametric audiocoding tools,"Circuits and Systems,2000.Proceedings.ISCAS2000Geneva.The2000IEEE International Symposium on,vol.3,no.,pp.201-204vol.3,2000

[10]Oomen,Werner；Schuijers,Erik；den Brinker,Bert；Breebaart,Jeroen:,"Advances in Parametric Coding for High-QualityAudio,"Audio Engineering Society Convention114,preprint,Amsterdam/NL,March2003

[11]van Schijndel,N.H.；van de Par,S.；,"Rate-distortion optimizedhybrid sound coding,"Applications of Signal Processing to Audioand Acoustics,2005.IEEE Workshop on,vol.,no.,pp.235-238,16-19Oct.2005

[12]http://people.xiph.org/-xiphmont/demo/ghost/demo.html

[13]D.Griesinger'The Relationship between Audience Engagementand the ability to Perceive Pitch,Timbre,Azimuth andEnvelopment of Multiple Sources'Tonmeister Tagung2010.

[14]D.Dorran and R.Lawlor,"Time-scale modification of musicusing a synchronized subband/timedomain approach,"IEEEInternational Conference on Acoustics,Speech and SignalProcessing,pp.IV225-IV228,Montreal,May2004.

[15]J.Laroche,"Frequency-domain techniques for high quality voicemodification,"Proceedings of the International Conference onDigital Audio Effects,pp.328-322,2003.

Claims

1.一种解码器，用于解码编码的音频信号以获得相位调整的音频信号，所述解码器包括：

解码单元(110)，用于解码所述编码的音频信号以获得解码的音频信号，以及

相位调整单元(120；430；560)，用于调整所述解码的音频信号以获得所述相位调整的音频信号，

其中，所述相位调整单元(120；430；560)被配置为接收取决于所述编码的音频信号的垂直相位相干性的控制信息，以及

其中，所述相位调整单元(120；430；560)用于基于所述控制信息调整所述解码的音频信号。

2.根据权利要求1所述的解码器，

其中，所述相位调整单元(120；430；560)被配置为当所述控制信息指示相位调整被使能时调整所述解码的音频信号，以及

其中，所述相位调整单元(120；430；560)被配置为当所述控制信息指示相位调整被禁能时不调整所述解码的音频信号。

3.根据权利要求1所述的解码器，

其中，所述相位调整单元(120；430；560)被配置为接收所述控制信息，其中，所述控制信息包括指示相位调整强度的强度值，以及

其中，所述相位调整单元(120；430；560)被配置为基于所述强度值调整所述解码的音频信号。

4.根据权利要求1至3中的一项所述的解码器，

其中，所述解码器进一步包括分析滤波器组，所述分析滤波器组用于将所述解码的音频信号分解成多个子带的多个子带信号，

其中，所述相位调整单元(120；430；560)被配置为确定所述多个子带信号的多个第一相位值，以及

其中，所述相位调整单元(120；430；560)用于通过改变所述多个第一相位值中的至少一些第一相位值来调整所述编码的音频信号，以获得所述相位调整的音频信号的第二相位值。

5.根据权利要求4所述的解码器，

其中，所述相位调整单元(120；430；560)被配置为通过应用以下公式调整所述相位值中的至少一些相位值：

px'(f)＝px(f)–dp(f)，并且

dp(f)＝α*(p0(f)+const),

其中，f是指示所述子带中的具有作为中心频率的频率f的一个子带的频率，

其中，px(f)是所述子带中的具有作为所述中心频率的所述频率f的子带的所述子带信号之一的所述第一相位值中的一个第一相位值，

其中，px'(f)是所述子带中的具有作为所述中心频率的所述频率f的子带的所述子带信号之一的所述第二相位值中的一个第二相位值，

其中，const是范围-π≤const≤π中的第一角度，

其中，α是范围0≤α≤1中的实数；并且

其中，p0(f)是范围-π≤p0(f)≤π中的第二角度，其中，所述第二角度p0(f)被分配给所述子带中的具有作为所述中心频率的所述频率f的所述子带。

6.根据权利要求4所述的解码器，

其中，所述相位调整单元(120；430；560)被配置为将所述多个子带信号的至少一些子带信号乘以指数相位项来调整所述相位值中的至少一些相位值，

其中，所述指数相位项由公式e^-jdp(f)定义，

其中，所述多个子带信号是复数子带信号，以及

其中，j是单位虚数。

7.根据前述权利要求中的一项所述的解码器，

其中，所述解码器进一步包括合成滤波器组(125)，

其中，所述相位调整的音频信号是以频谱域表示的相位调整的频谱域音频信号，以及

其中，所述合成滤波器组(125)被配置为将所述相位调整的频谱域音频信号从所述频谱域变换到时域，以获得相位调整的时域音频信号。

8.一个用于基于音频输入信号编码控制信息的编码器，包括：

变换单元(210)，用于将所述音频输入信号从时域变换到频谱域，以获得包括被分配给多个子带的多个子带信号的变换音频信号，

控制信息生成器(220；420；520；600)，用于生成所述控制信息，使得所述控制信息指示所述变换音频信号的垂直相位相干性，以及

编码单元(230)，用于编码所述变换音频信号和所述控制信息。

9.根据权利要求8所述的编码器，

其中，所述变换单元(210)包括耳蜗滤波器组，所述耳蜗滤波器组用于将所述音频输入信号从所述时域变换到所述频谱域，以获得包括所述多个子带信号的所述变换音频信号。

10.根据权利要求8或者9所述的编码器，

其中，所述控制信息生成器(220；420；520；600)被配置为确定所述多个子带信号的各子带信号的子带包络，以获得多个子带信号包络，

其中，所述控制信息生成器(220；420；520；600)被配置为基于所述多个子带信号包络生成组合包络，以及

其中，所述控制信息生成器(220；420；520；600)被配置为基于所述组合包络生成所述控制信息。

11.根据权利要求10所述的编码器，

其中，所述控制信息生成器(220；420；520；600)被配置为基于所述组合包络生成表征数，以及

其中，所述控制信息生成器(220；420；520；600)被配置为生成所述控制信息，使得所述控制信息指示当所述表征数大于阈值时相位调整被使能，以及

其中，所述控制信息生成器(220；420；520；600)被配置为生成所述控制信息，使得所述控制信息指示当所述表征数小于或者等于所述阈值时所述相位调整被禁用。

12.根据权利要求10或者11所述的编码器，

其中，所述控制信息生成器(220；420；520；600)被配置为通过计算所述组合包络的几何平均对所述组合包络的算术平均的比率来生成所述控制信息。

13.根据权利要求8至12中的一项所述的编码器，

其中，所述控制信息生成器(220；420；520；600)被配置为生成所述控制信息，使得所述控制信息包括指示所述子带信号的垂直相位相干性的程度的强度值。

14.一种用于处理第一音频信号以获得第二音频信号的装置，包括：

控制信息生成器(710；820)，用于生成控制信息，使得所述控制信息指示所述第一音频信号的垂直相位相干性，以及

相位调整单元(720；830)，用于调整所述第一音频信号，以获得所述第二音频信号，

其中，所述相位调整单元(720；830)用于基于所述控制信息调整所述第一音频信号。

15.一种系统，包括，

根据权利要求8至13中的一项的编码器(310)，以及

根据权利要求1至7中的一项的至少一个解码器(320)，

其中，所述编码器(310)被配置为变换音频输入信号以获得变换音频信号，

其中，所述编码器(310)被配置为编码所述变换音频信号以获得编码的音频信号，

其中，所述编码器(310)被配置为编码指示所述变换音频信号的垂直相位相干性的控制信息，

其中，所述编码器(310)被设置为将所述编码的音频信号和所述控制信息馈送入所述至少一个解码器，

其中，所述至少一个解码器(320)被配置为解码所述编码的音频信号，以获得解码的音频信号，以及

其中，所述至少一个解码器(320)被配置为基于编码的所述控制信息调整所述解码的音频信号，以获得相位调整的音频信号。

16.一种用于解码编码的音频信号以获得相位调整的音频信号的方法，包括：

接收控制信息，其中，所述控制信息指示所述编码的音频信号的垂直相位相干性，

解码所述编码的音频信号以获得解码的音频信号，并且

基于所述控制信息调整所述解码的音频信号，以获得所述相位调整的音频信号。

17.一种用于基于音频输入信号编码控制信息的方法，包括：

将所述音频输入信号从时域变换到频谱域，以获得包括被分配给多个子带的多个子带信号的变换音频信号，

生成所述控制信息，使得所述控制信息指示所述变换音频信号的垂直相位相干性，并且

编码所述变换音频信号和所述控制信息。

18.一种用于处理第一音频信号以获得第二音频信号的方法，包括：

生成控制信息，使得所述控制信息指示所述第一音频信号的垂直相位相干性，并且

基于所述控制信息调整所述第一音频信号，以获得所述第二音频信号。

19.一种计算机程序，用于当所述计算机程序被计算机或信号处理器执行时实施根据权利要求16至18中的一项的方法。