CN1860526A

CN1860526A - 音频信号编码

Info

Publication number: CN1860526A
Application number: CNA2004800281847A
Authority: CN
Inventors: D·J·布里巴特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-09-29
Filing date: 2004-09-16
Publication date: 2006-11-08
Anticipated expiration: 2024-09-16
Also published as: US7720231B2; CN1860526B; US20070036360A1; KR20060090984A; ATE368921T1; WO2005031704A1; JP2007507726A; DE602004007945T2; DE602004007945D1; ES2291939T3; EP1671316A1; EP1671316B1

Abstract

编码器将音频信号(x(n)，y(n))从时域变换为频域中的音频信号(X(k)，Y(k))，并且确定频域中的互相关函数(Ri，Pi)。通过对频域中的(复数)互相关函数值(Ri，Pi)进行求和计算出复相干性值(Qi)。通过该复相干性值(Qi)的辐角来估计通道间相位差(IPDi)，并且通过该复相干性值(Qi)的绝对值来估计通道间相干性(ICi)。在现有技术中，计算密集的逆快速傅立叶变换和在时域中搜索所述互相关函数(Ri；Pi)的最大值都是必需的。

Description

音频信号编码

发明领域

本发明涉及一种用于音频信号的编码器，以及一种对音频信号进行编码的方法。

发明背景

在音频编码领域中，通常期望对音频信号进行编码以便减小比特率而不显著损害音频信号的感知质量。对于在传送音频信号时限制带宽以及限制存储音频信号所需的存储量而言，已减小的比特率是有优势的。

最近数年中，尤其在音频编码领域，音频信号的参数化描述受到了关注。已经表明，为了能够在接收端合成感知上基本相同的音频信号，传输(已量化的)描述音频信号的参数仅需要有限的传输容量。

US2003/0026441公开了通过将两组或者更多不同组的一种或者多种空间参数(例如耳间声级差ILD，或者耳间时间差ITD)应用到一个组合音频信号的两个或者更多不同频带上来合成听觉场景，其中的每一不同频带被当作其对应于场景中的一个单一音频源来处理。在一个实施例中，该组合音频信号对应于一个双声道信号的左、右音频信号的组合，该双声道信号对应于一个输入听觉场景。通过将需要被传输至接收机的不同音频信号的数目减小到1，传输带宽需求被降低，其中所述接收机被设置成合成/重建所述听觉场景。

在发送器中，将TF变换应用于所述输入双声道信号的左、右音频信号当中的每一个的相应部分，以将所述信号转换到频域。听觉场景分析器处理已转换的频域内的左、右音频信号，以便为上述已转换的信号中的多个不同频带当中的每一个生成一组听觉场景参数。对于每一个相应的频带对，该分析器比较已转换的左、右音频信号，以便生成一个或更多的空间参数。特别的，对于每一个频带，已转换的左、右音频信号之间的互相关函数被估计。该互相关函数的最大值指示了两个信号之间的相关程度。所述互相关的最大值在时间上的位置对应于ITD。ILD可以通过计算左、右音频信号的功率值之间的电平差来获得。

发明概述

本发明的一个目的在于提供一种对音频信号进行编码的编码器，其要求更少的处理能力。

为了实现该目的，本发明的第一方面提供了一种用于对音频信号进行编码的编码器。发明的第二方面提供了一种对音频信号进行编码的方法。各有利实施例被限定于从属权利要求中。

公开于US2003/0026441中的编码器首先将音频信号由时域变换至频域。该变换通常被称为快速傅立叶变换，又被称为FFT。通常，时域中的音频信号被划分为时间片段或者帧的序列，并且顺序地对每一帧执行到频域的变换。频域的相关部分被划分为频带。在每一个频带中，确定输入音频信号的互相关函数。该互相关函数必须由频域变换至时域。该变换通常被称为逆快速傅立叶变换，又被称为IFFT。在时域中，必须确定该互相关函数的最大值，以便找到该最大值在时间上的位置，从而找到ITD的数值。

依据本发明的第一方面的编码器也必须将音频信号由时域变换至频域，并且也必须确定频域中的互相关函数。在依据本发明的编码器中，所使用的空间参数为通道间相位差(又称为IPD)或者通道间相干性(又称为IC)，或者二者都被使用。同样，例如通道间声级差(又称为ILD)之类的其它空间参数也可以被编码。通道间相位差IPD可以与现有技术中的耳间时间差ITD相比较。

然而，取代执行IFFT并在时域中搜索所述互相关函数的最大值，通过在频域中对各(复数)互相关函数值进行求和来计算一个复相干性值。通道间相位差IPD通过该复相干性值的辐角被估计，通道间相干性IC通过该复相干性值的绝对值被估计。

在现有技术US2003/0026441中，逆FFT和在时域中搜索所述互相关函数的最大值需要大量的处理。并且该现有技术没有提到确定所述相干性参数。

在依据本发明的编码器中，不需要逆FFT，所述复相干性值通过在频域中对各(复数)互相关函数值进行求和而得到。不论是IPD或IC、或者IPD和IC都可以简单地通过该和值来确定。从而用简单的求和运算取代了逆FFT所需的大量计算。因此，依据本发明的方法需要更少的计算量。

值得注意的是，虽然现有技术US2003/0026441使用FFT来产生输入信号的复数值频域表示，但是也可以使用复数滤波器组。这种滤波器组使用复数调制器来获得一组带限复信号(cf.Ekstrand，P.(2002)，“Bandwidth extension of audio signals by spectral band replication(谱带复制引起的音频信号带宽展宽)”，Proc.1st Benelux Workshop onmodel based processing and coding of audio(MPCA-2002)，Leuven，Belgium)。IPD和IC参数可以以和FFT相似的方式计算，仅有的不同在于需要沿时间而非小频段(bin)进行求和。

在权利要求2限定的实施例中，所述互相关函数被计算为在带限、复数域内的其中一个输入音频信号与另一个输入音频信号的复数共轭相乘，从而得到一个复数互相关函数，可以认为该函数可以用一个绝对值和一个辐角来表示。

在权利要求3限定的实施例中，经校正的互相关函数被计算为这样一个互相关函数，其中上述辐角为该辐角的导数所取代。众所周知，在高频下，人类的听觉系统对两个输入通道之间的微细结构相位差并不敏感。然而，却存在对时间差和包络相干性的相当大的敏感性。因而在高频下，对每一个频带计算包络ITD和包络相干性更加恰当。可是，这需要一个额外的计算(希尔伯特)包络的步骤。在权利要求3中限定的根据本发明的实施例中，通过直接在频域内对已校正的互相关函数进行求和来计算所述复相干性值是可行的。此外，IPD和/或IC可以简单地分别作为该和值的辐角和相位而从该和值确定。

在权利要求4中限定的实施例中，频域被划分为预定数目的频率子带(也被称为子带)。由不同子带覆盖的频率范围可以随着频率的增加而增加。利用频域内的每个子带中的两个输入音频信号，为该子带确定所述复数互相关函数。频域内的位于其中一个特定子带内的输入音频信号也被称为子带音频信号。其结果是对应于每一个子带的互相关函数。或者，取决于所需要的合成音频信号的质量，可以仅仅对于所述子带的一个子集来确定所述互相关函数。通过对每一个子带内的(复数)互相关函数值进行求和来计算所述复相干性值。因而，IPD和/或IC也可以对于每一个子带确定。该子带方法允许对不同的频率子带提供不同的编码，并允许对于编码音频信号的比特率进一步优化解码音频信号的质量。

在权利要求5限定的实施例中，对于较低的频率，通过将其中一个子带音频信号与另一个子带音频信号的复数共轭相乘来获得每个子带的复数互相关函数。该复数互相关函数具有绝对值和辐角。通过对每一个子带内的互相关函数值进行求和得到所述复相干性值。对于较高的频率，经校正的互相关函数以与较低频率的互相关函数相同的方式来确定，但其中的辐角由该辐角的导数所取代。现在，通过对每一子带的经校正的互相关函数值进行求和来得到每一子带的复相干性值。IPD和/或IC以相同的方式从所述复相干性值确定，而与频率无关。

参照下文所述的实施例，本发明的这些和其它方面将是显而易见的。

附图简述

在附图中：

图1表示音频编码器的框图，

图2表示根据本发明一个实施例的音频编码器的框图，

图3表示根据本发明另一实施例的音频编码器的一部分的框图，以及

图4表示频域中的音频信号的子带划分的图示。

优选实施例详述

图1表示音频编码器的框图。该音频编码器接收两个输入音频信号x(n)和y(n)，其例如是时域中的立体声信号的左音频信号和右音频信号的数字化表示。索引n指示输入音频信号x(n)和y(n)的样本。组合电路1将这两个输入音频信号x(n)和y(n)组合成一个单声道信号MAS。输入音频信号x(n)和y(n)中的立体声信息在参数化电路10中被参数化，该电路包括电路100至113，并依例提供以下参数：每一频率子带的通道间时间差ITDi(或者IPDi：每一频率子带的通道间相位差)和CIi(每一频率子带的通道间相干性)。该单声道信号MAS和参数ITDi、ICi通过传输系统被传输或被存储于存储介质中(未显示)。在接收机或者解码器处(未显示)，从该单声道信号MAS和参数ITDi、Ici来重构原始信号x(n)和y(n)。

通常，输入音频信号x(n)和y(n)按每个时间片段或帧而被处理。分段电路100接收输入音频信号x(n)并在一帧期间内储存所接收的样本，以便可以给FFT电路102提供该帧的所存储样本Sx(n)。分段电路101接收输入音频信号y(n)并在一帧期间内储存所接收的样本，以便可以给FFT电路103提供该帧的所存储样本Sy(n)。

FFT电路102对已存储的样本Sx(n)执行快速傅立叶变换，以便获得频域中的音频信号X(k)。以同样的方式，FFT电路103对已存储的样本Sy(n)执行快速傅立叶变换，以便获得频域中的音频信号Y(k)。子带划分器104和105分别接收音频信号X(k)和Y(k)，以便将这些音频信号X(k)和Y(k)的频谱划分为频率子带i(见图4)，从而获得子带音频信号Xi(k)和Yi(k)。参照图4，该操作被进一步阐述。

互相关确定电路106对每一个相关子带计算子带音频信号Xi(k)和Yi(k)的复数互相关函数Ri。通常，在每一个相关子带中，通过将频域中的其中一个音频信号Xi(k)与频域中的另一音频信号Yi(k)的复数共轭相乘而得到该互相关函数Ri。用Ri(X，Y)(k)或者Ri(X(k)，Y(k))表示该互相关函数将更为准确，但为清楚起见，将其简写为Ri。

可选的归一化电路107对所述互相关函数Ri进行归一化，以便获得归一化的互相关函数Pi(X，Y)(k)或者Pi(X(k)，Y(k))，其被简写为Pi：

Pi＝Ri(Xi，Yi)/sqrt(sum(Xi(k).conj Xi(k)*(sum Xi(k).conj Xi(k)))其中sqrt为平方根，conj为复数共轭。

值得注意的是，该归一化处理需要对两个输入信号x(n)、y(n)的子带信号Xi(k)、Yi(k)的能量的计算。然而，为了计算当前子带i的通道间强度差IID，该操作总是需要的。IID由这两个能量的商确定。这样，可以通过取这两个输入信号Xi(k)、Yi(k)的相应的子带强度的测角均值(goniometric mean)来归一化该互相关函数Ri。

众所周知的IFFT(逆快速傅立叶变换)电路108将频域中的归一化互相关函数Pi变换回时域，从而产生时域中的归一化互相关函数ri(x(n)，y(n))或者ri(x，y)(n)，其被简写为ri。电路109确定该归一化互相关函数ri的峰值。特定子带的通道间时间延迟ITDi为峰值出现时的该归一化互相关函数ri的变元n。或者换句话说，对应于该归一化互相关ri中的该最大值的延迟为ITDi。特定子带的通道间相干性ICi为峰值。ITDi提供了为获得最高可能相似度所需的、两个输入音频信号x(n)、y(n)相对于彼此的偏移。ICi表示在每一个子带中，经偏移的输入音频信号x(n)和y(n)有多相似。或者，也可以对未归一化的互相关函数Ri执行IFFT。

虽然此框图表示执行各操作的分离的框，但是所述操作也可以由单一的专用电路或者集成电路完成。用一个适当编程的微处理器来执行全部或者部分的操作同样是可行的。

图2表示根据本发明一个实施例的音频编码器的框图。该音频编码器包括与图1所示相同并且以同样方式操作的电路1以及电路100到107。同样，可选的归一化电路107对互相关函数Ri进行归一化，以获得归一化的互相关函数Pi。相干性值计算电路111通过对复数归一化互相关函数Pi进行求和来计算出对应于每个相关子带i的复相干性值Qi：

Qi＝sum(Pi(Xi(k)，Yi(k)))FFT小频段(FFT-bin)索引k由每一个子带的带宽确定。优选的，为了最小化计算量，仅正频率(k＝0到K/2，其中K为FFT的尺寸)或者负频率(k＝-K/2到0)被求和。该计算在频域中执行，因而无需IFFT来首先将归一化的互相关函数Pi变换到时域。相干性估计器112用复相干性值Qi的绝对值来估计相干性ICi。相位差估计器113用复相干性值Qi的辐角或者角度来估计IPDi。

这样，在每一相关子带中，无需IFFT操作以及搜索归一化互相关ri的最大值就可以获得对应于每一相关子带i的通道间相干性ICi和通道间相位差IPDi。这样就节省了大量的计算。或者，可以通过对未归一化的互相关函数Ri进行求和来得到复相干性值Qi。

图3表示根据本发明另一实施例的音频编码器的一部分的框图。

对于高频(例如高于2kHz或者高于4kHz)，在现有技术中(cf.Baumgarte，F.，Faller.C(2002).Estimation of auditory spatial cues forbinaural cue coding(用于双声道品质因数编码的听觉空间品质因数估计).Proc.ICASSP’02)，可以计算包络相干性，其计算量甚至比参照图1阐述的波形相干性的计算更大。实验结果表明，可以通过将频域中(归一化)的复数互相关函数Ri的相位值ARG以其导数DA替换而相当准确地估计包络相干性。

图3表示如图1所示相同的互相关确定电路106。互相关确定电路106计算对应于每一相关子带的子带音频信号Xi(k)和Yi(k)的复数互相关函数Ri。通常，在每一个相关子带中，通过将频域中的其中一个音频信号Xi(k)乘以频域中的另一音频信号Yi(k)的复数共轭而得到该互相关函数Ri。接收该互相关函数Ri的电路114包括一个用来确定此复数互相关函数Ri的辐角ARG的导数DA的计算单元1140。该互相关函数Ri的幅度AV没有改变。电路114的输出信号为经校正的互相关函数R’i(Xi(k)，Yi(k))(其也被称为R’i)，其具有所述互相关函数Ri的幅度AV和作为辐角ARG的导数DA的辐角：

|R’i(Xi(k)，Yi(k))|＝|Ri(Xi(k)，Yi(k))|以及

arg(R’i(Xi(k)，Yi(k)))＝d(arg(Ri(Xi(k)，Yi(k))))/dk相干性值计算电路111通过对复数互相关函数R’I进行求和来计算每一相关子带的复相干性值Qi。这样，不同于计算密集的希尔伯特包络方法，现在仅需要简单的运算。

当然，上述方法也可应用于归一化的复数互相关函数Pi，以获得经校正的复数归一化互相关函数P’i。

图4表示频域中的音频信号的子带划分的图示。图4A表示频域中的音频信号X(k)如何被划分为频谱f的子带i中的子带音频信号Xi(k)。图4B表示频域中的音频信号Y(k)如何被划分为频谱f的子带i中的子带音频信号Yi(k)。频域信号X(k)和Y(k)被分组到各子带i中，最终得到各子带Xi(k)和Yi(k)。每一个子带Xi(k)对应于FFT小频段索引的一个特定范围k＝[ksi...kei]，其中ksi和kei分别表示第一个和最后一个FFT小频段索引k。类似的，每一个子带Yi(k)对应于FFT小频段索引k的相同范围。

值得注意的是，上述实施例阐明而非限制本发明，本领域中的技术人员可以在不违背所附权利要求书的范围内设计许多替换实施例。

本发明并不局限于立体声信号，而是例如可以实现在用于DVD和SACD中的多通道音频上。

在权利要求书中，任何置于括号之内的附图标记都不应当被理解为对权利要求进行限制。术语“包括”并不排除不同于权利要求中所列出的其它元件或者步骤的存在。元件前的冠词“一个”不排除多个此类元件的存在。本发明可以通过包括几个不同元件的硬件来实现，并且可以通过适当编程的计算机来实现。在列举几个装置的设备权利要求中，这些装置中的几个可以用同一硬件项具体实现。在相互不同的从属权利要求中引述某些措施这一事实，并不表示不能有利地使用这些措施的组合。

Claims

1.一种用于编码音频信号的编码器，该编码器包括：

用于生成一个包括至少两个输入音频信号(x(n)，y(n))的组合的单声道信号(MAS)的装置(1)；以及

用于生成一组表示所述至少两个输入音频信号(x(n)，y(n))的空间属性的空间参数(IPDi；ICi)的装置(10)，其中该组空间参数(IPDi；ICi)至少包括通道间相干性值(ICi)和/或通道间相位差值(IPDi)，并且其中用于生成该组空间参数(IPDi；ICi)的装置(10)包括：

用于生成所述至少两个输入音频信号(x(n)，y(n))的互相关函数(Ri；Pi)的装置(106；106，107)；

用于通过对所述互相关函数(Ri；Pi)的值进行求和来确定一个复相干性值(Qi)的装置(111)；以及

用于确定该复相干性值(Qi)的绝对值以获得一个对通道间相干性值(ICi)的估计的装置(112)；以及/或者

用于确定该复相干性值(Qi)的辐角以获得一个对通道间相位差值(IPDi)的估计的装置(113)。

2.如权利要求1所述的用于对音频信号进行编码的编码器，其中所述用于生成该组空间参数(IPDi；ICi)的装置(10)包括用于将输入音频信号(x(n)，y(n))变换到频域或者子带域中以获得频域或者子带域内的音频信号(X(k)，Y(k))的装置(102，103)，并且其中用于生成所述互相关函数(Ri；Pi)的装置(106；106，107)被安排成通过将频域或者子带域内的其中一个音频信号(X(k)，Y(k))乘以频域或者子带域内的另一个音频信号(X(k)，Y(k))的复数共轭来计算所述复数互相关函数(Ri；Pi)。

3.如权利要求2所述的用于对音频信号进行编码的编码器，其中所述用于生成互相关函数(Ri；Pi)的装置(106；106，107)被安排成计算所述互相关函数(Ri)的经校正的互相关函数(R’i)，其中该互相关函数(Ri)的辐角(ARG)在该经校正的互相关函数(R’i)中为所述辐角(ARG)的导数(DA)所代替，并且其中用于确定复相干性值(Qi)的装置(111)被安排成对该经校正的互相关函数(R’i)的值进行求和。

4.如权利要求1所述的用于对音频信号进行编码的编码器，其中所述用于生成该组空间参数(IPDi；ICi)的装置(10)包括用于将输入信号(x(n)，y(n))变换到频域中以获得频域内的音频信号(X(k)，Y(k))的装置(102，103)，以及用于将频域内的音频信号(X(k)，Y(k))划分为与各频率子带(i)相关联的多个子带信号(Xi(k)，Yi(k))的装置(104，105)，并且其中，

用于生成互相关函数(Ri；Pi)的装置(106；106，107)被安排成根据所述子带信号(Xi(k)，Yi(k))为属于所述频率子带(i)的一个子集的至少每一个频率子带(i)确定互相关函数(Ri；Pi)；

用于确定复相干性值(Qi)的装置(111)被安排成在属于所述子集的至少每一个频率子带(i)中对所述互相关函数(Ri；Pi)的值进行求和；

用于确定复相干性值(Qi)的绝对值的装置(112)被安排成对于所述子集的至少每一个频率子带(i)获得对相干性值(ICi)的估计；以及/或者

用于确定复相干性值(Qi)的辐角的装置(113)被安排成对于所述子集的至少每一个频率子带(i)获得所述通道间相位差值(IPDi)。

5.如权利要求4所述的用于对音频信号进行编码的编码器，其中所述用于生成互相关函数(Ri；Pi)的装置(106；106，107)被安排成：

对于低于一个预定频率的频率子带(i)，将所述互相关函数(Ri；Pi)计算为其中一个子带信号(Xi(k)，Yi(k))与另一个子带信号(Xi(k)，Yi(k))的复数共轭的乘积，其中用于确定复相干性值(Qi)的装置(111)被安排成在所述子集的至少每一个频率子带(i)中对所述互相关函数(Ri；Pi)的值进行求和；以及

对于高于该预定频率的各频率子带(i)，计算所述互相关函数(Ri)的经校正的互相关函数(R’i)，其中该互相关函数(Ri)的辐角(ARG)在该经校正的互相关函数(R’i)中为所述辐角(ARG)的导数(DA)所代替，并且其中用于确定复相干性值(Qi)的装置(111)被安排成在所述子集的至少每一个频率子带(i)中对所述经校正的互相关函数(R’i)的值进行求和。

6.一种用于对音频信号进行编码的方法，该方法包括：

生成(1)一个包括至少两个输入音频信号(x(n)，y(n))的组合的单声道信号(MAS)；以及

生成(10)一组表示所述至少两个输入音频信号(x(n)，y(n))的空间属性的空间参数(IPDi；ICi)，其中该组空间参数(IPDi；ICi)至少包括通道间相干性值(ICi)和/或通道间相位差值(IPDi)，并且其中生成(10)该组空间参数(IPD；IC)的步骤包括：

在频域中生成(106；106，107)所述至少两个输入音频信号(x(n)，y(n))的互相关函数(Ri；Pi)；

通过对所述互相关函数(Ri；Pi)的值进行求和来确定(111)一个复相干性值(Qi)；以及

确定(112)该复相干性值(Qi)的绝对值以获得对所述通道间相干性值(ICi)的估计；以及/或者

确定(113)该复相干性值(Qi)的辐角以获得对所述通道间相位差值(IPDi)的估计。