CN1860526B - 音频信号编码 - Google Patents

音频信号编码 Download PDF

Info

Publication number
CN1860526B
CN1860526B CN2004800281847A CN200480028184A CN1860526B CN 1860526 B CN1860526 B CN 1860526B CN 2004800281847 A CN2004800281847 A CN 2004800281847A CN 200480028184 A CN200480028184 A CN 200480028184A CN 1860526 B CN1860526 B CN 1860526B
Authority
CN
China
Prior art keywords
correlation function
cross correlation
value
subband
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2004800281847A
Other languages
English (en)
Other versions
CN1860526A (zh
Inventor
D·J·布里巴特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1860526A publication Critical patent/CN1860526A/zh
Application granted granted Critical
Publication of CN1860526B publication Critical patent/CN1860526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

编码器将音频信号(x(n),y(n))从时域变换为频域中的音频信号(X(k),Y(k)),并且确定频域中的互相关函数(Ri,Pi)。通过对频域中的(复数)互相关函数值(Ri,Pi)进行求和计算出复相干性值(Qi)。通过该复相干性值(Qi)的辐角来估计通道间相位差(IPDi),并且通过该复相干性值(Qi)的绝对值来估计通道间相干性(ICi)。在现有技术中,计算密集的逆快速傅立叶变换和在时域中搜索所述互相关函数(Ri;Pi)的最大值都是必需的。

Description

音频信号编码
发明领域
本发明涉及一种用于音频信号的编码器,以及一种对音频信号进行编码的方法.
发明背景
在音频编码领域中,通常期望对音频信号进行编码以便减小比特率而不显著损害音频信号的感知质量。对于在传送音频信号时限制带宽以及限制存储音频信号所需的存储量而言,已减小的比特率是有优势的。
最近数年中,尤其在音频编码领域,音频信号的参数化描述受到了关注。已经表明,为了能够在接收端合成感知上基本相同的音频信号,传输(已量化的)描述音频信号的参数仅需要有限的传输容量。
US2003/0026441公开了通过将两组或者更多不同组的一种或者多种空间参数(例如耳间声级差ILD,或者耳间时间差ITD)应用到一个组合音频信号的两个或者更多不同频带上来合成听觉场景,其中的每一不同频带被当作其对应于场景中的一个单一音频源来处理。在一个实施例中,该组合音频信号对应于一个双声道信号的左、右音频信号的组合,该双声道信号对应于一个输入听觉场景。通过将需要被传输至接收机的不同音频信号的数目减小到1,传输带宽需求被降低,其中所述接收机被设置成合成/重建所述听觉场景。
在发送器中,将TF变换应用于所述输入双声道信号的左、右音频信号当中的每一个的相应部分,以将所述信号转换到频域。听觉场景分析器处理已转换的频域内的左、右音频信号,以便为上述已转换的信号中的多个不同频带当中的每一个生成一组听觉场景参数。对于每一个相应的频带对,该分析器比较已转换的左、右音频信号,以便生成一个或更多的空间参数。特别的,对于每一个频带,已转换的左、右音频信号之间的互相关函数被估计。该互相关函数的最大值指示了两个信号之间的相关程度。所述互相关的最大值在时间上的位置对应于ITD。ILD可以通过计算左、右音频信号的功率值之间的电平差来获得。
发明概述
本发明的一个目的在于提供一种对音频信号进行编码的编码器,其要求更少的处理能力。
为了实现该目的,本发明的第一方面提供了一种用于对音频信号进行编码的编码器。发明的第二方面提供了一种对音频信号进行编码的方法。
公开于US2003/0026441中的编码器首先将音频信号由时域变换至频域。该变换通常被称为快速傅立叶变换,又被称为FFT.通常,时域中的音频信号被划分为时间片段或者帧的序列,并且顺序地对每一帧执行到频域的变换。频域的相关部分被划分为频带。在每一个频带中,确定输入音频信号的互相关函数。该互相关函数必须由频域变换至时域。该变换通常被称为逆快速傅立叶变换,又被称为IFFT。在时域中,必须确定该互相关函数的最大值,以便找到该最大值在时间上的位置,从而找到ITD的数值。
依据本发明的第一方面的编码器也必须将音频信号由时域变换至频域,并且也必须确定频域中的互相关函数。在依据本发明的编码器中,所使用的空间参数为通道间相位差(又称为IPD)或者通道间相干性(又称为IC),或者二者都被使用。同样,例如通道间声级差(又称为ILD)之类的其它空间参数也可以被编码。通道间相位差IPD可以与现有技术中的耳间时间差ITD相比较。
然而,取代执行IFFT并在时域中搜索所述互相关函数的最大值,通过在频域中对各(复数)互相关函数值进行求和来计算一个复相干性值。通道间相位差IPD通过该复相干性值的辐角被估计,通道间相干性IC通过该复相干性值的绝对值被估计。
在现有技术US2003/0026441中,逆FFT和在时域中搜索所述互相关函数的最大值需要大量的处理。并且该现有技术没有提到确定所述相干性参数。
在依据本发明的编码器中,不需要逆FFT,所述复相干性值通过在频域中对备(复数)互相关函数值进行求和而得到。不论是IPD或IC、或者IPD和IC都可以简单地通过该和值来确定。从而用简单的求和运算取代了逆FFT所需的大量计算。因此,依据本发明的方法需要更少的计算量。
值得注意的是,虽然现有技术US2003/0026441使用FFT来产生输入信号的复数值频域表示,但是也可以使用复数滤波器组。这种滤波器组使用复数调制器来获得一组带限复信号(cf.Ekstrand,P.(2002),“Bandwidth extension of audio signals by spectral bandreplication(谱带复制引起的音频信号带宽展宽)”,Proc.1st BeneluxWorkshop on model based processing and coding of audio(MPCA-2002),Leuven,Belgium)。IPD和IC参数可以以和FFT相似的方式计算,仅有的不同在于需要沿时间而非小频段(bin)进行求和。
在一个实施例中,用于生成该组空间参数(IPDi;ICi)的装置包括用于将输入音频信号(x(n),y(n))变换到频域或者子带域中以获得频域或者子带域内的音频信号(X(k),Y(k))的装置,并且其中用于生成所述互相关函数(Ri;Pi)的装置被安排成通过将频域或者子带域内的其中一个音频信号(X(k),Y(k))乘以频域或者子带域内的另一个音频信号(X(k),Y(k))的复数共轭来计算所述复数互相关函数(Ri;Pi)。这意味着所述互相关函数被计算为在带限、复数域内的其中一个输入音频信号与另一个输入音频信号的复数共轭相乘,从而得到一个复数互相关函数,可以认为该函数可以用一个绝对值和一个辐角来表示。
在又一实施例中,用于生成互相关函数(Ri;Pi)的装置被安排成计算所述互相关函数(Ri)的经校正的互相关函数(R’i),其中该互相关函数(Ri)的辐角(ARG)在该经校正的互相关函数(R’i)中为所述辐角(ARG)的导数(DA)所代替,并且其中用于确定复相干性值(Qi)的装置(111)被安排成对该经校正的互相关函数(R’i)的值进行求和。这意味着经校正的互相关函数被计算为这样一个互相关函数,其中上述辐角为该辐角的导数所取代。众所周知,在高频下,人类的听觉系统对两个输入通道之间的微细结构相位差并不敏感。然而,却存在对时间差和包络相干性的相当大的敏感性。因而在高频下,对每一个频带计算包络ITD和包络相干性更加恰当。可是,这需要一个额外的计算(希尔伯特)包络的步骤。在根据本发明的实施例中,通过直接在频域内对已校正的互相关函数进行求和来计算所述复相干性值是可行的。此外,IPD和/或IC可以简单地分别作为该和值的辐角和相位而从该和值确定。
在另一实施例中,用于生成该组空间参数(IPDi;ICi)的装置包括用于将输入音频信号(x(n),y(n))变换到频域中以获得频域内的音频信号(X(k),Y(k))的装置,以及用于将频域内的音频信号(X(k),Y(k))划分为与各频率子带(i)相关联的多个子带信号(Xi(k),Yi(k))的装置,并且其中,
用于生成互相关函数(Ri;Pi)的装置被安排成根据所述子带信号(Xi(k),Yi(k))为属于所述频率子带(i)的一个子集的至少每一个频率子带(i)确定互相关函数(Ri;Pi);
用于确定复相干性值(Qi)的装置(111)被安排成在属于所述子集的至少每一个频率子带(i)中对所述互相关函数(Ri;Pi)的值进行求和;
用于确定复相干性值(Qi)的绝对值的装置被安排成对于所述子集的至少每一个频率子带(i)获得对相干性值(ICi)的估计;以及/或者
用于确定复相干性值(Qi)的辐角的装置被安排成对于所述子集的至少每一个频率子带(i)获得所述通道间相位差值(IPDi)。这意味着频域被划分为预定数目的频率子带(也被称为子带)。由不同子带覆盖的频率范围可以随着频率的增加而增加。利用频域内的每个子带中的两个输入音频信号,为该子带确定所述复数互相关函数。频域内的位于其中一个特定子带内的输入音频信号也被称为子带音频信号。其结果是对应于每一个子带的互相关函数。或者,取决于所需要的合成音频信号的质量,可以仅仅对于所述子带的一个子集来确定所述互相关函数。通过对每一个子带内的(复数)互相关函数值进行求和来计算所述复相干性值。因而,IPD和/或IC也可以对于每一个子带确定。该子带方法允许对不同的频率子带提供不同的编码,并允许对于编码音频信号的比特率进一步优化解码音频信号的质量。
在再一实施例中,用于生成互相关函数(Ri;Pi)的装置被安排成:
对于低于一个预定频率的频率子带(i),将所述互相关函数(Ri;Pi)计算为其中一个子带信号(Xi(k),Yi(k))与另一个子带信号(Xi(k),Yi(k))的复数共轭的乘积,其中用于确定复相干性值(Qi)的装置被安排成在所述子集的至少每一个频率子带(i)中对所述互相关函数(Ri;Pi)的值进行求和;以及
对于高于该预定频率的各频率子带(i),计算所述互相关函数(Ri)的经校正的互相关函数(R’i),其中该互相关函数(Ri)的辐角(ARG)在该经校正的互相关函数(R’i)中为所述辐角(ARG)的导数(DA)所代替,并且其中用于确定复相干性值(Qi)的装置被安排成在所述子集的至少每一个频率子带(i)中对所述经校正的互相关函数(R’i)的值进行求和。这意味着对于较低的频率,通过将其中一个子带音频信号与另一个子带音频信号的复数共轭相乘来获得每个子带的复数互相关函数。该复数互相关函数具有绝对值和辐角。通过对每一个子带内的互相关函数值进行求和得到所述复相干性值。对于较高的频率,经校正的互相关函数以与较低频率的互相关函数相同的方式来确定,但其中的辐角由该辐角的导数所取代。现在,通过对每一子带的经校正的互相关函数值进行求和来得到每一子带的复相干性值。IPD和/或IC以相同的方式从所述复相干性值确定,而与频率无关。
还提供了一种用于对音频信号进行编码的方法,该方法包括:
生成一个包括至少两个输入音频信号(x(n),y(n))的组合的单声道信号(MAS);以及
生成一组表示所述至少两个输入音频信号(x(n),y(n))的空间属性的空间参数(IPDi;ICi),其中该组空间参数(IPDi;ICi)至少包括通道间相干性值(ICi)和/或通道间相位差值(IPDi),并且其中生成该组空间参数(IPD;IC)的步骤包括:
在频域中生成所述至少两个输入音频信号(x(n),y(n))的互相关函数(Ri;Pi);
通过对所述互相关函数(Ri;Pi)的值进行求和来确定一个复相干性值(Qi);以及
确定该复相干性值(Qi)的绝对值以获得对所述通道间相干性值(ICi)的估计;以及/或者
确定该复相干性值(Qi)的辐角以获得对所述通道间相位差值(IPDi)的估计。
参照下文所述的实施例,本发明的这些和其它方面将是显而易见的。
附图简述
在附图中:
图1表示音频编码器的框图,
图2表示根据本发明一个实施例的音频编码器的框图,
图3表示根据本发明另一实施例的音频编码器的一部分的框图,以及
图4表示频域中的音频信号的子带划分的图示。
优选实施例详述
图1表示音频编码器的框图。该音频编码器接收两个输入音频信号x(n)和y(n),其例如是时域中的立体声信号的左音频信号和右音频信号的数字化表示。索引n指示输入音频信号x(n)和y(n)的样本。组合电路1将这两个输入音频信号x(n)和y(n)组合成一个单声道信号MAS。输入音频信号x(n)和y(n)中的立体声信息在参数化电路10中被参数化,该电路包括电路100至113,并依例提供以下参数:每一频率子带的通道间时间差ITDi(或者IPDi:每一频率子带的通道间相位差)和CIi(每一频率子带的通道间相干性)。该单声道信号MAS和参数ITDi、ICi通过传输系统被传输或被存储于存储介质中(未显示)。在接收机或者解码器处(未显示),从该单声道信号MAS和参数ITDi、Ici来重构原始信号x(n)和y(n)。
通常,输入音频信号x(n)和y(n)按每个时间片段或帧而被处理。分段电路100接收输入音频信号x(n)并在一帧期间内储存所接收的样本,以便可以给FFT电路102提供该帧的所存储样本Sx(n)。分段电路101接收输入音频信号y(n)并在一帧期间内储存所接收的样本,以便可以给FFT电路103提供该帧的所存储样本Sy(n)。
FFT电路102对已存储的样本Sx(n)执行快速傅立叶变换,以便获得频域中的音频信号X(k)。以同样的方式,FFT电路103对已存储的样本Sy(n)执行快速傅立叶变换,以便获得频域中的音频信号Y(k)。子带划分器104和105分别接收音频信号X(k)和Y(k),以便将这些音频信号X(k)和Y(k)的频谱划分为频率子带i(见图4),从而获得子带音频信号Xi(k)和Yi(k)。参照图4,该操作被进一步阐述。
互相关确定电路106对每一个相关子带计算子带音频信号Xi(k)和Yi(k)的复数互相关函数Ri。通常,在每一个相关子带中,通过将频域中的其中一个音频信号Xi(k)与频域中的另一音频信号Yi(k)的复数共轭相乘而得到该互相关函数Ri。用Ri(X,Y)(k)或者Ri(X(k),Y(k))表示该互相关函数将更为准确,但为清楚起见,将其简写为Ri。
可选的归一化电路107对所述互相关函数Ri进行归一化,以便获得归一化的互相关函数Pi(X,Y)(k)或者Pi(X(k),Y(k)),其被简写为Pi:
Pi=Ri(Xi,Yi)/sqrt(sum(Xi(k).conj Xi(k))*(sum Xi(k).conj Xi(k)))
其中sqrt为平方根,conj为复数共轭。
值得注意的是,该归一化处理需要对两个输入信号x(n)、y(n)的子带信号Xi(k)、Yi(k)的能量的计算。然而,为了计算当前子带i的通道间强度差IID,该操作总是需要的。IID由这两个能量的商确定。这样,可以通过取这两个输入信号Xi(k)、Yi(k)的相应的子带强度的测角均值(goniometric mean)来归一化该互相关函数Ri。
众所周知的IFFT(逆快速傅立叶变换)电路108将频域中的归一化互相关函数Pi变换回时域,从而产生时域中的归一化互相关函数ri(x(n),y(n))或者ri(x,y)(n),其被简写为ri。电路109确定该归一化互相关函数ri的峰值。特定子带的通道间时间延迟ITDi为峰值出现时的该归一化互相关函数ri的变元n。或者换句话说,对应于该归一化互相关ri中的该最大值的延迟为ITDi。特定子带的通道间相干性ICi为峰值。ITDi提供了为获得最高可能相似度所需的、两个输入音频信号x(n)、y(n)相对于彼此的偏移。ICi表示在每一个子带中,经偏移的输入音频信号x(n)和y(n)有多相似。或者,也可以对未归一化的互相关函数Ri执行IFFT。
虽然此框图表示执行各操作的分离的框,但是所述操作也可以由单一的专用电路或者集成电路完成。用一个适当编程的微处理器来执行全部或者部分的操作同样是可行的。
图2表示根据本发明一个实施例的音频编码器的框图。该音频编码器包括与图1所示相同并且以同样方式操作的电路1以及电路100到107。同样,可选的归一化电路107对互相关函数Ri进行归一化,以获得归一化的互相关函数Pi。相干性值计算电路111通过对复数归一化互相关函数Pi进行求和来计算出对应于每个相关子带i的复相干性值Qi:
Qi=sum(Pi(Xi(k),Yi(k)))
FFT小频段(FFT-bin)索引k由每一个子带的带宽确定。优选的,为了最小化计算量,仅正频率(k=0到K/2,其中K为FFT的尺寸)或者负频率(k=-K/2到0)被求和。该计算在频域中执行,因而无需IFFT来首先将归一化的互相关函数Pi变换到时域。相干性估计器112用复相干性值Qi的绝对值来估计相干性ICi。相位差估计器113用复相干性值Qi的辐角或者角度来估计IPDi。
这样,在每一相关子带中,无需IFFT操作以及搜索归一化互相关ri的最大值就可以获得对应于每一相关子带i的通道间相干性ICi和通道间相位差IPDi。这样就节省了大量的计算。或者,可以通过对未归一化的互相关函数Ri进行求和来得到复相干性值Qi。
图3表示根据本发明另一实施例的音频编码器的一部分的框图。
对于高频(例如高于2kHz或者高于4kHz),在现有技术中(cf.Baumgarte,F.,Faller.C(2002).Estimation of auditory spatial cues forbinaural cue coding(用于双声道品质因数编码的听觉空间品质因数估计).Proc.ICASSP’02),可以计算包络相干性,其计算量甚至比参照图1阐述的波形相干性的计算更大。实验结果表明,可以通过将频域中(归一化)的复数互相关函数Ri的相位值ARG以其导数DA替换而相当准确地估计包络相干性。
图3表示如图1所示相同的互相关确定电路106。互相关确定电路106计算对应于每一相关子带的子带音频信号Xi(k)和Yi(k)的复数互相关函数Ri。通常,在每一个相关子带中,通过将频域中的其中一个音频信号Xi(k)乘以频域中的另一音频信号Yi(k)的复数共轭而得到该互相关函数Ri。接收该互相关函数Ri的电路114包括一个用来确定此复数互相关函数Ri的辐角ARG的导数DA的计算单元1140。该互相关函数Ri的幅度AV没有改变。电路114的输出信号为经校正的互相关函数R’i(Xi(k),Yi(k))(其也被称为R’i),其具有所述互相关函数Ri的幅度AV和作为辐角ARG的导数DA的辐角:
|R’i(Xi(k),Yi(k))|=|Ri(Xi(k),Yi(k))|以及
arg(R’i(Xi(k),Yi(k)))=d(arg(Ri(Xi(k),Yi(k))))/dk
相干性值计算电路111通过对复数互相关函数R’I进行求和来计算每一相关子带的复相干性值Qi。这样,不同于计算密集的希尔伯特包络方法,现在仅需要简单的运算。
当然,上述方法也可应用于归一化的复数互相关函数Pi,以获得经校正的复数归一化互相关函数P’i。
图4表示频域中的音频信号的子带划分的图示。图4A表示频域中的音频信号X(k)如何被划分为频谱f的子带i中的子带音频信号Xi(k)。图4B表示频域中的音频信号Y(k)如何被划分为频谱f的子带i中的子带音频信号Yi(k)。频域信号X(k)和Y(k)被分组到各子带i中,最终得到各子带Xi(k)和Yi(k)。每一个子带Xi(k)对应于FFT小频段索引的一个特定范围k=[ksi...kei],其中ksi和kei分别表示第一个和最后一个FFT小频段索引k。类似的,每一个子带Yi(k)对应于FFT小频段索引k的相同范围。
值得注意的是,上述实施例阐明而非限制本发明,本领域中的技术人员可以在不违背所附权利要求书的范围内设计许多替换实施例。
本发明并不局限于立体声信号,而是例如可以实现在用于DVD和SACD中的多通道音频上。
在权利要求书中,任何置于括号之内的附图标记都不应当被理解为对权利要求进行限制。术语“包括”并不排除不同于权利要求中所列出的其它元件或者步骤的存在。元件前的冠词“一个”不排除多个此类元件的存在。本发明可以通过包括几个不同元件的硬件来实现,并且可以通过适当编程的计算机来实现。在列举几个装置的设备权利要求中,这些装置中的几个可以用同一硬件项具体实现。在相互不同的从属权利要求中引述某些措施这一事实,并不表示不能有利地使用这些措施的组合。

Claims (6)

1.一种用于编码音频信号的编码器,该编码器包括:
用于生成一个包括至少两个输入音频信号(x(n),y(n))的组合的单声道信号(MAS)的装置(1);以及
用于生成一组表示所述至少两个输入音频信号(x(n),y(n))的空间属性的空间参数(IPDi;ICi)的装置(10),其中该组空间参数(IPDi;ICi)至少包括通道间相干性值(ICi)和/或通道间相位差值(IPDi),并且其中用于生成该组空间参数(IPDi;ICi)的装置(10)包括:
用于在频域中生成所述至少两个输入音频信号(x(n),y(n))的互相关函数(Ri;Pi)的装置(106;106,107);
用于通过对所述互相关函数(Ri;Pi)的值进行求和来确定一个复相干性值(Qi)的装置(111);以及
用于确定该复相干性值(Qi)的绝对值以获得一个对通道间相干性值(ICi)的估计的装置(112);以及/或者
用于确定该复相干性值(Qi)的辐角以获得一个对通道间相位差值(IPDi)的估计的装置(113)。
2.如权利要求1所述的用于对音频信号进行编码的编码器,其中所述用于生成该组空间参数(IPDi;ICi)的装置(10)包括用于将输入音频信号(x(n),y(n))变换到频域或者子带域中以获得频域或者子带域内的音频信号(X(k),Y(k))的装置(102,103),并且其中用于生成所述互相关函数(Ri;Pi)的装置(106;106,107)被安排成通过将频域或者子带域内的其中一个音频信号(X(k),Y(k))乘以频域或者子带域内的另一个音频信号(X(k),Y(k))的复数共轭来计算所述复数互相关函数(Ri;Pi)。
3.如权利要求2所述的用于对音频信号进行编码的编码器,其中所述用于生成互相关函数(Ri;Pi)的装置(106;106,107)被安排成计算所述互相关函数(Ri)的经校正的互相关函数(R’i),其中该互相关函数(Ri)的辐角(ARG)在该经校正的互相关函数(R’i)中为所述辐角(ARG)的导数(DA)所代替,并且其中用于确定复相干性值(Qi)的装置(111)被安排成对该经校正的互相关函数(R’i)的值进行求和。
4.如权利要求1所述的用于对音频信号进行编码的编码器,其中所述用于生成该组空间参数(IPDi;ICi)的装置(10)包括用于将输入音频信号(x(n),y(n))变换到频域中以获得频域内的音频信号(X(k),Y(k))的装置(102,103),以及用于将频域内的音频信号(X(k),Y(k))划分为与各频率子带(i)相关联的对应多个子带信号(Xi(k),Yi(k))的装置(104,105),并且其中,
用于生成互相关函数(Ri;Pi)的装置(106;106,107)被安排成根据所述子带信号(Xi(k),Yi(k))为属于所述频率子带(i)的一个子集的至少每一个频率子带(i)确定互相关函数(Ri;Pi);
用于确定复相干性值(Qi)的装置(111)被安排成在属于所述子集的至少每一个频率子带(i)中对所述互相关函数(Ri;Pi)的值进行求和;
用于确定复相干性值(Qi)的绝对值的装置(112)被安排成对于所述子集的至少每一个频率子带(i)获得对相干性值(ICi)的估计;以及/或者
用于确定复相干性值(Qi)的辐角的装置(113)被安排成对于所述子集的至少每一个频率子带(i)获得所述通道间相位差值(IPDi)。
5.如权利要求4所述的用于对音频信号进行编码的编码器,其中所述用于生成互相关函数(Ri;Pi)的装置(106;106,107)被安排成:
对于低于一个预定频率的频率子带(i),将所述互相关函数(Ri;Pi)计算为其中一个子带信号(Xi(k),Yi(k))与另一个子带信号(Xi(k),Yi(k))的复数共轭的乘积,其中用于确定复相干性值(Qi)的装置(111)被安排成在所述子集的至少每一个频率子带(i)中对所述互相关函数(Ri;Pi)的值进行求和;以及
对于高于该预定频率的各频率子带(i),计算所述互相关函数(Ri)的经校正的互相关函数(R’i),其中该互相关函数(Ri)的辐角(ARG)在该经校正的互相关函数(R’i)中为所述辐角(ARG)的导数(DA)所代替,并且其中用于确定复相干性值(Qi)的装置(111)被安排成在所述子集的至少每一个频率子带(i)中对所述经校正的互相关函数(R’i)的值进行求和。
6.一种用于对音频信号进行编码的方法,该方法包括:
生成(1)一个包括至少两个输入音频信号(x(n),y(n))的组合的单声道信号(MAS);以及
生成(10)一组表示所述至少两个输入音频信号(x(n),y(n))的空间属性的空间参数(IPDi;ICi),其中该组空间参数(IPDi;ICi)至少包括通道间相干性值(ICi)和/或通道间相位差值(IPDi),并且其中生成(10)该组空间参数(IPD;IC)的步骤包括:
在频域中生成(106;106,107)所述至少两个输入音频信号(x(n),y(n))的互相关函数(Ri;Pi);
通过对所述互相关函数(Ri;Pi)的值进行求和来确定(111)一个复相干性值(Qi);以及
确定(112)该复相干性值(Qi)的绝对值以获得对所述通道间相干性值(ICi)的估计;以及/或者
确定(113)该复相干性值(Qi)的辐角以获得对所述通道间相位差值(IPDi)的估计。
CN2004800281847A 2003-09-29 2004-09-16 音频信号编码 Active CN1860526B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03103591 2003-09-29
EP03103591.8 2003-09-29
PCT/IB2004/051775 WO2005031704A1 (en) 2003-09-29 2004-09-16 Encoding audio signals

Publications (2)

Publication Number Publication Date
CN1860526A CN1860526A (zh) 2006-11-08
CN1860526B true CN1860526B (zh) 2010-06-16

Family

ID=34384664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800281847A Active CN1860526B (zh) 2003-09-29 2004-09-16 音频信号编码

Country Status (9)

Country Link
US (1) US7720231B2 (zh)
EP (1) EP1671316B1 (zh)
JP (1) JP2007507726A (zh)
KR (1) KR20060090984A (zh)
CN (1) CN1860526B (zh)
AT (1) ATE368921T1 (zh)
DE (1) DE602004007945T2 (zh)
ES (1) ES2291939T3 (zh)
WO (1) WO2005031704A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
WO2006008683A1 (en) * 2004-07-14 2006-01-26 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
KR100657916B1 (ko) * 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) * 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
WO2007010451A1 (en) * 2005-07-19 2007-01-25 Koninklijke Philips Electronics N.V. Generation of multi-channel audio signals
US8433583B2 (en) 2006-03-29 2013-04-30 Koninklijke Philips International N.V. Audio decoding
US8346546B2 (en) * 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
JP4940888B2 (ja) * 2006-10-23 2012-05-30 ソニー株式会社 オーディオ信号伸張圧縮装置及び方法
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
EP2162757B1 (en) * 2007-06-01 2011-03-30 Technische Universität Graz Joint position-pitch estimation of acoustic sources for their tracking and separation
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
US20100324708A1 (en) * 2007-11-27 2010-12-23 Nokia Corporation encoder
CN101188878B (zh) * 2007-12-05 2010-06-02 武汉大学 立体声音频信号的空间参数量化及熵编码方法和所用系统
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
CN101673545B (zh) * 2008-09-12 2011-11-16 华为技术有限公司 一种编解码方法及装置
US8452192B2 (en) * 2008-11-28 2013-05-28 Fujitsu Limited Apparatus and method for monitoring statistical characteristics of phase noises, and coherent optical communication receiver
CN101848412B (zh) * 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
US8848925B2 (en) * 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
CN102157149B (zh) 2010-02-12 2012-08-08 华为技术有限公司 立体声信号下混方法、编解码装置和编解码系统
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
EP2633520B1 (en) * 2010-11-03 2015-09-02 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
BR112013011312A2 (pt) * 2010-11-10 2019-09-24 Koninl Philips Electronics Nv método para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico, dispositivo para estimar um padrão em um sinal (s) tendo um componente periódico, semiperiódico ou virtualmente periódico e programa de computador
EP2528358A1 (en) * 2011-05-23 2012-11-28 Oticon A/S A method of identifying a wireless communication channel in a sound system
US8666753B2 (en) * 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
ES2555579T3 (es) * 2012-04-05 2016-01-05 Huawei Technologies Co., Ltd Codificador de audio multicanal y método para codificar una señal de audio multicanal
CN107358960B (zh) * 2016-05-10 2021-10-26 华为技术有限公司 多声道信号的编码方法和编码器
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1173939A (zh) * 1995-01-06 1998-02-18 马特瑞通讯法国公司 综合分析的语音编码方法
US6272196B1 (en) * 1996-02-15 2001-08-07 U.S. Philips Corporaion Encoder using an excitation sequence and a residual excitation sequence
US20010051873A1 (en) * 1998-11-13 2001-12-13 Amitava Das Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
CN1337671A (zh) * 2000-08-07 2002-02-27 朗迅科技公司 码激励线性预测语音编码中的相对脉冲位置
US20030026441A1 (en) * 2001-05-04 2003-02-06 Christof Faller Perceptual synthesis of auditory scenes

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
US6823018B1 (en) * 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1173939A (zh) * 1995-01-06 1998-02-18 马特瑞通讯法国公司 综合分析的语音编码方法
US6272196B1 (en) * 1996-02-15 2001-08-07 U.S. Philips Corporaion Encoder using an excitation sequence and a residual excitation sequence
US20010051873A1 (en) * 1998-11-13 2001-12-13 Amitava Das Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation
CN1337671A (zh) * 2000-08-07 2002-02-27 朗迅科技公司 码激励线性预测语音编码中的相对脉冲位置
US20030026441A1 (en) * 2001-05-04 2003-02-06 Christof Faller Perceptual synthesis of auditory scenes

Also Published As

Publication number Publication date
US20070036360A1 (en) 2007-02-15
EP1671316B1 (en) 2007-08-01
WO2005031704A1 (en) 2005-04-07
KR20060090984A (ko) 2006-08-17
ES2291939T3 (es) 2008-03-01
DE602004007945T2 (de) 2008-05-15
DE602004007945D1 (de) 2007-09-13
US7720231B2 (en) 2010-05-18
JP2007507726A (ja) 2007-03-29
EP1671316A1 (en) 2006-06-21
CN1860526A (zh) 2006-11-08
ATE368921T1 (de) 2007-08-15

Similar Documents

Publication Publication Date Title
CN1860526B (zh) 音频信号编码
JP6641018B2 (ja) チャネル間時間差を推定する装置及び方法
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
KR100978018B1 (ko) 공간 오디오의 파라메터적 표현
EP1649723B1 (en) Multi-channel synthesizer and method for generating a multi-channel output signal
CN102158198B (zh) 滤波器产生器、滤波器系统和提供中间滤波器定义信号的方法
CN101253809B (zh) 用于编码和解码音频信号的装置及其方法
CN100405460C (zh) 音频信号编码
CN102893329B (zh) 信号处理器、窗口提供器、用于处理信号的方法以及用于提供窗口的方法
CN108885876A (zh) 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码
CN110462733B (zh) 多声道信号的编解码方法和编解码器
CN106033671B (zh) 确定声道间时间差参数的方法和装置
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
CN107358961A (zh) 多声道信号的编码方法和编码器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant