CN104205211B - 多声道音频编码器以及用于对多声道音频信号进行编码的方法 - Google Patents
多声道音频编码器以及用于对多声道音频信号进行编码的方法 Download PDFInfo
- Publication number
- CN104205211B CN104205211B CN201280072151.7A CN201280072151A CN104205211B CN 104205211 B CN104205211 B CN 104205211B CN 201280072151 A CN201280072151 A CN 201280072151A CN 104205211 B CN104205211 B CN 104205211B
- Authority
- CN
- China
- Prior art keywords
- itd
- audio
- signal
- channel
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 113
- 230000001131 transforming Effects 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 31
- 108010094028 Prothrombin Proteins 0.000 claims description 4
- 230000000875 corresponding Effects 0.000 description 20
- 230000002123 temporal effect Effects 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000007493 shaping process Methods 0.000 description 8
- 238000002156 mixing Methods 0.000 description 7
- 210000003128 Head Anatomy 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 241000208340 Araliaceae Species 0.000 description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 description 5
- 235000005035 ginseng Nutrition 0.000 description 5
- 235000008434 ginseng Nutrition 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000000051 modifying Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003595 spectral Effects 0.000 description 3
- 230000002194 synthesizing Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 240000006409 Acacia auriculiformis Species 0.000 description 1
- 210000000887 Face Anatomy 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000002708 enhancing Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 101710031899 moon Proteins 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002441 reversible Effects 0.000 description 1
Abstract
本发明涉及一种用于确定多声道音频信号的多个音频声道信号(x1、x2)的音频声道信号(x1)的编码参数(ITD)的方法(100),每个音频声道信号(x1、x2)具有音频声道信号值(x1[n]、x2[n]),所述方法包括:确定(101)音频声道信号(x1)的音频声道信号值(x1[n])的频率变换(x1[k]);确定(103)参考音频信号(x2)的参考音频信号值(x2[n])的频率变换(x2[k]),其中所述参考音频信号是所述多个音频声道信号中的另一个音频声道信号(x2),或是从所述多个音频声道信号中的至少两个音频声道信号(x1、x2)导出的下混音频信号;确定(105)针对子频带的子集的至少每个子频带(b)的声道间差值(ICD[b]),每一声道间差值是指在所述声道间差值所关联的相应子频带(b)中的所述音频声道信号的频带限制信号部分与所述参考音频信号的频带限制信号部分之间的相位差(IPD[b])或时间差(ITD[b]);基于所述声道间差值(ICD[b])的正值来确定(107)第一平均值(ITDmean_pos),并且基于声道间差值(ICD[b])的负值来确定第二平均值(ITDmean_neg);并且基于所述第一平均值和所述第二平均值来确定(109)编码参数(ITD)。
Description
技术领域
本发明涉及音频编码,确切地说涉及参数空间音频编码,也称作参数多声道音频编码。
背景技术
如例如在针对音频和声音信号处理应用的IEEE专题研讨会会刊,2001年10月,第199页至第202页(Proc.IEEE Workshop on Appl.of Sig.Proc.to Audio and Acoust.,Oct.2001,pp.199–202)中C·法勒(C.Faller)和F·鲍姆加特(F.Baumgarte)的“使用感知参数化的空间音频的有效表示(Efficient representation of spatial audio using perceptualparametrization)”中所描述的参数立体声或多声道音频编码,使用空间提示来从下混音频信号(通常为单声道或立体声音频信号)合成多声道音频信号,所述多声道音频信号所具有的声道比下混音频信号多。通常,下混音频信号由多声道音频信号(例如立体声音频信号)的多个音频声道信号的叠加而产生。这些较少的声道是波形编码的,并且将关联于原始信号声道关系的边信息,即,空间提示,作为编码参数添加到编码的音频声道。解码器使用此边信息以基于已解码的波形编码音频声道来重新产生原始数目的音频声道。
基本参数立体声编码器可使用声道间电平差(ILD:inter-channel leveldifference)作为从单声道下混音频信号产生立体声信号所需的提示。更为复杂的编码器还可使用声道间相关性(ICC:inter-channel coherence),声道间相关性(ICC:inter-channel coherence)可表示音频声道信号(即音频声道)之间的类似程度。此外,当编码双声道立体声信号(例如用于基于3D音频或耳机的环绕呈现)时,声道间相位差(IPD:inter-channel phasedifference)也可在复制声道之间的相位/延迟差的过程中起到作用。
如从图7中所见,耳间时间差(ITD:Interaural time difference)为声音701到达两耳703、705的时间差。耳间时间差(ITD)对声音的定位而言是很重要的,因为它提供用于辨别声源701(相对于头部709)的入射方向707或角度θ的提示。如果信号从一侧到达耳703、705,那么所述信号到达远耳703(对侧的)的路径711较长并且到达近耳705(同侧的)的路径713较短。此路径长度差导致声音到达耳703、705之间的时间差715,所述时间差被检测出并被用来识别声源701的方向707。
图7给出了ITD的一个实例(表示为Δt或时间差715)。到达两耳703、705的时间差由声音波形的延迟来指示。如果到左耳703的波形先到达,那么ITD 715是正的,反之则是负的。如果声源701位于收听者的正前方,那么波形同时到达两耳703、705并且因此ITD 715为零。
ITD提示对大多数立体声录制而言是很重要的。例如,双耳音频信号可基于头相关传递函数(HRTF:Head-related transfer function)处理,通过使用(例如)仿真头部或双耳合成,从实际录制中获得,其可用于音乐录制或音频会议。因此,对于低比特率参数立体声编解码器,尤其是对于专用于对话应用的编解码器而言,ITD提示是非常重要的参数。低比特率参数立体声编解码器需要低复杂性且稳定的ITD估计算法。此外,ITD参数的使用可增大比特率开销,例如,还使用了其他参数,如声道间电平差(CLD或ILD)和声道间相关性(ICC)。对于此特定的极低比特率的情况,可以只传输一个全频带ITD参数。当只估计一个全频带ITD时,难以达成对于稳定性的约束条件。
在现有技术中,可将ITD估计方法分为三个主要类别。
ITD估计可基于时域方法。基于声道之间的时域交叉相关对ITD进行估计。ITD对应于时域交叉相关
为最大时的延迟。此方法提供了若干帧的延迟的非稳定的估计。当输入信号f和g为复杂音效场景中的宽频带信号时尤其需要这样,因为不同的子带信号可能具有不同的ITD值。当在解码器中在连续帧之间切换延迟时,非稳定的ITD会造成点击声(噪声)的引入。当对全频带信号执行此时域分析时,时域ITD估计的比特率很低,因为只对一个ITD进行了估计,编码以及传输。然而,由于涉及对高采样频率的信号的交叉相关进行的计算,复杂度非常高。
第二类的ITD估计方法的第二类别是基于频域和时域方法的组合。在1999年9月的IEEE学报《信号处理》(Signal Processing)的第47卷,第9期,第2604页到第2607页上的Marple,S.L.,Jr.的“通过离散时间‘分析型’交叉相关对群延迟及相位延迟进行估计(Estimating group delay andphase delay via discrete-time“analytic”cross-correlation)”中,频域和时域ITD估计包括以下步骤:
1.对输入信号应用快速傅里叶变换(FFT:FFT)分析以获取频率係数。
2.在频域中计算交叉相关。
3.使用反向FFT将频域交叉相关转化为时域。
4.在复杂时域中估计ITD。
此方法还可达成低比特率的约束条件,因为只对一个全频带ITD进行了估计,编码以及传输。然而,由于涉及交叉相关计算以及反向FFT,复杂度非常高,导致此方法在计算复杂度受到限制的情况下无法应用。
最终,最后一个类别是直接在频域上执行ITD估计。在2003年11月的IEEE学报《语音和音频处理》(Speech and Audio Processing)的第11卷,第6期,第509到第519页上的Baumgarte,F.和Faller,C.的“双耳提示编码第一部分:心理声学基础和设计原理”(Binaural cue coding-Part I:psychoacoustic fundamentals and design principles)中,以及在2003年11月的IEEE学报《语音和音频处理》(Speech and Audio Processing)的第11卷,第6期,第520到第531页上的Faller,C.和Baumgarte,F.的“双耳提示编码第二部分:方案和应用”(Binaural cue coding-Part II:Schemes andapplications)中,在频域中对ITD进行估计,并且针对每一频带,对ITD进行编码和传输。此解决方案的复杂度有限,但是此方法所需的比特率很高,因为对每个子频带都需要传输一个ITD。
此外,所估计的ITD的可靠性和稳定性取决于子频带信号的频率带宽,而对于较大的子频带,ITD可能是不一致的(位置不同的不同音频源可能存在于带宽限制音频信号中)。
比特率参数极低的多声道音频编码方案不仅约束了比特率,并且限制了可用的复杂性,对于专用于移动通信终端中的实施方案的编解码器尤其如此,因为必须节约电池电能。现有技术ITD估计算法无法在维持ITD估计的稳定性方面的良好质量的同时,做到同时满足低比特率及低复杂度的要求。
发明内容
本发明的目的在于提供多声道音频编码器的概念,所述多声道音频编码器在提供低比特率以及低复杂度的同时还保持了高质量的ITD估计的稳定性。
这一目标可通过独立权利要求中的特征实现。进一步实施形态可从从属权利要求、说明书和附图中清楚地了解。
本发明系基于以下发现:在多声道音频信号的两个音频声道信号的频带限制信号部分之间对ITD和IPD等声道间差值应用智能平均,可减少比特率以及带宽限制处理所涉及的计算复杂度,并且同时保持了高质量的ITD估计的稳定性。智能平均通过声道间差值的标记对声道间差值进行区分,并且根据该标记执行不同的平均,从而增加了声道间差值处理的稳定性。
为了详细描述本发明,将使用以下术语、缩写和符号:
BCC(Binaural cues coding):双耳提示编码,是关于立体声或多声道信号的编码,其使用下混以及双耳提示(或空间参数)来描述声道间关系。
双耳线索(Binaural Cue):左耳和右耳入耳信号之间的声道间提示(同时参见ITD、ILD以及IC)。
CLD(Channel level difference):声道电平差,如同ILD。
FFT(Fast Fourier Transform):DFT的快速实施,表示为快速傅立叶变换。
HRTF(Head-related transfer function):头相关传递函数,其对在自由声场中从声源到左耳以及右耳的声音转换进行建模。
IC(Inter-aural coherence):耳间相关性,即左耳和右耳入耳信号之间的相似程度。有时也将其称作IAC或耳间交叉相关(IACC)。
ICC(Inter-channel coherence):声道间相关性,声道间相关。如同IC一样,但是更加广义的定义为在任何成对信号之间(例如,成对扬声器信号,成对入耳信号等等)。
ICPD(Inter-channel phase difference):声道间相位差成对信号之间的平均相位差。
ICLD(Inter-channel level difference):声道间电平差。如同ILD一样,但是更加广义的定义为在任何成对之间(例如,成对扬声器信号,成对入耳信号等等)。
ICTD(Inter-channel time difference):声道间时间差。如同ITD一样,但是更加广义的定义为在任何成对信号之间(例如,成对扬声器信号,成对入耳信号等等)。
ILD(Interaural level difference):耳间电平差,即,左耳和右耳入耳信号之间的电平差。有时也将其称作耳间强度差(IID)。
IPD(Interaural phase difference):耳间相位差,即,左耳和右耳入耳信号之间的相位差。
ITD(Interaural time difference):耳间时间差,即,左耳和右耳入耳信号之间的时间差。有时也将其称作耳间时间延迟。
ICD(Inter-channel difference):声道间差值。用于表示两个声道之间的差值的通用术语,例如,两个声道之间的时间差、相位差、电平差或相关性。
混频(Mixing):在给定一定数目的源信号(例如分别录制的乐器、多声道录音)的情况下,生成用于空间音频播放的立体声或多声道音频信号的过程被称为混频。
OCPD(Overall channel phase difference):总体声道相位差。两个或两个以上的音频声道的共同相位修正。
空间音频(Spatial audio):音频信号,当其通过适当的播放系统进行播放时,带来听觉空间图像。
空间提示(Spatial Cues):与空间感知相关的提示。此术语用于立体声或多声道音频信号的成对声道之间的提示(同时参见ICTD、ICLD以及ICC)。也被称为空间参数或双耳提示。
根据第一方面,本发明涉及用于确定多声道音频信号的多个音频声道信号的音频声道信号的编码参数的方法,每个音频声道信号具有音频声道信号值,所述方法包括:确定音频声道信号的音频声道信号值的频率变换;确定参考音频信号的参考音频信号值的频率变换,其中参考音频信号是所述多个音频声道信号中的另一个音频声道信号;确定针对子频带的子集的至少每个子频带的声道间差值,每个声道间差值是指在该声道间差值所关联的相应子频带中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差或时间差;基于声道间差值的正值来确定第一平均值,并且基于声道间差值的负值来确定第二平均值;并且基于第一平均值和第二平均值来确定编码参数。
根据第二方面,本发明涉及用于确定多声道音频信号的多个音频声道信号中的音频声道信号的编码参数的方法,每个音频声道信号具有音频声道信号值,所述方法包括:确定音频声道信号的音频声道信号值的频率变换;确定参考音频信号的参考音频信号值的频率变换,其中参考音频信号是从多个音频声道信号中的至少两个音频声道信号中导出的下混音频信号;确定针对子频带的子集的至少每个子频带的声道间差值,每个声道间差值是指在该声道间差值所关联的相应子频带中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差或时间差;基于声道间差值的正值来确定第一平均值,并且基于声道间差值的负值来确定第二平均值;并且基于第一平均值和第二平均值来确定编码参数。
频带限制信号部分可以是频域信号部分。然而,频带限制信号部分也可以是时域信号部分。在这种情况下,可采用反向傅立叶变换器等频域至时域变换器。在时域中,可执行频带限制信号部分的延迟时间平均值计算,该计算对应于频域中的相位平均值计算。对于信号处理,可采用汉明窗形函数等窗形函数对时域信号部分进行环形摺积。
频带限制信号部分可仅覆盖一个频率窗口或覆盖一个以上频率窗口。
根据第一方面或根据第二方面的方法的第一可能实施形态中,声道间差值是声道间相位差或声道间时间差。
根据第一方面或根据第二方面的方法的第二可能实施形态中,或者说,根据第一方面的第一实施形态或根据第二方面的第一实施形态的方法的第二可能实施形态中,所述方法进一步包括:基于声道间差值的正值来确定第一标准偏差并且基于声道间差值的负值来确定第二标准偏差,其中对编码参数进行的确定是基于第一标准偏差以及第二标准偏差。
根据第一方面或根据第二方面的方法的第三可能实施形态中,或者说,根据第一方面的前述实施形态中的任一实施形态的方法的第三可能实施形态中,或者说,根据第二方面的前述实施形态中的任一实施形态的方法的第三可能实施形态中,子频带包括一个或多个频率窗口。
根据第一方面或根据第二方面的方法的第四可能实施形态中,或者说,根据第一方面的前述实施形态中的任一实施形态的方法的第四可能实施形态中,或者说,根据第二方面的前述实施形态中的任一实施形态的方法的第四可能实施形态中,针对子频带的子集的至少每个子频带的声道间差值进行的确定包括:将交叉谱确定为音频声道信号值的频率变换与参考音频信号值的频率变换的交叉相关;基于该交叉谱确定每个子频带的声道间相位差。
根据第一方面的第四实施形态或根据第二方面的第四实施形态的方法的第五可能实施形态中,将频率窗口的声道间相位差或子频带的声道间相位差被确定为交叉谱的角度。
根据第一方面的第四或第五实施形态的方法的第六可能实施形态中,或者说,根据第二方面的第四或第五实施形态的方法的第六可能实施形态中,所述方法进一步包括:基于声道间相位差来确定耳间时间差;其中对第一平均值的确定是基于耳间时间差的正值而对第二平均值的确定是基于耳间时间差的负值。
根据第一方面的第四或第五实施形态的方法的第七可能实施形态中,或者说,根据第二方面的第四或第五实施形态的方法的第七可能实施形态中,将子频带的耳间时间差确定为声道间相位差的函数,所述函数取决于频率窗口的数目并且取决于频率窗口或子频带指数。
根据第一方面的第六或第七实施形态的方法的第八可能实施形态中,或者说,根据第二方面的第六或第七实施形态的方法的第八可能实施形态中,对编码参数的确定包括:在包含于子频带的子集中的子频带的数目中,对正的耳间时间差的第一数目以及对负的耳间时间差的第二数目进行计数。
根据第一方面的第八实施形态的方法的第九可能实施形态中,或者说,根据第二方面的第八实施形态的方法的第九可能实施形态中,对编码参数的确定是基于正的耳间时间差的第一数目与负的耳间时间差的第二数目之间的比较。
根据第一方面的第九实施形态的方法的第十可能实施形态中,或者说,根据第二方面的第九实施形态的方法的第十可能实施形态中,对编码参数的确定是基于第一标准偏差与第二标准偏差之间的比较。
根据第一方面的第九或第十实施形态的方法的第十一可能实施形态中,或者说,根据第二方面的第九或第十实施形态的方法的第十一可能实施形态中,对编码参数的确定是基于正的耳间时间差的第一数目与乘以第一因子的负的耳间时间差的第二数目之间的比较。
根据第一方面的第十一实施形态的方法的第十二可能实施形态中,或者说,根据第二方面的第十一实施形态的方法的第十二可能实施形态中,对编码参数的确定是基于第一标准偏差与乘以第二因子的第二标准偏差之间的比较。
根据第一方面的第六或第七实施形态的方法的第十三可能实施形态中,或者说,根据第二方面的第六或第七实施形态的方法的第十三可能实施形态中,对编码参数的确定包括:在包含于子频带的子集中的子频带的数目中,对正的声道间差值的第一数目以及负的声道间差值的第二数目进行计数。
根据第一方面或根据第二方面的方法的第十四可能实施形态中,或者说,根据第一方面的前述实施形态中的任一实施形态或根据第二方面的前述实施形态中的任一实施形态的方法的第十四可能实施形态中,所述方法被应用于以下编码器中的编码器或编码器组合中:ITU-T G.722编码器、ITU-T G.722Annex B编码器、ITU-T G.711.1编码器、ITU-T G.711.1AnnexD编码器以及3GPP增强语音服务编码器。
与具有子频带ITD的平均值估计的ITD估计相比,根据第一或第二方面的方法在子频带内选择了最相关的ITD。因此,实现了低比特率以及低复杂度的ITD估计并且同时保持了高质量的ITD估计的稳定性。
根据第三方面,本发明涉及多声道音频编码器,所述多声道音频编码器用于确定多声道音频信号的多个音频声道信号中的音频声道信号的编码参数,每个音频声道信号具有音频声道信号值,所述参数空间音频编码器包括:傅立叶变换器等频率变换器,用于确定音频声道信号的音频声道信号值的频率变换并且用于确定参考音频信号的参考音频信号值的频率变换,其中参考音频信号是多个音频声道信号中的另一个音频声道信号;声道间差值确定器,用于确定针对子频带的子集中的至少每个子频带的声道间差值,每个声道间差值是指在该声道间差值所关联的相应子频带中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差或时间差;平均值确定器,用于基于声道间差值的正值来确定第一平均值并且用于基于声道间差值的负值来确定第二平均值;以及编码参数确定器,用于基于第一平均值并基于第二平均值来确定编码参数。
根据第四方面,本发明涉及多声道音频编码器,用于确定多声道音频信号的多个音频声道信号中的音频声道信号的编码参数,每个音频声道信号具有音频声道信号值,所述参数空间音频编码器包括:傅立叶变换器等频率变换器,用于确定音频声道信号的音频声道信号值的频率变换并且用于确定参考音频信号的参考音频信号值的频率变换,其中参考音频信号是从多个音频声道信号中的至少两个音频声道信号导出的下混音频信号;声道间差值确定器,用于确定针对子频带的子集的至少每个子频带的声道间差值,每个声道间差值是指在该声道间差值所关联的相应子频带中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差或时间差;平均值确定器,用于基于声道间差值的正值来确定第一平均值并且用于基于声道间差值的负值来确定第二平均值;以及编码参数确定器,用于基于第一平均值并基于第二平均值来确定编码参数。
根据第五方面,本发明涉及具有程序代码的计算机程序,所述程序代码在计算机上运行时执行根据第一方面或根据第二方面的方法,或者说,根据第一方面的前述实施形态中任一实施形态或根据第二方面的前述实施形态中任一实施形态的方法。
该计算机程序减少了复杂度并且因此可以有效地实施在必须节省电池电能的移动终端中。
根据第六方面,本发明涉及参数空间音频编码器,所述参数空间音频编码器用于实施根据第一方面或根据第二方面的方法,或者说,根据第一方面的前述实施形态中任一实施形态或根据第二方面的前述实施形态中任一实施形态的方法。
根据第六方面的参数空间音频编码器的第一可能实施形态中,参数空间音频编码器包括处理器,所述处理器实施根据第一方面或根据第二方面的方法,或者说,根据第一方面的前述实施形态中任一实施形态或根据第二方面的前述实施形态中任一实施形态的方法。
根据第六方面自身或根据第六方面的第一实施形态的参数空间音频编码器的第二可能实施形态中,所述参数空间音频编码器包括:傅立叶变换器等频率变换器,用于确定音频声道信号的音频声道信号值的频率变换并且用于确定参考音频信号的参考音频信号值的频率变换,其中参考音频信号是多个音频声道信号中的另一个音频声道信号,或是从多个音频声道信号中的至少两个音频声道信号导出的下混音频信号;声道间差值确定器,用于确定针对子频带的子集的至少每个子频带的声道间差值,每个声道间差值是指在该声道间差值所关联的相应子频带中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差或时间差;平均值确定器,用于基于声道间差值的正值来确定第一平均值并且基于声道间差值的负值来确定第二平均值;以及编码参数确定器,用于基于第一平均值并基于第二平均值来确定编码参数。
根据第七方面,本发明涉及存储器等机器可读的媒体,确切的说是光盘,所述媒体具有包括程序代码的计算机程序,所述程序代码在计算机上运行时执行根据第一方面或根据第二方面的方法,或者说根据第一方面的前述实施形态中任一实施形态的方法,或者说根据第二方面的前述实施形态中任一实施形态的方法。
本文描述的方法可实施为数字信号处理器(DSP:Digital SignalProcessor)、微控制器或任何其他边处理器中的软件或实施为专用集成电路(ASIC:application specific integrated circuit)内的硬件电路。
本发明可在数字电子电路中或在计算机硬件、固件、软件中或在其组合中实施。
附图说明
本发明的其他实施例将参考以下附图进行描述,其中:
图1所示为根据一种实施形态的用于生成针对音频声道信号的编码参数的方法的示意图;
图2所示为根据一种实施形态的ITD估计算法的示意图;
图3所示为根据一种实施形态的ITD选择算法的示意图;
图4所示为根据一种实施形态的参数音频编码器的方框图;
图5所示为根据一种实施形态的参数音频解码器的方框图;
图6所示为根据一种实施形态的参数立体声音频编码器和解码器的方框图;以及
图7所示为用于说明耳间时间差原理的示意图。
具体实施方式
图1所示为根据一种实施形态的用于生成针对音频声道信号的编码参数的方法的示意图。
方法100用于确定针对多声道音频信号的多个音频声道信号x1、x2的音频声道信号x1的编码参数ITD。每个音频声道信号x1、x2具有音频声道信号值x1[n]、x2[n]。图1描绘了立体声的例子,其中多个音频声道信号包括左音频声道x1和右音频声道x2。方法100包括:
确定(101)音频声道信号x1的音频声道信号值x1[n]的频率变换x1[k];
确定(103)参考音频信号x2的参考音频信号值x2[n]的频率变换x2[k],其中参考音频信号是多个音频声道信号中的另一个音频声道信号x2,或是从多个音频声道信号中的至少两个音频声道信号x1和x2中导出的下混音频信号;
确定(105)针对子频带的子集的至少每个子频带b的声道间差值ICD[b],每个声道间差值是指在该声道间差值所关联的相应子频带b中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差IPD[b]或时间差ITD[b];
基于声道间差值ICD[b]的正值来确定(107)第一平均值ITDmean_pos,并且基于声道间差值ICD[b]的负值来确定第二平均值ITDmean_neg;并且
基于第一平均值和第二平均值来确定(109)编码参数ITD。
在一种实施形态中,音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分是指在频域中的相应子频带以及其频率窗口。
在一种实施形态中,音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分是指在时域中的子频带的相应的经时间变换的信号。
频带限制信号部分可以是频域信号部分。然而,频带限制信号部分也可以是时域信号部分。在这种情况下,可采用反向傅立叶变换器等频域至时域变换器。在时域中,可执行频带限制信号部分的时间延迟平均值计算,该计算对应于频域中的相位平均值计算。对于信号处理,可采用汉明窗形函数等窗形函数对时域信号部分进行环形摺积。
频带限制信号部分可仅覆盖一个频率窗口或覆盖一个以上频率窗口。
在一种实施形态中,方法100如下进行:
在对应于图1中的101和103的第一步骤中,将时间频率变换应用于时域输入声道(例如,第一输入声道x1)以及时域参考声道(例如,第二输入声道x2)。在立体声的情况下,它们是左声道和右声道。在一项优选实施例中,时间频率变换为快速傅立叶变换(Fast Fourier Transform,FFT)或短期傅立叶变换(Short Term Fourier Transform,STFT)。在一项替代实施例中,时间频率变换是余弦调制滤波器组或复数滤波器组。
在对应于图1中的105的第二步骤中,针对FFT的每个频率窗口[b],对交叉谱的计算如下:
其中c[b]为频率窗口[b]的交叉谱,并且X1[b]和X2[b]为两个声道的FFT系数。*表示复数共轭。对于此情况,子频带b直接对应于一个频率窗口[k],频率窗口[b]和[k]恰好表示相同的频率窗口。
替代地,每个子频带[k]的交叉谱的计算如下:
其中c[b]为子频带[b]的交叉谱并且X1[k]和X2[k]为两个声道的FFT系数,例如,在立体声的情况下为左声道和右声道。*表示复数共轭。kb是子频带[b]的开始窗口。
交叉谱可以是平滑化的版本,可由以下公式计算:
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
其中SMW1是平滑因子。i是帧索引。
基于交叉谱来计算每个子频带的声道间相位差(IPD),计算公式如下:
IPD[b]=∠c[b]
其中运算∠是用于计算角c[b]的辐角运算符。应注意在使交叉谱平滑的情况下,将csm[b,i]用于IPD的计算,计算公式如下:
IPD[b]=∠csm[b,i]
在对应于图1中的105的第三步骤中,基于IPD来计算每个频率窗口(或子频带)的ITD。
其中N是FFT窗口的数目。
在对应于图1中的107的第四步骤中,对ITD的正值和负值进行计数。正ITD和负ITD的平均值和标准偏差系基于ITD的符号,如下所示:
其中Nbpos和Nbneg分别为正ITD和负ITD的数目。M为所提取的ITD的总数目。应注意,替代地,如果ITD等于0,那么ITD可计入负ITD中,或者既不计入正ITD,也不计入负ITD。
在对应于图1中的109的第五步骤中,基于平均值和标准偏差从正ITD和负ITD中选择出ITD。选择算法如图3所示。
图2所示为根据一种实施形态的ITD估计算法200的示意图。
在对应于图1中的101的第一步骤201中,将时间频率变换应用于时域输入声道,例如,第一输入声道x1。在一项优选实施例中,时间频率变换为快速傅立叶变换(FFT)或短期傅立叶变换(STFT)。在一项替代实施例中,时间频率变换是余弦调制滤波器组或复数滤波器组。
在对应于图1中的103的第二步骤203中,对时域参考声道(例如,第二输入声道x2)应用时间频率变换。在一项优选实施例中,时间频率变换为快速傅立叶变换(FFT)或短期傅立叶变换(STFT)。在一项替代实施例中,时间频率变换是余弦调制滤波器组或复数滤波器组。
在对应于图1中的105的随后第三步骤205中,在有限数目个频率窗口或子频带上,对每一个频率窗口的交叉相关进行计算。从针对FFT的每一个频率窗口[b]的交叉相关中计算交叉谱,计算公式如下:
其中c[b]为频率窗口[b]的交叉谱,并且X1[b]和X2[b]为两个声道的FFT系数。*表示复数共轭。对于此情况,子频带b直接对应于一个频率窗口[k],频率窗口[b]和[k]恰好表示相同的频率窗口。
替代地,每个子频带[k]的交叉谱的计算如下:
其中c[b]为子频带[b]的交叉谱,并且X1[k]和X2[k]为两个声道的FFT系数,例如,在立体声的情况下为左声道和右声道。*表示复数共轭。kb是子频带[b]的开始窗口。
交叉谱可以是平滑化的版本,可由以下公式计算:
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
其中SMW1是平滑因子。i是帧索引。
基于交叉谱来计算每个子频带的声道间相位差(IPD),计算公式如下:
IPD[b]=∠c[b]
其中运算∠是用于计算角c[b]的辐角运算符。应注意在使交叉谱平滑的情况下,将csm[b,i]用于IPD的计算,计算公式如下:
IPD[b]=∠csm[b,i]
在对应于图1中的105的随后第四步骤207中,每个频率窗口(或子频带)的ITD的计算都是基于IPD的。
其中N是FFT窗口的数目。
在对应于图1中的107的随后第五步骤209中,对步骤207所计算出的ITD进行检查,看其是否大于零。如果大于零,则进行步骤211,如果不大于零,则进行步骤213。
在步骤209之后的步骤211中,对ITD的M个频率窗口(或子频带)值的数目的总和进行计算,例如,根据“Nb_itd_pos++,,Itd_sum_pos+=ITD”来进行。
在步骤209之后的步骤213中,对ITD的M个频率窗口(或子频带)值的数目的总和进行计算,例如,根据“Nb_itd_neg++,,Itd_sum_neg+=ITD”来进行。
在步骤211之后的步骤215中,根据以下公式计算正ITD的平均值:
其中,Nbpos是正ITD值的数目,而M是所提取的ITD的总数目。
在步骤215之后的选择性步骤219中,根据以下公式计算正ITD的标准偏差:
在步骤213之后的步骤217中,根据以下公式计算负ITD的平均值:
其中,Nbneg是负ITD值的数目,而M是所提取的ITD的总数目。
在步骤217之后的选择性步骤221中,根据以下公式计算负ITD的标准偏差:
在对应于图1中的109的最后步骤223中,基于平均值,可选地还基于标准偏差从正ITD和负ITD中选择出ITD。选择算法如图3所示。
此方法200可应用于全频带ITD估计,在这种情况下,子频带b涵盖了频率的整个范围(达到B)。可对子频带b进行选择以遵循谱的感知分解,例如临界频带或等效矩形带宽(ERB)。在一项替代实施例中,可基于最相关的子频带b对全频带ITD进行估计。应理解所谓最相关,是指针对ITD感知的感知相关的子频带(例如在200Hz和1500Hz之间)。
根据本发明的第一或第二方面的ITD估计方法的优点在于,如果在收听者的左侧和右侧各有一个说话者,并且他们同时在讲话,则对所有的ITD仅简单地求平均值将会给出接近零的值,而这是不准确的。因为ITD为零意味着说话者在收听者的正前方。即使所有ITD的平均值不为零,那么它也会使立体声图像变窄。同样在这个实例中,方法200将基于所提取的ITD的稳定性从正ITD和负ITD的平均值中选择出一个ITD,以便就声源方向给出更好的估计。
标准偏差是测量参数稳定性的一种方法。如果标准偏差较小,那么所估计的参数较为稳定可靠。使用正ITD和负ITD的标准偏差的目的在于判断哪一个更为可靠。并且选择更可靠的那一个作为最终输出ITD。也可使用极限差(extremism difference)等其他类似的参数来检查ITD的稳定性。因此,标准偏差在此处仅为可选的方法。
在一个另外的实施形态中,如果在IPD与ITD之间存在直接联系,那么可直接对IPD进行负值和正值的计数。随后直接对负IPD和正IPD平均值进行决策。
可将图1和图2中所描述的方法100、200应用于ITU-T G.722、G.722Annex B、G.711.1及/或G.711.1Annex D的立体声扩展编码器中。此外,对于在3GPP EVS(增强语音服务)编解码器中所定义的移动通信应用,也可将所描述的方法应用于语音和音频编码器。
图3所示为根据一种实施形态的ITD选择算法的示意图。
在第一步骤301中,将正ITD值的数目Nbpos与负ITD值的数目Nbneg进行比较来检查正ITD值的数目Nbpos。如果Nbpos大于Nbneg,则执行步骤303;如果Nbpos不大于Nbneg,则执行步骤305。
在步骤303中,将正ITD的标准偏差ITDstd_pos与负ITD的标准偏差ITDstd_neg进行比较来检查正ITD的标准偏差ITDstd_pos,并且将正ITD值的数目Nbpos与负ITD值的数目Nbneg乘以第一因子A后的值进行比较来检查正ITD值的数目Nbpos,例如根据:(ITDstd_pos<ITDstd_neg)||(Nbpos>=A*Nbneg)。如果ITDstd_pos<ITDstd_neg或Nbpos>A*Nbneg,那么在步骤307中所选择的ITD是正ITD的平均值。否则,将在步骤309中进一步检查正ITD和负ITD之间的关系。
在步骤309中,将负ITD的标准偏差ITDstd_neg与正ITD的标准偏差ITDstd_pos乘以第二因子B后的值进行比较来检查负ITD的标准偏差ITDstd_neg,例如根据:(ITDstd_neg<B*ITDstd_pos)。如果ITDstd_neg<B*ITDstd_pos,那么在步骤315中将选择负ITD平均值的相反值作为输出ITD。否则,将在步骤317中检查来自先前帧(Pre_itd)的ITD。
在步骤317中,对来自先前帧的ITD进行检查,判断其是否大于零,例如,根据“Pre_itd>0”。如果Pre_itd>0,那么在步骤323中所选择的输出ITD是正ITD的平均值,否则,在步骤325中输出ITD是负ITD平均值的相反值。
在步骤305中,将负ITD的标准偏差ITDstd_neg与正ITD的标准偏差ITDstd_pos进行比较来检查负ITD的标准偏差ITDstd_neg,并且将负ITD值的数目Nbneg与正ITD值的数目Nbpos乘以第一因子A后的值进行比较来检查负ITD值的数目Nbneg,例如根据:(ITDstd_neg<ITDstd_pos)||(Nbneg>=A*Nbpos)。如果ITDstd_neg<ITDstd_pos或Nbneg>A*Nbpos,那么在步骤311中所选择的ITD是负ITD的平均值。否则,将在步骤313中进一步检查负ITD和正ITD之间的关系。
在步骤313中,将正ITD的标准偏差ITDstd_pos与负ITD的标准偏差ITDstd_neg乘以第二因子B后的值进行比较来检查正ITD的标准偏差ITDstd_pos,例如根据:(ITDstd_pos<B*ITDstd_neg)。如果ITDstd_pos<B*ITDstd_neg,那么在步骤319中将选择正ITD平均值的相反值作为输出ITD。否则,将在步骤321中检查来自先前帧(Pre_itd)的ITD。
在步骤321中,对来自先前帧的ITD进行检查,判断其是否大于零,例如,根据“Pre_itd>0。”如果Pre_itd>0,那么在步骤327中所选择的输出ITD是负ITD的平均值,否则,在步骤329中输出ITD是正ITD平均值的相反值。
图4所示为根据一种实施形态的参数音频编码器400的方框图。参数音频编码器400接收多声道音频信号401作为输入信号并且提供比特流作为输出信号403。参数音频编码器400包括:参数生成器405,其耦合到多声道音频信号401以用于生成编码参数415;下混信号生成器407,其耦合到多声道音频信号401以用于生成下混信号411或总和信号;音频编码器409,其耦合到下混信号生成器407以便对下混信号411进行编码以提供经编码的音频信号413;以及组合器417,例如,比特流形成器,所述比特流形成器耦合到参数生成器405和音频编码器409以从编码参数415和经编码信号413中形成比特流403。
参数音频编码器400实施针对立体声和多声道音频信号的音频编码方案,所述方案只传输一个单音频声道,例如,输入音频声道的下混表示外加描述在音频声道x1、x2,…、xM之间的“感知相关差异”的额外参数。所述编码方案系根据双耳提示编码(BCC)的,因为双耳提示在其中起了重要的作用。如图所示,输入音频声道x1、x2…、xM被下混到一个单音频声道411,也表示为总和信号。作为音频声道x1、x2…、xM之间的“感知相关差异”,声道间时间差(ICTD)、声道间电平差(ICLD),以及/或者声道间相关性(ICC)等编码参数415被作为频率和时间的函数来估计,并且该等编码参数被作为边信息传输到图5所描述的解码器500中。
实施BCC的参数生成器405采用特定的时间和频率分辨率对多声道音频信号401进行处理。所使用的频率分辨率在很大程度上取决于听觉系统的频率分辨率。心理声学表明空间感知最有可能基于声音输入信号的临界频带表示的。通过使用可逆滤波器组来考虑此频率分辨率,所述可逆滤波器组的子频带的带宽等于听觉系统的临界带宽或与其成比例。重要的是所传输的总和信号411包括多声道音频信号401的所有信号分量。目的在于每一个信号分量得到完全地保持。对多声道音频信号401的音频输入声道x1、x2,…,xM的简单求和通常会导致信号分量的放大或衰减。换言之,在“简单”总和中信号分量的功率通常大于或小于每个声道x1,x2,…,xM的对应信号分量的功率的总和。因此,通过采用下混频装置407来使用下混技术,所述装置对总和信号411进行均衡,使得总和信号411中的信号分量的功率与在多声道音频信号401的所有输入音频声道x1,x2,…,xM中的对应的功率大致相同。一个此类子频带表示为X1[b](注意为了简单地表示,未使用子频带指数)。将类似的处理独立地应用于所有的子频带,通常子频带信号是向下取样的。将每个输入声道的每个子频带的信号相加并且随后乘以功率归一化因子。
给出总和信号411之后,参数生成器405合成立体声或多声道音频信号415,使得ICTD、ICLD及/或ICC逼近原始多声道音频信号401的对应提示。
在考虑一个声源的双耳室内脉冲响应(BRIR:binaural room impulseresponse)时,在听觉事件(即收听者)的感知范围的宽度与针对双耳室内脉冲响应的早期和后期部分所估计的IC特性之间存在一定关系。然而,不仅仅是BRIR,IC或ICC与一般信号的这些特性之间的关系并非是简单明了的。立体声和多声道音频信号通常包含同时起作用的源信号的复杂混频,所述复杂混频是由在封闭空间中录音引起的反射信号分量所叠加的,或者是由录音工程师为人造空间印象而加入的。不同的声源信号以及其反射在时间频率平面上占据不同的区域。此现象由ICTD、ICLD以及ICC所反映,这些参数ICTD、ICLD以及ICC随时间和频率而变化。在这种情况下,瞬间的ICTD、ICLD以及ICC与听觉事件方向和空间印象之间的关系并不明显。参数生成器405的策略在于试探地合成这些提示,使得它们逼近原始音频信号的对应提示。
在一个实施形态中,参数音频编码器400使用滤波器组,所述滤波器组的子频带的带宽等于等效矩形带宽的两倍。在选择较高的频率分辨率时,非正式的试听揭示了BCC的音频质量并未得到显著改进。较低的频率分辨率是较佳的,因为它使得需要传输到解码器的ICTD、ICLD以及ICC值更少,从而引起更低的比特率。就时间分辨率而言,在常规的时间间隔内考虑ICTD、ICLD以及ICC。在一个实施形态中,大约每4到16毫秒对ICTD、ICLD以及ICC进行一次考虑。应注意除非在非常短的时间间隔内对提示进行考虑,否则并不直接考虑优先效应。
经常得到参考信号与合成信号之间在感知上的小差异,这一现象表明:通过在常规的时间间隔内合成ICTD、ICLD以及ICC,关联于大范围的听觉空间图像属性的提示已隐含地得到考虑。传输这些空间提示所需的比特率仅仅是几个kb/s,因此参数空间编码器400能够以接近单音频声道所需的比特率来传输立体声和多声道音频信号。图1和图2描绘了将ICTD作为编码参数415进行估计的方法。
参数音频编码器400包括:下混信号生成器407,其用于对多声道音频信号401的音频声道信号中的至少两者进行叠加以获得下混信号411;音频编码器409,确切地说是单声道编码器,其用于对下混信号411进行编码以获得经编码的音频信号413;以及组合器417,其用于将经编码的音频信号413与对应的编码参数415进行组合。
参数音频编码器400生成针对多声道音频信号401中的被表示为x1、x2…、xM的多个音频声道信号中的一个音频声道信号的编码参数415。每个音频声道信号x1、x2…、xM可以是包含表示为x1[n]、x2[n]…、xM[n]的数字音频声道信号值的数字信号。
参数音频编码器400生成编码参数415所针对的示例性音频声道信号是具有信号值x1[n]的第一音频声道信号x1。参数生成器405从第一音频信号x1的音频声道信号值x1[n]中以及从参考音频信号x2的参考音频信号值x2[n]中确定编码参数ITD。
例如,用作参考音频信号的音频声道信号为第二音频声道信号x2。类似地,音频声道信号x1、x2…、xM中的其他任何一个都可作为作参考音频信号。根据第一方面,参考音频信号是音频声道信号中的与生成编码参数415所针对的音频声道信号x1不相等的另一个音频声道信号。
根据第二方面,参考音频信号是从多个多声道音频信号401中的至少两个音频声道信号导出的下混音频信号,例如,从第一音频声道信号x1和第二音频声道信号x2导出。在一个实施形态中,参考音频信号是下混音频信号411,也称作总和信号,其由下混器件407生成。在一个实施形态中,参考音频信号是由编码器409所提供的经编码信号413。
由参数生成器405所使用的一个示例性参考音频信号是具有信号值x2[n]的第二音频声道信号x2。
参数生成器405对音频声道信号x1的音频声道信号值x1[n]的频率变换以及参考音频信号x1的参考音频信号值x2[n]中的频率变换进行确定。参考音频信号是多个音频声道信号中的另一个音频声道信号x2,或是从多个音频声道信号中的至少两个音频声道信号x1、x2导出的下混音频信号。
参数生成器405确定针对子频带的子集中的至少每一个子频带的声道间差值。每个声道间差值是指在该声道间差值所关联的相应子频带中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差IPD[b]或时间差ITD[b]。
参数生成器405基于声道间差值IPD[b]、ITD[b]的正值来确定第一平均值ITDmean_pos,并且基于声道间差值IPD[b]、ITD[b]的负值来确定第二平均值ITDmean_neg。参数生成器405基于第一平均值和第二平均值来确定编码参数ITD。
声道间相位差(ICPD)是成对信号之间的平均相位差。声道间电平差(ICLD)等同于耳间电平差(ILD),耳间电平差即左耳和右耳入耳信号之间的电平差,但是ICLD更加广义地定义在任何成对信号之间,例如,成对扬声器信号,成对入耳信号等等。声道间相关性或声道间相关与耳间相关性(IC)一样,耳间相关性即左耳和右耳入耳信号之间的相似程度,但是声道间相关性或声道间相关更加广义地定义在任何成对信号之间,例如,成对扬声器信号,成对入耳信号等等。声道间时间差(ICTD)等同于耳间时间差(ITD),ITD有时也被称作耳间时间延迟,即左耳和右耳入耳信号之间的时间差,但是ICTD更加广义地定义在任何成对信号之间,例如成对扬声器信号,成对入耳信号等等。子频带声道间电平差、子频带声道间相位差、子频带声道间相关性以及子频带声道间强度差均与上文关于子频带带宽所指明的参数相关。
在第一步骤中,参数生成器405将时间频率变换应用于时域输入声道(例如,第一输入声道x1)以及时域参考声道(例如,第二输入声道x2)。在立体声的情况下,这些指的是左声道和右声道。在一项优选实施例中,时间频率变换为快速傅立叶变换(FFT)或短期傅立叶变换(STFT)。在一项替代实施例中,时间频率变换是余弦调制滤波器组或复数滤波器组。
在第二步骤中,参数生成器405将针对FFT的每个频率窗口[b]的交叉谱计算如下:
其中c[b]为频率窗口[b]的交叉谱,并且X1[b]和X2[b]为两个声道的FFT系数。*表示复数共轭。对于此情况,子频带b直接对应于一个频率窗口[k],频率窗口[b]和[k]完全表示相同的频率窗口。
替代地,参数生成器405对每个子频带[k]的交叉谱的计算如下:
其中c[b]为子频带[b]的交叉谱并且X1[k]和X2[k]为两个声道的FFT系数,例如,在立体声的情况下为左声道和右声道。*表示复数共轭。kb是子频带[b]的开始窗口。
交叉谱可以是平滑化的版本,可由以下公式计算:
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
其中SMW1是平滑因子。i是帧索引。
基于交叉谱来计算每个子频带的声道间相位差(IPD),计算公式如下:
IPD[b]=∠c[b]
其中运算∠是用于计算角c[b]的辐角运算符。应注意在使交叉谱平滑的情况下,将csm[b,i]用于IPD的计算,计算公式如下:
IPD[b]=∠csm[b,i]
在第三步骤中,参数生成器405基于IPD来计算每个频率窗口(或子频带)的ITD。
其中N是FFT窗口的数目。
在第四步骤中,参数生成器405对ITD的正值和负值进行计数。正ITD和负ITD的平均值和标准偏差系基于ITD的符号,如下所示:
其中Nbpos和Nbneg分别为正ITD和负ITD的数目。M为所提取的ITD的总数目。
在第五步骤中,参数生成器405基于平均值和标准偏差来从正ITD和负ITD中选择ITD。选择算法如图3所示。
在一个实施形态中,参数生成器405包括:
傅立叶变换器等频率变换器,用于确定音频声道信号(x1)的音频声道信号值(x1[n])的频率变换(x1[k]),并且用于确定参考音频信号(x2)的参考音频信号值(x2[n])的频率变换(x2[k]),其中参考音频信号是多个音频声道信号中的另一个音频声道信号(x2),或是从多个音频声道信号中的至少两个音频声道信号(x1、x2)导出的下混音频信号;
声道间差值确定器,用于确定针对子频带的子集的至少每个子频带(b)的声道间差值(IPD[b]、ITD[b]),每个声道间差值是指在该声道间差值所关联的相应子频带(b)中的音频声道信号的频带限制信号部分与参考音频信号的频带限制信号部分之间的相位差(IPD[b])或时间差(ITD[b]);
平均值确定器,其用于基于声道间差值(IPD[b]、ITD[b])的正值来确定第一平均值(ITDmean_pos),并且用于基于声道间差值(IPD[b]、ITD[b])的负值来确定第二平均值(ITDmean_neg);以及
编码参数确定器,其用于基于第一平均值和第二平均值来确定编码参数(ITD)。
图5所示为根据一种实施形态的参数音频解码器500的方框图。参数音频解码器500接收在通信声道上传输的比特流503来作为输入信号,并且提供经解码的多声道音频信号501来作为输出信号。参数音频解码器500包括:比特流解码器517,其耦合到比特流503以用于将比特流503解码成编码参数515以及经编码信号513;解码器509,其耦合到比特流解码器517以用于从经编码的信号513生成总和信号511;参数解析器505,其耦合到比特流解码器517以用于从编码参数515解析参数521;以及合成器505,其耦合到参数解析器505和解码器509以用于从参数521和总和信号511合成经解码的多声道音频信号501。
参数音频解码器500生成其多声道音频信号501的输出声道,使得声道之间的ICTD、ICLD及/或ICC逼近原始多声道音频信号的ICTD、ICLD及/或ICC。所描述的方案能够以仅略高于表示单声道音频信号所需的比特率的比特率表示多声道音频信号。这是因为成对声道之间的所估计的ICTD、ICLD和ICC所包含的信息比音频波形所包含的信息少两个数量级。所关注的不仅有低比特率而且还有后向兼容性方面。所传输的总和信号对应于立体声或多声道信号的单声道下混。
图6所示为根据一种实施形态的参数立体声音频编码器601和解码器603的方框图。参数立体声音频编码器601对应于参考图4所描述的参数音频编码器400,但是多声道音频信号401是具有左音频声道605和右音频声道607的立体声音频信号。
参数立体声音频编码器601接收立体声音频信号605、607来作为输入信号,并且提供比特率流来作为输出信号609。参数立体声音频编码器601包括:参数生成器611,其耦合到立体声音频信号605、607以用于生成空间参数613;下混信号生成器615,其耦合到立体声音频信号605、607以用于生成下混信号617或总和信号;单声道编码器619,其耦合到下混信号生成器615以便对下混信号617进行编码以提供经编码的音频信号621;以及比特流组合器623,其耦合到参数生成器611和单声道编码器619以将编码参数613和经编码音频信号621组合到比特流中以提供输出信号609。在参数生成器611中,在空间参数613在比特流中被多路复用之前,提取空间参数613并对其进行量化。
参数立体声音频解码器603接收比特流,即在通信声道上传输的参数立体声音频编码器601的输出信号609,来作为输入信号并且提供具有左音频声道625和右音频声道627的经解码立体声音频信号来作为输出信号。参数立体声音频解码器603包括:比特流解码器629,其耦合到所接收的比特流609以用于将比特流609解码成编码参数631以及经编码的信号633;单声道解码器635,其耦合到比特流解码器629以用于从经编码的信号633生成总和信号637;空间参数解析器639,其耦合到比特流解码器629以用于从编码参数631解析空间参数641;以及合成器643,其耦合到空间参数解析器639和单声道解码器635以用于从空间参数641和总和信号637合成经解码的立体声音频信号625、627。
在参数立体声音频解码器603中进行的处理能够引入延迟并且适应性地修正音频信号的时间和频率水平以生成空间参数631,例如,声道间时间差(ICTD)以及声道间电平差(ICLD)。此外,参数立体声音频解码器603执行时间适应性滤波以有效用于声道间相关性(ICC)合成。在一个实施形态中,参数立体声编码器使用基于滤波器组的短期傅立叶变换(STFT)以有效地实施具有较低计算复杂度的双耳提示编码(BCC)方案。在参数立体声音频编码器601中进行的处理具有较低的计算复杂度以及较低的延迟,使得参数立体声音频编码适合于能够在微处理器或数字信号处理器上进行的实施方案,以利用实时的应用。
除了添加了空间提示的量化和编码之外,图6中所描绘的参数生成器611与参考图4所描绘的对应参数生成器405在功能上相同。总和信号617的编码采用的是传统的单声道音频编码器619。在一个实施形态中,参数立体声音频编码器601使用基于STFT的时间频率变换以在频域内对立体声音频声道信号605、607进行变换。STFT将离散傅立叶变换(DFT)应用于输入信号x(n)的经窗形函数处理的部分。N个样本的信号帧先与与长度为W的窗形函数相乘,然后再应用N点DFT。邻近的窗形函数发生重叠,并且移位了W/2样本。对窗形函数进行选择,使得重叠的窗形函数总计达到常数值1。因此,对于反向变换,并不需要额外的窗形函数处理。在解码器603中使用尺寸为N,且连续帧的时间提前量为W/2的平面反向DFT。如果谱未经修正,那么将通过重叠/加入来获得完美的重建。
由于STFT的均匀频谱分辨率并不能很好的适应于人类的感知,将STFT的间隔均匀的频谱系数输出分组到B类非重叠分区,所述B类非重叠分区具有更好地适应于感知的带宽。根据参考图4的描述,一个分区在概念上对应于一个“子频带”。在一个替代实施形态中,参数立体声音频编码器601使用非均匀滤波器组在频域中对立体声音频声道信号605、607进行变换。
在一个实施形态中,下混器315对一个分区b的频谱系数或经均衡的总和信号Sm(k)617中的一个子频带的频谱系数通过以下公式进行确定:
其中Xc,m(k)为输入音频声道605、607的频谱,而eb(k)为增益。
因子的计算如下:
其中分区功率的估算如下:
在子频带信号的总和的衰减显著时,为了防止由大的增益因子所引起的伪迹,将增益因子eb(k)限制到6dB,即,eb(k)≤2。
通过阅读以上内容,所属领域的技术人员将清楚地了解,可提供多种方法、系统、记录媒体上的计算机程序及其类似者。
本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品,这些计算机可执行代码或计算机可执行指令在执行时使得至少一台计算机执行本文所述的执行及计算步骤。
本发明还支持用于执行本文所述的执行和计算步骤的系统。
通过以上教示,所属领域的技术人员将易于想到许多其他的替代产品、修改及变体。显然,所属领域的技术人员易于想到,除了本文所述的应用之外,还存在本发明的众多其他应用。虽然已参考一个或多个特定实施例描述了本发明,但是所属领域的技术人员将认识到,在不偏离本发明的精神及范畴的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效文句的范围内,那么也可以用不同于本文具体描述的方式来实践本发明。
Claims (13)
1.一种用于确定多声道音频信号的多个音频声道信号x1和x2中的音频声道信号x1的编码参数ITD的方法,音频声道信号x1具有音频声道信号值x1[n],音频声道信号x2具有音频声道信号值x2[n],所述方法包括:
确定所述音频声道信号x1的所述音频声道信号值x1[n]的频率变换x1[k];
确定参考音频信号的参考音频信号值的频率变换,其中所述参考音频信号是所述多个音频声道信号中的另一个音频声道信号x2或是从所述多个音频声道信号中的至少两个音频声道信号x1和x2导出的下混音频信号;
确定针对子频带的子集的每个子频带b的声道间差值ICD[b],声道间差值是指在所述声道间差值所关联的相应子频带b中的所述音频声道信号x1的频带限制信号部分与所述参考音频信号的频带限制信号部分之间的相位差IPD[b]或时间差ITD[b];
基于所述声道间差值ICD[b]的正值来确定第一平均值ITDmean_pos,并且基于所述声道间差值ICD[b]的负值来确定第二平均值ITDmean_neg;并且基于所述第一平均值和所述第二平均值来确定编码参数ITD。
2.根据权利要求1所述的方法,进一步包括:
基于所述声道间差值ICD[b]的正值来确定第一标准偏差ITDstd_pos,并且基于所述声道间差值ICD[b]的负值来确定第二标准偏差ITDstd_neg,
其中对所述编码参数ITD的确定是基于所述第一标准偏差和所述第二标准偏差。
3.根据权利要求1或2所述的方法,其中子频带包括一个或多个频率窗口k。
4.根据权利要求2所述的方法,其中对针对子频带的子集的每个子频带b的声道间差值ICD[b]的确定包括:
将交叉谱c[k]和c[b]确定为所述音频声道信号值x1[n]的频率变换x1[k]与所述参考音频信号值的频率变换的交叉相关;以及
基于所述交叉谱c[b]确定每一子频带[b]的声道间相位差IPD[b]。
5.根据权利要求4所述的方法,其中将频率窗口的所述声道间相位差IPD[b]或子频带b的所述声道间相位差IPD[b]确定为所述交叉谱c[b]的角度。
6.根据权利要求4所述的方法,进一步包括:
基于所述声道间相位差IPD[b]来确定声道间时间差ITD[b];其中
对所述第一平均值ITDmean_pos的确定是基于所述声道间时间差ITD[b]的正值,对所述第二平均值ITDmean_neg的确定是基于所述声道间时间差ITD[b]的负值。
7.根据权利要求5所述的方法,其中将子频带b的所述声道间时间差ITD[b]确定为所述声道间相位差IPD[b]的函数,所述函数取决于频率窗口的数目N并且取决于频率窗口k或子频带b指数。
8.根据权利要求6所述的方法,其中对所述编码参数ITD的所述确定包括:
在包含于子频带b的所述子集中的子频带b的数目M中,对正的声道间时间差ITD[b]的第一数目Nbpos以及负的声道间时间差ITD[b]的第二数目Nbneg进行计数。
9.根据权利要求8所述的方法,其中对所述编码参数ITD的所述确定是基于正的声道间时间差ITD[b]的所述第一数目Nbpos与负的声道间时间差ITD[b]的所述第二数目Nbneg之间的比较。
10.根据权利要求9所述的方法,其中对所述编码参数ITD的所述确定是基于所述第一标准偏差ITDstd_pos与所述第二标准偏差ITDstd_neg之间的比较。
11.根据权利要求9所述的方法,其中对所述编码参数ITD的所述确定是基于正的声道间时间差ITD[b]的所述第一数目Nbpos与乘以第一因子A的负的声道间时间差ITD[b]的所述第二数目Nbneg之间的比较。
12.根据权利要求11所述的方法,其中对所述编码参数ITD的所述确定是基于所述第一标准偏差ITDstd_pos与乘以第二因子B的所述第二标准偏差ITDstd_neg之间的比较。
13.一种多声道音频编码器,用于确定针对多声道音频信号的多个音频声道信号x1和x2中的音频声道信号x1的编码参数ITD,音频声道信号x1具有音频声道信号值x1[n],音频声道信号x2具有音频声道信号值x2[n],所述参数空间音频编码器包括:
频率变换器,用于确定所述音频声道信号x1的所述音频声道信号值x1[n]的频率变换x1[k],并且用于确定参考音频信号的参考音频信号值的频率变换,其中所述参考音频信号是所述多个音频声道信号中的另一个音频声道信号x2或是从所述多个音频声道信号中的至少两个音频声道信号x1和x2导出的下混音频信号;
声道间差值确定器,用于确定针对子频带的子集的每个子频带b的声道间差值IPD[b]和ITD[b],声道间差值是指在所述声道间差值所关联的相应子频带b中的所述音频声道信号x1的频带限制信号部分与所述参考音频信号的频带限制信号部分之间的相位差IPD[b]或时间差ITD[b];
平均值确定器,用于基于所述声道间差值IPD[b]和ITD[b]的正值来确定第一平均值ITDmean_pos,并且用于基于所述声道间差值IPD[b]和ITD[b]的负值来确定第二平均值ITDmean_neg;以及
编码参数确定器,用于基于所述第一平均值和所述第二平均值来确定所述编码参数ITD。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2012/056321 WO2013149671A1 (en) | 2012-04-05 | 2012-04-05 | Multi-channel audio encoder and method for encoding a multi-channel audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104205211A CN104205211A (zh) | 2014-12-10 |
CN104205211B true CN104205211B (zh) | 2016-11-30 |
Family
ID=
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9449603B2 (en) | Multi-channel audio encoder and method for encoding a multi-channel audio signal | |
CN103460283B (zh) | 确定多信道音频信号的编码参数的方法及多信道音频编码器 | |
CN104246873B (zh) | 用于编码多声道音频信号的参数编码器 | |
CN101406074B (zh) | 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法 | |
CN102804264B (zh) | 用于从下混信号和空间参数信息提取直接/周围信号的装置及方法 | |
TWI508578B (zh) | 音訊編碼及解碼 | |
CN101263742B (zh) | 音频编码 | |
JP5156386B2 (ja) | 空間音声のパラメトリック符号化のためのコンパクトなサイド情報 | |
KR101662682B1 (ko) | 채널간 차이 추정 방법 및 공간적 오디오 코딩 장치 | |
CN104205211B (zh) | 多声道音频编码器以及用于对多声道音频信号进行编码的方法 | |
JP2017058696A (ja) | インターチャネル差分推定方法及び空間オーディオ符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |