CN103460283A - 确定多信道音频信号的编码参数的方法及多信道音频编码器 - Google Patents

确定多信道音频信号的编码参数的方法及多信道音频编码器 Download PDF

Info

Publication number
CN103460283A
CN103460283A CN2012800032529A CN201280003252A CN103460283A CN 103460283 A CN103460283 A CN 103460283A CN 2012800032529 A CN2012800032529 A CN 2012800032529A CN 201280003252 A CN201280003252 A CN 201280003252A CN 103460283 A CN103460283 A CN 103460283A
Authority
CN
China
Prior art keywords
itd
audio
smoothing
signal
inst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012800032529A
Other languages
English (en)
Other versions
CN103460283B (zh
Inventor
大卫·维雷特
郎玥
许剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103460283A publication Critical patent/CN103460283A/zh
Application granted granted Critical
Publication of CN103460283B publication Critical patent/CN103460283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种用于确定多信道音频信号的多个音频信道信号(x1、x2)中音频信道信号(x1)的编码参数(ITD)的方法(100),每个音频信道信号(x1、x2)具有音频信道信号值(x1[n]、x2[n]),所述方法包括:根据所述音频信道信号(x1)的所述音频信道信号值(x1[n])以及参考音频信号(x2)的参考音频信号值(x2[n])来为所述音频信道信号(x1)确定(101)一组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(x2)或从所述多个多信道音频信号中至少两个音频信道信号(x1、x2)得到的下混音频信号;基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(103)第一组编码参数(ITD[b]),所述平滑化是基于第一平滑化系数(SMW1);基于与所述多信道音频信号的所述帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(105)第二组编码参数(ITD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及基于与所述第一组编码参数(ITD[b])和/或所述第二组编码参数(ITD_inst[b])相关的质量标准来确定(107)所述编码参数(ITD、CLD)。

Description

确定多信道音频信号的编码参数的方法及多信道音频编码器
技术领域
本发明涉及音频编码,确切地说,涉及又称作参数空间音频编码的参数多信道或立体声音频编码。
背景技术
例如在针对音频和声音信号处理应用的IEEE专题研讨会会议记录,2001年10月,第199页至第202页(Proc.IEEE Workshop on Appl.of Sig.Proc.to Audio and Acoust.,Oct.2001,pp.199-202)中法勒(C.Faller)和鲍姆加特(F.Baumgarte)的“使用感知参数化的空间音频的有效表示(Efficient representation of spatial audio using perceptual parametrization)”中描述的参数立体声或多信道音频编码,其使用空间提示以从下混音频信号,通常为单声道或立体声音频信号,合成多信道音频信号,所述多信道音频信号所具有的信道比下混音频信号多。通常,下混音频信号因多信道音频信号,例如,立体声音频信号,的多个音频信道信号的重叠而产生。对这些较少信道进行波形编码,并且将与原始信号信道关系相关的边信息,即,空间提示,作为编码参数添加到编码的音频信道。解码器基于解码的波形编码音频信道而使用此边信息来重新生成原始数量的音频信道。
基本参数立体声编码器可将信道间电平差(ILD或CLD)用作从单声道下混音频信号生成立体声信号所需的提示。更多尖端编码器还可使用信道间相干性(inter-channel coherence,ICC),信道间相干性(ICC)可表示音频信道信号,即,音频信道,之间的类似程度。此外,当编码双耳立体声信号例如通过使用头相关传递函数(HRTF)过滤来实现基于3D音频或耳机的环绕呈现时,耳间时间差(ITD)可发挥作用以重现信道之间的时延差。
如图8中所示,耳间时间差(ITD)为声音801到达两耳803、805之间的时间差。耳间时间差(ITD)对声音的定位而言是很重要的,因为它提供辨别声源801的入射方向807或角度θ(相对于头部809)的提示。如果信号从一侧到达耳803、805,那么该信号到达远耳803(对侧的)的路径811较长,而到达近耳805(同侧的)的路径813较短。此路径长度差使到达耳803、805的声音之间产生时间差815,该时间差815被检测到并且有助于声源801的方向807的辨别过程
图8给出了ITD的一个实例(表示为Δt或时间差815)。到达两耳803、805的时间差由声音波形的时延来指示。如果波形先到达左耳803,那么ITD815是正的,否则是负的。如果声源801位于收听者的正前方,那么波形同时到达两耳803、805,因此ITD815为零。
ITD提示对大多数立体声录制而言是很重要的。例如,可基于头相关传递函数(HRTF)处理通过使用例如仿真头部或双耳合成而从真实录制获得的双耳音频信号被用于音乐录制或音频会议。因此,双耳音频信号对于低比特率参数立体声编解码器而言尤其对于针对对话应用的编解码器而言是极其重要的参数。低复杂性且稳定的ITD估计算法是低比特率参数立体声编解码器所需要的。此外,除了如信道间电平差(CLD或ILD)和信道间相干性(ICC)等其他参数之外,ITD参数的使用,也可增加比特率的开销。在此具体的甚低比特率场景中,只可传输一个全频带ITD参数。当仅估计一个全频带ITD时,对稳定性的约束变得更加难以实现。
当通过使用交叉相关、交叉谱或能量来估计参数时,估计函数的快速变化可导致对参数的不稳定估计。估计的参数在帧之间可能过快过频繁地发生变化,我们通常不希望这样。在帧较小时可发生这种情况,这样会导致交叉相关的估计量不可靠。不稳定性问题会被感觉成声源似乎从左侧跳向右侧和/或相反,但是实际声源并未改变位置。不稳定性问题还可被收听者检测到,即使声源位置未从左侧跳向右侧。由于声源位置随时间的较小变化都很容易被听者感觉到,所以既然实际声源固定,就要避免声源位置的变化。
例如,耳间时间差(ITD)是参数立体声编解码器的重要参数。如果基于交叉相关函数的计算而在频域中估计ITD,那么即使声源位置固定且实际ITD稳定,在连续帧上估计的ITD通常也不稳定。稳定性问题可通过以下方式来解决:先对交叉相关运用平滑化函数,然后将该交叉相关用于ITD估计。然而,在对交叉相关平滑化时,不能跟随实际ITD的快速变化。此外,稳定的平滑化能在声源或听音位置相对于彼此移动时减少快速跟随ITD变化的跟踪行为。
另一个实例是信道电平差(CLD)估计。CLD是参数立体声编解码器的重要参数。如果基于对每个窗口(bin)或子频带的能量的计算而在频域中估计CLD,那么即使声源位置固定且实际电平差稳定,在连续帧上估计的CLD通常也不稳定。稳定性问题可通过以下方式来解决:先对能量运用平滑化函数,然后将该能量用于CLD估计。然而,在使能量平滑化时,不能跟随实际CLD的快速变化,因此能在声源或听音位置相对于彼此移动时减少快速跟随CLD变化的跟踪行为。
找到允许快速跟随ITD或CLD变化并且同时使ITD或CLD保持稳定的适当平滑化系数已证明是不可能的,尤其是在相关函数具有低分辨率时,例如,FFT的频率分辨率。
发明内容
本发明的目标是提供一种针对多信道音频编码器的概念,所述信道音频编码器能提供既稳定又快速的参数估计。
这一目标可通过独立权利要求中的特征实现。进一步的实施形式可从从属权利要求、说明书和附图中清楚地了解。
本发明是基于以下发现:针对ITD情况下的交叉相关或CLD情况下的能量运用强平滑化和弱平滑化,弱平滑化也称作低平滑化,会产生两种不同编码参数,其中一种编码参数快速地跟随ITD或CLD变化,而另一种编码参数则提供针对连续帧的稳定参数值。通过使用根据稳定性标准等质量标准的智能检测程序,所得到的编码参数既稳定又快速跟随ITD或CLD变化。
对相关的单一评估不足以获得稳定性和反应性二者,稳定性即,在实际声源不发生移动时在一段时间内对ITD参数保持一致的评估,而反应性即,在实际声源移动时或在具有不同位置的新声源出现在音频场景中时极快地改变评估函数。同一参数基于不同平滑化因数而具有带不同记忆效应的两个不同评估函数,从而能够使一种评估集中在稳定性而另一种评估集中在反应性。选择算法用于选择选择最佳评估,即,最可靠的评估。本发明的各方面是基于带不同平滑化因数的同一评估函数的两个版本。引入质量或可靠性标准以用于从长期评估切换到短期评估的决定。为了受益于短期评估和长期评估二者,用短期状况来更新长期状况,从而消除记忆效应。
为了详细描述本发明,将使用以下术语、缩写和符号:
BCC:双耳提示编码,使用下混以及双耳提示(或空间参数)来描述信道间关系的立体声或多信道信号编码。
双耳
提示:左耳入口信号与右耳入口信号之间的信道间提示(还可参见ITD、ILD和IC)。
CLD:信道电平差,与ILD相同。
FFT:DFT的快速实施,表示为快速傅里叶变换(Fast FourierTransform)。
HRTF:头相关传递函数,在自由场中对声音从声源到左耳及右耳入口进行建模转换。
IC:耳间相干性,即左耳入口信号与右耳入口信号之间的类似程度。有时也将其称作IAC或耳间交叉相关(IACC)。
ICC:信道间相干性,信道间相关。与IC相同,但是更加广义地定义在任何信号对之间(例如,扬声器信号对,耳入口信号对等)。
ICPD:信道间相位差。信号对之间的平均相位差。
ICLD:信道间电平差。与ILD相同,但是更加广义地定义在任何信号对之间(例如,扬声器信号对,耳入口信号对等)。
ICTD:信道间时间差。与ITD相同,但是更加广义地定义在任何信号对之间(例如,扬声器信号对,耳入口信号对等)。
ILD:耳间电平差,即,左耳入口信号与右耳入口信号之间的电平差。有时也将其称为耳间强度差(IID)。
IPD:耳间相位差,即,左耳入口信号与右耳入口信号之间的相位差。
ITD:耳间时间差,即,左耳入口信号和右耳入口信号之间的时间差。有时也将其称为耳间时延。
ICD:信道间差。用于表示两个信道之间的差的通用术语,例如,表示两个信道之间的时间差、相位差、电平差或相干性。
混合:给定一定数目的源信号(例如,分开录制的乐器、多轨录制),生成用于空间音频回放的立体声或多信道音频信号的过程被表示为混合。
OCPD:总信道相位差。两个或两个以上音频信道的公共相位修改。
空间
音频:在通过适当的回放系统进行回放时带来听觉空间图像的音频信号。
空间
提示:与空间感知相关的提示。此术语用于立体声或多信道音频信号的信道对之间的提示(还可参见ICTD、ICLD和ICC)。也表示为空间参数或双耳提示。
根据第一方面,本发明涉及用于确定多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数的方法,每个音频信道信号具有音频信道信号值,所述方法包括:根据所述音频信道信号的所述音频信道信号值以及参考音频信号的参考音频信号值为所述音频信道信号确定一组函数,其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号;基于与所述多信道音频信号的帧序列相关的所述一组函数的平滑化来确定第一组编码参数,所述平滑化是基于第一平滑化系数;基于与所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编码参数,所述平滑化是基于第二平滑化系数;基于与所述第一组编码参数和/或所述第二组编码参数相关的质量标准来确定所述编码参数。
根据第二方面,本发明涉及用于确定多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数的方法,每个音频信道信号具有音频信道信号值,所述方法包括:根据所述音频信道信号的所述音频信道信号值以及参考音频信号的参考音频信号值为所述音频信道信号确定一组函数,其中所述参考音频信号是从所述多个多信道音频信号中至少两个音频信道信号得到的下混音频信号;基于与所述多信道音频信号的帧序列相关的所述一组函数的平滑化来确定第一组编码参数,所述平滑化是基于第一平滑化系数;基于与所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编码参数,所述平滑化是基于第二平滑化系数;基于与所述第一组编码参数和/或所述第二组编码参数相关的质量标准来确定所述编码参数。
所述一组函数的强平滑化的版本,例如,基于第一平滑化参数的平滑化,使估计变得稳定。所述一组函数的弱平滑化的版本,例如,基于同时确定的第二平滑化参数的平滑化,使估计跟随估计参数,即ITD或CLD,的实际快速变化。用所述一组函数的弱平滑化的版本来更新所述一组函数的强平滑化的版本的记忆,从而提供与跟踪速度和稳定性相关的最优结果。平滑版本所采用的决定是基于第一组和/或第二组编码参数的质量度量。因此,可提供稳定且快速的参数估计。
在根据第一方面或根据第二方面的方法的第一种可能的实施形式中,对所述一组函数的确定包括:确定音频信道信号的音频信道信号值的频率变换;确定参考音频信号的参考音频信号值的频率变换;至少针对子频带的子集中的每个子频带,将所述一组函数确定为交叉谱或交叉相关,所述一组函数中的每个函数都在所述音频信道信号的频带受限信号部分与所述参考音频信号的频带受限信号部分之间进行计算,这些频带受限信号部分在与所述一组函数中的所述函数相关联的相应子频带上。
在基于交叉相关来估计频域中的编码参数时,编码参数估计的稳定性提升。可针对子频带来处理所述一组函数,从而改进选择编码参数时的灵活性并提高抵御噪声的稳健性,因为子频带对噪声的灵敏度低于全频带。
在根据第一方面的第一种实施形式或根据第二方面的第一种实施形式的方法的第二种可能的实施形式中,子频带包括一个或多个频率窗口。
子频带的大小可灵活地进行调整,从而可在每个子频带中使用不同的编码参数。
在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法的第三种可能的实施形式中,第一和第二组编码参数包括信道间差,其中所述信道间差包括信道间时间差和/或信道间电平差。
可使用信道间差作为空间参数以检测多信道音频信号的第一与第二音频信道之间的差。所述差可以是,例如,到达时间的差,如耳间时间差或信道间时间差,或者两个音频信道的电平的差。两种差均适于用作编码参数。
在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法的第四种可能的实施形式中,基于质量标准来确定编码参数包括确定稳定性参数,所述稳定性参数用于所述质量标准。
所述质量标准可,例如,基于稳定性参数,从而提升编码参数估计的稳定性。额外地或可替代地,所述质量标准可基于用于提升用户体验质量(QoE)的体验质量(QoE)标准。所述质量标准可基于用于在执行音频编码时有效地使用带宽的带宽标准。
在根据第一方面的第四种实施形式或根据第二方面的第四种实施形式的方法的第五种可能的实施形式中,
对编码参数的确定包括:基于与所述帧序列相关的第二组编码参数的连续值之间的比较,确定第二组编码参数的稳定性参数;以及根据所述稳定性参数来确定编码参数。
通过使用稳定性参数,估计的稳定性得到提高。此外,估计速度也得到了提升,因为交叉相关或能量的平滑化可减弱直到所述稳定性参数指示出稳定性损失为止。
在根据第一方面的第四种实施形式或根据第二方面的第四种实施形式的方法的第六种可能的实施形式中,
稳定性参数至少基于第二组编码参数的标准偏差。
所述标准偏差易于计算,并且提供稳定性的准确度量。当标准偏差较小时,估计是较稳定或较可靠,当标准偏差较大时,估计是较不稳定或较不可靠。
在根据第一方面的第四种实施形式或根据第二方面的第四种实施形式或者根据第一方面的第五种实施形式或根据第二方面的第五种实施形式的方法的第七种可能的实施形式中,针对多信道音频信号中的一个帧或多个帧来确定稳定性参数。
针对多信道音频信号中的一个帧来确定稳定性参数是容易实施的,并且具有低计算复杂度,而针对多个帧来确定稳定性参数能提供对稳定性的准确估计。
在根据第一方面的第四种到第七种实施形式中任一种实施形式或根据第二方面的第四种到第七种实施形式中任一种实施形式的方法的第八种可能的实施形式中,对编码参数的确定是基于稳定性参数的阈交来确定。
当稳定性参数低于阈值时,估计稳定或可靠,而稳定性参数高于阈值则指示不稳定或不可靠的估计。
在根据第一方面的第八种实施形式或根据第二方面的第八种实施形式的方法的第九种可能的实施形式中,所述方法进一步包括:如果稳定性参数跨越了阈值,则用第二组编码参数来更新第一组编码参数。
通过更新,第一组编码参数的估计可得到改进。当稳定性参数高于指示稳定估计的阈值时,长期平滑化可用短期平滑化来更新或替换,从而在维持稳定性的同时提升估计速度。
在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法的第十种可能的实施形式中,基于第一和第二平滑化系数的所述一组函数的平滑化的计算方式为,将乘以第一系数的所述一组函数与乘以第二系数的所述一组函数的第一和第二平滑版本的记忆状态相加,其中所述第一系数基于第一和第二平滑化系数,所述第二系数基于第一和第二平滑化系数。
此类递归计算使用存储器来存储所述一组函数的第一和第二平滑版本的过去值。递归平滑化的计算效率较高,因为加法和乘法的数目较少。递归平滑化的记忆效率较高,因为仅需要一个记忆状态来存储过去平滑化的那组函数,该记忆状态在每个计算步骤中更新。
在根据第一方面的第十种实施形式或根据第二方面的第十种实施形式的方法的第十一种可能的实施形式中,所述方法进一步包括:如果稳定性参数跨越了阈值,则用所述一组函数的第二平滑版本的记忆状态来更新所述一组函数的第一平滑版本的记忆状态。
通过根据稳定性参数用所述一组函数的第二平滑版本的记忆状态来更新所述一组函数的第一平滑版本的记忆状态,估计稳定性和速度得到了改进。当稳定性参数高于指示稳定估计的阈值时,长期平滑化可用短期平滑化来更新或替换,长期平滑化即,所述一组函数的第一平滑版本,而短期平滑化即,所述一组函数的第二平滑版本,从而在维持稳定性的同时提升估计速度。
在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法的第十二种可能的实施形式中,第一平滑化系数高于第二平滑化系数。
第一平滑化系数用于进行长期估计,而第二平滑化系数用于进行短期估计,因而能够区分不同的平滑化结果。
在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法的第十三种可能的实施形式中,所述一组函数的平滑化是关于多信道音频信号的至少两个连续帧。
如果使用多信道音频信号的两个或两个以上连续帧,那么所述平滑化将更为准确。
在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法的第十四种可能的实施形式中,所述一组函数的平滑化能区分第二组编码参数的正值与第二组编码参数的负值。
通过区分第二组编码参数的正值与负值,所述估计会具有更高的精确度。
在根据第一方面的第十四种实施形式或根据第二方面的第十四种实施形式的方法的第十五种可能的实施形式中,所述一组函数的平滑化包括:针对一定数目的频率窗口或子频带,计算第二组编码参数的正值的第一数目以及第二组编码参数的负值的第二数目。
对正值和负值进行计数能够实现根据第二组编码参数的正负号而对第二组编码参数进行的区分。通过进行所述区分,估计速度得到提升。
根据第三方面,本发明涉及多信道音频编码器,所述多信道音频编码器用于确定多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数,每个音频信道信号具有音频信道信号值,所述多信道音频编码器包括:第一确定器,其根据所述音频信道信号的所述音频信道信号值以及参考音频信号的参考音频信号值为所述音频信道信号确定一组函数,其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号;第二确定器,其基于与所述多信道音频信号的帧序列相关的所述一组函数的平滑化来确定第一组编码参数,所述平滑化是基于第一平滑化系数;第三确定器,其基于与所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编码参数,所述平滑化是基于第二平滑化系数;以及编码参数确定器,其基于与第一组编码参数和/或第二组编码参数相关的质量标准来确定所述编码参数。
根据第四方面,本发明涉及多信道音频编码器,所述多信道音频编码器用于确定多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数,每个音频信道信号具有音频信道信号值,所述多信道音频编码器包括:第一确定器,其根据所述音频信道信号的所述音频信道信号值以及参考音频信号的参考音频信号值为所述音频信道信号确定一组函数,其中所述参考音频信号是从所述多个多信道音频信号中至少两个音频信道信号得到的下混音频信号;第二确定器,其基于与所述多信道音频信号的帧序列相关的所述一组函数的平滑化来确定第一组编码参数,所述平滑化是基于第一平滑化系数;第三确定器,其基于与所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编码参数,所述平滑化是基于第二平滑化系数;以及编码参数确定器,其,基于与第一组编码参数和/或第二组编码参数相关的质量标准来确定所述编码参数。
此类多信道音频编码器提供关于速度和稳定性的最优编码。所述一组函数的强平滑化的版本,例如,基于第一平滑化参数的平滑化,使估计变得稳定。所述一组函数的弱平滑化的版本,例如,基于同时确定的第二平滑化参数的平滑化,使估计跟随估计参数,即,ITD或CLD,而产生真实的快速变化。用所述一组函数的弱平滑化的版本来更新所述一组函数的强平滑化的版本的记忆,从而提供与跟踪速度和稳定性相关的最优结果。平滑版本所采用的决定是基于第一组和/或第二组编码参数的质量度量。因此,提供了稳定且快速的参数估计。
根据第五方面,本发明涉及一种带程序代码的计算机程序,所述计算机程序用于在计算机上运行时执行根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形式或根据第二方面的任一前述实施形式的方法。
根据第六方面,本发明涉及存储器等具有计算机程序的机器可读媒体,尤其是光盘,所述计算机程序包含程序代码,用于在计算机上运行时执行根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述权利要求或根据第二方面的任一前述权利要求的方法。
上文所述的本发明的各方面可用于参数空间音频编码器中的ITD估计。在参数空间音频编码器或参数多信道音频编码器中,先对空间参数进行提取并量化,然后在比特流中对其进行多路传输。所述参数(例如ITD)可在频域中基于交叉相关来进行估计。为了使估计更加稳定,对频域交叉相关进行强平滑化以进行参数(ITD)估计。为了跟随参数的实际快速变化,同时也计算频域交叉相关的弱平滑化的版本,所述计算是基于通过减弱记忆效应而实现的对交叉相关进行的几乎瞬时的估计。
估计函数的弱平滑化的版本被用于估计参数(ITD)以及在参数状况发生改变的情况下更新交叉相关的强平滑化的版本的交叉相关记忆。对弱平滑化的版本进行使用的决定是基于所估计参数的质量度量。所述参数是基于估计函数的两个版本来估计的。最佳估计被保留,并且如果选择了弱平滑化的函数,那么它还用于更新强平滑化的版本。
例如,在ITD估计的情况下,基于频域交叉相关的弱平滑化的版本来计算ITD_inst(ITD的弱平滑化的版本)。如果ITD_inst针对若干频率窗口/子频带的标准偏差低于预定阈值,那么将使用来自弱平滑化的版本的交叉相关来更新强平滑化的交叉相关,并且选择用弱平滑化的函数来估计的ITD。
简单的质量度量是基于弱平滑化版本ITD估计的标准偏差。当然,还可用类似方式使用其他质量度量。例如,位置改变的可能性可基于所有可用空间信息(CLD、ITD、ICC)来计算。作为一个实例,ITD的快速改变与CLD的快速改变之间的相关将表示对空间图像进行修改的高可能性。
本文描述的方法可作为数字信号处理器(DSP)、微控制器或任何其他边处理器中的软件来实施或作为专用集成电路(ASIC)内的硬件电路来实施。
本发明的实施形式可为数字电子电路或计算机硬件、固件、软件或以上各者的组合。
附图说明
本发明的进一步实施例将参考以下附图进行描述,其中:
图1a所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法的示意图;
图1b所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法的示意图;
图2所示为根据一种实施形式的ITD估计算法的示意图;
图3所示为根据一种实施形式的CLD估计算法的示意图;
图4所示为根据一种实施形式的参数音频编码器的方框图;
图5所示为根据一种实施形式的参数音频解码器的方框图;
图6所示为根据一种实施形式的参数立体声音频编码器和解码器的方框图;
图7所示为根据一种实施形式的ITD选择算法的方框图;以及
图8所示为说明了耳间时间差原理的示意图。
具体实施方式
图1a所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法100a的示意图。
方法100a是用于确定多信道音频信号的多个音频信道信号x1、x2中音频信道信号x1的编码参数ITD,例如,信道间时间差或耳间时间差。每个音频信道信号x1、x2包括音频信道信号值x1[n]、x2[n]。方法100a包括:
根据音频信道信号x1的音频信道信号值x1[n]以及参考音频信号x2的参考音频信号值x2[n]为音频信道信号x1确定101一组函数c[b],其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号x2或从所述多个多信道音频信号中至少两个音频信道信号x1、x2得到的下混音频信号;
基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定103a第一组编码参数ITD[b],所述平滑化是基于第一平滑化系数SMW1
基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定105a第二组编码参数ITD_inst[b],所述平滑化是基于第二平滑化系数SMW2;以及
基于与所述第一组编码参数ITD[b]和/或所述第二组编码参数ITD_inst[b]相关的质量标准来确定107a编码参数ITD。
在一种实施形式中,确定107a编码参数ITD包括检查第二组编码参数ITD_inst[b]的稳定性。如果对于所有频率窗口b而言第二组编码参数ITD_inst[b]是稳定的,则选择基于第二组编码参数ITD_inst[b]的编码参数ITD作为最终估计,并且用基于第二平滑化系数SMW2的所述一组函数c[b]的平滑化来更新基于第一平滑化系数SMW1的所述一组函数c[b]的平滑化记忆。如果对于所有频率窗口b而言第二组编码参数ITD_inst[b]是不稳定的,则选择基于第一组编码参数ITD[b]的编码参数ITD作为最终估计。
在一种实施形式中,方法100a包括以下步骤:
针对参数ITD的估计,根据基于第一平滑化系数的输入信号x1[n]、x2[n]来计算101a第一函数c[b]并且计算103a相关联的平滑函数csm[b]。
针对参数ITD的估计,根据基于第二平滑化系数的输入信号x1[n]、x2[n]来计算105a第二平滑函数csm_inst[b]。
基于估计函数的两个平滑版本csm[b]和csm_inst[b]来计算107a参数ITD和ITDinst的第一和第二估计。
检查107a参数ITDinst的第二估计的稳定性。如果参数的第二估计是稳定的,则选择参数ITDinst的第二估计作为最终估计,并且用第二平滑函数来更新第一平滑函数的记忆。如果参数的第二估计是不稳定的,则选择参数ITD的第一估计作为最终估计。
在一种实施形式中,方法100a包括以下步骤:
1.计算第一x1[n]和第二x2[n]信道信号的FFT。
2.在频域中计算那两个信道的交叉相关c[n]。
2.1.对交叉相关c[n]进行强平滑化并且计算与第一平滑化系数,即,长期平滑化系数,相关的每个频率窗口(或频带)的ITD(信道间时间差的长时间估计)。
2.2.对交叉相关c[n]进行弱平滑化并且计算与第二平滑化系数,即,短期平滑化系数,相关的每个频率窗口(或频带)的ITD_inst(信道间时间差的短时间估计)。
3.计算ITD_inst的平均值和标准偏差。
4.如果ITD_inst的标准偏差低于阈值,则用弱平滑化版本的交叉相关来更新强平滑化的交叉相关的记忆,并且输出ITD_inst的平均值作为最终ITD。如果ITD_inst的标准偏差高于阈值,则输出ITD的平均值作为最终ITD。
图1b所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法100b的示意图。
方法100b是用于确定多信道音频信号的多个音频信道信号x1、x2中音频信道信号x1的编码参数CLD,例如,信道间电平差。每个音频信道信号x1、x2包括音频信道信号值x1[n]、x2[n]。方法100b包括:
根据音频信道信号x1的音频信道信号值x1[n]以及参考音频信号x2的参考音频信号值x2[n]为音频信道信号x1确定101一组函数c[b],其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号x2或从所述多个多信道音频信号中至少两个音频信道信号x1、x2得到的下混音频信号;
基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定103b第一组编码参数CLD[b],所述平滑化是基于第一平滑化系数SMW1
基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定105b第二组编码参数CLD_inst[b],所述平滑化是基于第二平滑化系数SMW2;以及
基于与所述第一组编码参数CLD[b]和/或所述第二组编码参数CLD_inst[b]相关的质量标准来确定107b编码参数CLD。
在一种实施形式中,确定107b编码参数CLD包括检查第二组编码参数CLD_inst[b]的稳定性。如果对于所有频率窗口b而言第二组编码参数CLD_inst[b]是稳定的,则选择基于第二组编码参数CLD_inst[b]的编码参数CLD作为最终估计,并且用基于第二平滑化系数SMW2的所述一组函数c[b]的平滑化来更新基于第一平滑化系数SMW1的所述一组函数c[b]的平滑化记忆。如果对于所有频率窗口b而言第二组编码参数CLD_inst[b]是不稳定的,则选择基于第一组编码参数CLD[b]的编码参数CLD作为最终估计。
在一种实施形式中,方法100b包括以下步骤:
针对参数CLD的估计,根据基于第一平滑化系数的输入信号x1[n]、x2[n]来计算101a第一函数c[b]并且计算103b相关联的平滑函数csm[b]。
针对参数CLD的估计,根据基于第二平滑化系数的输入信号x1[n]、x2[n]来计算105b第二平滑函数csm_inst[b]。
基于估计函数的两个平滑版本csm[b]和csm_inst[b]来计算107b参数CLD和CLDinst的第一和第二估计。
检查107b参数CLDinst的第二估计的稳定性。如果参数的第二估计是稳定的,则选择参数CLDinst的第二估计作为最终估计,并且用第二平滑函数来更新第一平滑函数的记忆。如果参数的第二估计是不稳定的,则选择参数CLD的第一估计作为最终估计。
在一种实施形式中,方法100b包括以下步骤:
1.计算第一x1[n]和第二x2[n]信道信号的FFT。
2.在频域中计算那两个信道的能量en[n]。
2.1.对能量en[n]进行强平滑化并且计算与第一平滑化系数,即,长期平滑化系数,相关的每个频率窗口(或频带)的CLD(信道间电平差的长时间估计)。
2.2.对能量en[n]进行弱平滑化并且计算与第二平滑化系数,即,短期平滑化系数,相关的每个频率窗口(或频带)的CLD_inst(信道间电平差的短时间估计)。
3.检查基于CLD_inst的立体声图像的稳定性。
4.如果立体声图像不稳定,则用弱平滑化版本的能量来更新强平滑化的能量的记忆,并输出CLD_inst作为最终CLD。如果立体声图像是稳定的,则输出CLD作为最终CLD。
图2所示为根据一种实施形式的ITD估计算法200的示意图。
在第一步骤209中,对第一输入信道x1[n]的样本运用时间频率变换,从而获得第一输入信道x1的频率表示X1[k]。在第二步骤211中,对第二输入信道x2[n]的样本运用时间频率变换,从而获得第二输入信道x2的频率表示X2[k]。在立体声输入信道的实施形式中,第一输入信道x1可为左声道并且第二输入信道x2可为右声道。在一个优选实施例中,时间频率变换为快速傅立叶变换(Fast Fourier Transform,FFT)或短时傅立叶变换(Short Term Fourier Transform,STFT)。在一个替代实施例中,时间频率变换是余弦调制滤波器组或复数滤波器组。
在第三步骤213中,每个子频带的交叉谱c[b]根据第一和第二输出信道x1、x2的频率表示X1[k]和X2[k]来计算,计算公式为
c [ b ] = Σ k = k b k b + 1 - 1 X 1 [ k ] X 2 * [ k ]
其中c[b]为子频带b的交叉谱。X1[k]和X2[k]为两个信道(例如,在立体声的情况下为左声道和右声道)的FFT系数。
*表示复数共轭。kb为子频带b的开始窗口并且kb+1为相邻子频带b+1的开始窗口。因此,从kb到kb+1-1的FFT的频率窗口[k]表示子频带[b]。
或者,针对FFT的每个频率窗口来计算交叉谱,计算公式为
c [ b ] = X 1 [ b ] X 2 * [ b ]
其中c[b]为频率窗口[b]的交叉谱,并且X1[b]和X2[b]为两个信道的FFT系数。*表示复数共轭。对于此情况,子频带[b]直接对应于一个频率窗口[k],频率窗口[b]和[k]恰好表示相同的频率窗口。在此实施形式中,交叉谱c[b]对应于参考图1a和图1b进行描述的一组函数c[b]。
在第四步骤215和第五步骤219中,平滑交叉谱的两个版本csm[b,i]和csm_inst[b,i]是根据交叉谱c[b]来计算,计算公式为
csm[b,i]=SMW1*csm[b,i-1]+(1-SMW1)*c[b]
csm_inst[b,i]=SMW2*csm_inst[b,i-1]+(1-SMW2)*c[b]
其中SMW1和SMW2为相应的平滑化因数,并且SMW1>SMW2。i为基于多信道音频信号的相应交叉谱的帧索引。在一个示例性的且优选的实施例中,SMW1=0.9844并且SMW2=0.75。
在第六步骤221和第七步骤223中,对于每个窗口或每个子频带,信道间时间差的两个版本ITD和ITD_inst分别是基于强平滑化的交叉谱csm[b,i]以及弱平滑化的交叉谱csm_inst[b,i]来计算,计算公式分别为
ITD [ b ] = ∠ c sm [ b , i ] * N π * b
ITD _ inst [ b ] = ∠ c sm _ inst [ b , i ] * N π * b
其中运算∠为用于计算平滑交叉谱的角度的辐角运算符(argumentoperator)。
N为FFT窗口的数目。
在第八步骤225中,信道间时间差ITD的强平滑化版本的平均值是针对所有所关注窗口(或子频带)来计算的。
ITD mean = Σ b = B 1 B 2 ITD [ b ] B 2 - B 1
其中B1和B2为所关注频率区域内第一个和最后一个窗口(或子频带)的索引。
在第九步骤227和第十步骤229中,信道间时间差ITD_inst的弱平滑化的版本的平均值ITD_instmean和标准偏差ITD_inststd是针对所有所关注频率窗口(或子频带)来计算的。
ITD _ inst mean = Σ b = B 1 B 2 ITD _ inst [ b ] B 2 - B 1
Figure BDA00003016280600203
在第十一步骤231中,通过比较来进行检查,前提是信道间时间差ITD_inst的弱平滑化的版本的标准偏差小于阈值(thr):
ITD_inststd<thr。如果这是正确的(Y=是),那么在第十二步骤217中根据csm[b,i]=csm_inst[b,i]更新第一平滑函数csm[b,i],并且在第十三步骤233中将信道间时间差ITD_inst的弱平滑化版本的平均值ITD_instmean输出作为最终编码参数ITD。如果这是不正确的(N=不),那么在第十四步骤235中将信道间时间差ITD的强平滑化版本的平均值ITDmean输出作为最终编码参数ITD。
上文所述的步骤209、211和213可表示为步骤210,所述步骤201对应于参考图1a所描述的步骤101。上文所述的步骤215和221可表示为步骤203,步骤203对应于参考图1a所描述的步骤103a。上文所述的步骤217、219和223可表示为步骤210,步骤205对应于参考图1a所描述的步骤101。上文所述的步骤225、227、229、231、233以及235可表示为步骤207,步骤207对应于参考图1a所描述的步骤107a。
在ITD估计的一个优选实施例中,编码参数ITD是基于信道间时间差的两个平滑化版本ITD和ITD_inst来计算,其中所述两个平滑化版本ITD和ITD_inst中的每一者根据以下实施方案、分别基于ITD和ITD_inst的正和负计算来确定:
对信道间时间差ITD的强平滑化的版本的正值和负值执行计数。正ITD和负ITD的平均值和标准偏差是基于ITD的正负号,如下所示:
ITD mean _ pos = Σ i = 0 i = M ITD ( i ) Nb pos 其中ITD(i)≥0
ITD mean _ neg = Σ i = 0 i = M ITD ( i ) Nb neg 其中ITD(i)<0
ITD std _ pos = Σ i = 0 i = M ( ITD ( i ) - ITD mean _ pos ) 2 Nb pos 其中ITD(i)≥0
ITD std _ neg = Σ i = 0 i = M ( ITD ( i ) - ITD mean _ neg ) 2 Nb neg 其中ITD(i)<0
其中Nbpos和Nbneg分别为正ITD和负ITD的数目。
M为提取的ITD的总数目。应注意,或者,如果ITD等于0,那么ITD可计入负ITD中,或者不计入平均值中的任一者中。
根据如图7中所描绘的选择算法,基于平均值和标准偏差,从正ITD和负ITD中选择ITD。
对信道间时间差ITD_inst的弱平滑化版本执行相同的计算。
在根据针对多信道参数音频编解码器的所述方法的应用的一种实施形式中,方法200包括以下步骤:
在第一和第二步骤209和211中,对输入信道运用时间频率变换。在一个优选实施例中,时间频率变换为快速傅立叶变换(FFT)或短时傅立叶变换(STFT)。在替代实施例中,时间频率变换可以是余弦调制滤波器组或复数滤波器组。
在第三步骤213中,每个子频带的信道j的交叉谱按照以下公式进行计算:
c j [ b ] = Σ k = k b k b + 1 - 1 X j [ k ] X ref * [ k ]
其中cj[b]为窗口b或子频带b的交叉谱。Xj[b]和Xref[b]为信道j和参考信道的FFT系数。*表示复数共轭。kb为频带b的开始窗口并且kb+1为相邻子频带b+1的开始窗口。因此,从kb到kb+1-1的FFT的频率窗口[k]表示子频带[b]。在一种实施形式中,选择参考信号Xref的谱作为信道Xj(针对[1,M]中的j)的谱,并且随后在解码器中计算M-1个空间提示。在一种替代实施形式中,Xref为单声道下混信号的谱,该谱为所有M个信道的平均值,并且随后在解码器中计算M个空间提示。使用下混信号作为多信道音频信号的参考信号的优势在于,能够避免使用无声信号作为参考信号。实际上,下混信号表示所有信道的能量的平均值,并且因此较少成为无声信号。
在一种替代实施形式中,针对FFT的每个频率窗口来计算交叉谱,计算公式为:
c j [ b ] = X j [ b ] X ref * [ b ]
其中cj[b]为频率窗口[b]的交叉谱。Xref[b]为参考信号的谱,并且Xj[b](针对[1,M]中的j)为多信道信号的每个信道的谱。*表示复数共轭。对于此情况,子频带[b]直接对应于一个频率窗口[k],频率窗口[b]和[k]恰好表示相同的频率窗口。
在第四步骤215和第五步骤219中,平滑交叉谱的两个版本的计算如下
cj,sm[b,i]=SMW1*cj,sm[b,i-1]+(1-SMW1)*cj[b]
cj,sm_inst[b,i]=SMW2*cj,sm_inst[b,i-1]+(1-SMW1)*cj[b]
其中SMW1和SMW2为平滑化因数,并且SMW1>SMW2。i为基于多信道音频信号的帧索引。在一个优选实施例中,SMW1=0.9844并且SMW2=0.75。
在第六步骤221和第七步骤223中,对于每个窗口或每个子频带,ITD和ITD_inst分别是基于强平滑化的交叉谱csm以及弱平滑化的交叉谱csm_inst来计算,计算公式分别为
ITD j [ b ] = ∠ c j , sm [ b , i ] * N π * b
ITD _ inst j ( b ) = ∠ c j , sm _ inst [ b , i ] * N π * b
其中运算∠为用于计算平滑交叉谱的角度的辐角运算符。
N为FFT窗口的数目。
在第八步骤225中,ITD的平均值是针对所有所关注窗口(或子频带)来计算的。
ITD mean , j = Σ b = B 1 B 2 ITD j [ b ] B 2 - B 1
其中B1和B2为所关注频率区域内第一个和最后一个窗口(或子频带)的索引。
在第九第六步骤227和第十步骤229中,ITD_inst的平均值和标准偏差是针对所有所关注窗口(或子频带)来计算,计算公式如下:
ITD _ inst mean , j = Σ b = B 1 B 2 ITD _ inst j [ b ] B 2 - B 1
ITD _ inst std , j = Σ b = B 1 B 2 ( ITD _ inst j [ b ] - ITD _ inst mean , j ) 2 B 2 - B 1
在第十一步骤231中,根据ITD_inststd,j<阈值,ITD_inststd,j经检查小于阈值thr。
如果是小于的(Y路径),那么根据cj,sm[b,i]=cj,sm_inst[b,i]在第十二步骤217中更新第一平滑函数,并且在第十三步骤233中输出ITD_instj(ITD_instmean,j)的平均值作为最终ITDj。如果不是小于的(N路径),则在第十四步骤235中输出ITDj(ITDmean,j)的平均值作为最终ITDj
在ITD估计的一个优选实施例中,编码参数ITDj是基于信道间时间差的两个平滑化版本ITDj和ITD_instj来计算,其中所述两个平滑化版本ITDj和ITD_instj中的每一者根据以下实施方案、分别基于ITDj和ITD_instj的正和负计算来确定:
对信道间时间差ITD的强平滑化的版本的正值和负值执行计数。正ITD和负ITD的平均值和标准偏差是基于ITD的正负号,如下所示:
ITD mean _ pos = Σ i = 0 i = M ITD ( i ) Nb pos 其中,ITD(i)≥0
ITD mean _ neg = Σ i = 0 i = M ITD ( i ) Nb neg 其中,ITD(i)<0
ITD std _ pos = Σ i = 0 i = M ( ITD ( i ) - ITD mean _ pos ) 2 Nb pos 其中,ITD(i)≥0
ITD std _ neg = Σ i = 0 i = M ( ITD ( i ) - ITD mean _ neg ) 2 Nb neg 其中,ITD(i)<0
其中Nbpos和Nbneg分别为正ITD和负ITD的数目。
M为提取的ITD的总数目。应注意,或者,如果ITD等于0,那么ITD可计入负ITD中,或者不计入平均值中的任一者中。
根据如图7中所描绘的选择算法,基于平均值和标准偏差,从正ITD和负ITD中选择ITD。
图3所示为根据一种实施形式的CLD估计算法的示意图。
在第一步骤309中,对第一输入信道x1[n]的样本运用时间频率变换,从而获得第一输入信道x1的频率表示X1[k]。在第二步骤311中,对第二输入信道x2[n]的样本运用时间频率变换,从而获得第二输入信道x2的频率表示X2[k]。在立体声输入信道的实施形式中,第一输入信道x1可为左声道并且第二输入信道x2可为右声道。在一项优选实施例中,时间频率变换为快速傅立叶变换(FFT)或短时傅立叶变换(STFT)。在一项替代实施例中,时间频率变换是余弦调制滤波器组或复数滤波器组。
在第三步骤313中,对于每个子频带,第一信道x1的能量en1[b]以及第二信道x2的能量en2[b]按照以下公式来计算
en 1 [ b ] = Σ k = k b k b + 1 - 1 X 1 [ k ] X 1 * [ k ]
en 2 [ b ] = Σ k = k b k b + 1 - 1 X 2 [ k ] X 2 * [ k ]
其中en1[b]和en2[b]为子频带b的能量。X1[k]和X2[k]为两个信道(例如,在立体声的情况下为左声道和右声道)的FFT系数。
*表示复数共轭。kb为频带b的开始窗口并且kb+1为相邻子频带b+1的开始窗口。因此,从kb到kb+1-1的FFT的频率窗口[k]表示子频带[b]。
或者,针对FFT中每个频率窗口的两个信道x1和x2的能量根据以下公式来计算:
en 1 [ b ] = X 1 [ b ] X 1 * [ b ]
en 2 [ b ] = X 2 [ b ] X 2 * [ b ]
其中en1[b]和en2[b]分别为第一和第二信道的频率窗口[b]的能量,X1[b]和X2[b]为两个信道的FFT系数。*表示复数共轭。对于此情况,子频带[b]直接对应于一个频率窗口[k],频率窗口[b]和[k]恰好表示相同的频率窗口。
在第四步骤315中确定第一信道x1能量的强平滑化的版本en1_sm[b,i]以及第二信道x2能量的强平滑化的版本en2_sm[b,i],并且在第五步骤319中确定第一信道x1能量的弱平滑化的版本en1_sm_inst[b,i]以及第二信道x2能量的弱平滑化的版本en2_sm_inst[b,i],确定公式为:
en1_sm[b,i]=SMW1*en1_sm[b,i-1]+(1-SMW1)*en1[b]
en1_sm_inst[b,i]=SMW2*en1_sm_inst[b,i-1]+(1-SMW2)*en1[b]
en2_sm[b,i]=SMW1*en2_sm[b,i-1]+(1-SMW1)*en2[b]
en2_sm_inst[b,i]=SMW2*en2_sm_inst[b,i-1]+(1-SMW2)*en2[b]
其中SMW1和SMW2为平滑化因数或平滑化系数,并且SMW1>SMW2,即,SMW1为强平滑化因数而SMW2为弱平滑化因数。i为帧索引。在根据CLD的确切演变的一种实施形式中,SMW2设置为零。
在第六步骤321中以及在第七步骤323中,针对每个窗口或每个子频带,分别基于强平滑化的能量en1_sm和en2_sm以及弱强平滑化的能量en1_sm_inst和en2_sm_inst来计算信道间电平差的强平滑化的版本CLD以及信道间电平差的弱平滑化的版本CLD_inst,计算公式如下:
CLD [ b ] = 10 log ( en 1 _ sm [ b ] en 2 _ sm [ b ] )
CLD _ inst [ b ] = 10 log ( en 1 _ sm _ inst [ b ] en 2 _ sm _ inst [ b ] )
在第八步骤329中,基于信道间电平差的弱平滑化的版本CLD_inst来计算立体声图像的稳定性。在一种实施形式中,根据专利公开案“WO2010/079167A1”中所描述的方法来确定稳定性标志,即,计算灵敏度测量。所述灵敏度测量可预测当前帧对长期预测(LTP)滤波器状态中因包丢失而现误差的灵敏程度。所述灵敏度测量根据以下公式来计算:
s=0.5PGLTP+0.5PGLTP,HP
其中PGLTP为长期预测增益,其按照LPC(线性预测编码)残余信号rLPC与LTP(长期预测)残余信号rLTP的能量比的测量方式来进行测量,并且PGLTP,HP为通过第一阶高通滤波器来运行PGLTP而获得的信号,所述运行根据以下公式:
PGLTP,HP(n)=PGLTP(n)-PGLTP(n-1)+0.5PGLTP,HP(n-1)。
灵敏度测量是同一测量的LTP预测增益与高通版本的组合。选择LTP预测增益是因为它直接将LTP状态误差与输出信号误差相关联。高通部分被添加以强调信号改变。在包丢失之后,正在改变的信号产生严重错误传播的风险很高,因为编码器和解码器中的LTP状态将很可能极不相同。
灵敏度测量将会输出表示立体声图像稳定性的标志。在比较步骤331中,标志经检查为一或零。如果标志等于零(路径N),那么立体声图像是稳定的,并且信道间电平差CLD在两个连续帧之间不具有大的改变。如果标志等于一(路径Y),那么立体声图像是不稳定的,并且意味着信道间电平差CLD在两个连续帧之间的改变极快。
在第九步骤331中,对从先前步骤329输出的稳定性标志进行检查。如果稳定性标志等于一(路径Y),则在第十步骤317中更新记忆,即,按照以下等式用弱平滑化的能量来更新强平滑化的能量:
en1_sm[b,i]=en1_sm_inst[b,i]且en2_sm[b,i]=en2_sm_inst[b,i],并且在第十一步骤333中,信道间电平差的弱平滑化的版本CLD_inst被输出作为最终编码参数CLD。如果稳定性标志等于零(路径N),则在第十二步骤335中将信道间电平差的强平滑化的版本CLD输出作为最终编码参数CLD。
上文所述的步骤309、311和313可表示为步骤301,步骤301对应于参考图1b所描述的步骤101。上文所述的步骤315和321可表示为步骤303,步骤303对应于参考图1b所描述的步骤103b。上文所述的步骤317、319和323可表示为步骤305,步骤305对应于参考图1b所描述的步骤105b。上文所述的步骤329、331、333和335可表示为步骤307,步骤307对应于参考图1b所描述的步骤107b。
图4所示为根据一种实施形式的参数音频编码器400的方框图。参数音频编码器400将多信道音频信号401作为输入信号来接收并且提供比特流作为输出信号403。参数音频编码器400包括:参数发生器405,其耦合到多信道音频信号401以便生成编码参数415;下混信号发生器407,其耦合到多信道音频信号401以便生成下混信号411或和信号;音频编码器409,其耦合到下混信号发生器407以便对下混信号411进行编码以提供已编码音频信号413;以及合路器417,例如,耦合到参数发生器405和音频编码器409以从编码参数415和已编码信号413形成比特流403的比特流形成器。
参数音频编码器400针对立体声和多信道音频信号实施音频编码方案,参数音频编码器400仅传输一个单一音频信道,例如,输入音频信道的下混表示加上对音频信道x1、x2、...、xM之间的“感知上相关的差”进行描述的额外参数。所述编码方案是根据双耳提示编码(BCC),因为双耳提示在所述编码方案中起到了重要作用。如图中所示,输入音频信道x1、x2、...、xM下混到一个单一音频信道411,单音频信道411也表示为和信号。作为音频信道x1、x2、...、xM之间的“感知上相关的差”,将信道间时间差(ICTD)、信道间电平差(ICLD)和/或信道间相干性(ICC)等编码参数415作为频率和时间的函数来进行估计并且作为边信息传输到图5中所描绘的解码器500。
实施BCC的参数发生器405采用特定的时间和频率分辨率对多信道音频信号401进行处理。所使用的频率分辨率很大程度上受到了听觉系统的频率分辨率的激发。心理声学表明空间感知很可能基于声学输入信号的临界频带表示。考虑此频率分辨率的方式为使用具有特定子频带的可逆滤波器组,所述特定子频带的带宽等于听觉系统的临界带宽或与听觉系统的临界带宽成比例。重要的是所传输的和信号411要包含多信道音频信号401的所有信号分量。目的在于完全维持每个信号分量。对多信道音频信号401的音频输入信道x1、x2、...、xM进行简单的求和通常会导致信号分量的放大或衰减。换言之,在“简单”的和中的信号分量的功率通常大于或小于每个信道x1、x2、...、xM的对应信号分量的功率之和。因此,通过采用下混装置407来使用下混技术,下混装置407使和信号411均衡,从而使得和信号411中的信号分量的功率与多信道音频信号401的所有输入音频信道x1、x2、...、xM中的对应功率大致相同。输入音频信道x1、x2、...、xM分解成许多子频带。一个此类子频带表示为X1[b](注意,为了进行简单表示,未使用子频带索引)。将类似的处理独立应用于所有子频带,通常,对子频带信号进行下取样。将每个输入信道的每个子频带的信号相加并且随后与功率归一化因数相乘。
给定和信号411,参数发生器405提取空间编码参数415以使ICTD、ICLD和/或ICC近似于原始多信道音频信号401的对应提示。
在考虑一个声源的双耳房间脉冲响应(BRIR)时,在听觉的宽度和听者环绕感(listener envelopment)以及针对双耳房间脉冲响应的前期和后期部分而估计的IC之间存在一定关系。然而,不仅仅是IC或ICC与BRIR之间的关系,IC或ICC与一般信号的这些性质之间的关系也不是简单明了的。立体声和多信道音频信号通常包含同时活跃的源信号的复杂混合,所述源信号是封闭空间中的录制所引起的反射信号分量所叠加而成的,或者是由录制工程师为了人工地创造空间印象而添加的。不同的声源信号及其反射在时间频率平面上占据不同的区域。这由随着时间和频率的函数而变化的ICTD、ICLD和ICC反映出来。在此情况下,瞬时ICTD、ICLD和ICC与听觉方向和空间印象之间的关系并不明显。参数发生器405的策略是,摸索着提取这些提示以使这些提示近似于原始音频信号的对应提示。
在一种实施形式中,参数音频编码器400使用具有特定子频带的滤波器组,所述特定子频带的带宽等于等效矩形带宽的两倍。非正式的收听揭示了在选择较高的频率分辨率时BCC的音频质量并未得到显著的改进。较低的频率分辨率是较佳的,因为它使得需要传输到解码器的ICTD、ICLD和ICC值较少,并且因此产生较低比特率。关于时间分辨率,ICTD、ICLD和ICC在常规的时间间隔内进行考虑。在一种实施形式中,大约每4到16毫秒考虑一次ICTD、ICLD和ICC。应注意,除非在极短的时间间隔内考虑提示,否则并不直接考虑优先效应。
经常在参考信号与合成信号之间获得的感知上较小的差表明:与多种听觉空间图像属性相关的提示通过在常规的时间间隔内合成ICTD、ICLD和ICC而得到隐式的考虑。传输这些空间提示所需的比特率仅仅是几个kb/s,因此参数音频编码器400能够以接近单一音频信道所需的比特率来传输立体声和多信道音频信号。图1和图2图示了将ITD作为编码参数415进行估计的方法。图1b和图3图示了将CLD作为编码参数415进行估计的方法。
参数音频编码器400包括:下混信号发生器407,其用于对多信道音频信号401的至少两个音频信道信号进行叠加以获得下混信号411;音频编码器409,确切地说是单声道编码器,其用于对下混信号411进行编码以获得编码的音频信号413;以及合路器417,其用于将已编码音频信号413与对应编码参数415合路。
参数音频编码器400生成多信道音频信号401的表示为x1、x2、...、xM的多个音频信道信号中一个音频信道信号的编码参数415。所述音频信道信号x1、x2、...、xM中的每个信号都可以是包括表示为x1[n]、x2[n]、...、xM[n]的数字音频信道信号值的数字信号。
参数音频编码器400生成编码参数415所针对的示例性音频信道信号是具有信号值x1[n]的第一音频信道信号x1。参数发生器405根据第一音频信号x1的音频信道信号值x1[n]以及参考音频信号x2的参考音频信号值x2[n]来确定编码参数ITD。
例如,用作参考音频信号的音频信道信号是第二音频信道信号x2。类似地,音频信道信号x1、x2、...、xM中的任何其他信号都可用作参考音频信号。根据第一方面,参考音频信号是音频信道信号的另一个音频信道信号,该音频信道信号不同于生成编码参数415所针对的音频信道信号x1
根据第二方面,参考音频信号是从所述多个多信道音频信号401中的至少两个音频信道信号得到的下混音频信号,例如,从第一音频信道信号x1和第二音频信道信号x2得到。在一种实施形式中,参考音频信号是下混信号411,也称作和信号,其由下混装置407生成。在一种实施形式中,参考音频信号是编码器409所提供的编码的信号413。
参数发生器405所使用的示例性参考音频信号是具有信号值x2[n]的第二音频信道信号x2
参数发生器405确定音频信道信号x1的音频信道信号值x1[n]的频率变换以及参考音频信号x1的参考音频信号值x2[n]的频率变换。参考音频信号是所述多个音频信道信号中另一个音频信道信号x2或从所述多个音频信道信号中的至少两个音频信道信号x1、x2得到的下混音频信号。
参数发生器405至少针对子频带的子集中的每个子频带确定信道间差。每个信道间差指示,信道间差所关联的相应子频带中音频信道信号的频带受限信号部分与参考音频信号的频带受限信号部分之间的时间差ITD[b]或相位差IPD[b]或电平差CLD[b]。
信道间相位差(ICPD)是信号对之间的平均相位差。信道间电平差(ICLD)与耳间电平差(ILD)相同,即,左耳入口信号与右耳入口信号之间的电平差,但是信道间电平差(ICLD)更加广义地定义为任何信号对之间的电平差,例如,扬声器信号对、耳入口信号对等等。信道间相干性或信道间相关与耳间相干性(IC)相同,即,左耳入口信号与右耳入口信号之间的类似程度,但是信道间相干性或信道间相关更加广义地定义为任何信号对之间的类似程度,例如,扬声器信号对、耳入口信号对等等。信道间时间差(ICTD)与耳间电平差(ILD)相同,有时也称为耳间时延,即,左耳入口信号与右耳入口信号之间的时间差,但是信道间时间差(ICTD)更加广义地定义为任何信号对之间的时间差,例如,扬声器信号对、耳入口信号对等等。子频带信道间电平差、子频带信道间相位差、子频带信道间相干性以及子频带信道间强度差与上文中关于子频带带宽所详述的参数有关。
参数发生器405用于实施上文参考图1a、图1b、图2和图3所描述的方法中的一种方法。
在一种实施形式中,参数发生器405包括:
第一确定器,其根据音频信道信号(x1)的所述音频信道信号值(x1[n])以及参考音频信号(x2)的参考音频信号值(x2[n])为音频信道信号(x1)确定一组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(x2)或从所述多个多信道音频信号中至少两个音频信道信号(x1、x2)得到的下混音频信号;
第二确定器,其基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定第一组编码参数(ITD[b]、CLD[b]),所述平滑化是基于第一平滑化系数(SMW1);
第三确定器,其基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定第二组编码参数(ITD_inst[b]、CLD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及
编码参数确定器,其基于与第一组编码参数(ITD[b]、CLD[b])和/或第二组编码参数(ITD_inst[b]、CLD_inst[b])相关的质量标准来确定编码参数(ITD、CLD)。
图5所示为根据一种实施形式的参数音频解码器500的方框图。参数音频解码器500将经由通信信道传输的比特流503作为输入信号来接收并且提供解码的多信道音频信号501作为输出信号。参数音频解码器500包括:比特流解码器517,其耦合到比特流503以便将比特流503解码为编码参数515以及编码的信号513;解码器509,其耦合到比特流解码器517以便根据编码的信号513来生成和信号511;参数解析器505,其耦合到比特流解码器517以便根据编码参数515解析出参数521;以及合成器505,其耦合到参数解析器505和解码器509以便从参数521以及和信号511合成解码的多信道音频信号501。
参数音频解码器500生成其多信道音频信号501的输出信道,使得信道之间的ICTD、ICLD和/或ICC近似于原始多信道音频信号的ICTD、ICLD和/或ICC。所述方案能够在仅略高于表示单声道音频信号所需比特率的比特率下表示多信道音频信号。这样的原因是,信道对之间的所估计ICTD、ICLD和ICC所包含的信息比音频波形少两个数量级。所关注的不仅是低比特率而且还有向后兼容性方面。所传输和信号对应于立体声或多信道信号的单声道下混。
图6所示为根据一种实施形式的参数立体声音频编码器601和解码器603的方框图。参数立体声音频编码器601对应于参考图4所描述的参数音频编码器400,但是多信道音频信号401是具有左音频信道605和右音频信道607的立体声音频信号。
参数立体声音频编码器601将立体声音频信号605、607作为输入信号来接收并且提供比特流作为输出信号609。参数立体声音频编码器601包括:参数发生器611,其耦合到立体声音频信号605、607以便生成空间参数613;下混信号发生器615,其耦合到立体声音频信号605、607以便生成下混信号617或和信号;单声道编码器619,其耦合到下混信号发生器615以便对下混信号617进行编码以提供编码的音频信号621;以及比特流合路器623,其耦合到参数发生器611和单声道编码器619以将编码参数613和编码的音频信号621合路到比特流中以提供输出信号609。在参数发生器611中,先对空间参数613进行提取并量化,然后在比特流中对其进行多路传输。
参数立体声音频解码器603将该比特流,即,经由通信信道传输的参数立体声音频编码器601的输出信号609,作为输入信号来接收并且提供具有左声道625和右声道627的解码的立体声音频信号作为输出信号。参数立体声音频解码器603包括:比特流解码器629,其耦合到所接收比特流609以便将比特流609解码为编码参数631以及编码的信号633;单声道解码器635,其耦合到比特流解码器629以便根据编码的信号633生成和信号637;空间参数解析器639,其耦合到比特流解码器629以便根据编码参数631解析出空间参数641;以及合成器643,其耦合到空间参数解析器639和单声道解码器635以便从空间参数641以及和信号637合成解码的立体声音频信号625、627。
参数立体声音频解码器603中的处理能够引入时延并且适应性地根据时间和频率来修改音频信号的电平以生成空间参数631,例如,信道间时间差(ICTD)以及信道间电平差(ICLD)。此外,参数立体声音频解码器603针对信道间相干性(ICC)合成来有效地执行时间适应性滤波。在一种实施形式中,参数立体声编码器使用基于滤波器组的短时傅立叶变换(short time Fourier transform,STFT),以便有效地实施具有低计算复杂性的双耳提示编码(BCC)方案。参数立体声音频编码器601中的处理具有低计算复杂度以及低时延,因此参数立体声音频编码适合可负担地实施于针对实时应用的微处理器或数字信号处理器。
除了添加了空间提示的量化和编码之外,图6中所描绘的参数发生器611与参考图4所描绘的对应参数发生器405的功能是相同的。和信号617是采用传统单声道音频编码器619来编码。在一种实施形式中,参数立体声音频编码器601使用基于STFT的时间频率变换来对频域内的立体声音频信道信号605、607进行变换。STFT将离散傅立叶变换(discrete Fouriertransform,DFT)运用于输入信号x(n)的开窗部分。在运用N点DFT之前,将N个样本的信号帧与长度为W的窗口相乘。相邻窗口是重叠的并且移位了W/2样本。对窗口进行选择以使重叠窗口合计为常数值1。因此,对于逆变换并不需要额外开窗。大小为N且连续帧的时间提前量为W/2样本的简单逆DFT被用于解码器603中。如果谱未经修改,那么将通过重叠/相加来获得完美的重建。
由于STFT的均匀谱分辨率不太适合人类的感知,因此STFT的间隔均匀的谱系数输出被分组到带宽比较适合感知的B非重叠分区。根据参考图4进行的描述,一个分区在概念上对应于一个“子频带”。在一种替代实施形式中,参数立体声音频编码器601使用非均匀滤波器组以对频域中的立体声音频信道信号605、607进行变换。
在一种实施形式中,下混器615确定均衡和信号Sm(k)617的一个分区b或一个子频带b的谱系数,该确定所用的公式为
S m ( k ) = e b ( k ) Σ c = 1 C X c , m ( k ) ,
其中Xc,m(k)是输入音频信道605、607的谱,并且eb(k)是增益
因数的计算如下:
e b ( k ) = Σ c = 1 C p x ~ c , b ( k ) p x ~ b ( k ) ,
其中分区功率的估计如下,
p x ~ c , b ( k ) = Σ m = A b - 1 A b - 1 | X c , m ( k ) | 2
p x ~ b ( k ) = Σ m = A b - 1 A b - 1 | Σ c = 1 C X c , m ( k ) | 2 .
为了在子频带信号之和显著衰减时避免由大增益因数引起的伪迹,增益因数eb(k)被限制到6dB,即,eb(k)≤2。
在参数立体声音频编码器601和解码器603的一种实施形式中,ITD信息(全频带)的类型被发信号通知远程解码器603。在一种实施形式中,依靠至少一个比特流中传送的辅助数据,通过隐式信令来执行所述类型的信令。在一种替代实施形式中,依靠指示相应比特流类型的标志,通过显式信令来执行所述信令。在一种实施形式中,有可能在包含隐式信令的第一信令选项与包含显式信令的第二信令选项之间进行切换。在隐式信令的一种实施形式中,标志指示至少一个向后兼容的比特流中的辅助数据中二级信道信息的存在。旧式解码器不检查标志是否存在,并且仅对向后兼容的比特流进行解码。例如,二级信道比特流的信令可包括在AAC比特流的辅助数据中。此外,二级比特流也可包括在AAC比特流的辅助数据中。在该情况下,旧式AAC解码器仅对比特流的向后兼容部分进行解码并且丢弃辅助数据。在参数立体声音频编码器601和解码器603的一种实施形式中,此类标志的存在得到了检查,并且如果标志存在于所接收比特流中,那么解码器603基于额外的全频带ITD信息来重建多信道音频信号。
在显式信令的一种实施形式中,标志指示比特流是使用新式而非旧式的编码器而获得的新比特流。旧式解码器不能够对所述比特流进行解码,因为旧式解码器不知道如何解释此标志。然而,根据一种实施形式的解码器603能够仅对向后兼容部分或整个多信道音频信号进行解码,并且能够决定仅对向后兼容部分进行解码还是对整个多信道音频信号进行解码。
根据下文可了解此类向后兼容性的益处。包括根据一种实施形式的解码器603的移动终端可决定对向后兼容部分进行解码,以在复杂性负载较低时节省集成式电池的电池寿命。此外,借助于呈现系统,解码器603可决定比特流中待解码的部分。例如,对于采用耳机进行呈现,所接收信号的向后兼容部分可能是足够的,然而多信道音频信号仅在终端连接到例如具有多信道呈现能力的坞站时才得到解码。
在一种实施形式中,参考图1a、图1b、图2和图3中的一者所描述的方法被运用于ITU-T G.722、G.722附件B、G.711.1和/或G.711.1附件D的立体声扩展的编码器中。此外,在一种实施形式中,参考图1a、图1b、图2和图3中的一者所描述的方法被运用于针对3GGP EVS(增强型语音服务)编解码器中所定义的移动应用的语音和音频编码器。
在一种实施形式中,参考图1a、图1b、图2和图3中的一者所描述的方法被用于听觉场景分析。在该情况下,可单独使用或结合起来使用ITD估计或CLD估计的实施例中的一者来评估空间图像的特性并且检测音频场景中声源的位置。
图7所示为根据一种实施形式的ITD选择算法的示意图。
在第一步骤701中,相对于负ITD值的数目Nbneg来检查正ITD值的数目Nbpos。如果Nbpos大于Nbneg,则执行步骤703;如果Nbpos不大于Nbneg,则执行步骤705。
在步骤703中,相对于负ITD的标准偏差ITDstd_neg来检查正ITD的标准偏差ITDstd_pos,并且相对于负ITD值的数目Nbneg与第一因数A相乘来检查正ITD值的数目Nbpos,例如根据:
(ITDstd_pos<ITDstd_neg)||(Nbpos>=A*Nbneg)。如果ITDstd_pos<ITDstd_neg或Nbpos>A*Nbneg,那么在步骤707中选择ITD作为正ITD的平均值。否则,将在步骤709中进一步检查正ITD和负ITD之间的关系。
在步骤709中,相对于正ITD的标准偏差ITDstd_pos与第二因数B相乘来检查负ITD的标准偏差ITDstd_neg,例如根据:(ITDstd_neg<B*ITDstd_pos)。如果ITDstd_neg<B*ITDstd_pos,那么在步骤715中将选择负ITD平均值的相反值作为输出ITD。否则,将在步骤717中检查来自先前帧(Pre_itd)的ITD。
在步骤717中,对来自先前帧的ITD进行检查,判断其是否大于零,例如根据“rPre_itd>0”。如果Pre_itd>0,那么在步骤723中选择输出ITD作为正ITD的平均值,否则,在步骤725中,输出ITD是负ITD平均值的相反值。
在步骤705中,相对于正ITD的标准偏差ITDstd_pos来检查负ITD的标准偏差ITDstd_neg,并且相对于正ITD值的数目Nbpos与第一因数A相乘来检查负ITD值的数目Nbneg,例如根据:(ITDstd_neg<ITDstd_pos)||(Nbneg>=A*Nbpos)。如果ITDstd_neg<ITDstd_pos或Nbneg>A*Nbpos,那么在步骤711中选择ITD作为负ITD的平均值。否则,在步骤713中进一步检查负ITD和正ITD之间的关系。
在步骤713中,相对于负ITD的标准偏差ITDstd_neg与第二因数B相乘来检查正ITD的标准偏差ITDstd_pos,例如根据:(ITDstd_pos<B*ITDstd_neg)。如果ITDstd_pos<B*ITDstd_neg,那么在步骤719中选择正ITD平均值的相反值作为输出ITD。否则,在步骤721中检查来自先前帧(Pre_itd)的ITD。
在步骤721中,对来自先前帧的ITD进行检查,判断其是否大于零,例如根据“rPre_itd>0”。如果Pre_itd>0,那么在步骤727中选择输出ITD作为负ITD的平均值,否则,在步骤729中,输出ITD是正ITD平均值的相反值。
分别针对正ITD和负ITD来获得基于交叉谱的强平滑化的版本(ITDmean)的ITD与基于交叉谱的弱平滑化的版本(ITDmean_inst)的ITD之间的选择。最后,按照图7中所描绘来完成对ITD的决定。
根据以上内容,所属领域的技术人员将清楚地了解,提供了多种方法、系统、录制媒体上的计算机程序等。
本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品,这些计算机可执行代码或计算机可执行指令在执行时可使至少一台计算机执行本文所述的执行及计算步骤。
本发明还支持用于执行本文所述的执行及计算步骤的系统。
根据以上教示,所述领域的技术人员将易于想到许多其他的替代产品、修改及变体。显然,所属领域的技术人员易于想到,除了本文所述的应用之外,还存在本发明的众多其他应用。虽然已参考一个或多个特定实施例描述了本发明,但是所属领域的技术人员将认识到,在不偏离本发明的精神及范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效物的范围内,那么也可以用不同于本文具体描述的方式来实践本发明。

Claims (15)

1.一种用于确定多信道音频信号的多个音频信道信号(x1、x2)中音频信道信号(x1)的编码参数(ITD)的方法(100),每个音频信道信号(x1、x2)具有音频信道信号值(x1[n]、x2[n]),所述方法包括:
根据所述音频信道信号(x1)的所述音频信道信号值(x1[n])以及参考音频信号(x2)的参考音频信号值(x2[n])为所述音频信道信号(x1)确定(101)一组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(x2)或从所述多个多信道音频信号中至少两个音频信道信号(x1、x2)得到的下混音频信号;
基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(103)第一组编码参数(ITD[b]),所述平滑化是基于第一平滑化系数(SMW1);
基于与所述多信道音频信号的所述帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(105)第二组编码参数(ITD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及
基于与所述第一组编码参数(ITD[b])和/或所述第二组编码参数(ITD_inst[b])相关的质量标准来确定(107)所述编码参数(ITD)。
2.根据权利要求1所述的方法,其中所述确定(101)所述一组函数(c[b])包括:
确定所述音频信道信号(x1)的所述音频信道信号值(x1[n])的频率变换(X1[k]);
确定(103)所述参考音频信号(x2)的所述参考音频信号值(x1[n])的频率变换(X2[k]);
对子频带的子集中的至少每个子频带(b),将所述一组函数(c[b])确定(105)为交叉谱或交叉相关,所述一组函数(c[b])中的每个函数都在所述音频信道信号的频带受限信号部分与所述参考音频信号的频带受限信号部分之间进行计算,这些频带受限信号部分在与所述一组函数(c[b])中的所述函数相关联的相应子频带(b)上。
3.根据权利要求2所述的方法(100),其中子频带包括一个或多个频率窗口(k)。
4.根据前述权利要求中任一权利要求所述的方法(100),其中所述第一组编码参数(ITD[b])和所述第二组编码参数(ITD_inst[b])包括信道间差(ICD[b]),其中所述信道间差(ICD[b])包括信道间时间差(ITD[b])和/或信道间电平差(CLD[b])。
5.根据前述权利要求中任一权利要求所述的方法(100),其中基于质量标准对所述编码参数(ITD)进行的所述确定(107)包括确定稳定性参数,所述稳定性参数用于所述质量标准。
6.根据权利要求5所述的方法(100),其中对所述编码参数(ITD、CLD)的所述确定(107)包括:
基于与所述帧序列(i)相关的所述第二组编码参数(ITD_inst[b]、CLD_inst[b])的连续值之间的比较,确定所述第二组编码参数(ITD_inst[b]、CLD_inst[b])的稳定性参数;以及
根据所述稳定性参数来确定所述编码参数(ITD、CLD)。
7.根据权利要求5所述的方法(100),其中所述稳定性参数至少基于所述第二组编码参数(ITD_inst[b],CLD_inst[b])的标准偏差(ITD_inststd)。
8.根据权利要求6或权利要求7所述的方法(100),其中所述稳定性参数是针对所述多信道音频信号的一个帧或多个帧来确定。
9.根据权利要求6、权利要求7或权利要求8所述的方法(100),其中对所述编码参数(ITD、CLD)的所述确定是基于所述稳定性参数的阈交来确定。
10.根据权利要求9所述的方法(100),其进一步包括:
如果所述稳定性参数跨越了所述阈值,则用所述第二组编码参数(ITD_inst[b]、CLD_inst[b])来更新所述第一组编码参数(ITD[b]、CLD[b])
11.根据前述权利要求中任一权利要求所述的方法(100),其中基于第一平滑化系数和第二平滑化系数(SMW1、SMW2)的所述一组函数(c[b])的所述平滑化的计算方式为,将乘以第一系数的所述一组函数与乘以第二系数的所述一组函数的第一平滑版本和第二平滑版本的记忆状态相加,其中所述第一系数基于所述第一平滑化系数和所述第二平滑化系数(SMW1、SMW2),所述第二系数基于所述第一平滑化系数和所述第二平滑化系数(SMW1、SMW2)。
12.根据权利要求11所述的方法(100),其进一步包括:
如果所述稳定性参数跨越了所述阈值,则用所述一组函数(c[b])的所述第二平滑版本的所述记忆状态来更新所述一组函数(c[b])的所述第一平滑版本的所述记忆状态。
13.根据前述权利要求中任一权利要求所述的方法(100),其中所述第一平滑化系数(SMW1)高于所述第二平滑化系数(SMW2)。
14.一种多信道音频编码器(400),用于为多信道音频信号的多个音频信道信号(x1、x2)中音频信道信号(x1)确定编码参数(ITD),每个音频信道信号(x1、x2)具有音频信道信号值(x1[n]、x2[n]),所述多信道音频编码器包括:
第一确定器,其根据所述音频信道信号(x1)的所述音频信道信号值(x1[n])以及参考音频信号(x2)的参考音频信号值(x2[n])为所述音频信道信号(x1)确定一组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(x2)或从所述多个多信道音频信号中至少两个音频信道信号(x1、x2)得到的下混音频信号;
第二确定器,其基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定第一组编码参数(ITD[b]),所述平滑化是基于第一平滑化系数(SMW1);
第三确定器,其基于与所述多信道音频信号的所述帧序列(i)相关的所述一组函数(c[b])的平滑化来确定第二组编码参数(ITD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及
编码参数确定器,其基于与所述第一组编码参数(ITD[b])和/或所述第二组编码参数(ITD_inst[b])相关的质量标准来确定所述编码参数(ITD)。
15.一种具有程序代码的计算机程序,所述计算机程序用于在计算机上运行时执行根据权利要求1至13中任一项权利要求所述的方法(100)。
CN201280003252.9A 2012-04-05 2012-04-05 确定多信道音频信号的编码参数的方法及多信道音频编码器 Active CN103460283B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056340 WO2013149672A1 (en) 2012-04-05 2012-04-05 Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder

Publications (2)

Publication Number Publication Date
CN103460283A true CN103460283A (zh) 2013-12-18
CN103460283B CN103460283B (zh) 2015-04-29

Family

ID=45952541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280003252.9A Active CN103460283B (zh) 2012-04-05 2012-04-05 确定多信道音频信号的编码参数的方法及多信道音频编码器

Country Status (7)

Country Link
US (1) US9449604B2 (zh)
EP (1) EP2834814B1 (zh)
JP (1) JP5947971B2 (zh)
KR (1) KR101621287B1 (zh)
CN (1) CN103460283B (zh)
ES (1) ES2571742T3 (zh)
WO (1) WO2013149672A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004421A (zh) * 2014-10-31 2017-08-01 杜比国际公司 多通道音频信号的参数编码和解码
CN107004419A (zh) * 2014-11-28 2017-08-01 索尼公司 发送装置、发送方法、接收装置和接收方法
CN108352162A (zh) * 2015-09-25 2018-07-31 沃伊斯亚吉公司 用于使用主声道的编码参数编码立体声声音信号以编码辅声道的方法和系统
CN108369809A (zh) * 2015-12-18 2018-08-03 高通股份有限公司 时间偏移估计
WO2019020045A1 (zh) * 2017-07-25 2019-01-31 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN110462732A (zh) * 2017-03-20 2019-11-15 高通股份有限公司 目标样本产生
CN111935624A (zh) * 2020-09-27 2020-11-13 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
CN106033672B (zh) 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
PL3503097T3 (pl) 2016-01-22 2024-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie oraz sposób do enkodowania lub dekodowania sygnału wielokanałowego z wykorzystaniem ponownego próbkowania w dziedzinie widmowej
US10832689B2 (en) 2016-03-09 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing stability of an inter-channel time difference parameter
CN108877815B (zh) * 2017-05-16 2021-02-23 华为技术有限公司 一种立体声信号处理方法及装置
CN109215668B (zh) 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
CN117133297A (zh) * 2017-08-10 2023-11-28 华为技术有限公司 时域立体声参数的编码方法和相关产品
US10891960B2 (en) * 2017-09-11 2021-01-12 Qualcomm Incorproated Temporal offset estimation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
CN111341319B (zh) * 2018-12-19 2023-05-16 中国科学院声学研究所 一种基于局部纹理特征的音频场景识别方法及系统
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
WO2022153632A1 (ja) * 2021-01-18 2022-07-21 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006091150A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Improved filter smoothing in multi-channel audio encoding and/or decoding
CN1954642A (zh) * 2004-06-30 2007-04-25 德商弗朗霍夫应用研究促进学会 多信道合成器及产生多信道输出信号方法
CN101410889A (zh) * 2005-08-02 2009-04-15 杜比实验室特许公司 对作为听觉事件的函数的空间音频编码参数进行控制

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
GB2466672B (en) 2009-01-06 2013-03-13 Skype Speech coding
MY160545A (en) 2009-04-08 2017-03-15 Fraunhofer-Gesellschaft Zur Frderung Der Angewandten Forschung E V Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1954642A (zh) * 2004-06-30 2007-04-25 德商弗朗霍夫应用研究促进学会 多信道合成器及产生多信道输出信号方法
WO2006091150A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Improved filter smoothing in multi-channel audio encoding and/or decoding
CN101410889A (zh) * 2005-08-02 2009-04-15 杜比实验室特许公司 对作为听觉事件的函数的空间音频编码参数进行控制

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FRANK BAUMGARTE等: "Estimation of auditory spatial cues for Binaural Cue Coding", 《IEEE XPLORE》, 17 May 2002 (2002-05-17), pages 1801 - 1804 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107004421A (zh) * 2014-10-31 2017-08-01 杜比国际公司 多通道音频信号的参数编码和解码
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
CN107004419A (zh) * 2014-11-28 2017-08-01 索尼公司 发送装置、发送方法、接收装置和接收方法
US10880597B2 (en) 2014-11-28 2020-12-29 Saturn Licensing Llc Transmission device, transmission method, reception device, and reception method
CN108352162A (zh) * 2015-09-25 2018-07-31 沃伊斯亚吉公司 用于使用主声道的编码参数编码立体声声音信号以编码辅声道的方法和系统
CN108369809B (zh) * 2015-12-18 2019-08-13 高通股份有限公司 时间偏移估计
CN108369809A (zh) * 2015-12-18 2018-08-03 高通股份有限公司 时间偏移估计
CN110462732A (zh) * 2017-03-20 2019-11-15 高通股份有限公司 目标样本产生
CN109300480A (zh) * 2017-07-25 2019-02-01 华为技术有限公司 立体声信号的编解码方法和编解码装置
WO2019020045A1 (zh) * 2017-07-25 2019-01-31 华为技术有限公司 立体声信号的编解码方法和编解码装置
CN109300480B (zh) * 2017-07-25 2020-10-16 华为技术有限公司 立体声信号的编解码方法和编解码装置
US11238875B2 (en) 2017-07-25 2022-02-01 Huawei Technologies Co., Ltd. Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
US11741974B2 (en) 2017-07-25 2023-08-29 Huawei Technologies Co., Ltd. Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
CN111935624A (zh) * 2020-09-27 2020-11-13 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质
CN111935624B (zh) * 2020-09-27 2021-04-06 广州汽车集团股份有限公司 车内音响空间感的客观评价方法、系统、设备及存储介质

Also Published As

Publication number Publication date
EP2834814A1 (en) 2015-02-11
CN103460283B (zh) 2015-04-29
US20150010155A1 (en) 2015-01-08
KR20140140101A (ko) 2014-12-08
WO2013149672A1 (en) 2013-10-10
JP2015518176A (ja) 2015-06-25
US9449604B2 (en) 2016-09-20
EP2834814B1 (en) 2016-03-02
JP5947971B2 (ja) 2016-07-06
KR101621287B1 (ko) 2016-05-16
ES2571742T3 (es) 2016-05-26

Similar Documents

Publication Publication Date Title
CN103460283B (zh) 确定多信道音频信号的编码参数的方法及多信道音频编码器
US11887609B2 (en) Apparatus and method for estimating an inter-channel time difference
US9449603B2 (en) Multi-channel audio encoder and method for encoding a multi-channel audio signal
EP3035330B1 (en) Determining the inter-channel time difference of a multi-channel audio signal
US9401151B2 (en) Parametric encoder for encoding a multi-channel audio signal
US9275646B2 (en) Method for inter-channel difference estimation and spatial audio coding device
KR20070091587A (ko) 스테레오 신호 생성 방법 및 장치
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
CN104205211B (zh) 多声道音频编码器以及用于对多声道音频信号进行编码的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant