CN103534753A - 用于信道间差估计的方法和空间音频编码装置 - Google Patents

用于信道间差估计的方法和空间音频编码装置 Download PDF

Info

Publication number
CN103534753A
CN103534753A CN201280023292.XA CN201280023292A CN103534753A CN 103534753 A CN103534753 A CN 103534753A CN 201280023292 A CN201280023292 A CN 201280023292A CN 103534753 A CN103534753 A CN 103534753A
Authority
CN
China
Prior art keywords
icd
audio
audio channel
channel signals
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280023292.XA
Other languages
English (en)
Other versions
CN103534753B (zh
Inventor
郎玥
大卫·维雷特
许剑峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103534753A publication Critical patent/CN103534753A/zh
Application granted granted Critical
Publication of CN103534753B publication Critical patent/CN103534753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

本发明提供了用于低复杂的信道间差估计的方法和装置。用于估计信道间差ICD的方法包括:对多个音频信道信号应用变换;计算所述多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的所述ICD的多个ICD值,每个ICD值在所述预定频率范围的一部分上进行计算;通过将所述多个ICD值中的每一者乘以对应的频率相关加权因数,来对所述多个ICD值中的每一者计算加权的ICD值;以及通过加入所述多个加权的ICD值,来对所述预定频率范围计算ICD范围值。

Description

用于信道间差估计的方法和空间音频编码装置
技术领域
本发明涉及用于信道间差(ICD)估计的方法以及空间音频编码或参数的多信道编码装置,尤其是针对参数的多信道音频编码。
背景技术
参数的多信道音频编码在针对音频和声音信号处理应用的IEEE专题研讨会会刊,2001年10月,第199页至第202页(Proc.IEEE Workshop onAppl.of Sig.Proc.to Audio and Acoust.,Oct.2001,pp.199–202)中法勒(Faller C.)和鲍姆加特(Baumgarte F.)的“使用感知参数化的空间音频的有效表示(Efficient representation of spatial audio using perceptualparametrization)”中有描述。下混的音频信号可经上混以合成多信道音频信号,这可通过使用空间提示来产生比下混音频信号更多的输出音频信道来实现。通常,下混的音频信号因多信道音频信号,例如,立体声音频信号,的多个音频信道信号的叠加而产生。对下混的音频信号的波形进行编码并且将其与涉及空间提示的辅助数据一起放入音频比特流中。解码器基于波形编码的音频信道,使用辅助数据来合成多信道音频信号。
存在数个空间提示或参数可用于合成多信道音频信号。首先,信道间电平差(ILD)指示待比较的两个信道上的音频信号的电平之间的差。第二,信道间时间差(ITD)指示人耳之间的声音到达时间差。ITD值对声音的定位很重要,因为它提供提示以识别声源相对于人耳的入射方向或角度。第三,信道间相位差(ICD)指定待比较的两个信道之间的相对相位差。子带ICD值可用作子带ITD值的估计。最后,信道间相干(ICC)定义为在根据ITD或ICD的相位调整之后的归一化信道间交叉相关。ICC值可用于估计声源的宽度。
ILD、ITD、ICD及ICC是空间多信道编码/解码的重要参数,特别是对于立体声音频信号,尤其是双声道的音频信号。ITD可,例如,覆盖-1.5ms至1.5ms之间的声响延迟的范围。ICD可覆盖–π与π之间的相位差的全部范围。ICC可覆盖相关的范围并且可指定在0与1之间的百分比值中或-1与+1之间的其他相关因数中。在当前参数的立体声编码方案中,ILD、ITD、ICD及ICC通常在频域中进行估计。对于每一子带,ILD、ITD、ICD及ICC经计算、量化、计入音频比特流的参数段中而被传输。
由于参数的音频编码方案的比特率的限制,有时在音频比特流的参数段中没有足够的比特来传输空间编码参数所有的值。例如,文件US2006/0153408A1揭示了一种音频编码器,其中对多个音频信道产生组合的提示编码以作为边信息计入下混的音频比特流中。文件US8,054,981B2揭示了一种用于空间音频编码的方法,该方法使用与以下电平关系相关联的量化规则,即某个音频信道的能量测量与多个音频信道的能量测量的电平关系。
发明内容
本发明的构想是对在多个音频信道信号中的每一对音频信道信号之间的每个频率子带或频率窗口计算信道间差ICD值并且基于所述ICD值来计算加权平均值。根据加权方案,将感知上重要的频率子带或频率窗口优先于较不重要者来考虑。
有利的是,这种技术能将考虑能量或感知重要性考虑在内,这样环境声或漫射声将不会影响ICD估计。这尤其有利于有意义地表示具有语音音频数据等强的直流分量的声音的空间图像。
此外,所提出的方法减少了待计入音频比特流中的空间编码参数的数量,从而降低了估计复杂性和传输比特率。
因此,本发明的第一方面涉及用于估计信道间差ICD的方法,所述方法包括对多个音频信道信号应用从时域到频域的变换;计算多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的ICD的多个ICD值,每个ICD值在预定频率范围的一部分上进行计算;通过将多个ICD值中的每一者乘以对应的频率相关加权因数,来对多个ICD值中的每一者计算加权的ICD值;以及通过加入所述多个加权的ICD值,来对预定的频率范围计算ICD范围值。
根据第一方面的第一实施方案,ICD是信道间相位差IPD或信道间时间差ITD。这些空间编码参数对于听觉的音频数据重现尤其有利。
根据第一方面的第二实施方案,从时域到频域的变换包括以下项中的一者:快速傅立叶变换FFT、余弦调制滤波器组、离散傅立叶变换DFT以及复数滤波器组。
根据第一方面的第三实施方案,预定频率范围包括以下项中的一者:多个音频信道信号的全频带、多个音频信道信号的全频带内的预定频率间隔,以及多个音频信道信号的全频带内的多个预定频率间隔。
根据第一方面的第三实施方案的第一实施方案,预定频率间隔在200Hz与600Hz之间或在300Hz与1.5kHz之间。这些频率范围对应于听觉的频率相关敏感度,其中ICD参数最有意义。
根据第一方面的第四实施方案,参考音频信道信号包括一个所述音频信道信号或从多个音频信道信号中的至少两个音频信道信号导出的下混音频信号。
根据第一方面的第五实施方案,计算多个ICD值包括基于频率子带来计算多个ICD值。
根据第一方面的第五实施方案的第一实施方案,频率相关加权因数基于频率子带的能量来确定,所述频率子带的能量基于预定频率范围上的总能量而归一化。
根据第一方面的第五实施方案的第二实施方案,频率相关加权因数基于在预定的频率范围上归一化的音频信道信号的频率的能量分布的掩蔽曲线来确定。
根据第一方面的第五实施方案的第三实施方案,频率相关加权因数基于在预定频率范围上归一化的音频信道信号的子带的感知熵值来确定。
根据第一方面的第六实施方案,频率相关加权因数在至少两个相邻帧之间是平滑的。这样可为有利的,因为估计的ICD值在相邻帧之间相对较稳定,这是因为立体声图像在短时间段内通常不会改变很多。
根据本发明的第二方面,空间音频编码装置包括变换模块,该变换模块用于对多个音频信道信号应用从频域到时域的变换,以及参数估计模块,该参数估计模块:用于计算多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的ICD的多个ICD值;用于通过将多个ICD值中的每一者乘以对应的频率相关加权因数,来对多个ICD值中的每一者计算加权的ICD值;并且用于通过加入所述多个加权的ICD值,来对预定的频率范围计算ICD范围值。
根据第二方面的第一实施方案,空间音频编码装置进一步包括下混模块,所述下混模块用于通过下混多个音频信道信号来产生下混音频信道信号。
根据第二方面的第二实施方案,空间音频编码装置进一步包括编码模块,所述编码模块耦合到下混模块并且用于产生编码的音频比特流,所述编码的音频比特流包括编码的下混的音频比特流。
根据第二方面的第三实施方案,空间音频编码装置进一步包括流模块,所述流模块耦合到参数估计模块并且用于产生音频比特流,所述音频比特流包括下混的音频比特流及辅助数据,所述辅助数据包括多个音频信道信号的ICD范围值。
根据第二方面的第三实施方案的第一实施方案,流模块进一步用于在音频比特流中设置标志,该标志指示音频比特流中辅助数据的存在,所述辅助数据包括ICD范围值。
根据第二方面的第四实施方案,所述标志针对整个音频比特流二设置或包含在音频比特流中的辅助数据中。
根据本发明的第三方面,提供一种计算机程序,该计算机程序包括程序编码,该程序编码在计算机上运行时执行根据第一方面或其实施方案中的任一项的方法。
本文描述的方法可实施为数字信号处理器(DSP)、微控制器或任何其他边处理器中的软件或实施为专用集成电路(ASIC)内的硬件电路。
本发明可在数字电子电路中或在计算机硬件、固件、软件中或在其组合中实施。
通过以下描述,容易理解额外的实施例和实施方案。确切地说,除非另有说明,下文所述的实施例、各方面及实施方案中的任何特征,都可与实施例、各方面及实施方案中的任何其他特征进行组合。
附图说明
包含附图用于提供对本发明的进一步理解。它们图示了各实施例并且可结合描述有助于解释本发明的原理。在通过参考下文中的详细描述而更好理解之后,读者可了解其他实施例和许多预期优势、设想的原理以及功能性。图中的元件不一定相对于彼此按比例画制。一般而言,相同参考编号指代对应的类似部分。
图1示意地图示了空间音频编码系统。
图2示意地图示了空间音频编码装置。
图3示意地图示了空间音频解码装置。
图4示意地图示了用于估计信道间差的方法的实施例。
图5示意地图示了音频比特流的比特流结构的变体。
具体实施方式
在以下详细描述中,参考了附图,并且其中图示了具体的实施例。应明白,可利用其他实施例并且在不脱离本发明范围的情况下可作出各种结构或逻辑变化。除非另有说明,各实施例的功能、原理及细节可与其他实施例进行组合。一般地,此应用旨在涵盖本文所论述的具体实施例的任何调整或变型。因此,以下详细描述不应理解为具有限制意义,而本发明的范围是由所附权利要求来界定的。
实施例可包括各种方法和流程,这些方法和流程可在机器可读媒体所提供的机器可读指令内实施,所述机器可读媒体包括但不限于,能够存储可由以下机器使用的信息的装置、设备、机制或系统:计算机、计算装置、处理单元、网络装置、便携式计算机、微处理器等。所述机器可读媒体可包括易失性或非易失性媒体以及任何形式的传播信号,例如电信号、数字信号、逻辑信号、光信号、声信号、声光信号等,所述媒体能够传递信息到机器。
在下文中,参考了各方法和方法步骤,这些方法和方法步骤示意地并示例性地图示于流程图和方框图中。应理解结合这些说明性图而描述的方法也可由系统、设备和/或装置的实施例容易地执行。确切地说,应明白,能够执行详细方框图和/或流程图的系统、设备和/或装置不一定限于下文所示和详细描述的系统、设备和/或装置,而是可为不同的系统、设备和/或装置。术语“第一”、“第二”、“第三”等仅仅用作标记,而不旨在对它们的目标强加数字要求或建立它们的目标的特定重要性排行。
图1示意地图示了空间音频编码系统100。空间音频编码系统100包括空间音频编码装置10和空间音频解码装置20。多个音频信道信号10a、10b被输入到空间音频编码装置10,图1中只示例性地示出了两个音频信道信号。空间音频编码装置10对音频信道信号10a、10b进行编码并下混并且产生音频比特流1,该音频比特流被传输到空间音频解码装置20。空间音频解码装置20对音频比特流1中的音频数据进行解码并上混并且产生多个输出音频信道信号20a、20b,图1中只示例性地示出了两个输出音频信道信号。各个音频信道信号10a、10b及20a、20b的数量在原则上是没有限制的。例如,在双声道立体声信号中,音频信道信号10a、10b及20a、20b的数量可为2。例如,双声道立体声信号可用于基于3D音频或耳机的环绕呈现,例如,使用HRTF过滤。
空间音频编码系统100可用于对ITU-T G.722、G.722附件(Annex)B、G.711.1和/或G.711.1附件D的立体声扩展进行编码。此外,空间音频编码系统100可用于移动应用中的语音和音频编码/解码,例如在3GPPEVS(增强型语音服务)编码译码器中界定的。
图2示意地更详细地示出了图1中的空间音频编码装置10。空间音频编码装置10可包括变换模块15、耦合到变换模块15的参数估计模块11、耦合到变换模块15的下混模块12、耦合到下混模块12的编码模块13及耦合到编码模块13和参数估计模块11的流模块14。
变换模块15可用于从时域到频域到多个音频信道信号10a、10b施加变换,所述音频信道信号输入到空间编码模块10。下混模块12可用于从变换模块15接收变换的音频信道信号10a、10b并且用于通过下混多个变换的音频信道10a、10b来产生至少一个下混的音频信道信号。下混的音频信道信号的数量可为,例如小于变换的音频信道信号10a、10b的数量。例如,下混模块12可用于只产生一个下混的音频信道信号。编码模块13可用于接收下混的音频信道信号并且用于产生编码的音频比特流,该编码的音频比特流包括下混的音频信道信号。
参数估计模块11可用于接收多个作为输入的音频信道信号10a、10b并且用于计算多个音频信道信号10a和10b中的至少一者与预定频率范围上的参考音频信道信号之间的ICD的多个信道间差ICD值。参考音频信道信号可为,例如多个音频信道信号10a和10b中的一者。或者,它可能使用得自多个音频信道信号10a和10b中至少两个音频信道信号的下混的音频信号。参数估计模块11可进一步用于通过将多个ICD值中的每一者乘以对应的频率相关加权因数,来对多个ICD值中的每一者计算加权的ICD值;并且用于通过加入所述多个加权的ICD值,来对预定的频率范围计算ICD范围值。
随后,ICD范围值可输入到流模块14,该流模块14可用于产生输出音频比特流1,该输出音频比特流包括来自编码模块13的编码的音频比特流以及含有ICD范围值的量化表示的参数段。流模块14可进一步用于在音频比特流1的参数段中设置参数类型标志,用于指示计入音频比特流1中的ICD范围值的类型。
另外,流模块14可进一步用于在音频比特流中设置标志,该标志指示音频比特流1的参数段中ICD范围值的存在。该标志可为整个音频比特流1设置或包含在音频比特流1中的参数段中。这样,包含在音频比特流1中的ICD范围值的信令可以显式或隐式的方式发信号通知空间音频解码装置20。在显式与隐式信令方案之间可进行切换。
在隐式信令的情况下,该标志可指示参数段中的辅助数据中二级信道信息的存在。旧式解码装置20不检查此标志是否存在并且因此只对编码的下混音频比特流进行解码。另一方面,非旧式,即最新式的解码装置20可检查接收到的音频比特流1中此标志的存在并且基于额外的全频带空间编码参数,即包含在音频比特流1的参数段中的ICD范围值,来重建多信道音频信号20a、20b。
当使用显式信令时,整个音频比特流1可标记为含有ICD范围值。这样,旧式解码装置20不能解码比特流并且因此丢弃音频比特流1。另一方面,最新式的解码装置20可决定是解码整个音频比特流1还是只对编码的下混音频比特流1进行解码而忽略ICD范围值。显式信令的优势可从此处看到,例如,新的移动终端可决定对音频比特流的哪部分进行解码,从而节约能量并且因此延长集成式电池的电池寿命。对空间编码参数进行解码通常更加复杂并且需要更多能量。另外,依靠呈现系统,最新式的解码装置20可决定应对音频比特流1的哪部分进行解码。例如,关于用耳机呈现,只对编码的下混音频比特流进行解码可能已经足够,而多信道音频信号只在移动终端连接到具有此多信道呈现功能的坞站时才进行解码。
图3示意地更详细地示出了图1中的空间音频解码装置20。空间音频解码装置20可包括比特流提取模块26、参数提取模块21、解码模块22、上混模块24及变换模块25。比特流提取模块26可用于接收音频比特流1并且将装入音频比特流1中的参数段与编码的下混音频比特流分离。参数提取模块21可用于检测接收到的音频比特流1的参数段中的参数类型标志,该参数类型标志用于指示计入音频比特流1中的ICD范围值。参数提取模块21可进一步用于从接收到的音频比特流1的参数段读取ICD范围值。
解码模块22可用于对编码的下混音频比特流进行解码并且用于将解码的上混音频信号输入到上混模块24中。上混模块24可耦合到参数提取模块21并且用于使用从接收到的音频比特流1的参数段读取的ICD范围值,来将解码的下混音频信号上混为多个音频信道信号,所述ICD范围值由参数提取模块21提供。最后,变换模块25可耦合到上混模块24并且用于基于多个音频信道信号而将多个音频信道信号从频域变换到时域,用于声音的重现。
图4示意地示出了用于参数空间编码的方法30的实施例。方法30在第一步骤中包括对输入信道,例如输入信道10a、10b执行时-频变换。在立体声信号的情况下,第一变换在步骤30a执行,而第二变换在步骤30b执行。在每一种情况下,该变换可通过使用快速傅立叶变换(FFT)来执行。或者,可执行短时傅立叶变换(STFT)、用余弦调制滤波器组进行的余弦调制滤波或用复数滤波器组进行的复数滤波。
在第二步骤31中,可对每个子带计算交叉谱c[b],如
c [ b ] = Σ k = k b k b + 1 - 1 X 1 [ k ] · X 2 [ k ] * ,
其中X1[k]和X2[k]为两个信道1和2,例如立体声情况下的左信道和右信道,的FFT系数。“*”表示复共轭,kb表示子带b的开始窗口并且kb+1表示相邻的子带b+1的开始窗口。因此,从kb到kb+1的FFT的频率窗口[k]表示子带b。
或者,可对FFT的每个频率窗口k计算交叉谱。在这种情况下,子带b直接对应于一个频率窗口[k]。
在第三步骤32中,可基于交叉谱而对每个子带b计算信道间差。例如,在耳间相位差IPD的情况下,该计算可这样进行:
IPD[b]=∠c[b],
其中每个子带b的IPD为相应的子带b的交叉谱c[b]的角度。步骤31和32可确保多个音频信道信号中的至少一者与预定频率范围上的参考音频信道信号之间的ICD/IPD的多个ICD值,尤其是IPD值得以计算。此外,每个ICD值在预定频率范围的一部分上进行计算,该频率范围是频率子带b或至少单个频率窗口。
关于步骤31和32而详细描述的计算方案对应于以下方法,该方法从EURASIP期刊关于应用信号处理,2005年第9号,1305至133页的布里巴特(Breebart,J.)、凡得帕(van de Par,S.)、科尔拉什(Kohlrausch,A.)、司考杰斯(Schuijers,E.)的“立体声音频的参数编码(Parametric Coding ofStereo Audio)”中得知。
该IPD值表示带限信号的相位差。如果带宽足够有限,那么该相位差可当作输入信号之间的分数延迟。对于每个频率子带b,IPD和信道间时间差ITD表示相同的信息。但是对于全频带,IPD值与ITD值不同:全频带IPD为两个信道1与2之间的恒定相位差,而全频带ITD为两个信道之间的恒定时间差。
为了基于子带IPD值来计算全频带IPD,可能计算所有子带IPD值的平均值,以获得全频带IPD值,即音频信道信号的全频率范围上的IPD范围值。然而,该估计方法可导致对表示的IPD范围值的错误估计,因为频率子带具有不同的感知重要性。
对于ICD范围值的计算,可确定预定的频率范围。例如,预定的频率范围可为多个音频信道信号的全频带。或者,可选择多个音频信道信号的全频带内的一个或多个预定的频率间隔,其中预定的频率间隔可为相干的或有间隔的。预定的频率范围可,例如,包括200Hz与600Hz之间或300Hz与1.5kHz之间的频带。
在第三步骤33和第四步骤34中,与第一步骤31和第二步骤32并行,预定的频率范围的每个部分,即每个频率子带b或频率窗口b,的能量E[b]可这样计算:
E[b]=X1[b]2+X2[b]2
或者
E [ b ] = Σ k = k b k b + 1 - 1 ( X 1 [ k ] 2 + X 2 [ k ] 2 ) ,
并且因此在预定的频率范围,例如全频带,的能量EG上归一化:
E G = Σ b = M min M max E [ b ] ,
其中Mmin和Mmax分别为预定的频率范围内的最低和最高频率子带或窗口的索引。
在步骤35中,通过将多个ICD值中的每一者乘以对应的频率相关加权因数Ew[b],来对多个ICD值中的每一者,例如值IPD[b],计算加权的ICD值,例如加权的IPD值IPDw[b]:
IPDw[b]=IPD[b]·Ew[b]
频率相关加权因数可为,例如,关联的加权能量值Ew[b],该加权能量值可这样计算:
Ew[b]=E[b]/EG
可能在相邻帧上使加权因数Ew[b]平滑,即当计算当前加权因数Ew[b]时考虑多个音频信道信号的先前帧的加权因数Ew[b]的分数。
最后,在步骤36中,ICD范围值,例如全频带IPD值IPDF可通过加入多个加权的ICD值来对预定的频率范围进行计算:
IPD F = Σ b = M min M max IPD w [ b ]
或者,加权因数Ew[b]可从在预定的频率范围上归一化的音频信道信号的频率的能量分布的掩蔽曲线中导出。这样的掩蔽曲线可,例如,从Kluwer学术出版商,2003年的波什(Bosi,M.)、哥登堡(Goldberg,R.)的“数字音频表面和标准介绍(Introduction to Digital Audio Coding andStandards)”所得知的进行计算。也可能基于在预定的频率范围上归一化的音频信道信号的子带的感知熵值来确定频率相关加权因数。在这种情况下,掩蔽曲线或感知熵的归一化版本可用作加权函数。
如图4中所示的方法也可适用于多信道参数音频编码。交叉谱可对于每个子带b和每个信道j进行计算,如:
c j [ b ] = Σ k = k b k b + 1 - 1 X j [ k ] · X ref [ k ] * ,
其中Xj[k]为信道j的FFT系数,Xref[k]为参考信道的FFT系数。所述参考信道可从多个信道j中选择。或者,参考信道可为单声道下混信号的频谱,它是所有信道j上的平均值。在前一种情况下,可产生M-1个空间提示,而在后一种情况下,可产生M个空间提示,其中M为信道j的数量。“*”表示复共轭,kb表示子带b的开始窗口并且kb+1表示相邻的子带b+1的开始窗口。因此,从kb到kb+1的FFT的频率窗口[k]表示子带b。
或者,可对FFT的每个频率窗口k计算交叉谱。在这种情况下,子带b直接对应于一个频率窗口[k]。
信道j的信道间差可基于交叉谱而对每个子带b进行计算。例如,在耳间相位差IPD的情况下,该计算可这样进行:
IPDj[b]=∠cj[b],
其中每个子带b和信道j的IPDj为相应的子带b和信道j的交叉谱cj[b]的角度。
预定的频率范围的每个部分,即每个频率子带b或频率窗口b,的每个信道j的能量Ej[b]可这样计算:
Ej[b]=2·Xj[b]·Xref[b]
或者
E [ b ] = Σ k = k b k b + 1 - 1 ( X j [ k ] 2 + X ref [ k ] 2 ) ,
并且因此在预定的频率范围,例如全频带,的能量EGj上归一化:
E Gj = Σ b = M min M max E j [ b ] ,
其中Mmin和Mmax分别为预定的频率范围内的最低和最高频率子带或窗口的索引。
通过将多个ICD值中的每一者乘以对应的频率相关加权因数Ewj[b],来对多个ICD值中的每一者,例如值IPDj[b],计算加权的ICD值,例如,加权的IPD值IPDwj[b]:
IPDwj[b]=IPDj[b]·Ewj[b]
频率相关加权因数可为,例如,关联的加权能量值Ewj[b],该加权能量值可这样计算:
Ewj[b]=Ej[b]/EGj
可能在相邻帧上使加权因数Ewj[b]平滑,即当计算当前加权因数Ewj[b]时考虑多个音频信道信号的先前帧的加权因数Ewj[b]的分数。
最后,ICD范围值,例如全频带IPD值IPDFj可通过加入多个加权的ICD值来对预定的频率范围进行计算:
IPD Fj = Σ b = M min M max IPD wj [ b ] .
图5示意地图示了音频比特流,例如图1至图3中详述的音频比特流1,的比特流结构。在图5中,音频比特流1包括编码的下混音频比特流段1a和参数段1b。编码的下混音频比特流段1a和参数段1b可交替并且它们的组合长度可指示音频比特流1的总比特率。编码的下混音频比特流段1a可包括将解码的实际音频数据。参数段1b可包括例如ICD范围值等空间编码参数的一个或多个量化表示。音频比特流1可,例如,包括信令标志比特2用于显式地发信号通知音频比特流1在参数段1b中是否包括辅助数据。此外,参数段1b可包括信令标志比特3用于隐式地发信号通知音频比特流1在参数段1b中是否包括辅助数据。

Claims (16)

1.一种用于估计信道间差ICD的方法(30),包括:
对多个音频信道信号进行(30a,30b)从时域到频域的变换;
计算(31,32)在所述多个音频信道信号中的至少一者与预定频率范围内的参考音频信道信号之间的所述ICD的多个ICD值,每个ICD值在所述预定频率范围的一部分内进行计算;
通过将所述多个ICD值中的每一者乘以对应的频率相关加权因数,来对所述多个ICD值中的每一者计算(35)加权的ICD值;以及
通过加入所述多个加权的ICD值,来对所述预定的频率范围计算(36)ICD范围值。
2.根据权利要求1所述的方法(30),其中所述ICD是信道间相位差IPD或信道间时间差ITD。
3.根据权利要求1和2中的一项权利要求所述的方法(30),其中从时域到频域的所述变换包括以下项中的一者:快速傅立叶变换FFT、余弦调制滤波器组、离散傅立叶变换DFT以及复数滤波器组。
4.根据权利要求1至3中的一项权利要求所述的方法(30),其中所述预定的频率范围包括以下项中的一者:所述多个音频信道信号的全频带、所述多个音频信道信号的所述全频带内的预定频率间隔,以及所述多个音频信道信号的所述全频带内的多个预定频率间隔。
5.根据权利要求4所述的方法(30),其中所述预定的频率间隔在200Hz与600Hz之间或在300Hz与1.5kHz之间。
6.根据权利要求1至5中的一项权利要求所述的方法(30),其中所述参考音频信道信号包括所述音频信道信号中的一者或从所述多个音频信道信号中至少两个音频信道信号导出的下混音频信号。
7.根据权利要求1至6中的一项权利要求所述的方法(30),其中计算所述多个ICD值包括基于频率子带来计算所述多个ICD值。
8.根据权利要求7所述的方法(30),其中所述频率相关加权因数基于所述频率子带的能量来确定,所述频率子带的能量基于所述预定频率范围上的总能量而归一化。
9.根据权利要求7所述的方法(30),其中所述频率相关加权因数基于在所述预定的频率范围上归一化的所述音频信道信号的频率的能量分布的掩蔽曲线来确定。
10.根据权利要求7所述的方法(30),其中所述频率相关加权因数基于在所述预定的频率范围上归一化的、所述音频信道信号的所述子带的感知熵值来确定。
11.根据权利要求1至10中的一项权利要求所述的方法(30),其中所述频率相关加权因数在至少两个相邻帧之间为平滑的。
12.一种空间音频编码装置(10),包括:
变换模块(15),所述变换模块用于对多个音频信道信号(10a;10b)应用从时域到频域的变换;以及
参数估计模块(11),所述参数估计模块用于:计算在所述多个音频信道信号(10a;10b)中的至少一者与预定频率范围上的参考音频信道信号之间的所述ICD的多个ICD值;通过将所述多个ICD值中的每一者乘以对应的频率相关加权因数,来对所述多个ICD值中的每一者计算加权的ICD值;并且通过加入所述多个加权的ICD值,来对所述预定的频率范围计算ICD范围值。
13.根据权利要求12所述的空间音频编码装置(10),进一步包括:
下混模块(12),所述下混模块用于通过下混所述多个音频信道数据信号(10a;10b)来产生下混的音频信道信号。
14.根据权利要求13所述的空间音频编码装置(10),进一步包括:
编码模块(13),所述编码模块耦合到所述下混模块(12)并且用于产生编码的音频比特流,所述编码的音频比特流包括所述编码的下混的音频比特流。
15.根据权利要求12至14中的一项权利要求所述的空间音频编码装置(10),进一步包括:
流模块(14),所述流模块耦合到所述参数估计模块(11)并且用于产生音频比特流(1),所述音频比特流包括下混的音频比特流及辅助数据,所述辅助数据包括所述多个音频信道信号(10a;10b)的所述ICD范围值。
16.一种具有程序代码的计算机程序,所述程序代码在计算机上运行时执行根据权利要求1至11中的一项权利要求所述的方法。
CN201280023292.XA 2012-04-05 2012-04-05 用于信道间差估计的方法和空间音频编码装置 Active CN103534753B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/056342 WO2013149673A1 (en) 2012-04-05 2012-04-05 Method for inter-channel difference estimation and spatial audio coding device

Publications (2)

Publication Number Publication Date
CN103534753A true CN103534753A (zh) 2014-01-22
CN103534753B CN103534753B (zh) 2015-05-27

Family

ID=45929533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280023292.XA Active CN103534753B (zh) 2012-04-05 2012-04-05 用于信道间差估计的方法和空间音频编码装置

Country Status (7)

Country Link
US (1) US9275646B2 (zh)
EP (1) EP2702587B1 (zh)
JP (1) JP2015517121A (zh)
KR (1) KR101662682B1 (zh)
CN (1) CN103534753B (zh)
ES (1) ES2540215T3 (zh)
WO (1) WO2013149673A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206416A1 (zh) * 2016-05-31 2017-12-07 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN112262433A (zh) * 2018-04-05 2021-01-22 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101646353B1 (ko) 2014-10-16 2016-08-08 현대자동차주식회사 차량용 다단 자동변속기
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US10217467B2 (en) 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
US9875747B1 (en) * 2016-07-15 2018-01-23 Google Llc Device specific multi-channel data compression
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN109215668B (zh) 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647156A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 参数多声道音频表示
CN101408615A (zh) * 2008-11-26 2009-04-15 武汉大学 双耳时间差itd临界感知特性的测量方法及其装置
US20110046964A1 (en) * 2009-08-18 2011-02-24 Samsung Electronics Co., Ltd. Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5835375A (en) * 1996-01-02 1998-11-10 Ati Technologies Inc. Integrated MPEG audio decoder and signal processor
DE19632734A1 (de) * 1996-08-14 1998-02-19 Thomson Brandt Gmbh Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal
US6199039B1 (en) * 1998-08-03 2001-03-06 National Science Council Synthesis subband filter in MPEG-II audio decoding
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
JP4521032B2 (ja) 2005-04-19 2010-08-11 ドルビー インターナショナル アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
JPWO2008132850A1 (ja) 2007-04-25 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
KR101108061B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
JP5511848B2 (ja) * 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647156A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 参数多声道音频表示
CN101408615A (zh) * 2008-11-26 2009-04-15 武汉大学 双耳时间差itd临界感知特性的测量方法及其装置
US20110046964A1 (en) * 2009-08-18 2011-02-24 Samsung Electronics Co., Ltd. Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
WO2011072729A1 (en) * 2009-12-16 2011-06-23 Nokia Corporation Multi-channel audio processing

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206416A1 (zh) * 2016-05-31 2017-12-07 华为技术有限公司 一种声道间相位差参数的提取方法及装置
CN108475509A (zh) * 2016-05-31 2018-08-31 华为技术有限公司 一种声道间相位差参数的提取方法及装置
US11393480B2 (en) 2016-05-31 2022-07-19 Huawei Technologies Co., Ltd. Inter-channel phase difference parameter extraction method and apparatus
CN108475509B (zh) * 2016-05-31 2022-10-04 华为技术有限公司 一种声道间相位差参数的提取方法及装置
US11915709B2 (en) 2016-05-31 2024-02-27 Huawei Technologies Co., Ltd. Inter-channel phase difference parameter extraction method and apparatus
CN112262433A (zh) * 2018-04-05 2021-01-22 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序

Also Published As

Publication number Publication date
US9275646B2 (en) 2016-03-01
EP2702587A1 (en) 2014-03-05
KR101662682B1 (ko) 2016-10-05
US20140164001A1 (en) 2014-06-12
KR20140139591A (ko) 2014-12-05
JP2015517121A (ja) 2015-06-18
CN103534753B (zh) 2015-05-27
ES2540215T3 (es) 2015-07-09
WO2013149673A1 (en) 2013-10-10
EP2702587B1 (en) 2015-04-01

Similar Documents

Publication Publication Date Title
CN103534753B (zh) 用于信道间差估计的方法和空间音频编码装置
CN103493127B (zh) 用于参数空间音频编码和解码的方法、参数空间音频编码器和参数空间音频解码器
CN110047496B (zh) 立体声音频编码器和解码器
CN102089807B (zh) 音频编码器、音频解码器、编码及解码方法
KR101662681B1 (ko) 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
CN100571043C (zh) 一种空间参数立体声编解码方法及其装置
CN108694955B (zh) 多声道信号的编解码方法和编解码器
CN102270453A (zh) 利用频域维纳滤波对空间音频编码进行时间包络整形
CN102947880A (zh) 基于mdct的复合预测立体声编码
CN103460283A (zh) 确定多信道音频信号的编码参数的方法及多信道音频编码器
CN103262159A (zh) 用于对多声道音频信号进行编码/解码的方法和装置
JP2009510514A (ja) マルチチャネルオーディオ信号の符号化/復号化方法及び装置
CN105336333A (zh) 多声道声音信号编码方法、解码方法及装置
CN101427307A (zh) 编码/解码多声道音频信号的方法和装置
EP3069337B1 (en) Method and apparatus for encoding an audio signal
KR101569702B1 (ko) 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
CN110462733A (zh) 多声道信号的编解码方法和编解码器
EP3648101A1 (en) Encoding and decoding method and encoding and decoding apparatus for stereo signal
EP3975174A1 (en) Stereo coding method and device, and stereo decoding method and device
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
EP3664083B1 (en) Signal reconstruction method and device in stereo signal encoding
US9570081B2 (en) Backwards compatible audio representation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant