CN104603872A

CN104603872A - 用以再现音频信号的装置及方法、用以产生编码的音频信号的装置及方法、计算机程序及编码的音频信号

Info

Publication number: CN104603872A
Application number: CN201380045118.XA
Authority: CN
Inventors: 萨沙·迪施; 本杰明·苏伯特; 马库斯·穆赖特鲁斯; 克里斯蒂安·赫尔姆里希; 康斯坦丁·施密特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2012-08-27
Filing date: 2013-08-27
Publication date: 2015-05-06
Anticipated expiration: 2033-08-27
Also published as: MX2015002509A; JP6229957B2; EP2704142B1; CA2882775A1; EP2704142A1; BR112015004556A2; EP2888737A1; TW201419269A; WO2014033131A1; RU2015110702A; RU2607262C2; JP2015526769A; PL2888737T3; ES2549953T3; CA2882775C; TWI523004B; KR20150047607A; EP2888737B1; CN104603872B; ES2593072T3

Abstract

一种用以基于第一数据及第二数据再现一音频信号的装置，该第一数据表示该音频信号在一第一频带中的一第一部分的一编码版本，该第二数据表示关于该音频信号在一第二频带中的一第二部分的边信息，其中该第二频带包含高于该第一频带的频率，该装置包含一第一再现器，该第一再现器被配置为基于该第一数据再现该音频信号的该第一部分。一提供器被配置为提供在该第二频带中的一补丁信号，其中该补丁信号至少部分地与该音频信号的该第一部分不相关或至少部分地是已频移至该第二频带的该音频信号的该第一部分的一解相关版本。一第二再现器被配置为基于该第二数据及该补丁信号再现该音频信号在该第二频带中的该第二部分。一组合器被配置为：在由该第二再现器再现该音频信号的该第二部分之前将该音频信号的该再现的第一部分与该补丁信号组合，或将该音频信号的该再现的第一部分与该音频信号的该再现的第二部分组合。

Description

用以再现音频信号的装置及方法、用以产生编码的音频信号的装置及方法、计算机程序及编码的音频信号

技术领域

本发明关于一种用以再现音频信号的装置、方法及计算机程序，且具体而言，关于一种用以在可利用的数据速率降低的情形中再现音频信号的装置、方法及计算机程序。此外，本发明关于一种用以产生编码的音频信号的装置、方法及计算机程序以及对应的编码音频信号。

背景技术

用以有效率地储存及传输这些数据速率有所降低的信号的感知适应性音频信号编码在许多领域已获接受。编码算法是已知的，详言之为MPEG 1/2、层3“MP3”、MPEG2/4高级音频编码(AAC)或MPEG-H统一语音及音频编码(USAC)。基础编码技术，尤其当达到最低位速率时，导致音频质量降低。损伤通常主要由待传输的音频信号带宽的编码器侧限制所导致。

在此情形中，习知的目前技术现况为：使音频信号在编码器侧经受频带限制，以及藉由高质量音频编码器来仅编码音频信号的下频带(lowerband)。然而，上频带(upper band)仅由一组参数非常粗略地表征，这组参数例如传达上频带的频谱包络。在译码器侧，接着可藉由以下操作来合成上频带：将经译码的下频带信号修补至另外为空的上频带中，以及执行后续的参数控制式调整。

用于有限频宽音频信号的频宽扩展的标准方法使用将低频信号部分(LF)复制至高频率范围(HF)中的功能，以便估计由于频带限制引起的信息丢失。原则上，此复制功能在技术上等效于藉由单边带(SSB)调制在时域中计算的频谱频移，但在计算上要简单得多。这些方法，例如频谱带复制(SBR)，描述于以下文献中：M.Dietz,L.Liljeryd,K.及0.Kunz，“Spectral Band Replication,a novel approach in audio coding”，第112届AES大会，慕尼黑，2002年5月；S.Meltzer,R.及F.Henn，“SBR enhancedaudio codecs for digital broadcasting such as“Digital Radio Mondiale”(DRM)”，第112届AES大会，慕尼黑，2002年5月；T.Ziegler,A.Ehret,P.Ekstrand及M.Lutzky，“Enhancing mp3with SBR:Features andCapabilities of the new mp3PRO Algorithm”，第112届AES大会，慕尼黑，2002年5月；国际标准ISO/IEC 14496-3:2001/FPDAM l，“BandwidthExtension”，ISO/IEC，2002年，或Vasu Iyengar等人的美国专利Nr.5,455,888“Speech bandwidth extension method and apparatus”。

在这些方法中，不进行谐波变换，但下频带的连续带通信号被引入至上频带的连续滤波器组通道中。藉此实现音频信号的上频带的粗略估计。接着在另一步骤中，藉由后处理使用自原始信号获得的控制信息来使该信号的此粗略估计接近于原始信号。此处，例如，比例因子用来调整频谱包络、逆滤波及添加噪声基底来调适音调及由正弦信号部分的补充，如在MPEG4标准中也进行了描述。

自以下文献中描述的谐波频宽扩展技术已知，在合成上频带时，不期望的听觉粗糙度可能被引入信号中：Nagel,F.；Disch,S.A HarmonicBandwidth Extension Method for Audio Codecs，IEEE Int.Conf.on Acoustics,Speech and Signal Processing(ICASSP),2009；Nagel,F.；Disch,S.；Rettelbach,N.A Phase Vocoder Driven Bandwidth Extension Method withNovel Transient Handling for Audio Codecs，第126届AES大会，2009年；Zhong,H.；Villemoes,L.；Ekstrand,P.等人的QMF Based Harmonic SpectralBand Replication，第131届音频工程协会大会，2011年；Villemoes,L.；Ekstrand,P.；Hedelin,P.Methods for enhanced harmonic transposition，IEEE的信号处理的音频及声学应用研讨会(WASPAA)，2011年。该粗糙度的一个原因(许多原因中的一个)是补丁(patch)的频谱未对准及/或在下频带与第一补丁之间或在连续补丁之间的过渡区域中的失谐效果。谐波频宽扩展技术经设计来改良这两个方面，但以计算复杂度为代价。

在滤波器组域中，尤其在谐波频宽扩展中，滤波器组计算及修补实际上可变成很高的计算工作量。在WO 98/57436中描述高级修补技术，该技术在某种有限程度上，藉由在不同频谱补丁之间引入所谓的保护频带及藉由进行修改后的向上复制修补以减少频谱未对准，来避免失谐影响，同时使计算复杂度保持适度。

除此之外，存在另外的方法，诸如所谓的“盲目频宽扩展”，其描述于E.Larsen,R.M.Aarts及M.Danessis，“Efficient high frequency bandwidthextension of music and speech”，第112届AES大会，德国，慕尼黑，2002年5月，其中不使用关于原始HF范围的信息。此外，还存在所谓的“人工频宽扩展”方法，该方法描述于K.A Robust WidebandEnhancement for Narrowband Speech Signal；赫尔辛基技术大学，声学及音频信号处理实验室，2001年的研究报告。

在J.等人的:AMR-WB+:a new audio coding standard for 3rdgeneration mobile audio services Broadcasts,IEEE,ICASSP'05中，描述一种用于频宽扩展的方法，其中利用根据SBR技术的连续带通信号的向上复制的频宽扩展的复制操作由镜像操作，例如，由向上取样所取代。

用于频宽扩展的另外的技术描述于以下文献中：R.M.Aarts,E.Larsen及O.Ouweltjes，“A unified approach to low and high frequency bandwidthextension”，第115届AES大会，美国，纽约，2003年10月；E.Larsen及R.M.Aarts，“Audio Bandwidth Extension Application topsychoacoustics,Signal Processing and Loudspeaker Design”，John Wiley &Sons公司，2004年；E.Larsen,R.M.Aarts及M.Danessis，“Efficient highfrequency bandwidth extension of music and speech”，第112届AES大会，慕尼黑，2002年5月；J.Makhoul，“Spectral Analysis of Speech by LinearPrediction”，IEEE音频及电声学学报，AU 21(3)，1973年6月；美国专利申请号08/951,029；美国专利第6,895,375号。

谐波频宽扩展的已知方法表现出高复杂度。另一方面，复杂度有所降低的频宽扩展的方法展示出质量损失。尤其在低位速率的情况下，且结合LF范围的低频宽，可能发生噪声，诸如粗糙度及感觉不好的音色。其原因主要系如下事实：所估计的HF部分是基于频谱的LF部分的一个或多个直接复制或镜像操作。

发明内容

本发明的一目标在于提供一种用于以改良的方式再现音频信号的装置及方法。此外，本发明的一目标在于提供一种用于产生编码的音频信号的装置及方法，该编码音频信号可以改良的方式再现。本发明的另一目标在于提供对应的计算机程序及对应的编码音频信号。

此目标是藉由以下各者来实现的：如权利要求1所述的用以再现音频信号的装置，如权利要求13的用以再现音频信号的方法，如权利要求12的用以产生编码音频信号的装置，如权利要求13的用以产生编码音频信号的方法，如权利要求14的计算机程序及如权利要求15的编码音频信号。

本发明的实施例提供一种用以基于第一数据及第二数据再现一音频信号的装置，该第一数据表示音频信号在第一频带中的第一部分的编码版本，该第二数据表示关于音频信号在第二频带中的第二部分的边信息，其中第二频带包含高于第一频带的频率，该装置包含：

第一再现器，被配置为基于第一数据来再现音频信号的第一部分；

提供器，被配置为提供在第二频带中的补丁信号，其中补丁信号与音频信号的第一部分不相关或是已频移至第二频带的音频信号的第一部分的解相关版本；

第二再现器，被配置为基于第二数据及补丁信号来再现音频信号在第二频带中的第二部分；以及

组合器，用以在由第二再现器再现音频信号的第二部分之前组合音频信号的再现的第一部分与补丁信号，或组合音频信号的再现的第一部分与音频信号的再现的第二部分。

本发明的实施例提供一种用以再现音频信号的方法，该方法基于第一数据及第二数据再现音频信号，该第一数据表示音频信号在第一频带中的第一部分的编码版本，该第二数据表示关于音频信号在第二频带中的第二部分的边信息，其中第二频带包含高于第一频带的频率，该方法包含：

基于第一数据再现第一频带中的音频信号；

提供在第二频带中的补丁信号，其中补丁信号与音频信号的第一部分不相关或是已频移至第二频带的音频信号的第一部分的解相关版本；

基于第二数据及补丁信号再现第二频带中的音频信号；以及

在再现音频信号的第二部分之前组合音频信号的再现的第一部分与补丁信号，或组合音频信号的再现的第一部分与音频信号的再现的第二部分。

本发明的实施例关于音频信号的再现，其提供使用解相关的子频带音频信号的频宽扩展。与已存在的方法相比，可藉由将解相关的子频带音频信号用于频宽扩展，而不是相关的(向上复制或镜像后的)子频带音频信号，来避免大部分信号失真及噪声，信号失真及噪声对于频宽扩展而言当前是典型的。这是藉由提供音频信号来实现的，其形成再现音频信号的高频部分的基础，与音频信号的第一部分(LF部分)不相关或解相关。本发明的实施例基于如下认知：当再现音频信号的第二信号部分时，不需要维持低频部分与高频部分之间的相关性。相反，发明人了解，可藉由利用解相关或完全不相关的补丁信号来避免噪声，诸如粗糙度及感觉不好的音色。

本发明的实施例提供一种用以产生编码音频信号的装置，该编码音频信号包含第一数据及第二数据，第一数据表示音频信号在第一频带中的第一部分的编码版本，第二数据表示关于音频信号在第二频带中的第二部分的边信息，其中第二频带包含高于第一频带的频率，该装置包含：

解相关信息添加器，被配置为添加编码音频信号信息，该编码音频信号信息关于在音频信号的第一部分与补丁信号之间将要使用的解相关程度，当自编码音频信号再现音频信号时，基于该信息再现音频信号的第二部分。

本发明的实施例提供一种用以产生编码音频信号的方法，该编码音频信号包含第一数据及第二数据，第一数据表示音频信号在第一频带中的第一部分的编码版本，第二数据表示关于音频信号在第二频带中的第二部分的边信息，其中第二频带包含高于第一频带的频率，该方法包含：

添加编码音频信号信息，该编码音频信号信息关于在音频信号的第一部分与补丁信号之间将要使用的解相关程度，当自编码音频信号再现音频信号时，基于该信息再现音频信号的第二部分。

本发明的实施例提供一种编码音频信号，该编码音频信号包含：

第一数据，其表示音频信号在第一频带中的第一部分的编码版本；

第二数据，其表示关于音频信号在第二频带中的第二部分的边信息，其中第二频带包含高于第一频带的频率；以及

信息，该信息关于在音频信号的第一部分与补丁信号之间将要使用的解相关程度，当自编码音频信号再现音频信号时，基于该信息再现音频信号的第二部分。

因此，本发明的实施例允许以一种方式产生编码音频信号，该方式允许使用适合的解相关程度以适合的方式来译码编码音频信号。可在编码器侧基于音频信号的第一部分及/或第二部分的性质来确定适合的解相关程度。

附图说明

以下，参考随附图式更详细阐述本发明的实施例，附图中：

图1a展示用以再现音频信号的装置的一实施例的方块图；

图1b展示用以再现音频信号的装置的另一实施例的方块图；

图2展示用以再现音频信号的装置的另一实施例的方块图；

图3展示用以产生编码音频信号的装置的一实施例的方块图；

图4a展示在本发明的实施例的情境中的编码器侧的示意说明；

图4b展示在本发明的实施例的情境中的译码器侧的示意说明；

图5a及图5b展示示出本发明的实施例的优势的图；

图6展示用以再现音频信号的装置的方块图，本发明自该装置开始；以及

图7a至图7d展示可用来阐述图6所示的装置的操作的信号图。

具体实施方式

在详细阐述本发明的实施例之前，有必要简要论述本发明的基础理论思想。

如以上所阐述，基于诸如SBR(SBR＝频谱带复制)的复制操作(或镜像操作)的频宽扩展将LF频谱的大部分直接复制至HF范围中。

参照图6及图7描述SBR装置的实例。图7a中展示音频信号2的包络。音频信号2包含低频部分(或低频带)4及高频部分(或高频带)6。通常，在音频信号的感知编码中，低频部分4藉由诸如PCM编码器(PCM＝脉冲码调制)的高质量音频编码器来编码，而上频带仅由边信息非常粗略地表征。使用对应的核心编码译码器来传输表示经编码的低频部分的数据及表示边信息的数据。图6展示来自核心编码译码器的基频信号8，该基频信号8表示图7b所展示的低频部分4。将此信号8施加至单边带调制/向上复制单元，在此单元中将信号8频移至高频部分6的频率范围。此频移后的信号在图7c中展示为信号10。将频移后的信号10及信号8施加至修补单元12，在此单元中将两个信号组合(相加)来获得图7c所展示的频谱。信号部分8可频移至p个不同的更高频率范围中，其中p≥1。因此，一个或多个(p个)频移后的信号及信号8的组合可在修补单元12中发生。

将修补单元12的输出信号施加至后处理单元14，该后处理单元14还接收表示高频部分6中的音频信号的边信息16。因此，基于边信息16及低频部分4的音频信号来再现音频信号6的高频部分10’。图7d中展示所得的音频信号。后处理单元14输出全频带输出，其覆盖低频部分4及高频部分6的频率范围。

因此，基于诸如SBR的复制操作(或镜像操作)的频宽扩展将低频频谱的大部分直接复制至高频率范围中。此可藉由使用音频信号的时域表示的单边带调制或藉由音频信号的频谱表示中的直接复制过程(向上复制)来实现。此处理步骤通常称为”修补”。

通常，可能有多个补丁被复制至不同高频带中。各个频带可重叠或不重叠。对应的HF补丁中的每一个因此与低频率范围(该HF补丁自其中提取)完全相关。发明人了解，因此，可藉由将两个信号以取决于LF频带与对应HF补丁的频谱位置之间的频谱距离的频率迭加而发生时间包络调制。

根据系统理论观点，此现象应被视为对于有限脉冲响应(FIR)梳形滤波器的操作是二元的，该滤波器包含以Fs作为采样频率的n个样本的延迟。此滤波器具有一幅度频率响应，该幅度频率响应具有为1/n*Fs的梳形宽度(幅度频率响应的两个最大值之间的频谱距离)。因此，系统理论二元性具有以下直接对应：

时间延迟<->频率转移

幅度频率响应<->时间包络。

发明人了解，由此所得的时间调制是以令人厌恶的方式可以听见的，且可使其在波形幅度的自相关函数中可见，呈周期性重复的边最大值的形式。图5a中展示在针对向上复制SBR的噪声信号包络的自相关序列中的这种周期性重复的边最大值。图5a展示白噪声的幅度包络的自相关函数，其中用三个直接向上复制补丁来扩展频宽，这些补丁彼此完全相关且与LF频带完全相关。

仅当LF信号及HF信号展示相同振幅时，才实的最大调制深度。实践中，调制效果因此通常略低，因为HF范围通常比LF范围显著地更安静(较不响)。应将具有明显的泛音结构的噪声状信号或准固定信号当作与调制噪声尤其至关重要。

对于彼此完全相关的若干修补(图6中为p个)的存在，以上提及的二元性当然同样有效。幅度包络的时间调制出现为对于对应的FIR过滤器的幅度频率响应而言是二元的。

因此，根据本发明的实施例，该补丁或这些补丁是彼此解相关的且与LF带解相关。在本发明的实施例中，使用一个或多个解相关器，其分别在自低频信号分量导出的信号被插入至较高频率范围中以及被后处理(可能是此种情况)之前解相关该信号。

本发明的实施例藉由使用互相解相关的修补补丁来避免由于复制操作或镜像操作而发生的已阐述的问题。在本发明的实施例中，使用解相关器以单独的方式将各个HF补丁与LF频带解相关，例如，藉由全通滤波器或其它已知的解相关方法，或者以自然解相关方式立即以合成方式产生这些补丁。

在本发明的实施例中，解相关程度可在译码器侧固定地确定或调整，或者可作为参数自编码器传输至译码器。此外，可解相关整个补丁或仅解补丁的特定部分。补丁的将被解相关的部分还作为参数自编码器传输至译码器，作为添加至编码音频信号的对应信息的部分。

与用于频宽扩展的习知方法相比，本发明的方法是有益的，因为藉由本发明的方法，可固有地避免对于基于LF频带的单边带调制/向上复制的当前方法而言存在的失真及声音染色，其是由干扰或寄生包络调制引起的。此藉由使用HF补丁来实现，这些HF补丁是LF信号部分的解相关版本或与LF信号部分完全不相关。

现在参照图4a及图4b描述可实行本发明的实施例的状况。

图4a中展示编码器侧及图4b中展示译码器侧。音频信号在输入700处被馈送至低通/高通组合中。低通/高通组合一方面包括低通(LP)来产生音频信号的低通滤波版本，在图7a中例示为703。此低通滤波音频信号由音频编码器704编码。音频编码器是在MPEG-2/4标准中描述的例如MP3编码器(MPEG-1/2层3)或AAC编码器。可在编码器704中使用提供有限频宽音频信号703的透明的或有利地为感知透明的表示的替代性音频编码器，来分别产生完全编码的或感知编码的及感知透明编码的音频信号705。由滤波器702的高通部分在输出706处输出音频信号的上频带，该高通部分由”HP”表示。将音频信号的高通部分，即，上频带或HF频带(还表示为HF部分)，供应至参数计算器707，该参数计算器707被实施来计算不同参数(表示边信息，该边信息表示音频信号的高频部分)。这些参数例如是具有相对粗略分辨率的上频带706的频谱包络，例如，藉由针对在感知调适尺度(临界频带)上的每一频率群，例如针对Bark尺度上的每一Bark频带的比例因子的表示。可由参数计算器707计算的另一参数是上频带中的噪声基底，其每个频带的能量可与此频带中的包络的能量有关。可由参数计算器707计算的另外的参数包括对于上频带的每一部分频带的音调量测，该音调量测指示频谱能量在频带中如何分布，即，频带中的频谱能量是否相对均匀地分布，否则其中此频带中存在非音调信号，或者指示此频带中的能量是否相对强地集中在频带中的某个位置，否则其中此频带存在音调信号。另外的参数在于显式编码峰值，该显式编码峰值就其高度及其频率而言在上频带中相对强地突出，因为在没有上频带中的显著正弦部分的这种显式编码的情况下，频宽扩展概念在重新建构中将仅非常初步地恢复或完全不恢复显式编码峰值。

在任何情况下，参数计算器707被实行来仅产生针对上频带的参数708，其可经受类似的熵降低步骤，因为该等步骤还可在音频编码器704中进行以获得量化频谱值，例如差分编码、预测或Huffman编码等。接着将参数表示708及音频信号705供应至数据流格式器709，该数据流格式器709被实行来提供输出侧数据流710，该输出侧数据流710通常将是根据某种格式的位串流，因为其例如按MPEG4标准来标准化。

图7b中展示可适合于本发明的译码器侧。数据流710进入数据流解译器711，该数据流解译器711被实行来将参数部分708与音频信号部分705分开。参数部分708由参数译码器712译码来获得经译码的参数713。平行于此，音频信号部分705由音频译码器714译码来获得音频信号777，例如，该音频信号777在图6中例示为8。

取决于实行方案，可经由第一输出715输出音频信号777。在输出715处，则可获得具有小频宽且因此还具有低质量的音频信号。然而，为了质量改良，可利用在以下参照图1a、图1b及图2所描述的本发明的方法进行频宽扩展720，以在输出侧获得分别具有扩展频宽或高频宽及高质量的音频信号112。

图1a中展示本发明的装置的一个实施例，该装置用以再现音频信号且因此扩展其频宽。装置包含第一再现器100、提供器102、组合器104及第二再现器106。可选地，可提供过渡检测器108。第一再现器100在其输入端接收第一数据120，该第一数据120表示音频数据在第一频带中的第一部分的编码版本。例如，第一数据120可对应于图4b所展示的音频信号部分705。第一再现器100基于第一数据120再现第一频带中的音频信号。例如，第一再现器100可由图4b所展示的音频译码器714形成。第一再现器110输出第一频带中的音频信号，该第一频带中的音频信号可对应于图4b所展示的音频信号777。将音频信号777施加至提供器102，该提供器102提供第二频带中的补丁信号122。补丁信号122至少部分地与音频信号的第一部分777不相关或至少部分地是已频移至第二频带的音频信号的第一部分的解相关版本。在组合器104中将音频信号777与补丁信号122组合，诸如相加。将组合信号124输出及施加至第二再现器106。第二再现器106接收组合信号124及第二数据126，该第二数据126表示关于音频信号在第二频带中的第二部分的边信息。例如，第二数据126可对应于以上关于图4b所描述的经解码的参数713。第二再现器106基于补丁信号(位于组合信号124内)且基于第二数据126再现第二频带中的音频信号。

在本发明的实施例中，第一频带可对应于与图7a所展示的音频信号的第一部分相关联的频率范围，且第二频带可对应于与图7a所展示的音频信号的第二部分相关联的频率范围。

根据图1a所展示的实施例，第二再现器106输出具有高频宽的再现的音频信号128。

在图1b所展示的替代实施例中，提供器102的输出耦接至第二再现器106，且第二再现器106的输出耦接至组合器104。因此，根据图1b所展示的实施例，在将补丁信号与音频信号的第一部分777组合之前，根据提供器102所提供的补丁信号来再现第二频带中的音频信号130。同样地，第二再现器基于第二数据126及补丁信号122再现第二频带中的音频信号130。根据图1b所展示的实施例，组合器104输出经再现的音频信号128。

在本发明的实施例中，提供器包含频移单元及解相关器，上述两者经配置为将补丁信号产生为已频移至第二频带的音频信号的第一部分的解相关版本。在本发明的实施例中，提供器被配置为提供与音频信号的第一部分不相关的合成补丁信号。在本发明的实施例中，提供器被配置为针对多个较高频带提供多个补丁信号。在这些实施例中，第二再现器及第二组合器被适配为再现多个第二信号部分且将多个信号部分组合成再现的音频信号。

图2中展示使用频宽扩展来再现音频信号的装置的实施例，该频宽扩展使用解相关的子频带音频信号。装置接收来自核心编码译码器的基频信号，该基频信号可为图4b所展示的信号777。将信号777施加至频移单元200。频移单元200被配置为将信号777自低频率范围频移至高频率范围，诸如自与图7a中的低频部分4相关联的频率范围至与图7a中的高频部分6相关联的频率范围。

频移单元200可被配置为将信号部分777直接向上复制至频域中的高频率范围。或者，频移单元200可实行为单边带调制单元，该单边带调制单元被配置为在时域中进行单边带调制以将音频信号的第一部分自第一频带频移至第二频带。

将音频信号的频移后的第一部分施加至解相关单元202a。音频信号的频移后的解相关的第一部分由解相关单元202a输出为补丁信号204。将补丁信号204施加至修补单元206，在此单元中将补丁信号204与音频信号的第一部分777组合。例如，在修补单元206中将补丁信号与音频信号的第一部分连接或相加。自修补单元206输出组合信号且将其施加至后处理单元210。

后处理单元210接收第二数据212且代表第二再现器，该第二再现器被配置为基于第二数据212及补丁信号204(包括在组合信号208中)来再现音频信号在第二频带中的第二部分。同样，第二数据212表示边信息且可对应于以上关于图4b所阐述的经解码的参数713。后处理单元210的全频带输出214表示再现的音频信号。

在图2所展示的实施例中，频移单元200及解相关单元202a表示被配置为提供补丁信号204的提供器。

在本发明的实施例中，频移单元200可被配置为将音频信号的第一部分777频移至多个(p个)不同频带。可针对每一频移后的版本提供一解相关单元202a-202p以提供p个补丁信号。在使用一个以上的补丁(诸如p个补丁)的情况下，p个补丁应彼此不相关且与LF频带不相关。接着，在修补单元206中组合与每一频带相关联的频移后的版本。可将表示较高频带中的每一个的边信息的第二数据提供至后处理单元210，使得在后处理单元210中再现音频信号的多个较高频部分。

在本发明的实施例中，第一及第二频带(及任选地另外的频带)沿频率方向可重叠或可不重叠。

因此，在本发明的实施例中，提供器包含：频移器单元，被配置为将音频信号在第一频带中的第一部分频移至第二频带或频移至多个不同的第二频带；以及解相关器，其用以将音频信号的第一部分的频移后的版本与音频信号的第一部分解相关。在本发明的实施例中，解相关器的性质可与例如自空间音频编码解相关所已知的性质相同。在本发明的实施例中，解相关器可提供足够的解相关，以避免信号失真及噪声，信号失真及噪声对于使用频谱带复制的习知频宽扩展而言是典型的。解相关器可提供音频信号的第一部分的频谱包络的保存及/或可提供时间包络，即，音频信号的第一部分的瞬态的保存。设计适合的解相关器因此通常可涉及在瞬态保存与解相关之间进行折衷。

在本发明的实施例中，解相关器可实行为时域或子频带时域中的IIR(IIR＝无限脉冲响应)滤波器，例如，全通滤波器，其中经由群延迟变化来实现解相关。在本发明的实施例中，解相关器可被配置为在复杂(过度采样)的变换/滤波器组表示(DFT表示、QMF表示)(DFT＝离散傅立叶变换；QMF＝正交镜像滤波器)中提供频谱系数的相位随机化。在本发明的实施例中，解相关器可被配置为在滤波器组表示中提供频率相关时间延迟的应用。

本发明的实施例可包含信号适应性解相关器，该信号适应性解相关器改变解相关程度以保存瞬态。针对准固定信号可提供高解相关，且针对瞬态信号可提供低解相关。因此，在本发明的实施例中，用以提供补丁信号的提供器可在不同解相关程度之间切换。

在实施例中，用以提供补丁信号的提供器取决于第一信号部分是否包含指示项而可在不同解相关程度之间切换，该指示项是针对音频信号的第一部分与音频信号的第二部分之间的强相关性。此指示项的实施例是音频信号的第一部分中的瞬态、音频信号的第一部分中由脉冲序列组成的有声语音，及/或音频信号的第一部分中的铜管乐器声音。以下描述指示项是音频信号的第一部分中的瞬态的实施例。

在本发明的实施例中，装置可包含检测器，该检测器被配置为检测音频信号的第一部分是否包含瞬态。图1a及图1b中示意性地展示此检测器108。取决于检测器108的输出信号，提供器102可被配置为提供补丁信号，针对准固定信号，即，当音频信号的第一部分不具有瞬态时，该补丁信号具有高解相关，且若音频信号的第一部分具有瞬态信号，则该补丁信号具有低解相关。

在本发明的替代实施例中，装置可包含信号适应性解相关器，该信号适应性解相关器针对准固定信号启动且针对瞬态信号部分停用。换言之，提供器可被配置为：在第一信号部分包含瞬态信号部分的情况下输出频移后的第一信号部分而不对其进行解相关；且仅在第一信号部分不包含瞬态或瞬态信号部分的情况下输出解相关的补丁信号。在此类实施例中，第二再现器被配置为当音频信号的第一部分不包含瞬态时基于第二数据及补丁信号再现第二频带中的音频信号，且被配置为当音频信号的第一部分包含瞬态时，基于第二数据及音频信号的第一部分的版本来再现第二频带中的音频信号，该版本已频移至第二频带且未解相关。

可将瞬态或瞬态部分视为在于如下事实：音频信号总共改变很多，即，例如，音频信号的能量自一个时间部分至下一时间部分改变超过50％，即，增大或减小。然而，50％临界值仅是实例，且其还可为更小或更大值。或者，对于瞬态检测而言，还可考虑能量分布的改变，例如在自元音至咝音的过渡中。

在本发明的实施例中，提供器可被配置为提供与音频信号的第一部分不相关的合成补丁信号。换言之，若参数后处理是细微粒度(高位速率编码译码器状况)，或若信号的HF频带无论如何很嘈杂，则用不相关的合成补丁信号(诸如合成噪声)进行修补可能已足够。

在本发明的实施例中，在频宽扩展(例如SBR)中的LF频带与HF频带的相关性仍然对增强以下各者有所帮助：参数后处理的太粗略的时间网格(例如，由于低位速率编码译码器状况)、瞬态的精确再现，以及具有富泛音结构的音调的保存(通常，解相关不会影响音调，且因此音调的保存不会在设计解相关器时产生问题)。

就例如自空间音频编码解相关所已知的解相关器而言，参考例如WO2007/118583A1。

在本发明的实施例中，提供器102可包含适应性解相关器，该适应性解相关器基于自编码器传输至译码器的参数来调整HF补丁的解相关。在此实施例中，装置被配置为基于第一数据、第二数据及第三数据来再现音频信号，该第三数据包含关于在音频信号的第一部分与补丁信号之间将要使用的解相关程度的信息，当自编码的音频信号再现音频信号时，基于该信息再现第二部分。在编码器侧，可诸如藉由本申请的图3所展示的解相关信息添加器300将此第三数据添加至编码器侧的编码音频数据。除解相关信息添加器之外，图3所展示的装置对应于图4a所展示的装置。

解相关信息添加器300接收低通滤波器702的输出且可检测来自低通滤波器702的输出信号的性质。例如，解相关信息添加器可检测低通滤波器702的输出信号中的瞬态。取决于低通滤波器702的输出的性质，解相关信息添加器向编码音频信号710添加关于在音频信号的第一部分与补丁信号之间将要使用的解相关程度的信息，当自编码音频信号再现音频信号时，基于该信息再现第二部分。例如，解相关信息可命令译码器侧的提供器执行低解相关，或在音频信号的低频部分中存在瞬态部分的情况下完全不进行任何解相关。

在本发明的实施例中，解相关信息添加器还可接收音频信号的高频部分706且可被配置为自该高频部分706导出性质。例如，在解相关信息添加器检测到HF频带是噪声状的情况下，解相关信息添加器可建议译码器侧的提供器基于合成噪声信号来提供补丁信号。

在此类实施例中，由数据流710表示的编码音频信号320包含：第一数据321，其表示音频信号的第一部分的编码版本；第二数据322，其表示关于音频信号在第二频带中的第二部分的边信息；以及信息323，其是关于在音频信号的第一部分与补丁信号之间将要使用的解相关程度，当自编码的音频信号再现音频信号时，基于该信息323来再现第二部分。

因此，本发明的实施例提供一种改良的方法，其用于再现音频信号，即，用于音频信号频宽的译码器侧扩展。在其它实施例中，本发明提供一种用以产生编码音频信号的装置。在其它的实施例中，本发明关于此类编码音频信号。

藉由对如下两者的比较，可使得本发明的方法所实现的的有利效果可见：针对向上复制SBR的噪声信号包络的自相关序列(展示于图5a中)，与解相关补丁的噪声信号包络的自相关序列(如本申请的图5b所展示)。图5b是白噪声的幅度包络的自相关函数，其中用彼此不相关且与LF频带不相关的三个补丁来扩展频宽。图5b清楚展示图5a所展示的不期望的侧最大值的消失。

本申请案适用于或适合于不可利用所有频宽的所有音频应用。本发明的方法可用于音频内容的散布或广播，例如数字无线电、因特网流传输及音频通讯应用。本发明的实施例关于使用解相关的子频带音频信号的频宽扩展。

虽然已在装置的情境中描述一些方面，但很明显这些方面还表示对应的方法的描述，其中方块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤的情境中描述的方面还表示对应的方块或项目或对应的装置的特征的描述。

取决于特定的实行方案要求，本发明的实施例可以硬件或软件来实行。可使用储存有电子可读控制信号的数字储存媒体，例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，来进行该实施方式，该等电子可读控制信号与可编程计算机系统合作(或能够合作)以便进行相应的方法。

根据本发明的一些实施例包含具有电子可读控制信号的数据载体，该等电子可读控制信号能够与可编程计算机系统合作以便进行本文描述的方法中的一者。

通常可将本发明的实施例实行为具有程序代码的计算机程序产品，其中当计算机程序产品在计算机上运行时，程序代码可操作来进行方法中的一者。程序代码可例如储存在有形机器可读载体上。

其它实施例包含储存在机器可读载体或非暂时性储存介质上的用以进行本文描述的方法中的一者的计算机程序。

换言之，本发明方法的一实施例因此是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用以进行本文描述的方法中的一者。

本发明方法的另一实施例因此是数据载体(或数字储存介质或计算机可读介质)，该数据载体包含记录于其上的用以进行本文描述的方法中的一者的计算机程序。

本发明方法的另一实施例因此是数据流或信号序列，其表示用以进行本文描述的方法中的一者的计算机程序。数据流或信号序列可例如被配置为经由数据通讯连接，例如经由因特网被传输。

另一实施例包含处理装置，例如，计算机或可编程逻辑设备，其被配置为或适配为进行本文描述的方法中的一者。

另一实施例包含安装有用以进行本文描述的方法中的一者的计算机程序的计算机。

在一些实施例中，可编程逻辑设备(例如，现场可编程门阵列)可用来进行本文描述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可与微处理器合作来进行本文描述的方法中的一者。通常，方法较佳由任何硬件装置进行。

以上描述的实施例仅例示出本发明的原理。应了解，其它熟习此项技术者将易于了解对本文描述的配置及细节的修改及变更。本发明因此意欲仅受紧接在后面的专利申请专利范围的范畴的限制，而不受特定细节的限制，该等特定细节由本文中对实施例的描述及阐述呈现。

Claims

1.一种用以基于第一数据(120；321；705)及第二数据(126；322；708)来再现一音频信号的装置，所述第一数据表示所述音频信号在一第一频带中的一第一部分的一编码版本，所述第二数据表示关于所述音频信号在一第二频带中的一第二部分的边信息，其中所述第二频带包含高于所述第一频带的频率，所述装置包含：

一第一再现器(100)，被配置为基于所述第一数据(120；321；705)再现所述音频信号的所述第一部分(777)；

一提供器(102；200；202a)，被配置为提供在所述第二频带中的一补丁信号(122；204)，其中所述补丁信号(122；204)至少部分地与所述音频信号的所述第一部分(777)不相关，或至少部分地是已频移至所述第二频带的所述音频信号的所述第一部分(777)的一解相关版本；

一第二再现器(106)，被配置为基于所述第二数据(126；322；708)及所述补丁信号(122；204)来再现所述音频信号在所述第二频带中的所述第二部分；以及

一组合器(104)，在由所述第二再现器再现所述音频信号的所述第二部分之前将所述音频信号的再现的第一部分(777)与所述补丁信号(122；204)组合，或将所述音频信号的所述再现的第一部分(777)与所述音频信号的再现的第二部分组合。

2.如权利要求1所述的装置，其中所述第二再现器(106)被配置为：在所述音频信号的所述第一部分(777)不包含针对所述音频信号的所述第一部分与所述音频信号的所述第二部分之间的一强相关性的一指示的情况下，基于所述第二数据(126；322；708)及所述补丁信号(122；204)来再现所述第二频带中的所述音频信号；且其中所述第二再现器(106)被配置为：在所述音频信号的所述第一部分(777)包含针对所述音频信号的所述第一部分与所述音频信号的所述第二部分之间的一强相关性的一指示的情况下，基于所述第二数据(126；322；708)及所述音频信号的所述第一部分的一版本来再现所述第二频带中的所述音频信号，所述版本已频移至所述第二频带且未解相关。

3.如权利要求1或2所述的装置，其中所述提供器(102)被配置为提供一合成补丁信号，所述合成补丁信号与所述音频信号的所述第一部分不相关。

4.如权利要求3所述的装置，其中所述合成补丁信号是一噪声信号。

5.如权利要求1或2所述的装置，其中所述提供器(102)包含一频移单元(200)及一解相关器(202a…202p)，上述两者被配置为将所述补丁信号(122；204)产生为频移至所述第二频带的所述音频信号的所述第一部分(777)的一解相关版本。

6.如权利要求5所述的装置，其中所述解相关器(202a…202p)被配置为保存所述音频信号的所述第一部分(777)的一频谱包络及所述音频信号的所述第一部分(777)的一时间包络中的至少一者。

7.如权利要求5或6所述的装置，其中所述解相关器(202a…202p)包含以下各者中的一者：

一全通滤波器，被配置为导致所述音频信号的所述第一部分中的群延迟变化；

一相位随机化器，被配置为导致所述音频信号的所述第一部分的频谱系数的相位随机化；以及

一施加器，被配置为将一频率相关时间延迟施加至所述音频信号的所述第一部分的子部分。

8.如权利要求5至7中任一项所述的装置，其中所述解相关器(202a…202p)包含一信号适应性解相关器，所述信号适应性解相关器被配置为改变解相关程度，以便：在所述音频信号的所述第一部分(777)不包含针对所述音频信号的所述第一部分与所述音频信号的所述第二部分之间的一强相关性的一指示的情况下，应用一较高解相关；且在所述音频信号的所述第一部分(777)包含针对所述音频信号的所述第一部分与所述音频信号的所述第二部分之间的一强相关性的一指示的情况下，应用一较低解相关或不应用一解相关。

9.如权利要求1至8中任一项所述的装置，包含一检测器(108)，所述检测器被配置为检测所述音频信号的所述第一信号部分(777)是否包含一指示，所述指示是针对所述音频信号的所述第一部分与所述音频信号的所述第二部分之间的一强相关性。

10.如权利要求1至9中任一项所述的装置，其中所述提供器(200,202a…202p)被配置为提供在一第三频带中的一第二补丁信号，其中所述第二补丁信号与所述音频信号的所述第一部分不相关或是已频移至所述第三频带的所述音频信号的所述第一部分的一解相关版本，其中所述第二补丁信号与所述第一补丁信号不相关或解相关，其中所述装置包含一第三再现器，其中所述第三再现器被配置为基于所述第二补丁信号及第三数据来再现所述音频信号的一第三部分，所述第三数据表示关于所述音频信号在所述第三频带中的所述第三部分的边信息，其中所述第三频带包含高于所述第二频带的频率。

11.一种用以基于第一数据(120；321；705)及第二数据(126；322；708)来再现一音频信号的方法，所述第一数据表示所述音频信号在一第一频带中的一第一部分的一编码版本，所述第二数据表示关于所述音频信号在一第二频带中的一第二部分的边信息，其中所述第二频带包含高于所述第一频带的频率，所述方法包含：

基于所述第一数据(120；321；705)再现所述第一频带中的所述音频信号(777)；

提供在所述第二频带中的一补丁信号(122；204)，其中所述补丁信号(122；204)至少部分地与所述音频信号的所述第一部分(777)不相关，或至少部分地是已频移至所述第二频带的所述音频信号的所述第一部分(777)的一解相关版本；

基于所述第二数据(126；322；708)及所述补丁信号(122；204)来再现所述音频信号在所述第二频带中的所述第二部分；以及

在再现所述音频信号的所述第二部分之前将所述音频信号的再现的第一部分(777)与所述补丁信号(122；204)组合，或将所述音频信号的所述再现的第一部分(777)与所述音频信号的所述再现的第二部分组合。

12.一种用以产生一编码音频信号(320)的装置，所述编码音频信号(320)包含第一数据(321)及第二数据(322)，所述第一数据表示所述音频信号在一第一频带中的一第一部分(703)的一编码版本，所述第二数据表示关于所述音频信号在一第二频带中的一第二部分(706)的边信息，所述第二频带包含高于所述第一频带的频率，所述装置包含：

一解相关信息添加器(300)，被配置为向所述编码音频信号(320)添加信息(323)，所述信息是关于在所述音频信号的所述第一部分与一补丁信号之间将要使用的一解相关程度，当自所述编码音频信号再现所述音频信号时，基于所述信息再现所述音频信号的所述第二部分。

13.一种用以产生一编码音频信号(320)的方法，所述编码音频信号(320)包含第一数据(321)及第二数据(322)，所述第一数据表示所述音频信号在一第一频带中的一第一部分(703)的一编码版本，所述第二数据(322)表示关于所述音频信号在一第二频带中的一第二部分(706)的边信息，所述第二频带包含高于所述第一频带的频率，所述方法包含：

向所述编码音频信号(320)添加信息(323)，所述信息关于在所述音频信号的所述第一部分与一补丁信号之间将要使用的一解相关程度，当自所述编码音频信号(320)再现所述音频信号时，基于所述信息再现所述音频信号的所述第二部分。

14.一种包含程序代码的计算机程序，当所述计算机程序在一计算机上运行时，所述程序代码用以执行如权利要求11或13所述的方法。

15.一种编码音频信号(320)，包含：

第一数据(321)，表示所述音频信号在一第一频带中的一第一部分(703)的一编码版本；

第二数据(322)，表示关于所述音频信号在一第二频带中的一第二部分(706)的边信息，其中所述第二频带包含高于所述第一频带的频率；以及

信息(323)，关于在所述音频信号的所述第一部分与一补丁信号之间将要使用的一解相关程度，当自所述编码音频信号再现所述音频信号时，基于所述信息再现所述音频信号的所述第二部分。