CN102089817B

CN102089817B - 用于计算频谱包络数目的装置与方法

Info

Publication number: CN102089817B
Application number: CN2009801271169A
Authority: CN
Inventors: 马克思·诺伊恩多夫; 伯恩哈德·格里尔; 乌尔里赫·克里默; 马库斯·穆尔特鲁斯; 哈拉尔德·波普; 尼古劳斯·雷特尔巴; 弗雷德里克·内格尔; 马库斯·洛瓦索; 马雷·盖尔; 曼努埃尔·扬德尔; 维尔吉利奥·巴奇加卢波
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-07-11
Filing date: 2009-06-23
Publication date: 2013-01-09
Anticipated expiration: 2029-06-23
Also published as: RU2011103999A; EP2301027B1; MY153594A; KR20110040820A; HK1156141A1; CN102144259B; JP5551694B2; US8296159B2; TWI415114B; AU2009267532B2; CA2729971A1; CO6341676A2; WO2010003546A3; PL2301028T3; BRPI0910523A2; KR20130033468A; WO2010003546A2; KR101395257B1; EP2301027A1; KR20130095840A

Abstract

一种装置(100)，计算要由频带复制(SBR)编码器导出的频谱包络(104)的数目(102)，其中，所述SBR编码器适于使用从初始时间(t0)延伸到最后时间(tn)的SBR帧内的预定数目的连续时间部分(110)中的多个采样值来编码音频信号(105)，所述预定数目的连续时间部分(110)按所述音频信号(105)给定的时间序列排列。所述装置(100)包括决策值计算器(120)，用于决定决策值(125)，所述决策值(125)测量一对相邻时间部分的频谱能量分布的偏差。所述装置(100)进一步包括检测器(130)，用于藉由所述决策值(125)检测阈值的违规(135)。所述装置(100)进一步包括处理器(140)，用于在检测到阈值的违规时决定该对相邻时间部分之间的第一包络边界(145)。所述装置(100)进一步包括处理器(150)，基于针对不同对的相邻时间部分的阈值的违规(135)或者基于所述SBR帧中的该对或该不同对的时间位置，针对具有第一包络边界的包络决定位于该不同对的相邻时间部分之间或在所述初始时间(t0)处或在所述最后时间(tn)处的第二包络边界(155)。所述装置(100)进一步包括数目处理器(160)，用于确立具有第一包络边界(145)及第二包络边界(155)的频谱包络(104)的数目(102)。

Description

用于计算频谱包络数目的装置与方法

技术领域

本发明有关于用于计算频谱包络数目的装置与方法、音频编码器及用于编码音频信号的方法。

背景技术

自然音频(natural audio)编码及语音(speech)编码是编解码器针对音频信号的两个主要任务。自然音频编码一般地以中等比特率用于音乐或任意信号且大体上提供宽音频带宽。另一方面，语音编码器基本上限于语音再现，但可以以极低的比特率使用。宽带语音提供了优于窄频带语音的重要的主观质量改进。增加带宽不仅提高了语音的可懂度及自然度，而且还提高了对说话者的辨识。因此，宽带语音编码在下一代电话系统中是重要的课题。而且，由于多媒体领域巨大的发展，通过电话系统以高质量传输音乐及其它非语音信号是希望的特征。

为了大大地减少比特率，可使用分频带(split-band)感知音频编解码器来执行源编码。这些自然音频编解码器利用信号中的感知无关(perceptional irrelevancy)及统计冗余。此外，减少采样率从而减少音频带宽是常见的。减少组成层次数目偶尔地允许音频的量化失真及利用通过强度编码之立体声场降级也是常见的。过多使用此类方法会导致恼人的感知降级。为了提高编码性能，在基于高频重建(highfrequency reconstruction，HFR)编解码器中使用频带复制作为有效的方法来产生高频信号。

频带复制(spectral band replication，SBR)包含作为流行的感知音频编码器(诸如MP3及高级音频编码(AAC))的附加物而获得普及的技术。SBR包含带宽扩展的方法，其中使用现有技术的编解码器来编码该频谱的低频带(基频带或核心频带)，而上频带(或高频带)使用少数参数来粗略地参数化。SBR藉由使用提取的高频带特征从该较低频带预测该较宽带带信号来利用在该低频带与该高频带间的相关性。这经常是足够的，因为人类的耳朵相比较于该较低频带而言对该较高频带的失真较不敏感。因此，新的音频编码器使用例如MP3或AAC来编码该较低频谱而使用SBR来编码该较高频带。该SBR算法的关键是用来描述该信号之较高频率部分的信息。此算法的主要设计目的是在不引入任何伪信号(artifact)的情况下重建较高频频谱并提供良好的频谱及时间分辨率。例如，在该分析部分及该编码器使用64频带复值多相滤波器组；使用该滤波器组来获得例如该原始输入信号的高频带之能量采样。接着这些能量采样可作为供在该解码器使用的包络调整方案之参考值使用。

频谱包络在一般意义上指信号的粗略频谱分布，且包含例如线性的基于预测的编码器中之滤波器系数或子频带编码器中之子频带采样的时频(time-frequency)平均值集合。接着，包络数据是指该已量化及编码的频谱包络。特别地，如果该较低频带以低比特率编码，该包络数据构成该比特流的较大部分。因此，当特别是使用较低比特率时，简洁地表示该频谱包络是重要的。

频带复制利用基于例如在编码期间截断的谐波序列的复制的工具。此外，频带复制调整该所产生的高频带之频谱包络且应用反向滤波并加入噪声及谐波成份以再生该原始信号的频谱特性。因此，该SBR工具的输入包含例如已量化的包络数据、杂项控制数据、来自该核心编码器(例如AAC或MP3)的时域信号。该SBR工具的输出是时域信号或例如信号的QMF域(QMF＝正交镜像滤波器)表示，例如在使用该MPEG环绕工具时。可在标准ISO/IEC 14496-3：2005副条款4.5.2.8中找到针对该SBR有效载荷的比特流元素之描述，且其中特别包含SBR扩展数据、SBR报头，并指示在SBR帧中的SBR包络的数目。

对于SBR在该编码器端的实施，对输入信号执行分析。使用自此分析所获得的信息来选择当前SBR帧的适当的时间/频率分辨率。该算法计算在当前SBR帧中的SBR包络的开始及停止时间边界、SBR包络数目及它们的频率分辨率。不同的频率分辨率如例如在该ISO/IEC 144963标准、副条款4.6.18.3中所描述的来计算。该算法还针对给定的SBR帧计算噪声层(noise floor)的数目及该噪声层的开始及停止时间边界。该等噪声层的开始及停止时间边界应为频谱包络的开始及停止时间边界的子集。该算法将当前的SBR帧分成四类：

FIXFIX-该前导(leading)及尾部(trailing)时间边界都等于标称的SBR帧边界。在该帧中所有的SBR包络时间边界在时间上一致地分布。包络的数目是二的整数次幂(1，2，4，8，...)。

FIXVAR-该前导时间边界等于前导标称帧边界。该尾部时间边界是可变的且可由比特流元素来定义。在该前导及该尾部时间边界间的所有的SBR包络时间边界可以被指定为以时隙而计的自该尾部时间边界开始至前一边界的相对距离。

VARFIX-该前导时间边界是可变的且由比特流元素来定义。该尾部时间边界等于该尾部标称帧边界。在该前导及该尾部时间边界间的所有的SBR包络时间边界在比特流中被指定为以时隙而计的自该前导时间边界开始至前一边界的相对距离。

VARVAR-该前导及尾部时间边界都是可变的且可在比特流中定义。在该前导及尾部时间边界间的所有的SBR包络时间边界也被指定。自该前导时间边界开始的相对时间边界被指定为到前一时间边界的相对距离。自该尾部时间边界开始的相对时间边界被指定为到前一时间边界的相对距离。

在SBR帧类别转换上没有限制，即，在该标准中允许类别的任意序列。然而，依据此标准，对于类别FIXFIX，每个该SBR帧的SBR包络之最大数目限制为4及对于类别VARVAR每个该SBR帧的SBR包络之最大数目限制为5。类别FIXVAR及VARFIX在语法上限制为四个SBR包络。

在该时间区段上及以由时间/频率方格(grid)给定的频率分辨率来估计SBR帧的频谱包络。藉由在给定的时间/频率区域上计算的平方复数子频带采样的平均值来估计该SBR包络。

一般地，在SBR中，通过使用可变长度的特定包络，瞬变(transient)接受特定处理。瞬变可由常规信号中在一短时间段内出现能量强劲增加的部分来定义，这可以或可以不限制在特定频率区域上。针对瞬变的例子是响板及打击乐器的击打，而且还有人类发音的某些声音，例如字母：P、T、K...。目前始终以同一方式或由同一算法(使用瞬变阈值)来实施对此瞬变的检测，而与信号无关，不论该信号是被分类为语音还是被分类为音乐。另外，有声(voiced)与无声(unvoiced)语音之间的可能的区别不影响常规的或传统的瞬变检测机制。

因而，如果检测到瞬变，应该调整该SBR数据以使得解码器可适当地复制该检测的瞬变。在WO 01/26095中，揭露了用于频谱包络编码的装置及方法，其考虑了该音频信号中检测的瞬变。在此常规方法中，藉由将来自一固定大小的滤波器组之子频带采样自适应地分组成为每个产生一个包络采样的频带与时间区段，来获得该频谱包络的非一致的时间与频率采样。该相对应的系统预设为长时间区段及高频率分辨率，但在瞬变附近使用较短时间区段，藉此可使用较大频率步长以保持该数据大小在限额内。如果检测到瞬变，该系统自FIXFIX帧切换到FIXVAR帧，随后是VARFIX帧，以使得包络边界正好定位在该检测的瞬变前。每当检测到瞬变时重复此步骤。

如果只是缓慢的能量波动变化，该瞬变检测器将不检测该变化。然而，如果处理不当，这些变化可能足以产生可感知的伪信号。简单的解决方案可能是降低该瞬变检测器中的该阈值。然而，这将导致在不同帧间(FIXFIX至FIXVAR+VARFIX)的频繁切换。结果，必须传输大量的额外数据，暗示不佳的编码效率，特别是如果该缓慢增长持续超过较长时间(例如，超过多个帧)的话。这是不可接受的，因为该信号不包含可证明较高数据率是正当的复杂性，因而这不是解决该问题的选择。

发明内容

因此，本发明之一目的是提供一种装置，该装置允许不具有可感知的伪信号之有效编码，特别是对包含缓慢变化的能量的信号，该缓慢变化的能量太低而不能被该瞬变检测器所检测。

该目的由如权利要求1所述之装置、如权利要求11所述之编码器、如权利要求13所述之用于计算频谱包络数目之方法或如权利要求14所述之用于产生数据流之方法来实现。

本发明基于如下发现：可藉由依据给定信号以灵活的方式调整SBR帧内的频谱包络数目来提高传输的音频信号的感知质量。这藉由比较在该SBR帧内的相邻时间部分的音频信号来实施。

该比较藉由决定该音频信号在该时间部分内之能量分布来实施，以及决策值测量两相邻时间部分的能量分布的偏差。视该决策值是否违规了阈值而定，包络边界位于相邻时间部分之间。该包络之另一边界可在该SBR帧之开头或末尾或者，备选地，也可在该SBR帧内之另两个相邻的时间部分之间。

因此，该SBR帧不像例如在常规装置中那样被适配或改变，在常规装置中，执行自FIXFIX帧到FIXVAR帧或到VARFIX帧的改变以处理瞬变。取而代之的是，实施例使用变化的包络数目(例如，在FIXFIX帧内)，以考虑到该音频信号之变化的波动，使得即使是缓慢变化的信号也可产生变化的包络数目，于是允许由解码器中的SBR工具产生较好的音频质量。该已决定的包络可例如涵盖该SBR帧中之相等时间长度的部分。例如，该SBR帧可被划分成预定数目的时间部分(例如该预定数目可包含4、8或2的其它整数次幂)。

每个时间部分之该频谱能量分布可以只涵盖藉由SBR复制的上频带。另一方面，该频谱能量分布也可与整个频带(上频带或下频带)有关，其中该上频带可以或可以不以大于该下频带之权重来加权。通过此过程，该阈值之已有的一次违规可能足以增加包络数目或足以使用该SBR帧内之最大包络数目。

进一步的实施例还可包含信号分类器工具，该信号分类器工具分析该原始输入信号并由此产生控制信息，该控制信息触发不同编码模式的选择。该不同编码模式可例如包含语音编码器及一般音频编码器。该输入信号之分析是与实施相关的，其目标是针对给定输入信号帧选择最佳核心编码模式。当只使用低比特率来编码时，该最佳与可感知高质量的平衡相关。该信号分类器工具之输入可以是该原始未修改的输入信号和/或额外的与实施相关的参数。该信号分类器工具之该输出例如可以是控制该核心编解码器之选择的控制信号。

例如，如果该信号被识别或分类为语音，该带宽扩展(BWE)的类时(time-like)分辨率可增加(例如增加较多包络)，以使得可较好的考虑类时能量波动(缓慢地或强劲地波动)。

此方法考虑到具有不同时间/频率特性之不同信号在关于带宽扩展的特性上具有不同的要求。例如，瞬变信号(例如出现在语音信号中)需要BWE的精细时间分辨率，该交越(crossover)频率(意思是核心编码器之上频率边界)应该尽可能的高。特别是在有声语音中，失真的时间结构会降低感知的质量。另一方面，声调信号经常需要频谱成份的稳定再现及该再现的高频部分的匹配谐波图案(pattern)。声调部分的该稳定再现限制了核心编码器带宽，其不需要具有精细的时间分辨率的BWE，而是具有较精细的频谱分辨率的BWE。在切换语音/音频核心编码器设计中，还可能使用该核心编码器决策来适配BWE的时间及频谱特性，以及适配核心编码器带宽以适于该信号特性。

如果所有的包络包含相同的时间长度，视所检测到的违规(在哪一时间)而定，包络数目可因帧不同而不同。实施例例如以如下方式针对SBR帧决定包络数目。可能以具有最大可能包络数目(例如8)之一部分开始并逐步减少包络数目，藉此视该输入信号而定而使用不多于使该信号能够以可感知的高质量再现所需的包络。

例如，已经在该帧内之时间部分之第一边界被检测到的违规可导致最大包络数目，而只在第二边界检测到的违规可导致最大包络数目的一半。为了减少要被传输的数据，在进一步的实施例中，该阈值可视时刻而定(即，视目前所分析的是哪一边界而定)。例如，在该第一及第二时间部分之间(第一边界)及在该第三及第四时间部分之间(第三边界)，该阈值在这两种情况下可比在该第二及第三时间部分之间(第二边界)时大。因此，统计上，在该第二边界比在该第一或第三边界将存在较多的违规，因而更可能导致较少的包络，这将是较佳的(更多细节见下文)。

在进一步的实施例中，预定数目的连续时间部分中的时间部分的时间长度等于最小时间长度，针对该最小时间长度决定单一包络，其中决策值计算器适于针对具有该最小时间长度的两个相邻的时间部分计算决策值。

更进一步的实施例包含用来提供额外旁侧(side)信息的信息处理器，该额外旁侧信息包含该音频信号的时间序列内的第一包络边界及第二包络边界。在进一步的实施例中，该检测器适于以时间顺序研究相邻时间部分之间的边界中的每个边界。

实施例还在编码器中使用用于计算包络数目的装置。该编码器包含用于计算频谱包络数目的该装置及用于使用此数目来计算针对SBR帧的频谱包络数据的包络计算器。实施例还包含用于计算包络数目的方法及用于编码音频信号的方法。

因而，使用在FIXFIX帧内之包络是为了较好地模型化因太缓慢以致未被检测为瞬变或被分类为瞬变而未受该瞬变处理涵盖之能量波动。在另一方面，如果该能量波动由于不足的类时分辨率而没有得到适当的处理，它们足够快导致伪信号。因而，依据本发明的包络处理将考虑到缓慢变化的能量波动而不仅是瞬变之特征的强劲或快速的能量波动。因此，本发明之实施例允许以较佳质量进行较高效的编码，特别是对于具有缓慢变化能量的信号，其波动强度太低而不能被常规的瞬变检测器检测到。

附图说明

本发明现在将通过所说明的例子来予以描述。通过参考下面详细的应参考该等附图考虑之描述将较容易了解及较好的理解本发明之特征，其中：

图1显示依据本发明的实施例的用于计算频谱包络数目的装置的框图；

图2显示包含包络数目计算器的SBR模块的框图；

图3a和3b显示包含包络数目计算器的编码器的框图；

图4示出预定数目的时间部分中的SBR帧的分区；

图5a至5c显示针对包含涵盖不同数目的三个时间部分的包络的SBR帧的另一分区；

图6a和6b示出针对相邻时间部分中的信号的频谱能量分布；以及

图7a至7c显示包含对于音频信号产生不同时间分辨率的可选音频/语音切换的编码器。

具体实施方式

下面描述的实施例只是用来说明用于改良例如在音频编码器中所使用的频带复制的本发明的原理。要明白的是，本文所描述的安排及细节的修改和变化对本领域的技术人员而言将是明显的。因而，意图是不受作为本文的该等实施例之描述及说明所呈现之该等特定细节所限制。

图1显示用于计算频谱包络104之数目102的装置100。该频谱包络104藉由频带复制编码器来导出，其中该编码器适于使用在自初始时间t0延伸至最后时间tn的频带复制帧(SBR帧)中的预定数目的连续时间部分110内的多个采样值来编码音频信号105。该预定数目的连续时间部分110按该音频信号105给定的时间序列排列。

该装置100包含用来决定决策值125的决策值计算器120，其中该决策值125测量一对相邻时间部分在频谱能量分布上的偏差。该装置100进一步包含用来藉由该决策值125检测阈值的违规135的违规检测器130。此外，该装置100包含处理器140(第一边界决定处理器)，该处理器140用于当检测到阈值的违规135时决定在该对相邻时间部分之间的第一包络边界145。该装置100还包含处理器150(第二边界决定处理器)，该处理器150对于具有该第一包络边界145的包络104，根据针对其它对的阈值的违规135或根据该SBR帧中的该对或其它对的时间位置，来决定在一不同对的相邻时间部分之间或在该初始时间t0或在最后时间tn的第二包络边界155。最后，该装置100包含处理器160(包络数目处理器)，该处理器160用来确立具有该第一包络边界145及该第二包络边界155的频谱包络104的数目102。

进一步的实施例包含装置100，其中预定数目的连续时间部分110的时间部分的时间长度等于最小时间长度，针对该最小时间长度决定单一包络104。此外，该决策值计算器120适于针对具有该最小时间长度的两个相邻时间部分计算决策值125。

图2显示针对包含该包络数目计算器100(在图1中显示)的SBR工具的实施例，该实施例藉由处理该音频信号105来决定频谱包络104的数目102。该数目102被输入计算来自该音频信号105的包络数据205的包络计算器210。使用数目102，该包络计算器210把该SBR帧划分成由频谱包络104涵盖的部分，且对于每个频谱包络104，该包络计算器210计算该包络数据205。该包络数据包含例如已量化及编码的频谱包络，且在解码器端需要此数据来产生高频带信号及应用反向滤波、加入噪声及谐波成份以复制原始信号的频谱特性。

图3a显示针对编码器300的实施例，该编码器300包含SBR相关模块310、分析QMF组320、下采样器330、AAC核心编码器340及比特流有效载荷格式化器350。另外，该编码器300包含该包络数据计算器210。该编码器300包含针对PCM采样(音频信号105；PCM＝脉冲码调制)的输入，该输入连接到分析QMF组320，并连接到该SBR相关模块310以及连接到该下采样器330。接着，该分析QMF组320连接到该包络数据计算器210，接着该包络数据计算器210连接到该比特流有效载荷格式化器350。该下采样器330连接到AAC核心编码器340，接着，该AAC核心编码器340连接到该比特流有效载荷格式化器350。最后，该SBR相关模块310连接到该包络数据计算器210且连接到该AAC核心编码器340。

因此，该编码器300(在该下采样器采样器330中)对该音频信号105下采样以产生核心频带中的成份，该成份被输入到该AAC核心编码器340中，该AAC核心编码器340对该核心频带中的该音频信号进行编码并转送已编码的信号给比特流有效载荷格式化器350，在比特流有效载荷格式化器350中将该核心频带的已编码的音频信号加入到编码的音频流355中。在另一方面，由该分析QMF组320来分析该音频信号105，该分析QMF组320提取该高频带的频率成份并将这些信号输入到该包络数据计算器210中。例如，64子带QMF组320执行该输入信号的子带滤波。来自该滤波器组的输出(即该子带采样)是复值的(complex-valued)，因此相比于正常的QMF组是以因子2过采样的。

该SBR相关模块310藉由将例如包络104的数目102提供给包络数据计算器210来控制包络数据计算器210。该包络数据计算器210使用数目102及由该分析QMF组320所产生的音频成份来计算该包络数据205并将该包络数据205转送到该比特流有效载荷格式化器350，该比特流有效载荷格式化器350将该包络数据205与由该核心编码器340编码的成份组合到编码的音频流355中。

因而图3a显示了估计由高频重建方法在解码器上使用的若干参数的SBR工具的编码器部分。

图3b显示了针对SBR相关模块310的示例，其包含包络数目计算器100(在第图1中显示)及可选的其它SBR模块360。该SBR相关模块310接收该音频信号105并输出包络104的数目102，以及由该其它SBR模块360所产生的其它数据。

该其它SBR模块360例如可包含常规的瞬变检测器，该瞬变检测器适于检测在该音频信号105中的瞬变且还可获得包络的数目和/或位置，以使该SBR模块可以或可以不计算由高频重建方法在解码器上使用的参数中的一部分(SBR参数)。

如前所述，在SBR中，SBR时间单元(SBR帧)可被分成各种数据块，即所谓的包络。如果此划分或分区是一致的，即所有的包络104具有相同的大小且第一包络以帧边界开始及最后包络以帧边界结束，那么该SBR帧被定义为FIXFIX帧。

图4示出这样的针对SBR帧的数目102个频谱包络104的分区。该SBR帧涵盖该初始时间t0与最后时间tn之间的时间段，并且在图4所示的该实施例中，该SBR帧被划分为8个时间部分：第一时间部分111、第二时间部分112、...、第七时间部分117及第八时间部分118。这8个时间部分110由7个边界分开，这就是说边界1位于该第一及第二时间部分111、112之间，边界2位于该第二部分112与第三部分113之间，如此继续直到边界7介于该第七部分117与该第八部分118之间。

在标准ISO/IEC 14496-3中，FIXFIX帧中的包络104的最大数目被限制为四(见段落4.6.18.3.6，子部分4)。一般地，在该FIXFIX帧中的包络104的数目可以是二的幂次(例如，1、2、4)，其中如果在同一帧中没有检测到瞬变时只使用FIXFIX帧。另一方面，在常规的高效AAC编码器实施中，包络104的最大数目被限制为二，即使标准的规范理论上允许多达四个包络。每帧的包络104的数目可增加到例如八(见图4)，以使FIXFIX帧可包含1、2、4或8个包络(或2的另一幂次)。当然，包络104的任一其它数目102也是可能的，以使包络104的最大数目(预定数目)可以只受到具有每SBR帧32个QMF时隙的QMF滤波器组的时间分辨率的限制。

包络104的数目102例如可如下计算。该决策值计算器120测量在成对的相邻时间部分110的频谱能量分布中的偏差。例如，这就是说，该决策值计算器120针对该第一时间部分111计算第一频谱能量分布，根据在该第二时间部分112中的频谱数据来计算第二频谱能量分布，等等。然后，将该第一频谱能量分布与该第二频谱能量分布相比较，并根据该比较导出该决策值125，其中在此例子中该决策值125与在该第一时间部分111及该第二时间部分112之间的边界1有关。相同的过程可应用到该第二时间部分112及该第三时间部分113，以使针对这两个相邻的时间部分也导出两个频谱能量分布，并且接着这两频谱能量分布由该决策值计算器120进行比较，以导出进一步的决策值125。

下一步，该检测器130将把该导出的决策值125与阈值比较，如果违反了该阈值，则该检测器130将检测到违规135。如果该检测器130检测到违规135，则该处理器140决定第一包络边界145。例如，如果该检测器130在该第一时间部分111与该第二时间部分112之间的边界1处检测到违规，则该第一包络边界145a定位在该边界1的时间处。

在图4的实施例中，其中只有几种可能性对于区组(granule)/边界而言是被允许的，这就是说完成了整个过程，且如由在104a、104b指示的小包络所指示的那样来设定所有的边界。在此情况下，边界将在所有的时间0、1、2、...、n上。

然而，当要将该第一边界设定在例如时刻4上时，则必须完成针对该第二边界的搜索。如图4所指示，该第二边界可以在3、2、0处。如果该边界在3处，则结束整个过程，因为设定了最小的包络104a、104b。如果该边界在2处，则必须继续该搜索，因为还没有确认可以使用中等包络(如145a所示)。即使如果该边界在0处，还没有决定的是在后半部中(即4与n之间)不存在边界。如果在后半部中不存在边界，则可设定最宽的包络。如果存在边界，例如在5处，则必须使用最小包络。如果只在6处存在边界，则使用该中等包络。

然而，当允许针对该包络的完全灵活或较灵活的模式时，当已决定第一边界在1处时该过程继续。接着，该处理器150决定第二包络边界155，该第二包络边界155在另一对相邻时间部分之间或与该初始的时间t0或该最后时间tn重合。在图4所示的该实施例中，该第二包络边界155a与该初始时间t0重合(产生第一包络104a)及另一第二包络边界155b与在该第二时间部分112及该第三时间部分113之间的边界2重合(产生第二包络104b)。如果在该第一时间部分111与该第二时间部分112之间的边界1处未检测到违规，则该检测器130将继续研究在该第二时间部分112与该第三时间部分113之间的边界2。如果存在违规，则另一包络104c自该开始时间t0延伸至该边界2。

依据本发明之实施例，对于一对相邻包络而言，该决策值125测量频谱能量分布的偏差，其中每个频谱能量分布涉及该音频信号在时间部分内的一部分。在8个包络的该例子中，存在总数为7个的测量(＝在相邻时间部分之间的7个边界)或，一般地，如果存在n个包络，则存在n-1个测量(决策值125)。接着，这些决策值125中的每一个可与阈值比较，且如果该决策值125(测量)违反该阈值，则包络边界将被定位在该两个相邻的包络之间。视该决策值125及该阈值的定义而定，该违规可以是决策值125大于或小于该阈值。如果该决策值125小于该阈值，则该频谱分布可能不会随着包络到包络而发生强烈的改变。因此，在此位置(＝时刻)可能不需要包络边界。

在优选实施例中，包络104之数目102包含二的幂次，且此外，每个包络包含相等的时间段。这就是说，存在四种可能性：第一种可能性是整个SBR帧被单一包络涵盖(在图4中未示出)，第二种可能性是该SBR帧被2个包络涵盖，第三种可能性是该SBR帧被4个包络涵盖，以及最后的可能性是该SBR帧被8个包络涵盖(在图4中自下而上显示)。

以特定顺序研究该边界可能是有利的，因为如果在奇数边界(边界1、边界3、边界5、边界7)处存在违规，则包络的数目将始终为八(假设是相同大小的包络)。另一方面，如果在边界2及边界6处存在违规，则存在四个包络，以及最后，如果只在边界4处存在违规，则将编码两个包络，以及如果在该7个边界中的任一个处都不存在违规，则整个SBR帧被单一包络所涵盖。因此，该装置100可首先研究该边界1、3、5、7且如果在这些边界之一处检测到违规，则该装置100可研究下一SBR帧，因为在此情况下，整个SBR帧将以最大包络数目来编码。在研究这些奇数边界后且如果在该奇数边界处没有检测到违规，则作为下一步，该检测器130可研究该边界2及边界6，藉此，如果在这两边界之一处检测到违规，则包络数目将为四且该装置100可再一次转往下一SBR帧。作为最后一步，如果就该边界1、2、3、5、6、7而言没有检测到违规，则该检测器130可研究该边界4及如果在边界4检测到违规，则包络数目被确定为二。

对于一般情况(n个时间部分，其中n是偶数)，此过程也可再叙述如下。如果例如在该奇数边界处没有检测到违规，且因此该决策值125可小于该阈值，意味着(由那些边界分开的)相邻包络就该频谱能量分布而言包含不大的差异，不需要将该SBR帧划分成n个包络，取而代之地，划分成n/2个包络可能足够了。另外，如果该检测器130在是奇数两倍(例如在边界2、6、10、...)的边界处没有检测到违规，也不需要将包络边界放在这些位置，因此，包络之数目可进一步减少一半，即减少到n/4。此过程逐步继续(下一步将是奇数4倍的边界，即4、12、...)。如果在所有的这些边界处都没有检测到违规，则单一包络对于整个SBR帧是足够的。

然而，如果奇数边界处的决策值125中的一个决策值大于该阈值，则应该考虑n个包络，因为只有在这时包络边界将被定位在相对应的位置(因为假定所有的包络具有相同的长度)。在此情况下，将计算n个包络，即便所有其它的决策值125小于该阈值。

然而，该检测器130也可针对所有时间部分110考虑所有的边界且考虑所有的决策值125，以计算包络104的数目。

由于包络数目102的增加还意味着要被传输的数据量增加，所以可增加牵涉大量包络104的相对应包络边界的决策阈值。这就是说在边界1、3、5及7处的阈值可选地可高于在边界2及6处的阈值，接着，在边界2及6处的阈值可高于在边界4处的阈值。较低或较高阈值这里是指该阈值的违规较可能或较不可能。例如较高阈值意味着在两个相邻时间部分之间的频谱能量分布的偏差可比较低阈值情况下较可容忍，因此对于高阈值而言，需要该频谱能量分布中的较严重的偏差以要求进一步的包络。

已选择的阈值还可能视该信号(关于该信号是否被分类为语音信号或一般音频信号)而定。然而，如果该信号被分类为语音，则并不是一直减少(或增加)该决策阈值。然而，视应用而定，如果对于一般音频信号该阈值高，则这可能是有利的，以使在此情况下包络的数目一般小于针对语音信号的包络的数目。

图5示出进一步的实施例，其中包络的长度在SBR帧内变化。在图5a中，显示了具有三个包络104的例子，第一包络104a、第二包络104b及第三包络104c。该第一包络104a自该初始时间t0延伸到时间t2处的边界2，该第二包络104b自时间t2处的该边界2延伸到时间t5处的边界5，以及该第三包络104c自时间t5处的边界5延伸到最后时间tn。如果所有的时间部分又是相同的长度及如果该SBR帧又是被划分成八个时间部分，则该第一包络104a涵盖该第一及第二时间部分111、112，该第二包络104b涵盖该第三时间部分113、第四时间部分114及第该第五时间部分115，及该第三包络104c涵盖该第六、第七及第八时间部分。因而，该第一包络104a小于该第二及该第三包络104b及104c。

图5b显示只具有两个包络的另一实施例，第一包络104a自该初始时间t0延伸到该第一时间t1及第二包络104b自该第一时间t1延伸到最后时间tn。因此，该第二包络104b延伸越过7个时间部分，而该第一包络104a只延伸越过单一时间部分(第一时间部分111)。

第5c图显示的又是具有三个包络104的实施例，其中该第一包络104a自该初始时间t0延伸到第二时间t2，该第二包络104b自该第二时间t2延伸到第四时间t4，以及该第三包络104c自该第四时间t4延伸到最后时间tn。

这些实施例例如可被用在这种情况下：包络104的边界只放在其间检测到阈值违规的相邻时间部分之间或放在该初始时间t0及最后时间tn。这就是说，在图5a中，在时间t2处检测到违规及在时间t5处检测到违规，而在剩余的时刻t1、t3、t4、t6及t7没有检测到违规。类似地，在图5b中，只在时间t1处检测到违规，导致针对该第一包络104a及针对该第二包络104b的边界，以及在图5c中，只在该第二时间t2及该第四时间t4处检测到违规。

为了解码器能够使用该包络数据及能够相应地复制该频谱较高频带，该解码器需要该包络104及该相对应的包络边界的位置。在先前所示的依赖该标准的实施例中，其中所有的包络104包含相同的长度，并且传输包络的数目以使该解码器可决定包络边界需要在哪里是足够的。然而，在图5所示的这些实施例中，该解码器需要包络边界位于哪个时间的信息，因此可将额外的旁侧信息(side information)放入该数据流中以便于使用该旁侧信息，该解码器可保留边界所处及包络开始及结束的时刻。此额外的信息包含该时间t2及t5(在图5a的情况中)、该时间t1(在图5b的情况中)及该时间t2与t4(在图5c的情况中)。

图6a及6b通过使用在该音频信号105中之频谱能量分布来显示针对该决策值计算器120的实施例。

图6a显示针对给定时间部分(例如，该第一时间部分111)中的音频信号的第一采样值集合610，并将此采样的音频信号与在第二时间部分112中的音频信号的第二采样集合620相比较。该音频信号被转换到频域以使采样值集合610、620或他们的等级P显示为频率f的函数。较低及较高频带由交越频率f0分开，意味着对于比f0高的频率将不传输采样值。该解码器应藉由使用该SBR数据来复制这些采样值取而代之。另一方面，例如由AAC编码器来编码小于该交越频率f0的采样并传输到解码器。

该解码器可使用来自该低频带的这些采样值以复制高频成份。因此，为了找到针对在第一时间部分111中的第一采样集合610与在第二时间部分112中的第二采样集合620的偏差的测量，只考虑高频带(对于f＞f0)中的采样值可能是不够的，还要考虑在低频带中的频率成份。一般地，如果在高频带中的频率成份与在低频带中的频率成份间存在相关性，则将期望良好质量的复制。在第一步中，只考虑在该高频带(大于交越频率f0)中的采样值并计算在该第一采样值集合610与该第二采样值集合620间的相关性可能是足够的。

该相关性可藉由使用标准的统计方法来计算且可包含例如用于两信号之相似性的所谓的互相关函数的计算或其它统计测量。还有可用来估计两信号之相关性的皮尔逊积矩相关系数(Pearson’s productmoment correlation coefficient)。该皮尔逊系数也被称为采样相关系数。一般地，相关性指示两个随机变量(本实例中为两个采样分布610与620)之间的线性关系的强度与方向。因此，相关性是指两个随机变量与无关性的偏离。在此广泛意义上，存在若干个测量相关度的系数适于数据本质，以便于针对不同的情况使用不同的系数。

图6b显示第三采样值集合630及第四采样值集合640，它们可例如与第三时间部分113和第四时间部分114中的采样值有关。再一次地，为了比较这两个采样(或信号)集合，考虑两个相邻时间部分。相比于在图6a中所显示的情况，在图6b中，引进阈值T以便只考虑等级P大于(或更一般的违规)该阈值T的采样值(P＞T成立的采样值)。

在此实施例中，可仅藉由计数违反此阈值T的采样值的数目来测量频谱能量分布的偏差，且该结果可确定决策值125。此简单的方法将产生两个信号之间的相关，而不执行各个时间部分110中的各个采样值集合的详细统计分析。备选地，例如如上所述的统计分析可仅应用于违反该阈值T的采样。

图7a至7c显示进一步的实施例，其中该编码器300包含切换决策单元370及立体声编码单元380。此外，该编码器300还包含带宽扩展工具，例如包络数据计算器210和SBR相关模块310。该切换决策单元370提供在音频编码器372与语音编码器373之间切换的切换决策信号371。这些编码中的每一编码可使用不同数目的采样值(例如对于较高分辨率使用1024个采样值或对于较低分辨率使用256个采样值)来编码核心频带中的音频信号。还可将该切换决策信号371供应给带宽扩展(BWE)工具210、310。接着，该BWE工具210、310将使用该切换决策信号371来例如调整用于决定频谱包络104的数目102的阈值，并开启/关闭可选的瞬变检测器。将该音频信号105输入到该切换决策单元370并输入到该立体声编码单元380以使该立体声编码单元380可产生输入到该频带扩展单元210、310中的采样值。视由切换决策单元370所产生的决策信号371而定，该带宽扩展工具210、310将产生频带复制数据，该频带复制数据接着被转送到音频编码器372或语音编码器373。

该切换决策信号371是信号相关的且可由该切换决策单元370藉由分析该音频信号(例如通过使用可包含或不包含可变阈值的瞬变检测器或其它检测器)来获得。备选地，还可手动地调整该切换决策信号371或从数据流(包括在该音频信号中)获得该切换决策信号371。

该音频编码器372及该语音编码器373的输出又可被输入到比特流格式化器350(见图3a)中。

图7b显示针对该切换决策信号371的例子，其在小于第一时间ta及大于第二时间tb的时间段期间检测到音频信号。在该第一时间ta与该第二时间tb之间，该切换决策单元370检测到语音信号，暗示针对该切换决策信号371的不同的离散值。

因此，如图7c所示，在该时间期间，检测到该音频信号，这就是说，在ta之前的时间，该编码的该时间分辨率是低的，而在检测到语音信号的该时段期间(在该第一时间ta与该第二时间tb之间)，该时间分辨率增加。该时间分辨率增加意味着时域内较短的分析窗。该增加的时间分辨率还意味着上述增加数目的频谱包络(见对图4的描述)。

对于需要高频率的精确时间表示的语音信号，由该切换决策单元370来控制用来传输较多数目的参数集的决策阈值(例如在图4中使用)。对于以切换核心编码器的语音或时域编码部分373编码的语音及类似语音的信号，要使用较多参数集的决策阈值例如可被减小，从而增加了该时间分辨率。然而，情况并不总是如上面提到的这样。类时(time-like)分辨率按信号的适配与该基本编码器结构(在图4中未使用)无关。这就是说，所描述的方法在SBR模块只包含单一核心编码器的系统中也是可用的。

尽管在以装置为上下文的情况下描述了一些方面，但是清楚的是这些方面也表示相对应方法的描述，其中模块或装置对应于方法的步骤或方法步骤的特征。类似地，在以方法步骤为上下文的情况下描述的方面也表示相对应的模块或相对应的装置的项目或特征的描述。

可将本发明的编码音频信号储存在数字储存介质上，或在诸如无线传输介质或有线传输介质(如因特网)的传输介质上传输。

视某些实施需求而定，本发明之实施例可在硬件或在软件中实施。该实施可通过使用具有电子可读取控制信号储存于其上的数字储存介质(例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来实现，这些数字储存介质与可编程计算机系统协作(或能够协作)以便于执行相应的方法。

依据本发明的一些实施例包含具有电子可读取控制信号的数据载体，该电子可读取控制信号能够与可编程计算机系统协作，以便于执行本文所描述的方法当中的一种方法。

大体上，本发明之实施例可作为具有程序代码的计算机程序产品来实施，当该计算机程序产品运行在计算机上时，该程序代码可操作以执行该方法当中的一种方法。该程序代码可例如储存在机器可读取载体上。

其它实施例包含储存在机器可读取载体上、用来执行本文所描述的该方法当中的一种方法的计算机程序。

换言之，本发明方法的实施例进而是一种具有程序代码的计算机程序，当该计算机程序运行在计算机上时，程序代码用来执行本文所描述的该方法当中的一种方法。

本发明方法的进一步的实施例是一种数据载体(或数字储存介质或计算机可读取介质)，该数据载体包含记录于其上的、用来执行本文所描述的方法当中的一种方法的计算机程序。

本发明方法的进一步的实施例是数据流或信号序列，表示用来执行本文所描述的方法中的一种方法的计算机程序。该数据流或信号序列例如可被配置为经由数据通信连接(例如经由因特网)而传输。

进一步的实施例包含被配置或适配用于执行本文所描述的方法中的一种方法的处理装置(例如计算机或可编程逻辑器件)。

进一步的实施例包含具有安装在其上的、用来执行本文所描述的方法中的一种方法的计算机程序的计算机。

在一些实施例中，可编程逻辑器件(例如现场可编程门阵列)可用来执行本文所描述的方法的一些或所有功能。在一些实施例中，现场可编程门阵列可与微处理器协作以执行本文所描述的方法中的一种方法。大体上，该方法优选地由任何硬件装置来执行。

上面所描述的实施例只是用来说明本发明的原理。要明白的是本文所描述的安排及细节的修改及变化对于本领域的技术人员而言将是显而易见的。因此，意图是只受后附的权利要求书的限制，并不受本文中以对实施例的描述及说明所表示的特定细节的限制。

Claims

1.一种用于计算要由频带复制(SBR)编码器导出的频谱包络(104)的数目(102)的装置(100)，其中，所述频带复制(SBR)编码器适于使用从初始时间(t0)延伸到最后时间(tn)的频带复制(SBR)帧内的预定数目的连续时间部分(110)中的多个采样值来编码音频信号(105)，所述预定数目的连续时间部分(110)按所述音频信号(105)给定的时间序列排列，所述装置(100)包括：

决策值计算器(120)，用于决定决策值(125)，所述决策值(125)测量一对相邻时间部分的频谱能量分布的偏差；

检测器(130)，用于藉由所述决策值(125)检测阈值的违规(135)；

第一边界决定处理器(140)，用于在检测到阈值的违规时决定该对相邻时间部分之间的第一包络边界(145)；

第二边界决定处理器(150)，基于针对不同对的相邻时间部分的阈值的违规(135)或者基于所述频带复制(SBR)帧中的该对或该不同对的时间位置，针对具有第一包络边界的包络决定位于该不同对的相邻时间部分之间或在所述初始时间(t0)处或在所述最后时间(tn)处的第二包络边界(155)；以及

数目处理器(160)，用于确立具有第一包络边界(145)及第二包络边界(155)的频谱包络(104)的数目(102)，

其中，连续时间部分(110)的预定数目等于n，在相邻时间部分(110)之间具有n-1个边界，这些边界关于时间而编号和排序，以使这些边界包含偶数和奇数边界，并且所述数目处理器(160)适于在所述检测器(130)在奇数边界处检测到违规(135)时确立n为频谱包络(104)的数目(102)，或者

其中，所述第二边界决定处理器(150)适于决定第二包络边界(155)，使得频谱包络(104)包括相同的时间长度且频谱包络(104)的数目(102)是二的幂次，或者

其中，所述装置(100)进一步包括被配置为提供切换决策信号(371)的切换决策单元(370)，所述切换决策信号(371)发信号通知类似语音的音频信号以及类似一般音频的音频信号，其中所述检测器(130)适于降低针对类似语音的音频信号的阈值。

2.如权利要求1所述的装置(100)，其中，所述预定数目的连续时间部分(110)中的时间部分的时间长度等于最小时间长度，针对所述最小时间长度决定单一包络，其中所述决策值计算器(120)适于计算针对具有所述最小时间长度的两个相邻时间部分的决策值(125)。

3.如权利要求1所述的装置(100)，其中，所述第一边界决定处理器(140)适于在首次检测到违规(135)时确定第一包络边界(145)，以及所述第二边界决定处理器(150)适于在将至少另一决策值(125)与所述阈值比较后确定第二包络边界(155)。

4.如权利要求3所述的装置(100)，进一步包括用于提供额外旁侧信息的信息处理器，所述额外旁侧信息包括音频信号(105)的时间序列中的第一包络边界(145)及第二包络边界(155)。

5.如权利要求1所述的装置(100)，其中，所述检测器(130)适于以时间顺序研究相邻时间部分(110)之间的边界中的每一个边界。

6.如权利要求1所述的装置(100)，其中，所述检测器(130)适于首先在奇数边界处检测违规(135)。

7.如权利要求1所述的装置(100)，其中，所述预定数目等于8，并且所述数目处理器(160)适于确立频谱包络(104)的数目(102)为1、2、4或8，使得频谱包络(104)中的每一个频谱包络包括相同的时间长度。

8.如权利要求1所述的装置(100)，其中，所述检测器(130)适于使用阈值，所述阈值视违规(135)的时间位置而定，使得在产生较大数目的频谱包络(104)的时间位置比产生较小数目的频谱包络(104)的时间位置使用较高的阈值。

9.如权利要求1所述的装置(100)，进一步包括具有瞬变阈值的瞬变检测器，所述瞬变阈值大于所述阈值，和/或进一步包括包络数据计算器(210)，所述包络数据计算器(210)适于计算针对从第一包络边界(145)延伸到第二包络边界(155)的频谱包络(104)的频谱包络数据。

10.一种用于编码音频信号(105)的编码器(300)，包括：

核心编码器(340)，用于编码核心频带内的音频信号(105)；

如权利要求1所述的用于计算频谱包络(104)的数目(102)的装置(100)；以及

包络数据计算器(210)，用于根据所述音频信号(105)和所述数目(102)计算包络数据。

11.一种用于计算要由频带复制(SBR)编码器导出的频谱包络(104)的数目的方法，其中，所述频带复制(SBR)编码器适于使用从初始时间(t0)延伸到最后时间(tn)的频带复制(SBR)帧内的预定数目的连续时间部分(110)中的多个采样值来编码音频信号(105)，所述预定数目的连续时间部分(110)按所述音频信号(105)给定的时间序列排列，所述方法包括：

决定决策值(125)，所述决策值(125)测量一对相邻时间部分的频谱能量分布的偏差；

藉由所述决策值(125)检测阈值的违规(135)；

在检测到阈值的违规(135)时决定该对相邻时间部分之间的第一包络边界(145)；

基于针对不同对的相邻时间部分的阈值的违规(135)或者基于所述频带复制(SBR)帧中的该对或该不同对的时间位置，针对具有第一包络边界的包络决定位于该不同对的相邻时间部分之间或在所述初始时间(t0)处或在所述最后时间(tn)处的第二包络边界(155)；以及

确立具有第一包络边界(145)及第二包络边界(155)的频谱包络(104)的数目(102)。

其中，连续时间部分(110)的预定数目等于n，在相邻时间部分(110)之间具有n-1个边界，这些边界关于时间而编号和排序，以使这些边界包含偶数和奇数边界，并且当在奇数边界处检测到违规(135)时，确立n为频谱包络(104)的数目(102)，或者

其中，检测第二包络边界(155)，使得频谱包络(104)包括相同的时间长度且频谱包络(104)的数目(102)是二的幂次，或者

其中，所述方法进一步包括提供切换决策信号(371)，所述切换决策信号(371)发信号通知类似语音的音频信号以及类似一般音频的音频信号，其中降低针对类似语音的音频信号的阈值。