CN103534754A

CN103534754A - 在不活动阶段期间利用噪声合成的音频编解码器

Info

Publication number: CN103534754A
Application number: CN201280015995.8A
Authority: CN
Inventors: 帕尼·塞蒂亚万; 康斯坦丁·施密特; 斯特凡·维尔登
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2011-02-14
Filing date: 2012-02-14
Publication date: 2014-01-22
Anticipated expiration: 2032-02-14
Also published as: EP2676264A1; AU2012217161A1; RU2586838C2; CN103534754B; JP2014505907A; CA2903681A1; MY160272A; AU2012217161B2; KR101613673B1; ZA201306873B; PL2676264T3; WO2012110481A1; RU2013141934A; EP2676264B1; SG192718A1; CA2827335C; TW201250671A; CA2903681C; HK1192641A1; AR085224A1

Abstract

在活动阶段或非无声阶段期间参数背景噪声估计被连续地更新，使得当在活动阶段后进入不活动阶段时即刻开始噪声生成。根据另一方面，非常有效地使用频谱域以参数化该背景噪声，由此获得更为真实的背景噪声合成，并且由此导致更加透明的活动阶段至不活动阶段切换。

Description

在不活动阶段期间利用噪声合成的音频编解码器

技术领域

本发明涉及在不活动阶段期间支持噪声合成的音频编解码器。

背景技术

利用语音或其它噪声源的不活动时段来缩小传输带宽的可能是本领域已知的。这种方案一般使用某个检测形式来区别不活动(或无声)阶段与活动(或非无声)阶段。在不活动阶段期间，通过中止精准地编码该记录信号的普通数据流的传输，而只发送无声插入描述(SID)更新，而达成较低比特率。SID更新可以常规间隔传输，或当检测到背景噪声特性改变时传输。然后SID帧可用在解码侧来产生背景噪声，该背景噪声的特性类似于活动阶段期间的背景噪声，使得中止编码该记录信号的普通数据流的传输在接收者侧不会导致从活动阶段至不活动阶段令人不愉悦的过渡。

但仍然需要进一步减低传输率。比特率耗用者数目的增加诸如移动电话数目的增加，及或多或少比特率密集应用数目的增加诸如无线传输广播，要求稳定地减少耗用的比特率。

另一方面，合成噪声须接近地模拟真实噪声，使得该合成对使用者而言是透明的。

发明内容

据此，本发明的一个目的是提出一种在不活动阶段期间支持噪声合成的音频编解码器方案，其使得能够减低传输比特率同时维持可达成的噪声产生质量。

此目的是通过独立权利要求的部分主题而达成的。

本发明的基本构想为若在活动阶段期间连续地更新参数背景噪声估计使得接在活动阶段后方的不活动阶段进入时立即开始噪声生成，则可节省有价值的比特率同时维持在不活动阶段内的噪声产生质量。举例言之，可在解码侧进行连续地更新，无需紧接在检测到不活动阶段后的预热阶段期间对该解码侧初步提供背景噪声的编码表示，该提供将耗用有价值的比特率，由于解码侧已经在活动阶段期间连续地更新该参数背景噪声估计，因此随时地准备以适当噪声生成而立即进入不活动阶段。同理，若参数背景噪声估计是在编码侧完成的，可避开此种预热阶段。当检测到进入不活动阶段时，替代在解码侧初步连续地提供常规编码的背景噪声表示以便学习背景噪声，及在学习阶段后据此而通知解码侧，在检测到进入不活动阶段时，编码器能够立即对解码器提供需要的参数背景噪声估计，采用的方式是降回到过去活动阶段期间连续更新的参数背景噪声估计，由此避免比特率耗用在初步进一步执行额外编码背景噪声。

依据本发明的具体实施例，例如就比特率及运算复杂度而言，达成在中等开销下的更为真实的噪声生成。具体地，依据这些实施例，频谱域被用来参数化背景噪声，由此获得背景噪声合成，该背景噪声合成更为真实，因此导致更加透明的活动阶段至不活动阶段切换。此外，发现在频谱域参数化背景噪声，允许从有用信号分离噪声，因此，在频谱域参数化背景噪声当组合前述在活动阶段期间参数背景噪声估计的连续地更新时具有优点，原因在于频谱域可达成噪声与有用信号间的更佳分离，使得组合本申请的两个有益方面时无需从一个域至另一域的额外过渡。

本发明的实施例的额外有益细节为权利要求中的附属项的主题。

附图说明

下面参考附图说明本申请的优选实施例，附图中：

图1示出依据实施例的音频编码器的框图；

图2示出编码引擎14的可能实现；

图3示出依据实施例音频解码器的框图；

图4示出依据实施例的图3的解码引擎的可能实现；

图5示出依据实施例的又一更详细描述的音频编码器的框图；

图6示出依据实施例可与图5的编码器一起使用的解码器的框图；

图7示出依据实施例的又一更详细描述的音频解码器的框图；

图8示出依据实施例的音频编码器的频谱带宽扩展部分的框图；

图9示出依据实施例的图8的CNG频谱带宽扩展编码器的实现；

图10示出依据实施例的使用频谱带宽扩展的音频解码器的框图；

图11示出使用频谱带宽复制的音频解码器的实施例的可能的更详细描述的框图；

图12示出依据又一实施例使用频谱带宽扩展的音频编码器的框图；以及

图13示出音频编码器的又一实施例的框图。

具体实施方式

图1示出依据本发明的实施例的音频编码器。图1的音频编码器包括背景噪声估计器12、编码引擎14、检测器16、音频信号输入端18及数据流输出端20。提供器12、编码引擎14及检测器16分别具有连接至音频信号输入端18的输入端。估计器12及编码引擎14的输出端分别经由开关22而连接至数据流输出端20。开关22、估计器12及编码引擎14的控制输入端分别连接至检测器16的输出端。

背景噪声估计器12被配置为在活动阶段24期间，基于在输入端18进入音频编码器10的输入音频信号而连续地更新参数背景噪声估计。虽然图1提示背景噪声估计器12可基于在输入端18输入的音频信号而得出参数背景噪声估计的连续更新，但不一定为此种情况。背景噪声估计器12可替换地或附加地从编码引擎14获得音频信号版本，如虚线26例示说明的。在这种情况下，背景噪声估计器12可替换地或附加地分别经由连接线26及编码引擎14而间接地连接至输入端18。具体地，针对背景噪声估计器12连续地更新背景噪声估计，存在不同的可能，后面将进一步描述若干这种可能。

编码引擎14被配置为在活动阶段24期间将到达输入端18的输入音频信号编码为数据流。活动阶段应涵盖该音频信号内包含有用信息的全部时间，诸如语音或噪声源的其它有用声音。另一方面，具有几乎不随时间变化的特性的声音诸如于扬声器背景中由雨声或交通声所引起的不随时间变化的频谱须归类为背景噪声，每当只存在此种背景噪声时，相应时段应归类为不活动阶段28。检测器16是负责基于在输入端18输入的音频信号而检测在活动阶段24后进入不活动阶段28。换言之，检测器16区分两个阶段，即活动阶段及不活动阶段，其中检测器16确定目前存在哪个阶段。检测器16将目前存在的阶段通知给编码引擎14，及如前文已述，编码引擎14在活动阶段24期间将该输入音频信号编码成为数据流。检测器16据此控制开关22，使得由编码引擎14输出的数据流在输出端20输出。在不活动阶段期间，编码引擎14可停止编码输入音频信号。至少在输出端20处输出的数据流不再由可能通过编码引擎14输出的任何数据流馈送。此外，编码引擎14可只执行最少处理来支持估计器12而只有若干状态变量更新。此种动作将大大降低运算功率。例如开关22被设置为使得估计器12的输出端连接至输出端20，而非连接至编码引擎的输出端。由此减少用以传输在输出端20输出的比特流的有用的传输比特率。

背景噪声估计器12被配置为在活动阶段24期间，基于如前文已述的输入音频信号18而连续地更新参数背景噪声估计，以及因此，在从活动阶段24过渡至不活动阶段28后，即在进入不活动阶段28时，估计器12能够立即将在活动阶段24期间连续地更新的该参数背景噪声估计插入在输出端20输出的数据流30。紧接在活动阶段24结束后，及紧接在检测器16检测到进入不活动阶段28的时间瞬间34后，背景噪声估计器12例如可将无声插入描述符(SID)帧32插入数据流30内。换言之，由于在活动阶段24期间背景噪声估计器对参数背景噪声估计的连续更新，在检测器16检测到进入不活动阶段28与SID32的插入间无需时间间隙。

如此，总结如上说明，图1的音频编码器10可如下操作。用于例示说明目的，假设目前存在活动阶段24。于此种情况下，编码引擎14当前将在输入端18的输入音频信号编码成数据流20。开关22将编码引擎14的输出端连接至输出端20。编码引擎14可使用参数编码及变换编码来将输入音频信号18编码成数据流。具体地，编码引擎14可以帧为单位编码该输入音频信号，每个帧编码该输入音频信号的接续且部分彼此重迭的时间区间之一。编码引擎14额外地可在数据流的接续帧间，在不同编码模式间切换。举例言之，某些帧可使用预测编码诸如CELP编码而编码，而若干其它帧可使用变换编码诸如TCX或AAC编码而编码。请参考例如USAC及其编码模式，例如ISO/IEC CD 23003-3，2010年9月24日。

在活动阶段24期间，背景噪声估计器12连续地更新参数背景噪声估计。据此，背景噪声估计器12可被配置为区别该输入音频信号内部的噪声成分与有用信号成分而只从该噪声成分确定参数背景噪声估计。依据容后详述的实施例，背景噪声估计器12可在频谱域执行此项更新，诸如频谱域也可用在编码引擎14内的变换编码。但其它替代方式也可用，诸如时域。若为频谱域，则可以是重迭变换域诸如MDCT域，或滤波器组域诸如复数值滤波器组域诸如QMF域。

此外，例如在预测编码及/或变换编码期间，背景噪声估计器12可基于在编码引擎14内作为中间结果获得的激励信号或残留信号而执行更新，而非作为进入输入18的音频信号或遗漏编码成数据流的音频信号。由此方式，该输入音频信号内的大量有用的信号成分将已经被去除，使得对背景噪声估计器12而言噪声成分的检测变得更容易。

在活动阶段24期间，检测器16也连续地运转来检测不活动阶段28的进入。检测器16可具体实施为语音/声音活动检测器(VAD/SAD)或若干其它构件，其确定有用的信号成分目前是否存在于该输入音频信号。假设一旦超过临界值则进入不活动阶段，检测器16确定是否继续活动阶段24的基本标准可以是：查核该输入音频信号的低通滤波功率是否保持低于某个临界值。

与检测器16执行检测在活动阶段24之后进入不活动阶段28的确切方式无关地，检测器16即刻地通知其它实体12、14及22进入不活动阶段28。由于在活动阶段24期间背景噪声估计器的连续更新参数背景噪声估计，可即刻地避免在输出端20输出的数据流30进一步从编码引擎14馈入。反而，当被通知进入不活动阶段28时，背景噪声估计器12将立即以SID帧32形式将该参数背景噪声估计的末次更新的信息插入数据流30内部。换言之，SID帧32紧接在编码引擎的最末帧之后，该最末帧是编码有关检测器16检测到不活动阶段进入的该时间区间的音频信号帧。

一般而言，背景噪声不常改变。在大部分情况下，背景噪声倾向于不随时间变化。据此，紧接在检测器16检测到不活动阶段28的起始后，在背景噪声估计器12插入SID帧32后，任何数据流的传输可被中断，使得于此中断阶段34中，数据流30并不耗用任何比特率，或只耗用若干传输目的所要求的最小比特率。为了维持最小比特率，背景噪声估计器12可间歇地重复SID32的输出。

但尽管背景噪声倾向于不随时间改变，仍可能出现背景噪声改变。举例言之，设想在讲电话中，移动电话使用者离开汽车，故背景噪声从马达噪声改变成车外的交通噪声。为了追踪此种背景噪声的改变，背景噪声估计器12可被配置为连续地测量背景噪声，即便于不活动阶段28期间也是如此。每当背景噪声估计器12判定参数背景噪声估计改变量超过某个临界值时，背景估计器12可经由另一个SID38而将参数背景噪声估计的更新版本插入数据流20，其中随后可接着另一个中断阶段40，直到例如检测器16检测到另一个活动阶段42开始为止等等。当然，展现目前已更新参数背景噪声估计的SID帧可替代地或附加地以中间方式散布在不活动阶段内部，而与参数背景噪声估计的改变无关。

显然，通过编码引擎14输出及图1中使用影线指出的数据流44比在不活动阶段28期间欲传输的数据流片段32及38耗用更多传输比特率，因而比特率的节省相当显著。此外，因背景噪声估计器12能够立即开始进行进一步馈送数据流30，超过不活动阶段检测时间点34即无需初步继续传输编码引擎14的数据流44，因而更进一步减低总耗用比特率。

如后文中将就更具体实施例进一步详细说明的，在输入音频信号的编码中，编码引擎14可被配置为将该输入音频信号预测地编码成线性预测系数，及以将激励信号变换编码成编码成激励信号，及将线性预测系数分别编码成数据流30及44。一个可能的实现被显示于图2。依据图2，编码引擎14包括变换器50、频域噪声整形器(FDNS)52、以及量化器54，其以所述顺序串联连接在编码引擎14的音频信号输入端56与数据流输出端58之间。此外，图2之编码引擎14包括线性预测分析模块60，被配置为通过分别分析音频信号各部分的开窗及施加自相关性(autocorrelation)至开窗部分，来根据音频信号56确定线性预测系数，或基于由变换器50输出的输入音频信号的变换域中的变换而确定自相关性，确定方式是使用其功率频谱，及对其施加反DFT，因而确定自相关性，随后基于该自相关性诸如使用(韦-)李-杜算法执行LPC估计。

基于由线性预测分析模块60确定的线性预测系数，于输出端58输出的数据流被馈送以关于LPC的相应信息，而频域噪声整形器是经控制以依据对应于通过模块60输出的线性预测系数而确定的线性预测分析滤波器的传递函数的传递函数而在频谱上整形该音频信号的频谱图。为了在数据流中传输而对LPC的量化可在LSP/LSF域、使用内插法进行，因而比较分析器60中的分析速率，减低了传输速率。此外，在FDNS中执行的LPC至频谱加权转换可涉及施加ODFT至LPC，及施加所得加权值至变换器的频谱作为除数。

然后，量化器54对频谱成形(平坦化)的频谱图的变换系数进行量化。举例言之，变换器50使用重迭变换诸如MDCT来将该音频信号从时域转成频谱域，由此获得对应于该输入音频信号的重迭开窗部分的接续变换，然后通过依据LP分析滤波器的传递函数，加权这种变换而通过频域噪声整形器52而频谱成形。

经整形的频谱图可解译为激励信号，如虚线箭头62例示说明的，背景噪声估计器12可被配置为使用此激励信号来更新该参数背景噪声估计。另外地，如通过虚线箭头64指示的，背景噪声估计器12可直接利用如由变换器50输出的重迭变换表示作为更新的基础，即无需通过噪声整形器52进行频域噪声整形。

有关图1至图2所示组件的可能实现的其他细节可从后文更详细的实施例得出，注意全部这种细节皆可单独地转移至图1及图2的组件。

但在描述这种进一步细节实施例前，参考图3，其替换地或附加地显示可在解码器侧执行参数背景噪声估计更新。

图3的音频解码器80被配置为解码进入解码器80的输入端82的数据流，因而根据该数据流重建要在解码器80的输出端84输出的音频信号。该数据流包括至少一个活动阶段86，其后是一个不活动阶段88。音频解码器80内部包括背景噪声估计器90、解码引擎92、参数随机生成器94、及背景噪声生成器96。解码引擎92连接在输入端82与输出端84之间，类似，背景噪声估计器90、背景噪声生成器96及参数随机生成器94连接在输入端82与输出端84之间。解码器92被配置为在活动阶段期间根据数据流重建音频信号，使得如在输出端84输出的音频信号98包括噪声及适当质量的有用声音。背景噪声估计器90被配置为在活动阶段期间根据数据流连续地更新参数背景噪声估计。为了达成该目的，背景噪声估计器90可能不直接连接至输入82，而是如虚线100之例示说明的经由解码引擎92而连接，因而从解码引擎92获得某种音频信号的重建版本。原则上，背景噪声估计器90可被配置为极为类似于背景噪声估计器12地操作，但下述事实除外：背景噪声估计器90只存取音频信号之重建版本，即包括在编码侧通过量化而造成的遗漏。

参数随机生成器94可包括一个或更多个真或假随机数生成器，通过该生成器输出的数值序列可符合统计分布，可经由背景噪声生成器96参数地设定该统计分布。

背景噪声生成器96被配置为通过在不活动阶段88期间取决于得自背景噪声估计器90的参数背景噪声估计来控制参数随机生成器94，以在不活动阶段88期间合成音频信号98。虽然两个实体96及94显示为串联连接，但串联连接不可解译为限制性。生成器96与94可以互连。实际上，生成器94可解译为生成器96的一部分。

如此，图3的音频解码器80的操作模式可以是如下。在活动阶段86期间，输入端82是被连续地提供以数据流部分102，该部分102在活动阶段86期间将由解码引擎92处理。然后，在某个时刻106，进入输入端82的数据流104中止专用于解码引擎92的数据流部分102的传输。换言之，在时刻106不再有额外数据流部分的帧可被引擎92用于解码。进入不活动阶段88的信号可以是数据流部分102传输的中断，或者可以通过紧接排列在不活动阶段88起点的若干信息108而被传递。

总而言之，不活动阶段88的进入极为突然地发生，但这不成问题，原因在于在活动阶段86期间，背景噪声估计器90已经基于数据流部分102而连续地更新参数背景噪声估计。因此，一旦不活动阶段88在106开始时，背景噪声估计器90能够对背景噪声生成器96提供以参数背景噪声估计的最新版本。因此，从时刻106开始，当解码引擎92不再被馈送以数据流部分102时，解码引擎92中止输出任何音频信号重建，而参数随机生成器94是由背景噪声生成器96依据参数背景噪声估计加以控制的，使得在时间瞬间106之后立即可在输出84输出背景噪声的仿真，因而无缝地遵循如解码引擎92在时刻106前所输出的重建音频信号。交叉衰减可用来从如由引擎92输出的活动阶段之最末重建帧转移至如通过近更新的参数背景噪声估计版本所确定的背景噪声。

背景噪声估计器90被配置为在活动阶段86期间，连续地更新来自数据流104的参数背景噪声估计，背景噪声估计器90可被配置为区分音频信号版本内在活动阶段86从数据流104所重建的噪声成分与有用信号成分，并且只从噪声成分而不从有用信号成分确定该参数背景噪声估计。背景噪声估计器90执行此项区分/分离的方式是对应于如前文就背景噪声估计器12所简要说明的方式。举例言之，可使用解码引擎92内从数据流104所内部重建的激励信号或残留信号。

类似图2，图4显示解码引擎92之可能实现。依据图4，解码引擎92包括用以接收数据流部分102的输入端110，及用以输出在活动阶段86内部的重建音频信号的输出端112。串联连接在其间的解码引擎92包括解量化器114、频域噪声整形器(FDNS)116及反变换器118，这些构件以其所述顺序连接在输出端110与输出端112间。到达输出端110的数据流部分102包括激励信号之变换编码版本，即表示该激励信号的变换系数水平，该版本被馈送至解量化器的输入端；以及关于线性预测系数的信息，该信息被馈送至频域噪声整形器116。解量化器114解量化激励信号的频谱表示型态并将其转发至频域噪声整形器116，频域噪声整形器116转而依据对应于线性预测合成滤波器的传递函数而频谱成形激励信号(连同平坦量化噪声)的频谱图，由此形成量化噪声。原则上，图4的FDNS116的作用类似于图2的FDNS：LPC是提取自数据流，然后LPC接受频谱加权转换，转换方式例如通过施加ODFT至所提取的LPC，然后施加所得频谱加权至得自解量化器114的解量化频谱以作为乘数。然后重新变换器118将如此得到的音频信号重建从频域转换至时域，并在输出端112输出如此得到的重建音频信号。重迭变换可由反变换器118诸如IMDCT使用。如虚线箭头120例示说明的，激励信号的频谱图可由背景噪声估计器90用于参数背景噪声更新。或者，音频信号的频谱图本身可如虚线箭头122所指示地使用。

关于图2及图4，应注意用以实现编码/解码引擎的这些实施例并非解译为限制性。其它实施例也是可行的。此外，编码/解码引擎可以使多模式编解码器类型，其中图2及图4的部件只负责编码/解码具有与其相关联的特定帧编码模式的帧，而其它帧是由未显示于图2及图4的编码引擎/解码引擎部件负责。此种另一帧编码模式也可以是例如使用线性预测编码之预测编码模式，但编码是在时域而非使用变换编码。

图5显示图1的编码器的更详细实施例。具体地，依据特定实施例背景噪声估计器12更详细地显示于图5。

依据图5，背景噪声估计器12包括变换器140、FDNS142、LP分析模块144、噪声估计器146、参数估计器148、平稳性测量器150、及量化器152。刚才述及的若干组件部分地或全部地可由编码引擎14所共同拥有。举例言之，变换器140与图2的变换器50可以相同，LP分析模块60与LP分析模块144可以相同，FDNS52与FDNS142可以相同，及/或量化器54及量化器152可在一个模块内实现。

图5也显示比特流封装器154，其被动负责图1中开关22的操作。更明确言之，例如VAD作为图5编码器的检测器16，只是确定须采用哪一路径，音频编码14路径或背景噪声估计器12路径。更精确言之，编码引擎14及背景噪声估计器12皆是并联连接在输入端18与封装器154之间，其中在背景噪声估计器12内，变换器140、FDNS142、LP分析模块144、噪声估计器146、参数估计器148、及量化器152并联连接在输入端18与封装器154之间(以所述顺序)，而LP分析模块144是单独地连接在输入端18与FDNS模块142的LPC输入与量化器152的又一输入端之间，而平稳性测量器150额外地连接在LP分析模块144与量化器152的控制输入端之间。比特流封装器154若接收到来自连接至其输入端的任一个实体的输入时单纯执行封装。

在传输零帧的情况下，即在不活动阶段的中断阶段期间，检测器16通知背景噪声估计器12，尤其是量化器152，来中止处理及不发送任何输入给比特流封装器154。

依据图5，检测器16可在时域及/或变换域/频谱域中操作来检测活动阶段/不活动阶段。

图5的编码器的操作模式如下。如将更明了的，图5的编码器能够改良舒适噪声的质量，诸如通常为静态噪声，诸如汽车噪声、许多人讲话的喃喃噪声、某些乐器、及特别富含和谐的噪声诸如雨滴声。

更明确言之，图5的编码器是要控制解码侧的随机生成器，因而激励变换系数使得仿真在编码侧检测到的噪声。据此，在讨论图5的编码器的功能前，进一步简短地参考图6，其显示解码器的一个可能实施例，能够如通过图5的编码器指示而在解码侧仿真该舒适噪声。更概略言之，图6显示匹配图1的编码器的解码器的可能实现。

更明确言之，图6的解码器包括解码引擎160，因而在活动阶段期间解码数据流部分44，以及舒适噪声产生部分162用以基于在关于不活动阶段28的数据流中提供的信息32及38产生舒适噪声。舒适噪声产生部分162包括参数随机生成器164、FDNS166及反量化器(或合成器)168。模块164至168彼此串联连接，因而在合成器168的输出端导致舒适噪声，该舒适噪声填补如关于图1讨论的，在不活动阶段28期间通过解码引擎160输出的重建音频信号间的间隙。处理器FDNS166及反量化器168可以是解码引擎160的一部分。更明确言之，例如可与图4的FDNS116及118相同。

图5及图6的个别模块的操作模式及功能根据后文讨论将更为明了。

更明确言之，诸如通过使用重迭变换，变换器140将输入信号频谱分解频谱图。噪声估计器146被配置为从频谱图中确定噪声参数。同时，语音或声音活动检测器16评估从输入信号得出的特征，因而检测是否发生从活动阶段过渡至不活动阶段，或从不活动阶段过渡至活动阶段。由检测器16利用的特征可以呈瞬时/起始检测器、调性度量、及LPC残留度量的形式。瞬时/起始检测器可用来检测干净环境或去噪声化信号中活动语音的攻击(能量的突增)或起始；调性测量可用来区别有用的背景噪声，诸如警笛声、电话铃声及音乐声；LPC残留可用来获得该信号中存在有语音的指示。基于这种特征，检测器16能粗略地给予当前帧是否可归类为例如语音、无声、音乐、或噪音的信息。

虽然噪声估计器146可负责区别频谱图内的噪声与其中的有用信号成分，诸如[R.Martin，Noise Power Spectral Density Estimation Based onOptimal Smoothing and Minimum Statistics，2001]中提出的，参数估计器148可负责统计上分析噪声成分，及例如基于噪声成分而确定各个频谱成分的参数。

噪声估计器146例如可被配置为搜寻频谱图中之局部最小值，而参数估计器148可被配置为确定在这种部分的噪声统计数据，假设频谱图中的最小值主要是由于背景噪声而非前景声音所促成。

作为中间注释，强调的是也可通过没有FDNS142的噪声估计器进行估计，原因在于最小值确实也出现在未经整形的频谱中。图5的大部分描述维持不变。

参数量化器152转而可被配置为参数化由参数估计器148估计的参数。举例言之，只要考虑噪声成分，参数可描述频谱值在输入信号的频谱图内的分布的平均幅值及第一次幂或更高次幂动量。为了节省比特率，参数可转发至数据流用来以比变换器140所提供的频谱分辨率更低的频谱分辨率而插入SID帧内部。

平稳性测量器150可被配置为针对噪声信号得出平稳性度量。参数估计器148转而可使用该平稳性度量，因而确定是否应通过发送另一个SID帧诸如图1的帧38来起始参数更新，或影响参数的估计方式。

模块152量化由参数估计器148及LP分析模块144计算的参数，及将此参数通过信号传递给解码侧。更明确言之，在量化前，频谱成分可分成多组。这种分组可依据心理声学方面选择，诸如依照吠声标度等。检测器16通知量化器152是否需执行量化。在无需量化的情况下，接着为零帧。

当将描述转移至从活动阶段切换至不活动阶段的具体情况时，图5的模块如下述动作。

在活动阶段期间，编码引擎14经由封装器继续将音频信号编码成数据流。编码可以逐帧进行。数据流之各个帧可表示该音频信号的一个时间部分/时间区间。音频编码器14可被配置为使用LPC编码来编码全部帧。音频编码器14可被配置为如就图2所述编码若干帧，例如称作TCX帧编码模式。剩余者可使用代码激励线性预测(CELP)编码诸如ACELP编码模式编码。换言之，数据流的部分44可包括运用可等于或大于帧速率的某个LPC传输率来连续地更新LPC系数。

并行地，噪声估计器146检查LPC平坦化(LPC分析滤波)频谱，因而识别TCX频谱图内部由这些频谱序列所表示的最小值k_min。当然，这种最小值可随时间t而改变，即k_min(t)。虽然如此，最小值可在由FDNS142输出的频谱图中形成踪迹，如此针对在时间ti的各个接续频谱i，最小值可分别与在先行频谱及后续频谱的最小值相关联。

然后参数估计器从其中得出背景噪声估计参数，诸如针对不同频谱成分或频带的居中趋势(平均值、中数等)m及/或分散性(标准差、方差等)d。得出可涉及频谱图在该最小值频谱的连续频谱系数的统计分析，由此针对各个在k_min的最小值获得m及d。可执行沿频谱维度在前述频谱最小值间的内插，因而获得其它预定频谱成分或频带的m及d。用于居中趋势(平均值)的得出及/或内插及分散性(标准差、方差等)的得出的频谱分辨率可能各异。

刚才所述参数例如是按照由FDNS142输出的频谱而连续地更新。

一旦检测器16检测到进入不活动阶段，检测器16可据此通知编码引擎14，使得不再有活动帧被转发至封装器154。取而代之，量化器152在不活动阶段内在第一SID帧中输出刚才所述的统计噪声参数。SID帧可以包括或可不包括LPC的更新。若存在LPC更新，则可以部分44（即在活动阶段期间）所使用的格式在SID帧32的数据流内传递，诸如使用在LSF/LSP域中的量化，或不同地，诸如使用对应于LPC分析滤波器或LPC合成滤波器的传递函数的频谱权值，诸如在进行活动阶段中已经由FDNS142施加在编码引擎14的框架内部的频谱权值。

在不活动阶段期间，噪声估计器146、参数估计器148及平稳性测量器150继续共同协作以维持解码侧的更新跟得上背景噪声的变化。更明确言之，测量器150检查由LPC定义的频谱权值，因而识别改变及通知估计器148何时SID帧须被发送给解码器。举例言之，每当前述平稳性度量指示LPC的波动度超过某个量时，测量器150可据此而启动估计器。附加地或替换地，估计器可经触发来以定期发送已更新的参数。在这种SID更新帧40之间，数据流中不发送任何信息，即“零帧”。

在解码器侧，在活动阶段期间，解码引擎160负责执行重建音频信号。一旦不活动阶段开始，自适应参数随机生成器164使用在不活动阶段期间在数据流内部由参数量化器150发送的已解量化的随机生成器参数来产生随机频谱成分，由此形成随机频谱图，其是使用合成器168在频谱能处理器166内部频谱成形的，然后执行从频谱域再度变换成时域。为了FDNS166内的频谱成形，可使用得自最近活动帧的最近LPC系数，或可通过外推法而从其中得出欲通过FDNS166施加的频谱加权，或SID帧32本身可传递信息。由此方式，在不活动阶段的开始，FDNS166继续依据LPC合成滤波器的传递函数而频谱加权输入频谱，定义LPC合成滤波器的LPS是从活动数据部分44或SID帧32得出的。然而，随着不活动阶段的开始，欲通过FDNS166整形的频谱为随机产生的频谱而非如同TCX帧编码模式的变换编码。此外，在166施加的频谱整形只通过使用SID帧38非连续地更新的。在中断阶段36期间，可执行内插或衰减来从一个频谱整形定义逐渐切换至下一个。

如图6所示，自适应参数随机生成器164可额外地选择性地使用如包含在数据流中的最末活动阶段的最近部分内，即包含在紧接在进入不活动阶段前的数据流部分44内的解量化变换系数。举例言之，该使用可以是：从活动阶段内的频谱图平滑地变迁成不活动阶段内的随机频谱图。

简短地返回参考图1及图3，遵照图5及图6(及后文解释的图7)的实施例，在编码器及/或解码器内产生的参数背景噪声估计可包括针对不同的频谱部分诸如吠声带或不同频谱成分的时间上接续频谱值的分散性的统计信息。针对各个此种频谱部分，例如统计信息可含有分散性度量。据此，分散性度量可以频谱解析方式在频谱信息中定义，即在/对于频谱部分取样。频谱分辨率，即沿频谱轴展开的分散性及居中趋势的度量数目可在例如分散性度量与选择性地存在的平均值或居中趋势度量间相异。统计信息被包含在SID帧内。可以涉及整形频谱诸如LPC分析滤波(即LPC平坦化)频谱，诸如整形MDCT频谱，其允许依据统计频谱合成随机频谱，及依据LPC合成滤波器的传递函数而解除其整形来合成之。在该种情况下，频谱整形信息可存在于SID帧内，然而例如可不在第一SID帧32中。但如后面所示，这种统计信息另可涉及非整形频谱。此外，替代使用实数值频谱表示型态诸如MDCT，可使用复数值滤波器组频谱诸如音频信号之QMF频谱。举例言之，可使用非整形形式及通过统计信息统计地描述的音频信号的QMF频谱，在该种情况下，除非包含在统计信息本身中，否则无频谱整形。

类似于图3的实施例相对于图1的实施例间之关系，图7显示图3的解码器的可能实现。如使用图5的相同附图标记显示，图7的解码器可包括噪声估计器146、参数估计器148及平稳性测量器150，其操作类似图5的相同组件，但图7的噪声估计器146是对诸如图4的120或122经传输的且经解量化的频谱图操作。然后噪声估计器146的操作类似图5中所讨论的。同理适用于参数估计器148，其对能量值及频谱值或LPC数据进行操作，该能量值及频谱值或LPC数据揭示活动阶段期间如经由/从数据流经传输的且经解量化的LPC分析滤波器的(或LPC合成滤波器的)频谱的时间展频。

虽然组件146、148及150是作为图3的背景噪声估计器90，但图7的解码器也包括自适应参数随机生成器164及FDNS166及逆转换器168，并且它们类似于图6中彼此串联连接，因而在合成器168的输出端输出舒适噪声。模块164、166及168作为图3的背景噪声生成器96，模块164负责参数随机生成器94的功能。自适应参数随机生成器94或164依据由参数估计器148确定的参数而随机地产生频谱图的频谱成分，该频谱成分又转而使用由平稳性测量器150输出的平稳性度量而被触发。然后处理器166频谱整形如此产生的频谱图，逆转换器168然后执行从频谱域至时域的转换。注意，在不活动阶段88期间，解码器接收信息108，背景噪声估计器90执行噪声估计的更新，接着是某种内插手段。否则，若接收到零帧，则将单纯只进行处理，诸如内插及/或衰减。

总结图5至图7，这些实施例显示技术上可施加经控制的随机生成器164来激励TCX系数，其可以是实数诸如在MDCT中、或复数诸如在FFT中。也可有利地将随机生成器164施加至通常经由滤波器组而达成的多组系数。

随机生成器164优选地经控制使得尽可能接近噪声类型地模型化。若目标噪声事前已知，则这可以达成。有些应用许可此点。在许多实际应用中，主体可能遭遇不同型噪音，要求自适应方法，如第5至7图所示。据此使用自适应参数随机生成器164，其可简要定义为g=f(x)，其中x=(x1,x2,…)为分别由参数估计器146及150提供的随机生成器参数集合。

为了让参数随机生成器变成自适应，随机生成器参数估计器146适当控制随机生成器。可包括偏移补偿来补偿数据被视为统计上不足的情况。做到这一点以基于过去帧产生统计上匹配的噪声模型，将经常性地更新估计参数。给出一个示例，其中随机生成器164被提出以产生高斯噪声。在此种情况下，例如，只需平均及方差参数，并且可计算偏移值并施加至这些参数。更高级的方法可处理任意类型的噪声或分布，且参数并非一定为分布力矩。

针对非稳态噪声，需要平稳性测量，而可使用较非自适应参数随机生成器。通过测量器148确定的平稳性度量可使用多种方法从输入信号的频谱形状得出，例如板仓(Itakura)距离测量、库李(Kullback-Leibler)距离测量等。

为了处理通过SID帧发送的、诸如图1中以38例示说明的噪声更新的非连续本质，通常发送额外信息，诸如噪声的能量及频谱形状。此信息可用来在解码器产生具有平滑转变的噪声，即便在不活动阶段内的不连续期间亦如此。最后，各项平滑或滤波技术可被应用来协助改善舒适噪声仿真器的质量。

如前文已述，一方面图5及图6另一方面图7属不同情况。在对应于图5及图6的情况中，参数背景噪声估计是在编码器中基于已处理输入信号进行的，而后来参数被传输给编码器。图7对应于另一种情况，其中解码器可基于活动阶段内的过去接收帧而处理参数背景噪声估计。使用语音/信号活动检测器或噪声估计器事有利于提取噪声成分，即便在例如活动语音期间亦如此。

在图5至图7所示的情况中，以图7的情况为佳，原因在于此种情况导致传输较低比特率。但第5及6图的情况具有更准确的可用噪声估计的优点。

以上全部实施例可与带宽扩展技术结合，诸如频带复制(SBR)，但一般可用带宽扩展。

为了例示说明此点，参考图8。通过图8示出的模块，图1及图5的编码器可被扩展以关于输入信号的较高频部分执行参数编码。更明确言之，依据图8，时域输入音频信号通过分析滤波器组200诸如图8所示的QMF分析滤波器组进行频谱分解。然后前述图1及图5的实施例只施加至通过滤波器组200产生的频谱分解的较低频部分。为了传递较高频部分的信息给解码器端，也使用参数编码。为了达成此目的，常规频带复制编码器202被配置为在活动阶段期间参数化较高频部分，及在数据流内部以频带复制信息形式馈送关于较高频部分的信息给解码端。开关204可设在QMF滤波器组200的输出端与频带复制编码器202的输入端之间来连接滤波器组200之输出端与并联连接至编码器202的频带复制编码器206的输入端，因而负责在不活动阶段期间的带宽扩展。换言之，开关204可类似图1的开关22地被控制。如后面详述的，频带复制编码器模块206可被配置为类似于频带复制编码器202地操作：二者可被配置为参数化较高频部分内的输入音频信号的频谱包络，即剩余较高频部分不接受例如编码引擎的核心编码。但频带复制编码器模块206可使用最低时间/频率分辨率，频谱包络在数据流内被参数化及传递，而频带复制编码器202可被配置为调整时间/频率分辨率以适应输入音频信号，诸如取决于音频信号内的变迁的发生。

图9显示频带复制编码器模块206的可能实现。时间/频率网格设定器208、能量计算器210、及能量编码器212在编码模块206的输入端与输出端之间串联连接。时间/频率网格设定器208可被配置为设定时间/频率分辨率，以该分辨率确定较高频部分的包络。举例言之，最小容许时间/频率分辨率被编码模块206连续使用。然后能量计算器210确定在对应于时间/频率分辨率的时间/频率平铺的较高频部分内通过滤波器组200输出的频谱图的较高频部分的能量，在不活动阶段期间，诸如SID帧内的诸如SID帧38，能量编码器212可使用例如熵编码来将计算器210所计算的能量插入数据流40(参考图1)。

应注意依据图8及图9的实施例所产生的带宽扩展信息也可用来根据前述任意实施例（诸如图3、图4及图7）结合解码器使用。

如此，图8及图9清楚显示关于图1至图7说明的舒适噪声产生也可结合频带复制使用。举例言之，前述音频编码器及音频解码器可以不同操作模式操作，其中有些操作模式包括频带复制，有些则不包括。超宽带操作模式例如可涉及频带复制。总而言之，以关于图8及图9描述的方式，前述图1至图7的实施例显示舒适噪声的产生示例可结合带宽扩展技术。负责在不活动阶段期间的带宽扩展的频带复制编码器模块206可被配置为基于极低时间及频率分辨率操作。与常规频带复制处理相比，编码器206可在不同频率分辨率下操作，其需要额外的频带表（该频带表具有极低频率分辨率）以及解码器内的针对每个舒适噪声产生标度因子(该标度因子内插不活动阶段期间施加于包络调整器的能量标度因子)的IIR平顺化滤波器。如刚才所述，时间/频率网格可被配置为对应于最低可能时间分辨率。

换言之，带宽扩展编码可取决于存在无声阶段或活动阶段而在QMF域或频谱域不同地执行。在活动阶段中即在活动帧期间，通过编码器202进行常规SBR编码，导致正常SBR数据流分别地伴随数据流44及102。在不活动阶段中或在归类为SID帧的帧期间，只有表示为能量标度因子的有关频谱包络信息可通过施加时间/频率网格提取，其具有极低频率分辨率，及例如最低可能时间分辨率。所得到的标度因子可通过编码器212有效编码及写入至数据流。在于零帧中或在中断阶段36期间，并无任何侧附属信息可通过频带复制编码器模块206写入至该数据流，因此并无能量计算可通过计算器210进行。

遵照图8，图10显示图3及图7的解码器实施例可能扩展至带宽扩展编码技术。更精确言之，图10显示依据本申请的音频解码器可能的实施例。核心解码器92并联连接至舒适噪声生成器，舒适噪声生成器以附图标记220表示，及包括例如舒适噪声产生模块162或图3的模块90、94及96。开关222是显示为取决于帧类型，即该帧有关于或属于活动阶段，或有关于或属于不活动阶段，诸如关于中断阶段的SID帧或零帧，分配数据流104及30内的帧至核心解码器92或舒适噪声生成器220。核心解码器92及舒适噪声生成器220的输出端连接至带宽扩展解码器224的输入端，其输出端提供重建的音频信号。

图11显示带宽扩展解码器224的可能实现的进一步细节实施例。

如图11所示，依据图11实施例的带宽扩展解码器224包括输入端226，输入端226用以接收欲重建的完整音频信号的较低频部分的时域重建。输入端226连接带宽扩展解码器224与核心解码器92及舒适噪声生成器220的输出端，使得输入端226处的时域输入可以是包括噪声及有用成分二者的音频信号的已重建较低频部分或用以桥接活动阶段间的时间的舒适噪声。

因依据图11的实施例，带宽扩展解码器224被构建为执行频谱带宽复制，解码器224在后文中称作SBR解码器。但关于图8至图10，强调这种实施例并非限于频谱带宽复制。而更为一般性的带宽扩展的替代方式也可关于这种实施例而被使用。

此外，图11的SBR解码器224包括时域输出端228，用以输出最终重建音频信号，即在活动阶段或不活动阶段中。在输入端226与输出端228之间，SBR解码器224包括以所述顺序串联连接的频谱分解器230（如图11所示可以是分析滤波器组诸如QMF分析滤波器组）、HF生成器232、包络调整器234及频谱至时域转换器236（如图11所示，可实现为合成滤波器组，诸如QMF合成滤波器组）。

模块230至236操作如下。频谱分解器230频谱分解时域输入信号，因而获得重建较低频部分。HF生成器232基于重建较低频部分而产生高频复制部，而包络调整器234利用经由SBR数据流部传递的、及通过前文尚未讨论但于图11显示在包络调整器234上方的模块提供的较高频部分的频谱包络表示型态，来频谱成形或整形高频复制部分。如此，包络调整器234依据所传输的高频包络的时间/频率网格表示型态调整高频复制部分的包络，及转发如此所得较高频部分给频谱至时域转换器236，用以将整个频谱即频谱成形较高频部分连同重建较低频部分变换成输出端228处的重建时域信号。

如前文就图8至图10已述，较高频部分频谱包络可以能量标度因子形式在数据流内部传递，SBR解码器224包括输入端238来接收较高频部分频谱包络上的此种信息。如图11所示，以活动阶段为例，即在活动阶段期间存在于数据流的活动帧，输入238可经由个别开关240直接连接至包络调整器234的频谱包络输入。但SBR解码器224额外地包括标度因子组合器242、标度因子数据储存模块244、内插滤波单元246诸如IIR滤波单元，及增益调整器248。模块242、244、246及248在输入端238与包络调整器234的频谱包络输入间彼此串联连接，开关240连接在增益调整器248与包络调整器234之间，而开关250连接在标度因子数据储存模块244与滤波单元246之间。开关250被配置为连接此标度因子数据储存模块244与滤波单元246的输入端，或连接标度因子数据恢复器252。在不活动阶段期间的SID帧的情况下，以及选择性地在活动帧之情况下，较高频部分频谱包络的极为粗糙表示型态为可接受的情况下，开关250及240将输入端238连接至包络调整器234间的模块序列242至248。标度因子组合器242将较高频部分频谱包络已经经由数据流传输的频率分辨率调整为包络调整器234预期接收的分辨率，而标度因子数据储存模块244储存所得频谱包络直到下次更新。滤波单元246在时间及/或频谱维度滤波该频谱包络，而增益调整器248适配较高频部分的频谱包络之增益。为了达成该目的，增益调整器可组合通过单元246获得的包络数据与从QMF滤波器组输出导出的实际包络。标度因子数据恢复器252再现通过标度因子数据储存模块244储存的表示在中断阶段或零帧内的频谱包络的标度因子数据。

如此，在解码器端可进行下列处理。在活动帧内或在活动阶段期间，可施加常规频带复制处理。在这种活动时段期间，得自数据流的标度因子（其通常相比于舒适噪声产生处理可用在更高数目的标度因子频带）通过标度因子组合器242而变换成舒适噪声产生频率分辨率。标度因子组合器组合针对较高频率分辨率的标度因子来获得多个标度因子，通过检查不同频带表的共享频带边界而符合舒适噪声产生(CNG)。标度因子组合单元242的输出端处的所得标度因子值被储存以供零帧再度使用，及后来通过恢复器252再现，及随后用在更新用于CNG操作模式的滤波单元246。在SID帧中，施加已修改的SBR数据流读取器，其从数据流提取标度因子信息。SBR处理的其余配置以预定值初始化，时间/频率网格经初始化为编码器内使用的相同时间/频率分辨率。所提取的标度因子被馈送至滤波单元246，在该处，例如一个IIR平顺滤波器内插一个低分辨率标度因子带随时间的能量进展。在零帧的情况下，未从比特流读取有效负载，含时间/频率网格的SBR配置与SID帧使用者相同。在零帧中，滤波单元246中的平滑滤波器被馈送以从标度因子组合单元242输出的标度因子值，该标度因子值已经储存在含有效标度因子信息的最末帧。在当前帧被归类为不活动帧或SID帧的情况下，舒适噪声在TCX域产生，并变换回时域。随后，含舒适噪声的时域信号被馈送进SBR模块224的QMF分析滤波器组230。在QMF域中，舒适噪声的带宽扩展是利用HF生成器232内部的拷贝转位进行的，最后，人工产生的较高频部分的频谱包络通过将能量标度因子信息施加于包络调整器234而调整。这种能量标度因子通过滤波单元246的输出而获得，并在施用于包络调整器234前通过增益调整单元248定标。在此增益调整单元248中，用以定标标度因子的增益值被计算及施加来补偿该信号的较低频部分与较高频部分间边界的巨大能量差。

前述实施例常用在图12及图13的实施例。图12显示依据本案的实施例音频编码器的实施例，而图13显示音频解码器的实施例。有关这种图式揭示的细节应分别同等适用于前述组件。

图12的音频编码器包括用以频谱分解输入音频信号的QMF分析滤波器组200。检测器270及噪声估计器262连接至QMF分析滤波器组200的输出端。噪声估计器262负责背景噪声估计器12的功能。在活动阶段期间，得自QMF分析滤波器组的QMF频谱是通过频带复制参数估计器260的并联处理，接着一方面为某个SBR编码器264，另一方面为QMF合成滤波器组272接着核心编码器14的级联。二并联路径连接至比特流封装器266的相应输入。在输出SID帧的情况下，SID帧编码器274从噪声估计器262接收数据，并将SID帧输出给比特流封装器266。

由估计器260输出的频谱带宽扩展数据描述频谱图的较高频部分的频谱包络或由QMF分析滤波器组200输出的频谱，然后通过SBR编码器264编码，诸如通过熵编码而编码。数据流多路复用器266将活动阶段的频谱带宽扩展数据插入在多路复用器266的输出端268的数据流输出内。

检测器270检测目前是活动阶段还是不活动阶段。基于此检测，目前将输出活动帧、SID帧或零帧即不活动帧。换言之，模块270确定是活动阶段还是不活动阶段，及若是不活动阶段，则确定是否将输出SID帧。该确定指示于图12，I表示零帧，A表示活动帧，而S表示SID帧。对应于存在活动阶段的输入信号的时间区间的帧也转发给QMF合成滤波器组272与核心编码器14的级联。与QMF分析滤波器组200相比，QMF合成滤波器组272具有较低频率分辨率，或在较低数目QMF子带操作，从而在将输入信号的活动帧部分再度转移至时域时，通过子带数目比达成相应缩减取样率。更明确言之，QMF合成滤波器组272被施加至活动帧内的QMF分析滤波器组频谱图的较低频部分或低频子带。如此核心编码器14接收输入信号的缩减取样版本，如此只涵盖输入QMF分析滤波器组200的原始输入信号的较低频部分。其余较高频部分通过模块260及264参数编码。

SID帧(或更精确言之，欲通过SID帧传递的信息)被转发至SID编码器274，其例如负责图5的模块152的功能。唯一差异：模块262直接对输入信号频谱操作，未经LPC整形。此外，因使用QMF分析滤波，模块262的操作与通过核心编码器所选帧模式或频谱带宽扩展选项的施加与否无关。图5的模块148及150的功能可在模块274内实现。

多路复用器266在输出端268将相应编码信息复用为数据流。

图13的音频解码器能对如图12的编码器所输出的数据流进行操作。换言之，模块280被配置为接收数据流，及将数据流内的帧分类成例如活动帧、SID帧及零帧（即数据流不含任何帧）。活动帧被转发至核心解码器92、QMF分析滤波器组282及频谱带宽扩展模块284的级联。选择性地，噪声估计器286连接至QMF分析滤波器组的输出端。噪声估计器286的操作类似于例如图3的背景噪声估计器90且负责背景噪声估计器90的功能，但噪声估计器对未经整形的频谱而非激励频谱进行操作。模块92、282及284的级联连接至QMF合成滤波器组288的输入端。SID帧被转发至SID帧解码器290，其例如负责图3的背景噪声生成器96的功能。舒适噪声产生参数更新器292被馈送以来自解码器290及噪声估计器286的信息，更新器292控制随机生成器294，随机生成器294负责图3的参数随机生成器功能。因遗漏不活动帧或零帧，故无需转发至任何处所，但它们触发随机生成器294的另一随机产生循环。随机生成器294的输出端连接至QMF合成滤波器组288，其输出端提供无声的重建音频信号及时域的活动阶段。

如此，在活动阶段期间，核心解码器92重建音频信号的较低频部分，包括噪声成分及有用信号二者。QMF分析滤波器组282频谱分解重建信号，频谱带宽扩展模块284分别使用数据流及活动帧内的频谱带宽扩展信息来加上较高频部分。噪声估计器286若存在时基于如通过核心解码器重建的频谱部即较低频部分执行噪声估计。在不活动阶段中，SID帧传递信息，该信息描述在编码器侧由噪声估计器262得出的背景噪声估计。参数更新器292主要使用编码器信息来更新其参数背景噪声估计，在关于SID帧的传输损耗的情况下，使用由噪声估计器286所提供的信息主要是作为备选。QMF合成滤波器组288变换在活动阶段由频谱带宽扩展模块284输出的频谱分解信号及时域中的舒适噪声产生信号频谱。如此，图12及图13清楚显示QMF滤波器组框架可用作基于QMF的舒适噪声产生的基础。QMF框架提供方便方式来在编码器中将输入信号向下重新取样至核心编码器的取样率，或运用QMF合成滤波器组288在解码器端向上取样核心解码器92的核心解码器输出信号。同时，QMF框架也可组合带宽扩展来提取及处理由核心编码器14及核心解码器92二模块所留下的信号的频率成分。据此，QMF滤波器组可对各种信号处理工具提供共享框架。依据图12及图13的实施例，舒适噪声产生被成功地包括于此框架内。

具体地，依据图12及图13的实施例，可知在QMF分析后可能在解码器端产生舒适噪声，但在QMF分析前，通过施用随机生成器294来激励例如QMF合成滤波器组288的各个QMF系数的实数部分及虚数部分。随机序列的幅值例如在各个QMF带中被计算，使得产生舒适噪声的频谱类似实际输入背景噪声信号的频谱。此点可在编码端在QMF分析后使用噪声估计器而在各个QMF带达成。然后这些参数可经由SID帧传输，来在解码器侧更新在各个QMF带施加的随机序列的幅值。

理想地，注意，施加于编码器侧的噪声估计器262应可在不活动(即只有噪音)及活动时段(典型地含有嘈杂语音)二者期间操作，使得在各个活动时段结束后即刻更新舒适噪声参数。此外，噪声估计也可用在解码器侧。因在基于DTX的编码/解码系统中抛弃只有噪音的帧，在解码器侧的噪声估计有利地能够对嘈杂语音内容操作。除了编码器侧之外，在解码器侧执行噪声估计的优点是可更新舒适噪声的频谱形状，即便在一段活动时段后第一个SID帧从编码器至解码器的分组传输失败的情况下也是如此。

噪声估计须能准确且快速地遵循背景噪声的频谱内容变化，如前所述，理想地，应能够在活动帧及不活动帧二者期间执行。达成此项目的的一个方式是如[R. Martin，Noise Power Spectral Density Estimation Basedon Optimal Smoothing and Minimum Statistics，2001]所提出的，使用有限长度的滑动窗追踪功率频谱在各带取的最小值。其背后的构思是嘈杂语音频谱的功率经常衰减至背景噪声的功率，例如在各字间或在各音节间。追踪功率频谱的最小值因而提供各频带中固有噪声水平的估计，即便于语音活动期间亦如此。但通常这种固有噪声水平被低估。此外，其不允许捕捉频谱功率的快速起伏，尤其是能量突增。

尽管如此，在各频带中如前述计算的固有噪声水平提供极为有用的辅助信息来应用噪声估计的第二阶段。实际上，发明人可预期噪声频谱的功率接近在不活动期间估计的固有噪声水平，而频谱功率将远高于活动期间的固有噪声水平。因此在各频带单独计算的固有噪声水平可用作各频带的粗略活动检测器。基于此知识，容易如下地将背景噪声功率估计为功率频谱的递归平滑版本：

σ_N ²(m,k)=β(m,k)·σ_N ²(m-1,k)+(1-β(m,k)·σ_X ²(m,k),

其中，σ_X ²(m,k)表示在帧m及频带k的功率频谱密度，σ_N ²(m,k)表示噪声功率估计，而β(m,k)为忘记因子(需在0和1之间)单独控制各频带及各帧的平滑因子。使用固有噪声水平信息来反映活动状态，在不活动时段期间应取小值(即此时功率频谱接近固有噪声水平)，而在活动帧期间，应选择高值来施加更多平滑(理想地，保持σ_N ²(m,k)恒定)。为了达成此目的，通过如下计算忘记因子可做出软决策：

其中，σ_NF ²为固有噪声功率水平，而α为控制参数。α的较高值导致较大忘记因子，因而造成总体更平滑。

如此，已经描述了舒适噪声产生(CNG)构想，其中人工噪声在变换域中、在解码器侧产生。前述实施例可与将时域信号分解成多个频谱带的实质上任何类型的频-时分析工具(即变换或滤波器组)组合应用。

如此，前述实施例尤其描述了以基于TCX的CNG，其中基本舒适噪声生成器采用随机脉冲来模型化残留。

虽然已经以装置脉络描述若干方面，但显然这些方面也表示相应方法的描述，其中框或装置对应于方法步骤或方法步骤的特征。同理，以方法步骤的脉络描述的方面也表示相应装置的相应框或项或特征结构的描述。部分或全部方法步骤可通过(或使用)硬设备例如微处理器、可编程计算机或电路来执行。在若干实施例中，可通过此种设备执行最重要的方法步骤的一个或更多个。

取决于某些实现要求，本发明的实施例可以硬件或软件实现。实现可使用数字储存介质来执行，例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存，其上存储有可电子读取的控制信号，这些信号与(或可与)可编程计算机系统协作，因而执行相应方法。因而该数字储存介质可以是可由计算机读取的。

依据本发明的若干实施例包含具有可电子式读取的控制信号的数据载体，这些控制信号可与可编程计算机系统协作，因而执行此处所述方法之一。

大致言之，本发明的实施例可实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，该程序代码可执行这些方法之一。该程序代码例如可储存在机器可读取载体上。

其它实施例包括储存在机器可读取载体上的用以执行此处所述方法之一的计算机程序。

换言之，因此，本发明方法的实施例为一种具有程序代码的计算机程序，当该计算机程序在计算机上运行时该程序代码用以执行此处所述方法之一。

因此，本发明方法的又一实施例为数据载体(或数字储存介质或计算机可读介质)包括用以执行此处所述方法之一的计算机程序记录于其上。数据载体、数字储存介质或记录介质典型地为有形及/或非暂态。

因此，本发明方法的又一实施例为表示用以执行此处所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为经由数据通信连接（例如经由因特网）传递。

又一实施例包括处理装置，例如计算机或可程序规划逻辑装置，其被配置为或适用于执行此处所述方法之一。

又一实施例包括计算机，其上安装有用以执行此处所述方法之一的计算机程序。

依据本发明的又一实施例包括一种设备或系统，其被配置为向接收器传递(例如电子地或光学地)用以执行此处所述方法之一的计算机程序。接收器例如可以是计算机、移动装置、内存装置等。设备或系统例如可以包括用以向接收器传递计算机程序的文件服务器。

在若干实施例中，可编程逻辑装置(例如现场可编程门阵列)可用来执行此处描述的方法的部分或全部功能。在若干实施例中，现场可编程门阵列可与微处理器协作来执行此处所述方法之一。大致上，这些方法优选地通过任何硬件装置执行。

前述实施例仅举例说明本发明的原理。应理解此处所述配置及细节的修改及变化对于本领域技术人员是明显的。因此，意在仅由所附权利要求的范围所限，而非以这里的实施例的描述及说明而呈现的具体细节所限。

Claims

1.一种音频编码器，包括：

背景噪声估计器（12），被配置为在活动阶段（24）期间，基于输入音频信号来连续地更新参数背景噪声估计；

编码器（14），用于在该活动阶段期间将所述输入音频信号编码成数据流；以及

检测器（16），被配置为基于所述输入音频信号来检测在所述活动阶段（24）后进入不活动阶段（28），

其中所述音频编码器被配置为：当检测到进入所述不活动阶段时，将所检测到的不活动阶段跟随的所述活动阶段期间连续地更新的所述参数背景噪声估计编码到所述数据流。

2.如权利要求1所述的音频编码器，其中所述背景噪声估计器（12）被配置为：在连续地更新所述参数背景噪声估计的过程中，区分所述输入音频信号内的噪声成分及有用信号成分，并且只根据所述噪声成分来确定所述参数背景噪声估计。

3.如权利要求1或2所述的音频编码器，其中所述编码器（14）被配置为：在编码所述输入音频信号的过程中，将所述输入音频信号预测地编码成线性预测系数及激励信号，并且变换编码所述激励信号，并且将所述线性预测系数编码成所述数据流（30）。

4.如权利要求3所述的音频编码器，其中所述背景噪声估计器（12）被配置为：在所述活动阶段期间使用所述激励信号来更新所述参数背景噪声估计。

5.如权利要求3或4所述的音频编码器，其中所述背景噪声估计器被配置为：在更新所述参数背景噪声估计的过程中，识别所述激励信号中的局部最小值，并且执行所述局部最小值处的所述激励信号的统计分析，以得出所述参数背景噪声估计。

6.如前述权利要求中任一项所述的音频编码器，其中所述编码器被配置为：在编码所述输入信号的过程中，使用预测编码和/或变换编码来编码所述输入音频信号的较低频部分，以及使用参数编码来编码所述输入音频信号的较高频部分的频谱包络。

7.如前述权利要求中任一项所述的音频编码器，其中所述编码器被配置为：在编码所述输入信号的过程中，使用预测编码和/或变换编码来编码所述输入音频信号的较低频部分，以及在使用参数编码来编码所述输入音频信号的较高频部分的频谱包络和使所述输入音频信号的所述较高频部分不经编码之间做出选择。

8.如权利要求6或7所述的音频编码器，其中所述编码器被配置为：在不活动阶段中，中断所述预测编码和/或变换编码以及所述参数编码；或者在活动阶段中，中断所述预测编码和/或变换编码，并以与使用所述参数编码相比更低的时间/频率分辨率来对所述输入音频信号的所述较高频部分的所述频谱包络执行所述参数编码。

9.如权利要求6、7或8所述的音频编码器，其中所述编码器使用滤波器组来在频谱上将所述输入音频信号分解为形成所述较低频部分的子带集合，和形成所述较高频部分的子带集合。

10.如权利要求9所述的音频编码器，其中所述背景噪声估计器被配置为：在活动阶段中，基于所述输入音频信号的所述较低频部分和较高频部分来更新所述参数背景噪声估计。

11.如权利要求10所述的音频编码器，其中所述背景噪声估计器被配置为：在更新所述参数背景噪声估计的过程中，识别所述输入音频信号的所述较低频部分和较高频部分中的局部最小值，以及执行所述局部最小值处的所述输入音频信号的所述较低频部分和较高频部分的统计分析，以得出所述参数背景噪声估计。

12.如前述权利要求中任一项所述的音频编码器，其中所述噪声估计器被配置为即便在不活动阶段期间仍继续连续地更新所述背景噪声估计，其中所述音频编码器被配置为间歇地编码在不活动阶段期间连续地更新的所述参数背景噪声估计的更新。

13.如权利要求12所述的音频编码器，其中所述音频编码器被配置为：在固定的或可变的时间区间内，间歇地编码所述参数背景噪声估计的所述更新。

14.一种用于解码数据流以根据其重建音频信号的音频解码器，所述数据流至少包括活动阶段（86）和接在其后的不活动阶段（88），所述音频解码器包括：

背景噪声估计器（90），被配置为在所述活动阶段（86）期间连续地根据所述数据流（104）更新参数背景噪声估计；

解码器（92），被配置为在所述活动阶段期间根据所述数据流重建所述音频信号；

参数随机生成器（94）；以及

背景噪声生成器（96），被配置为：通过根据所述参数背景噪声估计在所述不活动阶段（88）期间控制所述参数随机生成器（94），在所述不活动阶段（88）期间合成所述音频信号。

15.如权利要求14所述的音频解码器，其中所述背景噪声估计器（90）被配置为：在连续地更新所述参数背景噪声估计的过程中，区分在所述活动阶段（86）中根据所述数据流（104）重建的所述音频信号的版本内的噪声成分和有用信号成分，以及只根据所述噪声成分确定所述参数背景噪声估计。

16.如权利要求14或15所述的音频解码器，其中所述解码器（92）被配置为：在根据所述数据流重建所述音频信号的过程中，根据也被编码到所述数据流的线性预测系数，来对被变换编码到所述数据流的激励信号进行整形。

17.如权利要求16所述的音频解码器，其中所述背景噪声估计器（90）被配置为：使用所述激励信号来更新所述参数背景噪声估计。

18.如权利要求16或17所述的音频解码器，其中所述背景噪声估计器被配置为：在更新所述参数背景噪声估计的过程中，识别所述激励信号中的局部最小值，以及执行所述局部最小值处的所述激励信号的统计分析，以得出所述参数背景噪声估计。

19.如前述权利要求中任一项所述的音频解码器，其中所述解码器被配置为：在重建所述音频信号的过程中，使用预测解码和/或变换解码来根据所述数据流重建所述音频信号的较低频部分，以及合成所述音频信号的较高频部分。

20.如权利要求19所述的音频解码器，其中所述解码器被配置为：根据参数地编码到所述数据流的所述输入音频信号的所述较高频部分的频谱包络，合成所述音频信号的所述较高频部分，或基于所述较低频部分，通过盲带宽扩展来合成所述音频信号的所述较高频部分。

21.如权利要求20所述的音频解码器，其中所述解码器被配置为：在不活动阶段内中断所述预测解码和/或变换解码，以及通过在所述活动阶段中根据所述频谱包络来在频谱上形成所述音频信号的所述较低频部分的拷贝来执行所述音频信号的所述较高频部分的合成，以及在所述不活动阶段中根据所述频谱包络来在频谱上形成该合成音频信号的拷贝。

22.如权利要求20或21所述的音频解码器，其中所述解码器包括逆滤波器组，以根据所述较低频部分的子带集合及所述较高频部分的子带集合在频谱上组成所述输入音频信号。

23.如权利要求14至22中任一项所述的音频解码器，其中所述音频解码器被配置为：每当所述数据流被中断时，和/或每当所述数据流给出所述数据流的进入的信号时，检测到进入所述不活动阶段。

24.如权利要求14至23中任一项所述的音频解码器，其中所述背景噪声生成器（96）被配置为：仅在紧接在从活动阶段至不活动阶段的转变之后所述数据流中不存在任何参数背景噪声估计信息的情况下，通过根据由所述背景噪声估计器连续地更新的所述参数背景噪声在所述不活动阶段（88）期间控制所述参数随机生成器（94），在所述不活动阶段（88）期间合成所述音频信号。

25.如权利要求14至24中任一项所述的音频解码器，其中所述背景噪声估计器被配置为：在连续地更新所述参数背景噪声估计的过程中，使用来自所述解码器（92）的所重建的所述音频信号的频谱分解。

26.如权利要求14至25中任一项所述的音频解码器，其中所述背景噪声估计器被配置为：在连续地更新所述参数背景噪声估计的过程中，使用来自所述解码器（92）的所重建的所述音频信号的QMF频谱。

27.一种音频编码方法，包括：

在活动阶段（24）期间，基于输入音频信号来连续地更新参数背景噪声估计；

在所述活动阶段期间将所述输入音频信号编码成数据流；

基于所述输入音频信号检测跟随所述活动阶段（24）的不活动阶段（28）的进入；以及

当检测到所述不活动阶段的进入时，将检测到的所述不活动阶段跟随的所述活动阶段期间所连续地更新的所述参数背景噪声估计编码到所述数据流。

28.一种用于解码数据流以根据其重建音频信号的音频解码方法，所述数据流至少包括活动阶段（86）和接在其后的不活动阶段（88），所述方法包括：

在所述活动阶段（86）期间连续地根据所述数据流更新参数背景噪声估计；

在所述活动阶段期间根据所述数据流重建所述音频信号；

通过根据所述参数背景噪声估计在所述不活动阶段（88）期间控制所述参数随机生成器（94），在所述不活动阶段期间（88）合成所述音频信号。

29.一种具有程序代码的计算机程序，当该计算机程序在计算机上运行时该程序代码用于执行如权利要求26至28中任一项所述的方法。