CN101405792A

CN101405792A - 用于在音频解码器中对信号进行后处理的方法

Info

Publication number: CN101405792A
Application number: CNA200780010053XA
Authority: CN
Inventors: 斯蒂芬·拉戈特; 西里尔·吉劳姆
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-03-20
Filing date: 2007-03-20
Publication date: 2009-04-08
Anticipated expiration: 2027-03-20
Also published as: JP5457171B2; JP2009530679A; WO2007107670A3; US20090299755A1; KR20080109038A; KR101373207B1; CN101405792B; EP2005424A2; WO2007107670A2

Abstract

本发明涉及一种用于在音频解码器中对通过激励信号的时间和频率整形(805，807)而重构的信号进行后处理的方法，该激励信号根据第一频带中的估计的参数获得，所述时间和频率整形至少基于第二频带中的时间包络以及所接收和解码的(801，802)频率包络来执行。所述方法如下：一旦已经执行了所述整形(805，807)，接下来进行将所述重构信号的幅度和所述所接收和解码的时间包络(σ)进行比较的步骤，以及，如果超出所述时间包络的至少一个门限，则向所述重构信号施加幅度压缩。本发明涉及一种用于实施本发明方法的后处理模块，并涉及音频解码器。它用于传送和存储诸如音频信号(语音、音乐等)的数字信号。

Description

用于在音频解码器中对信号进行后处理的方法

技术领域

本发明涉及一种用于在音频解码器中对信号进行后处理(post-processing)的方法。

本发明发现了对于传送和存储诸如音频信号(语音、音乐等)的数字信号特别有益的应用。

背景技术

存在用于数字化和压缩音频语音、音乐等信号的各种技术。最通常的方法是诸如PCM和ADPCM编码的“波形编码”方法、诸如码激励线性预测(CELP：code excited linear prediction)编码的“参数合成分析编码(parametricanalysis by synthesis coding)”方法、和“子带或变换感知编码(sub-band ortransform perceptual coding)”方法。

例如，在″Vector Quantization and Signal Compression″，A.Gersho and R.M.Gray，Kluwer Academic Publisher，1992、和″Speech Coding and Synthesis″，B.Kleijn and K.K.Paliwal，Editors，Elsevier，1995中描述了这些用于对音频信号进行编码的经典技术。

在传统的语音编码中，编码器以固定的比特率生成比特流。这个固定比特率约束简化了编码器和解码器(编解码器)的实现和使用。这样的系统的示例是：以64kbps进行编码的ITU-T G.711、以8kbps进行编码的ITU-T G.729、和位于12.2kbps的GSM-EFR系统。

在诸如移动电话和基于IP的话音传输(voice over IP)的某些应用中，优选地生成可变比特率的比特流，比特率的值取自于预定义的设置。

比固定比特率编码更为灵活的多比特率编码技术包括：

·通过源和/或信道控制的多型编码，例如用于AMR-NB、AMR-WB、SMV、和VMR-WB系统中；

·生成因为其包括核心比特率和一个或更多增强层而被称为分级(hierarchical)的比特流的分级(“可伸缩”)编码。48kbps、56kbps和64kbps的G.722系统是比特率可伸缩编码的简单示例。MPEG-4CELP编解码器是比特率和带宽可伸缩的，这样的编码器的其他示例可以在B.Kovesi、D.Massaloux、A.Sollaud的论文“A Scalable Speech and Audio Coding Scheme withContinuous Bit rate Flexibility”，ICASSP 2004、和H.Taddei等人的论文“AScalable Three Bit rate(8，14.2 and 24kbps)Audio Coder”，107th ConventionAES，1999中发现；

·多描述编码。

本发明更具体地涉及分级编码。

例如，在Y.Hiwasaki、T.Mori、H.Ohmuro、J.Ikedo、D.Tokumoto和A.Kataoka的论文“Scalable Speech Coding Technology for High-QualityUbiquitous Communications”，NTT Technical Review，March 2004中图示了分级音频编码的基本概念。比特流包括基本层和一个或更多增强层。在确保最小编码质量的情况下，通过已知为“核心编解码器”的编解码器以固定的低比特率来生成基本层；解码器必须接收这个层以维持可接受的质量级别。增强层用于增强质量；解码器可以不接收它们的全部。分级编码的主要好处在于它简单地通过截短比特流来使得比特率能够被适应。可能的层数(即，可能的比特流的截短数)定义了编码粒度：如果比特流包括很少的层(两个到四个层的量级)且具有4kbps到8kbps的量级的增量，则使用表达“强粒度”；表达“精细粒度编码”是指具有1kbps量级的增量的大量层。

本发明更具体地涉及使用电话波段中的CELP核心编码器和一个或更多宽带增强层的比特率和带宽可伸缩编码技术。在上述H.Taddei等人的论文中给出了具有位于8kbps、14.2和24kbps的强粒度的这样的系统的示例，并且在上述B.Kovesi等人的论文中给出了位于6.4kbps到32kbps的精细粒度的这样的系统的示例。

在2004年，ITU-T发起了用于核心分级编码器的草案标准。这个G.729EV标准(EV代表“嵌入式可变比特率”)是对于著名的G.729编码器标准的补充。G.729EV标准的目标是获得用于以从8kbps到32kbps的比特率在从窄带(300赫兹(Hz)-3400Hz)到宽带(50Hz-7000Hz)的波段中产生信号以用于对话服务的G.729核心分级编码器。这个编码器固有地能够与G.729设备交互工作，这确保了与现有的基于IP的话音传输设备的兼容性。

响应于这个草案，已经具体地提出了三层编码系统，其包括以8kbps-12kbps的级联CELP编码、接下来的以14kpbs的参数波段扩充(expansion)、和然后的以14到32kbps的变换编码。这个编码器已知为ITU-TSG16/WP3 D214编码器(ITU-T，COM 16，D214(WP 3/16)，“High leveldescription of the scalable 8kbps-32kbps algorithm submitted to the QualificationTest by Matsushita，Mindspeed and Siemens(由Matsushita、Mindspeed和Siemens向合格性测试提交的可伸缩8kbps到32kbps算法的高级描述)”，Q.10/16，Study Period 2005-2008，Geneva，26 July-5 August 2005)。

波段扩充概念涉及对信号的高波段进行编码。在本发明的上下文中，以在从50Hz到7000Hz的可用波段之上的16kHz对输入音频信号进行采样。对于上面所指的ITU-T SG16/WP3 D214编码器，高波段典型地与在3400Hz到7000Hz范围内的频率对应。在编码器中基于提取时间和频率包络使用波段扩充技术来对这个波段进行编码，所述包络然后在解码器中被施加到以8kHz进行采样的、根据在低波段(在50Hz到3400Hz范围内)中估计的参数而在高波段中重构的合成激励信号。低波段下面被称为“第一频带”，而高波段被称为“第二频带”。

图1是这个波段扩充技术的图。

在编码器中，通过带通滤波器100隔离位于3400Hz到7000Hz的原始信号的高波段分量。然后，通过模块101和102分别计算信号的时间和频率包络。在块103中以2kpbs对包络进行联合量化。

在解码器中，重构模块104根据级联CELP解码器的参数来重构合成激励。通过去量化器块105对时间和频率包络进行解码。然后通过伸缩模块106(时间包络)和滤波器模块107(频率包络)对来自重构模块104的合成激励信号进行整形。

因此，刚刚已经参考ITU-T SG16/WP3 D214编解码器描述的波段扩充机制依赖于通过时间和频率包络的方式形成合成激励信号。然而，若没有激励与整形之间的耦合，则很难应用这种模型，并且导致以由于严重超出上面幅度限制而非常容易听见的局部“卡嗒声”形式的典型后果(artifacts)。

发明内容

因此，本发明的主题要解决的技术问题在于提出一种用于在音频解码器中对通过激励信号的时间和频率整形而重构的信号进行后处理的方法，该激励信号根据第一频带中估计的参数获得，该方法应该防止通过对合成激励信号进行整形而引起的典型后果，基于第二频带中的时间包络以及所接收和解码的频率包络来进行所述时间和频率整形。

对于所陈述的技术问题，根据本发明的解决方案包括所述方法，该方法包括：将所述重构信号的幅度和所述所接收和解码的时间包络进行比较的步骤，以及，如果超出作为所述时间包络的函数的门限，则向所述重构信号施加幅度压缩。

因此，本发明的方法通过使用幅度压缩来后处理第二频带(高波段)中的由解码器供应的音频信号，而补偿了缺少在激励和整形之间的充分耦合。

在一个实施例中，如果所述幅度大于作为所述所接收和解码的时间包络的函数的触发门限，则所述幅度压缩包括向所述重构信号施加线性衰减。

要注意，除了限制了所述信号的幅度以及因此与高幅度相关联的典型后果之外，本发明的方法在触发门限可变的意义上具有自适应的优点，这是因为它跟踪所接收和解码的时间包络的值。

本发明还涉及一种包括程序代码指令的计算机程序，当在计算机中执行所述程序时，所述程序代码指令执行本发明的后处理方法。

本发明进一步涉及一种用于在音频解码器中对通过激励信号的整形而重构的信号进行后处理的模块，该激励信号根据第一频带中的估计的参数获得，所述时间和频率整形基于第二频带中的时间包络以及所接收和解码的频率包络实现，该模块值得注意的是其包括：比较器，用于将所述重构信号的幅度和所述所接收和解码的时间包络进行比较；以及幅度压缩装置，适用于如果比较结果为肯定的，则向所述重构信号施加幅度压缩。

本发明最后涉及一种音频解码器，包括：用于在第一频带中至少估计激励信号的参数的模块、用于根据所述参数重构激励信号的模块、用于对第二频带中的时间包络进行解码的模块、用于对第二频带中的频带包络进行解码的模块、用于至少通过所述所解码的时间包络对所述激励信号进行时间整形的模块、以及用于至少通过所述所解码的频率包络对所述激励信号进行频率整形的模块，值得注意的是，所述解码器包括根据本发明的后处理模块。

附图说明

通过非限制示例的方式提供的、参考附图的以下描述清楚地解释了本发明由什么组成以及如何可以使其变为实践。

图1是现有技术的高波段编码-解码级的图；

图2是8kbps、12kbps、13.65kbps的分级音频编码器的高级图；

图3是用于图2的编码器的13.65kbps模式的高波段编码器的图；

图4是示出了由图3的高波段编码器实现的到帧的划分的图；

图5是与图2的编码器相关联的8kbps、12kbps、13.65kbps的分级音频解码器的高级图；

图6是用于图5的解码器的13.65kbps模式的高波段解码器的图；

图7是幅度压缩函数的第一实施例的流程图；

图8是图7的幅度压缩函数的曲线图；

图9是幅度压缩函数的第二实施例的流程图；

图10是图9的幅度压缩函数的曲线图。

图11是幅度压缩函数的第三实施例的流程图；

图12是图11的幅度压缩函数的曲线图。

具体实施方式

应当记住的是，本发明的一般上下文是以三个比特率(8kbps、12kbps和13.65kbps)的子带分级音频编码和解码。实际上，编码器总是以13.65kbps的最大比特率进行操作，并且解码器可以接收8kbps的核心、和12kbps或13.65kbps的一个或全部两个的增强层。

图2是分级音频编码器的图。

首先，通过使用QMF(正交镜像滤波器组)技术对以16kHz采样的宽带输入信号进行滤波来将其划分为两个子带。通过低通(L)滤波400和抽取(decimation)401获得在0到4000Hz范围内的第一频带(低波段)，并通过高通(H)滤波402和抽取403获得在4000Hz到8000Hz范围内的第二频带(高波段)。在优选实施例中，L和H滤波器长度为64，并符合在J.Johnston的论文“A filter family designed for use in quadrature mirror filter banks”，ICASSP，vol.5，pp.291-294，1980.中描述的那些事项。

通过高通滤波器404对低波段进行预处理，以在8kbps和12kbps的窄带CELP编码405之前消除低于50Hz的分量。这个高通滤波考虑宽带被定义为覆盖了50Hz-7000Hz范围的事实。在一个实施例中，窄带CELP编码器是ITU-T SG16/WP3 D135编码器(ITU-T，COM 16，D135(WP 3/16)，″FranceTelecom G.729EV Candidate：High level description and complexity evaluation(法国电信G.729EV候选：高级描述和复杂性评估)″，Q.10/16，Study Period2005-2008，Geneva，26 July-5 August 2005)；这实现了包括不具有预处理滤波器的修改后的G.729的8kbps的第一级编码(ITU-T Recommendation G.729，Coding of Speech at 8kbps using Conjugate Structure Algebraic Code ExcitedLinear Prediction (CS-ACELP)，March 1996)、和使用附加的固定CELP词典的12kbps的第二级编码的级联CELP编码。CELP编码确定低波段中的激励信号的参数。

高波段首先经历抗混迭(anti-aliasing)处理406，以补偿由高通滤波402与抽取403共同导致的混迭。然后，通过低通滤波器407对高波段进行预处理，以消除在3000Hz到4000Hz范围内的高波段中的分量(即，在7000Hz到8000Hz范围内的原始信号的分量)。接下来进行以13.65kbps的波段扩充(高波段编码)408。

对编码模块405和408生成的比特流进行多路复用和构造，以作为在多路复用器409中的分级比特流。

在320个采样(20毫秒(ms)帧)的块上实现编码。分级编码比特率是8kbps、12kbps和13.65kbps。

图3更详细地示出了高波段编码器408。它的原理与ITU-T SG16/WP3D214编码器的参数波段扩充类似。

将高波段信号x_hi编码为N/2个采样的帧，其中N是原始宽带帧的采样数目并且除以2是用因子2对高波段进行抽取的结果。在优选实施例中，N/2＝160，其与以8kHz的采样频率的20ms帧对应。对于每个帧(即，每20ms)，如同在ITU-T SG16/WP3 D214编码器中一样，模块600和601提取时间和频率包络。然后，在块602中对这些包络进行联合量化。

以下是对模块600所实现的频率包络提取的简要描述。

因为谱分析使用中心位于与将来帧重叠的当前帧的时间窗，所以这个操作需要“将来的”采样，通常称为“前瞻(lookahead)”。在优选实施例中，将高波段前瞻设置在L＝16个采样(即，2ms)。可以通过以下方式来执行频率包络提取，例如：

·利用当前帧和前瞻的开窗(windowing)计算短期(short-term)谱以及进行离散傅立叶变换；

·将谱划分为子带；

·计算子带的短期能量以及转换为rms值。

因此，频率包络被定义为信号x_hi的每个子带的rms值。

接下来，参考更详细地示出了信号x_hi的时间划分的图4，来对模块601的时间包络提取进行说明。

每个20ms帧包括160个采样：

·x_hi＝[x₀ x₁...x₁₅₉]

x_hi的最后16个采样构成对于当前帧的前瞻。

以下方式对当前帧的时间包络进行计算：

·将x_hi划分为10个采样的16个子帧；

·计算每个子帧的能量并且转换到rms值。

因此，时间包络被定义为信号x_hi的16个子帧的每一个的rms值。

图5表示与刚刚参考图2和图3描述的编码器相关联的分级音频解码器。

解多路复用器500对定义了每个20ms帧的比特进行解多路复用。CELP解码模块501使用8kbps和12kbps层的比特流，以便在0到4000Hz范围内的低波段中生成激励信号的合成参数。块502然后对低波段合成语音信号进行后滤波。

波段扩充模块503对与13.65kbps层相关联的比特流的部分进行解码。

通过合成QMF滤波器组504、505、507、508和509以及抗混迭506来获得以16kHz采样的宽带输出信号。

参考图6对图5的高波段解码器503进行更详细地描述。

这个解码器使用为图1的编码器描述的高波段合成原理，但是具有两处修改：它包括频率包络内插模块806和后处理模块808。频率包络内插和后处理模块增强了高波段中的编码质量。模块806实现前一帧的频率包络和当前帧的频率包络之间的内插，从而这个包络每10ms而不是每20ms进行演变。

图6的解多路复用器800中的高波段解码器对在比特流中接收的参数进行解多路复用，并在解码模块801和802中对时间和频率包络信息进行解码。根据8kbps和12kbps层所接收的CELP激励参数在重构模块803中生成合成激励信号。在低通滤波器804中对这个激励进行滤波，以仅保留与原始信号的4000Hz到7000Hz频带对应的在0到3000Hz范围内的频率。如图1中的编码器一样，通过模块805和807对合成激励信号进行整形：

·时间整形模块805的输出理想地具有与解码后的时间包络对应的每个子帧的rms值；因此，模块805在时间上对应于自适应的增益应用。

·频率整形模块807的输出理想地具有与解码后的频率包络对应的每个子带的rms值；可以通过滤波器组或具有重叠的变换来实现模块807。

后处理模块808对通过整形激励信号而得到的信号x进行处理，以获得重构后的高波段y。

接下来，更详细地对后处理模块808进行描述。

模块808实现的后处理将幅度压缩施加到来自频率整形模块807的信号x上，以限制该信号的幅度，并因此预防否则由于缺少激励和整形之间的耦合而可能产生的典型后果。

通过以下形式写入后处理模块808的输出信号y，在该形式中σ指定解码后的时间包络：

·y＝C(x)＝σ.F(x/σ)

本发明提出的后处理的特性如下：

·它即时生效(即，逐采样地)，而不生成任何处理延迟；

·由通过时间包络解码模块801解码的时间包络给出用于幅度压缩的触发门限；通过定义，σ≥0；

·因为σ的值以每个10个采样的子帧(即，每1.25ms)改变，所以后处理是自适应的；

·当前帧的解码后的时间包络与如图4所示的2ms的位移(即，16个采样)对应。因此，自适应后处理存储与前瞻相关联的两个子帧的rms值：这两个子帧与位于当前帧的起始处的两个子帧对应。

图7的流程图示出了第一后处理压缩函数C₁(x)。通过块1000和1006标识了计算的开始和结束。首先将输出值y初始化为x(块1001)。然后，实现两个测试(块1002和1004)以验证y是否在范围[-σ，σ]内。三个可能的情况是：

·如果y在范围[-σ，σ]内，则y的计算完成：y＝x并且C₁(x)＝x；F₁(x/σ)＝x/σ；

·如果y＞σ，则如块1003中所定义地修改它的值；通过因子16对在y和+σ之间的差进行衰减；

·如果y＜-σ，则如块1005中所定义地修改它的值；通过因子16对在y和-σ之间的差进行衰减。

为了清楚地示出操作y＝C₁(x)如何起作用，图8示出了作为x/σ的函数的y/σ的曲线。用σ对数据进行归一化，以使得输入/输出特性与σ的值独立。这个归一化后的特性表示为F₁(x/σ)；因此：C₁(x)＝σF₁(x/σ)。

图8清楚地示出了函数C₁(x)利用设置在+/-σ处的触发门限来实现对称幅度压缩。为了更加确切，在[-1，+1]的范围内，F₁(x/σ)的斜率为1；在其他地方，F₁(x/σ)的斜率为1/16。以等同的方式，在[-σ，+σ]的范围内，C₁(x)的斜率为1；在其他地方，C₁(x)的斜率为1/16。

参考图9到图12对后处理的两种变体进行描述。对应的函数被分别表示为C₂(x)和C₃(x)。

图9和10所示的后处理C₂(x)与C₁(x)相同，但是具有从+/-σ改变到+/-2σ的触发门限值。因此，在[-2σ，+2σ]的范围内，C₂(x)的斜率为1；在其他地方，C₂(x)的斜率为1/16。

后处理C₃(x)是C₁(x)的更加改进的变体，其中在两个连续的步骤中实现幅度压缩。如图11所示，触发范围仍设置在[-σ，+σ](块1402和1406)，但是相反地，除非块1403和1407修改的y的值不在[-2.5σ，+2.5σ]的范围内，否则仅用¹/₂的因子对y的值进行衰减，在y的值不在[-2.5σ，+2.5σ]的范围内的情况下，块1405和1409再次对y的值进行修改。在图12中示出了C₃(x)的函数，其中可以看出C₃(x)的斜率：

·在[-∞，-4σ]和[4σ，+∞]的范围内，为1/16；

·在[-4σ，-σ]和[σ，+4σ]的范围内，为1/2；以及

·在[-σ，+σ]的范围内，为1。

Claims

1.一种用于在音频解码器中对通过激励信号的时间和频率整形(805，807)而重构的信号进行后处理的方法，该激励信号根据第一频带中的估计的参数获得，所述时间和频率整形至少基于第二频带中的时间包络以及所接收和解码(801，802)的频率包络来实现，其特征在于，所述方法包括：在所述整形(805，807)之后，将所述重构信号的幅度和所述所接收和解码的时间包络(σ)进行比较的步骤，以及，如果超出作为所述时间包络的函数的门限，则向所述重构信号施加幅度压缩。

2.根据权利要求1的方法，其特征在于，所述所接收和解码的时间包络(σ)被定义为第二频带中的信号(x_hi)的每个子帧的rms值。

3.根据权利要求1或权利要求2的方法，其特征在于，如果所述幅度大于作为所述所接收和解码的时间包络(σ)的函数的触发门限，则所述幅度压缩包括向所述重构信号的幅度施加线性衰减。

4.根据权利要求1至3中任一项的方法，其特征在于，根据线性衰减的定律，通过由作为所述所接收和解码的时间包络(σ)的函数的触发门限所触发的分段来实现所述幅度压缩。

5.一种包括程序代码指令的计算机程序，当在计算机中执行所述程序时，所述程序代码指令执行根据权利要求1至4中任一项的后处理方法。

6.一种用于在音频解码器中对通过激励信号的时间和频率整形而重构的信号进行后处理的模块，该激励信号根据第一频带中的估计的参数获得，所述时间和频率整形至少基于第二频带中的时间包络以及所接收和解码的频率包络来实现，其特征在于，所述后处理模块(808)包括：比较器，用于将所述重构信号的幅度和所述所接收和解码的时间包络(σ)进行比较；以及幅度压缩装置，适用于如果超出作为所述时间包络的函数的门限，则向所述重构信号施加幅度压缩。

7.一种音频解码器，包括：用于在第一频带中估计激励信号的参数的模块(501)、用于根据所述参数重构激励信号的模块(803)、用于对第二频带中的所接收和解码的时间包络(σ)进行解码的模块(801)、用于对第二频带中的频带包络进行解码的模块(802)、用于至少通过所述所接收和解码的时间包络(σ)对所述激励信号进行时间整形的模块(805)、以及用于至少通过所述所解码的频率包络对所述激励信号进行频率整形的模块(807)，其特征在于，所述解码器还包括根据权利要求6的后处理模块(808)。

8.根据权利要求7的解码器，其特征在于，该解码器包括频率包络内插模块(806)。