CN108352166A

CN108352166A - 使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的编码器和方法

Info

Publication number: CN108352166A
Application number: CN201680055833.5A
Authority: CN
Inventors: 尤纳斯·弗斯彻; 汤姆·巴克斯特伦; 埃马·约金内
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-09-25
Filing date: 2016-09-23
Publication date: 2018-07-31
Anticipated expiration: 2036-09-23
Also published as: EP3353783A1; JP2018528480A; BR112018005910A2; WO2017050972A1; RU2712125C2; KR20180054823A; CA2998689A1; MX2018003529A; RU2018115191A3; ES2769061T3; RU2018115191A; CA2998689C; BR112018005910B1; EP3353783B1; JP6654237B2; KR102152004B1; US10692510B2; CN108352166B; US20180204580A1

Abstract

示出了用于使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的编码器。该编码器包括：背景噪声估计器，被配置为估计音频信号的背景噪声；背景噪声减小器，被配置为通过从音频信号中减去所估计出的音频信号的背景噪声，来产生背景噪声减小的音频信号；以及预测器，被配置使音频信号经受线性预测分析，以获得第一组线性预测滤波器(LPC)系数，并且使背景噪声减小的音频信号经受线性预测分析，以获得第二组线性预测滤波器(LPC)系数。此外，该编码器包括分析滤波器，分析滤波器包括通过所获得的第一组LPC系数和所获得的第二组LPC系数来进行控制的级联的时域滤波器。

Description

使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的编码器和方法

技术领域

本发明涉及一种使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的编码器、对应的方法和包括编码器和解码器的系统。换句话说，本发明涉及联合语音增强和/或编码方法，例如通过并入CELP(码本激励线性预测)编解码器中来对语音进行联合增强和编码。

背景技术

随着语音和通信设备变得普遍存在，并且可能在不利条件下使用，对于能够应对不利环境的语音增强方法的需求得以增加。因此，例如，在移动电话中，现在通常将噪声衰减方法用作对于所有后续语音处理(例如，语音编码)的预处理块/步骤。存在将语音增强并入到语音编码器中的各种方法[1，2，3，4]。尽管这样的设计确实提高了发送的语音质量，但是级联处理不允许质量的联合感知优化/最小化，或者量化噪声和干扰的联合最小化至少是困难的。

语音编解码器的目标是允许用最少量的发送数据来发送高质量的语音。为了实现这个目标，需要信号的有效表示，例如通过线性预测对语音信号的频谱包络进行建模，通过长时预测器对基频进行建模，以及利用噪声码本对剩余部分进行建模。这种表示是语音编解码器使用编码激励线性预测(CELP)范式的基础，CELP范式用于主要语音编码标准中(例如，自适应多速率(AMR)、AMR-宽带(AMR-WB)、统一语音和音频编码(USAC)和增强语音服务(EVS)[5，6，7，8，9，10，11])。

对于自然语音通信，说话者经常在免提模式下使用设备。在这种情况下，麦克风通常远离嘴巴，由此语音信号很容易因干扰(比如，混响或背景噪声)而失真。劣化不仅影响感知的语音质量，还影响语音信号的可理解性，因此会严重妨碍对话的自然性。为了改善通信体验，应用语音增强方法来衰减噪声并减少混响的影响是有益的。语音增强领域是成熟的，并且有很多方法可用[12]。然而，大多数现有算法基于应用了基于重叠相加的开窗方案的重叠相加方法(例如，诸如短时傅立叶变换(STFT)之类的变换)，而相反地，CELP编解码器利用线性预测器/线性预测滤波器来对信号进行建模，并且仅对残差应用开窗。这些基本差异使得混合增强和编码方法变得困难。但很明显，增强和编码的联合优化可以提高质量，减小延迟和计算复杂度。

因此，需要一种改进的方法。

发明内容

本发明的目的是提供一种用于使用线性预测编码来处理音频信号的改善型构思。该目的通过独立权利要求的主题来解决。

本发明的实施例示出了一种编码器，用于使用线性预测编码以使背景噪声减小的方式对音频信号进行编码。该编码器包括：背景噪声估计器，被配置为估计音频信号的背景噪声；背景噪声减小器，被配置为通过从音频信号中减去所估计出的音频信号的背景噪声，来产生背景噪声减小的音频信号；以及预测器，被配置使音频信号经受线性预测分析，以获得第一组线性预测滤波器(LPC)系数，并且使背景噪声减小的音频信号经受线性预测分析，以获得第二组线性预测滤波器(LPC)系数。此外，该编码器包括分析滤波器，分析滤波器包括通过所获得的第一组LPC系数和所获得的第二组LPC系数来进行控制的级联的时域滤波器。

本发明基于以下发现：在线性预测编码环境中改进的分析滤波器提高了编码器的信号处理属性。更具体地，如果将级联的或一系列的串联连接的时域滤波器应用于线性预测编码环境的分析滤波器，则使用所述滤波器改善了输入音频信号的处理速度或处理时间。这是有利的，因为省略了通常使用的对入站时域音频信号的时频转换和逆频时转换以通过对主要受噪声影响的频段进行滤波来减小背景噪声。换句话说，通过执行背景噪声减小或消除来作为分析滤波器的一部分，可以在时域中执行背景噪声减小。因此，省略了可以用于时间/频率/时间转换的例如MDCT/IDMCT([逆]修改的离散余弦变换)的重叠相加过程。这种重叠相加方法限制了编码器的实时处理特性，这是因为背景噪声减少不能在单个帧上执行，而只能在连续帧上执行。

换句话说，所描述的编码器能够在单个音频帧上执行背景噪声减少并因此执行分析滤波器的整个处理，因此能够实时处理音频信号。实时处理可以表示在没有参与用户可察觉到的延迟的情况下对音频信号的处理。例如，在电话会议中，如果一个用户必须等待另一个用户的响应，则由于音频信号的处理延迟，会出现可以察觉到的延迟。该最大允许延迟可以小于1秒，优选小于0.75秒，甚至更优选小于0.25秒。必须注意的是，这些处理时间表示音频信号从发送方到接收方的整个处理，因此除编码器的信号处理外，还包括发送音频信号的时间和对应解码器中的信号处理。

根据实施例，级联的时域滤波器(也就是分析滤波器)包括两次使用所获得的第一组LPC系数的线性预测滤波器和一次使用所获得的第二组LPC系数的另一线性预测滤波器的逆。该信号处理可以被成为维纳滤波。因此，换句话说，级联的时域滤波器可以包括维纳滤波器。

根据其它实施例，背景噪声估计器可以估计背景噪声的自相关，来作为音频信号的背景噪声的表示。此外，背景噪声减小器可以通过从所估计出的音频信号的自相关中减去背景噪声的自相关来产生背景噪声减小的音频信号的表示，其中所估计出的音频信号的自相关是音频信号的表示，并且其中背景噪声减小的音频信号的表示是背景噪声减小的音频信号的自相关。使用自相关函数的估计而不是使用时域音频信号来计算LPC系数并执行背景噪声减小使得能够完全在时域中进行信号处理。因此，可以通过卷积或通过使用音频帧或音频帧的子部分的卷积积分来计算音频信号的自相关和背景噪声的自相关。因此，可以在帧中或者甚至仅在子帧中执行背景噪声的自相关，所述帧或子帧可以被定义为其中(几乎)不存在前景音频信号(比如，语音)的帧或帧的一部分。此外，可以通过使音频信号(包括背景噪声)的自相关和背景噪声的自相关相减来计算背景噪声减小的音频信号的自相关。使用背景噪声减小的音频信号和音频信号(通常具有背景噪声)的自相关能够分别计算针对背景噪声减小的音频信号的LPC系数和针对音频信号的LPC系数。背景噪声减小的LPC系数可以被称为第二组LPC系数，其中音频信号的LPC系数可以被称为第一组LPC系数。由于级联的时域滤波器的应用也在时域中对音频信号执行滤波，因此，可以完全在时域中处理音频信号。

在使用附图详细描述实施例之前，需要指出的是，在附图中，相同或功能等同的元件被赋予相同的附图标记，并且省略了对具有相同附图标记的元件的重复描述。因此，针对具有相同附图标记的元件而提供的描述可相互交换。

附图说明

随后将参考附图讨论本发明的实施例，在附图中：

图1示出了包括用于对音频信号进行编码的编码器和解码器在内的系统的示意性框图；

图2示出了如下项的示意性框图：a)级联增强编码方案，b)CELP语音编码方案，以及c)本发明的联合增强编码方案；

图3示出了具有不同标记的图2的实施例的示意性框图；

图4示出了针对所提出的联合方法(J)和级联方法(C)在等式23中定义的感知大小SNR(信噪比)的示意性线形图，其中输入信号是由非平稳汽车噪声劣化的，并且针对两种不同的比特率(由下标7指示的7.2kbit/s和由下标13指示的13.2kbit/s)呈现了结果；

图5示出了针对所提出的联合方法(J)和级联方法(C)在等式23中定义的感知大小SNR的示意性线形图，其中输入信号是由平稳白噪声劣化的，并且针对两种不同的比特率(由下标7指示的7.2kbit/s和由下标13指示的13.2kbit/s)呈现了结果；

图6是示出了针对两个不同的输入SNR(10dB(1)和20dB(2))、针对两个不同的干扰(白噪声(W)和汽车噪声(C))、针对两个不同的英语说话者(女性(F)和男性(M))的MUSHRA分数的图解的示意性图，其中对于所提出的联合方法(JE)和级联增强(CE)来说，所有项都是在两种比特率(7.2kbit/s(7)和13.2kbit/s(13))下编码的，其中REF是隐藏参考，LP是3.5kHz低通锚定(lowpass anchor)，并且Mix是失真的混合物；

图7示出了针对两种不同比特率模拟出的、将新的联合增强(JE)与级联方法(CE)进行了比较的不同MUSHRA分数的图；以及

图8示出了使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的方法的示意性流程图。

具体实施方式

在下文中，将进一步详细描述本发明的实施例。相应图中示出的具有相同或相似功能的元素具有与其相关联的相同的附图标记。

以下将基于维纳滤波[12]和CELP编码来描述联合增强和编码方法。这种融合的优点在于：1)在处理链中包含维纳滤波不会增加CELP编解码器的低算法延迟，并且2)联合优化同时使得由量化噪声和背景噪声引起的失真最小化。此外，联合方案的计算复杂度低于级联方法的计算复杂度。该实现依赖于最近的与CELP风格编解码器[13，14，15]中的残差开窗有关的工作，其允许以新方式将维纳滤波并入到CELP编解码器的滤波器中。利用这种方法，可以证明，与级联系统相比，客观质量和主观质量都有所提高。

由此，所提出的用于对语音进行联合增强和编码的方法避免了由于级联处理导致的误差的累积，并且还提高了感知输出质量。换句话说，由于对干扰和量化失真的联合最小化是通过感知域中的最优维纳滤波来实现的，因此所提出的方法避免了由于级联处理而导致的误差的累积。

图1示出了包括编码器4和解码器6在内的系统2的示意性框图。编码器4被配置为使用线性预测编码以使背景噪声减小的方式对音频信号8’进行编码。因此，编码器4可以包括被配置为估计音频信号8′的背景噪声的表示12的背景噪声估计器10。编码器还可以包括背景噪声减小器14，背景噪声减小器14被配置为通过从音频信号的表示8中减去所估计出的音频信号8’的背景噪声的表示12，来产生背景噪声减小的音频信号的表示16。因此，背景噪声减小器14可以从背景噪声估计器10接收背景噪声的表示12。背景噪声减小器的另一输入可以是音频信号的表示8或音频信号8′。可选地，背景噪声减小器可以包括被配置为内部地产生音频信号的表示8(例如音频信号8’的自相关8)的产生器。

此外，编码器4可以包括预测器18，预测器18被配置为：使得音频信号的表示8经受线性预测分析，以获得第一组线性预测滤波器(LPC)系数20a；以及，使得背景噪声减小的音频信号的表示16经受线性预测分析，以获得第二组线性预测滤波器系数20b。与背景噪声减小器14类似，预测器18可以包括用于根据音频信号8’来内部地产生音频信号的表示8的产生器。然而，使用公共或中央产生器17来计算一次音频信号8’的表示8并且向背景噪声减小器14和预测器18提供音频信号的表示(比如，音频信号的自相关8’)会是有利的。因此，预测器可以分别接收音频信号的表示8和背景噪声减小的音频信号的表示16(例如，音频信号的自相关和背景噪声减小的音频信号的自相关)，并且基于入站信号分别确定第一组LPC系数和第二组LPC系数。

换句话说，可以根据音频信号的表示8来确定第一组LPC系数，并且可以根据背景噪声减小的音频信号的表示16来确定第二组LPC系数。预测器可以执行莱文森-杜宾算法(Levinson-Durbin algorithm)，以根据相应的自相关来计算第一组LPC系数和第二组LPC系数。

此外，编码器包括分析滤波器22，分析滤波器22包括通过所获得的第一组LPC系数20a和所获得的第二组LPC系数20b来进行控制的时域滤波器24a、24b的级联24。分析滤波器可以对音频信号8’应用级联的时域滤波器以确定残差信号26，其中第一时域滤波器24a的滤波器系数是第一组LPC系数，并且第二时域滤波器24b的滤波器系数是第二组LPC系数。残差信号可以包括音频信号8’的信号分量，该信号分量可以不是通过具有第一组LPC系数和/或第二组LPC系数的线性滤波器而表示的。

根据实施例，可以将残差信号提供给量化器28，量化器28被配置为在发送之前对残差信号和/或第二组LPC系数24b进行量化和/或编码。量化器可以例如执行变换编码激励(TCX)、编码激励线性预测(CELP)或无损编码(例如熵编码)。

根据另一实施例，可以在发射器30中对残差信号执行编码，来作为在量化器28中进行编码的备选。因此，发射器例如执行变换编码激励(TCX)、编码激励线性预测(CELP)或无损编码(例如熵编码)，以对残差信号进行编码。此外，发射器可以被配置为发送第二组LPC系数。可选的接收器是解码器6。因此，发射器30可以接收残差信号26或量化的残差信号26′。根据实施例，至少在量化器中尚未对量化的残差信号进行编码的情况下，发射器可以对残差信号或量化的残差信号进行编码。在可选地对残差信号或者备选地对量化的残差信号进行编码之后，将提供给发射器的相应信号作为编码的残差信号32或者作为编码和量化的残差信号32’进行发送。此外，发射器可以接收第二组LPC系数20b’，可选地例如利用与用于编码残差信号的方法相同的编码方法来对第二组LPC系数20b’进行编码，并且还向例如解码器6发送编码的第二组LPC系数20b’，而不发送第一组LPC系数。换句话说，无需发送第一组LPC系数20a。

解码器6还可以接收编码的残差信号32或者备选地经编码和量化的残差信号32’，并且除了残差信号32或32’之一之外，还接收第二组LPC系数20b’。解码器可以对单一的接收信号进行解码，并且将解码后的残差信号26提供给合成滤波器。合成滤波器可以是具有第二组LPC系数作为滤波器系数的线性预测FIR(有限脉冲响应)滤波器的逆。换句话说，对具有第二组LPC系数的滤波器执行逆以形成解码器6的合成滤波器。合成滤波器的输出以及因此解码器的输出是解码的音频信号8”。

根据实施例，背景噪声估计器可以估计音频信号的背景噪声的自相关12，来作为音频信号的背景噪声的表示。此外，背景噪声减小器可以通过从音频信号的自相关8中减去背景噪声的自相关12来产生背景噪声减小的音频信号的表示16，其中所估计出的音频信号的自相关8是音频信号的表示，并且其中背景噪声减小的音频信号的表示16是背景噪声减小的音频信号的自相关。

图2和图3都涉及相同的实施例，然而使用了不同的标记。因此，图2示出了级联增强/编码方法和联合增强/编码方法的图解，其中W_N和W_C分别表示有噪声信号的白化和干净信号的白化，并且和为其对应的逆。然而，图3示出了级联增强/编码方法和联合增强/编码方法的图解，其中A_y和A_s分别表示有噪声信号的白化滤波器和干净信号的白化滤波器，并且H_y和H_s是重构(或合成)滤波器，即，它们对应的逆。

图2a和图3a都示出了信号处理链中的用于执行级联增强和编码的增强部分和编码部分。增强部分34可以在频域中操作，其中块36a和36b可以使用例如MDCT来执行时频转换以及使用例如IMDCT来执行频时转换，或者使用任何其它合适的变换来执行时频和频时转换。滤波器38和40可以对经频率变换的音频信号42执行背景噪声减小。这里，可以通过减少背景噪声的那些频率部分对音频信号8’的频谱的影响来对背景噪声的那些频率部分进行滤波。因此，频时转换器36b可以执行从频域到时域的逆变换。在增强部分34中执行了背景噪声减小之后，编码部分35可以以使背景噪声减小的方式对音频信号执行编码。因此，分析滤波器22’使用适当的LPC系数计算残差信号26”。残差信号可以被量化并提供给合成滤波器44，在图2a和图3a的情况下合成滤波器44是分析滤波器22’的逆。由于合成滤波器42是分析滤波器22’的逆，因此在图2a和图3a的情况下，向解码器发送用于确定残差信号26的LPC系数，以确定解码的音频信号8”。

图2b和图3b示出了没有先前执行的背景噪声减小的编码阶段35。由于已经参考图2a和图3a描述了编码阶段35，因此省略进一步的描述以仅避免重复描述。

图2c和图3c涉及联合增强编码的主要概念。示出了分析滤波器22包括使用滤波器A_y和H_s的时域滤波器的级联。更确切地，时域滤波器的级联包括两次使用所获得的第一组LPC系数20a的线性预测滤波器和一次使用所获得的第二组LPC系数20b的另一线性预测滤波器的逆(H_S)。滤波器的这种布置或这种滤波器结构可以被称为维纳滤波器。但是，必须注意，一个预测滤波器H_s与分析滤波器A_s相抵消。换句话说，也可以应用两次滤波器A_y(表示为))、两次滤波器H_s(表示为))和一次滤波器A_s。

如已经关于图1所描述的，这些滤波器的LPC系数是例如使用自相关来确定的。由于自相关可以在时域中执行，因此不需要执行时频转换就能实现联合增强和编码。此外，由于与关于图2a和图3a描述的编码阶段35相比，量化发送合成滤波的另一处理链保持相同，因此该方法是有利的。然而，必须注意的是，应当向解码器发送基于背景噪声减小的信号的LPC滤波器系数，以用于合适的合成滤波。然而，根据另一实施例，替代发送LPC系数，可以发送已经计算出的滤波器24b的滤波器系数(表示为滤波器系数20b的逆)，以避免对具有LPC系数的线性滤波器进行进一步的逆来导出合成滤波器42，因为已经在编码器中执行了该逆。换句话说，替代发送滤波器系数20b，可以发送这些滤波器系数的逆矩阵，从而避免执行两次逆。此外，必须注意，编码器侧滤波器24b和合成滤波器42可以是分别应用在编码器和解码器中的相同滤波器。

换句话说，关于图2，基于CELP模型的语音编解码器基于如下语音产生模型，该语音产生模型假设可以通过具有系数a-[α₀，α₁…，α_M]^T的线性预测滤波器来对输入语音信号s_n的相关性进行建模，其中M是模型阶数[16]。然后，使用矢量量化来量化残差r_n＝a_n*s_n，该残差是语音信号中的、不能通过线性预测滤波器来预测的部分。

令s_k＝[s_k，s_k-1，...，s_k-M]^T是输入信号的矢量，其中上标T表示转置。然后，残差可以表示为

r_k＝a^Ts_k· (1)

给定语音信号矢量s_k的自相关矩阵R_ss如下

对M阶预测滤波器的估计可以给定为[20]

其中，u＝[1，0，0，...，0]^T，并且标量预测误差被选择为使得α₀-1。观察到线性预测滤波器α_n是白化滤波器，其中r_k是不相关的白噪声。此外，可以利用预测器α_n通过IIR滤波根据残差r_n来重构原始信号s_n。下一步是利用矢量量化器将残差r_k＝[r_kN，r_kN-1，...，r_kN-N+1]^T的矢量量化为使得感知失真最小化。令输出信号的矢量为s′_k＝[s_kN，S_kN-1，...，s_k-N+1]^T和(其量化相对物)，并且W是对输出施加感知加权的卷积矩阵。然后，感知优化问题可以写为

其中，H是与预测器α_n的脉冲响应相对应的卷积矩阵。

图2b中描述了CELP类型语音编码的处理。首先，利用滤波器来白化输入信号，以获得残差信号。然后，在块Q中量化残差的矢量。最后，通过IIR滤波A¹(Z)来重构频谱包络结构，以获得量化的输出信号由于重新合成的信号是在感知域中进行评估的，因此这种方法被称为合成式分析方法。

维纳滤波

在单通道语音增强中，假设获取了信号y_n，y_n是期望的干净语音信号s_n和一些不期望的干扰v_n的相加混合物，即

y_n-s_n+v_n. (5)

增强处理的目标是估计干净的语音信号s_n，而可利用的仅是有噪声信号y_n和对相关矩阵的估计。

其中，y_k＝[y_k，y_k-1，...，y_k-M]^T。使用滤波器矩阵H，将对干净语音信号的估计定义为

最小均方误差(MMSE)意义上的最优滤波器(称为维纳滤波器)可以很容易地推导为[12]

通常，维纳滤波应用于输入信号的重叠窗口，并且使用重叠相加方法[21，12]来重构。在图2a的增强块中示出了该方法。然而，该方法导致与窗口之间重叠的长度相对应的算法延迟的增加。为了避免这种延迟，目标是将维纳滤波与基于线性预测的方法合并。

为了获得这样的关系，将估计的语音信号代入等式(1)中，由此

其中，γ是缩放系数，并且

是针对有噪声信号y_n的最佳预测器。换言之，通过利用a′对有噪声信号进行滤波，获得所估计的干净信号的(缩放的)残差。缩放是干净信号的期望残差与有噪声信号的期望残差之比，即因此，这一推导表明，维纳滤波和线性预测是密切相关的方法，并且在下面的部分中，将使用该关系来开发联合增强和编码方法。

将维纳滤波并入CELP编解码器中

目标是将(在第3部分和第2部分中描述的)维纳滤波和CELP编解码器合并为联合算法。通过合并这些算法，可以避免通常实施维纳滤波所需的重叠相加开窗的延迟，并且减小计算复杂度。

由此，联合结构的实现是直截了当的。这表明，可以通过等式(9)来获得增强的语音信号的残差。因此，可以通过利用干净信号的线性预测模型α_n对残差执行IIR滤波来重构增强的语音信号。

对于残差的量化，可以通过用所估计的信号替代干净信号来修改等式(4)，以获得

换句话说，利用增强的目标信号的目标函数与在使用干净输入信号的情况下保持相同。

总之，对标准CELP的唯一修改是将干净信号的分析滤波器a替代为有噪声信号a′的分析滤波器。CELP算法的剩余部分保持不变。在图2(c)中示出了所提出的方法。

应当清楚的是，每当期望噪声衰减并且在可以利用对干净语音信号R_ss的自相关的估计时，都可以通过极小的改变而将所提出的方法应用于任何CELP编解码器。如果对干净语音信号自相关的估计不可用，则可以通过使用对噪声信号的自相关的估计R_vvR_ss≈R_yy-R_vv)或其它常用估计来进行估计。

只要使用时域滤波器可获得干净信号的估计，该方法就可以容易地扩展到诸如具有波束形成的多通道算法的场景。

所提出的方法的计算复杂度方面的优点可以表征如下。请注意，在常规的方法中，需要确定通过等式(8)给出的矩阵滤波器H。所需的矩阵求逆的复杂度为O(M³)。然而，在所提出的方法中，只有等式(3)将是针对有噪声信号求解的，可以利用复杂度为O(N²)的莱文森-杜宾算法(或类似算法)来实现这种求解。

编码激励线性预测

换言之，关于图3，基于CELP范式的语音编解码器利用这样的语音产生模型，该语音产生模型假设可以通过具有系数a-[α₀，α₁，...，α_M]^T的线性预测滤波器来对输入语音信号s_n的相关性和频谱包络进行建模，其中M是通过底层管道模型(underlying tube model)而确定的模型阶数[16]。然后，使用矢量量化来量化残差r_n＝a_n*s_n，该残差是语音信号中的、不能通过线性预测滤波器(还称为预测器18)来预测的部分。

可以获得针对一帧输入信号s的线性预测滤波器a_s，从而最小化

其中，u＝[1 0 0...0]^T。求解如下所示：

利用卷积矩阵A_s(其包括a_s的滤波器系数α)的定义，

可以通过将输入语音帧与卷积矩阵A_s相乘来获得残差信号：

e_s＝A_s·s. (15)

这里，通过从输入信号中减去零输入响应并且在重新合成中重新引入零输入响应[15]，来在CELP编解码器中执行开窗。

等式15中的乘法与利用预测滤波器对输入信号执行卷积相同，因此与FIR滤波相对应。可以通过与重构滤波器H_s的相乘根据残差来重构原始信号：

s＝H_s·e_s. (16)

其中，H_s包括预测滤波器的脉冲响应η-[1，η₁，...η_N-1]：

使得该操作与IIR滤波相对应。

应用矢量量化来量化残差矢量。因此，选择量化的矢量来在范数2意义上使针对期望重构的干净信号的感知距离最小化：

其中，e_s是未量化的残差，并且W(z)＝A(0.92z)是如AMR-WB语音编解码器中使用的感知加权滤波器[6]。

在CELP编解码器中应用维纳滤波

为了应用单通道语音增强，假设所获取的麦克风信号y_n是期望的干净语音信号s_n和一些不期望的干扰v_n的相加混合物，使得y_n＝s_n+v_n。在Z域中，等价于Y(z)＝S(z)+V(z)。

通过应用维纳滤波器B(z)，可以通过滤波根据有噪声的观察值Y(z)来重构语音信号S(z)，使得估计的语音信号是维纳滤波器的最小均方解如下所示[12]

假设语音信号s_n和噪声信号v_n分别是不相关的。

在语音编解码器中，对功率谱的估计可用于线性预测模型的脉冲响应|A_y(z)|^-2形式的有噪声信号y_n。换句话说，|S(z)|²+|V(z)|²≈γ|A_y(z)|^-2，其中γ是缩放系数。可以像通常一样根据有噪声信号的自相关矩阵R_yy来计算有噪声线性预测器。

此外，可以估计干净语音信号的功率谱|S(z)|²，或等同地，可以估计干净语音信号的自相关矩阵R_ss。增强算法通常假设噪声信号是平稳的，由此可以根据输入信号的非语音帧来估计噪声信号的自相关R_vv。然后，可以将干净语音信号的自相关矩阵R_ss估计为这里，有利的是，进行通常的预防措施以确保保持正定。

使用所估计的干净语音的自相关矩阵可以确定对应的线性预测器，在Z域中该线性预测器的脉冲响应是因此，并且等式19可以写为：

换句话说，通过分别在FIR模式和IIR模式下利用有噪声信号的预测器和干净信号的预测器进行两次滤波，可以获得干净信号的维纳估计。

与利用预测器和Λ_y(z)执行的FIR滤波相对应的卷积矩阵可以分别表示为A_s和A_v。类似地，令H_s和H_y是与预测滤波(IIR)相对应的相应卷积矩阵。使用这些矩阵，常规的CELP编码可以用图3b中的流程图来说明。这里，可以利用A_s对输入信号s_n进行滤波以获得残差，对残差进行量化，并通过利用H_s进行滤波来重构量化的信号。

图3a中示出了将增强与编码组合的常规方法，其中将维纳滤波用作在编码之前的预处理块。

最后，在所提出的方法中，将维纳滤波与CELP类型语音编解码器组合。通过将图3a的级联方法与图3b所示的联合方法进行比较，显然可以省略附加的重叠相加开窗(OLA)开窗方案。此外，编码器处的输入滤波器A_s与H_s抵消。因此，如图3c所示，所估计的干净残差信号是通过利用滤波器组合对劣化的输入信号y进行滤波而得到的。因此，误差最小化如下所示：

因此，这种方法联合地将干净估计和量化信号之间的距离最小化，由此在感知域中对干扰和量化噪声进行联合最小化是可行的。

使用客观和主观两种测量来评估联合语音编码和增强方法的性能。为了孤立新方法的性能，使用简化的CELP编解码器，其中仅残差信号被量化，而长期预测(LTP)、线性预测编码(LPC)的延迟和增益和增益因子未被量化。如[17]中所述，使用成对迭代方法来量化残差，其中通过在每个位置上尝试两个脉冲来连续将这两个脉冲相加。此外，为了避免估计算法的任何影响，假设在所有模拟场景中，干净语音信号的相关性矩阵R_ss都是已知的。利用语音信号和噪声信号是不相关的假设，保持R_ss＝R_yy-R_vv。在任何实际应用中，噪声相关矩阵R_vv或备选地干净语音相关矩阵R_ss必须是根据所获取的麦克风信号来估计的。假设干扰是平稳的，通常的方法是在语音制动器(speech brake)中估计噪声相关矩阵。

所评估的场景包括期望的干净语音信号和附加干扰的混合物。[18]考虑了两种类型的干扰：平稳的白噪声和来自文明音景库(Civilisation Soundscapes Library)的一段汽车噪声录音。对于AMR-WB编解码器[6]，残差的矢量量化是采用2.8kbit/s和7.2kbit/s的比特率(分别与7.2kbit/s和13.2kbit/s的总比特率相对应)执行的。针对所有模拟，使用了12.8kHz的采样率。

使用客观和主观两种测量对经增强和编码的信号进行了评估，因此进行了听力测试并且计算了感知大小信噪比(SNR)，如等式23和等式22所定义的。由于联合增强处理对滤波器的相位没有影响，由于合成滤波器和重构滤波器都受限于最小相位滤波器，由于预测滤波器的每种设计，使用了感知大小SNR。

将傅里叶变换定义为运算符在感知域中重构的干净参考和估计的干净信号的绝对谱值如下：

修正的感知信噪比(PSNR)的定义如下：

对于主观评估，如上所述，使用了用于USAC标准化的测试集合的语音项[8]，其中所述语音项被白噪声和汽车噪声破坏。在隔音环境中使用STAX静电耳机对14位参与者进行了带有隐藏参考和锚定的多重刺激(MUSHRA)听力测试[19]。图6中示出了听力测试的结果并且图7中示出了差异化的MUSHRA分数，显示出平均值和95％的置信区间。

图6中的绝对MUSHRA测试结果表明隐藏参考总是正确地被分配100分。对于每个项，原始带噪声混合物得到了最低平均分，这指示所有增强方法都改善了感知质量。与级联方法相比，针对较低比特率的平均得分显示出对于所有项的平均在统计上显著改善了6.4MUSHRA分。对于较高比特率，所有项的平均显示出改善，但在统计上并不是显著的。

为了获得联合方法和预增强方法的更详细的比较，图7中呈现了差异化的MUSHRA分数，其中预增强方法和联合方法之间的差异是针对每个听众和每个项而计算的。通过显示出针对较低比特率在统计上显著的改善、而针对较高比特率的改善在统计上不显著，差异结果验证了绝对MUSHRA分数。

换言之，示出了用于联合语音增强和编码的方法，该方法允许总体干扰和量化噪声的最小化。相反，常规方法在级联处理步骤中应用增强和编码。就计算复杂度而言，结合两个处理步骤也是有吸引力的，因为可以省略重复的开窗和过滤操作。

CELP类型语音编解码器被设计用于提供非常短的延迟，从而避免处理窗口与未来处理窗口的重叠。相比之下，在频域中应用的常规增强方法依赖于重叠相加开窗，这引入了与重叠长度相对应的附加延迟。联合方法不需要重叠相加开窗，但是使用如[15]应用于语音编解码器中的开窗方案，由此避免算法延迟的增加。

所提出的方法的已知问题在于：与信号相位保持不变的常规频谱维纳滤波不同，所提出的方法应用会修改相位的时域滤波器。通过应用合适的全通滤波器，可以很容易地处理这种相位修改。然而，由于没有注意到归因于相位修改的任何感知劣化，而省略了这种全通滤波器，以保持低的计算复杂度。然而，要注意的是，在客观评估中，测量了感知大小SNR，以便允许公平地对方法进行比较。该客观测量表明，所提出的方法平均比级联处理要好3dB。

MUSHRA听力测试的结果进一步证实了所提出的方法的性能优势，MUSHRA听力测试的结果表明平均改善了6.4分。这些结果证明：就质量和计算复杂度而言，应用联合增强和编码对整个系统是有益的，同时保持CELP语音编解码器的低算法延迟。

图8示出了使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的方法800的示意性框图。方法800包括：步骤S802，估计音频信号的背景噪声的表示；步骤S804，通过从音频信号的表示中减去所估计出的音频信号的背景噪声的表示，来产生背景噪声减小的音频信号的表示；步骤S806，使音频信号的表示经受线性预测分析，以获得第一组线性预测滤波器系数，并且使背景噪声减小的音频信号的表示经受线性预测分析，以获得第二组线性预测滤波器系数；以及步骤S808，通过所获得的第一组LPC系数和所获得的第二组LPC系数来控制级联的时域滤波器，以根据音频信号获得残差信号。

应当理解，在本说明书中，线上的信号有时由线的附图标记来命名，或者有时由归属于线的附图标记本身来表示。因此，该标记方式使得具有某一信号的线指示信号本身。线可以是硬连线实现中的实体线路。然而，在计算机化实现中，实体线路不存在，但线所表示的信号从一个计算模块发送到另一个计算模块。

尽管已在框图的上下文(其中，块表示真实的或逻辑的硬件组件)中描述了本发明，但本发明也可以通过计算机实施方法来实现。在后者的情况下，块表示相应方法步骤，其中这些步骤代表由对应逻辑或实体硬件块执行的功能性。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备与方法步骤或方法步骤的特征相对应。类似地，在方法步骤的上下文中描述的方面也表示对对应块或者对应装置的项或特征的描述。可以由(或使用)硬件装置(诸如，微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中，可以由这种装置来执行最重要方法步骤中的某一个或多个。

本发明的经传输或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质或有线传输介质(比如互联网)的传输介质上传输。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案，所述控制信号与可编程计算机系统协作(或能够与之协作)，从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作，从而执行本文所述的方法之一。

通常，本发明的实施例可以被实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行所述方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体上的计算机程序，该计算机程序用于执行本文所述的方法之一。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质)，包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非暂时性的。

因此，本发明方法的另一实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机(例如，以电子方式或以光学方式)发送计算机程序的装置或系统，该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是：本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。

参考文献

[1]M.Jeub and P.Vary，“Enhancement of reverberant speech using theCELP postfilter，”in Proc.ICASSP，April 2009，pp.3993-3996.

[2]M.Jeub，C.Herglotz，C.Nelke，C.Beaugeant，and P.Vary，“Noise reductionfor dual-microphone mobile phones exploiting power level differences，”inProc.Espoo，Finland，March 2012，pp.1693-1696.

[3]R:Martin，I.Wittke，and P.Jax，“Optimized estimation of spectralparameters for the coding of noisy speech，”in Proc.ICASSP，vol.3,2000，pp.1479-1482 vol.3.

[4]H.Taddei，C.Beaugeant，and M.de Meuleneire，“Noise reduction onspeech codec parameters，”in Proc.ICASSP，vol.1，May 2004，pp.I-497-500 vol.1.

[5]3GPP，“Mandatory speech CODEC speech processing functions；AMRspeech Codec；General description，”3rd Generation Partnership Project(3GPP)，TS26.071，12 2009.[Online].Available:http://www.3gpp.org/ftp/Specs/html-info/26071.htm

[6]——，“Speech codec speech processing functions；Adaptive Multi-Rate-Wideband(AMR-WB)speech codec；Transcoding functions，”3rd GenerationPartnership Project(3GPP)，TS 26.190，12 2009.[Online].Available:http://www.3gpp.org/ftp/Specs/html-info/26190.htm

[7]B.Bessette，R.Salami，R.Lefebvre，M.Jelinek，J.Rotola-Pukkila，J.Vainio，H.Mikkola，and K.Jarvinen，“The adaptive multirate wideband speechcodec(AMR-WB)，”IEEE Transactions on Speech and Audio Processing，vol.10，no.8，pp.620-636，Nov 2002.

[8]ISO/IEC 23003-3:2012，“MPEG-D(MPEG audio technologies)，Part 3:Unified speech and audio coding，”2012.

[9]M.Neuendorf，P.Gournay，M.Multrus，J.Lecomte，B.Bessette，R.Geiger，S.Bayer，G.Fuchs，J.Hilpert，N.Rettelbach，R.Salami，G.Schuller，R.Lefebvre，andB.Grill，“Unified speech and audio coding scheme for high quality at lowbitrates，”in Acoustics，Speech and Signal Processing，2009.ICASSP 2009.IEEEInternational Conference on，April 2009，pp.1-4.

[10]3GPP，“TS 26.445，EVS Codec Detailed Algorithmic Description；3GPPTechnical Specification(Release 12)，”3rd Generation Partnership Project(3GPP)，TS 26.445,12 2014.[Online].Available:http://www.3gpp.org/ftp/Specs/html-info/26445.htm

[11]M.Dietz，M.Multrus，V.Eksler，V.Malenovsky，E.Norvell，H.Pobloth，L.Miao，Z.Wang,L.Laaksonen，A.Vasilache，Y.Kamamoto，K.Kikuiri，S.Ragot，J.Faure，H.Ehara，V.Rajendran，V.Atti，H.Sung，E.Oh，H.Yuan，and C.Zhu，“Overview of the EVScodec architecture，”in Acoustics，Speech and Signal Processing(ICASSP)，2015IEEE International Conference on，April 2015，pp.5698-5702.

[12]J.Benesty，M.Sondhi，and Y.Huang，Springer Handbook of SpeechProcessing.Springer，2008.

[13]“Computationally efficient objective function foralgebraic codebook optimization in ACELP，”in Proc.Interspeech，Aug.2013.

[14]——，“Comparison of windowing in speech and audio coding，”inProc.WASPAA，New Paltz，USA，Oct.2013.

[15]J.Fischer and “Comparison of windowing schemes forspeech coding，”in Proc EUSIPCO，2015.

[16]M.Schroeder and B.Atal，“Code-excited linear prediction(CELP):High-quality speech at very low bit rates，”in Proc.ICASSP.IEEE，1985，pp.937-940.

[17]and C.R:Helmrich，“Decorrelated innovative codebooksfor ACELP using factorization of autocorrelation matrix，”in Proc.Interspeech，2014，pp.2794-2798.

[18]soundeffects.ch，“Civilisation soundscapes library，”accessed:23.09.2015[Online].Available:https://www.soundeffects.ch/de/geraeusch-archive/soundeffects.ch-produkte/civilisation-soundscapes-d.php

[19]Method for the subjective assessment of intermediate qualitylevels of coding systems，ITU-R Recommendation BS.1534,2003.[Online].Available:http://www.itu.int/rec/R-REC-BS.1534/en.

[20]P:Vaidyanathan，\The theory of linear prediction，″in SynthesisLectures on Signal Processing，vol.2，pp.1{184.Morgan&Claypool publishers，2007.

[21]J.Allen，\Short-term spectral analysis，and modification bydiscrete Fourier transform，”IEEE Trans.Acoust.，Speech，Signal Process.，vol.25，pp.235{238,1977.

Claims

1.一种编码器(4)，用于使用线性预测编码以使背景噪声减小的方式对音频信号(8’)进行编码，所述编码器(4)包括：

背景噪声估计器(10)，被配置为估计所述音频信号(8’)的背景噪声的表示(12)；

背景噪声减小器(14)，被配置为通过从所述音频信号的表示(8)中减去所估计出的所述音频信号(8’)的背景噪声的表示(12)，来产生背景噪声减小的音频信号的表示(16)；

预测器(18)，被配置为：使所述音频信号的表示(8)经受线性预测分析，以获得第一组线性预测滤波器“LPC”系数(20a)，以及使所述背景噪声减小的音频信号的表示(12)经受线性预测分析，以获得第二组线性预测滤波器“LPC”系数(20b)；以及

分析滤波器(22)，包括通过所获得的第一组LPC系数(20a)和所获得的第二组LPC系数(20b)进行控制的级联的时域滤波器(24，24a，24b)，以根据所述音频信号(8’)获得残差信号(26)。

2.根据权利要求1所述的编码器(4)，其中，所述级联的时域滤波器(24)包括两次使用所获得的第一组LPC系数(20a)的线性预测滤波器(24a)以及一次使用所获得的第二组LPC系数(20b)的另一线性预测滤波器(24b)的逆。

3.根据前述权利要求中任一项所述的编码器(4)，其中，所述级联的时域滤波器(24)是维纳滤波器。

4.根据前述权利要求中任一项所述的编码器(4)，

其中，所述背景噪声估计器(10)被配置为估计所述背景噪声的自相关，作为所述音频信号(8)的背景噪声的表示(12)；

其中，所述背景噪声减小器(14)被配置为：通过从所述音频信号的自相关(8)中减去所述背景噪声的自相关(12)来产生所述背景噪声减小的音频信号的表示(16)，其中所述音频信号的自相关(8)是所述音频信号的表示，并且其中所述背景噪声减小的音频信号的表示(16)是所述背景噪声减小的音频信号的自相关。

5.根据前述权利要求中任一项所述的编码器(4)，其中，所述表示是自相关。

6.根据前述权利要求中任一项所述的编码器(4)，还包括被配置为发送所述第二组LPC系数(20b)的发射器(30)。

7.根据前述权利要求中任一项所述的编码器(4)，还包括被配置为发送所述残差信号(26)的发射器。

8.根据前述权利要求中任一项所述的编码器(4)，还包括：量化器(28)，被配置为在发送之前对所述残差信号(26)进行量化和/或编码。

9.根据前述权利要求中任一项所述的编码器(4)，还包括：量化器(28)，被配置为在发送之前对所述第二组LPC系数(20b)进行量化和/或编码。

10.根据权利要求8或9所述的编码器，其中，所述量化器被配置为使用编码激励线性预测(CELP)、熵编码或变换编码激励(TCX)。

11.一种系统(2)，包括：

根据前述权利要求中任一项所述的编码器(4)；

解码器(6)，被配置为对编码后的音频信号进行解码。

12.一种用于使用线性预测编码以使背景噪声减小的方式对音频信号进行编码的方法(800)，所述方法包括：

估计(S802)所述音频信号的背景噪声的表示；

通过从所述音频信号的表示中减去所估计出的所述音频信号的背景噪声的表示，来产生(S804)背景噪声减小的音频信号的表示；

使所述音频信号的表示经受(S806)线性预测分析，以获得第一组线性预测滤波器“LPC”系数，以及使所述背景噪声减小的音频信号的表示经受线性预测分析，以获得第二组线性预测滤波器“LPC”系数；以及

通过所获得的第一组LPC系数和所获得的第二组LPC系数来控制(S808)级联的时域滤波器，以根据所述音频信号获得残差信号。

13.一种具有程序代码的计算机程序，所述程序代码用于执行根据权利要求12所述的方法。