CN109643552B

CN109643552B - 用于可变噪声状况中语音增强的鲁棒噪声估计

Info

Publication number: CN109643552B
Application number: CN201780055338.9A
Authority: CN
Inventors: 宋建鸣; B.乔希
Original assignee: Continental Automotive Systems Inc
Current assignee: Continental Automotive Systems Inc
Priority date: 2016-09-09
Filing date: 2017-09-09
Publication date: 2023-11-14
Anticipated expiration: 2037-09-09
Also published as: DE112017004548T5; DE112017004548B4; US10249316B2; WO2018049282A1; GB201617016D0; US20180075859A1; CN109643552A

Abstract

通过使用模式匹配抑制瞬态“非静止”噪声来改进机动车辆中的语音。将预先存储的线性预测系数集合与噪声信号的LPC系数进行比较。与表示包括语音和噪声的信号的LPC系数集合“最接近”的预先存储的LPC系数集合被认为是噪声。

Description

用于可变噪声状况中语音增强的鲁棒噪声估计

背景技术

机动车辆中的语音增强系统当然必须应对低信噪比(SNR)状况，但它们还必须应对不同种类的噪声，其中一些噪声被认为是瞬态的或“非静止的”。如本文所使用的，非静止车辆噪声包括但不限于由于车辆加速度、交通噪声、道路颠簸和风噪声引起的瞬态噪声。

本领域普通技术人员知道，常规的现有技术语音增强方法是“回顾性的”：它们依赖于检测和分析已经发生的噪声信号，以便抑制将来存在或预期会发生的噪声，即，尚未发生的噪声。现有技术噪声抑制方法因此假设噪声是稳定的或“静止的”或至少是伪静止的，即噪声功率谱密度(PSD)是稳定的，并且因此经由对检测到的噪声进行慢速时间平滑来接近地近似或估计。

当背景噪声突然且非预期地发生时，例如当车辆撞击道路表面瑕疵时发生的情况，常规的现有技术噪声检测/估计方法不能快速地将噪声与语音区分开，而是替代地需要相当大量的尚未发生的未来样本。因此，传统的语音增强技术固有地不足以抑制所谓的非静止噪声。用于检测和抑制这种噪声的方法和装置将是对现有技术的改进。

发明内容

为了简洁，本文阐述了快速检测和抑制音频信号中的瞬态非静止噪声的方法和装置的元件。方法步骤在频域中执行。

作为第一步骤，创建基于有噪声音频信号的线性预测编码(LPC)分析的噪声模型。

针对所分析的每个频率从语音存在的概率(SPP)导出嗓音活动检测器(VAD)。作为第二步骤，如果嗓音活动检测(VAD)允许，则以音频信号的帧速率更新在第一步骤中创建的噪声模型。

应当注意的是，LPC分析的“阶”优选地是大数(例如10或更高)，这在本文中被认为是语音“必须”的。另一方面，噪声分量用低得多的LPC模型(例如4或更低)被同样好地表示。换句话说，高阶LPC和低阶LPC之间的差异对于语音是显著的，但对于噪声不是这种情况。无论信号中呈现的能量水平如何，这种区分提供了瞬时将噪声与语音分离的机制。

作为第三步骤，在每个帧处计算高阶和低阶LPC系数之间的相似性(或不相似性)的度量。在计算度量之后，在每个帧处计算在线噪声模型和LPC系数之间的高阶参数的“拟合优度”的第二度量。

如果上述两个度量都小于它们各自的预先计算的阈值，则将有噪声音频信号的“帧”分类为噪声。判定逻辑中使用的那些阈值作为噪声模型的一部分被计算。

如果噪声分类器将当前信号帧识别为噪声，则如果还存在基于其他语音/噪声分类方法(例如，嗓音活动检测(VAD)或语音存在的概率)的单独噪声估计，则计算或改良噪声PSD(功率谱密度)，即噪声估计。

噪声分类器和噪声模型是“在运行中”创建的，并且不需要任何“离线”训练。

改良的噪声PSD的计算基于语音存在的概率。如果常规方法已经进行了估计(例如在静止噪声状况中)，则机制被内建为使得噪声PSD不会被过度估计。语音的概率确定在每帧处噪声PSD被改良多少。

改良的噪声PSD用于SNR重新计算(第二阶段SNR)。

还基于改良的噪声PSD和SNR重新计算噪声抑制增益函数(第二阶段增益)。

最后，将改良的增益函数(第二阶段NS)应用于噪声抑制操作。

附图说明

图1是现有技术噪声估计器和抑制器的框图。

图2是改进的噪声估计器的框图，该改进的噪声估计器被配置为检测和抑制非静止噪声，诸如由突然加速、车辆交通或道路颠簸引起的瞬态噪声；

图3是描绘通过估计可变噪声状况中的非静止噪声来增强语音的方法的步骤的流程图。

图4是用于在可变噪声状况中快速估计非静止噪声的装置的框图。

图5描绘了针对女性嗓音从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图6描绘了针对男性嗓音从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图7描绘了针对汽车噪声(例如，引擎噪声、来自轮胎的道路噪声等)从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图8描绘了针对风噪声从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图9描绘了根据本发明的实施例的由能量无关嗓音活动检测器生成的结果。

图10是根据本发明的实施例的包括线性预测编码嗓音活动检测器的噪声抑制系统的示意图。

具体实施方式

如本文所使用的，术语“噪声”指代包括电信号和声学信号的信号，该信号包括几个频率并且在频率或那些频率的幅度方面包括随机变化。根据I.E.E.E.标准词典，I.E.E.E.版权2009，“噪声”的一个定义是：它包括“任何不需要的电信号，该电信号在它们出现在的控制系统的电路中产生不期望的影响”。对于车辆中的免提嗓音通信系统，由引擎、轮胎、道路、风和附近的交通生成声学噪声。

图1描绘了现有技术噪声估计器100的框图。包括语音和噪声的有噪声信号102被提供给快速傅立叶变换处理器104(FFT 104)。FFT处理器104的输出106被提供给常规信噪比(SNR)估计器108和噪声估计器110。输出106被转换为衰减因子(抑制增益)118。

向信噪比(SNR)估计器108提供有噪声信号102的噪声内容112的估计。估计器108还向噪声增益放大器/衰减器116提供信噪比估计114。

SNR估计器108、噪声估计器110和衰减器116向乘法器113提供衰减因子118，乘法器113接收有噪声音频信号102的FFT的副本。衰减因子118和FFT 106的乘积120本质上是有噪声信号102的噪声被抑制的频域副本。

对输出124执行逆傅立叶变换(IFFT)122，输出124是被输入到噪声估计器100的有噪声信号102的时域的、噪声被抑制的“转化”。“去噪”信号126在噪声水平和语音清晰度方面得到改善。信号126仍然可以具有嵌入其中的非静止噪声分量，因为噪声估计器100不能快速响应于瞬态或快速发生的噪声信号。

图2是改进的噪声估计器200的框图。图2中所示的噪声估计器200与图1中所示的噪声估计器基本上相同，除了添加了线性预测码(LPC)模式匹配噪声估计器202，其被配置为使用如下操作来检测和响应于迅速或快速发生的噪声瞬态：噪声表示与输入到该系统的有噪声信号102的频域副本的模式匹配以及关于同一段信号(帧)的高阶LPC和低阶LPC之间的相似性度量的分析。图2中所示的噪声估计器200的不同之处在于相似性度量和模式匹配噪声估计器202从图1中所示的现有技术部件接收信息并产生瞬态噪声的增强或修正的估计。

图3描绘了通过估计可变噪声状况中的瞬态噪声来增强语音的方法的步骤。该方法开始于步骤302，其中由麦克风检测有噪声麦克风信号X，有噪声麦克风信号X由语音和噪声构成。换句话说，来自麦克风的有噪声信号X＝S+N，其中“S”是语音，并且“N”是噪声信号。

使用常规的现有技术噪声检测步骤304处理有噪声信号X，但是有噪声信号X也由新步骤305处理，新步骤305基本上通过如下方式来确定噪声是否也应该被抑制：分析高阶LPC和低阶LPC之间的相似性度量或者“距离”以及将有噪声信号X的LPC内容与噪声模型的线性预测系数(LPC)进行比较，噪声模型是在运行中创建和更新的。在步骤320，将信号X分类为噪声或语音。现在参考前面的步骤，在由附图标记306标识的步骤处，使用统计学分析来确定噪声特性。在步骤308处，计算语音存在概率。在步骤310处，计算功率谱密度或PSD形式的噪声估计。

在步骤312处使用功率谱密度计算或确定噪声补偿。

在步骤314和316中，确定信噪比(SNR)并确定衰减因子。

现在参考在由附图标记305标识的框架内包围的新步骤，在步骤318处，对有噪声信号X执行线性预测系数分析。在步骤308将X解释为噪声的状况下，将在步骤318处的LPC分析的结果提供给LPC噪声模型创建和适配步骤317，步骤317的结果是创建LPC系数集合，该系数集合建模或表示随时间变化的环境噪声。因此，LPC噪声模型创建和适配步骤创建LPC系数集合的表格或列表，每个LPC系数集合表示对应的噪声，由每个LPC系数集合表示的噪声与由其他LPC系数集合表示的噪声不同。

LPC分析步骤318产生表示有噪声信号的LPC系数集合。在噪声分类步骤320中将这些系数与随时间创建的系数集合或在线噪声模型进行比较。(如本文所使用的，术语“在线噪声模型”指代“实时”创建的噪声模型。并且，“实时”指代在其间发生事件或过程的实际时间。)因此，噪声分类步骤320可以被认为是其中LPC系数表示来自麦克风的语音和噪声样本的步骤。从LPC分析接收的第一样本集合因此表示音频分量和噪声信号分量。

除了高阶(例如，10阶)LPC分析之外，还在步骤318处针对输入X计算低阶(例如，4阶)LPC。对应于这两个LPC的两个频谱之间的对数频谱距离度量被用作两个LPC之间的相似性的度量。由于在噪声情况中缺乏固有的频谱结构或不可预测性，预期距离度量较小。另一方面，如果被分析的信号是语音，则距离度量相对较大。

对数频谱距离用两个倒谱向量集合的欧几里德距离近似。每个倒谱向量从其对应的(高阶或低阶)LPC系数转换。这样，可以在不实际涉及对信号X的计算密集型操作的情况下计算频域中的距离。

在步骤320处，以帧速率计算高阶和低阶LPC之间的对数频谱距离或倒谱距离，将该距离及其随时间的变化与阈值集合进行比较。如果距离及其轨迹超出某些阈值，则将信号X分类为语音。否则它被分类为噪声。

将噪声分类的结果提供给采用功率谱密度或PSD形式的第二噪声计算。为了控制噪声PSD改良的程度，步骤322处的第二PSD噪声计算接收步骤308的第一语音存在概率计算和步骤312的噪声补偿确定作为输入。

使用功率谱密度或PSD的第二噪声计算被提供给步骤324处的第二信噪比计算，步骤324还使用在步骤316处获得的第一噪声抑制增益计算。在326处，执行第二噪声抑制增益计算，第二噪声抑制增益计算被提供给乘法器328，乘法器328的输出信号330是噪声被衰减的信号，被衰减的噪声包括瞬态或所谓的非静止噪声。

现在参考图4，用于通过估计瞬态或非静止噪声来增强语音的装置包括部件的集合或处理器，部件的集合或处理器耦合到包含程序指令的非暂时性存储器器件，该程序指令执行图3中所描绘的步骤。装置400包括LPC分析器402。

LPC分析器402的输出被提供给噪声分类器404和LPC噪声模型创建器和适配器406。它们的输出被提供给第二PSD计算器408。

第二PSD噪声计算器408响应于由噪声分类器404做出的并且信号X中的噪声为非静止的确定而更新噪声功率谱密度(PSD)的计算。第二噪声PSD计算器的输出被提供给第二信噪比计算器410。第二噪声抑制计算器412接收有噪声的麦克风输出信号401和第二SNR计算器410的输出，并产生噪声被衰减的输出音频信号414。

仍然参考图4，噪声抑制器包括现有技术噪声跟踪器416和现有技术SPP(语音概率确定器)418。噪声估计器420的输出被提供给噪声补偿器422。

第一噪声确定器424将其输出提供给第一噪声补偿或噪声抑制计算器426，第一噪声补偿或噪声抑制计算器426的输出被提供给第二SNR计算器410。

本文公开了一种通过识别和估计可变噪声状况中的噪声来去除嵌入的声学噪声并增强语音的方法。该方法包括：语音/噪声分类器，其生成多个线性预测编码系数集合，线性预测编码系数集合利用高阶LPC和低阶LPC对传入的信号帧进行建模；语音/噪声分类器，其计算由同一信号帧产生的高阶和低阶LPC之间的对数频谱距离。对数频谱距离是通过从高阶和低阶LPC系数集合导出的倒谱系数集合中的两个集合来计算的；语音/噪声分类器，其将所述距离及其短时间轨迹与阈值的集合进行比较，以确定信号帧是语音或噪声；用于语音/噪声分类器的阈值基于分类统计和/或与其他嗓音活动检测方法协商来更新；生成多个线性预测编码(LPC)系数集合作为运行时在线创建的噪声模型。每个LPC系数集合表示对应的噪声，在当前信号帧被常规方法(例如，语音存在的概率)或LPC语音/噪声分类器分类为噪声的状况下创建和更新噪声模型；基于评估输入信号的LPC系数相对于由LPC系数集合表示的噪声模型的距离，分离但并行的噪声/语音分类也被实施。如果所述距离低于特定阈值，则将信号分类为噪声，否则分类为语音；常规噪声抑制方法(诸如利用语音存在的概率的MMSE)在环境噪声是静止的时实施噪声去除；当环境噪声是瞬态或非静止的时，包括基于LPC的噪声/语音分类的第二噪声抑制器改良(或增强)噪声估计和噪声衰减；第二步骤噪声估计计及语音存在的概率，并相应地适配频域中的噪声PSD，无论常规的噪声估计失败还是无法进行；如果常规方法已经在静止噪声状况中起作用，则使用语音存在概率的第二步骤噪声估计也防止噪声PSD的过度估计；在基于LPC的分类器将信号分类为噪声的状况下，在第二阶段中噪声更新(改良)的量与语音存在的概率成比例，即语音概率越大，则噪声更新的量发生得越大；SNR和增益函数都在第二阶段噪声抑制中被重新计算并应用于有噪声信号；当常规方法以高置信度将输入识别为噪声时，无论新的语音/噪声分类和噪声重新估计的结果如何，噪声抑制的第二阶段将不会做任何事情。另一方面，即使常规的(第一阶段)噪声抑制对突然增加的噪声无效，额外的噪声衰减也可以快速启动；然后，使用来自“增强的”噪声分类/估计的重新计算的噪声PSD来生成频域中的改良的噪声抑制增益集合。

本领域普通技术人员应该认识到，使用模式匹配检测噪声和有噪声信号在计算上比现有技术方法更快，现有技术方法计算线性预测系数，分析语音存在的可能性，估计噪声并执行SNR计算。通过使用当前或接近实时的噪声确定来避免固有地是回顾性的现有技术的噪声抑制方法。可以用比现有技术方法所需的少得多的时间来抑制瞬态或所谓的非静止噪声信号。

为了有效地去除噪声，噪声抑制算法应该正确地将输入信号分类为噪声或语音。大多数常规嗓音活动检测(VAD)算法以实时的方式估计来自音频输入的能量的水平和/或变化，并将当前时间测量的能量与估计的过去的噪声能量进行比较。信噪比(SNR)测量和数值检查是众多VAD方法的支柱，并且当环境噪声是静止的时，它可以相对较好地起作用；毕竟，如果噪声背景保持静止(即，相对恒定)，则语音存在期间的能量水平确实比语音不存在时的能量水平更大。

然而，如果噪声水平在非静止或瞬态噪声状况中(诸如在汽车加速、风噪声、交通通过等期间)突然增加，则该假设和机制不再有效。当噪声突然增加时，测量的能量显著大于估计的过去的噪声能量。因此，基于SNR的VAD方法可能容易失败或需要大量时间来做出判定。困境是延迟的检测(即使它是正确的)对于机动车辆中的瞬态噪声抑制基本上是无用的。

提出并实现了根据本发明实施例的参数模型，以增强常规的基于能量/SNR的VAD的弱点。

噪声通常在时间上是不可预测的，并且其频谱表示是单调的并且缺乏结构。另一方面，使用先前样本的线性组合可以稍微预测人类嗓音，并且由于声道(共振峰等)和声带振动(音高或和声)的影响，人类嗓音的频谱表示更加结构化。

噪声和嗓音的这些差异通过线性预测编码(LPC)很好地表征。实际上，噪声信号可以通过高阶LPC(例如10阶)或低阶LPC(4阶)几乎同样良好地建模。另一方面，应该使用高阶LPC(10阶或更高)来表征嗓音信号。低阶(例如，4阶)LPC缺乏复杂性和建模能力，并且因此不足以用于语音信号表征。

图5描绘了针对女性嗓音的从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图6描绘了针对男性嗓音的从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图7描绘了针对汽车噪声(例如，引擎噪声、来自轮胎的道路噪声等)的从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

图8描绘了针对风噪声的从高阶和低阶LPC模型转换的频谱以及信号本身的详细频谱。

如图5-8中所示，由于嗓音信号的共振峰结构和频率特性，高阶和低阶LPC之间的频谱差异显著。另一方面，对于噪声，差异较小，有时非常小。

无论信号携带的能量水平如何，这种类型的分析提供了将噪声与语音区分开的鲁棒方式。

图9描绘了由根据本发明的实施例的能量无关嗓音活动检测器生成的结果以及由复杂的常规能量相关语音活动检测器生成的结果。在图9中，在时域和频域二者中描绘了有噪声输入。VAD算法的目的是实时地(例如，在每10毫秒间隔期间)将输入正确地识别为噪声或语音。在图9中，VAD等级1指示确定存在语音，而VAD等级0指示确定不存在语音。

当存在噪声但不存在语音时，根据本发明的实施例的LPC VAD(本文也称为基于参数模型的方法)性能优于常规VAD。当在图9中所示的音频信号样本的中间部分期间背景噪声增加时尤其如此。在那种情况下，常规VAD无法识别噪声，而LPC_VAD正确地对输入的有噪声信号的语音和噪声部分进行分类。

图10是根据本发明实施例的噪声抑制系统的示意图，该噪声抑制系统包括线性预测编码嗓音活动检测器(本文也称为参数模型)。图10中示出了有噪声音频输入1002、低通滤波器1004、预加强1006、自动关联1008、LPC1 1010、CEP1 1012、和CEP距离确定器1014、LPC21016、CEP21018、LPC VAD噪声/语音分类器1020、噪声抑制器1022和噪声被抑制的音频信号1024。

将截止频率为3kHz的可选低通滤波器应用于输入。

将预加强应用于输入信号，

s(n)，0≤n≤N-1，

预加强用于提升高频内容，以便加强高频频谱结构，即

s(n)＝s(n)-μs(n-1)，0.5≤μ≤0.9。

计算经预加强的输入的自动关联的序列。

应用第一高阶LPC分析并计算较长的LPC(例如，10阶)系数集合

应用第二高阶LPC分析并计算较短的LPC(例如，4阶)系数集合(LPC2)

把两个LPC系数集合

A_P＝[a₀，a₁，...a_P]和

A_Q＝[a′₀，a′₁，...a′_Q]

投射至频谱域(传递函数)，即

丢弃上述传递函数中的能量项，因此两个LPC模型的频谱表示是能量归一化的或独立的。

选择对数频谱距离作为有意义的度量以度量两个频谱曲线的相似性。

计算对应于两个传递函数的两个频谱之间的对数频谱距离，即

用欧几里德倒谱距离来近似对数频谱距离，以便大大减少所需的相当大的计算负荷，即

为了完成选择对数频谱距离作为用于度量两个频谱曲线的相似性的有意义度量，两个倒谱系数集合C和C’对应于A_P和A_Q(CEP1和CEP2)

C＝[c₁，c₂，...c_M]，and C′＝[c′₁，c′₂，...c′_M]，M＞max(P，Q)

VAD判定做出逻辑将输入信号的每个帧确定为语音或噪声，如下；如果D(H_P，H_Q)＜THRESHOLD_NOISE，则信号被分类为噪声(即VAD＝0)；否则如果D(H_P，H_Q)＞THRESHOLD_SPEECH，则信号被分类为语音；否则信号被分类与前一帧相同，或由不同的方法确定。

以上描述仅用于说明的目的。在以下权利要求中阐述了本发明的真实范围。

Claims

1.一种通过在可变噪声状况中识别和估计噪声来去除嵌入的声学噪声并增强语音的方法，所述方法包括：

使用语音/噪声分类器生成多个线性预测编码系数集合，所述线性预测编码系数集合利用高阶线性预测编码和低阶线性预测编码对传入的信号帧进行建模；

使用语音/噪声分类器计算从所述信号帧得到的高阶线性预测编码和低阶线性预测编码之间的对数频谱距离，其中所述对数频谱距离通过从高阶线性预测编码和低阶线性预测编码系数集合导出的两个倒谱系数集合计算；

使用语音/噪声分类器比较所述距离及其短时间轨迹与阈值的集合，以确定所述信号帧是语音还是噪声，其中基于分类统计和/或与其他嗓音活动检测方法协商来更新用于语音/噪声分类器的所述阈值；

生成多个线性预测编码系数集合作为在运行时在线创建的噪声模型，每个线性预测编码系数集合表示对应的噪声，其中在当前信号帧按照语音存在的概率和由线性预测编码语音/噪声分类器中的至少一项分类为噪声的状况下创建和更新所述噪声模型；

使用基于以下操作的分离但并行的语音/噪声分类器：评估输入信号的线性预测编码系数相对于由线性预测编码系数集合表示的噪声模型的距离；

如果评估的距离低于阈值，则将信号分类为噪声，否则将信号分类为语音；

当环境噪声是静止的时，使用利用语音存在的概率来实施噪声去除的噪声抑制方法；

在环境噪声是瞬态或非静止的时使用第二噪声抑制器，第二噪声抑制器包括基于线性预测编码的噪声/语音分类用于增强噪声估计和噪声衰减；

其中，只要常规噪声估计不足，由第二噪声抑制器进行的噪声估计计及语音存在的概率并且相应地适配频域中的噪声PSD；以及

使用来自增强的噪声分类/估计的重新计算的噪声PSD来在频域中生成改良的噪声抑制增益的集合。

2.一种用于噪声抑制的装置，包括：

线性预测编码嗓音活动检测器，被配置为：

对输入信号进行低通滤波；

对输入信号的高频内容应用预加强，以便加强经低通滤波的输入信号的高频频谱结构；

计算预加强的经低通滤波的输入信号的自动关联的序列；

应用第一高阶线性预测编码分析并计算较长的线性预测编码系数集合；

应用第二高阶线性预测编码分析并计算较短的线性预测编码系数集合；

将较长的线性预测编码系数集合和较短的线性预测编码系数集合投射到频谱域；

对较长的线性预测编码系数集合和较短的线性预测编码系数集合的频谱域表示进行能量归一化；

确定较长的线性预测编码系数集合与较短的线性预测编码系数集合的经能量归一化的频谱域表示之间的对数频谱距离；

基于较长的线性预测编码系数集合与较短的线性预测编码系数集合的经能量归一化的频谱域表示之间的所确定的对数频谱距离是否小于噪声阈值，确定输入信号帧是否为噪声；以及

当确定输入信号帧不是噪声时，基于较长的线性预测编码系数集合与较短的线性预测编码系数集合的经能量归一化的频谱域表示之间的所确定的对数频谱距离是否大于语音阈值来确定输入信号帧是否是语音。

3.如权利要求2所述的装置，其中，所述低通滤波的截止频率为3kHz。

4.如权利要求2所述的装置，其中，所述较长的线性预测编码系数集合具有10或更大的阶。

5.如权利要求2所述的装置，其中，所述较短的线性预测编码系数集合具有4或更小的阶。

6.如权利要求2所述的装置，其中，所述对数频谱距离用欧几里德倒谱距离近似，以减少相关的计算负荷。