CN107452389B

CN107452389B - 一种通用的单声道实时降噪方法

Info

Publication number: CN107452389B
Application number: CN201710594168.3A
Authority: CN
Inventors: 陈纪同; 张学良
Original assignee: Elevoc Technology Co ltd
Current assignee: Elevoc Technology Co ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-09-01
Anticipated expiration: 2037-07-20
Also published as: CN107452389A

Abstract

本发明涉及一种通用的单声道实时降噪方法，包括以下步骤：接收电子格式的带噪语音，其中包含语音和非人声干扰噪声；从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征；使用具有长短期记忆的深度回归神经网络逐帧产生比值膜；利用产生的比值膜对带噪语音的幅度谱进行掩蔽；使用掩蔽后的幅度谱和带噪语音的原始相位，经过逆傅里叶变换，再次合成语音波形。本发明采用有监督学习方法进行语音降噪，通过使用带有长短期记忆的回归神经网络来估计理想比值膜；本发明提出的回归神经网络使用大量带噪语音进行训练，其中包含了各种现实声学场景和麦克风脉冲响应，最终实现了独立于背景噪声、说话人和传输信道的通用语音降噪。

Description

一种通用的单声道实时降噪方法

技术领域

本发明涉及一种通用的单声道实时降噪方法，更具体地说，涉及一种利用长短期记忆(LSTM)回归神经网络(RNN)进行掩膜估计的新方法。

背景技术

语音降噪任务是指从带噪语音信号中分离出语音信号，该技术拥有广泛的应用，如鲁棒性自动语音识别(ASR)和日常环境中的移动通信。语音降噪或分离已在信号处理领域进行了数十年的研究。其中，单声道语音降噪是非常具有挑战性的课题，因为单声道语音降噪仅依靠单麦克风录音信号，无法利用麦克风阵列常用的空间信息。另一方面，和基于波束形成(通过传感器阵列适当配置的空间滤波)的麦克风阵列降噪技术相比，单声道降噪可应用的声学场景更为广泛。由于只使用一个麦克风，单声道降噪不仅成本低，而且在实际情况下更方便使用。此外，单声道降噪的结果可以提升波束形成和其它相关的阵列处理任务的性能。

最近，一个观念上的突破是把单声道语音降噪转变成有监督学习问题。以传统语音增强为例的信号处理方法是建立在背景噪声和语音信号的统计分析之上。但有监督方法则是基于数据驱动，并且可以从训练样本中自动学习模式。有监督学习的引入标志着单声道语音降噪在实用性方面取得了实质性进展。

时频掩蔽是监督性语音降噪中最主要的方法。它通过训练一个模型来估计理想时频掩膜。根据对带噪语音信号的时频表示，理想掩膜的定义指示了抑制噪声和保留语音的时频位置。自2013年以来，深度神经网络被证明能够有效的对理想掩膜进行估计。目前，普遍认为基于深度学习的有监督降噪是最先进的方法，能够大幅度提升降噪性能，尤其是首次展示出在嘈杂环境下可以显著改善有听觉障碍及正常听觉人的语音可懂度。

之前最先进的语音降噪方案是使用大量数据训练的前馈型深度神经网络(Deepneural network,DNN)，尽管该方案可以实现从未经训练的噪声中分离出特定人声，但该模型对非特定人声的降噪效果并不好。为了提升非特定人声的降噪效果，最有效的方法是在训练集中加入多个说话人的语音，然而这样会使得DNN对语音和背景噪声出现混淆，并且倾向于将噪声错分为语音。

发明内容

本发明要解决的技术问题在于，针对现有技术的缺陷提供一种通用的单声道实时降噪方法。

本发明解决其技术问题所采用的技术方案是：构造一种通用的单声道实时降噪方法，包括如下步骤：

S1接收电子格式的带噪语音，其中包含语音和非人声干扰噪声；

S2从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征；

S3使用具有长短期记忆的深度回归神经网络逐帧产生比值膜；

S4利用产生的比值膜对带噪语音的幅度谱进行掩蔽；

S5使用掩蔽后的幅度谱和带噪语音的原始相位，经过逆傅里叶变换，再次合成语音波形；

在步骤S2中，将带噪语音波形进行分帧处理，每帧长度为20毫秒，相邻帧之间有10毫秒重叠，利用快速傅里叶变换提取每一帧上的频谱幅度矢量，每个矢量采用对数压缩的方法形成一帧声学特征；

所述带有长短期记忆的回归神经网络采用带噪语音大数据集进行训练，带噪语音数据集由各种噪声和多个说话人的语音混合而成；在训练期间，使用不同的脉冲响应对语音和噪声段进行滤波，以此模拟不同的麦克风对信号的采集过程，增加降噪方法的信道泛化能力，通过利用6个公开的脉冲响应来模拟6种不同麦克风进行信号采集，并相应地扩充训练集。

在本发明所述的一种通用的单声道实时降噪方法中，所述声学特征是将当前帧的短时傅里叶幅度和过去若干帧拼接而成。

在本发明所述的一种通用的单声道实时降噪方法中，所述声学特征可以扩展成包含未来一个或若干帧，用在对延迟有适当宽容的应用场景中。

在本发明所述的一种通用的单声道实时降噪方法中，所述长短期记忆包含多个堆叠的单向层，每层具有64个神经元。

在本发明所述的一种通用的单声道实时降噪方法中，所述长短期记忆层利用沿时间展开的反向传播进行训练。

在本发明所述的一种通用的单声道实时降噪方法中，所述带噪语音训练集由数千种不同类型的噪声和大约100个以上说话人的语音混合而成。

在本发明所述的一种通用的单声道实时降噪方法中，通过与麦克风脉冲响应进行卷积来增加训练集中的带噪语音数据，以便推广到未参与训练的采集信道中。

在本发明所述的一种通用的单声道实时降噪方法中，麦克风脉冲响应可以在消音室中使用不同麦克风进行采集。

在本发明所述的一种通用的单声道实时降噪方法中，所述长短期记忆门的小值被置零，并且去除由这些门所调制输入项的计算。

实施本发明的一种通用的单声道实时降噪方法，具有以下有益效果：

本发明的单声道降噪是指对单个麦克风采集的信号进行处理，相比波束形成的麦克风阵列降噪方法，单声道降噪具有更广泛的实用性。本发明采用有监督学习方法进行语音降噪，通过使用带有长短期记忆的回归神经网络来估计理想比值膜；本发明提出的回归神经网络使用大量带噪语音进行训练，其中包含了各种现实声学场景和麦克风脉冲响应，最终实现了独立于背景噪声、说话人和传输信道的通用语音降噪。本发明引入了消除对未来时间帧依赖的技术，并实现了降噪过程中回归神经网络模型的高效计算，在不影响降噪性能的前提下，通过进一步的简化计算，构造了一个非常小的回归神经网络模型，实现了实时语音降噪。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明通用的单声道实时语音降噪系统的结构示意图。

图2为本发明通用的单声道实时语音降噪方法的流程图。

图3为采用短时客观可懂度(STOI)衡量方法降噪性能的对比结果，图中分别展示了本发明提出的基于长短期记忆(LSTM)的方法、基于深度神经网络(DNN)的方法和原始混合语音的短时客观可懂度(STOI)值，其中图3A为人声噪声环境下的结果，图3B为餐厅噪声环境下的结果。

图4为训练后的回归神经网络(RNN)模型对带噪语音的处理结果，其中，噪声和说话人均未在训练中出现，图4A为带噪语音的频谱图；图4B为纯净语音的频谱图；

图4C为带噪语音所对应的IRM；

图4D为估计的IRM；

图4E为降噪语音的频谱图。

图5为优化后长短期记忆(LSTM)计算产生的IRM，其中，图5A为直接计算LSTM；图5B为减少7％的计算时间；图5C为减少11％的计算时间；图5D为减少17％的计算时间。

图6为通过改变回归神经网络(RNN)输入特征的维度(减少过去帧的数量)所对应的计算时间和相对于原始带噪语音的STOI增益。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1、2示出了本发明的通用的单声道实时降噪系统及方法流程图，降噪方法如下：S1接收电子格式的带噪语音，其中包含语音和非人声干扰噪声；S2从接收到的声音中逐帧提取短时傅里叶幅度谱作为声学特征；S3使用具有长短期记忆的深度回归神经网络逐帧产生比值膜；S4利用产生的比值膜对带噪语音的幅度谱进行掩蔽；S5使用掩蔽后的幅度谱和带噪语音的原始相位，经过逆傅里叶变换，再次合成语音波形。其中，在S2中的特征提取，将带噪语音波形进行分帧处理，每帧长度为20毫秒，相邻帧之间有10毫秒重叠。利用快速傅里叶变换提取每一帧上的频谱幅度矢量，每个矢量采用对数压缩的方法形成一帧声学特征(参见图2)。语音信号在时间维度上具有较强的相关性，而且这种相关性对语音分离有很大帮助。为了利用这一上下文信息提高分离性能，基于DNN的方法将当前帧和前后连续几帧拼接成一个维度较大的向量作为输入特征。该方法由计算机程序执行，从带噪语音中提取声学特征，估计理想时频比值膜，并重新合成降噪后的语音波形。该方法包含一个或多个程序模块，任何系统或带有可执行计算机编程指令的硬件设备用来执行上述的一个或多个模块。

对于不要求实时处理的应用，例如ASR，使用未来时间帧作为输入是可以接受的。然而，移动通信和助听器等降噪应用降噪中，需要实时处理而不能使用未来帧。本发明针对实时应用，所以在特征提取中不包括未来时间帧。具体来说，将先前5帧和当前帧拼接成一个统一的特征向量，作为本发明的输入。对过去帧的数量还可减少到小于5帧，可以在牺牲一定降噪性能的情况下进一步节省计算时间。对于实时性要求具有适当容忍度的应用场景，可以将未来一帧包括进来，此时输入特征共包含7帧。这种情况下可以使STOI提高大约一个百分点。STOI代表短时客观可懂度(Short-Time Objective intelligibility)，是评估语音降噪性能的重要指标，其典型数值范围在0和1之间，可以解释为听懂语音的百分比。

具体地，从带噪语音中估计出理想比值膜(Ideal ratio mask,IRM)，用IRM抑制背景噪声、保留语音信号，具体步骤：首先从带噪语音信号中提取原始声学特征，将其送入层叠的长短期记忆LSTM中，用来建模语音在时间上的动态特性，长短期记忆LSTM最后一层的输出构成了学习到的高级特征。然后，将高级特征送给掩膜预测层估计IRM。最后，将估计的IRM掩蔽到带噪语音上以合成降噪后的时域信号。

对于任何有监督学习方法，泛化能力至关重要。泛化能力是指在未参与过训练的场景下方法的性能表现。总体而言，本发明中的方法是使用大量噪声和说话人语音数据，通过大规模训练解决泛化性问题。由于回归神经网络RNN具有对信号中长期依赖关系的建模能力，所提出的模型对于新噪声和说话人场景具有很好的泛化性，这对实际应用至关重要。同时，本发明还公开了一种用于处理不同麦克风录音的泛化技术。最后，为了保证方法的实时性，本发明使用了一个小尺寸且不依赖未来帧的RNN模型，并实现了该模型的快速计算。

进一步地，如图2所示，其详细说明了本发明的整个过程，提出的语音降噪方法的详细过程，输入为带噪语音信号，输出为降噪后的语音信号，图中的“1”表示在训练期间涉及的步骤，图中的“2”表示推理或预测阶段的步骤，图中的“3”表示训练和预测共享的步骤。作为有监督学习方法，方法使用理想比值膜(IRM)为训练目标。IRM是通过比较带噪语音信号和对应纯净语音信号的STFT(短时傅里叶变换)得到。在训练阶段，带有LSTM的RNN估计每个输入带噪语音的理想比值膜，然后计算理想比值膜和估计掩膜的均方误差(Mean-squareerror，MSE)。神经网络经过重复的多轮迭代将整个训练集的MSE最小化，而每轮迭代中训练样本仅使用一次。训练阶段结束后，进入预测阶段，即使用训练好的RNN直接对输入的带噪语音进行降噪，具体而言，经过训练的网络对输入波形进行处理并产生估计掩膜，然后使用估计掩膜重新合成降噪(分离)后的语音波形。以下小节披露本发明方法的具体细节，并与现有方法进行比较。

在本发明中的时间建模的LSTM，采用LSTM刻画语音在时间上的动态特性。LSTM是一种特定类型的RNN，它可以有效地捕获长时的上下文信息。与传统的RNN相比，LSTM通过时间反向传播减轻了训练过程中梯度消失或爆炸的问题。LSTM是具有三个门(gate)的存储单元：输入门、遗忘门和输出门。遗忘门控制之前信息应该保留多少，输入门控制当前信息添加到存储单元的比例，输出门控制是否向外输出信息。具体可以通过以下公式描述：

i_t＝σ(W_xx_t+W_thh_t-1+b_t)

f_t＝σ(W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_oxx_t+W_ohh_t-1+b_o)

z_t＝g(W_zxx_t+W_zhh_t-1+b_z)

其中I_o、f_o和o分别是输入门，遗忘门和输出门的值。x_th_t分别表示t时刻的输入特征和隐含的激活输出。z_t和c_t分别表示块输入和存储单元。σ表示S形函数，σ(x)＝1/(1+e^x)。g表示双曲正切函数，g(x)＝(e^x-e^-x)/(e^x+e^-x)。符号□表示元素乘。输入和遗忘门根据之前一帧的激活状态和当前帧的输入计算得到，并根据输入和遗忘门对记忆单元进行上下文相关的更新。

当训练LSTM用于语音降噪时，LSTM存储单元保留了用于估计IRM的相关上下文信息。

本发明中的理想比值膜和估计，采用IRM作为有监督语音降噪的训练目标。在幅度谱中为每个时频单元定义IRM，具体公式如下：

其中，s_FFT(t，f)和Y_FFT(t，f)分别表示时频单元中纯净语音和带噪语音的幅度。

在训练阶段，使用混合前的纯净语音和带噪语音计算IRM。训练过程采用有监督训练方法调整神经网络参数，使其输出逼近IRM。具体来说，将最后一层LSTM的输出送到全连接(参见图2)的输出层，产生的输出与IRM进行比较。然后利用误差调整RNN连接权重，从而使得模型输出不断逼近IRM。

本发明中的语音波形合成，训练结束后，带有LSTM的RNN就可以在降噪应用中直接使用。在特定应用中使用已经训练好的神经网络称为推理或预测。在推理阶段，使用多层的RNN对噪声信号进行处理。这一推理过程的结果就是比值掩膜。利用比值掩膜对带噪语音分量进行加权(或掩蔽)就可以产生降噪后的语音信号。具体而言，将掩蔽后的幅度谱以及原始带噪语音的相位经过傅里叶逆变换，得到降噪后的语音波形信号。

本发明中的大规模噪声和说话人综合训练，为了实现与噪声无关的通用语音降噪，本发明使用了大量日常环境中收集的背景噪声对RNN进行训练。同时，为了实现说话者无关的语音降噪，在训练过程中使用了大量男性和女性的语音数据。在构建噪声语音训练集时，将纯净语音和背景噪声以某种信噪比(Signal-to-noise ratio，SNR)混合。构建含有多种环境噪声的训练集对模型至关重要。

在本发明的实施例中，噪声集采用包含10,000种短噪声的商用数据库，语音数据来自华尔街日报语料库中的70名说话人(男、女比例各50％)。按照上面的混合方法，整个训练集规模大约数千小时。这个大型的带噪语音数据集确保RNN得到充分训练。

图3采用STOI衡量方法降噪性能的对比结果，图中分别展示了本发明提出的基于LSTM的方法、基于DNN的方法和原始混合语音的STOI值，其中，图3A为人声噪声环境下的结果；图3B为餐厅噪声环境下结果。

具体地，图3显示经过训练后RNN的STOI结果、前馈DNN(具有五个隐藏层，每层2048个神经元)的STOI结果，和未经处理的带噪语音的STOI结果。在本实施例中使用的RNN具有4个隐藏层，每个隐藏层中具有1024个神经元。系统的评估是针对未训练说话人和两个没见过的非平稳噪声：人声噪声(Babble)和咖啡厅噪声。如图所示，本发明降噪的结果与原始带噪语音相比，STOI有着很大的提升.在输入SNR为-5分贝的情况下，STOI提升了约20个百分点；在SNR为5分贝的情况下，STOI提升了约10个百分点。该图还显示，所提出的方法明显优于前馈DNN，并且SNR越低，优势越大。

为了进一步展示降噪的效果，图4示出了训练后的RNN模型对带噪语音的处理结果，其中噪声和说话人均未在训练中出现；图4A为带噪语音的频谱图；图4B为纯净语音的频谱图；图4C为IRM；图4D为估计的IRM；图4E为降噪语音的频谱图。

本发明中的信道泛化，降噪方法除了应该对未经训练的噪声和说话人具有泛化性能外，降噪性能也不应受到不同麦克风或录音设备的影响。这一点非常重要，因为在实际应用中，声音采集设备通常是多种多样的，而且不同类型麦克风带来的信道畸变也不同。麦克风的类型包括：电容麦克风、丝带麦克风和动态麦克风等。不同的信道具有不同的频率响应，因此会引入信道失真。这种信道失真可以相当大，尤其是廉价或低质量的麦克风。鉴于实际用到的麦克风种类繁多，为每个可能的麦克风采集一组单独的训练数据是不切实际的。同时，用户希望降噪方法对于不同录音设备在降噪性能上保持一致。

本发明的发明人已经发现：如果只使用一种麦克风采集的噪声语音进行RNN模型的训练，对于由其他麦克风采集的噪声语音信号进行降噪处理时，效果有明显的下降，这种下降在某些情况下高达5个STOI百分点。本发明的发明人进一步观察到，如果训练数据包含多个麦克风采集的噪声语音时，则上述分离性能的下降量会大大减少。

尽管在训练数据中增加不同麦克风采集的声音可以改善降噪对信道的泛化性，但这样会大大增加采集成本。因此，本发明提出使用麦克风脉冲响应的方法来模拟生成麦克风对声音信号的采集。这将会显著降低采集成本和周期。在训练期间，使用不同的脉冲响应对语音和噪声段进行滤波，以此模拟不同的麦克风对信号的采集过程，增加降噪方法的信道泛化能力：

y＝s*t+α·n*l

其中，y,s和n分别表示时域的带噪语音、纯净语音和噪声信号；符号表示麦克风脉冲响应，控制噪声语音的SNR。另外，‘*’表示卷积运算。

本发明通过利用6个公开的脉冲响应来模拟6种不同麦克风进行信号采集，并相应地扩充训练集。经过该数据集训练后的降噪模型，大大缩小了不同麦克风在测试时降噪性能的差异。

本发明提出的信道扩展方法另一个优点是可以在消声室中直接测量麦克风脉冲响应。因此，本发明还提供了一种便捷地测量新型或特殊麦克风脉冲响应的技术。上面公式显示了如何使用脉冲响应来模拟特定麦克风进行录音采集并扩展训练数据。通过上述方法对训练数据进行扩充，成功解决了语音降噪的信道泛化问题。

本发明中的实时实现，在本发明的大规模噪声和说话人综合训练中描述了RNN模型的尺寸，并且在图3中展示对应降噪的结果。但是，该模型计算时间和模型尺寸不能满足实时处理的要求。针对实时处理的应用场景，本发明极大的缩减了模型尺寸。在优选实施例中，缩减后的RNN模型只有四个LSTM层，每层只有64个神经元。另外，输入特征只包含6帧，由过去5帧加上当前帧的STFT拼接组成(见A节)。输入特征不包括未来帧确保了本发明中的信号处理流程是一个因果系统，而这是实时处理的先决条件。

从STOI的表现上看，这个非常小的RNN与经过充分训练的大尺寸RNN模型相比，性能仅略有下降。当输入SNR为-5分贝时，STOI下降约为2-3％。当输入SNR较高时，STOI下降更小。总而言之，与原始带噪语音相比，这种小尺寸的RNN依然具有非常明显的降噪效果。

在小模型推理(预测)过程中，本发明提出了进一步优化计算。原理如下，在LSTM的推理过程中h_t和的计算取决于输入i_t、遗忘门f_t和输出门o_t。当这些门的值接近零时，不需要计算这些门所调制的对应输入项，从而消除输入项的计算。通过改变将门置零的阈值，可以节省不同的计算量。图5给出了使用不同阈值所得到的预测掩膜。对比RNN的直接计算，经过优化后的方法可以节省多达17％的计算时间。同时，本发明还采用了用其它加速计算的策略，包括重新组织模型参数的存储和加速大矩阵的乘法。

图5为优化LSTM计算产生的IRM估计，其中，图5A为直接计算LSTM；图5B为减少7％的计算时间；图5C为减少11％的计算时间；图5D为减少17％的计算时间。图6示出了通过改变回归神经网络(RNN)输入特征的维度(减少过去帧的数量)所对应的计算时间和相对于原始带噪语音的STOI增益。

具体地，计算效率还取决于输入特征的维度。通过在1.5GHz双核CPU的PC平台上测试，耗时仅为0.082倍(即8.2％)的实时。从图6中可以看出，当过去帧的数量从5减少到0时，降噪性能没有明显下降。

但由此带来了计算时间上的大幅降低，从0.082下降到0.044倍的实时，几乎节省了1倍的计算时间。

在本发明的特征提取中所述，特征中包含一个未来帧可将STOI可以提高1个百分点。对于对实时处理需求较小的应用，建议在训练期间逐步增加未来的帧。鉴于RNN对过去信息进行编码的能力，与添加相同数量的过去帧相比，添加未来帧通常会导致更好的降噪性能。

尽管通过以上实施例对本发明进行了揭示，但本发明的保护范围并不局限于此，在不偏离本发明构思的条件下，对以上各构件所做的变形、替换等均将落入本发明的权利要求范围内。

Claims

1.一种通用的单声道实时降噪方法，其特征在于，包括如下步骤：

S3使用具有长短期记忆的深度回归神经网络逐帧产生比值膜；S4利用产生的比值膜对带噪语音的幅度谱进行掩蔽；

2.如权利要求1所述的一种通用的单声道实时降噪方法，其特征在于，所述声学特征是将当前帧的短时傅里叶幅度和过去若干帧拼接而成。

3.如权利要求2所述的一种通用的单声道实时降噪方法，其特征在于，所述声学特征可以扩展成包含未来一个或若干帧，用在对延迟有适当宽容的应用场景中。

4.如权利要求1所述的一种通用的单声道实时降噪方法，其特征在于，所述长短期记忆包含多个堆叠的单向层，每层具有64个神经元。

5.如权利要求4所述的一种通用的单声道实时降噪方法，其特征在于，所述长短期记忆层利用沿时间展开的反向传播进行训练。

6.如权利要求1所述的一种通用的单声道实时降噪方法，其特征在于，所述带噪语音训练集由数千种不同类型的噪声和大约100个以上说话人的语音混合而成。

7.如权利要求6所述的一种通用的单声道实时降噪方法，其特征在于，通过与麦克风脉冲响应进行卷积来增加训练集中的带噪语音数据，以便推广到未参与训练的采集信道中。

8.如权利要求7所述的一种通用的单声道实时降噪方法，其特征在于，麦克风脉冲响应可以在消音室中使用不同麦克风进行采集。

9.如权利要求1所述的一种通用的单声道实时降噪方法，其特征在于，所述长短期记忆门的小值被置零，并且去除由这些门所调制输入项的计算。