CN109256144A

CN109256144A - 基于集成学习与噪声感知训练的语音增强方法

Info

Publication number: CN109256144A
Application number: CN201811385650.7A
Authority: CN
Inventors: 王兮楼; 郭武
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-01-22
Anticipated expiration: 2038-11-20
Also published as: CN109256144B

Abstract

本发明公开了一种基于集成学习与噪声感知训练的语音增强方法，相比于静态噪声感知训练，能较为准确地跟踪非平稳噪声，同时，利用梯度提升决策树可以自发提取特征的特性，获得对每一个时频单元的噪声场景编码，为深度神经网络提供噪声的额外信息，而传统的噪声感知训练方法只能够获得噪声的幅度信息。从实验结果来看，本方法也优于采用静态噪声感知训练的语音增强方法。

Description

基于集成学习与噪声感知训练的语音增强方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于集成学习与噪声感知训练的语音增强方法。

背景技术

集成学习，是集成多个弱预测模型，最终得到一个强预测能力的模型；可用于分类、回归、特征选取。一般而言，集成学习模型在预测准确度和泛化能力上都优于单个模型，广泛应用于工业界。梯度提升决策树(GBDT)是一种常用的集成学习模型，基于集成学习中的boosting思想，通过迭代的方式训练一系列决策树，每次迭代都在减少残差的梯度方向建立新的决策树，最后的预测值是所有迭代生成的决策树预测值的加和。GBDT可以被用来挖掘多种有区分性的特征组合，常用的有决策树的路径或叶子节点序号。利用GBDT进行特征提取的方式已经在工业界被证明有效。

语音增强，是指从被各式各样的噪音污染的语音中提取尽量纯净的语音的技术，目的是提高语音的质量、清晰度与可懂度。根据麦克风的数目，语音增强可以分为单声道和多声道语音增强。

单声道语音增强分为无监督学习方法与有监督学习方法。

1、无监督学习方法可以追溯到上个世纪信号处理的诞生开始，通过分析语音和噪声间相互作用的关系来实现语音增强的目标。

无监督学习方法主要包括：1)谱减法。通过对噪声进行短时谱估计，从带噪语音中减去被估计的噪声，得到干净语音的估计；谱减法的算法简单易实现，但是容易因为噪声方差的估计偏差带来语音失真或音乐噪声，导致增强结果不好。2)维纳滤波法通过维纳滤波方法通过一个全极点的模型，将音乐噪声变成了白噪声，增强后的语音听感比谱减法好。3)基于最小均方误差的谱估计方法通过语音活动检测(VAD)判断这一倾是语音或非语音，然后通过迭代，对噪声方差进行估计。但是，上述无监督学习方法中一般存在许多假设条件，比如假设信号平稳等，从而会影响增强后的语音听感。

2、有监督学习方法一般利用大量训练数据学习带噪语音的一些特征，建立带噪语音与干净语音在频域上的映射关系，从而实现从噪声语音中去除噪声的目标。

有监督学习方法包括：1)非负矩阵分解方法(NMF)。通过训练数据中的语音数据和噪声数据分别学习语音和噪声的字典，然后将带噪语音进行非负矩阵分解，得到干净语音和噪声的估计。2)基于神经网络的语音增强。该方法可以追溯到上个世纪80年代的基于浅层神经网络(SNN)的语音增强方法，但当时受限于浅层神经网络的建模能力，语音增强性能不佳。

近年来，随着神经网络的兴起以及语音数据规模的增大，基于大量语音数据训练的神经网络语音增强方法相较传统方法取得了极大的优势；不同的网络结构被用于语音增强，包括深层神经网络(DNN)，递归神经网络(RNN)，以及生成对抗网络，这些神经网络的不同结构带来对带噪语音建模性能的差异，而语音增强的流程大致相同。具体的，首先设置信噪比，通过人工加噪生成大量的带噪语音和干净语音对。之后利用语音的短时平稳特性，对语音做分帧处理。然后通过变换域方法，将语音由时域变换到频域，提取每帧语音的频域特征；通过设置合理的目标函数(一般为均方误差)，使用梯度下降等方法，使用神经网络学习带噪语音和干净语音的频谱特征之间的映射关系，获得干净语音的频谱估计。最后借助带噪语音的相位信息，利用傅里叶逆变换和经典重叠相加法，将估计的频谱变换到时域，得到增强后的时域波形。

上述神经网络均采用静态噪声感知训练，即根据语音前几个噪声帧估计静态噪声信息，将估计的噪声信息与频谱信息拼接起来训练语音增强神经网络的方法，静态噪声感知训练往往能有效地预测干净语音和抑制加性噪声。然而，面对非平稳和突发性噪声，静态噪声感知训练无法获得对噪声准确的估计。

发明内容

本发明的目的是提供一种基于集成学习与噪声感知训练的语音增强方法，可以很好地从带噪语音中恢复干净语音，提升语音增强的效果。

本发明的目的是通过以下技术方案实现的：

一种基于集成学习与噪声感知训练的语音增强方法，包括：

训练阶段：利用输入的带噪语音信号，训练用于动态噪声感知的梯度提升决策树模型；利用训练好的梯度提升决策树模型来估计带噪语音信号每个频带估计的噪声幅值以及噪声特征；将估计的噪声幅值以及噪声特征与带噪语音信号的对数频谱特征拼接起来，训练深层神经网络；

测试阶段：将待增强的带噪语音信号输入之前训练的梯度提升决策树模型，得到估计的噪声幅值及噪声特征，并与待增强的语音信号的对数频谱特征拼接起来，再输入至训练好的深层神经网络，由深层神经网络的输出层预测干净语音的对数频谱特征，再结合待增强的带噪语音信号的相位，使用重叠相加法对进行波形重构，得到增强后的语音信号。

由上述本发明提供的技术方案可以看出，相比于静态噪声感知训练，能较为准确地跟踪非平稳噪声，同时，利用梯度提升决策树可以自发提取特征的特性，获得对每一个时频单元的噪声场景编码，为深度神经网络提供噪声的额外信息，而传统的噪声感知训练方法只能够获得噪声的幅度信息。从实验结果来看，本方法也优于采用静态噪声感知训练的语音增强方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于集成学习与噪声感知训练的语音增强方法的流程图；

图2为本发明实施例提供的训练阶段的流程图；

图3为本发明实施例提供的训练梯度提升决策树模型的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于集成学习与噪声感知训练的语音增强方法，如图1所示，其主要包括：

一、训练阶段。

训练阶段的流程如图2所示，主要包括：

1、利用输入的带噪语音信号，训练用于动态噪声感知的梯度提升决策树模型。

鉴于语音信号频带间分布的差异，在每个频带分别训练梯度提升决策树模型，每个频带的梯度提升决策树模型由所有梯度提升决策树模型以加和方式集成：如图3所示，在每一帧的每一频带上分别迭代地训练K次，每颗梯度提升决策树模型学习之前所有树学习的残差，最终生成K颗梯度提升决策树模型；为获得对非平稳噪声尽可能准确的预测，每一帧将训练D*K颗梯度提升决策树模型；训练时，每个频带的梯度提升决策树模型的输入是相应频带时频单元及其邻域的STFT幅值及根据带噪语音信号的STFT幅值进行时间递归平均粗略估计的噪声幅值，时频单元及领域的STFT幅值通过对带噪语音信号进行短时傅里叶变换得到，回归的目标是时频单元噪声的STFT幅值，损失函数为均方误差。

短时傅里叶变换公式如下：

Y(t,d)＝X(t,d)+N(t,d) t＝1,2,....T d＝1,2,....D

其中，Y(t,d)、X(t,d)、N(t,d)分别表示第t帧第d个频带的带噪语音信号的频域信号、第t帧第d个频带的干净语音信号的频域信号、第t帧第d个频带的噪声信号的频域信号，T、D分别表示带噪语音信号的帧数、每一帧中的频带数。

2、利用训练好的梯度提升决策树模型来估计带噪语音信号每个频带估计的噪声幅值(噪声感知训练)以及噪声特征。

预测时，每个时频单元的噪声估计值是K颗梯度提升决策树模型预测值的加和。每个时频单元通过K颗梯度提升决策树模型最终会分别落在各个梯度提升决策树模型的叶子节点上，将K颗梯度提升决策树模型的叶子节点序号作为非平稳的噪声特征，每一帧带噪语音信号非平稳的噪声特征由D个频带的K颗树的叶子节点序号构成，共D*K维。

3、将估计的噪声幅值以及噪声特征与带噪语音信号的对数频谱特征(LPS特征)拼接起来，训练深层神经网络。

二、测试阶段。

将待增强的带噪语音信号输入之前训练的梯度提升决策树模型，得到估计的噪声幅值及噪声特征，与带噪语音信号的LPS特征拼接起来，输入至训练好的深层神经网络，由深层神经网络的输出层预测干净语音的对数频谱特征，再结合待增强的带噪语音信号的相位，使用重叠相加法对进行波形重构，得到增强后的语音信号。

本发明实施例上述方案有如下改进：

1)估计非平稳噪声。传统的静态噪声感知训练假定一句话的起始段没有语音，全是噪声，用句子的前几帧估计的噪声在整个句子上被认为是一样的，这种简单的噪声估计过程不适用于非平稳噪声的场景。而本发明通过对每个频带以boosting的方式训练一系列的决策树，根据邻域时频单元的STFT幅度以及MMSE估计的噪声幅度预测当前时频单元的噪声幅度，能更有效地跟踪非平稳噪声。将以上述方式在线估计的噪声输入深度神经网络，神经网络才能更好地区分噪声和语音。

2)提供噪声的额外信息。传统的基于深度神经网络的语音增强任务中，没有显式地用到每一句带噪语音噪声的信息，而进一步的噪声感知训练也只提供了噪声的幅度信息。为了让深度神经网络能获得对噪声场景更准确的估计，需要在向神经网络输入带噪语音的同时，输入噪声的信息。为此，本发明提出使用集成学习的方法，对每个频带的噪声信息用多个决策树建模，用当前时频单元落入的决策树的叶子节点序号作为噪声特征，可以认为它是代表这个时频单元所处场景的噪声编码。

本发明提出的方法有效地在深度神经网络框架下实现了适用于非平稳噪声的动态噪声感知训练。传统的静态噪声感知训练方法仅能为深度神经网络提供对平稳噪声的粗略估计，本发明用一系列的梯度提升决策树对噪声建模，获得对非平稳噪声的动态估计以及噪声场景特征，使得神经网络能更好地从带噪语音中恢复干净语音。为了验证本发明所提出方法的有效性，设计了如下实验。

1)实验设置

实验中干净语音的句子来自TIMIT数据库，训练集的带噪语音通过人工加噪的方式获得，来自NOISEX92数据库的4种噪声，即Babble，Factory，Machinegun，White被按照6种信噪比人工加噪到TIMIT数据库的4620句干净语音中，信噪比的类型有：20dB，15dB，10dB，5dB，0dB，-5dB。从合成的带噪语音当中，我们随机选择了100小时作为训练数据。TIMIT数据库核心测试集的192句语音被用来构造测试集，训练集中出现的四种噪声被人工加噪到干净语音上构成噪声匹配测试集合，来自NOISEX-92的三种不可见的噪声类型，即Destroyerengine，Leopard，M109被人工加噪到干净语音上构成不匹配测试集合。

提取特征时所用帧长是512个样本(32ms)，帧移是256个样本。根据短时离散傅里叶分析，提取257维的LPS特征来训练DNN网络，DNN的输入和输出特征向量都经过全局均值方差规整预处理。DNN有三个隐层。每个隐层有2048个节点，输入层有7帧的上下文相关信息。对于静态噪声感知训练，每一句语音的前6帧被用来估计静态噪声。对于本专利的动态噪声感知训练，每帧根据梯度提升决策树估计的D维的噪声幅度以及D*K维的噪声感知特征与原有的LPS特征拼接起来训练DNN。PSEQ和STOI被用来作为语音增强的评价指标，分别表征语音质量和可懂度的好坏。

2)实验结果

表1给出了只使用带噪语音LPS特征作为输入的DNN基线系统，静态噪声感知训练(SNAT)的DNN，本专利提出的集成动态噪声感知训练(EDNAT-1)的DNN，以及将噪声感知特征一并加入训练的DNN(EDNAT-2)在匹配测试集上PESQ和STOI平均结果的对比，表2给出了上述四个系统在不匹配测试集上PESQ和STOI平均结果的对比。

表1匹配测试集上不同噪声感知训练系统的PESQ、STOI结果对比

表2不匹配测试集上不同噪声感知训练系统的PESQ、STOI结果对比

从以上表中可以看出，在匹配测试集与不匹配测试集上，只使用了带噪语音LPS特征作为输入的DNN基线系统相比原始带噪语音，PESQ和STOI都有非常大的提升。SNAT相比DNN基线系统在大部分信噪比下都能带来提升，但在信噪比较低的样本上表现不佳，这可以解释为在信噪比较低的样本上，噪声占比重较大，SNAT对非平稳噪声的估计不准确导致DNN学习带噪语音到干净语音的相互关系更为困难。

EDNAT-1将静态噪声估计替换为用梯度提升决策树动态预测的噪声，对于低信噪比语音帧更加有效，能够比较准确地估计噪声，减少语音误判为噪声的情况。总体上看，在匹配测试集上EDNAT-1系统比SNAT系统平均PESQ指标提高了0.042，平均STOI指标提高了0.004；在不匹配测试集上EDNAT-1系统比SNAT系统平均PESQ指标提高了0.033，平均STOI指标提高了0.01。进一步地，EDNAT-2将噪声场景特征一并用于神经网络的训练，取得了更明显的效果提升。总体上看，在匹配测试集上EDNAT-2系统比SNAT系统平均PESQ指标提高了0.123，平均STOI指标提高了0.009；在不匹配测试集上EDNAT-1系统比SNAT系统平均PESQ指标提高了0.115，平均STOI指标提高了0.014。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于集成学习与噪声感知训练的语音增强方法，其特征在于，包括：

2.根据权利要求1所述的一种基于集成学习与噪声感知训练的语音增强方法，其特征在于，所述利用输入的带噪语音信号，训练用于动态噪声感知的梯度提升决策树模型包括：

在每一帧的每一频带上分别迭代地训练K次，每颗梯度提升决策树模型学习之前所有树学习的残差，最终生成K颗梯度提升决策树模型；每一帧将训练D*K颗梯度提升决策树模型，其中，D表示每一帧带噪语音信号中的频带数；

每个频带的梯度提升决策树模型的输入是相应频带时频单元及其邻域的STFT幅值及根据带噪语音信号的STFT幅值进行时间递归平均估计的噪声幅值，回归的目标是时频单元噪声的STFT幅值；其中，时频单元及领域的STFT幅值通过对带噪语音信号进行短时傅里叶变换得到。

3.根据权利要求2所述的一种基于集成学习与噪声感知训练的语音增强方法，其特征在于，每个时频单元的噪声估计值是K颗梯度提升决策树模型预测值的加和。

4.根据权利要求2所述的一种基于集成学习与噪声感知训练的语音增强方法，其特征在于，

时频单元通过K颗梯度提升决策树模型最终会分别落在各个梯度提升决策树模型的叶子节点上，将K颗梯度提升决策树模型的叶子节点序号作为非平稳的噪声特征，每一帧带噪语音信号非平稳的噪声特征由D个频带的K颗树的叶子节点序号构成，共D*K维。