CN110060704A

CN110060704A - 一种改进的多目标准则学习的语音增强方法

Info

Publication number: CN110060704A
Application number: CN201910233182.XA
Authority: CN
Inventors: 张涛; 邵洋洋
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-07-26

Abstract

一种改进的多目标准则学习的语音增强方法，包括：信号预处理，包括获取训练数据集和测试数据集，并对训练数据集和测试数据集的数据进行分帧及加窗，分别确定窗函数类型、分帧时长和帧移参数；计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱；计算多目标训练的目标函数；训练深度神经网络；测试网络，用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征，输入到深度神经网络中进行神经网络的测试；将语音可懂度、主观语音质量评估和语音质量分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。本发明消除了带噪语音信号的相位信息对增强语音的可懂度和语音质量的不利影响，实施较为方便容易。

Description

一种改进的多目标准则学习的语音增强方法

技术领域

本发明涉及一种语音增强方法。特别是涉及一种改进的多目标准则学习的语音增强方法。

背景技术

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中尽可能提取有用的语音信号(即纯净语音)，同时抑制、降低噪声干扰的技术。近年来，多种语音增强方法已被提出，主要包括基于信号处理的方法、基于统计模型的方法和基于模型训练的方法等。在这些方法中，基于信号处理的方法，谱减法和维纳滤波法是两种最具有代表性的算法，当正确估计背景噪声时，该类方法能取得较好的语音增强性能，然而，在现实环境中，尤其是在低信噪比的条件下，由于噪声的随机性和突变性，使得噪声很难被准确估计，导致增强性能大大下降，同时易引入“音乐噪声”；基于统计模型的方法，虽然在低信噪比的条件下也可以取得比较好的增强性能，但是考虑到噪声与语音间的相互关系非常复杂，需要一些信号间的独立性假设以及对特征分布的高斯性假设，然而这些假设通常是理想的，在未知的不匹配噪声条件下，其性能恶化；基于模型训练的语音增强方法在低信噪比、复杂背景噪声条件下表现出了更好的效果。

基于深度神经网络(DNN)的语音增强就是近年来兴起的一种基于模型训练的方法。基于深度神经网络(DNN)的语音增强方法主要涉及特征、模型和目标三个方面的内容，与特征一样，对目标函数的研究也非常有价值，在相同的训练数据特征和学习模型的前提下，通过更优的目标函数能使得模型训练地更好。基于DNN的语音增强常用的目标函数有最小均方误差、Kullback-Leibler散度、Itakura-Saito距离等。其中，研究表明，最小均方误差目标函数取得了更好的性能。

但由于直接对目标函数的优化很难取得实质性的进展，所以许多研究开始针对于训练目标这个对象展开。所以，基于单目标准则的学习方法首先被提出来。总结起来，单个训练目标可以分为三类：二值掩蔽、浮值掩蔽和纯净语音的频谱包络。研究发现，就增强语音的质量和可懂度而言，基于浮值掩蔽的训练目标要优于基于二值掩蔽的训练目标，然而基于频谱包络的训练目标效果最差。

基于以上单目标准则的学习方法，一种多目标学习框架被Xu等人提出。该方法以纯净语音的对数功率谱(Log Power Spectrum,LPS)特征作为主要训练目标，将梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、理想二值掩蔽(Ideal BinaryMask,IBM)等放在深度神经网络(DNN)的输出端，作为辅助训练目标，同时在深度神经网络(DNN)的输入端拼接带噪语音的梅尔频率倒谱系数(MFCC)特征作为互补特征。实验证明其性能要优于以上的单目标准则学习。

然而为了使得基于深度神经网络(DNN)的增强语音的可懂度和语音质量相较于单目标准则学习方法和已提出的多目标准则学习方法仍有所提高，从而间接地对目标函数进行优化，那么探索一种更优的多目标准则学习方法就成了目前基于深度神经网络(DNN)的语音增强方法的一个新挑战。

发明内容

本发明所要解决的技术问题是，提供一种能够提高增强语音的可懂度和语音质量的改进的多目标准则学习的语音增强方法。

本发明所采用的技术方案是：一种改进的多目标准则学习的语音增强方法，包括如下步骤：

1)信号预处理，包括获取训练数据集和测试数据集，并对训练数据集和测试数据集的数据进行分帧及加窗，分别确定窗函数类型、分帧时长和帧移参数；

2)计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱；

3)计算多目标训练的目标函数；

4)训练深度神经网络；

5)测试网络，用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征，输入到深度神经网络中进行神经网络的测试；将语音可懂度、主观语音质量评估和语音质量分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。

步骤1)所述的获取训练数据集和测试数据集，是从TIMIT标准语料库中选取部分语句作为训练语音，再选取作为训练语音以外的部分语句作为测试语音；从噪声库中选取设定的噪声分别作为训练噪声和测试噪声；分别将训练语音和训练噪声及测试语音和测试噪声按设定的混合信噪比进行混合，得到实验所需要的训练数据集和测试数据集。

步骤2)包括：

(2.1)利用经典的周期图法通过分别计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的短时离散傅里叶变换求得第i帧信号在频率f的功率谱S_x(i,f)：

式中，N_W表示每帧数据长度，N_SH表示每帧数据移动长度，h(l)表示长度为N_W的窗函数，l表示每帧数据的N_W个点中的第l个点，x代表第i帧信号；

(2.2)取功率谱S_x(i,f)的对数，进而得到分帧加窗后的训练数据集和测试数据集中带噪语音的每帧信号的对数功率谱。

步骤3)是采用如下公式计算：

式中表达了有n个训练目标的情况，而式中第一项表达了单目标训练归一化后的目标函数；式中，MSE表示最小均方误差，W表示权重矩阵，b表示偏置，M表示输入到深度神经网络的所有训练数据集中的数据样本数，m是样本索引号，和分别表示估计语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标；S_m、S_m1、S_m2和S_mn分别表示纯净语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标；α、β和γ分别表示第一个、第二个和第n个辅助训练目标的加权系数。

步骤4)包括：

(4.1)设置参数：

预先设置深度神经网络语音增强系统的隐藏层数，隐藏层节点数以及学习率；

(4.2)用所述的训练数据集的带噪语音的每帧信号的对数功率谱作为特征输入到深度神经网络，输出层为多个训练目标的组合，进行网络训练。

本发明的一种改进的多目标准则学习的语音增强方法，以纯净语音的理想浮值掩蔽(IRM)作为深度神经网络的主训练目标，相较于已提出的多目标准则学习方法中以纯净语音的对数功率谱作为深度神经网络的主训练目标而言，免去了由于重构语音增强信号时需要用到带噪语音信号的相位信息的过程，从而消除了带噪语音信号的相位信息对增强语音的可懂度和语音质量的不利影响；在重构语音增强信号时，只需使主训练目标理想浮值掩蔽(IRM)和带噪语音信号进行加权乘积运算即可得到语音增强信号，实施较为方便容易；进行深度神经网络的训练时除了主训练目标理想浮值掩蔽(IRM)，还将理想二值掩蔽、对数功率谱、Gammatone域的功率谱、梅尔频率倒谱系数和Gammatone域倒谱系数作为，对深度神经网络的参数更新起到了更好的限制作用；相比于单目标准则学习方法和已提出的以纯净语音的对数功率谱作为主训练目标，以梅尔频率倒谱系数(MFCC)，理想浮值掩蔽(IBM)作为辅助训练目标的多目标准则学习方法，在短时客观可懂度(STOI)、感知语音质量(PESQ)和信噪比(SNR)方面上均有很大的提升，从而间接地优化了深度神经网络的目标函数。

附图说明

图1是本发明一种改进的多目标准则学习的语音增强方法的结构示意图。

具体实施方式

下面结合实施例和附图对本发明的一种改进的多目标准则学习的语音增强方法做出详细说明。

如图1所示，本发明的一种改进的多目标准则学习的语音增强方法，包括如下步骤：

所述的获取训练数据集和测试数据集，是从TIMIT标准语料库中选取部分语句作为训练语音，再选取作为训练语音以外的部分语句作为测试语音；从噪声库中选取设定的噪声分别作为训练噪声和测试噪声；分别将训练语音和训练噪声及测试语音和测试噪声按设定的混合信噪比进行混合，得到实验所需要的训练数据集和测试数据集。

2)计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱(LPS)；包括：

式中，N_W表示每帧数据长度，N_SH表示每帧数据移动长度，h(l)表示长度为N_W的窗函数，，l表示每帧数据的N_W个点中的第l个点，x代表第i帧信号；

3)计算多目标训练的目标函数；是要用如下公式计算：

式中表达了有n个训练目标的情况，而式中第一项则表达了单目标训练归一化后的目标函数。式中，MSE表示最小均方误差，W表示权重矩阵，b表示偏置，M表示深度神经网络输入的所有训练数据集中的数据样本数，m是样本索引号，分别表示估计语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标；S_m，S_m1，S_m2，S_mn分别表示纯净语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标；α、β和γ分别表示第一个、第二个和第n个辅助训练目标的加权系数。

4)训练深度神经网络(DNN)；包括：

(4.1)设置参数：

(4.2)用所述的训练数据集的带噪语音的每帧信号的对数功率谱(LPS)作为特征输入到深度神经网络，输出层为多个训练目标的组合，进行网络训练。

5)测试网络，用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征，输入到深度神经网络中进行神经网络的测试；将短时客观可懂度(STOI)、感知语音质量(PESQ)和信噪比(SNR)分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。

下面给出具体实例：

(一)信号预处理

1、选取数据：

从TIMIT标准语料库中选取600条语句作为训练纯净语音，采样频率均为16KHz；从Noisex-92标准噪声库中选取Factory，F16，White和Pink四种噪声作为训练噪声，纯净语音与噪声分别以混合信噪比-5dB，-2dB，0dB和2dB混合得到训练数据集。

从TIMIT剩余语句中选取120条语句作为测试集纯净语音，采样率仍为16KHz；从Noisex-92标准噪声库中选取Factory作为测试噪声，分别以-5dB，-2dB，0dB和2dB的混合信噪比与纯净语音进行混合，得到测试数据集。

2、分帧及加窗

语音信号分帧时帧长为320点，帧移为160点，窗函数为汉明窗。

(二)计算训练数据集和测试数据集中的带噪语音信号的对数功率谱(LPS)。

(三)计算多目标训练的目标函数：

本实例以纯净语音的理想浮值掩蔽(IRM)为主训练目标，以纯净语音的频谱包络、理想二值掩蔽(IBM)、对数功率谱(LPS)、Gammatone域的功率谱(GF_POW)、梅尔频率倒谱系数(MFCC)和Gammatone域倒谱系数(GFCC)作为辅助训练目标。具体用到的多训练目标的组合有：理想浮值掩蔽+Gammatone域的功率谱(IRM+GF_POW)、理想浮值掩蔽+对数功率谱(IRM+LPS)、理想浮值掩蔽+对数功率谱+理想二值掩蔽(IRM+LPS+IBM)、理想浮值掩蔽+对数功率谱+理想二值掩蔽+Gammatone域倒谱系数(IRM+LPS+IBM+GFCC)、理想浮值掩蔽+对数功率谱+理想二值掩蔽+梅尔域倒谱系数(IRM+LPS+IBM+MFCC)和理想浮值掩蔽+对数功率谱+理想二值掩蔽+梅尔域倒谱系数+Gammatone域倒谱系数(IRM+LPS+IBM+MFCC+GFCC)。

根据深度神经网络(DNN)的以最小均方误差为目标函数的多目标训练归一化后的目标函数定义式，

分别计算上述多个目标组合的目标函数。

(四)训练DNN网络

1、设置参数：

DNN语音增强系统隐藏层数设为4层，每层1024个节点，学习率为0.01。

2、用所述的训练数据集的带噪语音的每帧信号的对数功率谱LPS作为特征输入到DNN网络，输出层为所述多个训练目标的组合，对DNN网络进行训练。

(五)测试网络

用所述测试数据集的对数功率谱作为特征输入到深度神经网络(DNN)，进行网络的测试。将短时客观可懂度(STOI)、感知语音质量(PESQ)和信噪比(SNR)分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。

如表1、表2、表3所示，本发明所提出的一种改进的以(理想浮值掩蔽)IRM为主训练目标，以纯净语音的频谱包络、理想二值掩蔽(IBM)、对数功率谱(LPS)、Gammatone域的功率谱(GF_POW)、梅尔频率倒谱系数(MFCC)和Gammatone域倒谱系数(GFCC)作为辅助训练目标的多目标准则学习的语音增强方法，平均来讲，1)在短时客观可懂度(STOI)指标上，除理想浮值掩蔽+Gammatone域的功率谱(IRM+GF_POW)、理想浮值掩蔽+对数功率谱+理想二值掩蔽+Gammatone域倒谱系数(IRM+LPS+IBM+MFCC)和理想浮值掩蔽+对数功率谱+理想二值掩蔽+梅尔域倒谱系数+Gammatone域倒谱系数(IRM+LPS+IBM+MFCC+GFCC)三个多目标组合的得分低于以IRM为训练目标的单目标准则学习方法的得分，其余所有本发明提出的多目标准则学习方法的STOI得分均高于4种单目标准则学习方法和已提出的对数功率谱+梅尔频率倒谱系数+理想二值掩蔽(LPS+MFCC+IBM)多目标组合学习方法；2)在语音感知效果(PESQ)以及信噪比(SNR)两个指标上，除理想浮值掩蔽+Gammatone域的功率谱(IRM+GF_POW)的多目标组合以1.9379的得分低于以理想浮值掩蔽(IRM)为训练目标的单目标训练的方法，本发明中提出的以IRM为主训练目标的所有多目标组合准则学习方法均优于4种单目标准则学习方法和已提出的LPS+MFCC+IBM多目标组合学习方法。

表1利用不同训练目标语音增强后的STOI值

表2利用不同训练目标语音增强后的PESQ值

表3利用不同训练目标语音增强后的SNR值dB

Claims

1.一种改进的多目标准则学习的语音增强方法，其特征在于，包括如下步骤：

3)计算多目标训练的目标函数；

4)训练深度神经网络；

2.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法，其特征在于，步骤1)所述的获取训练数据集和测试数据集，是从TIMIT标准语料库中选取部分语句作为训练语音，再选取作为训练语音以外的部分语句作为测试语音；从噪声库中选取设定的噪声分别作为训练噪声和测试噪声；分别将训练语音和训练噪声及测试语音和测试噪声按设定的混合信噪比进行混合，得到实验所需要的训练数据集和测试数据集。

3.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法，其特征在于，步骤2)包括：

4.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法，其特征在于，步骤3)是采用如下公式计算：

5.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法，其特征在于，步骤4)包括：

(4.1)设置参数：