CN110120227A

CN110120227A - 一种深度堆叠残差网络的语音分离方法

Info

Publication number: CN110120227A
Application number: CN201910345455.XA
Authority: CN
Inventors: 张涛; 朱诚诚
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-13
Anticipated expiration: 2039-04-26
Also published as: CN110120227B

Abstract

一种深度堆叠残差网络的语音分离方法，包括：语音信号数据集的制作；语音信号的特征提取，包括分别提取语音信号每一帧的：梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、Relative Spectral Transform‑Perceptual Linear Prediction和短时傅里叶变换幅度谱；深度堆叠残差网络的搭建；学习标签的制作；损失函数的制作；深度堆叠残差网络模型的训练。本发明分离出来的语音可以得到更高的语音质量和可懂度，尤其在低信噪比的声学的环境下。本发明在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型，而且模型的泛化能力特别强，对于未匹配的噪声环境也能有很好的性能表现。

Description

一种深度堆叠残差网络的语音分离方法

技术领域

本发明涉及一种语音分离方法。特别是涉及一种深度堆叠残差网络的语音分离方法。

背景技术

在现实生活中，人们所听到的声音几乎都是多种声音的组合体。语音信号往往会被各种噪声信号所干扰。语音分离技术旨在从被干扰的信号中分离出人们感兴趣的目标信号，从而提升语音的质量和可懂度。人耳听觉系统可以自动识别目标信号，即使在鸡尾酒会这种嘈杂的环境下，人耳也能轻易地识别出其中一个人的说话内容。所以语音分离通常被称为“鸡尾酒会问题”，这个术语是Cherry于1953年在他的论文中提出来的。采集的音频信号中除了主说话人之外，还有其他人说话声的干扰和噪音干扰。语音分离的目标就是从这些干扰中分离出主说话人的语音。根据干扰的不同，语音分离任务可以分为三类：当干扰为噪声信号时，可以称为“语音增强”(Speech Enhancement)；当干扰为其他说话人时，可以称为“多说话人分离”(Speaker Separation)；当干扰为目标说话人自己声音的反射波时，可以称为“解混响”(De-reverberation)，由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰，不做语音分离、直接进行识别的话，会影响到识别的准确率。因此在语音识别的前端加上语音分离技术，把目标说话人的声音和其它干扰分开就可以提高语音识别系统的鲁棒性，这从而也成为现代语音识别系统中不可或缺的一环.

迄今为止在针对语音分离领域已经有许多方法产生。在早期该领域专家提出了谱减法(Spectral Subtraction)、维纳滤波法(Wiener Filtering)和最小均方误差(MinimumMean Squared Error，MMSE)等。对于谱减法，谱减法是处理宽带噪声的最通用技术。它利用语音信号的短时平稳特性，从带噪语音的短时谱值中减去噪声的短时谱，从而得到纯净语音的频谱达到语音增强得目的。谱减法包括两种方法：幅度谱减法和功率谱减法。幅度谱减法就是在频域中从带噪语音的幅度谱上减去噪声的幅度谱作为语音信号的幅度谱；功率谱减法通过从带噪语音的功率谱中减去噪声的功率谱，得到纯净语音的功率谱估计，通过开方运算得到幅度谱。维纳滤波法是一种最小均方误差意义下的最优滤波器，维纳滤波法要求输入过程广义平稳且统计特性已知。早期提出的方法对环境都有特殊要求，要求噪声平稳的环境，否则对分离效果影响很大，由其在低信噪比的情况下效果特别差。但是在真实的环境中，大部分环境都是非平稳噪声。

在过去几年中，语音分离已被表达成一个监督学习问题。王等人在论文“A newBayesian method incorporating with local correlation for Ibm estimation”中首先引入深度神经网络来解决语音分离问题。对于有监督的语音分离，理想二值掩蔽和幅度谱图是最常见的分离目标。它们已经被证明能够在嘈杂的环境中显着提高语音的可懂度和感知质量。随后，徐等人在论文“An experimental study on speech enhancement basedon deep neural networks”中采用DNN来学习从嘈杂语音的对数功率谱到纯净语音的对数功能谱的映射函数。他们的实验结果表明，训练有素的DNN得到的语音质量(PESQ)高于传统的增强方法。过去十年见证了CNN在计算机视觉和自然语言处理领域的巨大成功。典型的CNN架构包括级联的卷积层，子采样层和完全连接的层。尽管近年来CNN已被用于语音分离，但它们都没有比DNN实现显著的性能提升。再后来，采用卷积最大神经网络(CMNN)来估计理想浮值掩蔽。实验结果表明，与DNN分离的语音相比，CMNN会得到相当的PESQ增益。

发明内容

本发明所要解决的技术问题是，提供一种能够使分离出来的语音得到更高的语音质量和可懂度的深度堆叠残差网络的语音分离方法。

本发明所采用的技术方案是：一种深度堆叠残差网络的语音分离方法，包括如下步骤：

1)语音信号数据集的制作；

2)语音信号的特征提取，包括分别提取语音信号每一帧的：

梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征、RelativeSpectral Transform-Perceptual Linear Prediction和短时傅里叶变换幅度谱；

3)：深度堆叠残差网络的搭建

深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成，其中，所述的卷积通道是由7个卷积残差模块组成，所述的第一全连接通道是由3个第一全连接残差模块组成，所述第二全连接通道是由3个第二全连接残差模块组成，所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道；

4)学习标签的制作

采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标：

其中S(m,f)²和N(m,f)²分别表示时间帧为m和频率为f时T-F单元内的语音能量和噪声能量；

5)损失函数的制作

所述的损失函数的制作采用如下的损失函数cost的表达式：

其中L2(w)表示深度堆叠残差网络最后一层权值的二范数，表示深度堆叠残差网络的预测值，y_n表示学习目标的真实值；

6)深度堆叠残差网络模型的训练

深度堆叠残差网络的输入分为两部分，输入的一部分为特征集，包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative SpectralTransform-Perceptual Linear Prediction四种特征；输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。

步骤1)是从TIMIT纯净语音库随机抽取1500段语音，每个语音都来自不同的语音文件，将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合，得到语音信号的数据集。

步骤2)所述的提取梅尔倒谱系数，是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换，得到语音信号的功率谱，所述的将功率谱转换到梅尔域，再经过对数运算和离散傅里叶变换，得到31维的梅尔倒谱系数。

步骤2)所述的提取Amplitude Modulation Spectrogram，是通过全波整流提取语音信号的包络，对所述的包络进行四分之一抽样，对抽样后得到的语音信号使用汉明窗进行加窗处理，采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换，得到抽样后的语音信号的幅度谱，最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波，得到15维的Amplitude Modulation Spectrogram。

步骤2)所述的提取Gammatone特征，是使用64通道的gammatone滤波器组分解语音信号，对每一个分解出的语音信号，使用100HZ的采样率进行采样，分别得到10毫秒帧偏移的语音信号，将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。

步骤2)所述的提取Relative Spectral Transform-Perceptual LinearPrediction，是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换，得到语音信号的功率谱，使用梯形滤波器将所述的语音信号的功率谱转换到20通道的巴克尺度，然后应用等响度预加重得到预加重信号，再对预加重信号使用强度响度定律，最后将强度响度定律处理后的信号经12阶线性预测模型预测的倒谱系数形成13维的Relative Spectral Transform-Perceptual LinearPrediction。

步骤2)所述的提取短时傅里叶变换幅度谱，是对采样率为16KHz的语音信号采用25ms帧长的汉明窗和10ms的帧移进行399点短时傅里叶变换，得到短时傅里叶变换幅度谱。

步骤3)所述的：

卷积残差模块，包含3层卷积层，第一层卷积层采用32通道，卷积核大小采用1×1的二维卷积窗，第二层卷积层采用32通道，卷积核大小采用3×3的二维卷积窗，第三层卷积层采用64通道，卷积核大小采用1×1的二维卷积窗，每层卷积层之前都设有一层归一化层，激活函数都采用Relu函数，第一层的输入与第三层的输出采用残差形式连接；

第一全连接残差模块，包含一层全连接层，且全连接层前面设有一层归一化层，激活函数采用Relu函数，输入与输出采用残差形式连接；

第二全连接残差模块，包含一层全连接层，且全连接层前面设有一层归一化层，激活函数采用sigmoid函数，输入与输出采用残差形式连接。

本发明的一种深度堆叠残差网络的语音分离方法，分离出来的语音可以得到更高的语音质量和可懂度，尤其在低信噪比的声学的环境下。在不同的信噪比下本发明的一种深度堆叠残差网络的语音分离方法的分离性能相比于与最新的深度学习算法也有一定的提升。在模型训练阶段不需要很多次的迭代就可以得到一个比较鲁棒的分离模型，而且模型的泛化能力特别强，对于未匹配的噪声环境也能有很好的性能表现。

附图说明

图1是本发明中深度堆叠残差网络的框架结构示意图；

图2是本发明中卷积残差模块示意图；

图3是本发明中第一全连接残差模块示意图；

图4是本发明中第二全连接残差模块示意图；

图5a是本发明的深度堆叠残差网络语音质量对比图；

图5b是本发明的深度堆叠残差网络语音可懂度对比图；

具体实施方式

下面结合实施例和附图对本发明的一种深度堆叠残差网络的语音分离方法做出详细说明。

本发明的一种深度堆叠残差网络的语音分离方法，包括如下步骤：

1)语音信号数据集的制作；是从TIMIT纯净语音库随机抽取1500段语音，每个语音都来自不同的语音文件，将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合，得到语音信号的数据集。

2)语音信号的特征提取，包括分别提取语音信号每一帧的：

梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、AmplitudeModulation Spectrogram(AMS)、Gammatone特征(GF)、Relative Spectral Transform-Perceptual Linear Prediction(RASTA-PLP)和短时傅里叶变换幅度谱；其中，

(1)所述的提取梅尔倒谱系数，是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换，得到语音信号的功率谱，所述的将功率谱转换到梅尔域，再经过对数运算和离散傅里叶变换(Discrete CosineTransfor,DCT)，得到31维的梅尔倒谱系数。

(2)所述的提取Amplitude Modulation Spectrogram，是通过全波整流提取语音信号的包络，对所述的包络进行四分之一抽样，对抽样后得到的语音信号使用汉明窗进行加窗处理，采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换，得到抽样后的语音信号的幅度谱，最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波，得到15维的Amplitude Modulation Spectrogram。

(3)所述的提取Gammatone特征，是使用64通道的gammatone滤波器组分解语音信号，对每一个分解出的语音信号，使用100HZ的采样率进行采样，分别得到10毫秒帧偏移的语音信号，将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。

(4)PLP是语音识别中常用的一种表示形式，其目的是寻找由共振峰组成的平滑光谱，能够尽可能消除说话人的差异。所述的提取Relative Spectral Transform-Perceptual Linear Prediction，是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换，得到语音信号的功率谱，使用梯形滤波器将所述的语音信号的功率谱转换到20通道的巴克尺度，然后应用等响度预加重得到预加重信号，再对预加重信号使用强度响度定律，最后将强度响度定律处理后的信号经12阶线性预测模型预测的倒谱系数形成13维的Relative Spectral Transform-Perceptual Linear Prediction。

(5)所述的提取短时傅里叶变换幅度谱，是对采样率为16KHz的语音信号采用25ms帧长的汉明窗和10ms的帧移进行399点短时傅里叶变换，得到短时傅里叶变换幅度谱。

3)：深度堆叠残差网络的搭建

如图1所示，深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成，其中，所述的卷积通道是由7个卷积残差模块a组成，所述的第一全连接通道是由3个第一全连接残差模块b组成，所述第二全连接通道是由3个第二全连接残差模块c组成，所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道；其中，

卷积残差模块(a)，如图2所示，包含3层卷积层，第一层卷积层采用32通道，卷积核大小采用1×1的二维卷积窗，第二层卷积层采用32通道，卷积核大小采用3×3的二维卷积窗，第三层卷积层采用64通道，卷积核大小采用1×1的二维卷积窗，每层卷积层之前都设有一层归一化层，激活函数都采用Relu函数，第一层的输入与第三层的输出采用残差形式连接；

第一全连接残差模块(b)，如图3所示，包含一层全连接层，且全连接层前面设有一层归一化层，激活函数采用Relu函数，输入与输出采用残差形式连接；

第二全连接残差模块(c)，如图4所示，包含一层全连接层，且全连接层前面设有一层归一化层，激活函数采用sigmoid函数，输入与输出采用残差形式连接。

4)学习标签的制作

理想浮值掩蔽(IRM)是监督学习语音分离中广泛使用的训练目标，本发明采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标：

5)损失函数的制作

损失函数在整个网络模型训练中起着至关重要的作用，本发明所述的损失函数的制作是采用如下的损失函数cost的表达式：

6)深度堆叠残差网络模型的训练

深度堆叠残差网络的输入分为两部分，输入的一部分为特征集，包含梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、Amplitude Modulation Spectrogram(AMS)、Gammatone特征(GF)和Relative Spectral Transform-Perceptual LinearPrediction(RASTA-PLP)四种特征；输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。

下面给出实例：

1、在数据集制作上，数据集应该是在-5～5dB的连续变化信噪比下产生1500个混合语音。

2、在深度堆叠网络框架上，其中卷积残差网络模块如图2所示，该模块有三层卷积层和三层归一化层利用残差网络组合而成，卷积层用来提取STFT域幅度谱的高阶特征，三层卷积层都采用2维的卷积核，卷积核步长都为1，且采用补0的方式使卷积过后得到的特征图大小与输入保持一致，从上而下第一层卷积层卷积核大小为1*1输出通道数为32，第二层卷积核大小为3*3输出通道数为32，第三层卷积核大小为1*1输出通道数为64，卷积层的激活函数都为Relu激活函数，归一化层用来加速网络收敛速度，以及防止网络过深导致梯度弥散。全连接残差网络模块1(Dense residual block1)如图3所示，该模块由一个归一化层和一个全连接层用残差网络的形式连接组成，该全连接层有1024个神经元，全连接层使用的是Relu激活函数。全连接残差网络模块2(Dense residual block2)如图4所示，该模块由一个归一化层和一个全连接层用残差网络的形式连接组成，该全连接层有4096个神经元，全连接层使用的是Sigmoid激活函数。

3、在进行网络模型训练时，采用200帧语音信号作为一个批次，学习率为0.001，迭代次数为40次。

如图5a所示，在相同的信噪比下，本发明的一种深度堆叠残差网络的语音分离方法相比DNN_IRM、GRN_IRM具有更高的语音质量(GPESQ),如图5b所示，在语音可懂度(GSTOI)上本发明的一种深度堆叠残差网络的语音分离方法，在低信噪比情况下分离性能更好。

Claims

1.一种深度堆叠残差网络的语音分离方法，其特征在于，包括如下步骤：

1)语音信号数据集的制作；

2)语音信号的特征提取，包括分别提取语音信号每一帧的：

3)：深度堆叠残差网络的搭建

深度堆叠残差网络框架是由卷积通道、第一全连接通道和第二全连接通道构成，其中，所述的卷积通道是由7个卷积残差模块(a)组成，所述的第一全连接通道是由3个第一全连接残差模块(b)组成，所述第二全连接通道是由3个第二全连接残差模块(c)组成，所述的卷积通道和第一全连接通道输出经过级联输入到第二全连接通道；

4)学习标签的制作

采用如下理想浮值掩蔽IRM(m,f)公式制作学习目标：

5)损失函数的制作

所述的损失函数的制作采用如下的损失函数cost的表达式：

6)深度堆叠残差网络模型的训练

深度堆叠残差网络的输入分为两部分，输入的一部分为特征集，包含梅尔倒谱系数、Amplitude Modulation Spectrogram、Gammatone特征和Relative Spectral Transform-Perceptual Linear Prediction四种特征；输入的另一部分为语音信号当前帧以及相邻四帧的短时傅里叶变换幅度谱。

2.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤1)是从TIMIT纯净语音库随机抽取1500段语音，每个语音都来自不同的语音文件，将1500段语音与从NOISEX-92数据库选取的15种噪声随机混合，得到语音信号的数据集。

3.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤2)所述的提取梅尔倒谱系数，是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换，得到语音信号的功率谱，所述的将功率谱转换到梅尔域，再经过对数运算和离散傅里叶变换，得到31维的梅尔倒谱系数。

4.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤2)所述的提取Amplitude Modulation Spectrogram，是通过全波整流提取语音信号的包络，对所述的包络进行四分之一抽样，对抽样后得到的语音信号使用汉明窗进行加窗处理，采用32ms的帧长和10ms帧移对加窗处理后的信号进行短时傅里叶变换，得到抽样后的语音信号的幅度谱，最后利用15个中心频率均匀分布在15.6到400HZ的三角窗对所述抽样后的语音信号的幅度谱滤波，得到15维的Amplitude Modulation Spectrogram。

5.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤2)所述的提取Gammatone特征，是使用64通道的gammatone滤波器组分解语音信号，对每一个分解出的语音信号，使用100HZ的采样率进行采样，分别得到10毫秒帧偏移的语音信号，将所有偏移的语音信号的幅度通过立方根运算得到放大压缩后的64维的Gammatone特征。

6.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤2)所述的提取Relative Spectral Transform-Perceptual Linear Prediction，是对采样率为16KHz的语音信号采用20ms帧长的汉明窗和10ms的帧移对语音信号进行分帧的512点短时傅里叶变换，得到语音信号的功率谱，使用梯形滤波器将所述的语音信号的功率谱转换到20通道的巴克尺度，然后应用等响度预加重得到预加重信号，再对预加重信号使用强度响度定律，最后将强度响度定律处理后的信号经12阶线性预测模型预测的倒谱系数形成13维的Relative Spectral Transform-Perceptual Linear Prediction。

7.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤2)所述的提取短时傅里叶变换幅度谱，是对采样率为16KHz的语音信号采用25ms帧长的汉明窗和10ms的帧移进行399点短时傅里叶变换，得到短时傅里叶变换幅度谱。

8.根据权利要求1所述的一种深度堆叠残差网络的语音分离方法，其特征在于，步骤3)所述的：

卷积残差模块(a)，包含3层卷积层，第一层卷积层采用32通道，卷积核大小采用1×1的二维卷积窗，第二层卷积层采用32通道，卷积核大小采用3×3的二维卷积窗，第三层卷积层采用64通道，卷积核大小采用1×1的二维卷积窗，每层卷积层之前都设有一层归一化层，激活函数都采用Relu函数，第一层的输入与第三层的输出采用残差形式连接；

第一全连接残差模块(b)，包含一层全连接层，且全连接层前面设有一层归一化层，激活函数采用Relu函数，输入与输出采用残差形式连接；

第二全连接残差模块(c)，包含一层全连接层，且全连接层前面设有一层归一化层，激活函数采用sigmoid函数，输入与输出采用残差形式连接。