CN110544485A

CN110544485A - 一种利用cnn的se-ed网络进行远场语音去混响的方法

Info

Publication number: CN110544485A
Application number: CN201910921234.2A
Authority: CN
Inventors: 李楠; 関博史
Original assignee: Huiyan Technology (tianjin) Co Ltd
Current assignee: Huiyan Technology (tianjin) Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2019-12-06

Abstract

本发明涉及语音信号处理技术领域，针对远场情况下混响比较大从而引起语音识别的识别准确率严重下降的情况，提出了一种利用CNN的SE‑ED网络进行语音去混响的方法。技术方案以2014年的REVERB Challenge数据集作为处理对象，主要涉及以下几个方面：1)对该数据集中的含混响的语音和与其对应的不含混响的语音进行特征提取；2)针对所提取的特征进行从含混响的语音特征到不含混响语音特征映射；3)将通过所提出的网络框架所增强后的特征进行声学模型训练及其解码。本发明通过控制scale的大小，把语音中重要的特征增强，不重要的特征减弱，从而让提取的语音特征指向性更强，达到了方案的预期结果，从而使得复杂场景下的远场语音识别性能得到了很好的提升。

Description

一种利用CNN的SE-ED网络进行远场语音去混响的方法

技术领域

本发明涉及语音信号处理技术领域，具体是涉及一种利用CNN的SE-ED网络进行远场语音去混响的方法。

背景技术

语音的去混响是远场语音识别中的一个主要的研究方向。在一个房间内，混响语音可以表示为干净语音信号和房间冲击响应(RIR)的卷积，所以含混响的语音会受到同一句话中的之前的语音信息的干扰。混响会包括早期混响和晚期混响，早期混响会对语音识别的效果带来一定的提升，但是晚期混响会使语音识别的识别效果下降。因此，如果能有效地抑制或减少晚期混响，将会得到一个良好的语音识别效果。

目前神经网络方法虽然能够建立一个良好的非线性映射，但是仅仅使用全连接的神经网络，效果很难达到本发明所预期的效果，构建一个好的网络结构对于语音识别将产生一个好的识别性能的提升，对复杂场景下的语音识别有着现实意义。卷积神经网络(CNN)已被证明是解决各种视觉任务的有效模型，但在解决语音去混响领域的研究仍有待深入。

发明内容

为了解决以上问题，本发明提供了一种利用CNN的SE-ED(Squeeze-and-Excitation结构和Encoder-Decoder)框架进行远场语音去混响的方法，具体的技术方案如下：

一种利用CNN的SE-ED框架进行远场语音去混响的方法，包括以下步骤：

S1：声学特征的提取，Mel频率倒谱系数(MFCC)是基于人耳听觉频域特性，将线性幅度谱映射到基于听觉感知的Mel非线性幅度谱中，再转换到倒谱上，具体包括：

S11：预加重：将为2014年的REVERB Challenge比赛数据集中任意一组语音信号s(n)通过高通滤波器，所述高通滤波器的函数关系可以表示为：H(z)＝1-az^-1([a∈[0.9,1])，a值取0.95。

S12：加窗：取25ms为一帧，并使用汉宁窗。

S13：快速傅里叶变换(FFT)：对每一帧进行FFT变换，从时域数据转变为频域数据，并计算其能量。

S14：Mel滤波：把求出的每帧谱线能量通过Mel滤波器，并计算在Mel滤波器中的能量。

S15：计算DCT倒谱：把Mel滤波器的能量取对数后计算DCT，得到Mel频率倒谱系数MFCC。

S2：神经网络框架的设计及其训练包括以下步骤：

S21：构建SE—ED(Squeeze-and-Excitation—Encoder-Decoder)网络结构，其中Encoder-decoder模型框架中穿插着SeNet(Squeeze-and-Excitation Networks)结构。

SeNet构建块的基本结构如图2所示。对于任何给定的变换Ftr：X→U，X∈RW′×H′×C′，U∈RW×H×C，均可以构造一个相应的SeNet块来执行特征重新校准。特征U首先通过Squeeze操作，该操作跨越空间维度W×H聚合特征映射来产生通道描述符。这个描述符嵌入了通道特征响应的全局分布，使来自网络全局感受野的信息能够被其较低层利用。这之后是一个Excitation操作，其中通过基于通道依赖性的自门机制为每个通道学习特定采样的激活，控制每个通道的激励。然后特征映射U被重新加权以生成SeNet块的输出，然后可以将其直接输入到随后的层中。

S22：在所述Encoder-decoder模型框架中，一个Encoder是一个接收输入，输出特征向量的网络，将Encoder的通道个数分别设置成[12，12，24，24，32]；Decoder同样也是一个网络，它从编码器获取特征向量，并输出与实际输入或预期输出最近似的结果，将Decoder的通道个数分别设置成为[32，24，24，12，12]，卷积神经网络的通道总个数设置为C。

S23：对步骤15中得到的MFCC特征进行Squeeze操作，对C个通道做全局平均池化处理；所述Squeeze的计算函数关系可以表示为：结合图2可知，Squeeze算法是将空间上所有点的信息都平均成了一个值。从而可以基于通道的整体信息来计算scale，因为利用的是通道间的相关性，而不是空间分布中的相关性，所以用GAP屏蔽掉空间上的分布信息能让scale的计算更加准确。

S24：对S22中得到的全局平均池化数据通过两个全连接实现Excitation操作，所述Excitatione的计算函数关系可以表示为：s＝F_ex(z,W)＝σ(g(z,W))＝σ(w₂δ(W₁z))；其中，第一个全连接把C个通道压缩成了C/r个通道来降低计算量，第二个全连接再恢复回C个通道，所述r是指压缩的比例，大小设置为4时，整体性能和计算量最平衡；最后基于通道的整体信息训练出得出下一级输入数据，将所输入述数据通过sigmoid限制到[0，1]范围内得到scale值。

S25：使用训练出scale值与原来的卷积神经网络的输出层的C个通道进行相乘，得到下一级的输入数据。

S3：基于DNN-HMM声学模型的训练及其解码包括以下步骤：

S31：使用Kaldi中的nnet2中的声学模型进行最终的语音识别。

S32：使用干净语音的BNF和干净语音的MFCC的融合特征进行归一化，然后求其一阶差分和二阶差分，将进行差分后的特征来进行单因素以及三音素训练。

S33：使用数据集中多场景下进行语音去混响之后的BNF和MFCC特征进行声学模型的训练。

S34：最后将去混响之后的测试集数据进行解码。

进一步地，步骤S3中，使用了LDA算法和MLLR算法来进行模型的优化。

进一步地，步骤S3中，所使用的语言模型为tri-gram语言模型。

与现有的语音去混响方法相比，本发明的有益效果是：

本发明利用CNN的SE-ED网络对远场语音去混响，这种结构可通过控制scale的大小，把语音中重要的特征增强，不重要的特征减弱，从而让提取的语音特征指向性更强，达到了方案的预期结果，从而使得复杂场景下的远场语音识别性能得到了很好的提升。

附图说明

图1是本发明基于SE-ED语音去混响方法的系统框图；

图2是本发明SeNet的Block单元结构图；

图3是本发明SeNet的计算流程图。

具体实施方式

为更进一步阐述本发明所采取的方式和取得的效果，下面将结合附图对本发明的技术方案进行清楚和完整地描述。

实施例

本实施例以基于Reverb Challenge数据集为例来给出发明的实施方式，整个系统算法前端去混响流程如图1所示，包括数据的特征提取、SE-ED网络的构建以及语音识别模型的训练方式这几个步骤。具体步骤如下：

1、实验数据收集

为了公平有效的评估本发明的方法，本发明使用REVERB挑战赛官方数据集中的单通道数据集进行实验。本发明使用了一种多环境的训练集，该训练集由干净的训练数据通过卷积干净的话语与测量的房间冲击响应所得到，这其中本发明也加入了一些信噪比为20db加性噪声。实验中的测试数据包括模拟数据(SimData)和真实环境下的数据(RealData)。SimuData由基于WSJCAM0语料库生成的混响语音组成，这些语音采用与多条件训练集相同的人工失真方式。SimuData模拟了六种混响情况：三个不同大小的房间(小、中、大)和一个扬声器和麦克风之间的距离(near＝50cm和far＝200cm)。RealData发音来自MC-WSJ-AV语料库。在实际情况下，由于扬声器会跟随头部的运动，声源不能被认为是完全空间固定的，因此RealData与模拟数据是两种不同状态下的数据。用于RealData录音的房间不同于用于SimuData和训练集的房间，其房间的混响时间约为0.7s，还包含一些固定的环境噪声。RealData中根据扬声器和麦克风之间的两个距离(近＝100cm和远＝250cm)的不同也分为两种不同的条件。但是由于在RealData和SimuData中使用的句子的文本相同。因此，对于SimuData和RealData，本发明可以使用相同的语言模型以及声学模型。

2、语音识别

Kaldi在做语音识别方面是一个不错的工具，所以本发明中本发明使用Kaldi中的nnet2中的声学模型进行的语音识别。在此过程中，本发明使用干净语音的MFCC特征进行归一化然后求其一阶差分和二阶差分，将进行差分后的特征来进行单音素以及三音素训练，本发明中也用了一个LDA算法和MLLR算法来进行模型的优化。然后，本发明使用ReverbChallenge数据集中多场景下训练集的MFCC特征进行声学模型的训练。最后，本发明将该数据集的测试集数据进行解码。在语音识别的这部分，本发明使用的语言模型为tri-gram语言模型。在不进行去混响的情况下，该数据集的结果如表1所示。

3、SE-ED网络的构建包括以下步骤：

1)构建SE—ED(Squeeze-and-Excitation—Encoder-Decoder)网络结构，其中Encoder-decoder模型框架中穿插着SeNet(Squeeze-and-Excitation Networks)结构。

2)在所述Encoder-decoder模型框架中，将Encoder的通道个数分别设置成[12，12，24，24，32]；将Decoder的通道个数分别设置成为[32，24，24，12，12]，卷积神经网络的通道总个数设置为C。

3)对步骤15中得到的MFCC特征进行Squeeze操作，对C个通道做全局平均池化处理；结合图2可知，Squeeze算法是将空间上所有点的信息都平均成了一个值。从而可以基于通道的整体信息来计算scale，因为利用的是通道间的相关性，而不是空间分布中的相关性，所以用GAP屏蔽掉空间上的分布信息能让scale的计算更加准确。

4)对S22中得到的全局平均池化数据通过两个全连接实现Excitation操作，其中，第一个全连接把C个通道压缩成了C/r个通道来降低计算量，第二个全连接再恢复回C个通道，所述r是指压缩的比例，大小设置为4时，整体性能和计算量最平衡；最后基于通道的整体信息训练出得出下一级输入数据，将所输入述数据通过sigmoid限制到[0，1]范围内得到scale值。

5)使用训练出scale值与原来的卷积神经网络的输出层的C个通道进行相乘，得到下一级的输入数据。

本发明认为语音信合的傅里叶变换是不同正弦信号的组合，卷积神经网络可以将傅里叶变换后的特征(MFCC)分解成不同的信号，这样在不同信号中分别对这些信号进行处理，并且给一个比较大的权重给那些更有用的信号对于语音去混响是有帮助的，所以本发明使用了一个SeNet来做此工作。本发明对每个卷积神经网络不同通道做一个全局平均池化，将这些全局平均池化的数据输入到DNN中学习，来学习哪一个通道的全局平均池化的数据所占比重最大，最后将这些权重重新和原来的卷积神经网络的输出层的数值进行相乘，以上就是SeNet的使用方式和目的。

实验例

SE-ED的结果如表1的最后一行所示。表1的第二行为用DNN来进行处理的结果，第三行为只使用Encoder-Decoder不使用SeNet块的实验结果。从实验结果本发明可以看到，在真实环境中，本发明的实验结果相比DNN的24.73的词错率降低到了23.69，相比于不使用用SeNet块词错率从24.91减低到了23.69。

表1不同方法下的错词率结果

从表1中本发明可以得出，使用本发明提供方法得到的结果相比其他方法得到的结果具有显著优势。

Claims

1.一种利用CNN的SE-ED网络进行远场语音去混响的方法，其特征在于，包括以下步骤：

S1：声学特征的提取：

S11：预加重：将数据集中任意一组语音信号s(n)通过高通滤波器；

S12：加窗：取25ms为一帧，并使用汉宁窗；

S13：快速傅里叶变换(FFT)：对每一帧进行FFT变换，从时域数据转变为频域数据，并计算其能量；

S14：Mel滤波：把求出的每帧谱线能量通过Mel滤波器，并计算在Mel滤波器中的能量；

S15：计算DCT倒谱：把Mel滤波器的能量取对数后计算DCT，得到Mel频率倒谱系数MFCC；

S2：神经网络框架的设计及其训练：

S21：构建SE—ED(Squeeze-and-Excitation—Encoder-Decoder)网络结构，其中Encoder-decoder模型框架中穿插着SeNet(Squeeze-and-Excitation Networks)结构；

S22：在所述Encoder-decoder模型框架中，将Encoder的通道个数分别设置成[12，12，24，24，32]，将Decoder的通道个数分别设置成为[32，24，24，12，12]，卷积神经网络的通道总个数设置为C；

S23：对步骤15中得到的MFCC特征进行Squeeze操作，对C个通道做全局平均池化处理；

S24：对S22中得到的全局平均池化数据通过两个全连接实现Excitation操作，基于通道的整体信息训练出得出下一级输入数据；将所输入述数据通过sigmoid限制到[0，1]范围内得到scale值；

S25：使用训练出scale值与原来的卷积神经网络的输出层的C个通道进行相乘，得到下一级的输入数据；

S3：基于DNN-HMM声学模型的训练及其解码：

S31：使用Kaldi中的nnet2中的声学模型进行最终的语音识别；

S32：使用干净语音的BNF和干净语音的MFCC的融合特征进行归一化，然后求其一阶差分和二阶差分，将进行差分后的特征来进行单因素以及三音素训练；

S33：使用数据集中多场景下进行语音去混响之后的BNF和MFCC特征进行声学模型的训练；

S34：最后将去混响之后的测试集数据进行解码。

2.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S11中，所述数据集为2014年的REVERB Challenge比赛数据集。

3.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S11中，所述高通滤波器的函数关系可以表示为：H(z)＝1-az^-1([a∈[0.9,1])，a值取0.95。

4.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S23中，所述Squeeze的计算函数关系可以表示为：

5.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S23中，所述Excitatione的计算函数关系可以表示为：s＝F_ex(z,W)＝σ(g(z,W))＝σ(w₂δ(W₁z))。

6.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S24中所述的两个全连接，第一个全连接把C个通道压缩成了C/r个通道来降低计算量，第二个全连接再恢复回C个通道。

7.如权利要求6所述的一种远场语音去混响的方法，其特征在于，所述r是指压缩的比例，大小设置为4。

8.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S3中，使用了LDA算法和MLLR算法来进行模型的优化。

9.如权利要求1所述的一种远场语音去混响的方法，其特征在于，步骤S3中，所使用的语言模型为tri-gram语言模型。