CN110473564B

CN110473564B - 一种基于深度波束形成的多通道语音增强方法

Info

Publication number: CN110473564B
Application number: CN201910621583.2A
Authority: CN
Inventors: 张晓雷; 刘书培
Original assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2021-09-24
Anticipated expiration: 2039-07-10
Also published as: CN110473564A

Abstract

本发明涉及一种基于深度波束形成的多通道语音增强方法，首先采集多个麦克风接收到的语音信号；然后提取要处理语音的对数梅尔滤波器组特征；将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long‑Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask)；将得到的掩膜用于计算GEV的语音和噪声协方差矩阵，进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法，本方法得到的增强语音效果更好。

Description

一种基于深度波束形成的多通道语音增强方法

技术领域

本发明涉及一种多通道语音增强方法，可以对含噪含混响语音进行处理并得到很好的增强效果。

背景技术

我们生活的环境复杂多变，一些场景下需要采集到较高语音质量时，往往会遭受各种干扰，这会极大地影响语音的质量和可懂度。语音增强的目的是，从受到噪声干扰的语音信号中滤除噪声以提高语音质量和可懂度,其中噪声干扰包括加性噪声干扰以及混响干扰。近年来深度学习被引入语音增强，这种方法的增强效果与传统方法相比有明显的优点。传统的语音增强方法假设了噪声是平稳的，从而对日常生活中更为常见的非平稳噪声很难有很好的语音处理效果。另一方面，传统方法在低信噪比条件下的增强效果很差。而基于深度学习的语音增强方法可以在低信噪比条件下对加入非平稳噪声的语音实现很好的语音增强效果。

按照采集语音的麦克风数量分类，语音增强可以分为单通道语音增强方法和多通道语音增强方法。基于深度学习的单通道增强方法可以分为两个方向，分别是基于谱映射的方法和基于时频掩膜的方法。基于时频掩膜的方法描述了干净语音与背景干扰的时频关系，而基于谱映射的方法则对应于干净语音的频谱表示。虽然基于深度学习的单通道语音增强方法可以提升语音的质量以及可懂度，但是增强后的语音会有非线性的失真。

基于深度学习的多通道语音增强使用了多个麦克风采集语音信号中的信息，其中包括了声源的空间起始点的指向性信息，所以我们可以通过传感器阵列的输入确定声源的位置，然后提取出声源的方向信息。这种方法可以分为两个分支，基于空间特征提取的方法和基于时频掩膜的波束形成方法，后者也被称为深度波束形成方法。基于空间特征提取的方法是一种使用麦克风阵列作为特征提取器来提取空间特征的方法，一般用来提取双耳时间差(ITD，Interaural Time Differences)和双耳声级差(ILD，Interaural LevelDifferences)作为基于深度神经网络(DNN,Deep Neural Network)的单通道增强的输入，这种方法只能称作是对单通道增强方法的一种简单扩展。而深度波束形成方法主要是使用单通道神经网络估计单通道时频掩膜，最后将得到的语音和噪声的空间协方差矩阵用于自适应波束形成。这种方法一方面利用到空间信息，另一方面由于后端的波束形成是一种线性方法，得到的增强语音的失真较小，所以是一种更优的方法。

发明内容

本发明解决的技术问题是：常用的基于深度波束形成的方法是使用DNN或者长短时记忆网络(LSTM，Long-Short Time Memory)，然后在后端使用最小方差无失真波束形成器(MVDR,Minimum Variance Distortionless Response)进行波束形成得到增强语音。我们发明的是一种基于广义特征值(GEV,Generalized Eigenvalue)波束形成器的多通道增强方法，可以对含噪含混响语音实现较好的语音增强效果。首先采集多个麦克风接收到的语音信号；然后提取要处理语音的对数梅尔滤波器组特征；将每个通道的特征送入双向长短时记忆网络(BLSTM,Bidirectional Long-Short Time Memory)得到增强后的理想比率掩膜(IRM,Ideal Ratio Mask)；将得到的掩膜用于计算GEV的语音和噪声协方差矩阵，进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法，本方法得到的增强语音效果更好。

本发明的技术方案是：一种基于深度波束形成的多通道语音增强方法，其特征在于，包括以下步骤：

步骤一：通过D个麦克风采集含噪含混响语音，其中每个麦克风表示一个采集通道，包括以下子步骤：

子步骤一：分别采集从声源到每个麦克风的直达声，对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致；

子步骤二：将直达声与进行重采样后的噪声按照-5dB，0dB，5dB相加后得到新的噪声分量；

子步骤三：使用镜像模型产生混响的方法(Image Model)得到含混响的语音，将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音；

步骤二：对含噪含混响语音信号进行预处理，包括预加重，分帧和加窗；

步骤三：提取每个通道采集到语音的100点对数梅尔滤波器组特征；

步骤四：将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM)，其中IRM数量和采集通道数量相同；

步骤五：将步骤四中得到的若干掩膜进行融合，得到一个掩膜；

步骤六：将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器，得到增强后的语音，包括以下子步骤：

子步骤一：GEV波束形成器的参数表达式为：

和

分别为语音和噪声协方差矩阵的估计，w_GEV(f)为滤波器的系数；w(f)为特征向量，(.)^H表示共轭转置，f为频率；

其中

式中，η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权，是通过估计得到的时频掩膜确定的：

D代表了麦克风的数量，

表示对于第i个麦克风信号的估计得到的掩膜，其中i的取值范围为1到D；t表示时间；f表示频率；

子步骤二：对于S5.1中公式的计算可以归纳为一个广义特征值问题：

其中λ是一个特征值，实际得到的w_GEV(f)是最大特征值所对应的最大特征向量；子步骤三：通过选择后滤波器滤除语音失真，获得语音源方向的无失真响应：

子步骤四：最终得到的增强后的语音信号为：

式中，w_GEV(f)^H表示为滤波器系数的共轭转置，y(t,f)表示输入的未经处理的含噪含混响语音。

发明效果

本发明的技术效果在于：本发明与现有技术相比，有以下的优点：

1.相比于MVDR波束形成器，GEV波束形成器不需要关于语音源到麦克风的声学传递函数的性质的假设；

2.相比于基于MVDR的增强结果，基于GEV的增强结果明显更好。对于信噪比为-5dB的含噪含混响语音，同样是使用BLSTM网络，基于MVDR的增强后语音的信号失真比(SDR,Signal-to-Distortion Ratio)为0.8028dB，而基于GEV的增强结果的SDR为4.0065dB。

附图说明

图1基于深度波束形成的语音增强流程图

具体实施方式

参见图1，下面结合附图和实施实例，对本发明作进一步详细的描述。但是所描述的具体实施实例仅仅用以解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明的技术方案是：一种基于深度波束形成的语音增强方法，具体包括以下步骤：

S1：得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音，将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音；

S2：对语音信号进行预处理，包括预加重，分帧和加窗。

S3：提取每个通道采集到语音的100点对数梅尔滤波器组特征；

S4：将4个通道的特征送入已经训练好的BLSTM中得到4个IRM；

S5：将这四个掩膜进行融合得到一个掩膜；

S6；将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。

其中S6步骤进行波束形成的具体步骤如下：

S6.1：GEV波束形成器的目标是最大化每个时频点的信噪比，它的波束形成器参数可以通过以下的公式进行计算：

其中

和

分别为语音和噪声协方差矩阵的估计，w_GEV(f)为滤波器的系数。

S6.2：通过下面的公式确定语音和噪声协方差矩阵的估计：

其中，

和

分别代表语音和噪声的协方差矩阵，η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权，是通过估计得到的时频掩膜确定的：

其中D代表了麦克风的数量，

表示对于第i个麦克风信号的估计得到的掩膜。

S6.3：对于S5.1中公式的计算可以归纳为一个广义特征值问题：

其中λ是一个特征值，实际得到的w_GEV(f)是最大特征值所对应的最大特征向量。

S6.4：由于GEV波束形成器会引入语音失真，所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器，公式如下：

通过进行BAN后滤波器的滤波，可以获得语音源方向的无失真响应。

S6.5：最终得到的增强后的语音信号计算公式为：

如图1所示，一种基于深度波束形成的语音增强方法：首先采集多个麦克风接收到的语音信号；然后提取要处理语音的对数梅尔滤波器组特征；将每个通道的特征送入双向长短时记忆网络得到增强后的理想比率掩膜；将得到的掩膜用于计算GEV的语音和噪声协方差矩阵，进而得到增强后的语音。

1：得到四个麦克风采集的含噪含混响语音。计算从声源到每个麦克风的直达声以及包含混响的语音，将直达声和噪声按相应信噪比叠加得到的噪声与只包含混响的语音相加得到含噪含混响语音；

2：对语音信号进行预处理，包括预加重，分帧和加窗。

3：提取每个通道采集到语音的100点对数梅尔滤波器组特征；

4：将4个通道的特征送入已经训练好的BLSTM中得到4个IRM；

5：将这四个掩膜进行融合得到一个掩膜；

6；将得到的掩膜与含噪含混响语音通过GEV波束形成器得到增强后的语音。

其中步骤6进行波束形成的具体步骤如下：

6.1：GEV波束形成器的目标是最大化每个时频点的信噪比，它的波束形成器参数可以通过以下的公式进行计算：

其中

和

6.2：通过下面的公式确定语音和噪声协方差矩阵的估计：

其中，

和

其中D代表了麦克风的数量，

表示对于第i个麦克风信号的估计得到的掩膜。

6.3：对于S5.1中公式的计算可以归纳为一个广义特征值问题：

6.4：由于GEV波束形成器会引入语音失真，所以我们需要使用一个后滤波器滤除语音失真。我们选择盲分析归一化(BAN,Blind Analytic Normalization)单通道后滤波器，公式如下：

6.5：最终得到的增强后的语音信号计算公式为：

本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度波束形成的多通道语音增强方法，其特征在于，包括以下步骤：

S1.1：分别采集从声源到每个麦克风的直达声，对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致；

S1.2：将直达声与进行重采样后的噪声按照-5dB，0dB，5dB相加后得到新的噪声分量；

S1.3：使用镜像模型产生混响的方法(Image Model)得到含混响的语音，将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音；

S6.1：GEV波束形成器的参数表达式为：

和

S6.2：通过下面的公式确定语音和噪声协方差矩阵的估计：

其中，

和

其中D代表了麦克风的数量，

表示对于第i个麦克风信号的估计得到的掩膜；

S6.3：对于S6.1中公式的计算可以归纳为一个广义特征值问题：

其中λ是一个特征值，实际得到的w_GEV(f)是最大特征值所对应的最大特征向量；

S6.4：通过选择后滤波器滤除语音失真，获得语音源方向的无失真响应：

S6.5：最终得到的增强后的语音信号计算公式为：