CN110600050A

CN110600050A - 基于深度神经网络的麦克风阵列语音增强方法及系统

Info

Publication number: CN110600050A
Application number: CN201910866598.5A
Authority: CN
Inventors: 郑敏; 郑炜乔; 刘钊祎
Original assignee: Shenzhen Huachuang Technology Co Ltd
Current assignee: Shenzhen Huachuang Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2019-12-20
Anticipated expiration: 2039-09-12
Also published as: CN110600050B

Abstract

本发明公开了基于深度神经网络的麦克风阵列语音增强方法及系统，利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理，通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜并计算得到噪声和目标语音的协方差矩阵，根据得到的噪声和目标语音协方差矩阵计算波束形成系数对带噪的多通道语音信号进行波束形成处理，并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理。本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理，不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理，所实现的麦克风阵列语音增强系统具有较好的鲁棒性。

Description

基于深度神经网络的麦克风阵列语音增强方法及系统

技术领域

本发明涉及人机语音交互技术领域，特别是基于深度神经网络的麦克风阵列语音增强方法及系统。

背景技术

语音增强技术是语音信号处理的一个重要方向，是语音信号处理系统的核心技术之一，在服务机器人，语音通讯，智能音箱以及智能家居等方面有着广泛的应用。语音增强的目的是当干净语音在现实生活场景中受到来自各种噪声干扰时，利用一定的算法和技术将声学环境中的噪声消除，从而提高语音质量与听者主观感受方面的满意度，进而提高语音应用系统的性能。根据采集语音设备的不同，语音增强技术可分为单通道语音增强和麦克风阵列语音增强。传统的麦克风阵列增强需要先验知识的辅助，例如：麦克风几何信息，平面波假设以及空间语者到达方向信息(Direction of Arrival，DOA)估计。因为这些算法对于先验知识的依赖较高，在实际应用中有较大的局限性；且由于大部分传统麦克风阵列增强使用波束形成进行线性的麦克风阵列语音增强处理，对于实际应用环境的鲁棒性较差。

与此同时，近年来的研究表明，在人类语音信号的产生和感知过程在生物学行为中具有明显的多层次或深层次处理结构，而深度神经网络的学习正是使用了多层的非线性信号与信号处理技术有监督的进行特征提起、信号的转化和模式分类的机器学习方法。由于深度神经网络具有良好复杂特征提取表达能力和擅长对数据中的结构化信息进行建模的能力，近几年来常常被用于对语音信号和信息处理的领域中。深度神经网络也为语音增强在现实应用中具有复杂多变的声学环境带来了更高的鲁棒性。

因此，为解决传统麦克风阵列语音增强依赖先验知识与提升在现实生活场景应用中的鲁棒性，本发明提出了一种基于深度神经网络的麦克风阵列语音增强方法及系统。

发明内容

本发明为了解决上述问题，采用基于深度神经网络的方式对麦克风阵列进行语音增强处理，且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理，所实现的麦克风阵列语音增强系统具有较好的鲁棒性。

为此，根据本发明的一个方面，提供了基于深度神经网络的麦克风阵列语音增强方法，包括如下步骤：

步骤S101：使用麦克风阵列采集多通道语音信号，数学表示为y＝{y₁，y₂，……y_k}，k为在麦克风阵列中的个数，k≥2；

步骤S102：对采集到的多通道带噪声语音信号进行预处理，得到对应的时频谱如下公式：

Yf，t＝{Y1(t，f)，Y2(t，f)，...，Yk(t，f)}，

其中，f为频带数，t为时间帧；

步骤S103：构建深度神经网络训练模块；步骤S104：将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算，语音协方差计算的计算公式为

噪声协方差计算的计算公式为：

T为时间帧总数，H表示共轭转置；

步骤S105：通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数，公式如下：

步骤S106：利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer，GE V)对带噪的麦克风阵列语音信号进行波束形成处理，得到波束形成后的信号，公式如下：

步骤S107：将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理，得到增强后的语音信号的时频谱图，公式如下：

步骤S108：对增强后的语音信号时频谱图进行反傅里叶变换(ISTFT)从而使信号重构，得到时域信号z(t)。

基于深度神经网络的方式对麦克风阵列进行语音增强处理，且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理，所实现的麦克风阵列语音增强系统具有较好的鲁棒性。

在一些实施方式中，所述步骤S102还包括：以16Hz的采样率对多通道带噪语音信号进行采样；对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT)，得到对应的时频谱图。

在一些实施方式中，所述步骤S103还包括：构建深度神经网络；深度神经网络隐含层之间均用Relu作为激活函数，使用sigmoid函数作为输出层激活函数；将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入；将初始的学习速率设定为1e-5，每经过10个迭代学习速率减少为之前的一半；采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。

在一些实施方式中，输出层为1026个神经元节点的FC(Fully connected layer,FC)。

根据本发明的另一个方面，提供了基于深度神经网络的麦克风阵列语音增强系统，包括：多通道数据获取模块，使用麦克风阵列拾音，获取多通道的带噪语音信号；预处理模块，将得到的多通道带噪语音信号进行采样，并使用STFT将各个通道的语音时域信号转换为对应的时频谱图；深度神经网络模块，该模块分为训练阶段与测试阶段，在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中，以目标语音掩膜和噪声掩膜作为监督信息进行训练，在测试阶段中，输入带噪语音信号的STFT时频谱图到训练好的神经网络中，得到对应的目标语音掩膜和噪声掩膜；波束形成模块，该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵，从而进一步计算出波束形成系数，最后得到波束形成后的信号；后处理模块，将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号；音频信号重构模块，获得增强后的语音信号时频谱后，利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

在一些实施方式中，3层隐含层，第一层为有256个神经元结点的双向长短时记忆网络层(bidirectional long short-term memory,BLSTM)，第2-3隐含层为有513个神经元结点的全连接层(Fully connected layer,FC)。

与现有技术相比，本发明的有益效果如下：

本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理，且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理，所实现的麦克风阵列语音增强系统具有较好的鲁棒性。

附图说明

图1为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法流程图；

图2为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法对采集到的多通道带噪声语音信号进行预处理流程图；

图3为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法构建深度神经网络训练模块流程图；

图4为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图；

图5为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统神经网络结构图。

具体实施方式

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的基于深度神经网络的麦克风阵列语音增强方法流程图，如图1所示，本实施例包括如下步骤：

步骤S101：使用麦克风阵列采集多通道语音信号，数学表示为y＝{y₁，y₂，……y_k}，k为在麦克风阵列中的个数，k≥2。

Yf，t＝{Y1(t，f)，Y2(t，f)，...，Yk(t，f)}

其中，f为频带数，t为时间帧。

步骤S103：构建深度神经网络训练模块；

步骤S104：将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算，语音协方差计算的计算公式为：

噪声协方差计算的计算公式为：

T为时间帧总数，H表示共轭转置。

步骤S106：利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvalue beamformer，GEV)对带噪的麦克风阵列语音信号进行波束形成处理，得到波束形成后的信号，公式如下：

步骤S108：对增强后的语音信号时频谱图进行逆傅里叶变换(ISTFT)从而使信号重构，得到时域信号z(t)。

利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理，通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜，利用掩膜计算得到对应的协方差矩阵，根据估计得到的噪声协方差矩阵计算波束形成系数从而对带噪的多通道语音信号进行波束形成处理，并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理，从而实现多通道语音信号的增强。基于深度神经网络的方式对麦克风阵列进行语音增强处理，且不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理，所实现的麦克风阵列语音增强系统具有较好的鲁棒性。

图2示意性地显示了根据本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法对采集到的多通道带噪声语音信号进行预处理流程图，如图2所示，本实施例包括如下步骤：

以16Hz的采样率对多通道带噪语音信号进行采样；对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT)，得到对应的时频谱图。该图谱用于构建深度神经网络训练模块。

图3示意性地显示了根据本发明一实施方式的基于深度神经网络的麦克风阵列语音增强方法构建深度神经网络训练模块流程图，如图3所示，本实施例包括如下步骤：

构建深度神经网络；深度神经网络隐含层之间均用Relu作为激活函数，输出层为1026个神经元节点的FC，使用sigmoid函数作为输出层激活函数；将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入；将初始的学习速率设定为1e-5，每经过10个迭代学习速率减少为之前的一半；采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。

图4为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图，如图4所示，

本实施例的基于深度神经网络的麦克风阵列语音增强系统包括：多通道数据获取模块、预处理模块、深度神经网络模块、波束形成模块、后处理模块、音频信号重构模块。

其中，多通道数据获取模块，使用麦克风阵列拾音，获取多通道的带噪语音信号；

预处理模块，将得到的多通道带噪语音信号进行采样，并使用STFT将各个通道的语音时域信号转换为对应的时频谱图；

深度神经网络模块，该模块分为训练阶段与测试阶段，在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中，以目标语音掩膜和噪声掩膜作为监督信息进行训练，在测试阶段中，输入带噪语音信号的STFT时频谱图到训练好的神经网络中，得到对应的目标语音掩膜和噪声掩膜；

波束形成模块，该模块通过估计得到的噪声掩膜与目标语音掩膜计算得出对应的噪声与目标语音协方差矩阵，从而进一步计算出波束形成系数，最后得到波束形成后的信号；

后处理模块，将估计得到的目标语音掩膜与波束形成后的信号相乘从而进一步波束形成后消除残留的噪声信号；

音频信号重构模块，获得增强后的语音信号时频谱后，利用对应混合语音的相位谱通过短时傅里叶逆变换恢复出该目标说话者的时域信号。

图5为本发明一实施方式的基于深度神经网络的麦克风阵列语音增强系统框图，如图5所示，

深度神经网络包括：

3层隐含层，第一层为有256个神经元结点的双向长短时记忆网络层(bidirectional long short-term memory,BLSTM)，第2-3隐含层为有513个神经元结点的全连接层(Fully connected layer,FC)。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于深度神经网络的麦克风阵列语音增强方法，其特征在于，包括如下步骤：

Y_f，t＝{Y₁(t，f)，Y₂(t，f)，...，Y_k(t，f)}

其中，f为频带数，t为时间帧；

步骤S103：构建深度神经网络训练模块；

噪声协方差计算的计算公式为：

T为时间帧总数，H表示共轭转置；

2.根据权利要求1所述的方法，其特征在于，所述步骤S102还包括：

以16Hz的采样率对多通道带噪语音信号进行采样；

对采样后的时域信号进行离散傅里叶变换(Short-Time Fourier Transform,STFT)，得到对应的时频谱图。

3.根据权利要求1所述的方法，其特征在于，所述步骤S103还包括：

构建深度神经网络；

深度神经网络隐含层之间均用Relu作为激活函数，使用sigmoid函数作为输出层激活函数；

将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入；

将初始的学习速率设定为1e-5，每经过10个迭代学习速率减少为之前的一半；

采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图

保存训练后模型所得到的参数。

4.根据权利要求3所述的方法，其特征在于，输出层为1026个神经元节点的FC(Fullyconnected layer,FC)。

5.基于深度神经网络的麦克风阵列语音增强系统，其特征在于，包括：

多通道数据获取模块，使用麦克风阵列拾音，获取多通道的带噪语音信号；

音频信号重构模块，获得增强后的语音信号时频谱后，利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

6.根据权利要求5所述的系统，其特征在于，深度神经网络包括：

3层隐含层，第一层为有256个神经元结点的双向长短时记忆网络层(bidirectionallong short-term memory,BLSTM)，第2-3隐含层为有513个神经元结点的全连接层(Fullyconnected layer,FC)。