CN112151059A

CN112151059A - 面向麦克风阵列的通道注意力加权的语音增强方法

Info

Publication number: CN112151059A
Application number: CN202011028613.8A
Authority: CN
Inventors: 唐闺臣; 孙世若; 梁瑞宇; 王青云; 谢跃; 包永强; 邹采荣
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-29

Abstract

本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法，方法包括：从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号；构建多通道语音增强模型；将麦克风阵每路带噪语音的短时傅里叶变换频谱作为多通道语音增强模型的输入特征，对多通道语音增强模型进行预训练；将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型，并用该多通道语音增强模型实现麦克风阵列语音增强。本发明采用U‑NET网络对语音频谱特征进行处理，参数量少，计算复杂度较低，并在此基础上对通道维度采用注意力机制加权操作，对于每一层编码器和解码器都在通道维度进行注意力加权，在深层结构模拟波束形成对特征进行加权，提高语音增强的性能。

Description

面向麦克风阵列的通道注意力加权的语音增强方法

技术领域

本发明涉及多通道语音增强技术领域，具体涉及一种面向麦克风阵列的通道注意力加权的语音增强方法。

背景技术

语音是现代通信的重要载体，语音增强的目的是利用信号处理的技术改善受到噪声污染的语音可懂度与质量，其在语音信号处理中有着重要的应用，因而近些年，语音增强技术也受到了广泛的关注。现实应用中录制的语音信号总是会受到各种干扰与污染，如：各种类型的噪声、混响、回声等。这些干扰会显著降低语音的可懂度，从而影响人类的听感以及语音识别系统的准确性。因此，有效的语音增强技术对于语音信号处理的发展是至关重要的。

单通道语音增强算法实现较为简单，但也存在一定缺点，例如，基于谱减法的语音增强方法会带来音乐噪声，且在语音质量和可懂度之间的矛盾在目前还没有得到较好的解决。而麦克风阵列技术的应用不仅可以得到语音的时域和频域信息，还可以得到语音信号的空域信息，合理利用它们可以在提高输出语音信号的信噪比并减少语音信号的失真。

传统的多通道语音增强方法包括波束形成，其中包含固定波束形成和自适应波束形成。固定波束形成算法首先计算对各个麦克风上进行时延补偿以对齐麦克风信号，然后将各个麦克风接收到的信号进行加权求和。由于各通道的权值是为固定的常数，其对环境的适应性不强。相比于固定波束形成，自适应波束形成能够根据环境的变化来自适应的调整各个通道语音的权值。Frost在1972首次提出基于线性约束最小方差(LinearlyConstrained Minimum Variance，LCMV)的自适应波束形成算法。LCMV可以直接在噪声语音或者干扰语音方向直接陷零以消除这些与期望信号无关的信号。

近年来，随着深度学习的发展，人们逐渐将这一技术应用到语音增强当中。通过神经网络的增强语音通常能够具有较好的语音清晰度和可懂度。基于深度学习的多通道语音增强技术已经取得了一些成果，但仍有很多问题需要解决。

在公开号为CN111524519A的发明专利中公开了采用高级特征融合的端到端多通道语音识别方法，采用传统的注意力机制，在编码器与解码器之间对特征进行注意力加权；编码器与解码器采用双向长短时记忆网络，而本发明对于每一层编码器和解码器都在通道维度进行注意力加权，在深层结构模拟波束形成对特征进行加权，本发明基于卷积神经网络的U-NET结构，参数量更少，计算复杂度较低，并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，有效地融合浅层与深层的信息。在注意力机制当中，本发明采用多头注意力机制，在时间维度上对特征进行划分处理，而参考发明本文在计算注意力分布时采用的是键值对模式，而参考发明采用普通模式；在计算得分函数时，本发明采用的是缩放点积模型，而参考发明采用加性模型。

发明内容

发明目的：针对现有技术中多麦克风直接采用波束形成造成语音增强质量较低的缺陷，本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法，采用U-NET网络对语音频谱特征进行处理，参数量少，计算复杂度较低，并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，有效地融合浅层与深层的信息，并在此基础上对通道维度采用注意力机制加权操作，对于每一层编码器和解码器都在通道维度进行注意力加权，在深层结构模拟波束形成对特征进行加权，提高语音增强的性能。

技术方案：为实现上述技术目的，本发明采用以下技术方案。

一种面向麦克风阵列的通道注意力加权的语音增强方法，其特征在于，包括以下步骤：

S1：声音采样：通过两个扬声器分别播放纯净语音和噪声，从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号；

S2：构建多通道语音增强模型：首先构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型，在基线语音增强模型的基础上结合多通道注意力机制，通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权，构建多通道语音增强模型；

S3：多通道语音增强模型预训练：计算步骤S1中麦克风阵每路带噪语音的短时傅里叶变换频谱，作为多通道语音增强模型的输入特征；计算扬声器中播放的纯净语音的频谱，然后结合每路带噪语音的短时傅里叶变换频谱计算纯净语音的压缩复值理想比率掩模

并通过多通道语音增强模型生成每路带噪语音估计的压缩复值理想比率掩模

其中，j为麦克风标号；通过联合优化估计每路麦克风的

和

的均方误差MSE以及加权信号/失真比损失Weighted-SDR Loss来训练多通道语音增强模型；

S4：采用多通道语音增强模型进行麦克风阵语音增强：将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型，并用该多通道语音增强模型实现麦克风阵列语音增强。

优选地，所述步骤S2中基线语音增强模型的具体结构为：基线语音增强模型为包括4层编码器和4层解码器的卷积神经网络，每层编码器以及每层解码器之间包含一层通道注意力层，基线语音增强模型输入信号，即麦克风阵中每组语音时域信号，其维度为F×T×2C，其中F为频率维度，T为时间维度，C为通道维度，即麦克风总个数。

优选地，所述每层编码器包含依次连接的卷积层、批归一化层和非线性层，编码器通过下采样扩展通道维度，所述每层编码器输出估计的特征；所述每层解码器包含依次连接的卷积层、批归一化层和非线性层，解码器通过上采样收缩通道维度，生成与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模

编码器与解码器之间具有相同的卷积层数，编码器与解码器对应层之间通过跳跃连接将输出与输入在通道维度上进行堆叠。

优选地，所述步骤S2中构建多通道语音增强模型的具体过程为：

S21、将多通道注意力机制引入基线语音增强模型中：将输入的短时傅里叶变换频谱在频率维度划分为m个子空间，随机初始化若干组1×1卷积核，并与输入的带噪语音x∈R^F×T×2C做卷积，得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)，其中，K(x)∈R^F×d×2C，Q(x)∈R^F×d×2C，V(x)∈R^F×T×2C，d是1X1卷积的通道数；

S22、计算注意力权值矩阵：所述键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)均为可训练的矩阵，通过计算查询矩阵Q(x)和键值矩阵K(x)的相似度，来对所有的数值矩阵V(x)进行加权，通过K(x)和Q(x)计算注意力权值矩阵A_i∈R^F×2C×2C，并与V(x)相乘，得到通道注意力层的输出；其中，注意力权值矩阵A_i∈R^F×2C×2C的计算公式为：

其中，i代表不同的子空间，通道注意力层的输出为缩放点积模型；

S23、通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权，构建多通道语音增强模型：注意力层输出在通道维度上与输入进行级联，则最终输出维度为F×T×4C，计算公式为：

O(K(x)，Q(x)，V(x))＝Concat(A₁，...，A_m)V(x)

其中，O(K(x)，Q(x)，V(x))为通道注意力层的输出。

优选地，所述步骤S3中纯净语音的压缩复值理想比率掩模

的计算公式为：

其中，K取10，β取0.1，X为带噪语音的短时傅里叶变换频谱，S为纯净语音的频谱，下标r表示实部，i表示虚部。

优选地，所述步骤S3中联合优化的损失的计算公式为：

其中，j为麦克风标号，C为麦克风总个数；MSE为均方误差，loss_wSDR为加权信号/失真比的损失，S_clean表示纯净语音的时域语音信号，

表示多通道语音增强模型输出的估计的第j路时域语音信号，x^j表示从麦克风阵列中获取的带噪的第j路时域语音信号，α代表加权系数，loss_SDR代表信号/失真比的损失。

优选地，所述多通道语音增强模型输出的估计的第j路时域语音信号中，多通道语音增强模型输出的增强信号选择估计的第一路时域语音信号

其计算公式为：

其中，S为估计的第一路时域语音信号

的频谱；M′为对估计的压缩理想复值比率掩模ccIRM_est进行恢复得到的估计的理想复值比率掩蔽，计算如下：

其中，K取10，β取0.1，K与β的值与

的计算公式中参数值一致。

有益效果：

1、本发明采用U-NET网络对语音频谱特征进行处理，参数量少，计算复杂度较低，并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，有效地融合浅层与深层的信息，并在此基础上对通道维度采用注意力机制加权操作，对于每一层编码器和解码器都在通道维度进行注意力加权，在深层结构模拟波束形成对特征进行加权，提高语音增强的性能；

2、本发明采用采用多头注意力机制，在时间维度上对特征进行划分处理，在深层结构上实现波束形成，提高语音增强的性能；

3、本发明采用复值理想掩蔽和加权信号/失真比损失作为模型的学习目标进行联合优化，可学习到只包含噪声数据的信息，并且对不同尺度的语音幅度敏感，进一步提高语音增强的性能；

4、本发明在计算注意力分布时采用的是键值对模式，在计算得分函数即数值矩阵V(x)时，本发明采用的是缩放点积模型，巧妙新颖，具有良好的应用前景。

附图说明

图1是本发明的方法流程图；

图2是本发明的具体流程示意图；

图3是本发明中编码器和解码器的结构组成示意图。

具体实施方式

以下结合附图和实施例对本发明做进一步的说明和解释。

如附图1和附图2所示，本发明的面向麦克风阵列的通道注意力加权的语音增强方法，包括以下步骤：

步骤(A)，声音采样：通过两个扬声器分别播放纯净语音和噪声，从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号；

步骤(B)，构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型；

步骤(C)，通过多通道注意力机制对U-NET模型中的通道维度信息进行加权操作；

步骤(D)，训练多通道语音增强模型，并用该网络实现麦克风阵列语音增强。将麦克风阵列语音输入到多通道语音增强模型中，并用该多通道语音增强模型实现麦克风阵列语音增强。

在步骤(B)中，构建基于编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型，所述基线模型为4层编码器和4层解码器卷积神经网络结构，每层编码器以及每层解码器之间包含一层通道注意力层。网络输入维度为F×T×2C(包含实部和虚部)，其中F为频率维度，T为时间维度，C为麦克风总个数(通道维度)。

本发明采用U-NET网络对语音频谱特征进行处理，参数量少，计算复杂度较低，并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，有效地融合浅层与深层的信息，并在此基础上对通道维度采用注意力机制加权操作，对于每一层编码器和解码器都在通道维度进行注意力加权，在深层结构模拟波束形成对特征进行加权，提高语音增强的性能。

在一些实施例中，通过计算512点STFT并丢弃最高频1维的数据得到F＝256；T为时间维度，选取窗长为512点的hanning窗，重叠长度为128点，取约2s的语音得到T＝256；C为麦克风总个数(通道维度)，C＝4。

如附图3所示，所述每层编码器包含依次连接的卷积层、批归一化层和非线性层，编码器通过下采样扩展通道维度，所述每层编码器输出估计的ccIRM；所述每层解码器包含依次连接的卷积层、批归一化层和非线性层，解码器通过上采样收缩通道维度，生成与输入维度相同的目标掩蔽；编码器与解码器之间具有相同的卷积层数，编码器与解码器对应层之间通过跳跃连接将输出与输入在通道维度上进行堆叠。

在一些实施例中，编码器通过对时间和频率维度下采样提取音频特征，每个编码器包含卷积核大小为3×3的卷积层、批归一化层以及激活函数为LeakyReLU(小于0的部分斜率为0.1)的非线性层，再通过下采样使得时间和频率维度逐层下采样至128、64、32，通道数逐层扩展至64、256、1024；编码器的输出经过一层1×1卷积得到与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模

为了限制估计掩蔽的输出值域，最后一层的激活函数选择Tanh。

解码器通过上采样和与解码器相同的卷积层使得时间和频率维度逐渐恢复，并将通道逐渐收缩，最终生成与输入维度相同的目标掩模，并通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠，有效地融合浅层与深层的信息。

在步骤(C)，在基线模型的基础上加入多通道注意力机制，在原有的U-NET结构中间引入对通道信息的加权操作，并将划分为多个子空间进行处理，使网络可以在深层结构中模拟波束形成。通道注意力机制具体如下：

(C1)，将多通道注意力机制引入基线语音增强模型中：将输入的短时傅里叶变换频谱在频率维度划分为m个子空间，随机初始化若干组1×1卷积核，在一些实施例中，将输入频谱在频率维度划分为8个子空间，随机初始化3组1×1卷积核。将所有子空间内划分后的输入频谱分别与输入的带噪的时域语音信号x∈R^F×T×2C做卷积，得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)，其中，K(x)∈R^F×d×2C，Q(x)∈R^F×d×2C，V(x)∈R^F×T×2C，d是1X1卷积的通道数。本发明采用采用多头注意力机制，在频率维度上对特征进行划分处理，在深层结构上实现波束形成，提高语音增强的性能；

(C2)，所述键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)均为可训练的矩阵，通过计算查询矩阵Q(x)和键值矩阵K(x)的相似度，来对所有的数值矩阵V(x)进行加权，通过K(x)和Q(x)计算注意力权值矩阵A_i∈R^F×2C×2C，并与V(x)相乘，得到通道注意力层的输出；其中，注意力权值矩阵A_i∈R^F×2C×2C的计算公式为：

其中，i代表不同的子空间。在一些实施例中，m的值为8。通道注意力层的输出A_i为缩放点积模型。

(C3)注意力层输出在通道维度上与输入进行级联，则最终输出维度为F×T×4C，表示为

O(K(x)，Q(x)，V(x))＝Concat(A₁，...，A_m)V(x) (2)

其中，O(K(x)，Q(x)，V(x))为通道注意力层的输出。本发明采用复值理想掩蔽和加权信号/失真比损失作为模型的学习目标进行联合优化，可学习到只包含噪声数据的信息，并且对不同尺度的语音幅度敏感，进一步提高语音增强的性能。本发明在计算注意力分布时采用的是键值对模式，在计算得分函数时，本发明采用的是缩放点积模型，巧妙新颖，具有良好的应用前景。

步骤(D)中，在训练多通道语音增强模型时，分别计算麦克风阵每路带噪语音的短时傅里叶变换频谱，作为多通道语音增强模型的输入特征；计算扬声器中播放的纯净语音的频谱，然后结合每路带噪语音频谱计算纯净语音的压缩复值理想比率掩模

并通过模型估计每路带噪语音的压缩复制理想比率掩模

c为麦克风标号；通过联合优化估计每路麦克风的

和

的均方误差MSE以及加权信号/失真比损失Weighted-SDR Loss来训练多通道语音增强模型。

纯净语音的压缩复值理想比率掩模

的计算公式为：

其中，K取10，C取0.1，

用来计算相应的压缩掩蔽M，方便网络学习。K和C也可以取其他具体数值。压缩掩蔽M取值为

在计算损失时，采用估计的ccIRM的均方误差(MSE)和加权信号/失真比(Weighted-SDR Loss：wSDR)的损失进行联合优化。

表示估计的第j路时域语音信号，x^j表示带噪的第j路时域语音信号，α代表加权系数，loss_SDR代表信号/失真比的损失。

所述多通道语音增强模型输出的估计的第j路时域语音信号中，多通道语音增强模型输出的增强信号选择估计的第一路时域语音信号

其计算公式为：

其中，S为估计的第一路时域语音信号

其中，K取10，β取0.1，K与β的值与

的计算公式中参数值一致。

为了充分比较算法的性能，实验设置在VOiCES(The Voices Obscured inComplex Environmental Settings)数据集上进行。训练数据集总共包含200个的说话人，选取其中rooml中相同麦克风类型的4个麦克风组成的阵列。房间的长、宽、高分别为3.7m、2.7m、2.7m。叠加的噪声类型包括音乐、电视、潺潺语音声和只包含房间本身的混响干扰。目标纯净语音均为单通道无混响语音。测试集包含100个不同的说话人在相同的环境下录制。测试指标包括语音质量的知觉评价(PESQ)和尺度不变的信噪比(SI-SNR)。实验对比了通道1带噪语音、Beamformit！方法、不采用通道注意力机制的基线模型(UNET-CIRM)和本文采用的基于通道注意力机制的模型(CA-UNET-CIRM)的性能。测试集对应的性能指标如表1所示。

表1

从上述表格中可以看出，相比原始带噪语音以及传统麦克风阵列语音增强方法，本发明所提出的方法在四种不同的噪声环境下，两项指标上均有明显提升，并且对于在所述的基线模型上增加通道注意力机制后，性能进一步提升，说明本发明所提出的模型可以有效去除背景噪声以及室内混响。

综上所述，本发明的面向麦克风阵列的通道注意力加权的语音增强方法，采用U-NET网络对语音频谱特征进行处理，并在此基础上对通道维度采用注意力机制加权操作，在深层结构上实现波束形成。还采用复值理想掩蔽作为模型的学习目标，更好地学习语音的实部和虚部信息，提高语音增强的性能，方法巧妙新颖，具有良好的应用前景。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向麦克风阵列的通道注意力加权的语音增强方法，其特征在于，包括以下步骤：

并通过多通道语音增强模型生成每路带噪语音的估计的压缩复值理想比率掩模

其中，j为麦克风标号；通过联合优化估计每路麦克风的

和

2.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法，其特征在于，所述步骤S2中基线语音增强模型的具体结构为：基线语音增强模型为包括4层编码器和4层解码器的卷积神经网络，每层编码器以及每层解码器之间包含一层通道注意力层，基线语音增强模型输入信号，即麦克风阵中每组语音时域信号，其维度为F×T×2C，其中F为频率维度，T为时间维度，C为通道维度，即麦克风总个数。

3.根据权利要求2所述的一种面向麦克风阵列的通道注意力加权的语音增强方法，其特征在于，所述每层编码器包含依次连接的卷积层、批归一化层和非线性层，编码器通过下采样扩展通道维度，所述每层编码器输出估计的特征；所述每层解码器包含依次连接的卷积层、批归一化层和非线性层，解码器通过上采样收缩通道维度，生成与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模

4.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法，其特征在于，所述步骤S2中构建多通道语音增强模型的具体过程为：

S21、将多通道注意力机制引入基线语音增强模型中：将输入的短时傅里叶变换频谱在频率维度划分为m个子空间，随机初始化若干组1×1卷积核，并与输入的带噪语音x∈R^F ^×T×2C做卷积，得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)，其中，K(x)∈R^F×d×2C，Q(x)∈R^F×d×2C，V(x)∈R^F×T×2C，d是1X1卷积的通道数；