CN110534127A

CN110534127A - 应用于室内环境中的麦克风阵列语音增强方法及装置

Info

Publication number: CN110534127A
Application number: CN201910909484.4A
Authority: CN
Inventors: 潘伟锋; 李斌; 黄亮; 吴朝晖
Original assignee: Ankai (Guangzhou) Microelectronics Technology Co Ltd; South China University of Technology SCUT
Current assignee: Ankai (Guangzhou) Microelectronics Technology Co Ltd; South China University of Technology SCUT; Anyka Guangzhou Microelectronics Technology Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2019-12-03

Abstract

本发明提供了一种应用于室内环境中的麦克风阵列语音增强方法及装置，所述方法包括：对麦克风阵列采集到的语音信号进行预处理后，进行时延补偿；将经过时延补偿后的语音信号输入第一降噪通道进行固定波束形成处理，得到固定波束形成信号，同时，将经过时延补偿后的语音信号输入噪声提取通道，提取出各路语音信号的噪声；将固定波束形成信号与各通道语音信号中的噪声进行LMS自适应滤波，得到初步增强语音信号；利用神经网络去噪模块对初步增强语音信号进行去噪处理，得到最终输出信号。本发明采用小波分解的方法取代阻塞矩阵来提取各输入通道中语音信号的噪声，并用神经网络去噪算法作为后置滤波算法，从而有效提高了语音增强系统的鲁棒性和实用性。

Description

应用于室内环境中的麦克风阵列语音增强方法及装置

技术领域

本发明涉及信号处理技术领域，尤其是涉及一种应用于室内环境中的麦克风阵列语音增强方法及装置。

背景技术

利用麦克风阵列进行语音增强是语音信号处理领域中的一个热点。麦克风阵列由一定数目的麦克风按照一定空间结构组合而成，其采集到的语音信号不仅包含时频信息，还包括了空间信息，因此可以通过麦克风阵列空间指向特性，追踪声源信号的空间位置，抑制其他方向的噪声和干扰，达到增强目标语音、改善语音质量的目的。麦克风阵列已经在人机交互、视频会议、说话人识别等领域中得到广泛的应用。

经过多年的研究，现在常用的麦克风语音增强技术有以下三种：固定波束形成法、自适应波束形成法和后置滤波器的波束形成法。其中，GSC(广义旁瓣抵消器)结构的自适应波束形成法应用最为广泛。在简单的背景噪声环境下，常规的麦克风阵列语音增强算法有较好的语音增强性能。但是实际室内的噪声环境十分复杂：其他人说话声的干扰、各种电器的噪声、室外突然传来的干扰噪声、噪声持续时间以及噪声强度不确定、目标声源位置通常不固定、阵列接收到的语音信号信噪比较低等，这些因素都会使常规的麦克风阵列语音增强算法性能大打折扣。且常用的语音增强算法都会或多或少造成语音失真，影响语音质量。

发明内容

本发明实施例提供一种应用于室内环境中的麦克风阵列语音增强方法及装置，以解决现有的麦克风阵列语音增强系统无法在复杂噪声环境中保持良好的性能以获取高质量语音的问题，从而提高麦克风阵列语音增强算法的鲁棒性，在复杂的室内噪声环境中仍然能对采集到的语音信号进行高性能的语音增强，且只带来微弱的语音失真，进而获取到高质量的语音。

为了解决上述技术问题，本发明实施例提供了一种应用于室内环境中的麦克风阵列语音增强方法，包括：

对麦克风阵列采集到的M路语音信号进行预处理；其中，所述预处理包括低通滤波和加窗分帧处理；

对经过预处理后的M路语音信号进行时延补偿；

将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，同时，将所述经过时延补偿后的M路语音信号输入噪声提取通道，提取出第n时刻各路语音信号的噪声N(n)；

将所述固定波束形成信号y_c(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波，得到初步增强后的语音信号y_a(n)；

利用神经网络去噪模块对所述初步增强后的语音信号y_a(n)进行去噪处理，得到最终输出信号y_o(n)。

进一步地，所述对经过预处理后的M路语音信号进行时延补偿，具体为：

采用广义互相关法计算各通道信号相对于预设的参考通道信号的时延，根据得到的时延计算结果对各通道信号进行相应的时移，以使各通道信号的时间对齐。

进一步地，所述将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，具体为：

将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，所述固定波束形成信号y_c(n)计算公式为：

其中，M代表M路语音信号，n表示语音信号的第n时刻，τ_i表示第i通道语音信号相对于所述预设的参考通道的时延。

进一步地，所述将所述经过时延补偿后的M路语音信号输入噪声提取通道，提取出第n时刻各路语音信号的噪声N(n)，具体为：

根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解，得到目标信号和噪声信号的小波系数；

根据预设的阈值对所述小波系数进行筛选得到目标小波系数后，利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。

进一步地，所述利用神经网络去噪模块对所述初步增强后的语音信号y_a(n)进行去噪处理，得到最终输出信号y_o(n)，具体为：

获取所述初步增强后的语音信号y_a(n)的幅值信息Y_a[k,m]和相位信息∠Y_a[k,m]；其中，k代表语音信号的频率，m代表语音信号的帧数；

利用所述神经网络去噪模块对所述幅值信息Y_a[k,m]进行处理得到第二幅值信息其中，W为预先训练得到的去噪因子；

利用所述相位信息∠Y_a[k,m]和所述第二幅值信息进行重构，得到增强后的语音频谱

对所述增强后的语音频谱Y_o[k,m]进行逆短时傅里叶变换，得到最终输出信号y_o(n)。

为了解决相同的技术问题，本发明还提供了一种应用于室内环境中的麦克风阵列语音增强装置，包括：

信号预处理模块，用于对麦克风阵列采集到的M路语音信号进行预处理；其中，所述预处理包括低通滤波和加窗分帧处理；

信号时延补偿模块，用于对经过预处理后的M路语音信号进行时延补偿；

信号分解处理模块，用于将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，同时，将所述经过时延补偿后的M路语音信号输入噪声提取通道，提取出第n时刻各路语音信号的噪声N(n)；

信号自适应滤波模块，用于将所述固定波束形成信号y_c(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波，得到初步增强后的语音信号y_a(n)；

信号去噪及输出模块，用于利用神经网络去噪模块对所述初步增强后的语音信号y_a(n)进行去噪处理，得到最终输出信号y_o(n)。

进一步地，所述信号时延补偿模块具体用于：

进一步地，所述信号分解处理模块具体用于：

进一步地，所述信号分解处理模块具体还用于：

进一步地，所述信号去噪及输出模块具体用于：

与现有技术相比，本发明具有如下有益效果：

本发明采用小波分解的方法提取各输入通道中语音信号的噪声，在多干扰噪声源、低信噪比及无直达语音等条件下仍然能有效提取各通道语音信号中噪声，且只造成微弱的语音泄露，能极大地提高算法的鲁棒性。另外，使用神经网络去噪算法作为后置滤波算法，能适应各种复杂的噪声环境，有效去除残留在语音信号中的噪声，且只会造成极其轻微的语音失真，在处理低信噪比的语音信号时仍然能保持高性能，非常适合应用于室内环境中的语音增强需求。

附图说明

图1是本发明一实施例提供的应用于室内环境中的麦克风阵列语音增强方法的流程示意图；

图2是本发明一实施例提供的应用于室内环境的麦克风阵列语音增强系统的应用示意图；

图3是本发明一实施例提供的卷积神经网络语音去噪模块原理示意图；

图4是本发明一实施例提供的卷积神经网络的结构示意图；

图5是本发明一实施例提供的应用于室内环境中的麦克风阵列语音增强装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，本发明实施例提供了一种应用于室内环境中的麦克风阵列语音增强方法，包括：

步骤S1、对麦克风阵列采集到的M路语音信号进行预处理；其中，所述预处理包括低通滤波和加窗分帧处理；

请结合图2，在本发明实施例中，第一步，首先对麦克风阵列采集到的M路语音信号X₁～X_M进行预处理。语音信号是宽带信号，通常语音处理领域中感兴趣的是300-3400Hz范围内的频谱分量，因此先对语音信号进行低通滤波，抑制高频噪声。由于语音信号具有短时平稳性(在10-30ms语音信号可看作稳定信号)，因此需要对语音信号进行加窗、分帧处理。先对语音信号进行16kHz采样，再用汉宁窗进行加窗处理，帧长为256点，帧移为128点。

步骤S2、对经过预处理后的M路语音信号进行时延补偿；

进一步地，步骤S2具体为：

在具体实施例中，第二步，可选地，以通道1为参考通道，采用广义互相关法(GCC)估计各通道信号相对于参考通道信号的时延，然后进行时延补偿。具体过程如下：先求出各通道信号与参考通道信号的互功率谱函数，再进行加权处理降低噪声和混响等的影响，然后通过逆变换在时域中利用互相关函数估计时间延迟，再对各信号进行相应的时移从而使时间对齐。

步骤S3、将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，同时，将所述经过时延补偿后的M路语音信号输入噪声提取通道，提取出第n时刻各路语音信号的噪声N(n)；

进一步地，步骤S3具体包括：

步骤S311、将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，所述固定波束形成信号y_c(n)计算公式为：

进一步地，步骤S3具体包括：

步骤S321、根据预选的小波函数以及预设的分解级数对各通道语音信号进行小波分解，得到目标信号和噪声信号的小波系数；

步骤S322、根据预设的阈值对所述小波系数进行筛选得到目标小波系数后，利用所述目标小波系数进行噪声重构得到第n时刻各路语音信号的噪声N(n)。

在具体实施例中，第三步，在完成时延补偿后，将输入信号分别输入至图2中的上下两个通道。其中，在上通道进行固定波束形成以消除不相干噪声，具体操作为：将时间对齐后的各通道信号相加求和并取其平均值，输出表示为：

其中，M代表M路语音信号，n表示语音信号的第n个时间点，τ表示该通道语音信号相对于参考通道的时延。

在具体实施例中，第四步，使用小波分解的方法提取各通道语音信号的噪声。Daubechies(dbN)小波系具有正交性、紧支撑的特点，适合用于语音信号处理，因此优选地可选取dbN小波系作为小波分解的小波基函数。室内环境下采集到的语音信号信噪比一般不会超过20dB，因此优选地可将小波分解级数设定为4。在对各通道语音信号进行完小波分解获得目标信号及噪声信号的小波系数后，选择一个合理的阈值对小波系数进行处理，保留幅值较小的小波系数，然后对处理后的系数进行重构，提取出各通道语音信号中的噪声N(n)。

步骤S4、将所述固定波束形成信号y_c(n)与所述各通道语音信号中的噪声N(n)进行LMS自适应滤波，得到初步增强后的语音信号y_a(n)；

在具体实施例中，第五步，将第三步中得到的固定波束形成输出y_c(n)与第四步中得到的各通道语音信号中的噪声N(n)进行最小均方差(LMS)自适应滤波。假设滤波器系数向量为W＝[W₁ W₂ … W_M]^T,T表示对矩阵进行转置，则有：

y_e(n)＝W(n)^TN(n)

于是输出为：

y_a(n)＝y_c(n)-y_e(n)

权值更新公式为：

W_i(n+1)＝W_i(n)+μy_a(n)N(n)

其中μ为步长，i为小波分解提取噪声的输出端的第i个标号。

步骤S5、利用神经网络去噪模块对所述初步增强后的语音信号y_a(n)进行去噪处理，得到最终输出信号y_o(n)。

进一步地，步骤S5具体为：

在具体实施例中，第六步，使用神经网络去噪模块作为后置滤波算法对输出y_a(n)进行处理。神经网络去噪原理如下：设干净语音为s，带噪语音为x，噪声为v，则有：

x(n)＝s(n)+v(n)

对其进行短时傅里叶变换(STFT)，得到：

X[k,m]＝S[k,m]+V[k,m]

其中k是频率，m是帧数。语音去噪的目的是使带噪语音经过处理后尽可能接近干净语音，假设存在去噪因子W使得：

使用去噪因子W进行语音增强后的语音信号的幅值可以表示为：

语音去噪相当于为求解去噪因子W的过程。本发明使用卷积神经网络求解W，原理如图3所示。结合图3，说明其工作过程。将干净语音及与之对应的包含各种常见噪声的多种信噪比的带噪语音作为训练集，其中干净语音作为参考，训练时使带噪语音经过神经网络处理后尽可能接近干净语音。先对训练集中的数据进行短时傅里叶变换(STFT)，得到其相位信息及幅值信息。由于语音信号对相位不敏感，因此保留相位信息用于重构去噪后的语音信号，然后将幅值信息作为输入传输至神经网络中训练。在完成对训练集数据的训练后，就能得到去噪因子W，去噪因子W即为神经网络中的各个卷积层及全连接层中的卷积核权值。

在实际应用中，先对输入的语音信号y_a(n)进行处理，得到其幅值信息Y_a[k,m]及相位信息∠Y_a[k,m]，然后将幅值信息Y_a[k,m]输入至神经网络中，经过去噪因子W处理后得到：

然后，利用相位信息∠Y_a[k,m]与神经网络处理后得到的幅值信息重构得到增强后的语音的频谱：

对Y_o[k,m]进行逆短时傅里叶变换(ISTFT)即可得到最终的输出信号y_o(n)。

作为优选方案，所用的卷积神经网络结构如图4所示，包含两个卷积层、两个池化层、两个全连接层，最后一个全连接层作为输出层，第一个卷积层有32个卷积核，第二个卷积层有64个卷积核，卷积核尺寸均为1*5，池化层尺寸均为1*3，采用RELU函数作为激活函数。由于88ms内的语音信号保留的语音信息最多，因此本发明实施例中的卷积神经网络的输入为11帧数据(由当前帧、前5帧及后5帧组成)的对数功率谱，即输入为11*129，输出为去噪后语音的对数功率谱，大小为1*129。

在本发明实施例中，需要说明的是，在小波分解提取各通道语音的噪声的步骤中，还可以选择dbN小波系以外的小波函数以不同的分解级数提取语音和噪声的小波系数，可以根据不同的阈值选择方法重构噪声。

另外，在神经网络去噪模块对语音进行处理的步骤中，卷积神经网络的结构是多样的，在实际应用中可以有不同数量的卷积层、池化层和全连接层，卷积核数量、卷积核尺寸、激活函数、池化层尺寸、全连接层大小都有多种不同选择。卷积神经网络的输入也具有多样性，可以将不同尺寸的原始语音或其他语音特征作为输入。

需要说明的是，传统的GSC结构语音增强算法使用阻塞矩阵阻塞目标方向的语音信号来估计麦克风阵列接收到的噪声和干扰。但是阻塞矩阵在多干扰噪声源、低信噪比及无直达语音等条件下会出现语音泄露，使语音增强算法性能严重下降。

本发明使用小波分解的方法在上述不利条件中仍然能有效提取各通道语音信号中噪声，且只造成微弱的语音泄露，能极大地提高算法的鲁棒性。

实际应用于室内环境中的麦克风阵列会受到复杂的噪声干扰，传统的GSC结构语音增强算法对强相干噪声有较好的处理能力，但仍会残留大量的弱相干噪声，采用传统的后置滤波算法进行优化过程复杂，还会带来一定程度的语音失真，影响最终的语音质量。

本发明使用神经网络去噪算法作为后置滤波算法，能适应各种复杂的噪声环境，有效去除残留在语音信号中的噪声，只会造成极其轻微的语音失真，在处理低信噪比的语音信号时仍然能保持高性能，非常适合应用于室内环境中的语音增强需求。

需要说明的是，对于以上方法或流程实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本发明实施例所必须的。

请参见图5，为了解决相同的技术问题，本发明还提供了一种应用于室内环境中的麦克风阵列语音增强装置，包括：

进一步地，所述信号时延补偿模块具体用于：

进一步地，所述信号分解处理模块具体用于：

进一步地，所述信号分解处理模块具体还用于：

进一步地，所述信号去噪及输出模块具体用于：

可以理解的是上述装置项实施例，是与本发明方法项实施例相对应的，本发明实施例提供的一种应用于室内环境中的麦克风阵列语音增强装置，可以实现本发明任意一项方法项实施例提供的应用于室内环境中的麦克风阵列语音增强方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种应用于室内环境中的麦克风阵列语音增强方法，其特征在于，包括：

对经过预处理后的M路语音信号进行时延补偿；

2.根据权利要求1所述的应用于室内环境中的麦克风阵列语音增强方法，其特征在于，所述对经过预处理后的M路语音信号进行时延补偿，具体为：

3.根据权利要求2所述的应用于室内环境中的麦克风阵列语音增强方法，其特征在于，所述将经过时延补偿后的M路语音信号输入第一降噪通道进行固定波束形成处理，得到第n时刻的固定波束形成信号y_c(n)，具体为：

4.根据权利要求1所述的应用于室内环境中的麦克风阵列语音增强方法，其特征在于，所述将所述经过时延补偿后的M路语音信号输入噪声提取通道，提取出第n时刻各路语音信号的噪声N(n)，具体为：

5.根据权利要求1所述的应用于室内环境中的麦克风阵列语音增强方法，其特征在于，所述利用神经网络去噪模块对所述初步增强后的语音信号y_a(n)进行去噪处理，得到最终输出信号y_o(n)，具体为：

6.一种应用于室内环境中的麦克风阵列语音增强装置，其特征在于，包括：

7.根据权利要求6所述的应用于室内环境中的麦克风阵列语音增强装置，其特征在于，所述信号时延补偿模块具体用于：

8.根据权利要求7所述的应用于室内环境中的麦克风阵列语音增强装置，其特征在于，所述信号分解处理模块具体用于：

9.根据权利要求6所述的应用于室内环境中的麦克风阵列语音增强装置，其特征在于，所述信号分解处理模块具体还用于：

10.根据权利要求6所述的应用于室内环境中的麦克风阵列语音增强装置，其特征在于，所述信号去噪及输出模块具体用于：