CN114189781A

CN114189781A - 双麦神经网络降噪耳机的降噪方法及系统

Info

Publication number: CN114189781A
Application number: CN202111438729.3A
Authority: CN
Inventors: 初峙昊; 辛鑫
Original assignee: Suzhou Frog Sound Technology Co ltd
Current assignee: Suzhou Frog Sound Technology Co ltd
Priority date: 2021-11-27
Filing date: 2021-11-27
Publication date: 2022-03-15

Abstract

本发明涉及一种双麦神经网络降噪耳机的降噪方法及系统，包括以下步骤：通过耳机的两个麦克风采集声音信号，获得原始声音数据；对所述原始声音数据进行初步分离，获得第一信号和第二信号；分别计算第一信号和第二信号的能量差和互功率谱，根据能量差和互功率谱计算第一信号和第二信号间的传递函数，根据能量差、互功率谱和传递函数计算获得频域的增益函数，将第一信号乘以增益函数以获得增强的期望音频信号；通过语音活动检测算法对所述增强的期望音频信号进行处理，获得干净的主说话人的语音信号。其能够确保主说话人语音不失真的情况下，最大的抑制周围所有的噪声和干扰。

Description

双麦神经网络降噪耳机的降噪方法及系统

技术领域

本发明涉及降噪耳机技术领域，尤其是指一种双麦神经网络降噪耳机的降噪方法及系统。

背景技术

在当今开放空间多人办公的场景下，很难保证周围都是安静的环境。尤其在开会的情况下，通话双方经常会由于周围的环境噪声(空调声，交谈声等等)而无法准确的获取信息，使得沟通困难且效率低下。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中由于环境声影响，无法获取准确信息，沟通困难且效率低下的技术问题。

为解决上述技术问题，本发明提供了一种双麦神经网络降噪耳机的降噪方法，包括以下步骤：

S1、通过耳机的两个麦克风采集声音信号，获得原始声音数据；

S2、对所述原始声音数据进行初步分离，获得第一信号和第二信号，所述第一信号和所述第二信号皆包括干扰的频域信号和主说话人声音的频域信号；其中，所述第一信号中主说话人声音的频域信号的占比大于干扰的频域信号，所述第二信号中主说话人声音的频域信号的占比小于干扰的频域信号；

S3、分别计算第一信号和第二信号的能量差和互功率谱，根据能量差和互功率谱计算第一信号和第二信号间的传递函数，根据能量差、互功率谱和传递函数计算获得频域的增益函数，将第一信号乘以增益函数以获得增强的期望音频信号；

S4、通过语音活动检测算法对所述增强的期望音频信号进行处理，获得干净的主说话人的语音信号。

作为优选的，所述S2中，对所述原始声音数据进行初步分离，获得第一信号和第二信号，包括：

对两个麦克风采集声音信号分别进行快速傅里叶变换，将声音信号分离到不同的子带，获得第一频域信号和第二频域信号；

在各个子带上构建初始分离矩阵B(0，f)；

在频域上计算各个子带的自然梯度ΔB(k,f)；

根据每个子带的自然梯度，更新分离矩阵，则更新后的分离矩阵：

B(k,f)＝B(k-1,f)+μΔB(k,f)，

其中，k是帧数，f代表各个子带的中心频率，μ是步长，一般取值范围在0.01到0.1之间，

滤波器11为1，滤波器12为0，滤波器21为1，滤波器22为0；

根据更新后的分离矩阵，计算盲源分离的频域输出：

作为优选的，所述S1和S2之间包括：

对所述原始声音数据进行预加重，获得预加重后的原始信号。

作为优选的，所述S1和S2之间还包括：

使用汉明窗对所述原始声音数据进行加窗，获得加窗后的原始信号；

其中，汉明窗函数如下：

W(n)＝0.54-0.46×cos(2×π×n/(N-1)),0≤n≤N-1，其中，W为窗函数，n为一帧信号的采样点数，N是帧长度，cos是余弦函数，其中π是圆周率。

作为优选的，所述S3中计算第一信号和第二信号的互功率谱，包括：

获取第一信号的功率和第二信号的功率；

第二信号的功率的共轭乘以第一信号的功率，并取绝对值，获得第一第一信号和第二信号的互功率谱。

作为优选的，所述S4中，语音活动检测算法为基于神经网络的语音活动检测算法。

作为优选的，所述S4中的神经网络包括依次设置的卷积层、PRelu激活层、最大池化层、归一化层、LSTM层、DNN全连接层和sigmoid函数层。

本发明公开了一种双麦神经网络降噪耳机的降噪系统，包括：

信号采集模块，所述信号采集模块通过耳机的两个麦克风采集声音信号，获得原始声音数据；

盲源信号分离模块，所述盲源信号分离模块对所述原始声音数据进行初步分离，获得第一信号和第二信号，所述第一信号和所述第二信号皆包括干扰的频域信号和主说话人声音的频域信号；其中，所述第一信号中主说话人声音的频域信号的占比大于干扰的频域信号，所述第二信号中主说话人声音的频域信号的占比小于干扰的频域信号；

期望音频获取模块，所述期望音频获取模块用于分别计算第一信号和第二信号的能量差和互功率谱，根据能量差和互功率谱计算第一信号和第二信号间的传递函数，根据能量差、互功率谱和传递函数计算获得频域的增益函数，将第一信号乘以增益函数以获得增强的期望音频信号；

检测模块，所述检测模块通过语音活动检测算法对所述增强的期望音频信号进行处理，获得干净的主说话人的语音信号。

作为优选的，还包括数据处理模块，所述数据处理模块对原始声音数据进行预加重，获得预加重信号，使用汉明窗对预加重信号进行加窗，获得加窗后的原始信号，所述盲源信号分离模块对所述加窗后的原始信号进行处理。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的1、本发明能够确保主说话人语音不失真的情况下，最大的抑制周围所有的噪声和干扰，即保留当前说话人的完整语音信息的同时将周围其他的声音(空调噪声，其他说话人的交谈声)完全屏蔽。

2、本发明为双麦系统，其能够保证主麦信号不失真，方便沟通，提高工作效率，便于通话双方可以清晰聆听到纯净的语音信号。

附图说明

图1为本发明中双麦神经网络降噪耳机的降噪方法的流程图；

图2为盲源信号分离模块的结构示意图；

图3为期望音频获取模块的结构示意图；

图4为检测模块的神经网络结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，本发明公开了一种双麦神经网络降噪耳机的降噪方法，包括以下步骤：

步骤一、通过耳机的两个麦克风采集声音信号，获得原始声音数据。

在所述步骤一和步骤二之间包括：对所述原始声音数据进行预加重，获得预加重后的原始信号；使用汉明窗对所述原始声音数据进行加窗，获得加窗后的原始信号；其中，汉明窗函数如下：W(n)＝0.54-0.46×cos(2×π×n/(N-1)),0≤n≤N-1，其中，W为窗函数，n为一帧信号的采样点数，N是帧长度，cos是余弦函数，其中π是圆周率。

步骤二、对所述原始声音数据进行初步分离，获得第一信号和第二信号，所述第一信号和所述第二信号皆包括干扰的频域信号和主说话人声音的频域信号；其中，所述第一信号中主说话人声音的频域信号的占比大于干扰的频域信号，所述第二信号中主说话人声音的频域信号的占比小于干扰的频域信号。

其中，对所述原始声音数据进行初步分离，获得第一信号和第二信号，包括：

在各个子带上构建初始分离矩阵B(0，f)；

在频域上计算各个子带的自然梯度ΔB(k,f)；

B(k,f)＝B(k-1,f)+μΔB(k,f)，

滤波器11为1，滤波器12为0，滤波器21为1，滤波器22为0；

根据更新后的分离矩阵，计算盲源分离的频域输出：

步骤三、分别计算第一信号和第二信号的能量差和互功率谱，根据能量差和互功率谱计算第一信号和第二信号间的传递函数，根据能量差、互功率谱和传递函数计算获得频域的增益函数，将第一信号乘以增益函数以获得增强的期望音频信号。

所述步骤三中计算第一信号和第二信号的互功率谱，包括：获取第一信号的功率和第二信号的功率；第二信号的功率的共轭乘以第一信号的功率，并取绝对值，获得第一第一信号和第二信号的互功率谱。

步骤四、通过语音活动检测算法对所述增强的期望音频信号进行处理，获得干净的主说话人的语音信号。

所述步骤四中，语音活动检测算法为基于神经网络的语音活动检测算法。该神经网络包括依次设置的卷积层、PRelu激活层、最大池化层、归一化层、LSTM层、DNN全连接层和sigmoid函数层。

本发明公开了一种双麦神经网络降噪耳机的降噪系统，包括信号采集模块、盲源信号分离模块、期望音频获取模块和检测模块。

所述信号采集模块通过耳机的两个麦克风采集声音信号，获得原始声音数据；

所述盲源信号分离模块对所述原始声音数据进行初步分离，获得第一信号和第二信号，所述第一信号和所述第二信号皆包括干扰的频域信号和主说话人声音的频域信号；其中，所述第一信号中主说话人声音的频域信号的占比大于干扰的频域信号，所述第二信号中主说话人声音的频域信号的占比小于干扰的频域信号；

所述期望音频获取模块用于分别计算第一信号和第二信号的能量差和互功率谱，根据能量差和互功率谱计算第一信号和第二信号间的传递函数，根据能量差、互功率谱和传递函数计算获得频域的增益函数，将第一信号乘以增益函数以获得增强的期望音频信号；

所述检测模块通过语音活动检测算法对所述增强的期望音频信号进行处理，获得干净的主说话人的语音信号。

本发明还包括数据处理模块，所述数据处理模块对原始声音数据进行预加重，获得预加重信号，使用汉明窗对预加重信号进行加窗，获得加窗后的原始信号，所述盲源信号分离模块对所述加窗后的原始信号进行处理。

下面，结合具体实施例，对本发明的技术方案做进一步说明与解释。

图2所示，为盲源信号分离模块的示意图，是指对于耳机的2个麦克风收集到的原始声音数据进行分离，使其达到分离出环境音和主说话人声音的目的；其中，盲源分离主要过程包括：语音信号的预加重、分帧、加窗、短时快速傅里叶变换(STFT)、计算不同STFT子带的自然梯度、最小失真处理，短时快速傅里叶逆变换(ISTFT)，overlap-add等。做为本发明的第一个模块，原始语音信号通过该模块后，会得到频域上的两路分离后的信号，即BSS输出1为主说话人语音外加少量干扰和噪声的频域信号，BSS输出2是干扰信号和噪声信号外加少量主说话人的信号。由于空间存在多个声源和混响的关系，盲源分离模块不能够完全获取纯净的期望信号和干扰信号，即期望信号中会残留一些干扰信号。盲源分离模块主要功能是为双麦系统和下一个PLD模块提供预处理，初步区分主说话人和干扰，加快后续模块的收敛速度与计算精度。具体流程如下，

1、预加重：预加重因子通常为0.97，即每个采样点减去上一个采样点的97％。经过预加重处理得到预加重信号。

2、加窗：为防止频率泄露，使用汉明窗进行加窗，汉明窗函数如下：

W(n)＝0.54-0.46×cos(2×π×n/(N-1)),0≤n≤N-1

经过窗函数得到加窗后的信号。其中W为窗函数，n为一帧信号的采样点数，N是帧长度，cos是余弦函数，其中π是圆周率。

3、STFT：进行短时快速傅里叶变换，将信号分离到不同的子带。经过快速傅里叶变换，使得时域上的窗信号变为频域上的信号。得到频域信号1和频域信号2。同时将时域上的卷积运算转化为频域上的乘积运算。

4、在各个子带上构建初始分离矩阵

其中f各个子带的中心频率，滤波器11为1，滤波器12为0，滤波器21为1，滤波器22为0.

5、计算自然梯度，在频域上对各个子带计算其梯度ΔB(k,f)。

6、更新分离矩阵：根据每个子带的自然梯度，从初始分离矩阵逐步更新分离矩阵，如下：

B(k,f)＝B(k-1,f)+μΔB(k,f)

得到了最终频域上的分离矩阵。其中k是帧数，f代表各个子带的中心频率，μ是步长，一般取值范围在0.01到0.1之间。B为分离矩阵，表示为

7、计算输出：根据更新后的分离矩阵，计算当前盲源分离的频域输出，如下：

图3为期望音频获取模块的示意图，是指在双麦克风系统中，两个麦克风拾取的带噪语音信号的能量差异。该模块的输入是上一个盲源分离模块的输出，在信号经过盲源分离模块后，得到了两路初步分离的信号。初步分离的信号在经过本模块后，会得到一路只有主说话人的干净的信号，即本模块的PLD输出。在分散噪声场和远场噪声环境中，通常可以认为到达两个麦克风的语音信号有较大的能量级差异，而到达两个麦的噪声信号仅有较小的能量差异。PLD算法便是利用这个特性对期望语音信号进行增强。为了保持期望语音信号不失真，以双麦能量差和估计的传递函数构建出一个维纳滤波器来处理平稳和非平稳过程。具体流程如下，

1、分别计算两路频域盲源分离输出的能量，互功率谱。

2、根据计算出来的能量算出两路信号的能量差值。

3、通过频域信号，能量差和互功率谱计算两路信号间的传递函数。

4、根据上述3步求得的变量计算最终频域的增益函数。

5、将最终频域的增益函数乘以bss输出1得到期望音频输出。

检测模块是语音前端算法中比较重要的一环，其目的是将语音从麦克风获取的音频信号中检测出来以便后续算法进行处理。在实时会议场景中，VAD算法的准确率对后续算法和最终音质有很大的影响。传统的VAD方法主要基于语音的特征进行建模，对外界环境和语音信噪比要求较高，无法处理一些类似敲击声，键盘声等瞬态噪声。近年来，基于神经网络的VAD方法越来越流行，通过神经网络强大的数据拟合能力来实现对复杂场景下的人声检测，效果通常优于传统算法。

图4示出了本发明的神经网络结构图，通过对神经网络的训练得到语音检测模型。如图所示，PLD模块的频域输出经过本模块，首先由特征提取步骤提取的40维特征送入模型第一层，卷积层，卷积层由16个卷积核组成，每个卷积核的尺寸为1×8，卷积核在时间-频率轴上进行卷积，这一步是为了学习频率子带之间的关联信息，然后使用PRelu激活函数进行计算，然后接最大池化层，池化尺寸为1×3。随后将池化后的输出送入归一化层，归一化层对每个特征图进行归一化，能够有效减少因为语音幅度变化导致的误判情况的发生。随后将输出送入LSTM层，LSTM能够有效学习帧与帧之间的关联信息，对提升语音检测准确率由很大的作用。最后送入DNN全连接层进行分类，通过sigmoid函数输出最终的帧预测结果。本模块是本发明的最后一个模块，负责检测已经干净的语音信号中存在的敲击声，键盘声等等。本模块的最后的输出为干净的主说话人的音频信号。

经测试，本发明可以消除说话人周围20cm以外的全部环境噪声，信干比达到-75dB。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种双麦神经网络降噪耳机的降噪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的双麦神经网络降噪耳机的降噪方法，其特征在于，所述S2中，对所述原始声音数据进行初步分离，获得第一信号和第二信号，包括：

在各个子带上构建初始分离矩阵B(0，f)；

在频域上计算各个子带的自然梯度ΔB(k，f)；

B(k，f)＝B(k-1，f)+μΔB(k，f)，

其中，k是帧数，f代表各个子带的中心频率，μ是步长，一般取值范围在0.01到0.1之间；

根据更新后的分离矩阵，计算盲源分离的频域输出。

3.根据权利要求1所述的双麦神经网络降噪耳机的降噪方法，其特征在于，所述S1和S2之间包括：

4.根据权利要求1所述的双麦神经网络降噪耳机的降噪方法，其特征在于，所述S1和S2之间还包括：

其中，汉明窗函数如下：

W(n)＝0.54-0.46×cos(2×π×n/(N-1))，0≤n≤N-1，其中，W为窗函数，n为一帧信号的采样点数，N是帧长度，cos是余弦函数，其中π是圆周率。

5.根据权利要求1所述的双麦神经网络降噪耳机的降噪方法，其特征在于，所述S3中计算第一信号和第二信号的互功率谱，包括：

获取第一信号的功率和第二信号的功率；

6.根据权利要求1所述的双麦神经网络降噪耳机的降噪方法，其特征在于，所述S4中，语音活动检测算法为基于神经网络的语音活动检测算法。

7.根据权利要求6所述的双麦神经网络降噪耳机的降噪方法，其特征在于，所述S4中的神经网络包括依次设置的卷积层、PRelu激活层、最大池化层、归一化层、LSTM层、DNN全连接层和sigmoid函数层。

8.一种双麦神经网络降噪耳机的降噪系统，其特征在于，包括：

9.根据权利要求8所述的双麦神经网络降噪耳机的降噪系统，其特征在于，还包括数据处理模块，所述数据处理模块对原始声音数据进行预加重，获得预加重信号，使用汉明窗对预加重信号进行加窗，获得加窗后的原始信号，所述盲源信号分离模块对所述加窗后的原始信号进行处理。