CN114339539A

CN114339539A - 一种采用麦克风阵列拾音的多通道语音增强方法

Info

Publication number: CN114339539A
Application number: CN202111411208.9A
Authority: CN
Inventors: 姜彦吉; 梁振兴; 刘海涛; 彭博; 郑四发
Original assignee: Suzhou Automotive Research Institute of Tsinghua University
Current assignee: Suzhou Automotive Research Institute of Tsinghua University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-04-12
Anticipated expiration: 2041-11-25
Also published as: CN114339539B

Abstract

本发明公开了一种采用麦克风阵列拾音的多通道语音增强方法，该方法包括利用多个单通道麦克风对语音进行多通道拾音并进行预处理；基于参考麦克风的选择，采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异，设计出与参考麦克风对应的滤波器；对其它单通道麦克风进行NCC和MCS两种特征提取，并设计出与其它单通道参考麦克风一一对应的滤波器；将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理，以获得最终的增强语音信号。本发明提供的多通道语音增强方法采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异，对室内空间中远近场带噪语音起到很好的降噪效果。

Description

一种采用麦克风阵列拾音的多通道语音增强方法

技术领域

本发明涉及语音降噪技术领域，特别涉及一种采用麦克风阵列拾音的多通道语音增强方法。

背景技术

在真实的生产生活场景中，各种复杂的噪声干扰会严重影响人们使用语音设备的通信质量或语音识别系统的识别性能。需要通过语音信号的前端处理提升语音的清晰度和可懂度，以便提升系统性能。一般而言，采用多个麦克风，组成一定形式的阵列结构，进行多通道拾音，除了语音信号的时域特征和频域特征，还能获得比单个麦克风拾音更多的空间特征信息，从而进行更高维度的语音增强算法设计。传统的基于麦克风阵列的语音增强算法大多采用波束形成(Beamforming,BF)方法，通过算法采集信号的空间信息，提高目标方向的语音增益，实现对目标信号的增强，将其他方向的信号都认为是干扰信号。波束形成算法一般分成两个阶段，第一阶段要对各个麦克风接收的信号进行同步处理。选择一个麦克风作为参考麦克风，计算语音信号到每个麦克风的相对时延，通过时延补偿使得各个麦克风通道的信号在时间上同步。第二阶段确定各个麦克风通道的权重。赋予不同通道不同的权重，以便适应问题场景，将每个通道信号加权求和并做平均，得到最终的增强语音。基于信号处理的波束形成算法有几点不足：

1.算法基于一些数学假设和噪声的频谱估计，这些假设和估计只是一定程度上符合场景的特性，使得系统的降噪性能有限；

2.这类方法无法对波束以外的有用语音信号进行增强处理，不能满足全场景拾音的要求；

3.由于真实场景中说话人与麦克风距离不同，说话人的语音信号难以保证特征能量的均匀分布，一句话中，有的段声音大，有的段声音小，非平稳的语音状态，也使得系统语音增强效果不稳定。

发明内容

为了克服现有技术存在的不足，本发明提供了一种采用麦克风阵列拾音的多通道语音增强方法，所述技术方案如下：

本发明提供了一种采用麦克风阵列拾音的多通道语音增强方法，包括以下步骤：

S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理；

S2、选择其中一个单通道麦克风作为参考麦克风，基于所述参考麦克风的选择，进行归一化处理多通道拾音信号，采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异，再通过多头注意力网络设计出与所述参考麦克风对应的滤波器，使用该滤波器对所述参考麦克风的拾音信号进行卷积操作，以获得所述参考麦克风滤波后的增强语音信号；

S3、结合所述参考麦克风滤波后的增强语音信号，对其它单通道麦克风进行NCC和MCS两种特征提取，并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器，其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作，以分别获得其它单通道麦克风滤波后的增强语音信号；

S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理，以获得最终的增强语音信号。

进一步地，在步骤S1中，预处理包括以下步骤：

S101、对语音数据前后进行补零；

S102、对补零后的语音数据进行分帧处理，

其中，M为帧长，K为帧移，Z为帧数，t是帧索引值，i是麦克风的索引，

表示单通道麦克风i在帧t处的语音向量；

S103、对分帧后的语音数据添加上下文语音窗口，

其中，W为上下文窗口大小，

是麦克风i在帧t处包含上下文的语音向量；

S104、将所有通道的分帧语音数据x添加到数组中，形状为[N,M,Z]，将所有通道的添加上下文窗口的语音数据

添加到另一个数组中，形状为[N,2W+M,Z]，其中N为通道数量。

进一步地，在步骤S2中，对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作，以作为所述多头注意力网络中的一部分输入数据。

进一步地，将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作，以得到所述多头注意力网络中的另一部分输入数据。

进一步地，与所述参考麦克风对应的滤波器的设计包括以下步骤：

S201、所述输入数据输入所述多头注意力网络输出，使用跳跃连接将输出的结果与所述输入数据相加，并进行LayerNorm正则化操作；

S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理；

S203、将步骤S202的结果先进行形状变换，再经过BiLSTM和Prelu激活函数处理；

S204、将步骤S203的结果输入到Linear线性层，并进行形状变换；

S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加，并进行LayerNorm正则化操作；

S206、对步骤S205的结果进行形状变换，然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后，进行一维卷积操作，并使用Prelu激活函数处理；

S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中，并将其进行相乘后进行变换形状，以生成所述参考麦克风对应的滤波器。

进一步地，在步骤S3中，对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取，对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作，以作为所述多头注意力网络中的一部分输入数据。

进一步地，将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作，以得到所述多头注意力网络中的另一部分输入数据。

进一步地，与其它单通道麦克风对应的滤波器的设计包括以下步骤：

S301、所述输入数据进行形状变换后输入所述多头注意力网络输出，使用跳跃连接将输出的结果与所述输入数据相加，并进行LayerNorm正则化操作；

S302、将步骤S301的结果进行形状变换后，再经过带有Prelu激活函数的一维卷积处理；

S303、将步骤S302的结果进行形状变换后，再经过BiLSTM和Prelu激活函数处理；

S304、将步骤S303的结果输入到Linear线性层处理；

S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加，并进行LayerNorm正则化操作；

S306、对步骤S305的结果进行形状变换，然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后，进行一维卷积操作，并使用Prelu激活函数处理；

S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中，并将其进行相乘后进行变换形状，以生成其它单通道麦克风对应的滤波器。

进一步地，利用步骤S2-S4构建多通道语音增强模型，对所述多通道语音增强模型进行模型训练，步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象，再执行步骤S1-S4，其中，生成训练数据包括以下步骤：

P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频；

P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件；

P3、根据降噪场景的噪声强度设置信噪比；

P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置，并使用gpuRIR工具包，模拟声音回响。

进一步地，对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算，以得到优化后的多通道语音增强模型。

本发明提供的技术方案带来的有益效果如下：

(1)对室内空间中远近场带噪语音起到很好的降噪效果；

(2)解决了接收语音信号能量分布不均的问题，提高了接收信号的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多通道语音增强方法中第一阶段语音增强示意图；

图2是本发明实施例提供的多通道语音增强方法的ACG-Net模块结构示意图；

图3是本发明实施例提供的多通道语音增强方法中第二阶段语音增强示意图；

图4是本发明实施例提供的多通道语音增强方法中麦克风分布结构示意图；

图5是本发明实施例提供的多通道语音增强方法中MCS特征提取流程示意图；

图6是本发明实施例提供的多通道语音增强方法中模型训练和推理流程示意图；

图7是本发明实施例提供的多通道语音增强方法中不同麦克风降噪前的语音波形图；

图8是本发明实施例提供的多通道语音增强方法中不同麦克风降噪后的语音波形图；

图9是本发明实施例提供的多通道语音增强方法中不同麦克风降噪前的频谱图；

图10是本发明实施例提供的多通道语音增强方法中不同麦克风降噪后的频谱图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，更清楚地了解本发明的目的、技术方案及其优点，以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。除此，本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明的一个实施例中，提供了一种采用麦克风阵列拾音的多通道语音增强方法，包括以下步骤：

其中，预处理包括以下步骤：

S101、对语音数据前后进行补零；

S102、对补零后的语音数据进行分帧处理，

表示单通道麦克风i在帧t处的语音向量；

S103、对分帧后的语音数据添加上下文语音窗口，

其中，W为上下文窗口大小，

是麦克风i在帧t处包含上下文的语音向量；

添加到另一个数组中，形状为[N,2W+M,Z]，其中N为通道数量。

S2、参见图1，选择其中一个单通道麦克风作为参考麦克风，基于所述参考麦克风的选择，进行归一化处理多通道拾音信号，采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异，再通过多头注意力网络设计出与所述参考麦克风对应的滤波器，使用该滤波器对所述参考麦克风的拾音信号进行卷积操作，以获得所述参考麦克风滤波后的增强语音信号，作为语音增强的第一阶段；

具体地，对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作，以作为所述多头注意力网络中的一部分输入数据。将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作，以得到所述多头注意力网络中的另一部分输入数据。

其中，参见图2，与所述参考麦克风对应的滤波器的设计包括以下步骤：

S3、参见图3，结合所述参考麦克风滤波后的增强语音信号，对其它单通道麦克风进行NCC和MCS两种特征提取，并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器，其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作，以分别获得其它单通道麦克风滤波后的增强语音信号，作为语音增强的第二阶段；

具体地，对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取，对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作，以作为所述多头注意力网络中的一部分输入数据。将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作，以得到所述多头注意力网络中的另一部分输入数据。

其中，与其它单通道麦克风对应的滤波器的设计包括以下步骤：

S304、将步骤S303的结果输入到Linear线性层处理；

利用步骤S2-S4构建多通道语音增强模型，对所述多通道语音增强模型进行模型训练，步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象，再执行步骤S1-S4，对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算，以得到优化后的多通道语音增强模型。

其中，生成训练数据包括以下步骤：

P3、根据降噪场景的噪声强度设置信噪比；

本实施例使用基于深度学习框架的双阶段增强方式进行多通道语音降噪算法设计，通过归一化计算平衡接收信号的能量分布，将多种通道间特征提取方法进行有机结合，充分利用麦克风阵列间的空间特征，并将多头注意力机制网络和序列网络联合建模，提升增强模型对数据的特征提取能力，以此来更好的训练多通道阵列滤波器，最后基于多通道滤波求和，获得纯净语音信号。

下面以模拟室内会议场景作为具体实例进行进一步地说明：

步骤1生成训练数据，以模拟室内会议场景的多通道语音增强问题。

步骤1.1从采样率均为16K Hz的纯净语音数据集和噪声数据集各随机选取一个音频，目前常用数据集的采样率都是16K Hz。

步骤1.2将选取的纯净语音和噪声切分为长度4s的音频文件。

步骤1.3根据降噪场景的噪声强度设置信噪比，范围是[-15db,0db]，增加训练数据的覆盖范围。

步骤1.4设置降噪空间尺寸和分布式麦克风、说话人、噪声源位置，使用gpuRIR工具包，模拟声音回响，分布式麦克阵列的设置如图4所示。图4中圆圈表示说话人位置，三角形表示噪声源位置，长10米宽5米的长方形为会议室的大小，中间长5米宽1米的长方形是一个会议桌，在会议桌上的五角星表示单通道麦克风，四个五角星表示一个四麦克风环形分布的阵列结构。

步骤1.5将噪声按照不同信噪比与说话人纯净语音进行相加，生成带噪语音。

步骤2数据预处理

步骤2.1对带噪语音数据前后进行补零，前后各补32个零，以防止语音数据的首末特征丢失。

步骤2.2对补零后的语音数据进行分帧处理，设置帧长M为64个采样点，帧移K为32个采样点，

其中，t是帧索引值，i是麦克风的索引，

表示麦克风i在帧t处的语音向量，Z为帧数。

步骤2.3对分帧后的语音添加上下文语音窗口，

其中，W为上下文窗口大小，

是麦克风i在帧t处包含上下文的语音向量，以减少通道间的延时误差。

步骤2.4将所有通道的分帧语音数据x添加到数组中，形状为[N，M，Z]，将所有通道的添加上下文语音数据

添加到另一个数组中，形状为[N，2W+M，Z]，其中N为通道数量。

步骤3多通道语音增强的第一阶段

步骤3.1基于NCC的通道间的特征提取

步骤3.1.1进行归一化互相关通道特征提取

其中，

是参考麦克风与麦克风i的余弦相似度，

为参考麦克风信号。

步骤3.1.2对步骤3.1.1的结果进行平均池化操作

其中，

取均值后的归一化互相关。

步骤3.2基于MCS的通道间特征提取

步骤3.2.1参见图5，进行多通道卷积和的通道特征提取

其中，

二维卷积核尺寸为[N，K]，步长设置为K/2，卷积核个数设置为E，

步骤3.2.2对步骤3.2.1的结果进行平均池化操作

其中，

步骤3.3前处理模块设计(Pre-Net)

步骤3.3.1对步骤3.2.2结果和

进行形状变换

其中，

步骤3.3.2对out^ref进行一维卷积操作，进行GroupNorm操作，然后进行形状变换

m_t＝GroupNorm(Conv1d(out^ref))

其中，

是帧数t处的语音特征向量，一维卷积的卷积核大小为2W+M，输出通道数为M，

步骤3.4滤波器设计(ACG-Net)

步骤3.4.1将

和

进行联合

其中，

表示在帧数t处联合后的语音向量，

表示联合后的语音向量。

步骤3.4.2将联合后的向量变换形状，再输入到一维卷积中

其中

一维卷积的卷积核大小为1，输出通道数为M。

步骤3.4.3将out₂输入到多头注意力网络，使用跳跃连接，并进行LayerNorm正则化操作，

out₃＝LayerNorm(MultiHeadAtt(out₂)+out₂)

其中，

MultiHeadAtt输出维度设置为M，head值为4。

步骤3.4.4将步骤3.4.3的结果经过带有Prelu激活函数的一维卷积

out₄＝Prelu(Conv1d(out₃))

其中，

一维卷积的卷积核大小为1，输出通道数为M/2。

步骤3.4.5接着将步骤3.4.4结果先进行形状变换，再经过BiLSTM和Prelu激活函数，

其中

BiLSTM的输出维度设置为2M。

步骤3.4.6将步骤3.4.5的结果输入到Linear线性层，并进行形状变换，

out₆＝reshape(Linear(out₅))

其中，

Linear层的输出维度为M。

步骤3.4.7使用跳跃连接，将out₃与out₆进行相加，并进行LayerNorm正则化操作

out₇＝LayerNorm(out₃+out₆)

其中，

步骤3.4.8对步骤3.4.7的结果进行形状变换，然后对out₂和

使用跳跃连接

其中，

步骤3.4.9将步骤3.4.8的结果进行一维卷积操作，并使用Prelu激活函数

out₉＝Prelu(Conv1d(out₈))

其中，

一维卷积的卷积核大小为1，输出通道为2W+1。

步骤3.4.10将out₉分别输入到带有sigmoid和Tanh激活函数的一维卷积中，并将其进行相乘，

h＝Tanh(Conv1d(out₉))⊙Sigmoid(Conv1d(out₉))

其中，

⊙为哈达玛积，一维卷积的卷积核大小为1，输出通道数C为2W+1。

步骤3.5卷积求和，生成纯净语音

步骤3.5.1将h变换形状

Filter₁＝reshape(h)

其中，

为生成的波束形成滤波器。

步骤3.5.2使用步骤3.5.1中生成的波束形成滤波器，对参考麦克风的语音

进行卷积操作，

其中，

表示参考麦克风经过滤波后的增强语音信号。

步骤4多通道语音增强第二阶段

步骤4.1基于NCC的通道间的特征提取

步骤4.1.1进行归一化互相关通道特征提取

其中，

是降噪后的参考麦克风信号与麦克风i的信号的余弦相似度计算结果，

为麦克风i的语音信号。

步骤4.2基于多通道卷积和的通道间特征提取

步骤4.2.1获取输入信号x_t的其他麦克风信号，并进行变换形状

其中，

步骤4.2.2对步骤3输出的结果进行形状变换

Ref_t＝reshape(R_t)

其中，

步骤4.2.3将Ref与otherx进行联合

Con_t＝concat([Ref_t，otherx_t])

其中，

为联合后的语音向量。

步骤4.2.4进行MCS通道特征提取(二维卷积)

g2_t＝Conv2d(Con_t)

其中，

二维卷积核尺寸为[N，G]，步长设置为G/2，卷积核个数设置为E，

步骤4.2.5对步骤4.2.4进行平均池化操作，

其中，

步骤4.2.6对步骤4.2.5结果进行形状变换，再进行维度扩张，

其中，

步骤4.3前处理模块设计(Pre-Net)

步骤4.3.1获取输入信号

均其他麦克风信号，并对形状进行变化

其中，

步骤4.3.2对Cotherx_t进行一维卷积操作，并进行GroupNorm操作，

cm_t＝GroupNorm(Conv1d(Cotherx_t))

其中，

步骤4.4滤波器设计(ACG-Net)

步骤4.4.1将

f_t进行联合

其中，

步骤4.4.2将联合后的向量变换形状，再输入到一维卷积中

其中

一维卷积的卷积核大小为1，输出通道数为M。

步骤4.4.3将out₁₀进行形状变化，再输入到多头注意力网络，使用跳跃连接，并进行LayerNorm正则化操作，

其中，

MultiHeadAtt输出维度设置为M，head值为4。

步骤4.4.4将out₁₁先经过形状变换，再经过带有Prelu激活函数的一维卷积

其中，

一维卷积的卷积核大小为1，输出通道数为M/2。

步骤4.4.5接着将步骤4.4.4结果先进行形状变换，再经过BiLSTM和Prelu激活函数，

其中

BiLSTM的输出维度设置为M。

步骤4.4.6将步骤4.4.5的结果输入到Linear层处理，

out₁₄＝Linear(out₁₃)

其中，

Linear层的输出维度为M。

步骤4.4.7使用跳跃连接，将out₁₁与out₁₄进行相加，并进行LayerNorm正则化操作

out₁₅＝LayerNorm(out₁₁+out₁₄)

其中，

步骤4.4.8对步骤4.4.7的结果进行形状变换，然后对out₁₀和

使用跳跃连接处理，

其中，

步骤4.4.9对out₁₆进行一维卷积操作，并使用Prelu激活函数，

out₁₇＝Prelu(Conv1d(out₁₆))

其中，

一维卷积的卷积核大小为1，输出通道为2W+1。

步骤4.4.10将out₁₇分别输入到带有sigmoid和Tanh激活函数的一维卷积中，并将其进行相乘，

h2＝Tanh(Conv1d(out₁₇))⊙Sigmoid(Conv1d(out₁₇))

其中，

⊙为哈达玛积，一维卷积的卷积核大小为1，输出通道数为2W+1。

步骤4.5卷积求和

步骤4.5.1将h2变换形状，

Filter＝reshape(h2)

其中，

为生成的波束形成滤波器。

步骤4.5.2使用步骤4.5.1生成的波束形成滤波器，对相应的语音

进行卷积操作，

其中，

表示麦克风i经过滤波后的语音信号。

步骤4.6生成纯净语音

步骤4.6.1对增强语音信号

和R进行联合，然后维度变化并去掉先前所补的零，恢复原来语音长度。

其中，

表示所有麦克风恢复原始长度的语音增强信号。

步骤4.6.2对步骤4.6.1的结果计算平均值，

其中，

表示最终输出的语音增强信号。

步骤5损失函数设计

步骤5.1使用比例不变信噪比(SI-SNR)作为损失函数

e_noise＝y-s_target

其中，y，

分别是降噪后的语音和纯净语音。

步骤6超参数设置

多头注意力网络的head设置为4，MSC使用的卷积核大小为64，卷积核数量为16，步长为2，膨胀数为2。在训练阶段，使用150epoch进行训练，保存在验证集表现最好的模型。另外，在训练时，若最近10epoch模型损失值在验证集上没有降低，则将自动停止训练。使用adam作为损失函数优化器，同时为防止梯度爆炸，使用L2范数为5进行梯度剪裁。对于学习率，在训练过程中使用动态策略warmup去调整，它能够在训练初期以较小的学习率对模型进行预热，增加模型的稳定性，然后逐渐以0.98的衰减率每3epoch进行降低。

其中，lr指学习率，n是训练的步数，a₁、a₂、n_warmups、d_model是超参数。在实验中，设置a₁为0.2,a₂为1e-3,n_warmups为4000，d_model为64。

训练结束后，得到参数确定的多通道语音增强模型，作为优化后的模型。

步骤7模型推理

使用带噪语音作为模型输入，将数据经过步骤2-4，即可生成增强后的语音，具体过程见图6。

本实施例在多通道语音增强前后的语音波形图和频谱图，参见图7至图10，未处理前噪声能量较高，时域上已经比较难以区分语音分量和噪声分量，经过算法处理，噪声成分消除较为彻底，静音段已经趋于直线，频谱图上也有较为明显的噪声抵消，噪声能量最低的部分对应时域波形的直线部分。

本实施例基于单通道参考麦克风信号的选择，归一化处理多通道拾音信号，采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异，并通过多头注意力机制设计ACG-Net滤波器，使用卷积计算，获得参考麦克风降噪后语音信号。通过计算通道间特征，通过ACG-Net网络，生成与麦克风一一对应的滤波器，卷积滤波后，将结果取均值，获得最终降噪语音。该方法的优势在于通过标准化处理输入数据，使用双阶段形式，加强通道间特征的提取。在每个阶段都会计算不同通道麦克风的通道特征，充分均衡空间的远近场特征，较好解决实际场景中语音能量不均问题。实验结果证明，该方法能够对室内空间中远近场带噪语音起到很好的降噪效果。

本发明提供的多通道语音增强方法基于深度学习框架进行多通道语音增强算法设计，相较于传统方法，无需假设条件进行算法设计，以数据为驱动，更好的利用空间特征；对于麦克风阵列中拾取的多通道信号，首先对语音信号数据进行变换，使其能量分布在训练集所使用的语音数据的能量分布范围内，进行均值和方差的归一化计算，以解决接收语音信号能量分布不均的问题，避免接收信号影响模型效果，降低模型性能。在深度学习的算法框架中，设计双阶段方式进行多通道语音增强，第一阶段，选取参考麦克风，融合多个通道间特征提取方法，对参考麦克风进行语音增强；第二阶段，使用增强后的参考麦克风信号对其他通道进行通道间特征提取，并对其它通道进行信号增强，最后将其增强信号平均池化，形成增强后的语音信号。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种采用麦克风阵列拾音的多通道语音增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的多通道语音增强方法，其特征在于，在步骤S1中，预处理包括以下步骤：

S101、对语音数据前后进行补零；

S102、对补零后的语音数据进行分帧处理，

表示单通道麦克风i在帧t处的语音向量；

S103、对分帧后的语音数据添加上下文语音窗口，

其中，W为上下文窗口大小，

是麦克风i在帧t处包含上下文的语音向量；

添加到另一个数组中，形状为[N,2W+M,Z]，其中N为通道数量。

3.根据权利要求2所述的多通道语音增强方法，其特征在于，在步骤S2中，对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作，以作为所述多头注意力网络中的一部分输入数据。

4.根据权利要求3所述的多通道语音增强方法，其特征在于，将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作，以得到所述多头注意力网络中的另一部分输入数据。

5.根据权利要求4所述的多通道语音增强方法，其特征在于，与所述参考麦克风对应的滤波器的设计包括以下步骤：

6.根据权利要求2所述的多通道语音增强方法，其特征在于，在步骤S3中，对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取，对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作，以作为所述多头注意力网络中的一部分输入数据。

7.根据权利要求6所述的多通道语音增强方法，其特征在于，将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作，以得到所述多头注意力网络中的另一部分输入数据。

8.根据权利要求7所述的多通道语音增强方法，其特征在于，与其它单通道麦克风对应的滤波器的设计包括以下步骤：

S304、将步骤S303的结果输入到Linear线性层处理；

9.根据权利要求1所述的多通道语音增强方法，其特征在于，利用步骤S2-S4构建多通道语音增强模型，对所述多通道语音增强模型进行模型训练，步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象，再执行步骤S1-S4，其中，生成训练数据包括以下步骤：

P3、根据降噪场景的噪声强度设置信噪比；

10.根据权利要求9所述的多通道语音增强方法，其特征在于，对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算，以得到优化后的多通道语音增强模型。