CN113889137A

CN113889137A - 麦克风阵列语音增强的方法、装置、电子设备及存储介质

Info

Publication number: CN113889137A
Application number: CN202111473848.2A
Authority: CN
Inventors: 聂帅; 梁山; 陶建华; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-01-04
Anticipated expiration: 2041-12-06
Also published as: CN113889137B

Abstract

本申请涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质，所述方法包括：通过麦克风阵列获取已知声源方向的待增强语音信号；提取所述待增强语音信号的频谱特征和方向相干特征；将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数；对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换，得到增强后语音信号，本申请通过语音增强网络实现了波束形成的滤波操作，并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到，更接近实际应用场景，以提高语音增强效果。

Description

麦克风阵列语音增强的方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理领域，尤其涉及一种麦克风阵列语音增强的方法、装置、电子设备及存储介质。

背景技术

语音是人与机器之间最自然的交互方式之一。在物联网时代，语音交互的应用场景从近场过渡到远场，由于声音在传播过程中，其能量随传播距离呈指数级衰减，在远场条件下，语音信号受到噪声和混响的干扰更加严重，极大地影响了语音识别和语音通讯等应用的性能。语音增强旨在消除噪声和混响的同时，尽可能避免语音畸变，以提高语音的可懂度和感知质量，它对以语音识别、语音通讯为核心技术的语音交互应用具有重要的价值。基于麦克风阵列的多通道语音增强已经被证明能够显著提升远场语音识别的性能、语音的可懂度和感知质量。

掩蔽和波束形成是最常用的语音增强技术。掩蔽技术能够显著地消除加性噪声，但是它并没有考虑相位的影响，不可避免地会带来一定的语音畸变，特别是在远场混响条件下，语音畸变更加严重，极大地降低了语音识别的性能，损害了语音的感知质量和可懂度。尽管固定波束形成具有相位增强的能力，能够有效地避免语音畸变，有一定的能力应对远场混响环境，但其降噪能力非常有限。相对于固定波束形成，自适应波束形成依赖于数据，通过挖掘信号的统计信息来显著提高降噪性能，但是它严重依赖于信号统计信息的估计，这在远场混响环境里，信号统计信息的估计是一个非常有挑战性的问题，而且需要积累长时信息，会造成较大的处理时延。

从语音增强性能和处理时延考虑，基于掩蔽的波束形成是一个很有前景的方案，它通过将估计的掩蔽作用到波束滤波的信号来实现语音增强的目的。然而，在现有技术中，掩蔽和波束形成都是通过级联的方式分步进行的，并且波束形成器是在一定的声场假设下预先设计的，这可能限制了该方案增强语音和降低噪声的能力。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请的实施例提供了一种麦克风阵列语音增强的方法、装置、电子设备及存储介质。

第一方面，本申请的实施例提供了一种麦克风阵列语音增强的方法，包括以下步骤：

通过麦克风阵列获取已知声源方向的待增强语音信号；

提取所述待增强语音信号的频谱特征和方向相干特征；

将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数；

对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换，得到增强后语音信号。

优选地，所述提取所述待增强语音信号的频谱特征和方向相干特征，包括：

对所述待增强语音信号进行分帧、加窗和傅里叶变换，得到所述待增强语音信号的傅里叶系数；

根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数，计算所述待增强语音信号的频谱特征；

根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数，计算所述待增强语音信号的方向相干特征，其中，所述陷波方向与所述声源方向对应。

优选地，通过以下表达式，根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数，计算所述待增强语音信号的频谱特征：

其中，

为所述待增强语音信号的频谱特征，

为所述声源方向对应的预设的波束形成器系数，

为所述待增强语音信号的傅里叶系数。

优选地，通过以下表达式，根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数，计算所述待增强语音信号的方向相干特征：

其中，

其中，

其中，

为与所述声源方向对应的预设的波束形成器系数，

为均匀散射场的归一化的相关矩阵，

为所述声源方向的导向矢量，

为第一白噪声增益控制系数，

为与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数，

为通过所述声源方向的冯米塞斯分布得到的归一化的相关矩阵，

为

的柯西分解，

为第二白噪声增益控制系数，

为所述待增强语音信号的当前帧的傅里叶系数，

为一个陷波方向对应的方向相干特征，

为从至少两个陷波方向中选出的方向相干特征，

为声源方向，

为陷波方向，

为所述待增强语音信号在声源方向滤波后傅里叶系数，

为所述待增强语音信号在声源方向和陷波方向滤波后傅里叶系数，

为共轭转置运算，

为共轭运算。

优选地，所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络，所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数，包括：

对所述待增强语音信号的频谱特征和方向相干特征进行拼接，得到拼接特征；

以所述拼接特征作为预先训练好的掩蔽预测网络的输入，以所述待增强语音信号的掩蔽值作为输出；

以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入，以所述待增强语音信号的滤波后傅里叶系数作为输出；

根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。

优选地，所述波束形成网络的激活函数为：

其中，

为所述待增强语音信号的滤波后傅里叶系数，

为当前帧语音信号与所述声源方向对应的预设的波束形成器系数，

为上一帧语音信号与所述声源方向对应的预设的波束形成器系数，

为所述待增强语音信号的当前帧的傅里叶系数，

为所述待增强语音信号的上一帧的傅里叶系数。

优选地，通过以下表达式，根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数：

其中，

为所述待增强语音信号的滤波后傅里叶系数，

为所述待增强语音信号的掩蔽值，

为所述待增强语音信号的滤波后傅里叶系数，

为点乘运算。

优选地，所述波束形成网络的数量为多个，各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应，所述掩蔽预测网络和波束形成网络通过以下步骤训练得到：

采集类散射噪声数据，并利用类散射噪声数据生成双麦散射噪声；

利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集，并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据；

提取所述双麦远场带噪数据集中，已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征；

以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入，以所述双麦远场带噪数据的掩蔽值作为输出；

根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络；

以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入，以所述双麦远场带噪数据的滤波后傅里叶系数作为输出；

根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数；

利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。

优选地，通过以下表达式，根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数：

其中，

为通过所述声源方向属于同一目标区域的每一个双麦远场带噪数据的增强后傅里叶系数，其通过每一个双麦远场带噪数据的掩蔽值与其滤波后傅里叶系数点乘得到，

为所述声源方向属于同一目标区域的所有双麦远场带噪数据的波形信号，其通过对所有双麦远场带噪数据的增强后傅里叶系数作逆傅里叶变换得到，

和

分别为所述声源方向属于同一目标区域的所有双麦远场纯净语音数据的波形信号和傅里叶系数。

优选地，所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数，包括：

利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练；

利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。

第二方面，本申请的实施例提供了一种麦克风阵列语音增强的装置，包括：

获取模块，其用于通过麦克风阵列获取已知声源方向的待增强语音信号；

提取模块，其用于提取所述待增强语音信号的频谱特征和方向相干特征；

输入模块，其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数；

处理模块，其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换，得到增强后语音信号。

第三方面，本申请的实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-9任一项所述的麦克风阵列语音增强的方法的步骤。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的麦克风阵列语音增强的方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，通过麦克风阵列获取已知声源方向的待增强语音信号；提取所述待增强语音信号的频谱特征和方向相干特征；将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数；对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换，得到增强后语音信号，本申请通过语音增强网络实现了波束形成的滤波操作，并且波束形成的权重系数基于数据驱动的监督性学习方法训练得到，更接近实际应用场景，以提高语音增强效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出了本申请实施例提供的一种麦克风阵列语音增强的方法的流程示意图；

图2示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图；

图3示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图；

图4示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图；

图5示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法流程示意图；

图6示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的方法的应用流程示意图；

图7示意性示出了本申请实施例提供的数据仿真流程示意图；

图8示意性示出了本申请实施例提供的线性麦克风阵列空间划分结构示意图；

图9示意性示出了本申请实施例提供的特征提取流程示意图；

图10示意性示出了本申请实施例提供的语音增强网络的模型框架示意图；以及

图11示意性示出了本申请又一实施例提供的一种麦克风阵列语音增强的装置结构示意图；

图12示意性示出了本申请又一实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种麦克风阵列语音增强的方法的流程示意图。如图1所示，本申请的麦克风阵列语音增强的方法，以下步骤：

S1，通过麦克风阵列获取已知声源方向的待增强语音信号；

S2，提取所述待增强语音信号的频谱特征和方向相干特征；

S3，将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数；

S4，对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换，得到增强后语音信号。

如图2所示，步骤S2中，所述提取所述待增强语音信号的频谱特征和方向相干特征，包括：

S21，对所述待增强语音信号进行分帧、加窗和傅里叶变换，得到所述待增强语音信号的傅里叶系数；

S22，根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数，计算所述待增强语音信号的频谱特征；

S23，根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数，计算所述待增强语音信号的方向相干特征，其中，所述陷波方向与所述声源方向对应。

本实施例中，步骤S22中，通过以下表达式，根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数，计算所述待增强语音信号的频谱特征：

其中，

为所述待增强语音信号的频谱特征，

为所述声源方向对应的预设的波束形成器系数，

为所述待增强语音信号的傅里叶系数。

本实施例中，步骤S23中，通过以下表达式，根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数，计算所述待增强语音信号的方向相干特征：

其中，

其中，

其中，

为与所述声源方向对应的预设的波束形成器系数，

为均匀散射场的归一化的相关矩阵，

为所述声源方向的导向矢量，

为第一白噪声增益控制系数，

为

的柯西分解，

为第二白噪声增益控制系数，

为所述待增强语音信号的当前帧的傅里叶系数，

为一个陷波方向对应的方向相干特征，

为从至少两个陷波方向中选出的方向相干特征，

为声源方向，

为陷波方向，

为所述待增强语音信号在声源方向滤波后傅里叶系数，

为共轭转置运算，

为共轭运算。

如图3所示，步骤S3中，所述预先训练好的语音增强网络包括预先训练好的掩蔽预测网络和波束形成网络，所述将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数，包括：

S31，对所述待增强语音信号的频谱特征和方向相干特征进行拼接，得到拼接特征；

S32，以所述拼接特征作为预先训练好的掩蔽预测网络的输入，以所述待增强语音信号的掩蔽值作为输出；

S33，以所述待增强语音信号的当前帧的傅里叶系数和上一帧的傅里叶系数作为预先训练好的波束形成网络的输入，以所述待增强语音信号的滤波后傅里叶系数作为输出；

S34，根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数。

本实施例中，步骤S33中，所述波束形成网络的激活函数为：

其中，

为所述待增强语音信号的滤波后傅里叶系数，

为所述待增强语音信号的当前帧的傅里叶系数，

为所述待增强语音信号的上一帧的傅里叶系数。

本实施例中，步骤S34中，通过以下表达式，根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数：

其中，

为所述待增强语音信号的滤波后傅里叶系数，

为所述待增强语音信号的掩蔽值，

为所述待增强语音信号的滤波后傅里叶系数，

为点乘运算。

如图4所示，步骤S32和步骤S33中，所述波束形成网络的数量为多个，各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应，所述掩蔽预测网络和波束形成网络通过以下步骤训练得到：

S41，采集类散射噪声数据，并利用类散射噪声数据生成双麦散射噪声；

在实际应用中，利用收集和整理的类散射噪声集，利用散射噪声仿真工具ANF-Generator产生双麦散射噪声。

S42，利用双麦散射噪声、采集的纯净语音数据和纯净噪声数据生成双麦远场带噪数据训练集，并预存与所述双麦远场带噪数据训练集对应的双麦远场纯净语音数据；

在实际应用中，收集纯净语音数据和纯净噪声数据，随机选择纯净语音、纯净噪声和散射噪声按照一定信噪比和信干比，利用仿真工具pyroomacoustics产生双麦远场带噪数据，保留加噪前的远场纯净双麦语音数据，用以为后续步骤产生目标语音，保留目标语音的方位用以提取该方位的频谱特征和空间特征。

S43，提取所述双麦远场带噪数据集中，已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征；

在实际应用中，可以将麦克风阵列的空间方位均匀地划分为多个目标区域，例如以5个目标方向{0，45，90，135，180}为中心轴的5个目标区域{-22.5~+22.5，22.5~ 67.5，67.5~ 112.5，112.5~ 157.5，157.5~ 202.5}，针对每一个目标方向，可以选择2个干扰源候选区域，根据麦克风阵列的阵型和几何参数，对每个方向设计超定向固定波束和带有陷波的固定波束（陷波方向为该目标方向所对应的干扰源候选方向），以根据超定向固定波束和带有陷波的固定波束提取已知声源方向的双麦远场带噪数据的频谱特征和方向相干特征；

S44，以所述双麦远场带噪数据的频谱特征和方向相干特征作为掩蔽预测网络的输入，以所述双麦远场带噪数据的掩蔽值作为输出；

S45，根据所述声源方向所属的目标区域确定与所述双麦远场带噪数据对应的波束形成网络；

S46，以所述双麦远场带噪数据的当前帧的傅里叶系数和上一帧的傅里叶系数作为对应的波束形成网络的输入，以所述双麦远场带噪数据的滤波后傅里叶系数作为输出；

S47，根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数；

S48，利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数。

本实施例中，步骤S47中，通过以下表达式，根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数：

其中，

和

如图5所示，步骤S47中，所述利用每一个波束形成网络的损失函数训练所述掩蔽预测网络和所述波束形成网络的权重系数，包括：

S51，利用每一个波束形成网络的损失函数分别对与其对应的波束形成网络的权重系数进行训练；

S52，利用每一个波束形成网络的损失函数值的总和对掩蔽预测网络的权重系数进行训练。

如图6所示，下面解释在将麦克风阵列空间划分为5个目标区域的应用场景下，本申请的麦克风阵列语音增强的方法。

步骤A1：数据准备-按照如图7所示的数据仿真流程仿真双麦数据

（1）收集和整理开源纯净语音数据集“863-1中文语音数据”、“AISHELL-1”、“AISHELL-2”；收集和整理网上开源纯净噪声数据集“Google Audioset”；收集和整理类散射噪声集“NOISEX-92”、空调噪声、风噪、咖啡厅噪声、广场噪声等；

（2）利用收集和整理的类散射噪声集，通过散射噪声仿真工具ANF-Generator产生20,000句双麦散射噪声，麦克风间距为4厘米；

（3）从纯净语音数据集中随机选择语音，从纯净噪声数据集中随机选择噪声，从仿真的散射噪声中随机选择散射噪声，根据下表1所示的仿真参数，利用仿真工具Pyroomacoustics随机产生10,000,000句远场带噪双麦数据，作为训练集、另外分别产生10,000句远场带噪双麦数据作为测试集和开发集。仿真过程中，除保存远场带噪双麦数据外，还需要保存加噪前的远场纯净双麦语音数据以及记录目标语音的方位。

表1

仿真参数	最小值	最大值
			房间长度	3.0米	9.0米
房间宽度	2.5米	6.5米
			房间高度	2.5米	4.0米
混响时间	0.2秒	0.6秒
			目标声源距离	0.5米	5.5米
干扰源距离	1.0米	7.0米
			干扰源个数	1	3
与干扰源角度差	30度	330度
			信噪比	0db	20db
信干比	-5db	15db
			音频幅度	367	22937

步骤A2：固定波束设计

如图8所示，对于线性麦克风阵列，其方向区分度为0~180度，首先均匀地将整个空间划分为以5个目标方向{0，45，90，135，180}为中心轴的5个目标区域{-22.5~+22.5，22.5~67.5，67.5~ 112.5，112.5~ 157.5，157.5~ 202.5}，针对每个空间区域设计一个超定向波束形成器，目标方向分别指向0，45，90，135，180度。该波束形成器在保证目标方向不失真的同时，尽可能压制散射噪声。其波束形成器系数可通过求解如下优化问题得到：

其中，

为采样的目标方位，

为方向

的波束形成器系数，

为均匀散射场的归一化的相关矩阵，

为方向

的导向矢量，

为白噪声增益控制系数，其中，

保证来自方向

的声源不失真，而最小化空间散射噪声的能量。

针对每一个目标方向，可以选择但不限于2个干扰源候选区域（陷波方向），针对每个目标设计带有陷波的固定波束形成器，该波束形成器在保证目标方向不失真的同时，尽可能压制来自陷波方向的声源。陷波方向为该目标方向对应的干扰源候选方向，具体如下：

波束形成器系数可通过求解如下带有约束的优化问题得到：

其中，

为采样的目标方位，

为对应的陷波方向，

为目标方向为

，陷波方向为

的波束形成器系数，

为通过方向为

的冯米塞斯分布（Von Mises distribution）得到的归一化的相关矩阵，

为

的柯西分解（Cholesky factorization），

为方向

的导向矢量，

为白噪声增益控制系数，其中，

保证来自方向

的声源不失真，尽可能压制来自

方向的声源。

需要说明的是，麦克风阵列的形式包括但不限于线性，例如环形和矩形等，而且当麦克风阵列的形式为环形或矩形时，其方向区分度可以为0~360度。

步骤A3：特征提取-按照图9所示的特征提取流程提取频谱特征和空间特征

首先，对双麦数据进行分帧，帧长为512，帧移为256，然后对其加汉明窗，再利用傅里叶变换得到双麦数据的傅里叶系数

。

根据给定的目标语音方向

，选择对应的固定波束形成器

，按照如下公式执行波形形成操作，并计算其频谱特征-对数能量谱特征

。

其中，

为双麦数据的傅里叶系数，

为共轭转置运算。

根据给定的目标语音方向

，选择对应的固定波束形成器

，按照如下计算步骤计算其空间特征-方向性相干特征DCF。

算法1 DCF提取步骤

其中，

是共轭转置运算，

是共轭运算。

将提取的

和DCF按照特征维度进行拼接，得到最终的输入特征

步骤A4：搭建和训练基于掩蔽神经波束的语音增强网络

图10为本实施例中所提出的基于掩蔽神经波束的语音增强网络的模型框架，本发明中采用的模型框架有两部分组成：掩蔽预测网络和神经波束形成网络。掩蔽预测网络由3层LSTM（Long Short-Term Memory，长短期记忆网络）层和1层全连接层组成，每个LSTM层有512个结点，全连接层（fully connected layers，FC）有257个结点，全连接层的激活函数为Sigmoid，因此掩蔽预测网络的输出为[0，1]的掩蔽值。分别针对0，45，90，135，180度5个方向设计了5个独立的神经波束形成网络，神经波束形成网络的计算方式和波束形成的计算方式一样，但考虑到现存的波束形成没有利用历史信号，引入了一个额外的滤波器

对历史信号进行建模，具体如下式所示：

其中，

和

是方向为

的神经波束形成网络的复数权重系数，复数向量的乘法运算可以转化为实数向量乘法进行计算，如下所示：

其中，

为取复数的实部，

为取复数的虚部，因此，神经波束形成网络的权重系数是可以优化的。

当给定目标语音的方位

时，根据步骤A3从双麦观测信号中提取该方向的频谱特征和空间特征，拼接频谱特征和空间特征，输入到掩蔽预测网络中得到预测的掩蔽

。同时利用

方向的神经波束对双麦观测信号进行滤波得到波束形成滤波后的信号

，最后利用掩蔽技术得到最终增强的目标语音傅里叶系数：

其中，

为点乘运算，对

作逆傅立叶变换可得到增强后的波形信号

。

在训练掩蔽预测网络和神经波束形成网络的过程中，使用指数压制的能量谱最小均方误差（MSE）损失和尺度不变的信号失真比（scale-invariant signal-to-distortion,SI-SDR）作为优化目标来联合优化掩蔽预测网络和神经波束形成网络。需要注意的是我们使用加噪前的远场纯净双麦语音数据波束形成后的信号作为目标语音，用以计算优化目标。

其中，

和

需要说明的是，掩蔽预测网络和神经波束的权重系数都是随机设置的，利用仿真的训练数据，通过频谱损失和波形损失的联合优化目标，来优化整个网络，直到收敛，采用Adam优化器，使用Warmup的学习率调整策略，总共训练24轮，批处理的尺寸为16，输入特征的每个维度根据训练集的统计信息规范化到0均值和1方差。

步骤A5：测试和验证本发明所提出的掩蔽神经波束语音增强网络

当掩蔽神经波束语音增强网络完成训练之后，得到训练好的语音增强网络，该网络便能实现对真实采集数据的增强。根据给定的目标声源方位，按照步骤A3提取实际采集的双麦音频数据的频谱特征和空间特征，然后对其进行0均值1方差规范化，输入到步骤A4训练好的掩蔽神经波束形成器中，分别得到掩蔽和神经波束滤波输出，最后通过掩蔽运算得到最终增强的目标语音，通过逆傅里叶变化便得到增强后的语音波形信号。

本申请的麦克风阵列语音增强的方法，波束形成网络不仅对当前时刻的信号进行滤波，还考虑对历史信号进行建模，并通过数据驱动的监督性训练，对掩蔽预测网络和神经波束形成网络进行联合优化，实现了使用神经网络进行波束形成的滤波操作，掩蔽预测网络和神经波束形成网络的权重系数能够基于数据驱动的监督性学习方法训练得到，使得掩蔽预测网络和神经波束形成网络输出的信号更接近实际情况，能够提高语音增强的精确性。

本申请的麦克风阵列语音增强的方法，以待增强语音的频谱特征和方向相干特征作为掩蔽预测网络的输入训练掩蔽预测网络，考虑了具有方向指示性并且抗混响抗散射噪声的空间特征，能够提高空间特征的方向区分性和抗混响抗散射噪声的能力，从而提高掩蔽预测的准确性。

本申请的麦克风阵列语音增强的方法，在训练掩蔽预测网络和波束形成网络时，使用加噪前的远场纯净双麦语音数据的波束形成后的信号作为语音增强网络的目标，能够确保从训练好的掩蔽预测网络和波束形成网络中输出的语音增强信号更精确。

本申请的麦克风阵列语音增强的方法，在构建波束形成网络时，对空间方位划分得到的每个区域独立地设计神经波束形成网络，且每个神经波束形成网络的优化基于目标语音在其所负责的区域的音频数据训练得到，能够得到针对不同声源方向的波束形成网络，进一步提高语音增强信号的精确性。

本申请的麦克风阵列语音增强的方法，没有基于理想浮值掩蔽直接优化掩蔽神经网络，而是基于神经波束形成网络的输出，同时考虑频谱损失和波形损失来优化，进一步提高掩蔽预测的准确性。

本申请的麦克风阵列语音增强的方法，利用两种波束形成器系数提出了方向性的方向相干特征，其中，一种波束形成器系数保持目标方位信号不失真，尽可能压制散射噪声，另一种波束形成器系数带有陷波，保持目标方位信号不失真，尽可能压制来自陷波方向的噪声，能够尽最大可能的提高语音增强的效果。

基于同一发明构思，如图11所示，本发明实施例提供了一种麦克风阵列语音增强的装置，所述装置包括：获取模块11、提取模块12、输入模块13和处理模块14。

在本实施例中，获取模块11，其用于通过麦克风阵列获取已知声源方向的待增强语音信号；

在本实施例中，提取模块12，其用于提取所述待增强语音信号的频谱特征和方向相干特征；

在本实施例中，输入模块13，其用于将所述待增强语音信号的频谱特征和方向相干特征输入预先训练好的语音增强网络中，得到所述待增强语音信号的增强后傅里叶系数；

在本实施例中，处理模块14，其用于对所述待增强语音信号的增强后傅里叶系数进行逆傅里叶变换，得到增强后语音信号。

在一些实施例中，所述提取模块12，还用于：

在一些实施例中，所述提取模块12中，通过以下表达式，根据所述待增强语音信号的傅里叶系数和与所述声源方向对应的预设的波束形成器系数，计算所述待增强语音信号的频谱特征：

其中，

为所述待增强语音信号的频谱特征，

为所述声源方向对应的预设的波束形成器系数，

为所述待增强语音信号的傅里叶系数。

在一些实施例中，所述提取模块12中，通过以下表达式，根据所述待增强语音信号的傅里叶系数、与所述声源方向对应的预设的波束形成器系数和与所述待增强语音信号的声源方向和陷波方向对应的预设的波束形成器系数，计算所述待增强语音信号的方向相干特征：

其中，

其中，

其中，

为与所述声源方向对应的预设的波束形成器系数，

为均匀散射场的归一化的相关矩阵，

为所述声源方向的导向矢量，

为第一白噪声增益控制系数，

为

的柯西分解，

为第二白噪声增益控制系数，

为所述待增强语音信号的当前帧的傅里叶系数，

为一个陷波方向对应的方向相干特征，

为从至少两个陷波方向中选出的方向相干特征，

为声源方向，

为陷波方向，

为所述待增强语音信号在声源方向滤波后傅里叶系数，

为共轭转置运算，

为共轭运算。

在一些实施例中，所述输入模块13，还用于：

在一些实施例中，所述输入模块13中，所述波束形成网络的激活函数为：

其中，

为所述待增强语音信号的滤波后傅里叶系数，

为所述待增强语音信号的当前帧的傅里叶系数，

为所述待增强语音信号的上一帧的傅里叶系数。

在一些实施例中，所述输入模块13中，通过以下表达式，根据所述待增强语音信号的掩蔽值和滤波后傅里叶系数得到增强后傅里叶系数：

其中，

为所述待增强语音信号的滤波后傅里叶系数，

为所述待增强语音信号的掩蔽值，

为所述待增强语音信号的滤波后傅里叶系数，

为点乘运算。

在一些实施例中，所述输入模块13中，所述波束形成网络的数量为多个，各所述波束形成网络与预先对麦克风阵列空间划分的目标区域对应，所述掩蔽预测网络和波束形成网络通过以下步骤训练得到：

在一些实施例中，所述输入模块13中，通过以下表达式，根据所述声源方向属于同一目标区域的双麦远场带噪数据的掩蔽值、滤波后傅里叶系数、所述双麦远场纯净语音数据的波形信号和傅里叶系数计算每一个波束形成网络的损失函数：

其中，

和

在一些实施例中，所述输入模块13，还用于：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

基于同一发明构思，如图12所示，本发明实施例提供了一种电子设备，包括处理器1110、通信接口1120、存储器1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信；

存储器1130，用于存放计算机程序；

处理器1110，用于执行存储器1130上所存放的程序时，实现如下所示麦克风阵列语音增强的方法：

通过麦克风阵列获取已知声源方向的待增强语音信号；

提取所述待增强语音信号的频谱特征和方向相干特征；

上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于同一发明构思，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任意可能的实现方式中的麦克风阵列语音增强的方法。

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，包括计算机程序，所述程序被处理器执行时实现上述任意可能的实现方式中的麦克风阵列语音增强的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。