CN114255780A

CN114255780A - 一种基于深度神经网络的噪声鲁棒盲混响时间估计方法

Info

Publication number: CN114255780A
Application number: CN202210004710.6A
Authority: CN
Inventors: 郑成诗; 郑凯桐; 桑晋秋; 张玉龙; 张芳杰; 李晓东
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2022-03-29
Anticipated expiration: 2042-01-04
Also published as: CN114255780B

Abstract

本发明公开了一种基于深度神经网络的噪声鲁棒盲混响时间估计方法，所述方法包括：对采集的语音信号进行预处理；将预处理后的语音信号输入预先建立和训练好的混响时间估计模型，得到混响时间值；所述混响时间估计模型基于深度神经网络和时频掩膜实现。本发明的方法利用混响语音进行房间混响时间估计，省去了传统声学测量所需要的专业的仪器与测量人员，相比于传统声学测量方法更加方便快捷；通过收集大量混响语音数据集，采用数据驱动的深度神经网络，可以显著提高房间混响时间估计的准确性。

Description

一种基于深度神经网络的噪声鲁棒盲混响时间估计方法

技术领域

本发明属于噪声鲁棒盲混响时间估计方法技术领域，尤其涉及一种基于深度神经网络的噪声鲁棒盲混响时间估计方法。

背景技术

当声音从封闭空间中的声源处传播到观测点时，在房间将产生多次反射声。这一物理过程产生了混响，即在关闭声源后，室内产生的声音在一段时间内仍可被听到。声音停止发声时减少60分贝所花费的时间被定义为混响时间(T60)，它主要取决于房间的几何形状和表面的反射率。ISO标准中规定的混响时间测量方法有中断声源法以及脉冲响应反向积分法。中断声源法需要使用十二面体球形声源发出全频带噪声，使得标准传声器处的声压级大于本底噪声至少45dB以上，关闭声源，记录声能量曲线(EDC)，通过EDC算得混响时间，中断声源法需要在房间中取多点进行平均，在每点都需要多次测量取平均。脉冲响应反向积分法需要对房间冲激响应(RIR)进行反向积分得到声能量衰减曲线。房间冲激响应可以通过在声源处输入扫频等宽带信号作为激励信号，在传声器处接收经过房间传播的激励信号，再利用激励信号与传声器处接收的信号进行解卷积求出。传统的测量方法需要专业仪器、专业人员进行测量，不利于大规模测量混响时间。因此，需要提出一种方便快捷的盲混响时间估计方法。

盲混响时间估计方法指的是直接从混响语音录音中估计T60。这就意味着在没有任何关于声环境或说话人先验信息的情况下，输入混响语音录音，估计算法直接输出估计的T60。几十年来，人们提出了许多盲T60估计方法，包括基于传统信号处理和基于机器学习的方法。

在真实的声学环境中，语音不仅包含混响，还包含噪声。噪声和晚期混响具有类似的性质，在存在噪声的情况下，混响声被淹没在噪声中，从而降低T60估计器的估计性能。因此，提出一种噪声鲁棒的盲混响时间估计方法是十分必要的。

以往的相关专利或论文均未采用过此种方法来搭建噪声鲁棒盲混响时间估计模型。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种基于深度神经网络的噪声鲁棒盲混响时间估计方法。

为了实现上述目的，本发明提出了一种基于深度神经网络的噪声鲁棒盲混响时间估计方法，所述方法包括：

对采集的语音信号进行预处理；

将预处理后的语音信号输入预先建立和训练好的混响时间估计模型，得到混响时间值；

所述混响时间估计模型基于深度神经网络和时频掩膜实现。

作为上述方法的一种改进，所述对采集的语音信号进行预处理；具体包括：

使用设定毫秒的汉宁窗口，根据设定的帧移和傅里叶变换点数，对采集的语音信号进行短时傅里叶变换，得到多维的频率特征。

作为上述方法的一种改进，所述混响时间估计模型为第一模型或第二模型；其中，

所述第一模型包括串联的噪声估计网络和混响时间估计网络；预处理后的语音信号同时输入噪声估计网络和混响时间估计网络，输出为语音信号的混响时间值；

所述第二模型包括串联的去噪网络和混响时间估计网络；预处理后的语音信号输入去噪网络，输出为语音信号的混响时间值。

作为上述方法的一种改进，所述第一模型的噪声估计网络包括编码器、MG-TCNs模块和解码器，其中，

所述编码器，用于对预处理后的语音信号提取隐变量特征；

所述MG-TCNs模块，用于对编码器提取的隐变量特征的时间序列进行时序建模，输出隐变量；

所述解码器包括并联的语音解码器和噪声解码器，分别用于将MG-TCNs模块输出的隐变量还原为与语音信号幅度谱维度一致的无噪声语音估计和噪声估计；

所述第一模型的混响时间估计网络，用于结合无噪声语音估计和噪声估计对预处理后的语音信号估算出混响时间值，所述混响时间估计网络包括编码器和MG-TCNs模块，均与噪声估计网络对应模块的结构相同。

作为上述方法的一种改进，所述第二模型的去噪网络包括编码器、MG-TCNs模块和语音解码器，其中，

所述编码器，用于对预处理后的语音信号提取隐变量特征；

所述MG-TCNs，用于对编码器提取的隐变量特征的时间序列进行时序建模，输出隐变量；

所述语音解码器用于将隐变量还原为与语音信号幅度谱维度一致的无噪声语音估计；

所述第二模型的混响时间估计网络，用于根据无噪声语音估计估算出混响时间值，所述混响时间估计网络包括编码器和MG-TCNs模块，均与去噪网络对应模块的结构相同。

作为上述方法的一种改进，所述方法还包括混响时间估计模型的训练步骤；具体包括：

准备纯净语音数据集、噪声数据集和房间冲激响应数据集，构成样本集；

从样本集中获取纯净语音和房间冲激响应，进行卷积并加上噪声得到训练语音构成训练集；

使用设定毫秒的汉宁窗口，根据设定的帧移和傅里叶变换点数，对训练集中的训练语音依次进行短时傅里叶变换，分别得到对应的多维的频率特征；

使用Adam优化器，设置两个训练阶段，分别设置每个训练阶段的学习率和训练批次及周期，将预处理后的训练集数据分别输入第一模型或第二模型，直至满足训练要求，得到训练好的第一模型或第二模型，从而完成混响时间估计模型的训练。

作为上述方法的一种改进，所述第一模型的第一训练阶段的损失函数L_NE满足下式：

其中，α表示加权因子，取为0.5，

表示估计的无噪语音幅度谱，|X|表示无噪语音幅度谱，

表示估计的噪声幅度谱，|N|表示噪声幅度谱，

表示二范数；

所述第一模型的第二训练阶段的损失函数L满足下式：

L＝L_RE+λL_NE

其中，L_RE为估计的混响时间与真实混响时间的均方误差，满足下式：

其中，λ表示微调加权因子，取为0.1，l为帧索引，T表示总帧数，

为第l帧的混响时间估计值，T_60,l为第l帧的混响时间真实值。

作为上述方法的一种改进，所述第二模型的第一训练阶段的损失函数L_NR满足下式：

其中，

表示估计的无噪语音幅度谱，|X|表示无噪语音幅度谱，

表示二范数；

所述第二模型的第二训练阶段的损失函数L满足下式：

L＝L_RE+λL_NE

一种基于深度神经网络的噪声鲁棒盲混响时间估计系统，所述系统包括预处理模块、输出模块和混响时间估计模型，其中，

所述预处理模块，用于对采集的语音信号进行预处理；

所述输出模块，用于将预处理后的语音信号输入预先建立和训练好的混响时间估计模型，得到混响时间值；

所述混响时间估计模型基于深度神经网络和时频掩膜实现。

作为上述系统的一种改进，所述混响时间估计模型为第一模型或第二模型；其中，

与现有技术相比，本发明的优势在于：

1、本发明的方法利用混响语音进行房间混响时间估计，省去了传统声学测量所需要的专业的仪器与测量人员，相比于传统声学测量方法更加方便快捷；

2、本发明的方法通过收集大量混响语音数据集，采用数据驱动的深度神经网络，可以显著提高房间混响时间估计的准确性；

3、本发明的模型利用深度学习编码器，可以提取更有利于房间混响时间估计的特征，利用MG-TCNs模块，网络可以更加有效地学习输入特征在时间维度上的信息，通过进行两阶段估计，利用噪声估计和去噪网络，可以显著增加混响时间估计网络对于噪声的鲁棒性，提升网络在噪声情况下进行房间混响时间估计的准确度。

附图说明

图1是实施例1的基于深度神经网络的噪声鲁棒盲混响时间估计方法流程图；

图2是实施例1的混响时间估计模型框图；

图3是实施例2的基于深度神经网络的噪声鲁棒盲混响时间估计方法流程图。

具体实施方式

受深度神经网络在降噪方面的出色性能的启发，本方法提出了一种基于全卷积神经网络(CNNs)的噪声感知框架，以提高噪声环境下T60估计的精度。两阶段噪声感知框架由两个子网络组成，即噪声估计网络和混响时间估计网络。在第一阶段，噪声估计网络利用输入语音估计无噪声混响语音和噪声的幅度谱。在第二阶段，将第一阶段估计出的无噪声混响语音和噪声的幅度谱与输入语音的幅度谱一同输入混响时间估计网络，估计混响时间值。

本发明的方法包括以下步骤：

步骤一：准备纯净语音数据集、噪声数据集、房间冲激响应数据集。

步骤二：将纯净语音与房间冲激响应卷积，加上噪声得到训练语音。

步骤三：对训练语音进行短时傅里叶变换。

步骤四：训练噪声估计网络或去噪网络。

步骤五：训练混响时间估计网络。

步骤六：输入需要估计混响时间的语音信号，由模型输出混响时间值。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种基于深度神经网络的噪声鲁棒盲混响时间估计方法。如图1所示，是本实施例的一种目标检测模型，简称为第一模型。

参照图1来说明本实施例的第一模型模型架构流程图。准备纯净语音数据集、噪声数据集、房间冲激响应数据集。将纯净语音与房间冲激响应卷积，加上噪声得到训练语音。对训练语音进行短时傅里叶变换。在训练阶段，训练噪声估计网络。训练混响时间估计网络。深度神经网络训练完成后，加载训练完成的神经网络参数，输入需要估计混响时间的语音信号，由模型输出混响时间值。

步骤一：准备wav格式的纯净语音数据集、噪声数据集、房间冲激响应数据集。本次采用从WSJ0-SI84数据集中的纯净语音，该数据集包含83名说话者(42名男性和41名女性)的7138个语音。分别选取5428和957个纯净语音进行训练和模型验证。采用虚源法仿真不同尺寸、不同吸收系数的长方体房间，总共生成2457个房间冲激响应。声源与麦克风之间的距离从距离D{0.7m,1m,1.7m,2m,2.5m}中随机选取。声源和麦克风之间的角度从-45°以10°的间隔增加到45°。T60的取值范围为0.2s至1.5s。

使用虚源法模拟两个未见房间，生成234个RIR作为测试集。为了减少生成的RIR带来的干扰，我们将生成的RIR与公共RIR数据库(包括OpenAIR数据库、REVERB Challenge数据集和RWCP数据库)的实测RIR相结合。将多通道RIR拆分为单通道RIR，共得到2432个单通道实测RIR。分别选取2115和317个实测RIR进行训练和验证。

从Interspeech 2020 DNS-Challenge数据集中选取6303个环境噪声作为噪声集，将5358和945个噪声文件随机分离到训练集和验证集。

步骤二：将纯净语音与房间冲激响应卷积，加上噪声得到训练语音。为了得到有噪声的混响语音信号，将纯净语音和噪声分别与随机选择的RIR进行卷积。从20dB、10dB和0dB三个不同的信噪比中随机选择一个来调整噪声的幅度。然后，将噪声添加到混响语音信号中。语音被缩短到四秒。共得到63251个噪声混响语音用于训练，4974个噪声混响语音用于验证。训练集的总长度约为70小时。

步骤三：对训练语音进行短时傅里叶变换。所有音频信号的采样率为16千赫兹。对信号进行短时傅里叶变换，使用20毫秒的汉宁窗口，帧移为10毫秒，傅里叶变换点数为320点，得到161维的频率特征。

使用Adam优化器，第一阶段学习率为0.001。第二阶段对第一阶段的网络进行微调，学习率为0.0001，对混响时间估计网络的学习率设置为0.001。为了使训练更好地收敛，如果连续3个周期的验证损失没有减少，学习率就会减半。网络训练总周期为120个，第一阶段为60个，第二阶段为60个。训练批次大小设置为8。

步骤四：训练噪声估计网络。在第一个训练阶段，噪声估计网络利用输入语音估计无噪声混响语音和噪声的幅度谱。噪声估计网络模型框图如图二所示。编码器对输入语音的幅度谱提取特征，MG-TCNs对时间序列进行时序建模，解码器将时序建模输出的隐变量还原回与幅度谱一致的维度。网络中共享编码器模块和MG-TCNs模块，分别使用两种不同的解码器估计语音掩码和噪声掩码。这样的设计的灵感来自于多任务学习，利用不同相关任务之间的信息来获得比单独处理任务更好的整体表现。由于语音掩码和噪声掩码估计是两个相关的任务，参数共享机制被期望作为一种正则化，可能产生更好的泛化能力。使用编码器和解码器对应的隐藏层使用残差连接提升网络性能。

在第一阶段使用的损失函数如下：

其中，α表示加权因子，取为0.5，

表示估计的无噪语音幅度谱，|X|表示无噪语音幅度谱，

表示估计的噪声幅度谱，|N|表示噪声幅度谱，

表示二范数。

步骤五：训练混响时间估计网络。在第二个训练阶段，将第一阶段估计出的幅度谱和输入语音的幅度谱输入混响时间估计网络，估计混响时间值。混响时间估计网络和噪声估计网络具有相似的网络拓扑结构，只是混响时间估计网络没有任何解码器并且输入特征通道的数量为3。因此省略了混响时间估计网络的详细网络框图。第二阶段对第一阶段的网络进行微调，在第二阶段使用的损失函数如下：

L＝L_RE+λL_NE

其中，λ表示微调加权因子，取为0.1。L_RE可以用下面的式子表示：

其中，l是帧索引。对于每一帧，输出估计的混响时间

T_60,l为第l帧的混响时间真实值，使用所有帧的混响时间估计值和真实值计算MSE损失。

步骤六：深度神经网络训练完成后，加载训练完成的神经网络参数，输入需要估计混响时间的语音信号，由模型输出混响时间值。

实施例2

本发明的实施例2提出了一种基于深度神经网络的噪声鲁棒盲混响时间估计方法。如图3所示，是本实施例的一种目标检测模型，简称为第二模型。

参照图3来说明本实施例的第二模型模型架构流程图。准备纯净语音数据集、噪声数据集、房间冲激响应数据集。将纯净语音与房间冲激响应卷积，加上噪声得到训练语音。对训练语音进行短时傅里叶变换。在训练阶段，训练去噪网络，训练混响时间估计网络。深度神经网络训练完成后，加载训练完成的神经网络参数，输入需要估计混响时间的语音信号，由模型输出混响时间值。

步骤一：准备wav格式的纯净语音数据集、噪声数据集、房间冲激响应数据集。本次采用从WSJ0-SI84数据集中的纯净语音，该数据集包含83名说话者(42名男性和41名女性)的7138个语音。分别选取5428和957个纯净语音进行训练和模型验证。采用虚源法仿真不同尺寸、不同吸收系数的长方体房间，总共生成2457个房间冲激响应。声源与麦克风之间的距离从距离设置D{0.7m,1m,1.7m,2m,2.5m}中随机选取。声源和麦克风之间的角度从-45°以10°的间隔增加到45°。T60的取值范围为0.2s至1.5s。

步骤四：训练去噪网络。在第一个训练阶段，去噪网络利用输入语音估计无噪声混响语音的幅度谱。编码器对输入语音的幅度谱提取特征，MG-TCNs对时间序列进行时序建模，解码器将时序建模输出的隐变量还原回与幅度谱一致的维度。使用编码器和解码器对应的隐藏层使用残差连接提升网络性能。

在第一阶段使用的损失函数如下：

其中，

表示估计的无噪语音幅度谱，|X|表示无噪语音幅度谱，

表示二范数。

步骤五：训练混响时间估计网络。在第二个训练阶段，将第一阶段估计出的幅度谱和输入语音的幅度谱输入混响时间估计网络，估计混响时间值。混响时间估计网络和去噪网络具有相似的网络拓扑结构，只是混响时间估计网络没有任何解码器并且输入特征通道的数量为1。因此省略了混响时间估计网络的详细网络框图。

第二阶段对第一阶段的网络进行微调，在第二阶段使用的损失函数如下：

L＝L_RE+λL_NR

其中，l是帧索引。对于每一帧，输出估计的混响时间

实施例3

本发明的实施例3提出了一种基于深度神经网络的噪声鲁棒盲混响时间估计系统，基于实施例1的方法实现，该系统包括预处理模块、输出模块和混响时间估计模型，其中，

所述预处理模块，用于对采集的语音信号进行预处理；

所述混响时间估计模型基于深度神经网络和时频掩膜实现。该模型为第一模型，包括串联的噪声估计网络和混响时间估计网络；预处理后的语音信号同时输入噪声估计网络和混响时间估计网络，输出为语音信号的混响时间值；

具体模型结构及训练步骤详见实施例1的说明。

实施例4

本发明的实施例4提出了一种基于深度神经网络的噪声鲁棒盲混响时间估计系统，基于实施例2的方法实现，该系统包括预处理模块、输出模块和混响时间估计模型，其中，

所述预处理模块，用于对采集的语音信号进行预处理；

所述混响时间估计模型基于深度神经网络和时频掩膜实现。该模型为第二模型，包括串联的去噪网络和混响时间估计网络；预处理后的语音信号输入去噪网络，输出为语音信号的混响时间值。

具体模型结构及训练步骤详见实施例2的说明。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。