CN111462770A

CN111462770A - 一种基于lstm的后期混响抑制方法及系统

Info

Publication number: CN111462770A
Application number: CN202010023100.1A
Authority: CN
Inventors: 计健雄; 郭鹏
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2020-07-28

Abstract

本发明公开了一种基于LSTM的后期混响抑制方法及系统，包括以下步骤：S1、对待处理的混响语音信号进行分帧，并提取各帧的频谱特征序列；S2、将所得各帧的频谱特征序列依次输入到预训练好的后期混响抑制网络中，对所述频谱特征序列中的后期混响特征进行抑制，得到各帧的增强信号特征序列；S3、对所得各帧的增强信号特征序列进行恢复，得到后期混响抑制后的语音信号；其中，增强信号特征包括干语音和前期反射信号特征；通过基于LSTM的后期混响抑制网络，在时间序列上对语音信号进行建模，对频谱特征序列中的后期混响特征进行实时过滤，且仅对后期这种强烈的混响进行了抑制，并不抑制前期反射，能够做到适量的混响抑制，混响抑制后的声音听觉效果较好。

Description

一种基于LSTM的后期混响抑制方法及系统

技术领域

本发明属于语音信号处理领域，更具体地，涉及一种基于LSTM的后期混响抑制方法及系统。

背景技术

声波在室内传播时，要被墙壁、天花板、地板等障碍物反射，每反射一次都要被障碍物吸收一些。当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，我们就感觉到声源停止发声后声音还会继续一段时间，这种现象叫做混响。适量的混响能使声音圆润动听，听起来有空间感，但是强烈的后期混响会严重降低语音清晰度和声音质量，在语音信号处理领域，影响语音识别系统的语音识别性能和声音质量。故研究一种后期混响抑制方法及系统具有重要的意义。

在传统的去混响算法中，大多采用单通道去混响算法，例如采用频谱减法算法，通过假设混响的指数衰减模型来抑制后期混响，当室内物品较多，室内环境比较复杂时，这种混响的衰减模型并不能很好的估计混响的真实模型，去混响的效果不佳，适用范围有限；另外，该方法还需要已知混响时间这一参数，易导致谱失真。为了解决以上问题，现有的语音混响抑制方法基于监督语音增强算法，如采用深度神经网络(Deep Neural Networks，DNN)从混响语音的对数谱到无声语音的对数信息幅度谱中学习映射函数，进行混响抑制，该方法需要预先收集大量的数据进行训练，且是一种非因果方法，无法对时间序列上的变化进行建模，同时无法利用上下文时间信息对混响进行估计，无法适用于实时的语音识别系统；另外，该方法在抑制过程中未考虑语音信号时域上的关联信息，并且没有区分后期混响和前期反射，除了对后期这种强烈的混响进行了抑制，同时也抑制了前期反射，直接导出干语音，无法做到适量的混响抑制，混响抑制后的声音听觉效果不佳。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于长短期记忆循环神经网络(Long Short Term Memory，LSTM)的后期混响抑制方法及系统，其目的在于解决现有技术由于同时抑制了后期混响和前期反射，且在抑制过程中并未考虑语音信号时域上的关联信息而导致的混响抑制后声音的听觉效果不佳的技术问题。

为实现上述目的，第一方面，本发明提供了一种基于LSTM的后期混响抑制方法，包括以下步骤：

S1、对待处理的混响语音信号进行分帧，并提取各帧的频谱特征序列；

S2、将所得各帧的频谱特征序列依次输入到预训练好的后期混响抑制网络中，对所述频谱特征序列中的后期混响特征进行抑制，得到各帧的增强信号特征序列；

S3、对所得各帧的增强信号特征序列进行恢复，得到后期混响抑制后的语音信号；

其中，增强信号特征包括干语音和前期反射信号特征；后期混响抑制网络为基于LSTM的网络，用于根据语音信号在时域上的关联信息，对频谱特征序列中的后期混响特征进行实时过滤。

本发明的有益效果是：通过基于LSTM的后期混响抑制网络，在时间序列上对语音信号进行建模，通过考虑语音信号在时域上的关联信息，对频谱特征序列中的后期混响特征进行实时过滤，本发明仅对后期这种强烈的混响进行了抑制，并不抑制前期反射，能够做到适量的混响抑制，混响抑制后的声音听觉效果较好。

上述技术方案的基础上，本发明还可以做如下改进。

进一步优选的，上述S1包括：对待处理的混响语音信号进行加窗分帧，对分帧所得各帧语音信号进行傅里叶变换，归一化后，得到各帧的频谱特征序列。

进一步优选地，上述后期混响抑制网络包括：后期混响提取网络和抑制层；

其中，后期混响提取网络的输出端与抑制层的输入端相连；

后期混响提取网络用于基于语音信号的上下文信息，实时提取频谱特征序列中各特征的后期混响特征，并输出到抑制层中；

抑制层用于接收频谱特征序列和后期混响提取网络输入的后期混响特征，并对频谱特征序列各特征中的后期混响特征进行过滤，得到增强信号特征序列。

进一步优选地，后期混响提取网络包括LSTM、线性映射层和激活层；

其中，LSTM的输出端与线性映射层的输入端相连，线性映射层的输出端与激活层的输入端相连；

LSTM用于在时间序列上对语音信号进行建模，实时提取频谱特征序列中各特征所对应的后期混响信号初级特征，并输出到所述线性映射层中；

线性映射层用于调整LSTM输入的后期混响信号初级特征的维度，并将调整后的特征输出到所述激活层中；

激活层用于对线性映射层输入的特征进行非线性化，得到频谱特征序列中各特征的后期混响特征，预测性更好。

进一步优选地，LSTM有多个，各LSTM串行连接；可以使整个网络更深，进而可以使用更多的参数学习到更多的后期混响特征，混响抑制后的声音听觉效果更好。

进一步优选地，上述后期混响提取网络还包括dropout层，置于相邻两个LSTM之间，用于防止后期混响抑制网络在训练过程中出现过拟合问题。

本发明进一步的有益效果是：后期混响抑制网络是一种因果网络，通过对时间序列上的变化进行建模，考虑了语音信号在时域上的关联信息，可以利用上下文时间信息对混响进行估计，提取出来的后期混响信号特征准确性较高，适用于实时的语音识别系统，当混响语音信号按时序输入时，即可实时的输出对应的后期混响抑制后的语音信号。

进一步优选地，上述后期混响抑制网络的训练方法，包括以下步骤：

S01、收集多个干净语音和混响冲击响应，将二者分别进行卷积，得到混响语音信号集；选取上述各混响冲击响应中前期反射信号对应的冲击响应，分别与上述各干净语音进行卷积，得到前期混响信号集；所得混响语音信号集中的各混响语音信号和前期混响信号集中相应的前期混响信号共同构成训练样本集；

S02、分别对训练样本集中的混响语音信号及其对应的前期混响信号进行分帧，并分别提取混响语音信号及其对应的前期混响信号各帧的频谱特征序列；

S03、将所得训练样本集中混响语音信号各帧的频谱特征序列中的特征作为输入，与其对应的前期混响信号各帧的频谱特征序列中的特征作为输出，按照时间顺序输入到后期混响抑制网络中，依次对后期混响抑制网络训练。

本发明进一步的有益效果是：通过上述训练，所得训练好的后期混响抑制网络的鲁棒性以及泛化能力较好，并且相比于现有方法，本发明所提供的基于LSTM的后期混响抑制方法的PESQ评分以及信噪比SNR_fw结果均较高，混响抑制后的声音听觉效果较好。

第二方面，本发明提供了一种基于LSTM的后期混响抑制系统，包括：频谱特征序列提取模块、后期混响特征抑制模块和语音信号恢复模块；

频谱特征序列提取模块用于对待处理的混响语音信号进行分帧，提取各帧的频谱特征序列，并输出到后期混响特征抑制模块中；

后期混响特征抑制模块用于将频谱特征序列提取模块输入的各帧的频谱特征序列依次输入到预训练好的后期混响抑制网络中，对所述频谱特征序列中的后期混响特征进行抑制，得到各帧的增强信号特征序列，并输出到语音信号恢复模块中；

语音信号恢复模块用于对后期混响特征抑制模块输入的各帧的增强信号特征序列进行恢复，得到后期混响抑制后的语音信号；

第三方面，本发明提供了一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行本发明第一方面所提出基于LSTM的后期混响抑制方法。

附图说明

图1是本发明所提供的基于LSTM的后期混响抑制方法流程图；

图2是本发明实施例所提供的待处理的混响语音信号时域图；

图3是本发明实施例所提供的加窗后的的混响语音信号波形图；

图4是本发明实施例所提供的对加窗后的的混响语音信号进行傅里叶变换后频谱特征图；

图5是本发明所提供的后期混响抑制网络结构示意图；

图6是本发明所提供的后期混响提取网络结构示意图；

图7是本发明实施例所提供的带混响语音的语谱图；其中，图(a)为混响时长为1s的带混响语音的语谱图；图(b)为采用本发明所提供的方法对混响时长为1s的带混响语音进行后期混响抑制后的增强信号的语谱图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为实现上述目的，第一方面，本发明提供了一种基于LSTM的后期混响抑制方法，如图1所示，包括以下步骤：

优选地，首先对待处理的混响语音信号进行加窗分帧，其中，待处理的混响语音信号时域图如图2所示，其中，横坐标为时间，纵坐标为信号幅值，本实施例中采用汉明窗，以所得其中一帧的混响语音信号波形为例，如图3所示，其中，横坐标为时间，纵坐标为信号幅值，其长度为512，从图中可以看出加上汉明窗以后再进行分帧，分帧后的混响语音信号两边衰减很快，可以防止后续做傅里叶变换时的频谱泄露。然后对分帧所得各帧语音信号进行傅里叶变换，归一化后，得到各帧的频谱特征序列。具体的，本实施例中，将混响信号使用32ms的汉明窗和8ms的窗移进行分帧。将每个帧进行512点快速傅里叶变换，产生257个频点作为语音特征，其中一帧所对应的傅里叶变换后的频谱图如图4所示，其中横坐标为频率，纵坐标为频谱幅度。为了压缩特征的动态范围，将所得语音特征进行立方根压缩，归一化后，得到均值为零、方差为1的频谱特征。

S2、将所得各帧的频谱特征序列依次输入到预训练好的后期混响抑制网络中，对所述频谱特征序列中的后期混响特征进行抑制，得到各帧的增强信号特征序列；其中，增强信号特征包括干语音和前期反射信号特征；

具体的，如图5所示，后期混响抑制网络为基于LSTM的网络，用于根据语音信号在时域上的关联信息，对频谱特征序列中的后期混响特征进行实时过滤。优选地，上述后期混响抑制网络包括：后期混响提取网络和抑制层；其中，后期混响提取网络的输出端与抑制层的输入端相连；

具体的，如图6所示，上述后期混响提取网络包括LSTM、线性映射层和激活层；其中，LSTM的输出端与线性映射层的输入端相连，线性映射层的输出端与激活层的输入端相连；

优选地，LSTM有多个，各LSTM串行连接，使用多个LSTM，可以使整个网络更深，进而可以使用更多的参数学习到更多的后期混响特征，混响抑制后的声音听觉效果更好。但是通过大量实验发现，更多的LSTM层只能带来细微的提升，考虑到系统的复杂程度、训练数据量大小以及系统响应的速度，本实施例中使用了两层LSTM网络。优选地，上述后期混响提取网络还包括dropout层，置于相邻两个LSTM之间，用于防止后期混响抑制网络在训练过程中出现过拟合问题。本实施例中，dropout比率设置为0.3。

线性映射层用于调整LSTM输入的后期混响信号初级特征的维度，提取后期混响初级特征中的有效特征值，并将调整后的特征输出到所述激活层中；

激活层用于对线性映射层输入的特征进行非线性化，得到频谱特征序列中各特征的后期混响特征，预测性更好，优选地，激活层为Relu，Relu在提取后期混响特征时能够保证其正预测，将线性映射层输出特征中的负数置为0，从而保证网络的稀疏性，缓解过拟合问题。

S3、对所得各帧的增强信号特征序列进行恢复，得到后期混响抑制后的语音信号；具体的，本实施例中，结合待处理的混响语音信号的相位，对所得各帧的增强信号特征序列做反傅里叶变换，恢复出增强后的语音信号，即后期混响抑制后的语音信号。

结合前期反射信号，声音听起来会更加具有立体感，听觉感受更好；若是混响过重就会影响我们听清语音的内容，降低语音的质量和清晰度。本发明通过基于LSTM的后期混响抑制网络，在时间序列上对语音信号进行建模，通过考虑语音信号在时域上的关联信息，对频谱特征序列中的后期混响特征进行实时过滤，本发明仅对后期这种强烈的混响进行了抑制，并不抑制前期反射，能够做到适量的混响抑制，混响抑制后的声音听觉效果较好。

进一步的，上述后期混响抑制网络的训练方法，包括以下步骤：

具体的，在某些可选实施例中，干净语音采用THCHS30中收录的干净语音；并且通过对不同长、宽、高大小的房间和声源以及接收端空间位置进行仿真，得到多个混响冲击响应；本实施例中，使用Matlab中的rir_generator函数模拟了房间大小为10m×7m×3m，将全向麦克风放在固定位置，随机选择声源位置来获取混响冲击响应，声源和麦克风的距离设置为2米，混响时长从0.3s到1.0s，增量为0.1s，每个混响时长产生10个不同位置的混响冲击响应。前期反射信号即为前期反射声。时间范围一般取直达声以后50ms，故本实施例中，将混响冲击响应中前50ms的响应作为混响冲击响应中前期反射信号对应的冲击响应。

具体的，本实施例中，分别采用32ms的汉明窗和8ms的窗移，对训练样本集中的混响语音信号及其对应的前期混响信号进行分帧。对所得混响语音信号及其对应的前期混响信号的各帧分别进行512点快速傅里叶变换，产生257个频点，作为二者各帧的语音特征。为了压缩特征的动态范围，将所得语音特征进行立方根压缩，归一化后，分别得到均值为零、方差为1的混响语音信号及其对应的前期混响信号各帧的频谱特征。

具体的，本实施例中，对于后期混响抑制网络中的每一个LSTM，在训练过程中，每更新一次权重，都会随机删除权重矩阵中的权值，防止循环连接造成的过拟合问题，本实施例中，LSTM中的dropout率设置为0.5，优化器使用adam，将均方误差作为损失函数。

进一步地，如图7所示，采用本发明所提供的方法对混响时长为1s的带混响语音进行后期混响抑制，其中，图7中的(a)图为混响时长为1s的带混响语音的语谱图，图7中的(b)图为采用本发明所提供的方法对混响时长为1s的带混响语音进行后期混响抑制后的增强信号的语谱图，其中，横坐标表示频率，纵坐标表示时间；从图(a)中可以看出后期混响造成的语音的频谱的严重拖尾现象，采用本发明所提供的方法进行抑制后，拖尾现象基本消除，每一时刻下频谱的更加清晰，大大提高了语音的清晰度和质量。

进一步地，在房间大小为10m×7m×3m，混响时长从0.3s到1s，以0.1s的步长进行递增，每个混响时长下产生一个混响冲击响应，并进一步与干净语音进行卷积，得到不同混响时长的混响语音信号。然后分别采用本发明所提供的方法、频谱减法算法、以及基于DNN的混响抑制方法，对上述不同混响时长的混响语音信号进行后期混响抑制处理，所得的PESQ评分以及信噪比SNR_fw结果如表1所示：

表1

从表1可以看出，采用本发明所提出的方法对不同混响时长的混响语音进行后期混响抑制后的语音信号的PESQ评分和SNR_fw结果均大于采用频谱减法算法和基于DNN的算法所得的结果，具有更好的听觉感受和信噪比。

为了进一步验证本发明所提供的后期混响抑制网络的鲁棒性以及泛化能力，本发明进一步在房间长度为8m×9m×2.5m，混响时长为0.3s、0.6s，0.9s，麦克风和声源的距离定为1.8m的场景下进行测试，每个混响时长下产生一个混响冲击响应，并进一步与干净语音进行卷积，得到不同混响时长的混响语音信号。然后分别采用本发明所提供的方法、频谱减法算法、以及基于DNN的混响抑制方法，对上述不同混响时长的混响语音信号进行后期混响抑制处理，所得的PESQ评分以及信噪比SNR_fw结果如表2所示。

从表2可以看出在不同大小的房间中，采用本发明所提供的方法对不同混响时长带混响语音进行后期混响抑制后的语音信号的PESQ评分和SNR_fw结果同样均大于采用频谱减法算法和基于DNN的算法所得的结果，具有更好的听觉感受和信噪比，从而可以看出本发明所提供的后期混响抑制网络的鲁棒性以及泛化能力较好。

表2

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LSTM的后期混响抑制方法，其特征在于，包括以下步骤：

其中，所述增强信号特征包括干语音和前期反射信号特征；所述后期混响抑制网络为基于LSTM的网络，用于根据语音信号在时域上的关联信息，对频谱特征序列中的后期混响特征进行实时过滤。

2.根据权利要求1所述的基于LSTM的后期混响抑制方法，其特征在于，所述S1包括：对分帧所得各帧语音信号进行傅里叶变换，归一化后，得到各帧的频谱特征序列。

3.根据权利要求1所述的基于LSTM的后期混响抑制方法，其特征在于，所述后期混响抑制网络包括：后期混响提取网络和抑制层；

所述后期混响提取网络的输出端与所述抑制层的输入端相连；

所述后期混响提取网络用于基于语音信号的上下文信息，实时提取频谱特征序列中各特征的后期混响特征，并输出到所述抑制层中；

所述抑制层用于接收频谱特征序列和所述后期混响提取网络输入的后期混响特征，并对频谱特征序列各特征中的后期混响特征进行过滤，得到增强信号特征序列。

4.根据权利要求3所述的基于LSTM的后期混响抑制方法，其特征在于，所述后期混响提取网络包括LSTM、线性映射层和激活层；

所述LSTM的输出端与所述线性映射层的输入端相连，所述线性映射层的输出端与所述激活层的输入端相连；

所述LSTM用于在时间序列上对语音信号进行建模，实时提取频谱特征序列中各特征所对应的后期混响信号初级特征，并输出到所述线性映射层中；

所述线性映射层用于调整LSTM输入的后期混响信号初级特征的维度，并将调整后的特征输出到所述激活层中；

所述激活层用于对所述线性映射层输入的特征进行非线性化，得到频谱特征序列中各特征的后期混响特征。

5.根据权利要求4所述的基于LSTM的后期混响抑制方法，其特征在于，所述LSTM有多个，各LSTM串行连接。

6.根据权利要求5所述的基于LSTM的后期混响抑制方法，其特征在于，所述后期混响提取网络还包括dropout层，置于相邻的两个LSTM之间，用于防止所述后期混响抑制网络过拟合。

7.根据权利要求1所述的基于LSTM的后期混响抑制方法，其特征在于，所述后期混响抑制网络的训练方法，包括以下：

S01、收集多个干净语音和混响冲击响应，将二者进行卷积，得到混响语音信号；选取上述混响冲击响应中前期反射信号对应的冲击响应，与上述各干净语音进行卷积，得到前期混响信号，所得混响语音信号和对应前期混响信号共同构成训练样本；

S02、分别对训练样本中的混响语音信号及其对应的前期混响信号进行分帧，并分别提取混响语音信号及其对应的前期混响信号各帧的频谱特征序列；

S03、将所得训练样本中混响语音信号各帧的频谱特征序列中的各特征作为输入，与其对应的前期混响信号各帧的频谱特征序列中的各特征作为输出，按照时间顺序输入到后期混响抑制网络中，依次对后期混响抑制网络训练。

8.一种基于LSTM的后期混响抑制系统，其特征在于，包括：频谱特征序列提取模块、后期混响特征抑制模块和语音信号恢复模块；

所述频谱特征序列提取模块用于对待处理的混响语音信号进行分帧，提取各帧的频谱特征序列，并输出到所述后期混响特征抑制模块中；

所述后期混响特征抑制模块用于将所述频谱特征序列提取模块输入的各帧的频谱特征序列依次输入到预训练好的后期混响抑制网络中，对所述频谱特征序列中的后期混响特征进行抑制，得到各帧的增强信号特征序列，并输出到所述语音信号恢复模块中；

所述语音信号恢复模块用于对所述后期混响特征抑制模块输入的各帧的增强信号特征序列进行恢复，得到后期混响抑制后的语音信号；

9.一种存储介质，所述存储介质中存储有指令，其特征在于，当计算机读取所述指令时，使所述计算机执行权利要求1-7任意一项所述的基于LSTM的后期混响抑制方法。