CN111243617A

CN111243617A - 一种基于深度学习降低mfcc特征失真的语音增强方法

Info

Publication number: CN111243617A
Application number: CN202010033002.6A
Authority: CN
Inventors: 李军锋; 尹路; 颜永红
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-05
Anticipated expiration: 2040-01-13
Also published as: CN111243617B

Abstract

本发明公开了一种基于深度学习降低MFCC特征失真的语音增强方法。通过处理混合语音得到其频谱，提取其频谱幅度；将频谱幅度输入神经网络得到目标语音理想幅度掩蔽估计值；将此估计值乘以混合信号的频谱幅度得到增强语音的频谱幅度；根据增强语音的频谱幅度得到增强语音的MFCC声学特征；处理目标语音得到其频谱，提取其频谱幅度；根据目标语音的频谱幅度得到目标语音的MFCC声学特征；将增强语音与目标语音的频谱幅度误差，以及增强语音与目标语音的MFCC声学特征误差按比例相加后作为损失函数训练神经网络。使用训练得到的神经网络实施语音增强方法。通过上述方法训练神经网络，减小MFCC声学特征失真。提高后续语音增强方法得到信号的识别准确性。

Description

一种基于深度学习降低MFCC特征失真的语音增强方法

技术领域

本发明涉及语音识别领域，特别涉及一种基于深度学习降低MFCC特征失真的语音增强方法。

背景技术

语音增强技术是从带有干扰噪声的混合语音信号中，提取出目标说话人的语音信号。该技术对目标说话人检测、语音识别等具有重要意义。

由于语音信号的复杂性和不稳定性，传统的分离方法达不到很好的增强效果，并且以往的基于深度学习的语音增强方法中只对目标信号的频谱幅度进行优化，导致增强后语音信号的梅尔倒谱系数MFCC(mel frequency cepstral coefficients)声学特征失真较大，影响了语音识别、目标说话人检测等任务的准确率。

发明内容

本发明实施例的目的在于解决现有技术存在的缺陷。

本发明实施例提供了一种基于深度学习降低MFCC特征失真的语音增强方法，通过下列步骤实现上述目的。

将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换，得到混合语音信号的频谱，提取混合语音信号的频谱幅度；待训练神经网络将混合语音信号的频谱幅度作为输入，输出目标语音理想幅度掩蔽估计值；将目标语音理想幅度掩蔽估计值乘以混合信号的频谱幅度，得到增强后语音的频谱幅度；对增强后语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换，得到增强语音的MFCC声学特征；对目标语音信号进行分帧、加窗、傅里叶变换，得到目标语音信号的频谱，提取目标语音的频谱幅度；对目标语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换，得到目标语音的MFCC声学特征；计算增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差，以及增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差；将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练；多次重复上述步骤对待训练神经网络进行训练，得到用于语音增强的神经网络。将带有干扰噪声的待增强混合语音信号频谱幅度输入所述用于语音增强的神经网络，由神经网络输出增强语音的理想幅度掩蔽估计值；使用增强语音的理想幅度掩蔽估计值和带有干扰噪声的待增强混合语音信号相乘，得到增强后的语音信号。

一个实例中，将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换，得到混合语音频谱的步骤，具体为：取每32ms采样点为一帧信号；当采样率为8kHz时，则对应256个采样点；当采样频率为16kHz时，则对应为512个采样点；若长度不足32ms则将采样点补零到256或512个后对每一帧信号进行加窗；其中，加窗函数采用汉明窗或汉宁窗。

一个实例中，增强后语音的频谱幅度

其中，k为信号频谱的频率帧索引，l为信号频谱的时间帧索引，

为目标语音理想幅度掩蔽估计值，|Y(k，l)|为带有干扰噪声的混合语音频谱幅度。

一个实例中，增强语音的MFCC声学特征

为增强语音的频谱幅度，Mel为梅尔滤波器组，Log{}为对数运算，DCT为离散余弦变换矩阵，n为MFCC声学特征的阶数。

一个实例中，目标语音的MFCC声学特征MFCC(n，l)＝DCT*Log{Mel*|S(k，l)|²}；其中，|S(k，l)|为目标语音的频谱幅度，k为信号频谱的频率帧索引，l为信号频谱的时间帧索引，Mel为梅尔滤波器组，Log{}为对数运算，DCT为离散余弦变换变换。

一个实例中，增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差

一个实例中，增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差

一个实例中，将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练，具体为：

将频谱幅度误差与MFCC声学特征误差按比例相加得到损失函数loss＝λ1loss1+λ2·loss2；其中，λ1为频谱幅度误差loss1的权重，λ2为MFCC声学特征误差loss2的权重；通过迭代，对损失函数进行最小化均方误差，使增强语音的频谱幅度逼近于目标语音的频谱幅度，使增强语音的MFCC声学特征逼近于目标语音的MFCC声学特征。

一个实例中，增强后的语音信号

其中，

为增强语音理想幅度掩蔽估计值，Y(k，l)为带有干扰噪声的混合语音，k为信号频谱的频率帧索引，l为信号频谱的时间帧索引。

本发明实施例的优点在于：使用信号误差及MFCC声学特征误差对网络训练，网络的输出同时对语音信号的频谱幅度和语音信号的MFCC声学特征进行了优化，减小了增强后语音信号的MFCC声学特征失真。将采用该方法增强的语音信号用于语音识别和说话人识别时，提高了识别系统的准确性。

附图说明

图1为本发明实施例的一种基于深度学习降低MFCC特征失真的语音增强方法流程框图；

图2为本发明实施例中计算损失函数训练神经网络的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的一种基于深度学习降低MFCC特征失真的语音增强方法，将带有干扰噪声的混合语音信号的频谱幅度输入待训练神经网络，通过神经网络输出目标语音理想幅度掩蔽估计值，由目标语音理想幅度掩蔽估计值乘以混合语音的频谱幅度得到增强语音的频谱幅度，进而由增强语音的频谱幅度计算出增强语音的MFCC声学特征；通过增强语音的频谱幅度及增强语音的MFCC声学特征与目标语音的频谱幅度及目标语音的MFCC声学特征求出损失函数，进行反向传播算法迭代，进而最小化均方误差，以此对神经网络进行训练，使神经网络输出目标语音理想幅度掩蔽估计值逼近于目标语音理想幅度掩蔽的理论值。通过反复训练待训练神经网络得到用于语音增强的神经网络。将带有干扰噪声的待增强混合语音信号频谱幅度输入这一训练好的神经网络，由神经网络输出增强语音的理想幅度掩蔽估计值，进而得到增强后的语音信号。

上述过程中的目标语音理想幅度掩蔽的理论值

其中，k为信号频谱的频率帧索引，l为信号频谱的时间帧索引，|X(k，l)|为目标语音频谱幅度理论值，|Y(k，l)|为混合语音信号的频谱幅度。

具体地语音增强方法，如图1所示，包括下列步骤：

步骤S101：将传声器接收的带有干扰噪声的混合语音信号进行分帧、加窗、傅里叶变换，得到混合语音信号的频谱，提取混合语音信号的频谱幅度。

例如，取每32ms采样点为一帧信号。若采样率为8kHz时，则对应256个采样点；若采样频率为16kHz时，则对应为512个采样点。若长度不足32ms则先将采样点补零到256或512个，然后对每一帧信号进行加窗；其中，加窗函数采用汉明窗或汉宁窗。

步骤S102：待训练神经网络将混合语音信号的频谱幅度作为输入，输出目标语音理想幅度掩蔽估计值。

步骤S103：将目标语音理想幅度掩蔽估计值乘以混合信号的频谱幅度，得到增强后语音的频谱幅度。

增强后语音的频谱幅度

步骤S104：对增强后语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换，得到增强语音的MFCC声学特征。

增强语音的MFCC声学特征

步骤S105：对目标语音信号进行分帧、加窗、傅里叶变换，得到目标语音信号的频谱，提取目标语音的频谱幅度。

步骤S106：对目标语音的频谱幅度进行梅尔滤波、对数变换、离散余弦变换，得到目标语音的MFCC声学特征。

目标语音的MFCC声学特征MFCC(n，l)＝DCT*Log{Mel*|S(k，l)|²}；其中，|S(k，l)|为目标语音的频谱幅度，k为信号频谱的频率帧索引，l为信号频谱的时间帧索引，Mel为梅尔滤波器组，Log{}为对数运算，DCT为离散余弦变换矩阵。

需要说明，一方面，步骤S101～步骤S104具备顺序关系，步骤S105～步骤S106具备顺序关系。但是，步骤S101～步骤S104和步骤S105～步骤S106的两个顺序关系相互独立，并没有严格的顺序关系。即可以先进行步骤S101～步骤104，然后进行步骤S105～步骤S106；也可以先进行步骤S105～步骤S106，然后进行步骤S101～步骤S104；还可以在进行步骤S101～步骤S104的同时，进行步骤S105～步骤S106。

另一方面，步骤S103中得到的增强语音的频谱幅度、步骤S104中得到的增强语音的MFCC声学特征、步骤S105中得到的增强语音的MFCC声学特征和步骤S106中得到的目标语音的MFCC声学特征，将在步骤S107中进行使用。

步骤S107：计算增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差，以及增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差。

增强语音的频谱幅度与目标语音的频谱幅度之间的频谱幅度误差

增强语音的MFCC声学特征与目标语音的MFCC声学特征之间的MFCC声学特征误差

步骤S108：将频谱幅度误差与MFCC声学特征误差按比例相加后作为损失函数对待训练神经网络进行训练，得到用于语音增强的神经网络。

具体地，步骤S108具体包括步骤S1081和步骤S1082，如图2所示。

步骤S1081：将频谱幅度误差与MFCC声学特征误差按比例相加得到损失函数loss＝λ1·loss1+λ2·loss2；其中，λ1为频谱幅度误差loss1的权重，λ2为MFCC声学特征误差loss2的权重。

步骤S1082：通过迭代，对损失函数loss进行最小化均方误差，使损失函数loss的值减小。使增强语音的频谱幅度逼近于目标语音的频谱幅度，使增强语音的MFCC声学特征逼近于目标语音的MFCC声学特征。

通过多次重复步骤S101～步骤S108的过程，对待训练神经网络进行训练，能够得到可以有效减小增强语音的MFCC声学特征失真的神经网络，提高神经网络对于增强的语音信号的识别准确性。

步骤S109：将带有干扰噪声的待增强混合语音信号频谱幅度输入所述用于语音增强的神经网络，由神经网络输出增强语音的理想幅度掩蔽估计值。

步骤S110：使用增强语音的理想幅度掩蔽估计值和带有干扰噪声的待增强混合语音信号相乘，得到增强后的语音信号。

增强后的语音信号

其中，

本发明实施例一种基于深度学习降低MFCC声学特征失真的模型训练方法和语音增强方法。使用信号误差及MFCC声学特征误差对网络训练，网络的输出同时对语音信号的频谱幅度和语音信号的MFCC声学特征进行了优化，减小了增强后语音信号的MFCC声学特征失真。该方法增强的语音信号用于语音识别和说话人识别时，提高了识别的准确性。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。