CN109215674A

CN109215674A - 实时语音增强方法

Info

Publication number: CN109215674A
Application number: CN201810908839.3A
Authority: CN
Inventors: 朱梦尧; 杜行健; 史璇
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2019-01-15

Abstract

本发明涉及一种通用的实时语音增强方法，具体方法包括以下步骤：系统接收包含语音和多种环境干扰的含噪语音；使用多层的深度神经网络处理该含噪语音；系统输出增强的语音信号。使用深度神经网络处理含噪语音的过程具体包含以下部分：使用变换层提取变换域声学特征，特征中包括语音的幅度和相位信息；利用特征学习模块产生掩膜；利用产生的掩膜与含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征；增强的语音的变换域声学特征经过反变换合成增强的语音波形。本发明采用有监督学习方法对含噪语音的幅度和相位同时进行语音增强处理；本发明提出的方法通过构建时域损失函数，利用沿时间展开的反向传播进行训练，克服了信号与声谱转换不一致问题。

Description

实时语音增强方法

技术领域

本发明涉及语音增强技术领域，尤其涉及一种基于深度学习模型的端对端的实时语音增强方法。

背景技术

随着电子设备的不断发展，语音设备也成为人们日常生活不可或缺的部分。在语音采集的过程中，外界噪声和混响等干扰不可避免影响到语音质量。所以，在采集语音后应对其进行处理以获得“纯净”的语音信号。这一过程被称为语音增强。

语音增强模型中，声谱图因为可以有效反映语音的声学特性所以常被用作语音增强的特征输入。但在语音处理过程中，声谱与原信号的不一致问题导致声谱特征无法被有效利用。同时，噪声和混响等干扰除了对语音信号幅度有影响，对相位信息也会产生作用，如何有效利用含噪语音的相位信息进行语音增强也成为需要解决的问题。

发明内容

本发明的目的在于，针对现有技术的缺陷提供一种通用的实时语音增强方法。

本发明解决其技术问题所采用的技术方案是:设计一种通用的实时语音增强方法，本方法包括如下步骤:

1.系统接收电子格式的含噪语音，其中包含语音和多种环境干扰；

2.接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理；

3.所述深度神经网络输出增强后的语音。

在本发明所述的一种实时语音增强系统中，接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理，包括：

a.所述深度神经网络提取含噪语音的变换域声学特征；

b.使用所述深度神经网络的特征学习模块产生掩膜；

c.利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征；

d.使用增强的语音的变换域声学特征，经过反变换，合成增强的语音波形。

本发明所述的一种实时语音增强系统，所述深度神经网络提取含噪语音的变换域声学特征是含噪语音当前帧的短时傅里叶变换的幅度与相位信息。

本发明所述的一种实时语音增强系统，使用所述深度神经网络的特征学习模块产生掩膜，所述特征学习模块是紧密连接的多层神经网络。

本发明所述的一种实时语音增强系统，利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征，所述运算是利用产生的掩膜与含噪语音的变换域声学特征进行乘积运算。

本发明所述的一种实时语音增强系统，所述系统整体为端对端的深度神经网络，所述深度神经网络通过构建时域损失函数，利用沿时间展开的反向传播进行训练。

本发明与现有技术相比较，具有显而易见的突出实质性特点和显著技术进步：

本发明采用有监督学习方法对含噪语音进行语音增强处理，通过对含噪语音幅度和相位的处理估计出联合实部虚部掩膜；本发明提出的方法通过构建时域损失函数，利用沿时间展开的反向传播进行训练，克服了信号与声谱转换不一致问题。本发明的单声道降噪是指对单个麦克风采集的信号进行处理，在波束形成的麦克风阵列降噪方法中同样可以应用。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实时语音增强方法的结构示意图。

图2为本发明实时语音增强方法的结构原理图。

图3为语音增强模型训练方法的流程示意图。

图4为语音增强模型测试方法的流程示意图。

图5为本发明系统处理后的语音波形与输入波形的对比。

表1为五种语音增强系统结构的PESQ和SNR性能指标:无语音增强(a),QL-FCN-CSM(b),QL- FCN-cRM(c),QL-FCN-IRM(d),DNN-cRM(e),DNN-IRM(f)。其中本发明提出的结构为QL-FCN-CSM结构。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的语音增强方法整体流程如下：1.接收电子格式的含噪语音，其中包含语音和多种环境干扰；2.接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理；3. 所述深度神经网络输出增强后的语音。其中，如图1所示，在2中的使用多层网络处理所述含噪语音，具体包括：a)深度神经网络提取含噪语音的变换域声学特征；b)使用所述深度神经网络的特征学习模块产生掩膜；c)利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征；d)使用增强的语音的变换域声学特征，经过反变换，合成增强的语音波形。

本发明的系统使用变换层(Quasi Layer)从原始含噪语音波形中提取变换域声学特征。变换层采用两个一维卷积核，分别初始化为短时傅立叶变换(STFT)核函数的实部和虚部。将带噪语音波形进行分帧处理，每帧长度为20毫秒，相邻帧之间有50％重叠。利用变换层的两个卷积核逐帧模拟短时傅立叶变换(STFT)运算，运算结果为包含幅度和相位信息的复数形式声谱。

语音信号在时间维度上有较强的相关性，这种相关性对语音增强有很大帮助。为了利用这一上下文信息提高语音增强性能，本系统使用基于紧密连接的全连接卷积神经网络(Fully Convolution neural network：FCN)的特征学习模块将每16帧的短时傅立叶变换特征声谱图整体作为输入特征。为实现实时语音增强处理，FCN模块的输入全部为已有帧，不使用未来帧。

具体地，FCN模块从带噪语音中估计出一致性受限掩膜(Consistency ConstraintMask：CSM) ，用JRIM抑制背景噪声、保留语音信号。具体地：含噪语音信号的复数形式声谱与JRIM进行乘积运算后可得到增强后的干净的语音信号的复数形式声谱。

进一步地，如图2所示，其详细说明了本发明的整个过程。本发明的语音增强方法输入为带噪语音信号，输出为增强后的语音信号。作为基于有监督学习方法的系统，本发明使用一致性受限掩膜( CSM)为训练目标。

在训练阶段，如图3部分2所示：由紧密连接的全连接神经网络(FCN)构成的特征学习模块估计每帧输入带噪语音的一致性受限掩膜(CSM)，然后CSM与含噪语音的声学特征谱通过乘积运算得到预测的干净语音的声学特征谱，最终由预测的增强语音声谱合成预测的增强语音波形。深度神经网络通过构建时域损失函数，计算纯净语音的波形和预测语音波形的均方误差(Mean-square error：MSE)，利用沿时间展开的反向传播进行训练，经过重复的多轮迭代将整个训练集的MSE最小化，每轮迭代中训练样本仅使用一次。

训练阶段结束后，进入预测阶段，如图4所示：使用训练好的语音增强系统直接对输入的带噪语音进行降噪，具体而言，经过训练的FCN模块对输入的含噪信号声谱进行处理并产生估计掩膜，然后使用估计掩膜重新合成降噪后的语音波形。以下小节披露本发明方法的具体细节，并与现有方法进行比较。

在本发明中的采用紧密连接的全连接卷积神经网络(FCN)生成用于语音增强的掩码层。虽然卷积神经网络(Convolution neural network：CNN)在学习音频特征方面具有良好效果，但无法同时获得丰富的上下文信息与高特征分辨率。本发明中使用的FCN通过采用紧密连接的网络结构和小尺寸卷积核同时满足上述要求。在前馈型网络中，第l层的输出通常被表示为x_l＝H_l(x_l-1)，其中x_l-1是网络输入，H_l(*)为该层网络的非线性变换。紧密连接的网络结构的构建思路是使用在前面的层中产生的特征映射的连接作为后继层的输入：x_l＝H_l[x_l-1，x_l-2，...，x₀])，其中[x_l-1，x_l-2，...，x₀]表示前面的0，...，l-1 层中产生的特征映射的连接。这样的紧密连接的网络结构不仅能够直接计算梯度，也能重复利用特征。

本发明中比值膜和估计，采用一致性受限掩膜(Consistency Constraint Mask：CSM)作为有监督语音降噪的训练目标。含噪语音信号通过短时傅里叶变换层变换得到短时傅立叶变换特征Y_t，f，设增强后的干净语音短时傅里叶变换特征为S_t，f。则可得到关系：S_t，f＝MR_t，fRe{Y_t，f}+iMI_t，fIm{Y_t，f}。其中，MR_t，f和MI_t，f分别代表掩码层在时域与频域的实部谱和虚部谱。

在训练阶段，使用含噪语音计算CSM。训练过程通过构建时域损失函数，利用沿时间展开的反向传播进行训练，调整深度神经网络的参数。在模型收敛的过程中，预测的增强语音信号不断逼近纯净语音信号。

本发明中的语音波形合成，训练结束后，基于紧密连接的全连接卷积神经网络(FCN)的特征学习模块就可在降噪应用中直接使用。在特定应用中使用已经训练好的神经网络称为推理或预测。在推理阶段，本发明系统对输入的含噪语音波形进行处理。利用FCN模块生成的CSM与含噪语音声谱进行乘积运算就可以产生增强的语音信号的声谱。具体而言，将含噪语音声谱中代表幅度的实部谱与代表相位的虚部谱分别CRM的实部谱与虚部谱做乘积运算，得到增强的语音声谱的实部谱与虚部谱。增强的语音的声谱通过反变换层的短时傅里叶反变换(ISTFT)运算得到增强的语音波形信号。

本发明中的大规模噪声训练，为了实现与噪声无关的通用语音降噪，本发明使用了大量日常环境中收集的背景噪声对系统进行训练，如图3中部分1所示，背景噪声包括含混不清的语音、咖啡厅场景噪声、工厂场景噪声、街道场景噪声等。将所有语音随机分为两段，前半段用于训练，后半段用于测试。每段语音分别与噪声以信噪比(Signal-to-noiseratio，SNR)-6、-3、0、3、6dB混合。构建含有多种环境噪声的训练集对模型至关重要。

在本发明的实施例中，采用的评价指标为：客观语音质量评估(perceptualevaluation of speech quality：PESQ)和信噪比(signal to noise ratio：SNR)。

表1为五种语音增强系统结构的PESQ和SNR性能指标:无语音增强(a),QL-FCN-CSM(b),QL- FCN-cRM(c),QL-FCN-IRM(d),DNN-cRM(e),DNN-IRM(f)，其中本发明提出的结构为QL-FCN-CSM结构：

具体地，表1显示经过训练后的语音增强系统在不同环境噪声下的降噪性能。同时，在评估过程中将深度神经网络的不同部分替换，对比结果。本发明网络结构为：变换层-FCN特征学习模块-反变换层 (Quasi-STFT+FCN+Quasi-ISTFT)，采用JRIM作为掩码层，简写为QL-FCN-CSM。替换后的网络结构采用相似方法描述。表1结果显示，本发明采用的QL-FCN-CSM结构以及QL-FCN-cRM性能在各方面优于以深度神经网络(Deep Neural Network：DNN)作为特征学习模块的语音增强系统，如：DNN-cRM 和DNN-IRM。但本发明采用的QL-FCN-CSM结构在6dB和-6dB处与不含相位信息的QL-FCN-cRM结构在语音增强性能方面相比差别不大，因为相位缺失引起的损失在过高或过低信噪比情况下可被忽略。

如图2所示，其展示了从实验结果的波形中随机剪辑的样本，红线表示干净的信号，绿线和蓝线分别表示本发明采用的QL-FCN-CSM结构和QL-FCN-IRM结构的输出。显然，联合估计实数和虚数谱图可以减少时域中结果的失真。

尽管通过以上实施例对本发明进行了揭示，但本发明的保护范围并不局限于此，在不偏离本发明构思的条件下，对以上各构件所做的变形、替换等均将落入本发明的权利要求范围内。

Claims

1.一种实时语音增强方法，其特征在于，包括如下步骤：

(1)接收电子格式的含噪语音，其中包含语音和多种环境干扰；

(2)接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理；

(3)所述深度神经网络输出增强后的语音。

2.如权利要求1所述的一种实时语音增强方法，其特征在于，所述步骤(2)中接收的含噪语音输入端对端的深度神经网络，网络中各个模块对所述含噪语音进行处理，包括如下步骤：

(2-1)所述深度神经网络提取含噪语音的变换域声学特征；

(2-2)所述深度神经网络的特征学习模块通过学习含噪语音的变换域声学特征产生掩膜；

(2-3)利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征；

(2-4)使用增强的语音的变换域声学特征，经过反变换，合成增强的语音波形。

3.如权利要求1所述的一种实时语音增强方法，其特征在于，所述步骤(2)中深度神经网络通过构建时域损失函数，利用沿时间展开的反向传播进行训练。

4.如权利要求2所述的一种实时语音增强方法，其特征在于，所述步骤(2-1)中深度神经网络提取含噪语音的变换域声学特征，所述变换域声学特征包括含噪语音当前帧的幅度与相位信息。

5.如权利要求2所述的一种实时语音增强方法，其特征在于，所述步骤(2-2)中使用所述深度神经网络的特征学习模块产生掩膜，所述特征学习模块是紧密连接的多层神经网络。

6.如权利要求2所述的一种实时语音增强方法，其特征在于，所述步骤(2-3)中利用产生的掩膜与所述含噪语音的变换域声学特征运算产生增强的语音的变换域声学特征，所述运算是利用产生的掩膜与含噪语音的变换域声学特征进行乘积运算。