CN110148419A

CN110148419A - 基于深度学习的语音分离方法

Info

Publication number: CN110148419A
Application number: CN201910337555.8A
Authority: CN
Inventors: 孙林慧; 陶泽
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-20

Abstract

本发明揭示了一种基于深度学习的语音分离方法，首先是将含有多个语音的信号划分为训练集信号和测试集信号，并将训练集信号与测试集信号分别进行预处理，之后进行傅里叶变换，得到训练集信号的幅度和相位、及测试集信号的幅度和相位，然后再将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理；接着将归一化处理后训练集信号的幅度和相位通过训练模型进行训练，且训练模型的算法采用深度神经网络的adam算法；最后将归一化处理后测试集信号通过训练模型预测，并完成语音分离；本发明将幅度与相位联合训练，在真实环境下语音分离效果更佳；另外，本发明采用深度神经网络的adam算法，使信噪比与语音的可懂度得到大幅度提高。

Description

基于深度学习的语音分离方法

技术领域

本发明涉及一种语音分离方法，尤其涉及一种基于深度学习的语音分离方法，属于语音信号处理技术领域。

背景技术

现实生活中存在着各式各样的噪音，人们感兴趣的声音往往都是纯净的声音，然而现实中很难有完全纯净的声音，人们感兴趣的声音中都或多或少地夹杂着噪音，这些噪音降低了语音可懂度和信噪比，然而怎样进行语音分离，从而提高可懂度并且降低信噪比，成为一个非常关键的问题。语音分离问题最早来源于Cherry在1953年提出的著名的鸡尾酒会问题，鸡尾酒会问题是一个在计算机和通信方面的语音识别和分离领域的交叉问题。目前，语音识别技术对于降噪问题已经有了很大的进展，能基本完全实现一个人的语音声音降噪，然而，面对两人或者多人同时讲话的时候，如何将语音进行分离，仍然是一个比较困难的问题。

语音分离任务可根据干扰的不同分为三类：当干扰部分是噪声信号时，它可以被称为“语音增强”；当干扰部分是其他扬声器时，它可以被称为“扬声器分离”；当干扰部分是目标说话人自己的声音的反射波时，它可以被称为“去混响”。由于麦克风收集的声音可能包括噪声，其他人的语音，混响等的声音，如果语音未被分离和直接识别，则识别的准确性可能受到影响。因此，将语音分离技术添加到语音识别的前端可以通过将目标说话者的语音与其他干扰分离来提高语音识别系统的鲁棒性，这也是现代语音识别系统中不可或缺的部分。

目前解决语音分离问题的方法分为两类，即无监督的语音分离和有监督的语音分离。有监督的语音分离又称为基于深度学习的语音分离，由于近些年计算机CPU和GPU性能的提高和发展，有监督的语音分离可以利用大数据量进行训练，得到比无监督的语音分离更好的效果；而且在前人研究中可以发现，大多数人实验过程中都是忽略相位的影响，大多默认测试相位，只对幅值进行训练，且分离效果并不好。

综上所述，如何采用深度学习的语音分离方法且可提高语音分离效果，就成为本领域技术人员亟待解决的问题。

发明内容

本发明的目的是为了解决现有技术的上述缺陷，提出基于深度学习的相位与幅度联合训练的语音分离方法，使得分离得到的语音信号性能较好。

本发明的技术解决方案是：

S1：将含有多个语音的信号划分为训练集信号和测试集信号，并将训练集信号与测试集信号分别进行预处理；然后将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换，得到训练集信号的幅度和相位、及测试集信号的幅度和相位；之后，分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理；

S2：将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练，且训练模型的算法采用深度神经网络的adam算法；

S3：将所述步骤S1中测试集信号的幅度和相位通过所述训练模型分别得到预测幅度值和预测相位值；接着，将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出，完成语音分离。

优选地，所述训练集信号包括混合训练集信号与纯净训练集信号，所述测试集信号包括混合测试集信号与纯净测试集信号。

优选地，所述训练集信号与测试集信号的占比为97：3。

优选地，所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。

优选地，所述步骤S11中的预处理包括分帧、及叠加汉明窗。

优选地，所述汉明窗的长度为256。

优选地，所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合。

优选地，所述动量梯度下降算法的计算公式为：

W＝W-αdW，b＝b-αdb，

v_dW＝β₁v_dW+(1-β₁)dW，v_db＝β₁v_db+(1-β₁)db

其中，α为学习率，β₁为指数加权值；

所述RMSprop算法的计算公式为：

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²，

则，

优选地，所述深度神经网络的adam算法为：

首先，进行初始化，v_dW＝0，S_dW＝0，v_db＝0，s_db＝0；

然后，根据所述动量梯度下降算法，计算指数加权平均值：

v_dW＝β₁v_dW+(1-β₁)dW，v_db＝β₁v_db+(1-β₁)db；

之后，所述通过RMSprop算法的计算公式计算RMSprop值：

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²；

接着，将指数加权平均值及RMSprop值进行偏差修正：

最后，更新权重，得出：

优选地，所述训练模型包括输入层、第一隐藏层、第二隐藏层及输出层，所述第一隐藏层与所述第二隐藏层均设置有1024个节点，所述输入层与所述输出层均设置有256个节点，且输出层维度为的矩阵。

本发明提供了一种基于深度学习的语音分离方法，其优点主要体现在：本发明将幅度与相位联合训练，比传统忽略相位的方法，在真实环境下语音分离效果更佳；另外，本发明采用深度神经网络的adam算法，即将动量梯度下降算法与RMSprop算法相结合，并对指数加权平均值及RMSprop值进行偏差修正，使信噪比与语音的可懂度得到大幅度提高。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为基于深度学习的语音分离方法流程图；

图2为训练模型的结构示意图。

具体实施方式

基于深度学习的语音分离方法，如图1所示，包括如下步骤：

S1：将含有多个语音的信号进行训练前处理；即将含有多个语音的信号划分为训练集信号和测试集信号，并将训练集信号与测试集信号分别进行预处理，预处理包括分帧、及叠加汉明窗，且汉明窗的长度为256；

在本实施例中，训练集信号包括混合训练集信号S_train与纯净训练集信号M_train，所述测试集信号包括混合测试集信号S_test与纯净测试集信号M_test，将混合训练集信号S_train，混合测试集信号S_test，纯净训练集信号M_train及纯净测试集信号M_test经过分帧、及叠加汉明窗处理后得到四个矩阵分别为S_{train_frame}、S_{test_frame}、M_{train_frame}及M_{test_frame}。

在本发明中，训练集信号与测试集信号的占比为97：3，其中，训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度，假设混合信号与纯净信号的长度均为l，则训练集信号的长度为测试集信号的长度为其中符号为向下取整，所以训练集信号加汉明窗之后的矩阵维度为测试集信号加汉明窗之后的矩阵维度为

然后，将均进行预处理后的训练集信号S_{train_frame}与M_{train_frame}、与测试集信号S_{test_frame}与M_{test_frame}分别进行傅里叶变换后得到混合训练集信号S_{train_fft}的幅度和相位、纯净训练集信号M_{train_fft}的幅度和相位、混合测试集信号S_{test_fft}的幅度和相位、及纯净测试集信号M_{test_fft}的幅度和相位；

之后，分别将混合训练集信号S_{train_fft}的幅度和相位、纯净训练集信号M_{train_fft}的幅度和相位、混合测试集信号S_{test_fft}的幅度和相位、及纯净测试集信号M_{test_fft}的幅度和相位均进行归一化处理得到混合训练集信号的幅度S_{train_range}与相位S_{train_phase}、混合测试集信号的幅度S_{test_range}与相位S_{test_phase}、纯净训练集信号的幅度M_{train_range}与相位M_{train_phase}、纯净测试集信号的幅度M_{test_range}与相位M_{test_phase}；

S2：将步骤S1中归一化处理后训练集信号的幅度和相位通过训练模型进行训练，具体为：将混合训练集信号的相位S_{train_phase}作为训练集信号相位的输入矩阵，纯净训练集信号的相位M_{train_phase}作为训练集信号相位的输出矩阵，混合训练集信号的幅度S_{train_range}作为训练集信号幅度的输入矩阵，纯净训练集信号的相位M_{train_phase}作为训练集信号幅度的输出矩阵，利用深度神经网络的adam算法进行训练。其中，训练模型包括输入层、第一隐藏层、第二隐藏层及输出层，如图2所示，第一隐藏层与第二隐藏层均设置有1024个节点，输入层与输出层均设置有256个节点，且输出层维度为的矩阵。

所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合，其中，所述动量梯度下降算法的计算公式为：

W＝W-αdW，b＝b-αdb，

v_dW＝β₁v_dW+(1-β₁)dW，v_db＝β₁v_db+(1-β₁)db

其中，α为学习率，β₁为指数加权值；

所述RMSprop算法的计算公式为：

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²，

则，

进一步地，所述深度神经网络的adam算法为：

首先，进行初始化，v_dW＝0，S_dW＝0，v_db＝0，s_db＝0；

然后，根据所述动量梯度下降算法，计算指数加权平均值：

v_dW＝β₁v_dW+(1-β₁)dW，v_db＝β₁v_db+(1-β₁)db；

之后，所述通过RMSprop算法的计算公式计算RMSprop值：

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²；

接着，将指数加权平均值及RMSprop值进行偏差修正：

最后，更新权重，得出：

其中ε参数是用于防止分母变0，通常是一个很小的值，计算时可以忽略不计，在本实施例中，β₁设置为0.9，β₂设置为0.999，ε设置为10^-8，采用深度神经网络的adam算法在语音分离有着优秀的效果。

S3：将所述步骤S1中测试集信号的幅度S_{test_phase}和相位S_{test_range}通过所述训练模型分别得到预测幅度值S_{pred_phase}和预测相位值S_{pred_range}；接着，将所述预测幅度值S_{pred_phase}和预测相位值S_{pred_range}通过傅里叶反变换得到预测信号S_pred进行输出，完成语音分离。将纯净训练集信号M_train及纯净测试集信号M_test同样经过傅里叶反变换后得到纯净信号S_test，预测信号S_pred与S_test的比值即得到信号与噪声的信噪比，信噪比与主观语音质量评估作为语音分离性能好坏的衡量指标，信噪比越高，主观语音质量评估越大，表明分离的信号失真越小，分离性能越佳。

下面用实验数据进一步阐明了本发明中语音分离的效果：

将含有多个语音的信号划分为训练集信号和测试集信号，即设置帧长为256，将混合信号中的0到3840128作为训练集信号，3840129到4147457作为测试集信号，并将训练集信号与测试集信号分别进行预处理，即分帧并叠加汉明窗，得到训练集信号的矩阵维度为3000×256，测试集信号的矩阵维度为2400×256；将预处理后的训练集信号与预处理后的测试集信号分别进行傅里叶变换，得到训练集信号的幅度和相位、及测试集信号的幅度和相位；再分别将训练集信号的幅度和相位、及测试集信号的幅度和相位均进行归一化处理；

将归一化处理后训练集信号的幅度和相位通过训练模型进行训练，且训练模型的算法采用深度神经网络的adam算法；

将归一化处理后测试集信号的幅度和相位通过训练模型分别得到预测幅度值和预测相位值；将所述预测幅度值和预测相位值通过傅里叶反变换得到预测信号进行输出，完成语音分离。

然后进行计算信噪比，实验可以发现，如果使用混合信号相位作为输入，信噪比仅为-1.3db，可见由于混合信号和纯净信号的相位差距过大，使得进行傅里叶变换之后的信号完全失真，而使用本发明中相位幅度联合训练的深度神经网络的adam算法，可以发现信噪比为1.1db，提高了2db左右。同样，使用混合信号相位的主观语音质量评估值为0.9，而使用本发明的相位幅度联合训练的深度神经网络的adam算法值为1.3，由此可见，本发明提供的相位幅度联合训练的深度神经网络的adam算法提高了语音分离效果。

应该注意的是，上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。

Claims

1.一种基于深度学习的语音分离方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练集信号包括混合训练集信号与纯净训练集信号，所述测试集信号包括混合测试集信号与纯净测试集信号。

3.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练集信号与测试集信号的占比为97：3。

4.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练集信号与测试集信号均设置的语音为256的倍数且不超过原语音长度。

5.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述步骤S11中的预处理包括分帧、及叠加汉明窗。

6.根据权利要求5所述的基于深度学习的语音分离方法，其特征在于：所述汉明窗的长度为256。

7.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述深度神经网络的adam算法为动量梯度下降算法与RMSprop算法的结合。

8.根据权利要求7所述的基于深度学习的语音分离方法，其特征在于：所述动量梯度下降算法的计算公式为：W＝W-αdW，b＝b-αdb，

v_dW＝β₁v_dW+(1-β₁)dW，v_db＝β₁v_db+(1-β₁)db

其中，α为学习率，β₁为指数加权值；

所述RMSprop算法的计算公式为：

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²，

则，

9.根据权利要求8所述的基于深度学习的语音分离方法，其特征在于：所述深度神经网络的adam算法为：

首先，进行初始化，v_dW＝0，S_dW＝0，v_db＝0，s_db＝0；

然后，根据所述动量梯度下降算法，计算指数加权平均值：

v_dW＝β₁v_dW+(1-β₁)dW，b_db＝β₁v_db+(1-β₁)db；

之后，所述通过RMSprop算法的计算公式计算RMSprop值：

S_dW＝β₂S_dW+(1-β₂)dW²，S_db＝β₂S_db+(1-β₂)db²；

接着，将指数加权平均值及RMSprop值进行偏差修正：

最后，更新权重，得出：

10.根据权利要求1所述的基于深度学习的语音分离方法，其特征在于：所述训练模型包括输入层、第一隐藏层、第二隐藏层及输出层，所述第一隐藏层与所述第二隐藏层均设置有1024个节点，所述输入层与所述输出层均设置有256个节点，且输出层维度为的矩阵。