CN111899757B

CN111899757B - 针对目标说话人提取的单通道语音分离方法及系统

Info

Publication number: CN111899757B
Application number: CN202011057722.2A
Authority: CN
Inventors: 史慧宇; 欧阳鹏
Original assignee: Nanjing Yunzhi Technology Co ltd
Current assignee: Shanghai Qingwei Intelligent Technology Co.,Ltd.
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-12
Anticipated expiration: 2040-09-29
Also published as: CN111899757A

Abstract

本发明提供了针对目标说话人提取的单通道语音分离方法，包括：获取目标说话人混合语音样本。根据初始化后的初始深度神经网络模型参数，训练初始深度神经网络模型获取第一深度神经网络模型。生成第二深度神经网络模型。初始化第二深度神经网络模型。获取当前深度神经网络模型。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。本发明中的针对目标说话人提取的单通道语音分离方法比现有的目标说话人提取单通道语音分离方法能在提高分离准确度、说话可懂度的同时，缩小算法的网络模型尺寸，减少计算内存，增强算法落地实现的有效性。同时，本发明还提供了针对目标说话人提取的单通道语音分离系统。

Description

针对目标说话人提取的单通道语音分离方法及系统

技术领域

本发明语音信号处理领域。本发明具体涉及针对目标说话人提取的单通道语音分离方法及系统。

背景技术

随着人工智能技术的发展，神经网络算法由于其高预测精度称为目前最先进的技术。近些年高端智能移动设备得到快速发展，其中涉及的语音分离和语音识别等技术中，神经网络和深度学习算法成为主流。在众多的神经网络结构中，递归神经网络(RNN)由于读取输入时可在循环内跨神经元携带信息而被广泛使用在语音信号处理任务中，具有代表性的长短时记忆神经网络(LSTM)作为最受欢迎的RNN类型在语音分离任务中取得巨大的成功。

多种人工智能任务的发展带来的结果是，语音分离算法的精度要求越来越高，因为在智能音箱、助听器、会议记录等应用设备中，麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰，若是不能准确将其中的目标语音分离出来，将会严重影响到后端的应用，出现目标语音不清晰、语义识别不准或记录不准确的问题。然而，随着精度的要求越来越高，研发出的网络模型也而越来越大，这就导致网络计算的复杂度和计算机内存需求大规模增加。神经网络模型的压缩是一种减少计算量和内存的有效方法。最近研发人员已经研究出了多种模型压缩技术，比如权重剪枝就是一种显著的缩小模型的方式。

目前的语音分离算法大多数将重点放在语音分离后的准确程度上，而对如何在提高分离精确度的同时，减小模型尺寸，提高算法的速度，增加实时性方面研究较少。此问题关系到研究出的语音分离算法能否成功在应用设备上取得良好的效果，增加用户的体验舒适度，对技术的产品落地起决定性作用。

发明内容

本发明的目的是提供一种针对目标说话人提取的单通道语音分离方法，其比现有的目标说话人提取单通道语音分离方法能在提高分离准确度、说话可懂度的同时，缩小算法的网络模型尺寸，减少计算内存，增强算法落地实现的有效性。

本发明中的一种针对目标说话人提取的单通道语音分离系统。其实现的网络模型尺寸小、计算内存少，算法落地实现的有效性强。

本发明一方面提供了针对目标说话人提取的单通道语音分离方法，针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。针对目标说话人提取的单通道语音分离方法包括：

步骤S101，通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。

步骤S102，随机初始化初始深度神经网络模型的初始深度神经网络模型参数。

步骤S103，根据初始化后的初始深度神经网络模型参数，利用损失函数结果及梯度下降法反向传播更新权重和偏置，训练初始深度神经网络模型获取第一深度神经网络模型。

步骤S104，在第一深度神经网络模型的输出层前，插入ADMM模块，生成第二深度神经网络模型。

步骤S105，将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数，初始化第二深度神经网络模型。对ADMM模块的参数初始化。

步骤S106，根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数，通过损失函数及梯度下降法来反向传播更新权重和偏置，训练第二深度神经网络模型获取当前深度神经网络模型。

步骤S107，将待测试语音样本输入到当前深度神经网络模型中，获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。

在本发明方法的另一种实施方式中，步骤S101包括：

步骤S201，通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。

目标说话人取样语音信号样本、目标说话人混合语音样本的样本长度为4s。

步骤S202，短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本，获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。

步骤S203，归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。

步骤S204，将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型中。

在本发明方法的另一种实施方式中，设定采样频率为8kHz。设定信噪比范围为-2.5dB 到2.5dB之间。

在本发明方法的另一种实施方式中，步骤S103中还包括：

步骤S1031，初始化初始深度神经网络模型中网络神经元节点之间的权重和偏置值，且前向传播优化初始深度神经网络模型。在初始深度神经网络模型前向传播过程中，通过激活函数生成输入与输出结果间的非线性映射。

在本发明方法的另一种实施方式中，步骤S104中还包括：

步骤S1041，增加并获取训练阶段的验证指标：SDR信号失真比、SIR信号干扰比。

在本发明方法的另一种实施方式中，步骤S106中还包括：

步骤S1061，初始化第二深度神经网络模型中网络神经元节点之间的权重和偏置值，且前向传播优化第二深度神经网络模型。在第二深度神经网络模型前向传播过程中，通过激活函数生成输入与输出结果间的非线性映射。

在本发明方法的另一种实施方式中，步骤S107中包括：

步骤S1071，将待测试语音样本输入到当前深度神经网络模型中，获取与目标说话人语音样本对应的估计掩蔽。

步骤S1072，根据估计掩蔽及目标说话人混合语音样本的幅度谱，结合目标说话人混合语音样本的相位谱，通过短时傅里叶逆变换，根据重叠帧获取目标说话人语音样本。

本发明方法的另一方面还提供了针对目标说话人提取的单通道语音分离系统，针对目标说话人提取的单通道语音分离系统实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。针对目标说话人提取的单通道语音分离系统包括：

一个样本预处理单元，其配置为通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。

一个深度神经网络初始化单元，其配置为随机初始化初始深度神经网络模型的初始深度神经网络模型参数。

一个第一深度神经网络模型获取单元，其配置为根据初始化后的初始深度神经网络模型参数，利用损失函数结果及梯度下降法反向传播更新权重和偏置，训练初始深度神经网络模型获取第一深度神经网络模型。

一个第二深度神经网络模型获取单元，其配置在第一深度神经网络模型的输出层前，插入ADMM模块，生成第二深度神经网络模型。

一个参数初始化单元，其配置为将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数，初始化第二深度神经网络模型。对ADMM模块的参数初始化。

一个当前深度神经网络模型获取单元，其配置为根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数，通过损失函数及梯度下降法来反向传播更新权重和偏置，训练第二深度神经网络模型获取当前深度神经网络模型。

一个分离语音单元，其配置为将待测试语音样本输入到当前深度神经网络模型中，获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。

在本发明系统的另一种实施方式中，样本预处理单元还配置为：

通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本包括，通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。

短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本，获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。

归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。

将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型中。

在本发明系统的再一种实施方式中，设定采样频率为8kHz。设定信噪比范围为-2.5dB 到2.5dB之间。

下文将以明确易懂的方式，结合附图对针对目标说话人提取的单通道语音分离方法及系统的特性、技术特征、优点及其实现方式予以进一步说明。

附图说明

图1是用于说明在本发明一种实施方式中，针对目标说话人提取的单通道语音分离方法的流程示意图。

图2是用于说明在本发明一种实施方式中，针对目标说话人提取的单通道语音分离方法部分步骤的流程示意图。

图3是用于说明在本发明另一种实施方式中，针对目标说话人提取的单通道语音分离方法部分步骤的流程示意图。

图4是用于说明在本发明又一种实施方式中，针对目标说话人提取的单通道语音分离方法的流程示意图。

图5是用于说明在本发明又一种实施方式中，针对目标说话人提取的单通道语音分离系统的组成示意图。

图6是用于说明在本发明再一种实施方式中，针对目标说话人提取的单通道语音分离方法的控制流程示意图。

图7是用于说明在本发明一种实施方式中，针对目标说话人提取的单通道语音分离方法中预训练模型结构图。

图8是用于说明在本发明一种实施方式中，针对目标说话人提取的单通道语音分离方法中相位/振幅特征编码器中隐藏层的结构示意图。

图9是用于说明在本发明一种实施方式中，针对目标说话人提取的单通道语音分离方法中解码器隐藏层的结构示意图。

图10是用于说明在本发明一种实施方式中，针对目标说话人提取的单通道语音分离方法中语音分离测试阶段结构示意图。

具体实施方式

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示结构相同或结构相似但功能相同的部件。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中只示意性地表示出了与本示例性实施例相关的部分，它们并不代表其作为产品的实际结构及真实比例。

本发明一方面提供了针对目标说话人提取的单通道语音分离方法，针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。

如图1所示，针对目标说话人提取的单通道语音分离方法包括：

步骤S101，预处理目标说话人混合语音样本。

本步骤中，通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。

步骤S102，初始深度神经网络模型参数。

本步骤中，随机初始化初始深度神经网络模型的初始深度神经网络模型参数。

步骤S103，获取第一深度神经网络模型。

本步骤中，根据初始化后的初始深度神经网络模型参数，利用损失函数结果及梯度下降法反向传播更新权重和偏置，训练初始深度神经网络模型获取第一深度神经网络模型。

步骤S104，生成第二深度神经网络模型。

本步骤中，在第一深度神经网络模型的输出层前，插入ADMM模块，生成第二深度神经网络模型。上述ADMM模块为稀疏非负矩阵分解语音增强算法模块。

步骤S105，初始化第二深度神经网络模型。

本步骤中，将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数，初始化第二深度神经网络模型。对ADMM模块的参数初始化。

步骤S106，获取当前深度神经网络模型。

本步骤中，根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数，通过损失函数及梯度下降法来反向传播更新权重和偏置，训练第二深度神经网络模型获取当前深度神经网络模型。

步骤S107，分离语音数据。

本步骤中，将待测试语音样本输入到当前深度神经网络模型中，获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。

在本发明方法的另一种实施方式中，如图2所示，步骤S101包括：

步骤S201，重采样语音样本。

本步骤中，通过设定采样频率重采样目标说话人语音样本。目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本。

步骤S202，获取样本的幅度谱、相位谱及幅度最大值。

本步骤中，短时傅里叶变换目标说话人取样语音信号样本、目标说话人混合语音样本，获取目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱及幅度最大值。

步骤S203，获取理想幅值掩蔽值。

本步骤中，归一化目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱。获取理想幅值掩蔽值。

步骤S204，输入到初始深度神经网络。

本步骤中，将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型中。

在本发明方法的又一种实施方式中，如图3所示，步骤S103中还包括：

步骤S1031，初始化初始深度神经网络模型参数。

本步骤中，初始化初始深度神经网络模型中网络神经元节点之间的权重和偏置值，且前向传播优化初始深度神经网络模型。在初始深度神经网络模型前向传播过程中，通过激活函数生成输入与输出结果间的非线性映射。

在本发明方法的又一种实施方式中，如图3所示，步骤S104中还包括：

步骤S1041，增加验证指标。

增加并获取训练阶段的验证指标：SDR信号失真比、SIR信号干扰比。

在本发明方法的再一种实施方式中，如图4所示，步骤S106中还包括：

步骤S1061，初始化第二深度神经网络模型参数。

本步骤中，初始化第二深度神经网络模型中网络神经元节点之间的权重和偏置值，且前向传播优化第二深度神经网络模型。在第二深度神经网络模型前向传播过程中，通过激活函数生成输入与输出结果间的非线性映射。

在本发明方法的再一种实施方式中，如图4所示，步骤S107中包括：

步骤S1071，获取与目标说话人语音样本对应的估计掩蔽。

本步骤中，将待测试语音样本输入到当前深度神经网络模型中，获取与目标说话人语音样本对应的估计掩蔽。

步骤S1072，获取说话人的分离语音数据。

本步骤中，根据估计掩蔽及目标说话人混合语音样本的幅度谱，结合目标说话人混合语音样本的相位谱，通过短时傅里叶逆变换，根据重叠帧获取目标说话人语音样本。

本发明方法的另一方面还提供了针对目标说话人提取的单通道语音分离系统，针对目标说话人提取的单通道语音分离系统实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型。

如图5所示，针对目标说话人提取的单通道语音分离系统包括：一个样本预处理单元 101、一个深度神经网络初始化单元102、一个第一深度神经网络模型获取单元103、一个第二深度神经网络模型获取单元104、一个参数初始化单元105、一个当前深度神经网络模型获取单元106和一个分离语音单元107。

样本预处理单元101配置为通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本。

深度神经网络初始化单元102配置为随机初始化初始深度神经网络模型的初始深度神经网络模型参数。

第一深度神经网络模型获取单元10配置为根据初始化后的初始深度神经网络模型参数，利用损失函数结果及梯度下降法反向传播更新权重和偏置，训练初始深度神经网络模型获取第一深度神经网络模型。

第二深度神经网络模型获取单元104配置在第一深度神经网络模型的输出层前，插入 ADMM模块，生成第二深度神经网络模型。

参数初始化单元105配置为将第一深度神经网络模型的网络模型参数作为第二深度神经网络模型的初始参数，初始化第二深度神经网络模型。对ADMM模块的参数初始化。

当前深度神经网络模型获取单元106配置为根据初始化后的第二深度神经网络模型参数及初始化后的ADMM模块参数，通过损失函数及梯度下降法来反向传播更新权重和偏置，训练第二深度神经网络模型获取当前深度神经网络模型。

分离语音单元107配置为将待测试语音样本输入到当前深度神经网络模型中，获取与目标说话人语音样本对应的估计掩蔽。根据估计掩蔽及目标说话人混合语音样本的音频获取目标说话人语音样本。

在本发明系统的另一种实施方式中，样本预处理单元101还配置为：

将归一化后的目标说话人取样语音信号样本、目标说话人混合语音样本的幅度谱、相位谱输入到初始深度神经网络模型。

在本发明针对目标说话人提取的单通道语音分离方法，还提出了一种实施方式。

如图6所示，本发明提供了一种针对目标说话人提取的基于注意力机制(attention) 和ADMM的语音分离稀疏算法，包括预训练阶段和基于ADMM再训练阶段。预训练阶段的模型由编码器、解码器和注意力机制构成(如图7所示)，基于ADMM再训练阶段由预训练模型和ADMM模块构成。主要包括以下内容：

第一部分：数据处理阶段：对训练语音样本进行预处理，并提取其特征信息；

第二部分：预训练阶段：使用损失函数对深度神经网络进行预训练，以获得深度神经网络模型的参数待稀疏化；

第三部分：重训练阶段：在预训练好的模型上，加入ADMM模块，重新输入样本特征对模型做重训练，并对网络参数剪枝。

第四部分：测试阶段：将待测试语音样本进行预处理，提取其特征信息，并通过训练后的深度神经网络模型进行语音分离，再通过语音重构得到分离结果。

以下将对每个部分做详细说明。

一、第一部分具体包括：

1.1、对数据库样本信号在8kHz下重采样，并对目标说话人与噪声及其他说话人的数据在信噪比-2.5dB到2.5dB之间做随机的音频混合，同时保存每个混合音频对应的目标说话人干净音频。每个样本的长度为4s。

1.2、对混合信号y(t)及对应目标说话人信号x(t)进行短时傅里叶变换(汉宁窗，长度20ms)，得到混合语音信号、干净目标语音信号的幅度谱Y(t,f)、X(t,f)、相位谱及幅度最大值；

1.3、对混合语音信号和干净语音信号的幅度谱进行归一化，并计算理想幅值掩蔽，将归一化后的混合语音信号的幅度谱和相位谱分别输入到预训练模型中，理想幅值掩蔽作为预训练模型的训练目标。

二、第二部分具体包括：

2.1、对深度神经网络参数进行随机初始化，包括每一层的权重和bias值；

2.2、根据2.1初始化后的参数，对深度神经网络进行有监督的训练，即使用损失函数通过梯度下降法来反向传播更新权重和偏置，以获得深度神经网络模型。

上述2.2中包括前向传播阶段和反向传播阶段。

前向传播阶段包括：对网络神经元节点之间的权重和偏置进行初始化；深度神经网络进行前向传播。

神经网络在前向传播过程中，可使用激活函数来增加网络之间的非线性关系，最后能够生成输入与输出结果间的非线性映射。

反向传播阶段包括：

<1>计算深度神经网络的损失函数；

<2>通过梯度下降法更新深度神经网络的参数。

整个网络的损失函数为公式1：

其中，s_target是目标；e_noise是估计噪音，由估计的语音和混合语音的差值求得。

网络将使用梯度下降法对其中的参数进行交替更新：

a、构建预训练语音提取网络。它是一个单输出的网络，由编码器、注意力机制和解码器三个模块组成。编码器由相位编码器和振幅编码器构成，它们通过注意力机制模块连接到解码器。如图8、9所示，整个网络除了输入层、输出层外，相位编码器和振幅编码器分别含有两个隐藏层，解码器含有4个隐藏层。注意力机制含有一个隐藏层。

b、计算网络输出层损失函数的梯度；

c、计算网络层数l＝L-1,L-2,…,2时每一层所对应的梯度；

d、更新整个网络的权重和偏置。

三、第三部分具体包括：

3.1、在原有训练模型的输出层前，插入ADMM网络模块，组成新的训练网络，并增加SNR、SIR等训练阶段的验证指标。

3.2、将预训练模型中的网络参数取出，并赋给新网络中除去ADMM模块的网络部分作为初始参数。

3.3、对ADMM模块的网络部分做初始化。

3.4、根据3.2和3.3初始化后的参数，对重组后的深度神经网络进行有监督的训练，即使用新的损失函数通过梯度下降法来反向传播更新权重和偏置，以获得更新后的深度神经网络模型。

上述3.4中仍然包括前向传播阶段和反向传播阶段。

其中，反向传播阶段包括：

<1>计算更新后深度神经网络新的损失函数；

<2>通过梯度下降法更新深度神经网络的参数。

新的网络损失函数为：

其中，i＝1，…，N，N为预训练模型中参数总数；W_i，b_i为预训练模型的参数，ρ_i为惩罚项，Z_i为剪枝掩蔽，U_i为W_i和Z_i的双重变量。

网络将使用如下步骤对预训练中的参数进行稀疏化和更新：

a、重训练网络是一个单输出的网络，由预训练模型和ADMM模块组成。

b、对每个权重参数W_i计算L2范数；

c、针对目标稀疏程度找出特定的阈值，若是L2范数小于此阈值，则应被剪枝；

d、在每一次迭代过程中，若是参数W_i的L2范数小于阈值，则对应的Z_i为0。

ADMM模块中，参数W_i和Z_i迭代更新的规则如下：

其中，k为迭代的次数。

第四部分测试阶段的具体操作为：将待测试语音样本的幅度谱和相位谱输入到稀疏训练后的网络模型中，经计算可得到目标语音对应的估计掩蔽，然后将估计掩蔽与最初待测混合语音的幅度谱相乘，再与相位谱结合经短时傅里叶逆变换和重叠帧的恢复后得到对应的每一个说话人的语音分离结果，并计算出SDR、SIR、SAR、STOI和PESQ等，如图10所示。

应当理解，虽然本说明书是按照各个实施方式中描述的，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.针对目标说话人提取的单通道语音分离方法，其特征在于，所述针对目标说话人提取的单通道语音分离方法实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型；所述针对目标说话人提取的单通道语音分离方法包括：

步骤S101，通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本；

步骤S102，随机初始化所述初始深度神经网络模型的初始深度神经网络模型参数；

步骤S103，根据初始化后的初始深度神经网络模型参数，利用损失函数结果及梯度下降法反向传播更新权重和偏置，训练所述初始深度神经网络模型获取第一深度神经网络模型；

步骤S104，在所述第一深度神经网络模型的输出层前，插入ADMM模块，生成第二深度神经网络模型；

步骤S105，将所述第一深度神经网络模型的网络模型参数作为所述第二深度神经网络模型的初始参数，初始化所述第二深度神经网络模型；对ADMM模块的参数初始化；

步骤S106，根据初始化后的所述第二深度神经网络模型参数及初始化后的ADMM模块参数，通过损失函数及梯度下降法来反向传播更新权重和偏置，训练所述第二深度神经网络模型获取当前深度神经网络模型；

步骤S107，将待测试语音样本输入到所述当前深度神经网络模型中，获取与所述目标说话人语音样本对应的估计掩蔽；根据所述估计掩蔽及所述目标说话人混合语音样本的音频获取目标说话人语音样本。

2.根据权利要求1所述的单通道语音分离方法，其特征在于，所述步骤S101包括：

步骤S201，通过所述设定采样频率重采样所述目标说话人语音样本；所述目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本；

所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的样本长度为4s；

步骤S202，短时傅里叶变换所述目标说话人取样语音信号样本、目标说话人混合语音样本，获取所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱及幅度最大值；

步骤S203，归一化所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱；获取理想幅值掩蔽值；

步骤S204，将归一化后的所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱输入到所述初始深度神经网络模型中。

3.根据权利要求2所述的单通道语音分离方法，其特征在于，所述设定采样频率为8kHz；所述设定信噪比范围为-2.5dB到2.5dB之间。

4.根据权利要求1所述的单通道语音分离方法，其特征在于，所述步骤S103中还包括：

步骤S1031，初始化所述初始深度神经网络模型中网络神经元节点之间的权重和偏置值,且前向传播优化所述初始深度神经网络模型；在所述初始深度神经网络模型前向传播过程中，通过激活函数生成输入与输出结果间的非线性映射。

5.根据权利要求1所述的单通道语音分离方法，其特征在于，所述步骤S104中还包括：

6.根据权利要求1所述的单通道语音分离方法，其特征在于，所述步骤S106中还包括：

步骤S1061，初始化所述第二深度神经网络模型中网络神经元节点之间的权重和偏置值，且前向传播优化所述第二深度神经网络模型；在所述第二深度神经网络模型前向传播过程中，通过激活函数生成输入与输出结果间的非线性映射。

7.根据权利要求2所述的单通道语音分离方法，其特征在于，所述步骤S107中包括：

步骤S1071，将所述待测试语音样本输入到所述当前深度神经网络模型中，获取与所述目标说话人语音样本对应的估计掩蔽；

步骤S1072，根据所述估计掩蔽及所述目标说话人混合语音样本的幅度谱，结合所述目标说话人混合语音样本的相位谱，通过短时傅里叶逆变换，根据重叠帧获取目标说话人语音样本。

8.针对目标说话人提取的单通道语音分离系统，其特征在于，所述针对目标说话人提取的单通道语音分离系统实现时涉及多个目标说话人混合语音样本及一个初始深度神经网络模型；所述针对目标说话人提取的单通道语音分离系统包括：

一个样本预处理单元，其配置为通过一个设定采样频率预处理训练目标说话人语音样本获取目标说话人混合语音样本；

一个深度神经网络初始化单元，其配置为随机初始化所述初始深度神经网络模型的初始深度神经网络模型参数；

一个第一深度神经网络模型获取单元，其配置为根据初始化后的初始深度神经网络模型参数，利用损失函数结果及梯度下降法反向传播更新权重和偏置，训练所述初始深度神经网络模型获取第一深度神经网络模型；

一个第二深度神经网络模型获取单元，其配置在所述第一深度神经网络模型的输出层前，插入ADMM模块，生成第二深度神经网络模型；

一个参数初始化单元，其配置为将所述第一深度神经网络模型的网络模型参数作为所述第二深度神经网络模型的初始参数，初始化所述第二深度神经网络模型；对ADMM模块的参数初始化；

一个当前深度神经网络模型获取单元，其配置为根据初始化后的所述第二深度神经网络模型参数及初始化后的ADMM模块参数，通过损失函数及梯度下降法来反向传播更新权重和偏置，训练所述第二深度神经网络模型获取当前深度神经网络模型；

一个分离语音单元，其配置为将待测试语音样本输入到所述当前深度神经网络模型中，获取与所述目标说话人语音样本对应的估计掩蔽；根据所述估计掩蔽及所述目标说话人混合语音样本的音频获取目标说话人语音样本。

9.根据权利要求8所述的单通道语音分离系统，其特征在于，所述样本预处理单元还配置为：

通过所述设定采样频率重采样所述目标说话人语音样本；所述目标说话人混合语音样本包括，通过所述设定采样频率重采样所述目标说话人语音样本；所述目标说话人混合语音样本为目标说话人取样语音信号样本、目标说话人语音在设定信噪比范围随机混合环境噪声和其他说话人音频的样本；

短时傅里叶变换所述目标说话人取样语音信号样本、所述目标说话人混合语音样本，获取所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱及幅度最大值；

归一化所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱；获取理想幅值掩蔽值；

将归一化后的所述目标说话人取样语音信号样本、所述目标说话人混合语音样本的幅度谱、相位谱输入到所述初始深度神经网络模型中。

10.根据权利要求9所述的单通道语音分离系统，其特征在于，所述设定采样频率为8kHz；所述设定信噪比范围为-2.5dB到2.5dB之间。