CN110164469B

CN110164469B - 一种多人语音的分离方法和装置

Info

Publication number: CN110164469B
Application number: CN201810904488.9A
Authority: CN
Inventors: 陈联武; 于蒙; 钱彦旻; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2023-03-10
Anticipated expiration: 2038-08-09
Also published as: CN110164469A; CN110544488B; JP2021516786A; US11450337B2; CN110544488A; US20210005216A1; EP3751569A4; WO2020029906A1; EP3751569A1

Abstract

本发明实施例公开了一种多人语音的分离方法和装置，用于实现在多人语音场景下的语音与语音之间的分离。本发明实施例提供一种多人语音的分离方法，包括：从待分离的混合语音信号中提取出混合语音特征，所述混合语音信号中混合有N种人声，所述N为大于或等于2的正整数；使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离，输出与所述N种人声对应的N种分离语音信号。

Description

一种多人语音的分离方法和装置

技术领域

本发明涉及信号处理技术领域，尤其涉及一种多人语音的分离方法和装置。

背景技术

在嘈杂的声学环境中，比如在鸡尾酒会中，往往同时存在着多个不同的人声以及其他杂音。在这种声学环境下，人类的听觉系统能一定程度地听清楚目标语言，而机器在这方面的能力还远不如人类。因此，如何在多个人声混杂的声学环境中分离出目标语音一直是语音信号处理领域的重要研究方向。

现有技术提供的语音降噪方案主要适用于语音和噪声的分离，由于语音和噪声的特性差别很大，现有语音降噪方案已经能很好地完成语音降噪任务。而由于不同说话人的语音特性非常接近，语音分离的技术难度明显大于语音降噪。如何将语音和语音进行分离，仍是未解决的问题。

发明内容

本发明实施例提供了一种多人语音的分离方法和装置，用于实现在多人语音场景下的语音与语音之间的分离。

本发明实施例提供以下技术方案：

一方面，本发明实施例提供一种多人语音的分离方法，包括：

从待分离的混合语音信号中提取出混合语音特征，所述混合语音信号中混合有N种人声，所述N为大于或等于2的正整数；

使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；

使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离，输出与所述N种人声对应的N种分离语音信号。

另一方面，本发明实施例还提供一种多人语音的分离装置，包括：

特征提取模块，用于从待分离的混合语音信号中提取出混合语音特征，所述混合语音信号中混合有N种人声，所述N为大于或等于2的正整数；

掩蔽矩阵生成模块，用于使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；

语音分离模块，用于使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离，输出与所述N种人声对应的N种分离语音信号。

在前述方面中，多人语音的分离装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤，详见前述对前述一方面以及各种可能的实现方式中的说明。

另一方面，本发明实施例提供一种多人语音的分离装置，该多人语音的分离装置包括：处理器、存储器；存储器用于存储指令；处理器用于执行存储器中的指令，使得多人语音的分离装置执行如前述一方面中任一项的方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

在本发明实施例中，首先从待分离的混合语音信号中提取出混合语音特征，混合语音信号中混合有N种人声，然后使用生成对抗网络模型对混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；使用生成对抗网络模型对N种人声所对应的掩蔽矩阵和混合语音信号进行语音分离，输出与N种人声对应的N种分离语音信号。由于本发明实施例中使用生成对抗网络模型可以提取到N种人声对应的掩蔽矩阵，该生成对抗网络模型可以精确识别多种人声对应的语音信号，基于该生成对抗网络模型实现语音分离网络框架，实现在多人语音场景下的语音与语音之间的分离，提升语音分离的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多人语音的分离方法的流程方框示意图；

图2为本发明实施例提供的生成对抗网络模型的训练过程的的流程方框示意图；

图3为本发明实施例提供的一种生成对抗网络模型的模型架构示意图；

图4-a为本发明实施例提供的一种多人语音的分离装置的组成结构示意图；

图4-b为本发明实施例提供的一种多人语音的分离装置的组成结构示意图；

图4-c为本发明实施例提供的一种模型训练模块的组成结构示意图；

图4-d为本发明实施例提供的一种生成网络培训单元的组成结构示意图；

图4-e为本发明实施例提供的一种判别网络培训单元的组成结构示意图；

图5为本发明实施例提供的多人语音的分离方法应用于终端的组成结构示意图；

图6为本发明实施例提供的多人语音的分离方法应用于服务器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明实施例主要提供一种多人语音的分离方法，本发明实施例通过神经网络可以完成对多人场景下的语音与语音之间的分离，应用于复杂声学场景下的语音交互中，例如智能音箱，智能电视(TV)等场景的语音识别。本发明实施例中还提供多人语音的分离装置，该多人语音的分离装置可以通过音频处理软件的方式部署在终端中，该多人语音的分离装置也可以是存储音频的服务器。

本发明实施例中对混合语音信号所进行的语音分离任务完全不同于现有技术中语音降噪。语音降噪是指去除输入音频中包含的噪声信号，保留语音。语音分离是指分离出输入音频中属于不同说话人的语音。当输入音频包含噪声以及多人语音时，对于语音降噪任务，输出是去除噪声后多人混合语音。对于语音分离任务，输出的是每个说话人单独的语音，至于噪声是单独输出或者直接被去除，取决于不同语音分离算法的设计。从音频特性的处理难度上来看，由于语音和噪声的特性差别很大，现有语音降噪方案已经能很好地完成语音降噪任务。而由于不同说话人的语音特性非常接近，语音分离的技术难度明显大于语音降噪。

本发明实施例提供的多人语音的分离中采用机器学习的方式来训练出生成对抗网络(Generative Adversarial Nets，GAN)模型，该生成对抗网络模型也可以称为生成式对抗网络模型，该生成对抗网络模型可以是通过神经网络模型来实现，例如本发明实施例中采用的神经网络模型具体可以包括：深度神经网络(Deep Neural Networks,DNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、卷积神经网络(Convolutional NeuralNetwork,CNN)。具体的，首先从待分离的混合语音信号中提取出混合语音特征，再将该混合语音特征输入到生成对抗网络模型中，使用生成对抗网络模型对混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵，例如对输入的混合语音逐帧在各频率通道上求取掩蔽系数,即可形成掩蔽矩阵。最后使用生成对抗网络模型对N种人声所对应的掩蔽矩阵和混合语音信号进行语音分离，输出多个分离后的语音信号。本发明实施例采用的生成对抗网络模型能够有效的提取N种人声对应的掩蔽矩阵，以进行语音处理，从而能够自动地对从一段混合语音中分离出单个人声的语音信号，实现了类人听觉的N种人声的智能识别。

请参阅图1所示，本发明一个实施例提供的多人语音的分离方法，可以包括如下步骤：

101、从待分离的混合语音信号中提取出混合语音特征，混合语音信号中混合有N种人声，N为大于或等于2的正整数。

在本发明实施例中，音源的数量用字母N来表示，在语音分离任务中，音源的数量N大于或等于2，即在一段混合语音信号中可以包括多种人声，通过本发明后续实施例提供的生成对抗网络模型可以分离出N种人声的语音信号。

在本发明实施例中，首先获取到一段待分离的混合语音信号，先提取该混合语音信号对应的特征，即获取到混合语音特征，该混合语音特征是生成对抗网络模型的输入特征，在实际应用中，混合语音特征的获取方式可以多种。

在本发明的一些实施例中，步骤101从待分离的混合语音信号中提取出混合语音特征，包括：

从混合语音信号中提取出单通道语音信号的时域特征或者频域特征；或者，

从混合语音信号中提取出多通道语音信号的时域特征或者频域特征；或者，

从混合语音信号中提取出单通道语音特征；或者，

从混合语音信号中提取出多通道间的相关特征。

其中，本发明实施例中待分离的混合语音信号可以从单通道或者多个通道采集得到。混合语音特征可以包含以下一个或者多个特征，例如可以包括：原始单通道/多通道语音信号的时域特征或者频域特征。又如混合语音特征可以是单通道语音特征，如对数能量谱，梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，子带能量等。又如混合语音特征可以包括：多通道间的相关特征，如广义互相关(generalized crosscorrelation，GCC)特征，相位差特征等。对于混合音频信号的特征提取方式，可以结合具体场景来确定所提取的特征类型以及特征内容。

102、使用生成对抗网络模型对混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵。

在本发明实施例中，可以使用生成对抗网络模型来用于混合语音信号中的单个人声的语音信号的分离，在获取到混合语音信号对应的混合语音特征之后，将混合语音特征输入到生成对抗网络模型中，使用生成对抗网络模型中的神经网络来提取各个人声对应的掩蔽系数，例如对输入的混合语音逐帧在各频率通道上求取掩蔽系数,即可形成掩蔽矩阵。

本发明实施例中通过生成对抗网络模型可以生成N种人声对应的掩蔽矩阵，该掩蔽矩阵可以用于混合语音信号中多种人声的语音分离。本发明实施例采用的生成对抗网络模型可以通过混合语音样本和干净语音样本进行训练得到，本发明实施例采用的生成对抗网络模型是有效的无监督学习方法。通过构造生成网络模型和判别网络模型，在训练过程中使两个模型互相博弈，最终使得生成网络能够以假乱真，生成出接近真实目标(如语音等)的结果。详见后续实施例中对生成对抗网络模型的训练过程的详细说明。

103、使用生成对抗网络模型对N种人声所对应的掩蔽矩阵和混合语音信号进行语音分离，输出与N种人声对应的N种分离语音信号。

在本发明实施例中，通过生成对抗网络模型提取到N种人声所对应的掩蔽矩阵之后，使用生成对抗网络模型对掩蔽矩阵和混合语音信号进行语音分离，从而通过掩蔽矩阵的分离作用从该混合语音信号中识别出分别属于不同音源的分离语音信号，解决了现有技术无法识别多个人声语音的问题。

通过以上实施例对本发明实施例的描述可知，首先从待分离的混合语音信号中提取出混合语音特征，混合语音信号中混合有N种人声，然后使用生成对抗网络模型对混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；使用生成对抗网络模型对N种人声所对应的掩蔽矩阵和混合语音信号进行语音分离，输出与N种人声对应的N种分离语音信号。由于本发明实施例中使用生成对抗网络模型可以提取到N种人声对应的掩蔽矩阵，该生成对抗网络模型可以精确识别多种人声对应的语音信号，基于该生成对抗网络模型实现语音分离网络框架，实现在多人语音场景下的语音与语音之间的分离，提升语音分离的性能。

接下来对本发明实施例中生成对抗网络模型的训练过程进行举例说明。具体的，本发明实施例中生成对抗网络模型至少包括两个网络模型，其中一个是生成网络模型，另一个是判别网络模型，生成网络模型也可以称为生成器，判别网络模型也可以称为判别器。通过生成网络模型和判别网络模型的互相博弈学习，从而通过生成对抗网络模型产生相当好的输出。

在本发明的一些实施例中，从待分离的混合语音信号中提取出混合语音特征之前，本发明实施例提供的多人语音的分离方法还包括：

A1、从样本数据库中获取混合语音样本和干净语音样本；

A2、从混合语音样本中提取出混合语音样本特征；

A3、通过生成网络模型对混合语音样本特征进行掩蔽系数提取，得到N种人声对应的样本掩蔽矩阵；

A4、使用生成网络模型对样本掩蔽矩阵和混合语音样本进行语音分离，输出分离语音样本；

A5、使用分离语音样本、混合语音样本和干净语音样本，对生成网络模型和对抗网络模型进行交替训练。

其中，本发明实施例中可以设置样本数据库用于模型的训练与判别，例如采用一段混合语音信号用于模型训练，这里的“混合语音样本”有别于步骤101中的混合语音信号，该混合语音样本是样本数据库中的样本语音，为了判别生成网络模型的输出效果，在样本数据库中还提供干净语音样本，在训练过程中，感觉语音样本是由多个干净语音叠加得到。

在前述的步骤A2至步骤A4中，混合语音样本特征的提取与步骤101中特征提取相同，样本掩蔽矩阵与前述步骤102中掩蔽矩阵的生成方式相类似，此处的样本掩蔽矩阵是指基于混合语音样本特征所生成的掩蔽矩阵，接下来使用生成网络模型对样本掩蔽矩阵和混合语音样本进行语音分离，输出分离语音样本，在模型训练过程中可以采用的音源数量为2，或者更多的音源数量，此处不做限定。

在生成网络模型输出分离语音样本之后，根据分离语音样本、混合语音样本和干净语音样本，再使用判别网络模型来判别输出的分离语音样本是否与干净语音样本相同，使用判别网络模型，引入对抗损失函数，从而对生成网络模型和判别网络模型进行交替的多次训练，从而可以更好的保证分离语音样本更接近真实的干净语音样本。

在本发明的一些实施例中，请参阅图2所示，前述步骤A5使用分离语音样本、混合语音样本和干净语音样本，对生成网络模型和对抗网络模型进行交替训练，包括：

201、在本次训练判别网络模型时，固定生成网络模型。

202、使用分离语音样本、混合语音样本和干净语音样本获取判别网络模型的损失函数。

203、通过最小化判别网络模型的损失函数，优化判别网络模型。

204、在下一次训练生成网络模型时，固定判别网络模型。

205、使用分离语音样本、混合语音样本和干净语音样本获取生成网络模型的损失函数。

206、通过最小化生成网络模型的损失函数，优化生成网络模型。

在本发明实施例中，基于生成对抗网络模型的语音分离训练过程中主要包括对生成网络模型和对抗网络模型进行交替训练，生成网络模型标记为G，判别网络模型标记为D，首先初始化生成网络模型G和判别网络模型D。然后通过上述步骤201至步骤203完成一次训练过程中对判别网络模型的训练，再通过上述步骤204至步骤206完成一次训练过程中对生成网络模型的训练。迭代步骤201至步骤203的模型训练过程、步骤204至步骤206的模型训练过程，直到生成对抗网络模型收敛。本发明实施例提出基于生成式对抗网络的语音分离网络框架，利用生成网络和对抗网络互相迭代的训练过程，提升现有语音分离的性能。

首先在上述步骤201至步骤203中，固定生成网络模型G，通过最小化判别网络模型的损失函数L_D，优化判别网络模型参数。

具体的，上述步骤202使用分离语音样本、混合语音样本和干净语音样本获取判别网络模型的损失函数，包括：

2021、根据分离语音样本和混合语音样本确定第一信号样本组合，以及根据干净语音样本和混合语音样本确定第二信号样本组合；

2022、使用判别网络模型对第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取第一判别输出结果与判别网络模型的第一目标输出之间的第一失真度量；

2023、使用判别网络模型对第二信号样本组合进行判别输出，得到第二判别输出结果，以及获取第二判别输出结果与判别网络模型的第二目标输出之间的第二失真度量；

2024、根据第一失真度量和第二失真度量获取判别网络模型的损失函数。

在步骤2021中，以音源数量为2示例说明，分离语音样本用Z₁、Z₂来表示，混合语音样本用Y来表示，分离语音样本与混合语音样本进行组合，得到第一信号样本组合，该第一信号样本组合用[Z₁,Z₂,Y]表示。同理，第二信号样本组合用[X₁,X₂,Y]来表示，干净语音样本用X₁,X₂来表示。

在步骤2022中，判别网络模型标记为D，使用判别网络模型对第一信号样本组合进行判别输出，得到第一判别输出结果，该第一判别输出结果用D([Z₁,Z₂,Y])来表示，判别网络模型的第一目标输出为目标输出0(false)，接下来计算第一判别输出结果与判别网络模型的第一目标输出之间的第一失真度量。

例如该第一失真度量可以通过如下公式计算：

L_separated-＞false＝||D([Z₁,Z₂,Y])-0||²。

其中，L_{separated->false}表示分离语音样本与混合语音样本的组合[Z₁,Z₂,Y]经过判别网络模型D的第一判别输出结果与第一目标输出之间的失真度量。

在步骤2023中的判别输出方式与前述步骤2022相类似，使用判别网络模型对第二信号样本组合进行判别输出，得到第二判别输出结果，该第二判别输出结果用D([X₁,X₂,Y])来表示，判别网络模型的第二目标输出为目标输出1(true)，接下来获取第二判别输出结果与判别网络模型的第二目标输出之间的第二失真度量。

例如该第二失真度量可以通过如下公式计算：

L_real-＞true＝||D([X₁，X₂，Y])-1||²。

其中，L_real->ture表示干净语音样本与混合语音样本的组合[X₁,X₂,Y]经过判别网络模型D的第二判别输出结果与第二目标输出之间的失真度量。

在步骤2024中，通过前述步骤获取到第一失真度量和第二失真度量之后，通过第一失真度量和第二失真度量可以获取判别网络模型的损失函数。

举例说明，判别网络模型优化时对应的损失函数可定义为：

L_D＝L_real-＞true+L_{separated-＞false}。

其中，L_D表示判别网络模型的损失函数，L_{separated->false}表示分离语音样本与混合语音样本的组合[Z₁,Z₂,Y]经过判别网络模型D的第一判别输出结果与第一目标输出之间的失真度量，L_real->ture表示干净语音样本与混合语音样本的组合[X₁,X₂,Y]经过判别网络模型D的第二判别输出结果与第二目标输出之间的失真度量。

接下来在上述步骤204至步骤206中，固定判别网络模型D，通过最小化生成网络模型的损失函数L_G，优化生成网络模型参数。

具体的，上述步骤205使用分离语音样本、混合语音样本和干净语音样本获取生成网络模型的损失函数，包括：

2051、根据分离语音样本和混合语音样本确定第一信号样本组合；

2052、使用判别网络模型对第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取第一判别输出结果与判别网络模型的第二目标输出之间的第三失真度量；

2053、获取分离语音样本和干净语音之间的第四失真度量；

2054、根据第三失真度量和第四失真度量获取生成网络模型的损失函数。

在步骤2051中，以音源数量为2示例说明，分离语音样本用Z₁、Z₂来表示，混合语音样本用Y来表示，分离语音样本与混合语音样本进行组合，得到第一信号样本组合，该第一信号样本组合用[Z₁,Z₂,Y]表示。

在步骤2052中，判别网络模型标记为D，使用判别网络模型对第一信号样本组合进行判别输出，得到第一判别输出结果，该第一判别输出结果用D([Z₁,Z₂,Y])来表示，判别网络模型的第二目标输出为目标输出1(true)，接下来计算第一判别输出结果与判别网络模型的第二目标输出之间的第三失真度量。

例如该第三失真度量可以通过如下公式计算：

L_{separated-＞true}＝||D([Z₁，Z₂，Y])-1||²。

其中，L_{separated->ture}表示分离语音样本与混合语音样本的组合[Z₁,Z₂,Y]经过判别网络模型D的第一判别输出结果与第二目标输出之间的失真度量。

在步骤2053中，获取分离语音样本和干净语音之间的第四失真度量，第四失真度量是频谱失真项，为分离语音样本与干净语音样本的失真度量。

假设T为时域的帧数，F为频域的点数，S为音源的个数，本发明实施例提供的第四失真度量J_ss可表示为：

进一步的，在本发明的一些实施例中，步骤2054获取分离语音样本和干净语音之间的第四失真度量，包括：

对分离语音样本和干净语音样本进行置换不变性计算，得到分离语音样本和干净语音样本之间的对应关系结果；

根据分离语音样本和干净语音样本之间的对应关系结果获取到第四失真度量。

其中，在语音分离任务中，由于音源数量大于2，考虑到分离语音样本与干净语音样本的对应关系并不是唯一的，即有可能是Z₁对应X₁、Z₂对应X₂，也有可能是Z₁对应X₂、Z₂对应X₁。因此需要针对分离语音样本和干净语音样本进行置换不变性计算，即可以在J_ss的定义中引入与对应关系无关的训练准则(Permutation Invariant Training，PIT)。PIT对应的频谱失真项J_φ*表示为：

假设所有对应关系的组合形成一个集合P，则φ*表示集合P中取得最小失真时的对应关系，

其中，arg min f(x)是指使得函数f(x)取得其最小值的所有自变量x的集合。

在步骤2054中，通过前述步骤获取到第三失真度量和第四失真度量之后，通过第三失真度量和第四失真度量可以获取生成网络模型的损失函数。

举例说明，生成网络模型优化时对应的损失函数可定义为：

L_G＝J_SS+λ×L_{separated-＞true}。

其中，L_G表示生成网络模型的损失函数，L_{separated->ture}表示分离语音样本与混合语音样本的组合[Z₁,Z₂,Y]经过判别网络模型D的第一判别输出结果与第二目标输出之间的失真度量，J_ss表示第四失真度量，λ为加权因子。

通过以上实施例对本发明实施例的描述可知，本发明实施例提出基于生成式对抗网络的语音分离网络框架，利用生成网络和对抗网络互相迭代的训练过程，提升现有语音分离的性能。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

请参阅图3所示，为本发明实施例提供的一种生成对抗网络模型的模型架构示意图。接下来将详细介绍生成对抗网络模型的语音分离网络结构。

在本发明实施例提供的基于生成式对抗网络的语音分离网络结构中，生成网络模型G的输入为混合语音信号对应的混合语音特征，经过神经网络(DNN，LSTM，CNN等)，得到分离语音信号对应的时频点掩蔽矩阵M₁、M₂(mask1，mask2)，之后通过掩蔽矩阵与混合语音信号的频谱Y相乘，可得到分离语音信号对应的频谱Z₁、Z₂，即满足如下计算公式：

Z_i＝M_i*Y,i＝1,2。

对抗网络模型的输入为分离语音信号与混合语音信号的组合[Z₁,Z₂,Y]，或者是干净语音信号与混合语音信号的组合[X₁,X₂,Y]，输出为0或者1。在训练过程中，混合语音信号是由多个干净语音叠加得到，因此干净语音对应的频谱X₁,X₂是已知的。

对于生成器和判别器的训练过程，详见前述实施例中的举例说明，此处不再赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图4-a所示，本发明实施例提供的一种多人语音的分离装置400，可以包括：特征提取模块401、掩蔽矩阵生成模块402、语音分离模块403，其中，

特征提取模块401，用于从待分离的混合语音信号中提取出混合语音特征，所述混合语音信号中混合有N种人声，所述N为大于或等于2的正整数；

掩蔽矩阵生成模块402，用于使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；

语音分离模块403，用于使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离，输出与所述N种人声对应的N种分离语音信号。

在本发明的一些实施例中，所述生成对抗网络模型，包括：生成网络模型和对抗网络模型；请参阅图4-b所示，所述多人语音的分离装置400，还包括：模型训练模块404，其中，

所述特征提取模块401，还用于从待分离的混合语音信号中提取出混合语音特征之前，从样本数据库中获取所述混合语音样本和所述干净语音样本；从所述混合语音样本中提取出混合语音样本特征；

所述掩蔽矩阵生成模块402，还用于通过所述生成网络模型对所述混合语音样本特征进行掩蔽系数提取，得到N种人声对应的样本掩蔽矩阵；

所述语音分离模块403，还用于使用所述生成网络模型对所述样本掩蔽矩阵和所述混合语音样本进行语音分离，输出分离语音样本；

所述模型训练模块404，用于使用所述分离语音样本、所述混合语音样本和所述干净语音样本，对所述生成网络模型和所述对抗网络模型进行交替训练。

在本发明的一些实施例中，请参阅图4-c所示，所述模型训练模块404，包括：

生成网络训练单元4041，用于在本次训练所述判别网络模型时，固定所述生成网络模型；使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数；通过最小化所述判别网络模型的损失函数，优化所述判别网络模型；

判别网络训练单元4042，用于在下一次训练所述生成网络模型时，固定所述判别网络模型；使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数；通过最小化所述生成网络模型的损失函数，优化所述生成网络模型。

进一步的，在本发明的一些实施例中，请参阅图4-d所示，所述生成网络训练单元4041，包括：

第一语音组合子单元40411，用于根据所述分离语音样本和所述混合语音样本确定第一信号样本组合，以及根据所述干净语音样本和所述混合语音样本确定第二信号样本组合；

第一判别输出子单元40412，用于使用所述判别网络模型对所述第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取所述第一判别输出结果与所述判别网络模型的第一目标输出之间的第一失真度量；使用所述判别网络模型对所述第二信号样本组合进行判别输出，得到第二判别输出结果，以及获取所述第二判别输出结果与所述判别网络模型的第二目标输出之间的第二失真度量；

第一损失函数获取子单元40413，用于根据所述第一失真度量和所述第二失真度量获取所述判别网络模型的损失函数。

进一步的，在本发明的一些实施例中，请参阅图4-e所示，所述判别网络训练单元4042，包括：

第二语音组合子单元40421，用于根据所述分离语音样本和所述混合语音样本确定第一信号样本组合；

第二判别输出子单元40422，用于使用所述判别网络模型对所述第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取所述第一判别输出结果与所述判别网络模型的第二目标输出之间的第三失真度量；

失真度量获取子单元40423，用于获取所述分离语音样本和所述干净语音之间的第四失真度量；

第二损失函数获取子单元40424，用于根据所述第三失真度量和所述第四失真度量获取所述生成网络模型的损失函数。

进一步的，在本发明的一些实施例中，所述失真度量获取子单元40423，具体用于对所述分离语音样本和所述干净语音样本进行置换不变性计算，得到所述分离语音样本和所述干净语音样本之间的对应关系结果；根据所述分离语音样本和所述干净语音样本之间的对应关系结果获取到所述第四失真度量。

在本发明的一些实施例中，所述特征提取模块401，具体用于从所述混合语音信号中提取出单通道语音信号的时域特征或者频域特征；或者，从所述混合语音信号中提取出多通道语音信号的时域特征或者频域特征；或者，从所述混合语音信号中提取出单通道语音特征；或者，从所述混合语音信号中提取出多通道间的相关特征。

通过以上对本发明实施例的描述可知，首先从待分离的混合语音信号中提取出混合语音特征，混合语音信号中混合有N种人声，然后使用生成对抗网络模型对混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵；使用生成对抗网络模型对N种人声所对应的掩蔽矩阵和混合语音信号进行语音分离，输出与N种人声对应的N种分离语音信号。由于本发明实施例中使用生成对抗网络模型可以提取到N种人声对应的掩蔽矩阵，该生成对抗网络模型可以精确识别多种人声对应的语音信号，基于该生成对抗网络模型实现语音分离网络框架，实现在多人语音场景下的语音与语音之间的分离，提升语音分离的性能。

本发明实施例还提供了另一种终端，如图5所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图5中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的多人语音的分离方法流程。

图6是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的多人语音的分离方法步骤可以基于该图6所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多人语音的分离方法，其特征在于，包括：

从样本数据库中获取混合语音样本和干净语音样本；

从混合语音样本中提取出混合语音样本特征；

通过生成网络模型对所述混合语音样本特征进行掩蔽系数提取，得到N种人声对应的样本掩蔽矩阵；

使用所述生成网络模型对所述样本掩蔽矩阵和所述混合语音样本进行语音分离，输出分离语音样本；

在本次训练判别网络模型时，固定所述生成网络模型；

使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数；

通过最小化所述判别网络模型的损失函数，优化所述判别网络模型；

在下一次训练所述生成网络模型时，固定所述判别网络模型；

使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数；

通过最小化所述生成网络模型的损失函数，优化所述生成网络模型；

使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵，所述生成对抗网络模型包括所述生成网络模型和所述对抗网络模型；

使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离，输出与所述N种人声对应的N种分离语音信号；

其中，所述使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数，包括：

根据所述分离语音样本和所述混合语音样本确定第一信号样本组合；

使用所述判别网络模型对所述第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取所述第一判别输出结果与所述判别网络模型的第二目标输出之间的第三失真度量，所述第二目标输出为目标输出true；

对所述分离语音样本和所述干净语音样本进行置换不变性计算，得到所述分离语音样本和所述干净语音样本之间的对应关系结果；

根据所述分离语音样本和所述干净语音样本之间的对应关系结果获取到第四失真度量；

根据所述第三失真度量和所述第四失真度量获取所述生成网络模型的损失函数。

2.根据权利要求1所述的方法，其特征在于，所述使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数，包括：

根据所述分离语音样本和所述混合语音样本确定第一信号样本组合，以及根据所述干净语音样本和所述混合语音样本确定第二信号样本组合；

使用所述判别网络模型对所述第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取所述第一判别输出结果与所述判别网络模型的第一目标输出之间的第一失真度量，所述第一目标输出为目标输出false；

使用所述判别网络模型对所述第二信号样本组合进行判别输出，得到第二判别输出结果，以及获取所述第二判别输出结果与所述判别网络模型的第二目标输出之间的第二失真度量；

根据所述第一失真度量和所述第二失真度量获取所述判别网络模型的损失函数。

3.根据权利要求1或2所述的方法，其特征在于，所述从待分离的混合语音信号中提取出混合语音特征，包括：

从所述混合语音信号中提取出单通道语音信号的时域特征或者频域特征；或者，

从所述混合语音信号中提取出多通道语音信号的时域特征或者频域特征；或者，

从所述混合语音信号中提取出单通道语音特征；或者，

从所述混合语音信号中提取出多通道间的相关特征。

4.一种多人语音的分离装置，其特征在于，包括：

特征提取模块，用于从样本数据库中获取混合语音样本和干净语音样本；从混合语音样本中提取出混合语音样本特征；

掩蔽矩阵生成模块，用于通过生成网络模型对所述混合语音样本特征进行掩蔽系数提取，得到N种人声对应的样本掩蔽矩阵；

语音分离模块，用于使用所述生成网络模型对所述样本掩蔽矩阵和所述混合语音样本进行语音分离，输出分离语音样本；

生成网络训练单元，用于在本次训练判别网络模型时，固定所述生成网络模型；使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述判别网络模型的损失函数；通过最小化所述判别网络模型的损失函数，优化所述判别网络模型；

判别网络训练单元，用于在下一次训练所述生成网络模型时，固定所述判别网络模型；使用所述分离语音样本、所述混合语音样本和所述干净语音样本获取所述生成网络模型的损失函数；通过最小化所述生成网络模型的损失函数，优化所述生成网络模型；

所述特征提取模块，用于从待分离的混合语音信号中提取出混合语音特征，所述混合语音信号中混合有N种人声，所述N为大于或等于2的正整数；

所述掩蔽矩阵生成模块，用于使用生成对抗网络模型对所述混合语音特征进行掩蔽系数提取，得到N种人声对应的掩蔽矩阵，所述生成对抗网络模型包括所述生成网络模型和所述对抗网络模型；

所述语音分离模块，用于使用所述生成对抗网络模型对所述N种人声所对应的掩蔽矩阵和所述混合语音信号进行语音分离，输出与所述N种人声对应的N种分离语音信号；

其中，所述生成网络训练单元包括：

第二语音组合子单元，用于根据所述分离语音样本和所述混合语音样本确定第一信号样本组合；

第二判别输出子单元，用于使用所述判别网络模型对所述第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取所述第一判别输出结果与所述判别网络模型的第二目标输出之间的第三失真度量，所述第二目标输出为目标输出true；

失真度量获取子单元，用于对所述分离语音样本和所述干净语音样本进行置换不变性计算，得到所述分离语音样本和所述干净语音样本之间的对应关系结果；根据所述分离语音样本和所述干净语音样本之间的对应关系结果获取到第四失真度量；

第二损失函数获取子单元，用于根据所述第三失真度量和所述第四失真度量获取所述生成网络模型的损失函数。

5.根据权利要求4所述的装置，其特征在于，所述生成网络训练单元，包括：

第一语音组合子单元，用于根据所述分离语音样本和所述混合语音样本确定第一信号样本组合，以及根据所述干净语音样本和所述混合语音样本确定第二信号样本组合；

第一判别输出子单元，用于使用所述判别网络模型对所述第一信号样本组合进行判别输出，得到第一判别输出结果，以及获取所述第一判别输出结果与所述判别网络模型的第一目标输出之间的第一失真度量，所述第一目标输出为目标输出false；使用所述判别网络模型对所述第二信号样本组合进行判别输出，得到第二判别输出结果，以及获取所述第二判别输出结果与所述判别网络模型的第二目标输出之间的第二失真度量；

第一损失函数获取子单元，用于根据所述第一失真度量和所述第二失真度量获取所述判别网络模型的损失函数。

6.根据权利要求4或5所述的装置，其特征在于，所述特征提取模块，具体用于从所述混合语音信号中提取出单通道语音信号的时域特征或者频域特征；或者，从所述混合语音信号中提取出多通道语音信号的时域特征或者频域特征；或者，从所述混合语音信号中提取出单通道语音特征；或者，从所述混合语音信号中提取出多通道间的相关特征。

7.一种多人语音的分离装置，其特征在于，所述多人语音的分离装置包括：处理器和存储器；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的所述指令，执行如权利要求1至3中任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1至3中任一项所述的方法。