CN113539292A

CN113539292A - 语音分离方法及装置

Info

Publication number: CN113539292A
Application number: CN202110858965.4A
Authority: CN
Inventors: 林庆健
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-22

Abstract

本申请提供了一种语音分离方法及装置，该方法包括：获得待分离的目标混合音频；获得目标用户的声纹特征；在基于所述目标用户的声纹特征确定出所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，从所述目标混合音频中分离出所述目标用户的音频；在基于所述目标用户的声纹特征确定出所述目标混合音频中不包含所述目标用户的音频的情况下，输出静音音频。本申请的方案可以减少语音处理过程中由于语音分离所耗费的资源。

Description

语音分离方法及装置

技术领域

本申请涉及语音数据处理技术领域，更具体地说，涉及一种语音分离方法及装置。

背景技术

语音分离技术是指从混合语音信号中分离出个体信号的信号处理技术。语音分离技术的一种常见应用为目标说话人分离技术，即从混合音频中分离出目标说话人的语音。

但是，对混合音频进行语音分离需要耗费较多的资源，如何能够降低语音分离过程中不必要的资源耗费是本领域技术人员需要解决的技术问题。

发明内容

本申请提供了一种语音分离方法及装置，以减少语音处理过程中由于语音分离所耗费的资源。

其中，一种语音分离方法，包括：

获得待分离的目标混合音频；

获得目标用户的声纹特征；

在基于所述目标用户的声纹特征确定出所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，从所述目标混合音频中分离出所述目标用户的音频；

在基于所述目标用户的声纹特征确定出所述目标混合音频中不包含所述目标用户的音频的情况下，输出静音音频。

在一种可能的实现方式中，该装置还包括：

基于所述目标混合音频和所述目标用户的声纹特征，确定出所述目标混合音频的音频识别特征，所述音频识别特征至少用于表示：所述目标混合音频中是否包含所述目标用户的音频的抽象特征；

基于所述音频识别特征，确定出所述目标混合音频的音频检测结果，所述音频检测结果用于表示所述目标混合音频中是否包含所述目标用户的音频。

在又一种可能的实现方式中，所述音频识别特征还用于表示：所述目标混合音频中包含的所述目标用户的音频的波形特征；

所述从所述目标混合音频中分离出所述目标用户的音频，包括：

基于所述目标用户的声纹特征以及所述音频识别特征，从所述目标混合音频中分离出所述目标用户的音频。

在又一种可能的实现方式中，所述基于所述目标用户的声纹特征以及所述音频识别特征，从所述目标混合音频中分离出所述目标用户的音频，包括：

基于所述目标用户的声纹特征以及所述音频识别特征，确定所述目标混合音频对应的掩模矩阵，所述掩模矩阵用于表示所述目标混合音频中不属于所述目标用户且需要遮蔽掉的音频的分布特征；

利用所述掩模矩阵从所述目标混合音频中分离出所述目标用户的音频。

在又一种可能的实现方式中，在所述从所述目标混合音频中分离出所述目标用户的音频之后，还包括：

对分离出的目标用户的音频进行语音识别。

其中，一种语音分离装置，包括：

音频获得单元，用于获得待分离的目标混合音频；

声纹获得单元，用于获得目标用户的声纹特征；

语音分离单元，用于在基于所述目标用户的声纹特征确定出所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，从所述目标混合音频中分离出所述目标用户的音频；

静音输出单元，用于在基于所述目标用户的声纹特征确定出所述目标混合音频中不包含所述目标用户的音频的情况下，输出静音音频。

在又一种可能的实现方式中，还包括：

特征确定单元，用于基于所述目标混合音频和所述目标用户的声纹特征，确定出所述目标混合音频的音频识别特征，所述音频识别特征至少用于表示：所述目标混合音频中是否包含所述目标用户的音频的抽象特征；

检测确定单元，用于基于所述音频识别特征，确定出所述目标混合音频的音频检测结果，所述音频检测结果用于表示所述目标混合音频中是否包含所述目标用户的音频。

在又一种可能的实现方式中，所述特征确定单元确定出的所述音频识别特征还用于表示：所述目标混合音频中包含的所述目标用户的音频的波形特征；

所述语音分离单元包括：

语音分离子单元，用于在基于所述目标用户的声纹特征确定出所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，基于所述目标用户的声纹特征以及所述音频识别特征，从所述目标混合音频中分离出所述目标用户的音频。

在又一种可能的实现方式中，所述语音分离子单元，包括：

矩阵确定子单元，用于在基于所述目标用户的声纹特征确定出所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，基于所述目标用户的声纹特征以及所述音频识别特征，确定所述目标混合音频对应的掩模矩阵，所述掩模矩阵用于表示所述目标混合音频中不属于所述目标用户且需要遮蔽掉的音频的分布特征；

音频分离子单元，用于利用所述掩模矩阵从所述目标混合音频中分离出所述目标用户的音频。

在又一种可能的实现方式中，还包括：

语音识别单元，用于在所述语音分离单元从所述目标混合音频中分离出所述目标用户的音频之后，对分离出的目标用户的音频进行语音识别。

通过以上方案可知，本申请在获得目标混合音频之后，只有基于目标用户的声纹特征确定出该目标混合音频中包含目标用户的音频时，才会启动对该目标混合音频的语音分离处理；而如果确定出目标混合音频中不包含该目标用户的音频，则可以直接输出静音音频，而无需对目标混合音频进行语音分离处理，从而减少了不必要的语音分离处理，自然也就减少了语音分离处理所耗费的资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音分离方法的一种流程示意图；

图2为本申请实施例提供的语音分离方法的又一种流程示意图；

图3为本申请实施例提供的语音分离方法的又一种流程示意图；

图4为本申请实施例提供的语音分离方法的又一种流程示意图；

图5为本申请实施例提供的语音分离方法中所涉及到的网络模型及实现原理示意框图；

图6为本申请实施例提供的语音分离装置的一种组成结构示意图；

图7为本申请实施例提供的一种电子设备的一种组成架构示意图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

本申请的方案可以适用于任意涉及到语音分离的场景中，如本申请的方案中可以适用于语音识别场景中，以处理语音识别场景中所涉及到的音频的语音分离处理等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，其示出了本申请提供的语音分离方法的一种流程示意图，本实施例的方法可以应用于任意电子设备，如，电子设备可以为手机、平板电脑或者是智能语音识别设备等终端设备，还可以是服务器等涉及到语音分离的设备，本申请对此不加限制。

本实施例的方法可以包括：

S101，获得待分离的目标混合音频。

目标混合音频为获取到的需要进行语音分离处理的混合音频。

如，以电子设备为手机或者智能音箱等终端设备为例，则电子设备可以采集电子设备外部的音频，将采集到的音频作为需要分离的目标混合音频。

又如，以电子设备为服务器为例，服务器可以获得终端传输的混合音频，得到需要分离的混合音频。

需要说明的是，在实际应用中，如果电子设备获取到的需要分离的混合音频的时长较长，还可以将获得的混合音频进行切分，如，将混合音频切分为设定时长(例如，1毫秒等)的多段混合音频段，而每段混合音频段都是一段待分离的目标混合音频。

S102，获得目标用户的声纹特征。

其中，目标用户是指期望分离出所属音频的目标说话人。相应的，对目标混合音频进行语音分离的目标就是从目标混合音频中分离出该目标用户的音频。

目标用户的声纹特征用于表征目标用户的声纹所具有的特征，如，目标用户的声纹特征可以是目标用户的声纹向量。

其中，获得目标用户的声纹特征也可以有多种可能：

如，在一种可能的实现方式中，该目标用户的声纹特征是预先存储在电子设备中的。如，以智能音箱或者安装有语音识别应用的终端设备为例，电子设备可以提示用户录入目标用户的纯净语音，在获得录入的目标用户的语音之后，可以从目标用户的语音中提取出目标用户的声纹特征并保存。又如，服务器可以预先从终端设备获得目标用户的语音，然后提取出目标用户的声纹特征并保存；或者是，服务器预先从终端设备获得目标用户的声纹特征并保存。

在又一种可能的实现方式中，对于一些特殊应用场景，可能会临时确定需要分离出相应音频的目标说话人，在此基础上，还可以获取电子设备采集到的目标说话人的声纹对应的声纹特征。

S103，在基于目标用户的声纹特征确定出目标混合音频中包含目标用户的音频的情况下，启动对目标混合音频的语音分离处理，从目标混合音频中分离出目标用户的音频。

可以理解的是，目标用户的声纹特征可以表征目标用户的音频的特征，因此，可以检测目标混合音频中是否包含目标用户的声纹特征对应的音频，从而确定目标混合音频中是否包含目标用户的音频。

在本申请中，在执行对目标混合音频的语音分离处理之前，会先结合目标用户的声纹特征，分析该目标混合音频中是否包含该目标用户的音频，如果确认目标混合音频中存在目标用户的音频才会启动对目标混合音频的语音处理，从而可以避免无效的语音分离处理。

S104，在基于目标用户的声纹特征确定出目标混合音频中不包含目标用户的音频的情况下，输出静音音频。

可以理解的是，在混合音频的语音分离过程中，如果混合音频中不包含目标说话人的音频，语音分离结果为静音音频。基于此，本申请在确定出目标混合音频中不包含该目标用户的音频时，可以直接输出静音音频，而无需再对目标混合音频进行语音分离，也就减少了由于语音分离带来的运算量以及功耗。

可以理解的是，在目标混合音频为属于整体混合音频中拆分出的一段混合音频的情况下，本申请还会按照各个目标混合音频在整体混合音频中的位置，将由目标混合音频确定出的属于目标用户的音频或者是静音音频进行拼接，以得到该整体混合音频分离出属于目标用户的整体音频。

由以上内容可知，本申请在获得目标混合音频之后，只有基于目标用户的声纹特征确定出该目标混合音频中包含目标用户的音频时，才会启动对该目标混合音频的语音分离处理；而如果确定出目标混合音频中不包含该目标用户的音频，则可以直接输出静音音频，而无需对目标混合音频进行语音分离处理，从而减少了不必要的语音分离处理，自然也就减少了语音分离处理所耗费的资源。

为了便于理解本申请的方案，下面以基于目标用户的声纹特征分析目标混合音频中是否包含目标用户的音频的一种实现方式为例进行说明。

如图2所示，其示出了本申请实施例提供的语音分离方法的又一种流程示意图，本实施例的方法可以包括：

S201，获得待分离的目标混合音频。

S202，获得目标用户的声纹特征。

以上步骤S201和S202可以参见前面实施例的相关介绍，在此不再赘述。

S203，基于目标混合音频和目标用户的声纹特征，确定出目标混合音频的音频识别特征。

该音频识别特征为基于目标混合音频和该目标用户的声纹特征抽取出的能够表征目标混合音频是否包含目标用户的音频的特征表示。基于此，音频识别特征至少用于表示：目标混合音频中是否包含目标用户的音频的抽象特征。

其中，确定出该音频识别特征的具体方式可以有多种可能。为了便于理解，以几种可能的实现方式为例说明。

在一种可能的实现方式中，可以将目标混合音频和目标用户的声纹特征输入到预先训练出的第一特征提取模型，得到该第一特征提取模型输出的音频识别特征。

其中，该第一特征提取模型为利用多个标注有音频分类结果的音频样本组训练得到的，如，利用多个标注有音频分类结果的音频样本组对网络模型训练得到的，该网络模型可以为卷积神经网络模型等单个神经网络模型，还可以是多个同种或者不同种神经网络模型组成的模型结构。

其中，每个音频样本组包括：样本用户的声纹特征样本和混合音频样本。音频样本对的音频分类结果用于表征音频样本组中的混合音频样本是否包含该音频样本组对应的样本用户的音频。

在又一种可能的情况中，还可以提取出目标混合音频的声纹特征，然后基于目标混合音频的声纹特征与该目标用户的声纹特征，生成用于表征目标混合音频的声纹特征与目标用户的声纹特征之间相似程度的矩阵，得到该音频识别矩阵。

当然，在实际应用中，还可以有其他可能的实现方式，对此不加限制。

S204，基于音频识别特征，确定出目标混合音频的音频检测结果。

该音频检测结果用于表示目标混合音频中是否包含目标用户的音频。

如，该音频检测结果可以为目标混合音频包含该目标用户的音频的概率，相应的，如果该概率值超过设定概率值，则可以认为该目标混合音频中包含该目标用户的音频。

又如，该音频检测结果还可以分类结果，例如，分类结果可以为0和1，如果音频检测结果为1，则表示目标混合音频中包含该目标用户的音频；如果该音频检测结果为0，表示该目标混合音频中不包含目标用户的音频。

当然，音频检测结果的表示形式还可以有其他可能，对此不加限制。

其中，确定该音频检测结果的方式也可以有多种可能，下面结合几种情况说明：

在一种可能的实现方式中，可以将音频识别特征输入到训练出的音频分类模型，得到该音频分类模型输出的音频检测结果。其中，该音频分类模型可以为利用多个标注有音频分类结果的音频样本组对应的音频识别特征训练出的。音频样本组可以参见前面的介绍，在此不再赘述。

其中，音频分类模型可以是由一种或者几种网络模型训练得到。如，在一种可能的实现方式中，该音频分类模型可以是一个分类器，也可以是由卷积神经网络模型和分类器组成。如，在一种可选的方式中，该音频分类模型可以依次包括卷积神经网络模型、解码器以及归一化函数模型组成。

可以理解的是，本申请中，第一特征提取模型和该音频分类模型可以单独训练得到。可选的，为了提高音频检测结果的准确度，本申请还可以是利用多个标注有音频分类结果的音频样本组同时训练第一特征提取模型和音频分类模型，最终实现一同完成这两个模型的训练。

在又一种可能的实现方式中，如果音频识别特征表征了目标混合音频中包含目标用户的音频的可能性程度或者概率，则可以将该可能性程度和概率与设定阈值进行比较。如果可能性程度或者概率高于设定阈值，则可以得到目标混合音频中包含该目标用户的音频的音频检测结果；反之，得到的音频检测结果为目标混合音频中不包含目标用户的音频。

S205，在该音频检测结果表征该目标混合音频中包含目标用户的音频的情况下，启动对目标混合音频的语音分离处理，从目标混合音频中分离出目标用户的音频。

其中，对目标混合音频的语音分离处理的具体方式可以有多种可能，本申请对此不加限制。

如，在一种可能的实现方式中，可以将目标混合音频输入到预先训练出的语音分离模型，得到该语音分离模型从该目标混合音频中分离出的属于该目标用户的音频。

其中，该语音分离模型可以为利用多个标注有音频分离结果的音频样本组对应的音频识别特征训练得到的。

其中，如前面所述，该音频样本组包括用户样本的声纹特征以及混合音频样本。

而该音频样本组标注的音频分离结果可以为该音频样本组中混合音频样本中包含的属于该音频样本组对应的用户样本的音频。其中，如混合音频样本中包含相应的用户样本的音频，则标注的音频分离结果为该混合音频样本中该用户样本的音频；如该混合音频样本中不包含该用户样本的音频，则标注的音频分离结果为静音音频。

如，混合音频样本可以为样本用户的音频和干扰音频(如，背景噪声或者样本用户之外的其他用户的音频)混合而成的音频，则该样本用户的音频就是混合成的该混合音频样本标注的音频分离结果。

可以理解的是，语音分离模型的具体网络模型结构可以有多种可能，如，语音分离模型可以为多层卷积神经网络模型构成，还可以是多层卷积神经神经网络模型与解码器模型组成而成等等，本申请对于语音分离模型的具体网络结构不加限制。

在又一种可能的实现方式中，本申请中，步骤S203识别出的语音识别特征还可以用于表示目标混合音频中包含的该目标用户的音频的波形特征。在此基础上，在对目标混合音频进行语音分离时，可以基于该目标用户的声纹特征以及该音频识别特征，从该目标混合音频中分离出目标用户的音频。

由于音频识别特征是结合目标用户的声纹特征以及目标混合音频确定出的包含有目标用户的音频的波形特征等信息的特征，因此，结合音频识别特征进行语音分离，可以进一步减少语音分离所需耗费的数据资源。且，在结合音频识别特征的基础上进行语音分离，也有利于语音分离的准确性。

如，如果在步骤S203中采用第一特征提取模型确定出该音频识别特征，则可以将第一特征提取模型与语音分离进行多任务同步训练，从而使得第一特征提取模型提取出的音频识别特征既包含表示目标混合音频是否包含目标用户的音频的抽象特征，又可以包含有目标用户的音频的波形特征的特征信息。同时，将第一特征提取模型与该语音分离一起进行多任务同步训练，还可以有利于提升第一特征提取模型的准确度。

可以理解的是，第一特征提取模型可以认为是语音分离处理之外的模型，也可以认为是语音分离处理的一部分处理。如，采用语音分离模型来对目标混合音频进行语音分离的情况下，该第一特征提取模型可以是语音分离模型的一部分，也可以认为是独立于语音分离模型之外的特征提取模型。

S206，在音频检测结果表征该目标混合音频中不包含目标用户的音频的情况下，输出静音音频。

该步骤S206可以参见前面实施例的相关介绍，在此不再赘述。

在图2的实施例中，基于目标用户的声纹特征以及音频识别特征，从目标混合音频中分离出目标用户的音频的具体实现也可以有多种可能，下面结合一种情况进行说明。

如图3所示，其示出了本申请提供的一种语音分离方法又一个实施例的流程示意图，本实施例的方法可以包括：

S301，获得待分离的目标混合音频。

S302，获得目标用户的声纹特征。

S303，基于目标混合音频和目标用户的声纹特征，确定出目标混合音频的音频识别特征。

该音频识别特征用于表示：目标混合音频中是否包含目标用户的音频的抽象特征，以及，该目标混合音频中包含的目标用户的音频的波形特征。

S304，基于音频识别特征，确定出目标混合音频的音频检测结果。

以上步骤S301到S304可以参见前面实施例的相关介绍，在此不再赘述。

S305，在该音频检测结果表征该目标混合音频中包含目标用户的音频的情况下，基于该目标用户的声纹特征以及该音频识别特征，确定目标混合音频对应的掩模矩阵。

其中，掩模矩阵用于表示该目标混合音频中不属于该目标用户且需要遮蔽掉的音频的分布特征。

如，在一种可能的实现方式中，可以将目标用户的声纹特征和该音频识别结果输入到第二特征提取模型，得到该第二特征提取模型输出的掩模矩阵。该第二特征提取模型可以是基于多组标注有音频分离结果的音频样本组对应的音频识别特征训练得到的。

如，针对每组音频样本组，首先前面步骤S301到S305的方式预先确定出每组音频样本组的音频识别特征，其次，将音频样本组中样本用户的声纹特征以及对应的音频识别特征输入到待训练的第二特征提取模型中，得到该模型输出的音频样本组中目标混合音频的掩模矩阵；再次，结合掩模矩阵从目标混合音频中分离出样本用户的音频。然后，基于各组音频样本组分离出的音频以及实际标注的音频分离结果，检测是否到达训练要求，如尚未达到训练要求，则调整第二特征提取模型并重新训练该第二特征提取模型，直至达到训练要求。

特别的，在采用第一特征提取模型确定音频识别特征的情况下，可以结合多组标注有音频分离结果的音频样本组同时训练该第一特征提取模型和第二特征提取模型。

当然，以上仅仅是一种方式为例说明得到掩模矩阵的方式，在实际应用中，还可以有其他得到该掩模矩阵的方式，本申请对此不加限制。

S306，利用该掩模矩阵从所述目标混合音频中分离出该目标用户的音频。

如，可以将掩模矩阵与该目标混合音频的向量相乘，便可以实现将目标混合音频中不属于该目标用户的音频遮蔽掉，从而得到仅属于该目标用户的音频。

可以理解的是，在该音频检测结果表征该目标混合音频中包含目标用户的音频的情况下，基于该目标用户的声纹特征以及该音频识别特征，确定目标混合音频对应的掩模矩阵，有效利用了识别目标混合音频中是否包含目标用户的音频过程中所得到的音频识别特征，减少了语音分离所需耗费的数据量。

同时，由于掩模矩阵可以表征出目标混合音频中不属于该目标用户且需要遮蔽掉的音频的分布特征，因此，结合掩模矩阵便可以将目标混合音频中不属于目标用户的音频去除，从而实现从目标混合音频中分离出仅属于该目标用户的音频。

S307，在音频检测结果表征该目标混合音频中不包含目标用户的音频的情况下，输出静音音频。

为了便于理解本申请的方案，下面以结合音频分类模型、语音分离模型等网络模型来实现本申请的语音分离方法为例，如图4，其示出了本申请一种语音分离方法又一个实施例的流程示意图，本实施例的方法可以包括：

S401，获得待分离的目标混合音频。

S402，获得目标用户的声纹特征。

S403，将目标混合音频和目标用户的声纹特征输入到第一特征提取模型，得到该第一特征提取模型输出的该目标混合音频的音频识别特征。

可以理解的是，在实际应用中，需要将目标混合音频转换为向量形式，相应的，向第一特征提取模型中输入该目标混合音频的向量。

在一种可选方式中，为了提高后续音频检测结果和语音分离的准确度，本申请，还可以先将目标混合音频进行编码，得到编码后的该目标混合音频的第一矩阵；同时，可以利用LogFBank等语音特征提取算法提取出该目标混合音频的第二矩阵。在此基础上，将第一矩阵和第二矩阵合并，得到目标混合音频的向量。

其中，该第一特征提取模型的网络结构可以有多种可能。为了便于理解，结合一种情况说明，如图5所示，其示出了本申请的语音分离方法所涉及到的网络模型的结构示意框图。

由图5可以看出，目标混合音频会分别输入到编码器和语音提取算法模型中。目标混合音频是一个一维度的向量，而经过编码器可以输出一个二维的矩阵，其中，该编码器可以为一层卷积神经网络(Convolutional Neural Networks,CNN)。同时，目标混合音频经过语音提取算法模型(如，LogFBank算法等)可以得到一个二维矩阵，这两个二维矩阵被合并之后会输入到一个CNN模型中，而CNN模型输出的特征会被输入到第一特征提取模型，同时，目标用户的声纹特征也会被输入到该第一特征提取模型，从而使得第一特征提取模型输出音频识别特征。

在图5中，该第一特征提取模型由两组堆叠的时域卷积网络(TemporalConvolutional Network，TCN)构成，每组堆叠的TCN都可以包括多个TCN模型。

可以理解的是，本实施例，本实施例是以第一特征提取模型为两组堆叠的时域卷积网络模型为例说明，但是可以理解的是，第一特征提取模型下面的CNN模型也可以认为是属于第一特征提取模型，又或者第一特征提取模型还可以有其他可能，本申请对此不加限制。

S404，将该音频识别特征输入到音频分类模型，得到该音频分类模型输出的音频检测结果。

以图5所示的网络结构为例说明，在图5中音频分类模型可以为与第一特征提取模型相连，且位于右侧的网络结构部分。由图5可以看出，该音频分类模型包括一层CNN构成的线性整流函数(Rectified Linear Unit，ReLU)、一个解码器以及一个归一化(sigmoid)函数层，其中，RelU又称修正线性单元。其中，为了便于区分，将音频分类模型中包含的解码器称为第一解码器，而将后续语音分离过程中所涉及到的解码器称为第二解码器。

在此基础上，由第一特征提取模型输出的音频识别特征会依次经过该RelU层、第一解码器和sigmoid函数之后便可以输出音频检测结果，该音频检测结果的取值为0或者1，如果音频检测结果为0，则表示该目标混合音频中不包含该目标用户的音频；如果音频检测结果为1，则表示该目标混合音频中包含该目标用户的音频。

可以理解的是，在本申请中，第一特征提取模型和该音频分类模型可以为利用标注有音频分类结果的音频样本组一并训练得到的。

如，针对每个音频样本组，将音频样本组中的用户样本的声纹特征输入到第一特征提取模型，并将第一特征提取模型输出的音频识别特征输入到该音频分类模型；基于音频分类模型预测出的音频检测结果与实际标注的音频分类结果，检测是否到达模型训练要求，例如，计算损失函数值，并检测损失函数值是否收敛等。如果尚未达到模型训练要求，则调整这两个模型的内部参数，并重新进行训练，直至满足训练要求。

当然，在实际应用中，为了提高精准度，本申请还可以是将第一特征提取模型、音频分类模型与后续的第二特征提取模型一同进行训练。

S405，在音频检测结果表征该目标混合音频中不包含目标用户的音频的情况下，输出静音音频。

如，图5所示，在音频检测结果为0的情况下，则说明目标混合音频中不包含该目标用户的音频，在该种情况下，本申请可以直接输出静音音频作为该目标混合音频对应的语音分离结果，从而避免再激活对目标混合音频的语音分离处理，进而可以减少由于对该目标混合音频的语音处理所导致的资源耗费。

S406，在该音频检测结果表征该目标混合音频中包含目标用户的音频的情况下，将该目标用户的声纹特征以及该音频识别特征输入到第二特征提取模型，得到该第二特征提取模型输出的掩模矩阵。

在本实施例中，该第二特征提取模型属于语音分离模型中用于对目标混合音频进行特征提取的模型，且该第二特征提取模型提取出的是目标混合音频中不属于目标用户的音频的特征。

其中，该第二特征提取模型的网络模型结构可以有多种可能，如，在一种可能的实现方式中，该第二特征提取模型可以有多层TCN网络组成。

仍结合图5说明，如果识别出目标混合音频中包含目标用户的音频，本申请会激活语音分离部分的处理，具体的，会将音频识别特征以及目标用户的声纹特征输入到该第二特征提取模型。在图5中该第二特征提取模型为两组堆叠的TCN和一个线性整流函数层组成，每组堆叠的TCN包括多层TCN。

两层堆叠的TCN通过对音频识别特征和目标用户的声纹特征的处理，可以输出一个矩阵，该矩阵输入到线性整流函数层，便可以输出一个掩模矩阵M。

可以理解的是，在实际应用中，也可以认为是第二特征提取模型仅仅包含两层堆叠的TCN，只不过第二特征提取模型输出的矩阵需要经过一层掩模转换模型进行处理，便可以得到掩模矩阵M。

可以理解的是，在实际应用中，第二特征提取模型还可以有其他可能，本申请对此不加限制。

S407，将该掩模矩阵与该目标混合音频的向量进行相乘，得到表征该目标混合音频中属于该目标用户的音频的目标向量。

S408，对该目标向量进行解码，得到目标用户的音频。

如图5所示，掩模矩阵M与目标混合音频经过编码器编码得到的矩阵X进行相乘，便可以得到一个用于表征目标混合音频中属于该目标用户的音频的目标向量Y。相应的，将目标向量Y输入到第二解码器，经过第二解码器对目标向量解码便可以得到该目标混合音频中包含的目标用户的音频。

可以理解的是，该第二特征提取模型与该第二解码器可以利用多组标注有音频分离结果的音频样本组对应的音频识别特征训练得到的，具体训练过程在此不再赘述。

在一种可选方式中，为了提高语音分离以及检测目标混合音频中是否包含目标用户的音频的准确度，本申请可以经语音分离与检测混合音频中是否包含目标说话人的音频这两个任务一起作为多任务来同步训练第一特征提取模型、第二特征提取模型和音频分类模型等。

如图5所示，为了训练图5示出的各个网络模型，本申请可以获取多组标注有音频分离结果和音频分类结果的音频样本组，如前所述，每组音频样本组包括样本用户的声纹特征以及混合音频样本。

在实际应用中，可以针对部分样本用户中每个样本用户，获取仅包含该样本用户的纯净音频，然后将样本用户的纯净音频与该其他音频混合，得到包含该样本用户的音频的混合音频样本。在此基础上，可以将该样本用户的声纹特征以及该混合音频样本作为一组音频样本组，且该音频样本组标注的音频分类结果表征该音频样本组的混合音频样本中包含样本用户的音频，而该音频样本组标注的音频分离结果就是该样本用户的纯净音频。

类似的，针对其他部分样本用户中每个样本用户，可以针对该样本用户构建不包含该样本用户的音频的混合音频样本，然后，将该混合音频样本与该样本用户的声纹特征作为一组音频样本组。在此情况中，该音频样本组标注的音频分类结果表征该音频样本组的混合音频样本中不包含样本用户的音频，且其标注的音频分离结果为静音音频。

在以上基础上，针对每组音频样本组，可以将该音频样本组中的混合音频样本和样本用户的声纹特征输入到待训练的第一特征提取模型；而第一特征提取模型输出的音频识别特征会被输入到音频分类模型。

如果该音频分类模型输出的音频检测结果表征该混合音频样本中包含该音频样本组对应的样本用户的音频，则会将该音频识别特征和样本用户的声纹特征输入第二特征提取模型，同时第二特征提取模型输出的掩模矩阵与混合音频样本的向量(或者说矩阵)相乘之后经过解码器解码，便可以得到预测出的目标用户的音频。

如果音频分类模型输出的音频检测结果表征混合音频样本中不包含该音频样本组对应的样本用户的音频，则会输出一个静音音频。

在以上基础上，将音频分类模型输出的音频样本组的音频检测结果与实际标注的音频分类结果，以及预测出的音频分离结果以及实际标注的音频分离结果进行比对，可以确定训练是否达到要求，例如，可以计算损失函数值，检测损失函数值是否收敛，如收敛则确认达到训练要求。如果训练尚未到达训练要求，则调整以上涉及到的各个模型的内部参数，并继续训练，直至训练结束。

可以理解的是，本申请中第一特征提取模型可以认为是语音分离模型的一部分，而本申请中复用该第一特征提取模型来确定混合音频中音频识别特征，以用于检测混合音频中是否包含目标说话人的音频。

如在图5中，左半部分从上到下的模型，即，编码器、LogFBank函数层、第一特征提取模型、第二特征提取模型，矩阵相乘模型以及第二解码器均属于语音分离模型；同时，第一特征提取模型和音频分类模型实际上也组成了一个用于检测混合音频中是否包含目标说话人的音频检测模型。

可以理解的是，在本申请以上任意一个实施例中，在从所述目标混合音频中分离出所述目标用户的音频之后，对分离出的目标用户的音频进行语音识别。

其中，该目标用户的音频进行语音识别的种类可以有多种。如，在基于语音识别的语音控制领域，可以通过对目标用户的音频进行语音识别，确定出目标用户所发出的语音指令。

又如，在基于语音识别的人机对话场景中，通过对目标用户的音频进行语音识别，确定出针对该目标用户的音频所返回的交互语音或者交互文本等。

当然，语音识别的场景还可以有其他可能，本申请对此不加限制。

对应本申请的一种语音分离方法，本申请还提供了一种语音分离装置。如图6所示，其示出了本申请一种语音分离装置的一种组成结构示意图。

由图6可以看出，该装置可以包括：

音频获得单元601，用于获得待分离的目标混合音频；

声纹获得单元602，用于获得目标用户的声纹特征；

语音分离单元603，用于在基于所述目标用户的声纹特征确定出所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，从所述目标混合音频中分离出所述目标用户的音频；

静音输出单元604，用于在基于所述目标用户的声纹特征确定出所述目标混合音频中不包含所述目标用户的音频的情况下，输出静音音频。

在一种可能的实现方式中，该装置还包括：

相应的，语音分离单元可以在音频检测结果表示所述目标混合音频中包含所述目标用户的音频的情况下，启动对所述目标混合音频的语音分离处理，从所述目标混合音频中分离出所述目标用户的音频。

在一种可选方式中，所述特征确定单元确定出的所述音频识别特征还用于表示：所述目标混合音频中包含的所述目标用户的音频的波形特征；

所述语音分离单元包括：

在又一种可选方式中，所述语音分离子单元，包括：

在又一种可能的实现方式中，该装置还包括：

又一方面，本申请还提供了一种电子设备，如图7所示，其示出了该电子设备的一种组成结构示意图，该电子设备可以服务器，也可以为支持语音识别的终端等，该电子设备至少包括存储器701和处理器702；

其中，处理器701用于执行如上任意一个实施例中的语音分离方法。

该存储器702用于存储处理器执行操作所需的程序。

可以理解的是，该电子设备还可以包括显示单元703、输入单元704以及通信总线。当然，该电子设备还可以具有比图7更多或者更少的部件，对此不加限制。

另一方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的语音分离方法。

本申请还提出了一种计算机程序，该计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时，用于执行如上任意一个实施例中的语音分离方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。同时，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音分离方法，包括：

获得待分离的目标混合音频；

获得目标用户的声纹特征；

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，所述音频识别特征还用于表示：所述目标混合音频中包含的所述目标用户的音频的波形特征；

4.根据权利要求3所述的方法，所述基于所述目标用户的声纹特征以及所述音频识别特征，从所述目标混合音频中分离出所述目标用户的音频，包括：

5.根据权利要求1所述的方法，在所述从所述目标混合音频中分离出所述目标用户的音频之后，还包括：

对分离出的目标用户的音频进行语音识别。

6.一种语音分离装置，包括：

音频获得单元，用于获得待分离的目标混合音频；

声纹获得单元，用于获得目标用户的声纹特征；

7.根据权利要求6所述的装置，还包括：

8.根据权利要求7所述的装置，所述特征确定单元确定出的所述音频识别特征还用于表示：所述目标混合音频中包含的所述目标用户的音频的波形特征；

所述语音分离单元包括：

9.根据权利要求8所述的装置，所述语音分离子单元，包括：

10.根据权利要求6所述的装置，还包括：