CN111341341A

CN111341341A - 音频分离网络的训练方法、音频分离方法、装置及介质

Info

Publication number: CN111341341A
Application number: CN202010086752.XA
Authority: CN
Inventors: 王珺; 林永业; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-26
Anticipated expiration: 2040-02-11
Also published as: EP4012706A1; US20220180882A1; CN111341341B; EP4012706A4; WO2021159775A1

Abstract

本申请实施例提供了一种音频分离网络的训练方法、音频分离方法、装置及介质；所述方法包括：获取第一分离样本集合，所述第一分离样本集合中至少包括两类具有伪标签的音频；采用扰动数据对所述第一分离样本集合进行插值，得到第一样本集合；采用无监督网络对所述第一样本集合进行分离，得到第二分离样本集合；确定所述第二分离样本集合中第二分离样本的损失；采用所述第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件。通过采用第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，并增强了无监督网络的泛化能力。

Description

音频分离网络的训练方法、音频分离方法、装置及介质

技术领域

本申请涉及机器学习领域，尤其涉及音频分离网络的训练方法、音频分离方法、装置及介质。

背景技术

在相关技术中，基于深度学习的语音分离网络存在泛化能力差的问题，即使是最先进的语音分离网络在不匹配的情况下进行评估时也可能突然失效。通常由于时间、人力和成本的限制，大规模、覆盖范围广、足够多样化的有标注训练数据的采集往往是不切实际的，而标注数据的不足易于导致有大量参数的复杂网络的过拟合和差的泛化能力。

发明内容

本申请实施例提供一种音频分离网络的训练方法、音频分离方法、装置及介质，能够采用第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，并增强了无监督网络的泛化能力。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种音频分离网络的训练方法，包括：

获取第一分离样本集合，所述第一分离样本集合中至少包括两类具有伪标签的音频；

采用扰动数据对所述第一分离样本集合进行插值，得到第一样本集合；

采用无监督网络对所述第一样本集合进行分离，得到第二分离样本集合；

确定所述第二分离样本集合中第二分离样本的损失；

采用所述第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件。

第二方面，本申请实施例提供一种音频分离方法，所述方法包括：

获取待分离音频；

采用已训练的神经网络对所述待分离音频进行分离，得到分离结果；其中，所述神经网络为基于上述的音频分离网络的训练方法训练得到的；

输出所述分离结果。

第三方面，本申请实施例提供一种音频分离网络的训练装置，所述装置包括：

第一获取模块，用于获取第一分离样本集合，所述第一分离样本集合中至少包括两类具有伪标签的音频；

第一插值模块，用于采用扰动数据对所述第一分离样本集合进行插值，得到第一样本集合；

第一分离模块，用于采用无监督网络对所述第一样本集合进行分离，得到第二分离样本集合；

第一确定模块，用于确定所述第二分离样本集合中第二分离样本的损失；

第一调整模块，用于采用所述第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件。

第四方面，本申请实施例一种音频分离装置，所述装置包括：

第二获取模块，用于获取待分离音频；

第一输入模块，用于采用已训练的神经网络对所述待分离音频进行分离，得到分离结果；其中，所述神经网络为基于上述第一方面所述的音频分离网络的训练方法训练得到的；

第一输出模块，用于输出所述分离结果。

第五方面，本申请实施例一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现第一方面所述的方法，或用于引起处理器执行时，实现第二方面所述的方法。

本申请实施例具有以下有益效果：首先，通过对两类具有伪标签的音频的第一分离样本集合进行插值，以得到混合后的第一样本集合；然后，基于第一样本集合对无监督网络进行训练，以基于第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件；如此，在对无监督网络训练的过程中，对于两类具有伪标签的音频，采用扰动数据进行插值得到第一样本集合，这样，将第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，从而增强了无监督网络的泛化能力。

附图说明

图1是本申请实施例提供的音频分离网络的训练系统的一个可选的架构示意图；

图2A是本申请实施例提供的音频分离网络的训练系统的另一个可选的架构示意图；

图2B是本申请实施例提供的音频分离网络的训练系统的结构示意图；

图3是本申请实施例提供的音频分离网络的训练方法的实现流程示意图；

图4A是本申请实施例提供的音频分离网络的训练方法的又一实现流程示意图；

图4B是本申请实施例提供的音频分离方法的实现流程示意图；

图5A是本申请实施例有监督网络的训练方法的实现流程示意图；

图5B是本申请实施例无监督网络的训练方法的实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)自动语音识别(Automatic Speech Recognition，ASR)：是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。

2)置换不变训练(Permutation Invariant Training，PIT:)：提出一种通过最小化分离误差解决标签排列问题的排列不变训练技术，排列不变训练技术是指输入的顺序改变不会影响输出的值。置换不变训练是通过计算所有可能的输出置换下的目标损失函数，并选择对应最低的目标损失函数来决定正确的输出排列，是一种通用且有效的方法，代价是复杂度会随着输出维度的增加而增加。

3)半监督学习(Semi-Supervised Learning，SSL)：是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。当使用半监督学习时，将会要求尽量少的人员来从事工作，同时，又能够带来比较高的准确性。

4)一致性半监督学习：首先，采样一个小批量(minibatch)有标签的数据；其次，送入网络预测计算交叉熵损失；再次，采样两个minibatch没有标签的数据；再次，送入网络预测出标签；再次，使用mix混合两个没有标签的数据；再次，计算混合后新数据预测的平方误差损失；最后，有标签损失加上平方误差损失，迭代更新网络参数得到最终网络。

5)滑动平均(Exponential moving average，EMA)：又称移动平均法。在简单平均数法基础上，通过顺序逐期增减新旧数据求算移动平均值，借以消除偶然变动因素，找出事物发展趋势，并据此进行预测的方法。滑动平均法是趋势外推技术的一种。实际上是对具有明显的负荷变化趋势的数据序列进行曲线拟合，再用新曲线预报未来的某点处的值。

6)对抗生成网络(Generative Adversarial Network，GAN)：包括两个部分，生成网络和判别网络。生成网络是指可以根据任务、通过网络训练由输入的数据生成文字、图像、视频等数据。生成网络从本质上是一种极大似然估计，用于产生指定分布数据的网络，生成网络的作用是捕捉样本数据的分布、将原输入信息的分布情况经过极大似然估计中参数的转化来将训练偏向转换为指定分布的样本。判别网络实际上是个二分类，会对生成网络生成的图像等数据进行判断，判断其是否是真实的训练数据中的数据。

7)平均教师网络(Mean Teacher)：包括两个网络，学生网络和教师网络，这两个网络的结构是相同的，教师网络的网络参数通过学生网络计算得到，学生网络的网络参数通过损失函数梯度下降更新得到。整个训练过程中，教师网络的网络参数通过学生网络的网络参数进行滑动平均更新得到。

8)深度聚类(Deep Clustering，DPCL)：深度网络在无监督数据聚类中的应用。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

在相关技术中，基于深度学习的语音分离方法的进步，使得在若干基准数据集上测试的最先进的性能被大幅度提升。基于高维嵌入(embedding)网络的拓展网络包括：深度吸引网络，深度提取网络，以及锚深度吸引网络，此外还包括基于置换不变训练的方法。PIT是通过计算所有可能的输出置换下的目标损失函数，并选择对应最低的目标损失函数来决定正确的输出排列，是一种通用且有效的方法，代价是复杂度会随着输出维度的增加而增加。

然而在实际应用中，当将这些网络应用于与训练时的干扰信号类型不匹配的场景时，即使是最先进的网络也可能失败，因为要训练一个具有大量可学习参数的复杂神经网络，并使其具有好的泛化性能，需要大规模、覆盖范围广、足够多样化的训练数据。一方面，为语音分离和识别采集这种高质量的有标注数据是昂贵、繁重并且有时是不现实的；尽管有标注数据的自动扩增技术经实践证明可以改善网络的泛化性能，但是改善程度有限，因为这些自动扩增技术无法挖掘标注数据之外的信息，例如海量的无标注数据蕴藏的信息。另一方面，海量无标注数据的获取相对通常非常容易，但是无法有效挖掘这些无标注数据，因此这些数据通常被基于深度学习的语音分离和识别系统忽略。

基于此，本申请实施例提供一种音频分离网络的训练方法、音频分离方法、装置及介质，通过在对无监督网络训练的过程中，采用两类具有伪标签的音频和采用扰动数据进行插值的第一样本集合，这样，采用第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，从而增强了无监督网络的泛化能力。

下面说明本申请实施例提供的音频分离网络的训练的设备的示例性应用，本申请实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为终端或服务器时示例性应用。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

参见图1，图1是本申请实施例提供的音频分离网络的训练系统的一个可选的架构示意图，为实现支撑一个示例性应用，首先，对于获取的包括多类具有伪标签的音频的第一分离样本集合10(至少包括：干净音频数据和干扰信号两个部分)，采用扰动数据进行插值，得到混合之后的第一样本集合11；然后，将第一样本集合11输入到无监督网络12中，以对次对无监督网络12进行训练；最后，将无监督网络12输出的第二分离样本的损失反馈给该网络，以对网络参数进行调整，使得调整后的无监督网络输出的分离结果的损失满足收敛条件，从而得到训练好的无监督网络13；如此，在对无监督网络训练的过程中，采用两类具有伪标签的音频和采用扰动数据进行插值的第一样本集合，这样，采用第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，从而增强了无监督网络的泛化能力。当需要对待分离音频14进行分离时，将该待分离音频14输入到该训练好的无监督网络13中，得到精准的分离结果15，并输出该分离结果15；这样，采用通过无标注的样本数据训练得到的无监督网络13对待分离音频进行分离，提高了分离结果的准确度。

参见图2A，图2A是本申请实施例提供的音频分离网络的训练系统的另一个可选的架构示意图，包括区块链网络20(示例性示出了作为原生节点的服务器200)、监测系统30(示例性示出归属于监测系统30的设备300及其图形界面301)，下面分别进行说明。

区块链网络20的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户设备和服务器，都可以在不需要授权的情况下接入区块链网络20；以联盟链为例，业务主体在获得授权后其下辖的电子设备(例如设备/服务器)可以接入区块链网络20，此时，成为区块链网络20中的一类特殊的节点即客户端节点。

需要指出地，客户端节点可以只提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络20的原生节点的功能，例如下文所述的排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实现。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络20中，通过区块链网络20实现数据和业务处理过程的可信和可追溯。

区块链网络20接收来自业务主体(例如图2A中示出的监测系统30)的客户端节点(例如，图2A中示出的归属于监测系统30的设备300)提交的交易，执行交易以更新账本或者查询账本，并在设备的用户界面(例如，设备300的图形界面301)显示执行交易的各种中间结果或最终结果。

下面以监测系统接入区块链网络以实现音频分离网络的训练的上链为例说明区块链网络的示例性应用。

监测系统30的设备300接入区块链网络20，成为区块链网络20的客户端节点。设备300通过传感器获取第一分离样本集合；并且，将训练好的无监督网络传递给区块链网络20中的服务器200或者保存在设备300中；在已对设备300部署上传逻辑或用户进行操作的情况下，设备300根据待处理事项/同步时间查询请求，生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了监测系统30签署的数字签名(例如，使用监测系统30的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络20。其中，数字证书可由监测系统30向认证中心31进行登记注册得到。

区块链网络20中的原生节点，例如服务器200在接收到交易时，对交易携带的数字签名进行验证，数字签名验证成功后，根据交易中携带的监测系统30的身份，确认监测系统30是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署原生节点自己的数字签名(例如，使用原生节点的私钥对交易的摘要进行加密得到)，并继续在区块链网络20中广播。

区块链网络20中具有排序功能的节点接收到验证成功的交易后，将交易填充到新的区块中，并广播到区块链网络中20提供共识服务的节点。

区块链网络20中的提供共识服务的节点对新区块进行共识过程以达成一致，提供账本功能的节点将新区块追加到区块链的尾部，并执行新区块中的交易：对于提交新的音频分离网络的训练的交易，更新输出的评分结果和评价数据集合对应的键值对；对于查询同步时间的交易，从状态数据库中查询同步时间对应的键值对，并返回查询结果。对于得到的同步时间，可显示于设备300的图形界面301中。

区块链网络20中的原生节点可从区块链中读取第一分离样本集合，并将第一分离样本集合呈现于原生节点的监测页面，原生节点也可以通过对第一分离样本集合进行插值，以得到混合后的第一样本集合；然后，基于第一样本集合对无监督网络进行训练；最后，通过第二分离样本的损失，对该无监督网络的网络参数进行调整，以得到两个训练好的神经网络；这样，采用第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，并增强了无监督网络的泛化能力。

在实际应用中，可为区块链网络20的不同原生节点设置不同的功能，例如设置服务器200具有音频分离网络的训练功能和记账功能，比如，服务器对于设备端上传第一分离样本集合进行插值，以得到混合后的第一样本集合；然后，基于第一样本集合对无监督网络进行训练；最后，通过第二分离样本的损失，对该无监督网络的网络参数进行调整，以得到训练好的无监督网络。对于该情况，可在交易过程中，服务器200接收设备300发送的第一分离样本集合，采用服务器200通过对第一分离样本集合进行插值，以得到混合后的第一样本集合；并采用第一样本集合对无监督网络进行训练；最后，通过第二分离样本的损失，对网络参数进行调整，以得到训练好的无监督网络。

参见图2B，图2B是本申请实施例提供的音频分离网络的训练系统的结构示意图，包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2B中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，在一些示例中键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory，ROM)，易失性存储器可以是随机存取存储器(Random Access Memory，RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证、和通用串行总线(UniversalSerial Bus，USB)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2B示出了存储在存储器450中的音频分离网络的训练的服务器455，其可以是程序和插件等形式的软件，包括以下软件模块：第一获取模块4551、第一插值模块4552、第一分离模块4553、第一确定模块4554和第一调整4555；存储器450中的数据修复的终端456，其可以是程序和插件等形式的软件，包括以下软件模块：第二获取模块4561、第一输入模块4562和第一输出模块4563；这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的音频分离网络的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、DSP、可编程逻辑器件(Programmable Logic Device，PLD)、复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或其他电子元件。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明。

参见图3，图3是本申请实施例提供的音频分离网络的训练方法的实现流程示意图，结合图3示出的步骤进行说明。

步骤S301，获取第一分离样本集合。

在一些实施例中，第一分离样本集合中至少包括两类具有伪标签的音频。比如，具有伪标签的干净语音信号和干扰信号等。步骤S301中获取第一分离样本集合，可以是模拟产生该第一分离样本集合，还可以是采用已训练的网络对未标识的音频数据进行分离，得到具有伪标签的第一分离样本集合。

步骤S302，采用扰动数据对第一分离样本集合进行插值，得到第一样本集合。

在一些实施例中，采用不同的扰动数据分别对每一个第一分离样本进行插值，然后将插值后的数据进行混合，得到第一样本集合。比如，第一分离样本集合中包括三个第一分离样本，采用三个不同的扰动数据(比如，权值)分别对这个第一分离样本进行调整，对调整结果进行求和，实现了对第一分离样本集合的插值混合，得到第一样本集合。

步骤S303，采用无监督网络对第一样本集合进行分离，得到第二分离样本集合。

在一些实施例中，无监督网络可以是任意类型的用于分离音频数据的学生网络，将第一样本集合输入该无监督网络中，得到该无监督网络预测分离的多个第二分离样本。在一个具体例子中，将语音信号和干扰信号混合在一起的第一样本集合，输入无监督网络中，得到预测分离的语音信号和干扰信号。

步骤S304，确定第二分离样本集合中第二分离样本的损失。

在一些实施例中，确定每一第二分离样本与第一分离样本集合的真值数据之间的损失，得到每一第二分离样本的损失，即，确定第二分离样本与第一分离样本之间的差距。

步骤S305，采用第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件。

在一些实施例中，分别确定每一第二分离样本的损失，然后从这些损失中选择最小的损失，采用该最小的损失对无监督网络的网络参数进行调整，调整之后，继续对包含调整后的网络参数的无监督网络进行训练，直至该无监督网络输出的分离结果的损失满足收敛条件，即得到训练好的无监督网络，说明该训练好的无监督网络输出的分离结果是较为准确的。调整后的无监督网络输出的分离结果的损失收敛条件可以理解为，调整后的无监督网络输出的分离结果的损失最终保持不变，或者损失小于特定阈值，即调整后的无监督网络输出的分离结果与真值数据相同，或者相似度大于99％等。

在本申请实施例中，首先，通过对两类具有伪标签的音频的第一分离样本集合进行混合插值；比如，伪标签可以理解为是采用教师网络进行分离后，得到的分离结果，即采用教师网络对样本进行初步分离的结果。然后，采用混合插值的第一样本集合对无监督网络进行训练，得到分离结果，即第二分离样本集合；最后，采用第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件；如此，在对无监督网络训练的过程中，采用两类具有伪标签的音频和采用扰动数据进行插值的第一样本集合作为训练数据集，丰富了无监督网络的样本数据，从而增强了训练好的无监督网络的泛化能力。

在一些实施例中，为了提高无监督网络的泛化能力，步骤S301可以通过以下两种方式实现：

方式一：采用模拟的方式，生成多种具有伪标签的音频，即得到第一分离样本集合。

方式二：首先，获取至少包括未标注音频的样本音频。

比如，将获取的未标注的音频数据，作为样本音频。

然后，采用已训练的有监督网络，按照音频数据的类型，对样本音频进行分离，得到每一类型的分离样本，以得到所述第一分离样本集合。

在一些可能的实现方式中，有监督网络可以通过以下过程得到：首先，获取有标注的干净样本音频和噪声样本音频；其次，将干净样本音频和噪声样本音频相混合，得到第三样本集合。比如，将干净样本音频和噪声样本音频叠加，得到混合的第三样本集合；再次，采用待训练的有监督网络对第三样本集合进行分离，得到第五分离样本集合；比如，将第三样本集合输入到该待训练的有监督网络中，以进行预测分离，得到分离结果，即第五分离样本集合；再次，确定所述第五分离样本集合中的第五分离样本的损失；即，确定第五分离样本与有标注的干净样本音频和噪声样本音频之间的损失；最后，采用所述第五分离样本损失，对所述待训练的有监督网络的网络参数进行调整，以使调整后的待训练的有监督网络输出的分离结果的损失满足收敛条件，得到已训练的所述有监督网络。比如，确定每一第五分离样本与任一真值之间的损失，从中选择最小的损失，利用该最小的损失调整待训练的有监督网络的网络参数，以得到已训练的所述有监督网络。

这里，有监督网络的网络参数是基于无监督网络的网络参数进行更新的。比如，通过对无监督网络的网络参数进行滑动平均得到该有监督网络的网络参数。已训练的有监督网络可以是教师网络。音频数据的类型至少包括：语音信号、噪声信号、音乐信号或者其他干扰信号等。将包含多种音频类型的样本音频输入到已训练的有监督网络中，该有监督网络对样本音频进行分离，得到具有伪标签的每一类型的分离结果，即第一分离样本集合；如此，采用有监督网络对未标识的样本音频进行预测分离，然后，将预测分离的结果作为待训练的无监督网络的样本音频，从而丰富了样本数据，提高了无监督网络的泛化能力。

在一些实施例中，为了丰富训练无监督网络的样本数据，步骤S302可以通过以下步骤实现：

步骤S321，将每一第一分离样本一一对应的与不同的扰动数据相乘，得到调整数据集合。

这里，不同的第一分离样本相乘的扰动数据不同。比如，第一分离样本集合中包括两个第一分离样本，采用扰动数据A与其中一个第一分离样本相乘，采用扰动数据B(或者1-A)与另一个第一分离样本相乘。在本申请实施例中，不限于是对第一分离样本的幅度进行调整，还可以是第一分离样本的频率或者语速等进行调整，以得到调整数据集合。

步骤S322，对所述调整数据集合中的调整数据求和，得到所述第一样本集合。这里，对调整数据集合中的调整数据进行求和，得到混合音频数据，即第一样本集合。

在本申请实施例中，通过对多个第一分离样本进行插值混合，丰富了训练无监督网络的样本数据，从而使得训练好的无监督网络的泛化能力更强。

在一些实施例中，基于无监督网络的网络参数，更新有监督网络的网络参数，从而对有监督网络和无监督网络均进行多次训练，使得最终得到的训练好的无监督网络的分离准确度更高，步骤S305可以通过以下步骤实现，参见图4A，图4A是本申请实施例提供的音频分离网络的训练方法的又一实现流程示意图，基于图3，进行以下说明：

步骤S401，确定每一第二分离样本与所述第一分离样本集合的真值数据之间的损失，得到每一第二分离样本的损失，以得到损失集合。

这里，分别确定每一个第二分离样本与第一分离样本集合的真值数据之间的损失，得到损失集合。

步骤S402，从损失集合中，确定最小损失。

这里，最小损失表明该第二分离样本与真值数据之间的差距最小，说明该第二分离样本的准确度更高。

步骤S403，基于最小损失，更新无监督网络的网络参数，得到更新的网络参数。

这里，将该最小损失反馈给无监督网络，以对无监督网络的网络参数进行调整，比如，对无监督网络的卷积操作的权重值或者通道的结构参数等进行调整，得到更新的网络参数。在步骤S403之后，即得到更新的网络参数之后，将更新的网络参数反馈给有监督网络，以更新有监督网络的网络参数，即进入步骤S404。

步骤S404，将更新的网络参数反馈给有监督网络，以调整有监督网络的网络参数，得到更新的有监督网络。

步骤S405，基于更新的有监督网络和样本音频，继续对更新的无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件。

在一些可能的实现方式中，利用无监督网络的网络参数的滑动平均，更新有监督网络的网络参数。即，先确定更新的网络参数的滑动平均值；然后，将所述滑动平均值反馈给所述有监督网络，以调整所述有监督网络的网络参数，以得到所述更新的有监督网络。比如，将该滑动平均值作为有监督网络的网络参数，以得到更新的有监督网络。

在本申请实施例中，采用最小损失对无监督网络的网络参数进行调整，然后，对更新的无监督网络的网络参数进行滑动平均，以得到更新的有监督网络；从而实现了对有监督网络和无监督网络均进行多次训练，使得最终得到的训练好的无监督网络的分离准确度更高。

在一些实施例中，对无监督网络的网络参数和有监督网络的网络参数均进行更新之后，继续采用更新的有监督网络对样本音频进行预测分离，以便于对更新的无监督网络进行继续训练，从而得到训练好的无监督网络，在步骤S404之后，还包括以下步骤：

步骤S441，采用更新的有监督网络，对样本音频进行再次分离，得到第三分离样本集合。

这里，将样本音频再次输入到更新的有监督网络中，该更新的有监督网络按照音频类型，对样本音频进行再次分离，得到包含伪标签的第三分离样本集合。比如，将包含未标注的干净语音信号和未标注的干扰信号的样本音频输入到更新的有监督网络，得到具有伪标签的干净语音信号和具有伪标签的干扰信号。

步骤S442，采用扰动数据对第三分离样本集合进行插值，得到第二样本集合，并将第二样本集合输入更新的无监督网络。

这里，采用扰动数据对第三分离样本集合进行混合插值，从而将第三分离样本集合进行混合，得到第二样本集合；将该第二样本集合作为训练无监督网络的样本，输入该更新的无监督网络。比如，将具有伪标签的干净语音信号和具有伪标签的干扰信号，进行混合插值，得到第二样本集合。

步骤S443，采用更新的无监督网络对第二样本集合进行再次预测分离，得到第四分离样本集合。

这里，采用该更新的无监督网络对第二样本集合进行再次预测分离，得到预测的分离结果，即第四分离样本集合。

步骤S444，确定所述第四分离样本集合中第四分离样本的损失。

这里，确定第四分离样本与样本音频之间的损失，即确定第四分离样本与样本音频之间的差距。

步骤S445，采用第四分离样本的损失，对更新的无监督网络的网络参数和更新的有监督网络的网络参数进行调整，以使调整后的更新的无监督网络输出的分离结果的损失满足收敛条件。

这里，首先是确定每一个第四分离样本与真值数据之间的损失，基于最小的损失对更新的无监督网络的网络参数进行再次调整，以使调整后的更新的无监督网络输出的分离结果的损失满足收敛条件；从而得到训练好的无监督网络。

在本申请实施例中，采用有监督网络(比如，教师网络)对未标注的样本音频进行分离，然后对估计的分离结果进行加权“混合”以得到更多有用的伪输入-输出样本对(即第一样本集合)。然后基于伪输入-输出样本对训练无监督网络(比如，学生网络)，从而在半监督方式下实现了对学生网络的训练，使得训练好的学生网络输出的分离结果更加准确。

本申请实施例提供一种音频分离方法，下面结合图4B进行详细说明。

步骤S421，获取待分离音频。

这里，待分离音频可以包含任意类型，任意场景下的音频信号，比如，一段时间内室内聊天场景下的语音、一点时间内室外环境下的音频或者播放的一段音乐等。

步骤S422，采用已训练的神经网络对所述待分离音频进行分离，得到分离结果。

这里，所述神经网络为基于上述音频分离网络的训练方法训练得到的，即已训练的神经网络为，通过对包括两类具有伪标签的音频的第一样本集合进行插值，得到第一样本集合；然后，将该第一样本集合输入神经网络中，得到预设分离的分离结果，即第二分离样本集合；采用第二分离样本的损失，对神经网络的网络参数进行调整，以使调整后的神经网络输出的分离结果的损失满足收敛条件，即得到该已训练的神经网络。采用这样训练得到的神经网络对该待分离音频进行分离，无论待分离音频对应的场景与训练的样本数据对应的场景是否匹配，均能够准确的将该待分离音频分离为各个类型的分离结果。比如，待分离音频为室内采集的一段多人聊天的音频，该音频中包括语音信号和室内的噪声信号，将该待分离音频输入采用这种方式训练得到的该已训练的神经网络中，即可得到干净的语音信号和噪声信号，两种信号，即得到了准确的分离结果。在已训练的神经网络对所述待分离音频进行分离的过程中，首先，采用该网络中的有监督网络按照音频数据的类型，对该待分离音频进行分离，得到每一类型的候选分离结果，以得到分离结果集合；然后，采用扰动数据对分离结果集合进行差值，得到差值结果集合；然后，采用已训练好的无监督网络对差值结果集合进行分离，得到最终的分离结果；进入步骤S423。

步骤S423，输出分离结果。

在本申请实施例中，通过对两类具有伪标签的音频的第一分离样本集合进行插值，以得到混合后的第一样本集合；然后，基于第一样本集合对无监督网络进行训练，以基于第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件；这样，对于两类具有伪标签的音频，采用扰动数据进行插值得到第一样本集合，这样，将第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，从而增强了无监督网络的泛化能力。如此，当需要对待分离音频进行分离时，将待分离音频输入到以这样的方式训练得到的神经网络中，能够得到准确度较高的分离结果。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，以对混合的音频进行分离为例，进行说明。

本申请提出了一种新型有效的、并且容易实现的基于一致性的半监督学习算法，即混合-分解训练(Mixup-Breakdown training，MBT)，以用于语音分离任务。MBT首先引入平均教师(Mean Teacher，MT)网络预测输入混合信号的分离结果，其输入混合信号包括有标注的数据，也包括无标注数据；然后对这些中间输出结果进行随机插值混合，得到包含伪标签的第一样本集合；最后，通过优化教师网络(比如，有监督网络)和学生网络(比如，无监督网络)之间的预测一致性，来更新学生网络。本申请在受到未见干扰的混合语音数据上验证了MBT网络的性能，结果显示MBT的分离性能显著。

在本申请实施例中，按照语音分离任务的训练的标准设定，将干净语音信号s和干扰信号e，按照给定范围内的信噪比(signal-to-noise，SNR)混合得到输入x＝s+e(在此略去根据SNR对s和e进行加权的表示)，形成包含N_L对输入-输出样本的有标注数据集

其中，标注y＝(s,e)；这里，除了有标注数据，更多的数据是易于获取、反映真实场景但尚待开发的无标注数据

图5A是本申请实施例有监督网络的训练方法的实现流程示意图，结合图5A，进行以下说明：

如图5A所示的一个有监督的学习架构中，给定一个语音分离网络f_θ(即学生网络504)和该网络的学习参数θ，网络的目标函数L(f_θ(x),y)通常反映分离的“准确程度(correctness)”，定义为预测分离结果

和原始干净语音数据(即标注)y＝(s,e)之间的差异。在图5A中，将有标注的干净语音信号501和干扰信号502(即干净样本音频和噪声样本音频)相混合，得到有标注的混合信号503(即第三样本集合)；然后，采用混合信号503对学生网络504进行训练，即将混合信号503输入学生网络504中，确定每一个预测分离结果的损失，将损失最小的分离结果作为准确程度最高的分离结果，即分离结果505和506分别与干净语音信号501和干扰信号502相对应。基于该最小损失对学生网络504的网络参数进行调整，以得到已训练的学生网络，并将该已训练的学生网络作为图5B中的教师网络512。例如，在一个发明实例中采用尺度不变的信噪比(Scale-invariant SNR，SI-SNR)和PIT来定义已训练的学生网络的损失函数L(f_θ(x),y)，如公式(1)所示：

其中，在公式(1)，

表示b到a的投影。u和v分别表示干净语音信号和干扰信号中的任意一种，且u和v不同。

这里，如公式(1)采用的比例不变信噪比和损失函数，可以用其它重建类型的损失函数替代，例如均方误差等。

图5A表示有监督学习的过程，在图5A中，假设输入-输出对符合联合分布P(x,y)(该分布通常是未知的)，目标是最小化损失函数在该分布上的期望(E xpected Risk)，从而求得有监督网络参数θ^*的最优解如公式(2)所示：

其中，在公式(2)中，N_L表示有标注的样本数据的数量，D_L表示有标注的样本数据，dP_emp(x,y；D_L)可以表示为公式(3)所示：

其中，δ(·)表示一个以(x_i,y_i)为中心的狄拉克δ函数。基于此，就可以利用N_L个有标注训练样本来估计上述期望。采用公式(1)至(3)提供的方式训练的复杂神经网络其实是“记忆”了训练数据，而非利用训练数据进行“泛化”；此外，报告显示单纯依赖该方式进行训练的网络系统无法应对对抗攻击，即仅仅稍微偏离了训练数据分布的样本就能诱发系统给出截然不同的失败预测，因此，这种方式训练的网络无法使网络泛化到和监督训练数据集稍不匹配的测试数据上。

基于此，本申请提出一种音频分离网络的训练方法，在没有听到任何干净语音信号的情况下，依然能够将其在混合语音中分离鉴别出来，并且对各种扰动，例如能量高低、语速快慢、静态或移动、有无处理失真等，能保持高度的稳定一致性。

图5B为无监督学习的过程，通过对分离信号进行插值混合来形成扰动的策略以促成一致性学习。在图5B中，将图5A中得到的已训练的学生网络，作为教师网络512；首先，将未标注音频的混合数据511输入该教师网络512，得到两个分离结果，即预测分离的干扰信号513和干净语音信号514；其次，采用预设的干扰数据对干扰信号513和干净语音信号514分别进行插值，得到混合的混合信号515；再次，将混合信号515作为未训练的学生网络516的输入，对该网络进行训练，从该网络的输出结果中选择损失最小的输出结果，即输出结果517和518，分别与教师网络512输出的预测分离的干扰信号513和干净语音信号514相对应。最后，基于该输出结果517和518的损失，对学生网络516进行调整，以使调整后的学生网络516输出的分离结果的损失满足收敛条件；这样，在图5B中，教师网络512是已训练的网络，采用无标注的数据对未训练的学生网络516进行半监督训练，提高了最后训练得到的学生网络516的泛化能力。首先，定义图5B中的混合(Mixup)和分离(Breakdown)的操作如公式(4)和(5)所示：

其中，插值权重λ的设置符合Beta分布，即λ～Beta(α,α)，α∈(0,∞)。

然后，MBT策略训练学生网络

给定输入混合信号(包括标注的和未标注的)，通过如下方式鼓励它的预测与教师网络

的受扰动的预测之间的一致性如公式(6)所示：

其中，教师网络参数θ_T是学生网络参数θ_S的指数移动平均值。将学生网络参数在多训练步骤上作指数移动平均，能够得到更趋于准确的网络，进而加速学生-教师网络之间的反馈闭环。

同时，本申请实施例采取的在预测的分离结果上加扰动后在混合的方式，能够构建出更多的伪标注输入-输出样本对，它们离分离边界更近，因此对基于一致性的规整训练更有用。

在半监督学习的设定下，给定包含有标注数据D_L和无标注数据D_U的总数据集，MBT的训练优化的音频分离网络同时包括准确度和一致性两部分，如公式(7)所示：

其中，r(t)表示一个斜坡函数，使一致性优化指标在整体优化目标中的重要性随着训练的进行而逐渐提高。

上述公式(4)至(7)实现了对音频分离网络的训练过程，即通过(4)至(7)实现了，在半监督的条件下，得到训练好的音频分离网络；从公式(7)可以看出，在本申请实施例中，采用的对待分离音频进行分离的网络即可保证分离结果的一致性，还可以保证分离结果的准确性。

数据自动在线扩增能够用于提高有监督学习网络的泛化性能。例如，在图像分类领域，通过移位、放大、缩小、旋转、翻转等方式来扩充图片样本；类似地，在语音识别领域，通过改变SNR、节奏、声带长度或快慢等方式扩充语音训练数据。然而，这是在有标注数据的基础上进行扩充。基于本申请实施例中的MBT方法非常容易实现数据自动在线扩增，并且仅需要增加几乎可以忽略不计的额外计算。从公式(7)可以看到，MBT即可以挖掘有标注数据(即，j∈{1,...,N_L})，也可以挖掘未标注数据(即，j∈{N_L+1,...,N})，生成伪标签输入-输出样本对，扩充经验分布。尽管，本申请给出的示例，如公式(4)和(5)所示，是通过幅度方面的插值达到类似不同SNR的数据自动扩增的效果。值得特别指出的是，MBT的策略不局限于此，而是可以很直观地拓展到类似其它类型的数据自动在线扩增的效果，例如语速、移动或静止的方位(多麦克风阵列，即多通道场景)、算法失真等等。在一个具体例子中，在本申请实施例中，网络结构采用Conv-TasNet的结构，而且还实现了最先进的半监督方式进行混合，MT和ICT作为对比的参照系统。对所有上述半监督方法中平均教师网络中用于约束保守程度的衰减系数，均设置为0.999；另外，斜坡函数设为r(t)＝exp(t/T_max-1)，对于t∈{1,...,T_max}，其中T_max＝100表示训练的最大迭代次数。此外，将插值权重λ～Beta(α,α)中的α设置为1，即λ在[0,1]范围内均匀分布。

在其他实施例中，网络结构和具体参数，也可以采用其他的参数进行设置。本申请实施例不具体限定深度神经网络的网络类型和拓扑结构，可以替换为各种其它有效的新型的网络结构，例如，长短时记忆网络结构(LSTM)，CNN和其它网络结构相结合的网络，或者其它网络结构，例如时延网络、闸控卷积神经网络等。可以根据实际应用对网络内存占用的限制和对检测准确率的要求，对该网络的拓扑结构加以拓展或简化。

在语音标准训练和测试集(WSJ0)及概述数据集用于语音分离任务的标准数据集(WSJ0-2mix)基础上拓展。将WSJ0-2mix中作为干扰说话声的信号替换为其它类型的干扰声，得到如下混合信号数据集：

WSJ0-Libri：采用来自另一个独立语音数据集的语音作为干扰声。

WSJ0-music:采用来自43小时的音乐数据集中的音乐片段作为干扰声，涵盖了丰富的古典和流行音乐流派。

WSJ0-noise：采用来自4小时的噪声数据集的噪声片段作为干扰声，涵盖了丰富的日常生活场景，例如办公场所、餐厅、超市和建筑工地等。上述多个数据集均按照与WSJ0-2mix一致的比例拆分为训练集、开发集和测试集。这些训练集将作为未标注训练集用于下面的实验。

首先，对应上述的数据自动在线扩增效应，本申请实施例在WSJ0-2mix有标注数据集上的结果如表1所示，在深度吸引网络中的网络规模为9.1兆(M)，尺度不变的信噪比改善(Scale-invariant SNR improvement，Si-SNRi)为10.5；锚深度吸引网络的网络规模为9.1M，Si-SNRi为10.4，SDRi为10.8；双向长短记忆时域音频分离网络的网络规模为23.6M，Si-SNRi为13.2，SDRi为13.6；卷积时域音频分离网络的网络规模为8.8M，Si-SNRi为15.3，SDRi为15.6；本申请实施例提供的混合-分解训网络(MBT)以WSJ0-2mix+线上数据增强为训练数据集的情况下，网络规模为8.8M，Si-SNRi为15.5，SDRi为15.9；混合-分解训网络以WSJ0-2mix+无标注WSJO-multi为训练数据集的情况下，网络规模为8.8M，Si-SNRi为15.5。由此可以看出，本申请实施例提供的MBT以最小的网络规模(8.8兆)，达到了最好的尺度不变的信噪比改善(Scale-invariant SNR improvement，Si-SNRi)性能，而且Si-SNRi和SDRi均为最高。

表1WSJO-2mix数据集上的性能比较

接下来，为验证MBT的泛化性能，在表2、3和4中分别对比了在监督学习过程中未见的干扰类型下不同系统的性能。可以看到，在所有测试的环境中，MBT均一致地超过了参考系统，特别地，在音乐干扰声环境下，MBT取得了较ICT方法13.77％的相对SI-SNIRi的提升。

此外，本申请实施例还测试了MBT半监督学习方法在综合多领域未见干扰类型下的性能。为此，将未标注数据集WSJ0-Libri、WSJ0-noise、WSJ0-music合并为一个数据集(WSJ0-multi)。将WSJ0-multi作为多领域未标注数据集用于MBT的半监督训练，然后对各个领域的测试集进行测试，结果分别在表1、2、3、4中的最后一行给出。

从表2可以看出，无论是将哪个数据集作为训练数据集，在测试的语音与训练数据即中的语音类型不匹配时，混合-分解训练均能够均可以保存大致相同，比如，在训练数据集WSJ0-2mix上，SI-SNRi为13.75；在训练数据集WSJ0-2mix+无标注WSJO-Libri上，SI-SNRi为13.95；在训练数据集WSJ0-2mix+无标注WSJ0-multi上，SI-SNRi为13.88。

表2语音不匹配时不同训练方法的分离性能

从表3可以看出，无论是将哪个数据集作为训练数据集，在背景噪声与训练数据集中的噪声类型不匹配的情况下，混合-分解训练均能够均可以保存大致相同，比如，在训练数据集WSJ0-2mix+无标注WSJO-noise上，SI-SNRi为13.21；

在训练数据集WSJ0-2mix+无标注WSJ0-multi上，SI-SNRi为13.52。

从表4可以看出，无论是将哪个数据集作为训练数据集，在音乐与训练数据集中的音乐类型不匹配的情况下，混合-分解训练均能够均可以保存大致相同，比如，在训练数据集WSJ0-2mix+无标注WSJO-noise上，SI-SNRi为15.95；在训练数据集WSJ0-2mix+无标注WSJ0-multi上，SI-SNRi为15.67。由此可见，从表2至4中均可以看到，MBT的性能可以大致保持。特别地，在表1和表3中，MBT的性能的SI-SNRi有所提升。

表3在背景噪声不匹配的情况下不同训练方法的分离性能

表4在音乐不匹配的情况下不同训练方法的分离性能

在相关技术中，尤其是半监督学习方法中，ICT是在平均教师基础上的重要拓展和改进，主要体现在计算基于一致性的损失函数L_ICT上，如公式(8)所示：

其中，

(x_i,y_i)～D_L,(x_j,y_k)～D_U，DL为有标注样本，DU为无标注样本。

这里，用于“Mix”的样本是直接随机地从未标注数据中抽取。在本申请实施例中将其应用于语音分离任务中，并与MBT作对比，以此作为验证“Breakdown”过程的意义的消融实验。

从以上实验对比结果，可以看出，本申请实施例提供的MBT带来的性能优势所在。在应用实验中，MBT被测试用于训练--测试之间不匹配程度依次递增的不同场景，包括未见干扰语音、噪声和音乐，以反映方法的泛化性能。本申请实施例中将MBT的泛化性能和最先进的监督的方法以及半监督方法比较，结果显示MBT能够获得较ICT高达13.77％的相对Si-SNRi的提升，同时也显著地、一致地超过了对比的若干种方法。并且，本申请实施例提出的MBT需要在标准训练方案基础上额外增加的计算量很少。

下面继续说明本申请实施例提供的音频分离网络的训练的服务器455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的音频分离网络的训练的服务器455中的软件模块可以包括：第一获取模块4551，用于获取第一分离样本集合，所述第一分离样本集合中至少包括两类具有伪标签的音频；第一插值模块4552，用于采用扰动数据对所述第一分离样本集合进行插值，得到第一样本集合；第一分离模块4553，用于采用无监督网络对所述第一样本集合进行分离，得到第二分离样本集合；第一确定模块4554，确定所述第二分离样本集合中第二分离样本的损失；第一调整模块4555，用于采用所述第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件。

在一些实施例中，所述第一获取模块4551，还用于：获取至少包括未标注音频的样本音频；采用已训练的有监督网络，按照音频数据的类型，对所述样本音频进行分离，得到每一类型的分离样本，以得到所述第一分离样本集合；其中，所述有监督网络的网络参数是基于所述无监督网络的网络参数进行更新的。

在一些实施例中，所述第一插值模块4552，还用于：将每一第一分离样本一一对应的与不同的扰动数据相乘，得到调整数据集合；对所述调整数据集合中的调整数据求和，得到所述第一样本集合。

在一些实施例中，所述第一确定模块4554，还用于：确定每一第二分离样本与所述第一分离样本集合的真值数据之间的损失，得到每一第二分离样本的损失，以得到损失集合；所述第一调整模块4555，还用于从所述损失集合中，确定最小损失；基于所述最小损失，更新所述无监督网络的网络参数，得到更新的网络参数。

在一些实施例中，所述第一调整模块4555，还用于：将所述更新的网络参数反馈给所述有监督网络，以调整所述有监督网络的网络参数，得到更新的有监督网络。

在一些实施例中，所述第一调整模块4555，还用于：确定所述更新的网络参数的滑动平均值；将所述滑动平均值反馈给所述有监督网络，以调整所述有监督网络的网络参数，以得到所述更新的有监督网络。

在一些实施例中，所述第一调整模块4555，还用于：采用所述更新的有监督网络，对所述样本音频进行再次分离，得到第三分离样本集合；采用所述扰动数据对所述第三分离样本集合进行插值，得到第二样本集合，并将所述第二样本集合输入更新的无监督网络；采用所述更新的无监督网络对所述第二样本集合进行再次预测分离，得到第四分离样本集合；确定所述第四分离样本集合中第四分离样本的损失；采用所述第四分离样本的损失，对所述更新的无监督网络的网络参数和所述更新的有监督网络的网络参数进行调整，以使调整后的更新的无监督网络输出的分离结果的损失满足收敛条件。

在一些实施例中，所述第一分离模块4553，还用于：获取有标注的干净样本音频和噪声样本音频；将所述干净样本音频和噪声样本音频相混合，得到第三样本集合；采用待训练的有监督网络对所述第三样本集合进行分离，得到第五分离样本集合；确定所述第五分离样本集合中的第五分离样本的损失；采用所述第五分离样本的损失，对所述待训练的有监督网络的网络参数进行调整，以使调整后的待训练的有监督网络输出的分离结果的损失满足收敛条件，得到已训练的所述有监督网络。

下面继续说明本申请实施例提供的音频分离的终端456的实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器450的终端456中的软件模块可以包括：第二获取模块4561，用于获取待分离音频；第一输入模块4562，用于采用已训练的神经网络对所述待分离音频进行分离，得到分离结果；其中，所述神经网络为基于上述所述的音频分离网络的训练方法训练得到的；第一输出模块4563，用于输出所述分离结果。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的音频分离方法，或者用于引起处理器执行本申请实施例提供音频分离网络的训练方法。在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种终端。在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(Hyper Text MarkupLanguage，HTML)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个车载计算终端上执行，或者在位于一个地点的多个计算终端上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算终端上执行。综上所述，本申请实施例对用于进行音频分离的网络的训练过程中，首先，通过对两类具有伪标签的音频的第一分离样本集合进行插值，以得到混合后的第一样本集合；然后，基于第一样本集合对无监督网络进行训练，以基于第二分离样本的损失，对所述无监督网络的网络参数进行调整，以使调整后的无监督网络输出的分离结果的损失满足收敛条件；如此，在对无监督网络训练的过程中，采用两类具有伪标签的音频和采用扰动数据进行插值的第一样本集合，这样，采用第一样本集合作为训练无监督网络的样本，丰富了无监督网络的样本数据，从而增强了无监督网络的泛化能力。以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种音频分离网络的训练方法，其特征在于，所述方法包括：

确定所述第二分离样本集合中第二分离样本的损失；

2.根据权利要求1所述的方法，其特征在于，所述获取第一分离样本集合，包括：

获取至少包括未标注音频的样本音频；

采用已训练的有监督网络，按照音频数据的类型，对所述样本音频进行分离，得到每一类型的分离样本，以得到所述第一分离样本集合；其中，所述有监督网络的网络参数是基于所述无监督网络的网络参数进行更新的。

3.根据权利要求1所述的方法，其特征在于，所述采用扰动数据对所述第一分离样本集合进行插值，得到第一样本集合，包括：

将每一第一分离样本一一对应的与不同的扰动数据相乘，得到调整数据集合；

对所述调整数据集合中的调整数据求和，得到所述第一样本集合。

4.根据权利要求2所述的方法，其特征在于，所述确定所述第二分离样本集合中第二分离样本的损失，包括：确定每一第二分离样本与所述第一分离样本集合的真值数据之间的损失，得到每一第二分离样本的损失，以得到损失集合；

对应地，所述采用所述第二分离样本的损失，对所述无监督网络的网络参数进行调整，包括：从所述损失集合中，确定最小损失；基于所述最小损失，更新所述无监督网络的网络参数，得到更新的网络参数。

5.根据权利要求4所述的方法，其特征在于，在所述基于所述最小损失，更新所述无监督网络的网络参数，得到更新的网络参数之后，所述方法还包括：

将所述更新的网络参数反馈给所述有监督网络，以调整所述有监督网络的网络参数，得到更新的有监督网络。

6.根据权利要求5所述的方法，其特征在于，所述将所述更新的网络参数反馈给所述有监督网络，以调整所述有监督网络的网络参数，得到更新的有监督网络，包括：

确定所述更新的网络参数的滑动平均值；

将所述滑动平均值反馈给所述有监督网络，以调整所述有监督网络的网络参数，以得到所述更新的有监督网络。

7.根据权利要求5或6所述的方法，其特征在于，在所述将所述更新的网络参数反馈给所述有监督网络，以调整所述有监督网络的网络参数，得到更新的有监督网络之后，所述方法还包括：

采用所述更新的有监督网络，对所述样本音频进行再次分离，得到第三分离样本集合；

采用所述扰动数据对所述第三分离样本集合进行插值，得到第二样本集合，并将所述第二样本集合输入更新的无监督网络；

采用所述更新的无监督网络对所述第二样本集合进行再次预测分离，得到第四分离样本集合；

确定所述第四分离样本集合中第四分离样本的损失；

采用所述第四分离样本的损失，对所述更新的无监督网络的网络参数和所述更新的有监督网络的网络参数进行调整，以使调整后的更新的无监督网络输出的分离结果的损失满足收敛条件。

8.根据权利要求2所述的方法，其特征在于，在所述采用已训练的有监督网络，按照音频数据的类型，对所述样本音频进行分离，得到每一类型的分离样本，以得到所述第一分离样本集合之前，所述方法还包括：

获取有标注的干净样本音频和噪声样本音频；

将所述干净样本音频和噪声样本音频相混合，得到第三样本集合；

采用待训练的有监督网络对所述第三样本集合进行分离，得到第五分离样本集合；

确定所述第五分离样本集合中的第五分离样本的损失；

采用所述第五分离样本的损失，对所述待训练的有监督网络的网络参数进行调整，以使调整后的待训练的有监督网络输出的分离结果的损失满足收敛条件，得到已训练的所述有监督网络。

9.一种音频分离方法，其特征在于，所述方法包括：

获取待分离音频；

采用已训练的神经网络对所述待分离音频进行分离，得到分离结果；其中，所述神经网络为基于上述权利要求1至8任一项所述的音频分离网络的训练方法训练得到的；

输出所述分离结果。

10.一种音频分离网络的训练装置，其特征在于，所述装置包括：

11.一种音频分离装置，其特征在于，所述装置包括：

第二获取模块，用于获取待分离音频；

第一输入模块，用于采用已训练的神经网络对所述待分离音频进行分离，得到分离结果；其中，所述神经网络为基于上述权利要求1至8任一项所述的音频分离网络的训练方法训练得到的；

第一输出模块，用于输出所述分离结果。

12.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至8任一项所述的方法，或用于引起处理器执行时，实现权利要求9所述的方法。