CN114613387A

CN114613387A - 语音分离方法、装置、电子设备与存储介质

Info

Publication number: CN114613387A
Application number: CN202210301773.8A
Authority: CN
Inventors: 潘峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-10

Abstract

本发明提供一种语音分离方法、装置、电子设备与存储介质，其中方法包括：确定待分离语音；将待分离语音输入至语音分离模型，得到语音分离模型输出的待分离语音的目标语音；语音分离模型是多个学生模型中的一个，多个学生模型基于第一样本语音，以及第一样本语音的伪目标语音，对多个初始学生模型训练得到，第一样本语音的伪目标语音基于教师模型和多个初始学生模型分别针对第一样本语音输出的第一语音分离结果确定，教师模型是有监督训练得到的，能够获得分离效果优于教师模型的学生模型，同时提升学生模型的泛化性，在此基础上，将学生模型应用于语音分离任务中，能够得到较好的语音分离效果。

Description

语音分离方法、装置、电子设备与存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音分离方法、装置、电子设备与存储介质。

背景技术

语音分离指的是将不同说话人的干净语音从带噪混合语音中分离出来。神经网络依赖大量有标签数据以提供模型的泛化性，防止过拟合。高质量的有监督数据往往昂贵，难以获取；而无监督数据，通常量大，易获取，但因为缺乏有效的利用方法而被忽略。对基于深度学习的语音分离任务来说，有监督数据更是难以获取，因为噪声、人声干扰等无处不在。

因此，如何利用大量无监督数据联合少量有监督数据进行针对语音分离的半监督模型训练，仍然是语音分离领域亟待解决的问题。

发明内容

本发明提供一种语音分离方法、装置、电子设备与存储介质，用以解决现有技术中缺乏针对语音分离的半监督模型训练方法的问题。

本发明提供一种语音分离方法，包括：

确定待分离语音；

将所述待分离语音输入至语音分离模型，得到所述语音分离模型输出的所述待分离语音的目标语音；

所述语音分离模型是多个学生模型中的一个，所述多个学生模型基于第一样本语音，以及所述第一样本语音的伪目标语音，对多个初始学生模型训练得到，所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定，所述教师模型是有监督训练得到的。

根据本发明提供的一种语音分离方法，所述多个学生模型基于如下步骤训练得到：

将所述第一样本语音分别输入至所述教师模型和所述多个初始学生模型中，得到所述教师模型和所述多个初始学生模型分别输出的第一语音分离结果；

确定各第一语音分离结果中分离效果最优的第一语音分离结果，并将所述分离效果最优的第一语音分离结果中的目标语音确定为所述第一样本语音的伪目标语音；

基于所述第一样本语音的伪目标语音，以及所述多个初始学生模型分别输出的第一语音分离结果，对所述多个初始学生模型进行参数迭代更新，得到所述多个学生模型。

根据本发明提供的一种语音分离方法，所述确定各第一语音分离结果中分离效果最优的第一语音分离结果，包括：

对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，并确定所述各第一语音分离结果中的目标语音的语谱特征和所述干扰音频的语谱特征之间的相似度；

基于所述各第一语音分离结果对应的相似度，确定相似度最低对应的第一语音分离结果，并将所述相似度最低对应的第一语音分离结果确定为所述分离效果最优的第一语音分离结果；

或者，基于所述各第一语音分离结果对应的相似度，确定所述各第一语音分离结果的分离效果，并基于所述各第一语音分离结果的分离效果，确定所述分离效果最优的第一语音分离结果。

根据本发明提供的一种语音分离方法，所述对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，包括：

分别将所述各第一语音分离结果中的目标语音和干扰音频输入至语谱特征提取器中，得到所述目标语音的语谱特征和所述干扰音频的语谱特征；

所述语谱特征提取器是说话人识别模型中的特征提取器，所述说话人识别模型基于说话人语音以及所述说话人语音的说话人信息训练得到。

根据本发明提供的一种语音分离方法，所述基于所述第一样本语音的伪目标语音，以及所述多个初始学生模型分别输出的第一语音分离结果，对所述多个初始学生模型进行参数迭代更新，包括：

在所述分离效果最优的第一语音分离结果为所述教师模型输出的第一语音分离结果的情况下，基于所述第一样本语音的伪目标语音，以及所述多个初始学生模型分别输出的第一语音分离结果，对所述多个初始学生模型进行参数迭代更新；

在所述分离效果最优的第一语音分离结果为任一初始学生模型输出的第一语音分离结果的情况下，基于所述第一样本语音的伪目标语音，以及其他初始学生模型分别输出的第一语音分离结果，对所述其他初始学生模型进行参数迭代更新，所述其他初始学生模型是所述多个初始学生模型中除所述任一初始学生模型之外的初始学生模型。

根据本发明提供的一种语音分离方法，所述多个学生模型还基于如下步骤训练得到：

将第二样本语音分别输入至所述多个初始学生模型中，得到所述多个初始学生模型分别输出的第二语音分离结果；

基于所述第二样本语音的真实目标语音，以及所述多个初始学生模型分别输出的第二语音分离结果，对所述多个初始学生模型进行参数迭代更新，得到所述多个学生模型。

根据本发明提供的一种语音分离方法，所述语音分离模型是基于如下步骤确定的：

将第三样本语音分别输入至所述多个学生模型中，得到所述多个学生模型分别输出的第三语音分离结果；

基于所述第三样本语音的真实目标语音，以及所述多个学生模型分别输出的第三语音分离结果，确定所述多个学生模型分别对应的性能评估结果；

基于所述多个学生模型分别对应的性能评估结果，从所述多个学生模型中确定所述语音分离模型。

本发明还提供一种语音分离装置，包括：

语音确定单元，用于确定待分离语音；

语音分离单元，用于将所述待分离语音输入至语音分离模型，得到所述语音分离模型输出的所述待分离语音的目标语音；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音分离方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音分离方法。

本发明提供的语音分离方法、装置、电子设备与存储介质，通过构建教师模型以及多个学生模型共同参与半监督模型训练，教师模型根据有监督语音数据训练得到，并根据教师模型和多个学生模型分别针对无监督语音数据的输出结果确定无监督语音数据的伪标签，引导多个学生模型进行训练，从而能够实现学生模型突破教师模型的限制，获得分离效果优于教师模型的学生模型，同时提升学生模型的泛化性，在此基础上，将学生模型应用于对待分离语音的语音分离任务中，能够得到更为纯净的目标语音，获得较好的语音分离效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音分离方法的流程示意图之一；

图2是本发明提供的多个学生模型的训练流程示意图之一；

图3是本发明提供的分离效果最优的第一语音分离结果的确定方法的流程示意图；

图4是本发明提供的多个学生模型的训练流程示意图之二；

图5是本发明提供的语音分离模型的确定方法的流程示意图；

图6是本发明提供的教师模型的训练流程示意图；

图7是本发明提供的多个学生模型的训练流程示意图之三；

图8是本发明提供的语音分离方法的流程示意图之二；

图9是本发明提供的语音分离装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，一些基于深度学习的半监督学习方法相继被提出。Mean-teacher是使用最为广泛也是最基础的半监督训练方法，其大致思想是模型既充当学生，又充当老师。作为老师，用来产生学生学习时的目标；作为学生，则利用教师模型产生的目标来进行学习。这种半监督双模型策略在图像分类任务上相比有监督模型策略取得了一定的准确率提升。然而Mean-teacher最大的弊端在于直接使用一致性约束和模型参数平滑会导致教师模型和学生模型严重耦合，导致性能瓶颈、模型坍塌；另外，教师模型相比学生模型并没有学到更有意义的知识，如果学生模型对某些样本存在错误预测，则教师模型大概率会保留这种错误预测，而无法矫正。

为了克服Mean-teacher的性能缺陷，Dual-student方法被提出，Dual-student采用双学生模型独立训练，不再有固定的教师模型，以实现双模型的解耦合，防止模型坍塌。具体做法是，在训练过程中，表现更稳定的学生模型作为标签指导另一个学生模型的训练，至于稳定性的计算准则取决于模型的分类后验概率。类似地，利用分类后验概率指导半监督模型训练的思想，还有Mixmatch、Remixmatch以及Fixmatch等方法。然而这些方法最大的局限性在于，由于需要利用分类后验概率，只可应用于深度学习中的分类任务，如图像识别、意图分类和语音识别等；而无法应用于深度学习中的回归任务，如语音分离、语音降噪和回声消除等等。

事实上，针对语音分离的半监督学习方法到目前为止并不多，Mixup-Breakdown是其中的一种。Mixup-Breakdown的核心思想是通过教师模型把无监督数据分解为第一目标语音和第二目标语音(或噪声)，然后按照一定的信干比(或信噪比)重新构建混合信号，继续训练学生模型；同时，教师模型的输出直接作为学生模型训练的标签。

然而，这种双模型串联的方法最大的风险点在于，其对教师模型的语音分离性能要求非常高。因为教师模型的输出直接作为学生模型的学习目标以及用于构建学生模型的输入，如果教师模型的分离效果不够好，会导致标签污染等问题，进而导致学生模型训练得更差。

对此，本发明提供一种语音分离方法。图1是本发明提供的语音分离方法的流程示意图之一，如图1所示，该方法包括：

步骤110，确定待分离语音。

此处，待分离语音即需要进行语音分离的混合语音，可以通过收音设备预先采集得到的，也可以是实时录制得到的。实时录制可以是语音录制，也可以是视频录制。语音分离可以用于实现说话人的语音信号与背景音乐、噪声等其它音频信号的分离，也可以用于实现不同说话人分别对应的语音信号的分离，本发明实施例对此不作具体限定。

步骤120，将待分离语音输入至语音分离模型，得到语音分离模型输出的待分离语音的目标语音；

语音分离模型是多个学生模型中的一个，多个学生模型基于第一样本语音，以及第一样本语音的伪目标语音，对多个初始学生模型训练得到，第一样本语音的伪目标语音基于教师模型和多个初始学生模型分别针对第一样本语音输出的第一语音分离结果确定，教师模型是有监督训练得到的。

具体地，在确定待分离语音之后，可以将待分离语音输入到语音分离模型中，由语音分离模型对待分离语音进行语音分离，从而得到模型输出的待分离语音的语音分离结果，其中包括目标语音和干扰音频，此处的目标语音即目标说话人的干净语音，干扰音频即对目标语音造成干扰的音频，例如可以是其他说话人的语音、背景音乐、噪声等。

在执行步骤120之前，考虑到语音分离任务中有监督数据往往难以获取，而无监督数据易获取，对此，本发明实施例应用大量无监督数据联合少量有监督数据的半监督模型训练方法得到语音分离模型，以达到减少标签数据制作成本的同时增加模型的泛化性。基于此，又考虑到现有的针对语音分离任务的半监督模型训练方法会过度信任有监督模型的输出，导致半监督模型的训练上限即为有监督模型，且模型泛化性也没有获得本质提升，对此，本发明实施例同时应用教师模型和多个初始学生模型，通过各模型针对无监督数据输出的结果确定无监督数据的伪标签，即第一样本语音的伪目标语音，以此作为学习目标引导多个初始学生模型进行无监督数据的训练，从而得到训练完成的多个学生模型，并通过随机选取或性能测试等方式从多个学生模型中确定出语音分离模型。

具体的训练步骤可以是：首先，收集大量无监督语音数据作为第一样本语音，并构建教师模型，此处，可以直接应用有监督训练得到的预训练模型作为教师模型，也可以首先收集有监督语音数据及其对应的真实标签，再根据有监督语音数据及其对应的真实标签对初始教师模型进行有监督训练，从而得到教师模型；随即，根据教师模型和多个初始学生模型分别针对第一样本语音输出的第一语音分离结果确定第一样本语音对应的伪标签，即伪目标语音，并应用第一样本语音以及第一样本语音的伪目标语音，对多个初始学生模型进行训练，从而得到多个学生模型。

此处，多个学生模型可以是两个学生模型，也可以是两个以上学生模型；教师模型和各学生模型的模型结构可以相同，也可以不同，模型结构可以采用时频域网络结构，例如，DCCRN(Deep Complex Convolution Recurrent Network，深度复卷积循环网络)、FSMN(Feedforward Sequential Memory Networks，前馈序列记忆神经网络)和CLDNN(CNN-LSTM-DNN，卷积神经网络-长短期记忆网络-深度神经网络)等，也可以采用时域网络结构，例如，tasnet和conv-tasnet等，本发明实施例对此均不作具体限定。

第一样本语音的伪目标语音的确定方式可以是对各模型输出的第一语音分离结果进行语音分离效果的评估，再根据语音分离效果最优的第一语音分离结果中的目标语音确定伪目标语音，也可以是对各模型输出的第一语音分离结果中的目标语音进行语音纯净度的评估，再根据语音纯净度最高的目标语音确定伪目标语音，本发明实施例对此不作具体限定。多个学生模型的训练方式可以是仅应用第一样本语音进行训练，也可以是结合第一样本语音与有监督语音数据进行联合训练，本发明实施例对此也不作具体限定。

需要说明的是，区别于现有技术中固定由教师模型的输出结果作伪标签，本发明实施例通过不断对各模型输出的第一语音分离结果进行评估，根据各模型对应的评估结果确定第一样本语音的伪目标语音，从而通过不断更新学习目标，督促初始学生模型不断学习，逐渐提升模型性能，进而能够使得训练完成的学生模型突破教师模型的限制，达到相比教师模型更优的分离效果。另外，为了避免各初始学生模型输出的第一语音分离结果出现一直相同的极端情况，导致各初始学生模型的训练上限仍为教师模型，本发明实施例中各初始学生模型为初始模型参数不同的模型，此处的初始模型参数可以是随机生成的，也可以是预先设置的，并且，在训练过程中各初始学生模型独立学习，不共享参数。

本发明实施例提供的方法，通过构建教师模型以及多个学生模型共同参与半监督模型训练，教师模型根据有监督语音数据训练得到，并根据教师模型和多个学生模型分别针对无监督语音数据的输出结果确定无监督语音数据的伪标签，引导多个学生模型进行训练，从而能够实现学生模型突破教师模型的限制，获得分离效果优于教师模型的学生模型，同时提升学生模型的泛化性，在此基础上，将学生模型应用于对待分离语音的语音分离任务中，能够得到更为纯净的目标语音，获得较好的语音分离效果。

基于上述实施例，图2是本发明提供的多个学生模型的训练流程示意图之一，如图2所示，多个学生模型基于如下步骤训练得到：

步骤210，将第一样本语音分别输入至教师模型和多个初始学生模型中，得到教师模型和多个初始学生模型分别输出的第一语音分离结果；

步骤220，确定各第一语音分离结果中分离效果最优的第一语音分离结果，并将分离效果最优的第一语音分离结果中的目标语音确定为第一样本语音的伪目标语音；

步骤230，基于第一样本语音的伪目标语音，以及多个初始学生模型分别输出的第一语音分离结果，对多个初始学生模型进行参数迭代更新，得到多个学生模型。

具体地，为了实现更直接地提升学生模型的语音分离效果，本发明实施例在得到训练完成的教师模型之后，先将第一样本语音输入到教师模型中，得到教师模型输出的第一语音分离结果，并将第一样本语音分别输入到多个初始学生模型中，得到多个初始学生模型输出的第一语音分离结果，随即，对各模型输出的第一语音分离结果进行分离效果的评估，从而根据评估结果确定出各第一语音分离结果中分离效果最优的第一语音分离结果，此处的分离效果用于表征对应第一语音分离结果中的目标语音和干扰音频之间的区分度。

在此基础上，即可将分离效果最优的第一语音分离结果中的目标语音确定为第一样本语音的伪目标语音，最后，可以根据损失函数确定多个初始学生模型分别输出的第一语音分离结果与该伪目标语音之间的损失值，再根据多个初始学生模型分别对应的损失值引导多个初始学生模型进行参数迭代更新，从而得到多个学生模型。

本发明实施例提供的方法，通过从教师模型和各学生模型的输出结果中挑选出分离效果最优的输出结果，将其中的目标语音作为无监督数据的伪标签，以此作为学习目标引导多个初始学生模型进行无监督数据的训练，从而打破了传统的固定教师模型输出结果作伪标签对于模型训练的限制，更容易获得优于有监督模型的语音分离效果。

基于上述任一实施例，图3是本发明提供的分离效果最优的第一语音分离结果的确定方法的流程示意图，如图3所示，确定各第一语音分离结果中分离效果最优的第一语音分离结果，包括：

步骤310，对各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，并确定各第一语音分离结果中的目标语音的语谱特征和干扰音频的语谱特征之间的相似度；

步骤320，基于各第一语音分离结果对应的相似度，确定相似度最低对应的第一语音分离结果，并将相似度最低对应的第一语音分离结果确定为分离效果最优的第一语音分离结果；

或者，基于各第一语音分离结果对应的相似度，确定各第一语音分离结果的分离效果，并基于各第一语音分离结果的分离效果，确定分离效果最优的第一语音分离结果。

具体地，分离效果最优的第一语音分离结果可以通过如下方式确定：首先，对各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，得到各第一语音分离结果中的目标语音的语谱特征和干扰音频的语谱特征；随即，计算各第一语音分离结果中的目标语音的语谱特征和干扰音频的语谱特征之间的相似度，再根据各第一语音分离结果对应的相似度，确定分离效果最优的第一语音分离结果，此处的确定方式可以是比较各第一语音分离结果对应的相似度，确定相似度最低对应的第一语音分离结果，再将相似度最低对应的第一语音分离结果确定为分离效果最优的第一语音分离结果，也可以是根据各第一语音分离结果对应的相似度，计算各第一语音分离结果的分离效果，再根据各第一语音分离结果的分离效果确定分离效果最优的第一语音分离结果。

此处，语谱特征用于表征对应音频在频谱上的特性，例如可以是x-vector、i-vector等。相似度可以是采用余弦相似度、Pearson相关系数等方法进行计算得到。分离效果用于表征目标语音和干扰音频之间的区分度，可以是1减去相似度得到的，也可以是某个常数除以相似度得到的，本发明实施例对此不作具体限定。

可以理解的是，在语音分离任务中，分离出的两个音频应属于不同声源，它们的语谱特征之间应是有区分度的，如果二者之间的相似度越高，则说明对应的第一语音分离结果的分离效果越差，如果二者之间的相似度越低，则说明对应的第一语音分离结果的分离效果越优。

基于上述任一实施例，步骤310中，对各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，包括：

分别将各第一语音分离结果中的目标语音和干扰音频输入至语谱特征提取器中，得到目标语音的语谱特征和干扰音频的语谱特征；

语谱特征提取器是说话人识别模型中的特征提取器，说话人识别模型基于说话人语音以及说话人语音的说话人信息训练得到。

具体地，考虑到说话人识别任务能够实现识别语音对应的说话人信息，可以用来评估各第一语音分离结果中的目标语音和干扰音频的区分度，进而得到各第一语音分离结果的分离效果，因此，本发明实施例应用说话人识别模型中的特征提取器，即语谱特征提取器，分别将各第一语音分离结果中的目标语音和干扰音频输入到语谱特征提取器中，从而得到能够表征目标说话人信息的目标语音的语谱特征，以及其他声源信息的干扰音频的语谱特征，用于后续各第一语音分离结果的分离效果的计算。

此处，说话人识别模型可以根据说话人语音以及说话人语音的说话人信息预先训练得到，此处的说话人信息即用于表征说话人身份的信息。说话人识别模型的模型结构例如可以是TDNN(Time-Delay Neural Network，时延神经网络)、Transformer等，本发明实施例对此不作具体限定。

基于上述任一实施例，步骤230中，基于第一样本语音的伪目标语音，以及多个初始学生模型分别输出的第一语音分离结果，对多个初始学生模型进行参数迭代更新，包括：

在分离效果最优的第一语音分离结果为教师模型输出的第一语音分离结果的情况下，基于第一样本语音的伪目标语音，以及多个初始学生模型分别输出的第一语音分离结果，对多个初始学生模型进行参数迭代更新；

在分离效果最优的第一语音分离结果为任一初始学生模型输出的第一语音分离结果的情况下，基于第一样本语音的伪目标语音，以及其他初始学生模型分别输出的第一语音分离结果，对其他初始学生模型进行参数迭代更新，其他初始学生模型是多个初始学生模型中除该初始学生模型之外的初始学生模型。

具体地，在得到教师模型和多个初始学生模型分别输出的第一语音分离结果之后，可以先判定各第一语音分离结果中分离效果最优的第一语音分离结果，再根据不同的判定结果进行对应处理：

在分离效果最优的第一语音分离结果为教师模型输出的第一语音分离结果的情况下，此时将教师模型输出的第一语音分离结果中的目标语音作为第一样本语音的伪目标语音，并根据多个初始学生模型分别输出的第一语音分离结果与该伪目标语音之间的损失值，对多个初始学生模型进行参数迭代更新；

在分离效果最优的第一语音分离结果为任一初始学生模型输出的第一语音分离结果的情况下，此时说明该初始学生模型的参数当前不需要进行更新，将该初始学生模型输出的第一语音分离结果中的目标语音作为第一样本语音的伪目标语音，并根据其他初始学生模型分别输出的第一语音分离结果与该伪目标语音之间的损失值，对其他初始学生模型进行参数迭代更新，此处的其他初始学生模型即多个初始学生模型中除该初始学生模型之外的初始学生模型。

需要说明的是，考虑到如果分离效果最优的第一语音分离结果为任一初始学生模型输出的第一语音分离结果，此时则无需再训练该初始学生模型，该初始学生模型对应的损失值可以为0，只需要对其他初始学生模型进行训练即可。通过不断比较各模型输出的第一语音分离结果的分离效果，从中选取分离效果最优的第一语音分离结果中的目标语音作为学习目标，引导初始学生模型进行训练，从而能够实现学生模型突破教师模型的限制，达到相比教师模型更优的分离效果。

基于上述任一实施例，图4是本发明提供的多个学生模型的训练流程示意图之二，如图4所示，多个学生模型还基于如下步骤训练得到：

步骤410，将第二样本语音分别输入至多个初始学生模型中，得到多个初始学生模型分别输出的第二语音分离结果；

步骤420，基于第二样本语音的真实目标语音，以及多个初始学生模型分别输出的第二语音分离结果，对多个初始学生模型进行参数迭代更新，得到多个学生模型。

具体地，为了充分发挥有监督语音数据的作用，以保持有监督模型的优势，进一步提升学生模型的语音分离效果，本发明实施例在多个学生模型的训练阶段，还应用少量有监督语音数据作为第二样本语音，对多个初始学生模型进行训练，具体过程可以是，先将第二样本语音分别输入至多个初始学生模型中，得到多个初始学生模型分别输出的第二语音分离结果，再根据第二样本语音对应的真实标签即真实目标语音，多个初始学生模型分别输出的第二语音分离结果，联合无监督语音数据即第一样本语音的伪目标语音以及多个初始学生模型分别输出的第一语音分离结果，对多个初始学生模型进行参数迭代更新，从而得到多个学生模型。

需要说明的是，在联合无监督语音数据和有监督语音数据对多个初始学生模型进行参数迭代更新的过程中，可以先应用无监督语音数据进行参数迭代更新，得到更新后的多个初始学生模型，再应用有监督语音数据对更新后的多个初始学生模型继续进行参数迭代更新，最终得到多个学生模型，也可以先应用有监督语音数据进行参数迭代更新，得到更新后的多个初始学生模型，再应用无监督语音数据对更新后的多个初始学生模型继续进行参数迭代更新，最终得到多个学生模型，还可以将无监督语音数据和有监督语音数据组成混合的训练样本，再应用混合的训练样本对多个初始学生模型进行参数迭代更新，最终得到多个学生模型，本发明实施例对此不作具体限定。

基于上述任一实施例，图5是本发明提供的语音分离模型的确定方法的流程示意图，如图5所示，语音分离模型是基于如下步骤确定的：

步骤510，将第三样本语音分别输入至多个学生模型中，得到多个学生模型分别输出的第三语音分离结果；

步骤520，基于第三样本语音的真实目标语音，以及多个学生模型分别输出的第三语音分离结果，确定多个学生模型分别对应的性能评估结果；

步骤530，基于多个学生模型分别对应的性能评估结果，从多个学生模型中确定语音分离模型。

具体地，在得到多个训练完成的学生模型之后，为了测试多个学生模型的性能，以选取性能最优的学生模型作为语音分离模型，本发明实施例将没参与训练的有监督语音数据作为第三样本语音，并获取第三样本语音对应的真实标签，即第三样本语音的真实目标语音，并将第三样本语音分别输入至多个学生模型中，得到多个学生模型分别输出的第三语音分离结果，随即，根据第三样本语音的真实目标语音，以及多个学生模型分别输出的第三语音分离结果，对多个学生模型进行性能评估，从而得到多个学生模型分别对应的性能评估结果，再根据多个学生模型分别对应的性能评估结果，从多个学生模型中确定语音分离模型。

此处，性能评估的方式可以是直接使用SDR(signal-to-distortion ratio，信号失真比)、PESQ(Perceptual Evaluation of Speech Quality，语音质量的感知评估)等性能指标进行评估，也可以是应用损失函数进行评估，例如，应用损失函数计算多个学生模型分别输出的第三语音分离结果中的目标语音与第三样本语音的真实目标语音之间的损失值，再从多个学生模型中选取出损失值最小的学生模型作为语音分离模型。

进一步地，在多个学生模型的训练阶段，除了输入第一样本语音等训练样本集之外，还可以输入另外的有监督语音数据作为开发集，在每一轮训练结束后，用开发集来评估模型的损失函数是否收敛，如果没有收敛，则继续下一轮的训练，如果收敛，则训练结束。此时，可以根据最后一轮训练中应用开发集数据所得到的各学生模型对应的损失值，确定语音分离模型，也可以重新再输入新的有监督语音数据，根据由此得到的各学生模型对应的损失值确定语音分离模型，本发明实施例对此不作具体限定。

基于上述任一实施例，由于语音分离任务属于回归任务，并没有分类后验概率或置信度的概念，无法采用Dual-student的训练方法。现有的针对语音分离任务的半监督模型训练方法通常过度信任有监督模型的输出，导致半监督模型训练上限即为有监督模型(不考虑数据增强等额外举措)。由于有监督模型的束缚，导致无监督数据的贡献较小，模型泛化性并没有获得本质提升。

对此，本发明提供一种针对语音分离任务的半监督模型训练方法，以多个学生模型为两个学生模型为例，该方法的具体实现流程如下：

Step1：使用有监督数据集预训练有监督模型(作为教师模型)。

图6是本发明提供的教师模型的训练流程示意图，如图6所示，具体地：

Step1-1：准备说话人的高保真语音作为真实目标语音，其他说话人的语音、实际采集噪声及仿真散射噪声中的至少一种作为真实干扰音频。

Step1-2：将真实目标语音与真实干扰音频按照一定范围(例如，-10db-10db)的信干比或信噪比在时域上进行叠加，由此构建混合语音作为教师模型的训练样本，即第二样本语音，以模拟各种场景下的混合语音。

Step1-3：开展教师模型的训练，使用用于衡量降噪量的SI-SNR(Scale InvariantSignal-to-noise Ratio，尺度不变信噪比)作为损失函数(即图6中的有监督loss)，约束输出的目标语音向第二样本语音的真实目标语音标签逼近，即：

Loss＝SISNR(Out_target，Label_target)

其中，Out_target为教师模型针对第二样本语音输出的目标语音，Label_target为第二样本语音的真实目标语音。

Step2：使用有监督数据集联合无监督数据集训练半监督模型(双学生模型)。

开展半监督模型训练而不是无监督模型训练是为了充分利用有监督数据的资源，引导模型学习和保持有监督模型的优势。对于训练集中的有监督训练数据，即第二样本语音，采用和Step1-3中一样的做法，使用真实目标语音标签作为学习目标开展两个学生模型的训练；对于其中的无监督训练数据，即第一样本语音，具体训练流程如下：

图7是本发明提供的多个学生模型的训练流程示意图之三，如图7所示，具体地：

Step2-1：构建三个模型：教师模型(T模型)和两个学生模型(S1模型和S2模型)，由于conv-tasnet具备分离效果优、模型尺寸小和延迟小等优势，本发明实施例采用conv-tasnet作为教师模型和两个学生模型的模型结构；其中教师模型为Step1-3中训练的有监督模型，模型参数使用Step1-3中训练好的模型参数进行初始化，并在半监督训练过程中保持参数不更新，只前向输出目标语音和干扰音频作参考；两个学生模型独立学习，不共享参数，权重等模型参数随机初始化，步长、学习率、优化器等训练参数保持一致。

Step2-2：第一样本语音作为教师模型和各学生模型的输入。

Step2-3：在说话人识别任务中，DNN(Deep Neural Networks，深度神经网络)投影可变长度的语音段为固定维度的说话人嵌入embedding，被称之为x-vector。本发明实施例采用在说话人识别任务中预训练好的语谱特征提取器，即x-vector提取器(TDNN)，用来生成教师模型和学生模型输出目标语音和干扰音频的固定维度(例如400维)的语谱特征embedding，此处的embedding可以用于相似度的计算以评估无监督数据对应的分离效果。

Step2-4：计算各模型输出的目标语音的embedding和干扰音频的embedding之间的余弦距离，来评估各模型输出的第一语音分离结果的分离效果，计算公式为：

其中，Emb_target即各模型输出的目标语音的embedding，Emb_interf即各模型输出的干扰音频的embedding，

即二者之间的余弦距离。

余弦相似度cos(A，B)定义为：

其中，||A||²＝1，||B||²＝1。余弦相似度的取值范围是[-1，1]，相同两个向量之间的相似度为1，因此余弦距离的取值范围为[0，2]，相同两个向量的之间的余弦距离为0。在语音分离任务中，分离出的两个说话人的语谱特征即embedding应是有区分度的，即

值越大，说明两个说话人语音分离的效果越好。

Step2-5：根据step2-4计算出的教师模型和两个学生模型分别对应的余弦距离，以及余弦距离判决条件判定loss回传与梯度更新，余弦距离判决条件具体为：

1)若

且

此时两个学生模型对应的分离效果均比教师模型差。对于该条无监督数据，以T模型输出的伪标签为学习目标，同时更新S1和S2模型参数。损失函数为：

Loss_S1＝SISNR(out_S1，out_T)

Loss_S2＝SISNR(out_S2，out_t)

2)若

此时一个学生模型的分离效果比教师模型差，另一个学生模型的分离效果比教师模型好。对于该条无监督数据，以S2模型的输出为学习目标，只更新S1模型参数。这样做的目的在于能够突破教师模型的限制，达到相比教师模型更优的分离效果。损失函数为：

Loss_S1＝SISNR(out_S1，out_S2)

Loss_S2＝0

若

同理。

3)若

此时两个学生模型的分离效果均比教师模型好。与2)类似，对于该条无监督数据，以S2模型的输出为学习目标，只更新S1模型参数。损失函数为：

Loss_S1＝SISNR(out_S1，out_S2)

Loss_S2＝0

若

同理。

Step3：模型测试

根据设置的有监督的第三样本语音进行评估和对比，从S1模型还是S2模型中选择性能更好的学生模型作为语音分离模型。

图8是本发明提供的语音分离方法的流程示意图之二，如图8所示，模型应用时，将时域的待分离语音输入到语音分离模型中，经过编码、分离和解码三个模块后，得到语音分离模型输出的分离后的时域语音信号，其中包含干净的目标语音以及干扰音频。

需要说明的是，在两个学生模型的训练阶段，如果将教师模型的参数继续进行更新，由于无监督数据量大，如果学生模型对某些样本存在错误预测，教师模型大概率会被错误所影响，也保留这种错误预测，很容易导致三个模型的输出结果都相同，损失值均为0，导致三个模型都不再继续学习，最终得到性能较差的模型。

本发明涉及基于深度学习的语音分离和半监督模型训练领域，融合了Mean-teacher和Dual-student的思想，创新性地提出构建教师模型和多个学生模型，通过各模型输出结果的embedding的余弦距离作为评估分离效果的指标，由分离效果优的模型输出结果作为无监督数据的伪标签，引导分离效果弱的模型进行无监督数据的训练，从而打破了传统的固定教师模型输出结果作伪标签对于模型训练的限制，更容易获得优于有监督模型的语音分离效果。其中，半监督模型训练时，将参考各模型输出语音的语谱特征(embedding)的余弦距离，从而决定学习目标、损失函数和模型参数是否更新。

下面对本发明提供的语音分离装置进行描述，下文描述的语音分离装置与上文描述的语音分离方法可相互对应参照。

基于上述任一实施例，本发明实施例提供一种语音分离装置。图9是本发明提供的语音分离装置的结构示意图，如图9所示，该装置包括：

语音确定单元910，用于确定待分离语音；

语音分离单元920，用于将待分离语音输入至语音分离模型，得到语音分离模型输出的待分离语音的目标语音；

本发明实施例提供的装置，通过构建教师模型以及多个学生模型共同参与半监督模型训练，教师模型根据有监督语音数据训练得到，并根据教师模型和多个学生模型分别针对无监督语音数据的输出结果确定无监督语音数据的伪标签，引导多个学生模型进行训练，从而能够实现学生模型突破教师模型的限制，获得分离效果优于教师模型的学生模型，同时提升学生模型的泛化性，在此基础上，将学生模型应用于对待分离语音的语音分离任务中，能够得到更为纯净的目标语音，获得较好的语音分离效果。

基于上述任一实施例，多个学生模型基于如下步骤训练得到：

将第一样本语音分别输入至教师模型和多个初始学生模型中，得到教师模型和多个初始学生模型分别输出的第一语音分离结果；

确定各第一语音分离结果中分离效果最优的第一语音分离结果，并将分离效果最优的第一语音分离结果中的目标语音确定为第一样本语音的伪目标语音；

基于第一样本语音的伪目标语音，以及多个初始学生模型分别输出的第一语音分离结果，对多个初始学生模型进行参数迭代更新，得到多个学生模型。

基于上述任一实施例，确定各第一语音分离结果中分离效果最优的第一语音分离结果，包括：

对各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，并确定各第一语音分离结果中的目标语音的语谱特征和干扰音频的语谱特征之间的相似度；

基于各第一语音分离结果对应的相似度，确定相似度最低对应的第一语音分离结果，并将相似度最低对应的第一语音分离结果确定为分离效果最优的第一语音分离结果；

基于上述任一实施例，对各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，包括：

基于上述任一实施例，基于第一样本语音的伪目标语音，以及多个初始学生模型分别输出的第一语音分离结果，对多个初始学生模型进行参数迭代更新，包括：

在分离效果最优的第一语音分离结果为任一初始学生模型输出的第一语音分离结果的情况下，基于第一样本语音的伪目标语音，以及其他初始学生模型分别输出的第一语音分离结果，对其他初始学生模型进行参数迭代更新，其他初始学生模型是多个初始学生模型中除任一初始学生模型之外的初始学生模型。

基于上述任一实施例，多个学生模型还基于如下步骤训练得到：

将第二样本语音分别输入至多个初始学生模型中，得到多个初始学生模型分别输出的第二语音分离结果；

基于第二样本语音的真实目标语音，以及多个初始学生模型分别输出的第二语音分离结果，对多个初始学生模型进行参数迭代更新，得到多个学生模型。

基于上述任一实施例，语音分离模型是基于如下步骤确定的：

将第三样本语音分别输入至多个学生模型中，得到多个学生模型分别输出的第三语音分离结果；

基于第三样本语音的真实目标语音，以及多个学生模型分别输出的第三语音分离结果，确定多个学生模型分别对应的性能评估结果；

基于多个学生模型分别对应的性能评估结果，从多个学生模型中确定语音分离模型。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行语音分离方法，该方法包括：确定待分离语音；将所述待分离语音输入至语音分离模型，得到所述语音分离模型输出的所述待分离语音的目标语音；所述语音分离模型是多个学生模型中的一个，所述多个学生模型基于第一样本语音，以及所述第一样本语音的伪目标语音，对多个初始学生模型训练得到，所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定，所述教师模型是有监督训练得到的。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音分离方法，该方法包括：确定待分离语音；将所述待分离语音输入至语音分离模型，得到所述语音分离模型输出的所述待分离语音的目标语音；所述语音分离模型是多个学生模型中的一个，所述多个学生模型基于第一样本语音，以及所述第一样本语音的伪目标语音，对多个初始学生模型训练得到，所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定，所述教师模型是有监督训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音分离方法，该方法包括：确定待分离语音；将所述待分离语音输入至语音分离模型，得到所述语音分离模型输出的所述待分离语音的目标语音；所述语音分离模型是多个学生模型中的一个，所述多个学生模型基于第一样本语音，以及所述第一样本语音的伪目标语音，对多个初始学生模型训练得到，所述第一样本语音的伪目标语音基于教师模型和所述多个初始学生模型分别针对所述第一样本语音输出的第一语音分离结果确定，所述教师模型是有监督训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音分离方法，其特征在于，包括：

确定待分离语音；

2.根据权利要求1所述的语音分离方法，其特征在于，所述多个学生模型基于如下步骤训练得到：

3.根据权利要求2所述的语音分离方法，其特征在于，所述确定各第一语音分离结果中分离效果最优的第一语音分离结果，包括：

4.根据权利要求3所述的语音分离方法，其特征在于，所述对所述各第一语音分离结果中的目标语音和干扰音频分别进行语谱特征提取，包括：

5.根据权利要求2所述的语音分离方法，其特征在于，所述基于所述第一样本语音的伪目标语音，以及所述多个初始学生模型分别输出的第一语音分离结果，对所述多个初始学生模型进行参数迭代更新，包括：

6.根据权利要求2所述的语音分离方法，其特征在于，所述多个学生模型还基于如下步骤训练得到：

7.根据权利要求1至6中任一项所述的语音分离方法，其特征在于，所述语音分离模型是基于如下步骤确定的：

8.一种语音分离装置，其特征在于，包括：

语音确定单元，用于确定待分离语音；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音分离方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音分离方法。