CN114023336A

CN114023336A - 模型训练方法、装置、设备以及存储介质

Info

Publication number: CN114023336A
Application number: CN202111271825.3A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-08

Abstract

本公开提供了模型训练方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉及深度学习、语音识别领域。具体实现方案为：将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，音频样本包含至少一个话语者的声音；对多个样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；根据多个待选聚类结果，对初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；其中，特征增强模型用于根据输入的基础特征，输出对应的增强特征。根据本公开的技术提高了人声分离效果。

Description

模型训练方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能领域，进一步涉及深度学习、语音识别领域，尤其涉及模型训练方法、装置、设备以及存储介质。

背景技术

在智能客服、会议讨论、访谈对话、综艺节目等场景中，单个声道上通常有多个说话人的声音，因而需要对录制下来的语音进行人声分离并进行针对性分析。通常这个过程是离线完成的，即需要输入较长的音频，给定说话人个数或按某一聚类阈值进行分离。

相关技术中，说话人分离系统通常采用TDNN(Time Delay Neural Networks，时延神经网络)、Xvector(用于提取说话人特征向量的模型)以及AHC(AgglomerativeHierarchical Clustering，分层次聚类)的联合方式。

发明内容

本公开提供了一种模型训练方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，音频样本包含至少一个话语者的声音；

对多个样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；

根据多个待选聚类结果，对初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；

其中，特征增强模型用于根据输入的基础特征，输出对应的增强特征。

根据本公开的另一方面，提供了一种语音处理方法，包括：

对待处理音频包含的多个音频片段分别进行特征提取，得到多个音频片段分别对应的基础特征，待处理音频中包含至少一个话语者的声音；

利用特征增强模型对基础特征进行增强处理，得到增强特征；

对多个增强特征进行聚类处理，得到与各话语者分别对应的聚类结果；

其中，特征增强模型采用根据本公开上述实施例的模型训练方法生成。

根据本公开的另一方面，提供了一种模型训练装置，包括：

样本增强特征获取模块，用于将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，音频样本包含至少一个话语者的声音；

第一聚类模块，用于对多个样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；

参数调整模块，用于根据多个待选聚类结果，对初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；

根据本公开的另一方面，提供了一种语音处理装置，包括：

特征提取模块，用于对待处理音频包含的多个音频片段分别进行特征提取，得到多个音频片段分别对应的基础特征，待处理音频中包含至少一个话语者的声音；

特征增强模块，用于利用特征增强模型对基础特征进行增强处理，得到增强特征；

第二聚类模块，用于对多个增强特征进行聚类处理，得到与各话语者分别对应的聚类结果；

其中，特征增强模型采用根据本公开上述实施例的模型训练装置生成。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，通过利用多个样本增强特征的多个聚类结果对初始网络的参数进行调整，即通过自监督学习例如对比学习的策略对初始网络的参数不断进行更新，以不断地提高特征增强模型的特征增强效果，并且提高了话者分离网络的区分鉴别能力，充分发挥了聚类结果的作用来对初始网络进行学习更新，从而将特征增强模型和聚类模型联合起来，最终能形成端到端的话者识别网络的框架，避免了最终得到的话者识别网络的训练结果与测试结果无法匹配的问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出根据本公开实施例的模型训练方法的流程图；

图2示出根据本公开实施例的模型训练方法的对初始网络的参数进行调整的具体流程图；

图3示出根据本公开实施例的模型训练方法的构建第一变换矩阵和第二变换矩阵的具体流程图；

图4示出根据本公开实施例的模型训练方法的应用示例图；

图5示出根据本公开实施例的语音处理方法的流程图；

图6示出根据本公开实施例的模型训练装置的框图；

图7示出根据本公开实施例的语音处理装置的框图；

图8是用来实现本公开实施例的模型训练方法和/或语音处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

申请人发现，上述训练过程与测试过程的输出不匹配，从而影响人声分离的效果。为解决上述问题，申请人提出利用聚类结果指导更新特征提取模块的网络参数的方案，也即，本公开提供了下述模型训练方法、语音处理方法、装置、设备以及存储介质。

下面参照图1至图4描述根据本公开实施例的模型训练方法。

如图1所示，根据本公开实施例的模型训练方法包括以下步骤：

S101：将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，音频样本包含至少一个话语者的声音；

S102：对多个样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；

S103：根据多个待选聚类结果，对初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；其中，特征增强模型用于根据输入的基础特征，输出对应的增强特征。

示例性地，步骤S101中，音频样本可以通过开源数据库，例如AiShell(一种公开的大规模中文语音数据库)或LibriSpeech(一种公开的大规模英文语音数据库)等进行获取。

在一个示例中，每个音频样本可以包含2到7个话语者的声音，在步骤S101之前，可以先对音频样本进行降噪处理，得到干净的音频样本。对干净的音频样本进行切分处理得到多个音频片段。例如，可以将干净的音频样本切分成时长为25ms、帧移为10ms的多个音频片段。

然后，将多个音频片段分别输入预先训练的特征提取模型，得到对应的基础特征。其中，基础特征的维度可以为128维，且基础特征可以通过将预设数量个音频片段对应的特征进行累加再平均计算得到。最终得到的基础特征的数量可以为50至700个。

其中，特征提取模型可以对每个音频片段分别提取梅尔倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)，得到每个音频片段对应的基础特征。在本公开的其他示例中，也可以对每个音频片段提取频域特征(Filter Bank，FBank)得到音频片段对应的基础特征，或者对音频片段提取感知线性预测特征(Perceptual Linear Predictive，PLP)。

在将多个基础特征输入初始网络后，初始网络对基础特征先进行白化处理，得到第一变换特征，然后对第一变换特征进行降维处理，最后输出对应的样本增强特征。

示例性地，在步骤S102中，可以利用预先训练的聚类模型对多个样本增强特征进行聚类处理，得到多个待选聚类结果。

在一个示例中，聚类模型利用概率线性判别分析算法对多个增强特征进行相似性判定，并根据相似性判定结果对多个增强特征进行聚类处理。

具体而言，聚类模型可以包括PLDA(Probability Linear DiscriminantAnalysis，概率线性判别分析算法)模块和AHC(Agglomerative HierarchicalClustering，分层次聚类算法)模块。其中，PLDA模块根据输入的多个增强特征，输出不同的增强特征之间的相似度值。其中，相似度值越大，则两个增强特征分别对应的音频片段属于同一话语者的可能性越大；相似度值越小，则两个增强特征分别对应的音频片段属于同一话语者的可能性越小。AHC模块根据PLDA模块输出的相似度值，通过将相似度值与预设的相似度阈值进行比较，根据比较结果可以对多个增强特征进行聚类并得到多个聚类结果。

示例性地，在步骤S103中，可以采用自监督学习的策略，利用步骤S102得到的多个待选聚类结果，对初始网络的参数进行调整，经过多轮迭代，得到符合预设条件的特征增强模型。

在一个示例中，可以采用对比学习的策略对初始网络的参数进行调整。具体地，可以根据同一聚类结果下的任意两个不同的样本增强特征之间的损失值、以及两个不同的聚类结果中的样本增强特征之间的损失值，对初始网络的参数进行反向更新，以使同一聚类结果下的任两个不同的样本增强特征之间的差异越来越小、以及使不同的两个聚类结果下的样本增强特征之间的差异越来越大，从而提升初始网络的特征提取精度并提高聚类结果的区分性，直至得到满足预设条件的特征增强模型。

根据本公开实施例的模型训练方法，通过利用多个样本增强特征的多个聚类结果对初始网络的参数进行调整，即通过自监督学习例如对比学习的策略对初始网络的参数不断进行更新，以不断地提高特征增强模型的处理效果，并且提高了话者分离网络的区分鉴别能力，充分发挥了聚类结果的作用来对初始网络进行学习更新，从而将特征增强模型和聚类模型联合起来，最终能形成端到端的话者识别网络的框架，避免了最终得到的话者识别网络的训练结果与测试结果无法匹配的问题。

如图2所示，在一种实施方式中，步骤S103包括：

S201：从任一个待选聚类结果中，任选两个样本增强特征作为第一锚点，计算两个第一锚点之间的第一距离；

S202：从任两个待选聚类结果中，分别选取一个样本增强特征作为第二锚点，计算两个第二锚点之间的第二距离；

S203：根据第一距离和第二距离计算损失值，并根据损失值调整初始网络的参数。

示例性地，在计算得到损失值之后，可以利用梯度下降准则反向更新初始网络和聚类模型的参数，经过多轮迭代，直至得到符合预设条件的特征增强模型。

可以理解的是，在每一轮迭代中，可以重新选取第一锚点计算第一距离、以及重新选取第二锚点计算第二距离，根据第一距离和第二距离重新计算损失值，在利用损失值对初始网络和聚类模型的参数进行一次调整更新。

在一个示例中，损失值可以根据三元损失函数计算得到。三元损失函数具体如下：

其中，

用于表征同一聚类结果j中不同的两个样本增强特征xj,1和xj,2之间的第一距离，

用于表征两个不同的聚类结果j和k的各自的样本增强特征xj,1和xk≠j,2之间的第二距离，m用于表征不同的聚类结果的之间的间隔参数。其中，m的取值可以为4。

根据上述实施方式，通过计算同一聚类结果下不同的两个样本增强特征之间的第一距离、以及计算不同的两个聚类结果下的样本增强特征之间的第二距离，并根据第一距离和第二距离对初始网络的参数进行更新，由此，可以利用样本增强特征的聚类结果指导更新初始网络的参数，从而提升特征增强模型的处理效果，同时有利于提升后续的聚类结果的区分度和精准性。

在一种实施方式中，初始网络可以由一层深度神经网络构成，深度神经网络包括输入层、隐含层和输出层，输入层和隐含层之间具有第一变换矩阵，第一变换矩阵用于将基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；隐含层和输出层之间具有第二变换矩阵，第二变换矩阵用于对第一变换特征进行降维处理，得到增强特征。

通过计算基础特征的数据矩阵与第一变换矩阵的乘积，可以得到第一变换特征，从而使初始网络可以实现对基础特征的白化处理。然后，通过计算第一变换特征的数据矩阵与第二变换矩阵的乘积，可以得到对应的样本增强特征，从而使初始网络可以进一步实现对第一变换特征的降维处理。

可以理解的是，白化处理指的是去除基础特征的冗余信息，降低基础特征的各个维度信息之间的相关性，以使基础特征的各个维度信息之间具有相同的方差，从而得到第一变换特征。降维处理可以减少基础特征的维度数，同时保证基础特征中的重要信息不会丢失。

在一个示例中，利用第一变换矩阵将基础特征变换为第一变换特征后，还可以对第一变换特征进行长度规整处理，以使第一变换特征的向量统一为单位长度，然后再利用第二变换矩阵将第一变换特征转换为样本增强特征。

通过上述实施方式，可以使最终训练得到的特征增强模型对输入的基础特征以此进行白化处理和降维处理，以输出增强特征。由此，根据本公开实施例的模型训练方法训练得到的特征增强模型可以降低基础特征所包含的多个维度信息之间的相关性，以去除其中的冗余信息，并且特征增强模型可以对基础特征进一步简化，且输出的增强特征中保留了基础特征中的重要信息。因此，根据本公开实施例的模型训练方法得到的特征增强模型可以提高特征增强性能，有利于提高话者分离效果。

如图3所示，在一种实施方式中，第一变换矩阵和第二变换矩阵的构建方式包括：

S301：将音频样本的多个音频片段输入预先训练的特征提取模型，得到基础特征集；

S302：根据基础特征集，确定第一变换矩阵的初始参数和第二变换矩阵的初始参数。

示例性地，根据基础特征集，分别训练得到白化处理模型和降维处理模型。其中，第一变换矩阵的初始参数可以根据白化处理模型的参数确定，第二变换矩阵的初始参数可以根据降维处理模型的参数确定。

根据上述实施方式，训练得到的特征增强模型提升了针对包含多个话语者声音的待处理音频的特征提取精度，有利于提高针对多个语音片段的聚类精度，从而提高了人声分离效果。并且，通过利用基础特征集对初始网络的第一变换矩阵和第二变换矩阵的参数进行初始化，可以将预先训练的特征提取模型的输出直接与特征增强模型的输入连接，提高二者之间的适配性。并且，可以使初始网络模型具备对基础特征的白化处理能力以及降维处理能力，从而经过训练得到符合预设条件的特征增强模型。

在一种实施方式中，步骤S102包括：

利用预先训练的聚类模型，对多个样本增强特征进行聚类处理；其中，聚类模型根据基础特征集训练得到。

在一个示例中，聚类模型包括PLDA模块。PLDA模块可以利用上述步骤S401得到的基础特征集进行训练生成。可以理解的是，PLDA模块用于对不同的两个样本增强特征进行相似性判断，即根据输入的多个增强特征输出不同的两个增强特征之间的相似度值。聚类模型根据PLDA模块输出的相似度值，利用分层次聚类算法对多个样本增强特征进行聚类处理，从而得到多个聚类结果。

由此，通过利用基础特征集训练聚类模型，可以将聚类模型与预先训练的特征提取模型进行联合，从而将特征增强模型与聚类模型进行联合，提高特征增强模型与聚类模型之间的适配性，进而提高特征增强模型的训练效率。

下面参照图4描述根据本公开的一个具体示例。

参照图4所示，本公开实施例的模型训练方法具体包括以下步骤：

步骤1：预训练基础特征提取模型：利用开源数据库收集一定量的开源数据，得到音频样本。其中，开源数据库可以为Aishell、Librispeech等。对每条只包含一个话语者声音的音频样本进行预处理，包括去除噪声(例如环境噪声、忙音、彩铃声、静音等)，得到干净的音频样本，再对音频样本进行分帧处理，得到多个音频帧样本；

对每个音频帧样本提取低级特征，例如20维的MFCC、PLP或Fbank等，经过一阶差分处理、二阶差分处理以及正则化处理(即正态分布规整)，得到每个音频帧样本的20*3维的基础特征；

其中，每个音频帧样本需要结合一定数量的上下文，再输入到初始网络中，进行前向计算，输出为各个说话人的概率，根据交叉熵函数计算损失值，并根据损失值利用随机梯度下降准则反向更新网络参数，对每个音频帧样本重复上述步骤，迭代至网络收敛，得到特征提取模型。

步骤2：预训练白化处理模型、降维模型以及PLDA模型：利用步骤1得到的特征模型以及开源数据，得到基础特征集；利用基础特征集训练得到白化处理模型、降维模型以及PLDA模型。

步骤3：利用白化处理模型、降维模型初始化特征增强模型：利用白化处理模型的参数初始化特征增强模型的输入层和隐含层之间的第一变换矩阵的参数，以及利用降维模型初始化特征增强模型的隐含层和输出层之间的第二变换矩阵的参数，得到初始的特征增强模型。

步骤4：根据聚类结果对初始的特征增强模型进行训练：对音频样本(每条音频包含多个话语者的声音，例如2个至7个)进行预处理，并提取基础特征集X，其中，基础特征集X为音频样本的多个音频片段分别对应的基础特征的集合；然后，将基础特征集输入初始的特征增强模型(NN)，得到对应的增强特征集Y^P；利用PLDA模型对增强特征集Y^p中的多个增强特征进行聚类，得到多个聚类结果(z^p)；根据比对学习策略，计算同一个聚类结果中的任两个增强特征之间的第一距离、以及计算不同的两个聚类结果中的增强特征之间的第二距离，基于第一距离和第二距离，利用三元损失函数计算得到损失值；根据损失值对特征增强模型以及PLDA模型的参数进行调整，经过多轮迭代，得到收敛的特征增强模型以及PLDA模型。

步骤5：测试推理：对测试音频进行预处理，并分别提取特征集X和特征集Y；对特征集Y进行聚类，得到多个聚类结果，每个聚类结果相当于同一个话语者声音的音频片段集合，从而得到人声分离的结果。

下面参考图5描述根据本公开实施例的语音处理方法。本公开实施例的语音处理方法可以对待处理音频中所包含的至少一个话语者的声音进行人声分离。

如图5所示，本公开实施例的语音处理方法包括以下步骤：

S501：对待处理音频包含的多个音频片段分别进行特征提取，得到多个音频片段分别对应的基础特征，待处理音频中包含至少一个话语者的声音；

S502：利用特征增强模型对基础特征进行增强处理，得到增强特征；

S503：对多个增强特征进行聚类处理，得到与各话语者分别对应的聚类结果；

其中，特征增强模型采用本公开上述实施例的模型训练方法生成。

示例性地，在步骤S501之前，可以先对待处理音频进行预处理，以得到多个音频片段。

具体而言，首先，对待处理音频进行去噪处理，即将待处理音频中的环境噪声、忙音、彩铃声或者静音等非人声去除，得到干净的待处理音频。然后，对干净的待处理音频进行分帧处理，例如可以将干净的待处理音频切成时长为25ms、帧移为10ms的多个音频片段。

示例性地，在步骤S501中，可以将待处理音频包含的多个音频片段分别输入预先训练的特征提取模型，以得到各音频片段对应的基础特征。

在一个示例中，特征提取模型可以对每个音频片段分别提取梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)，得到每个音频片段对应的基础特征。在本公开的其他示例中，也可以对每个音频片段提取频域特征(Filter Bank，FBank)得到音频片段对应的基础特征，或者对音频片段提取感知线性预测特征(Perceptual LinearPredictive，PLP)。

进一步地，针对上述提取到的梅尔倒谱系数、频域特征或者感知线性预测特征，还可以依次进行一阶差分处理、二阶差分处理以及正则化处理，即对上述特征进行正态分布规整得到20*3维的多维特征，作为各音频片段的基础特征。

示例性地，在步骤S502中，可以将各音频片段对应的基础特征输入预先训练的特征增强模型，特征增强模型具体用于对基础特征依次进行白化处理和降维处理，以得到对应的增强特征。

其中，白化处理指的是去除基础特征的冗余信息，降低基础特征的各个维度信息之间的相关性，以使基础特征的各个维度信息之间具有相同的方差，从而得到第一变换特征。

在一个示例中，特征增强模型可以采用PCA(Principal Components Analysis，主成分分析)白化处理的方式对基础特征进行白化处理。具体地，基于基础特征包含的多维信息得到数据矩阵，对数据矩阵进行变换得到对应的斜方差矩阵，然后求出协方差的特征值和特征向量，用特征向量矩阵的转置左乘原始数据矩阵以实现对数据的旋转变换，再对变换后数据矩阵每一维除以对应方差，得到第一变换特征。

在另一个示例中，特征增强模型也可以采用ZCA(Zero-phase ComponentAnalysis，零向量成分分析)白化处理的方式对基础特征进行白化处理。ZCA白化则是在PCA白化的基础上，将PCA白化后的数据旋转回到原来的特征空间，这样可以使得变换后的第一变换特征更加接近原始的基础特征。

针对降维处理，可以采用主成分分析方式对第一变换特征继续进行处理。由此，可以减少基础特征的维度数，同时保证基础特征中的重要信息不会丢失。

在一个示例中，降维处理的具体包括如下步骤：对第一变换特征进行数据中心化处理；求出第一变换特征的协方差矩阵；根据协方差矩阵确定协方差的特征值和特征向量；将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵；最后，将样本点投影到选取的特征向量上，得到增强特征。

特征增强模型可以由一层深度神经网络(Deep Neural Networks，DNN)构成，其中，深度神经网络包括输入层、隐含层和输出层。输入层用于输入基础特征，输出层用于输出增强特征。

示例性地，在步骤S503中，可以利用预先训练的聚类模型对多个增强特征进行聚类处理，得到多个聚类结果，且多个聚类结果与待处理音频中包含的至少一个话语者的声音一一对应。其中，每个聚类结果包含至少一个音频片段。

需要说明的是，聚类模型可以采用各种聚类算法，例如可以采用K均值聚类(K-means Clustering)算法、均值漂移(Mean Shift)算法、密度聚类(Density-Based SpatialClustering of Applications with Noise，DBSCAN)等，只要可以实现对多个增强特征进行聚类并得到多个聚类结果即可。

根据本公开实施例的语音处理方法，通过利用特征增强模型对各音频片段提取到的基础特征进行增强处理得到增强特征，再基于多个增强特征进行聚类得到多个聚类结果，由此，提升了针对包含多个话语者声音的待处理音频的特征提取精度，有利于提高针对多个语音片段的聚类精度，从而提高了人声分离效果。

在一种实施方式中，特征增强模型包括输入层、隐含层和输出层，输入层和隐含层之间具有第一变换矩阵，第一变换矩阵用于将基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；隐含层和输出层之间具有第二变换矩阵，第二变换矩阵用于对第一变换特征进行降维处理，得到增强特征。

其中，输入层和隐含层之间具有第一变换矩阵，隐含层与输出层之间具有第二变换矩阵。其中，第一变换矩阵的初始参数可以根据预先训练的白化模型的参数确定，第二变换矩阵的初始参数可以根据预先训练的降维模型的参数确定。白化模型和降维模型可以根据特征提取模型输出的基础特征集，采用记忆学习的方式分别训练得到。

可以理解的是，在初始网络的训练过程中，需要对第一变换矩阵和第二变换矩阵的参数进行不断调整更新，以得到满足收敛条件的特征增强模型。

通过计算基础特征的数据矩阵与第一变换矩阵的乘积，可以得到第一变换特征，从而实现对基础特征的白化处理。通过计算第一变换特征的数据矩阵与第二变换矩阵的乘积，可以得到增强特征，从而实现对第一变换特征的降维处理。

此外，利用第一变换矩阵将基础特征变换为第一变换特征后，还可以对第一变换特征进行长度规整处理，以使第一变换特征的向量统一为单位长度，然后再利用第二变换矩阵将第一变换特征转换为增强特征。

根据本公开实施例的语音处理方法，通过利用特征增强模型的输入层和隐含层之间的第一变换矩阵对基础特征进行白化处理，以及利用隐含层和输出层之间的第二变换矩阵对白化处理后的第一变换特征进行降维处理，最终得到各个音频片段对应的增强特征，由此，降低了基础特征所包含的多个维度信息之间的相关性，去除了其中的冗余信息，实现了对基础特征的进一步简化，且最终得到的增强特征中保留了基础特征中的重要信息。因此，根据本公开的技术，提升了针对包含至少一个话语者声音的待处理音频的特征提取精度，从而提高了针对多个语音片段的聚类精度，进而提高了人声分离效果。

在一种实施方式中，步骤S501包括：

利用特征提取模型，对多个音频片段分别进行特征提取处理；其中，特征提取模型包括多个扩张卷积层(Dilated Convolution Neural Network，TDCN)。

示例性地，特征提取模型可以为预先训练的人声分离模型所包含的特征提取模块。人声分离模型可以由多个扩张卷积层、全连接层以及激活层构成，多个扩张卷积层形成特征提取模块。

其中，最后一个扩张卷积层抽取得到的声谱特征即为基础特征，基础特征的维度可以为128维。可以理解的是，基础特征可以是由预设数量的多个音频片段进行累加并平均得到，例如，平均每50个音频片段计算一次基础特征。

可以理解的是，扩张卷积也被称为空洞卷积或者膨胀卷积，是在标准的卷积核中注入空洞，以此来增加特征提取模型的感受野。

根据上述实施方式，通过利用具有多个扩张卷积层的特征提取模型对音频片段进行特征提取并得到基础特征，可以提高基础特征所包含的多个维度信息的密集度，从而提高对音频片段的特征提取效果。

在一种实施方式中，步骤S503包括：

利用聚类模型对多个增强特征进行聚类处理；

其中，聚类模型利用概率线性判别分析算法(Probability Linear DiscriminantAnalysis，PLDA)对多个增强特征进行相似性判定，并根据相似性判定结果对多个增强特征进行聚类处理。

示例性地，聚类模型包括PLDA模块和AHC(Agglomerative HierarchicalClustering，分层次聚类算法)模块。其中，PLDA模块根据输入的多个增强特征，输出不同的增强特征之间的相似度值。其中，相似度值越大，则两个增强特征分别对应的音频片段属于同一话语者的可能性越大；相似度值越小，则两个增强特征分别对应的音频片段属于同一话语者的可能性越小。AHC模块根据PLDA模块输出的相似度值，通过将相似度值与预设的相似度阈值进行比较，根据比较结果可以对多个增强特征进行聚类并得到多个聚类结果。

可以理解的是，由于多个增强特征分别与多个语音片段一一对应，因此得到的多个聚类结果相当于对多个语音片段进行聚类的结果。通过将相似度值与预设的相似度阈值进行比较，根据比较结果可以对多个增强特征进行聚类并得到多个聚类结果。

根据上述实施方式，通过利用预先训练的聚类模型，实现了对多个增强特征的聚类，并根据聚类结果实现了对待处理音频中所包含的至少一个话语者的声音进行分离的目的。

根据本公开的另一方面，还提供了一种模型训练装置。

如图6所示，该模型训练装置包括：

样本增强特征获取模块601，用于将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，音频样本包含至少一个话语者的声音；

第一聚类模块602，用于对多个样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；

参数调整模块603，用于根据多个待选聚类结果，对初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；

在一种实施方式中，参数调整模块603包括：

第一计算子模块，用于从任一个待选聚类结果中，任选两个样本增强特征作为第一锚点，计算两个第一锚点之间的第一距离；

第二计算子模块，用于从任两个待选聚类结果中，分别选取一个样本增强特征作为第二锚点，计算两个第二锚点之间的第二距离；

参数调整子模块，用于根据第一距离和第二距离计算损失值，并根据损失值调整初始网络的参数。

在一种实施方式中，初始网络包括输入层、隐含层和输出层，输入层和隐含层之间具有第一变换矩阵，第一变换矩阵用于将基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；隐含层和输出层之间具有第二变换矩阵，第二变换矩阵用于对第一变换特征进行降维处理，得到增强特征。

在一种实施方式中，用于构建第一变换矩阵和第二变换矩阵的构建模块包括：

基础特征集获取子模块，用于将音频样本的多个音频片段输入预先训练的特征提取模型，得到基础特征集；

初始参数确定子模块，用于根据基础特征集，确定第一变换矩阵的初始参数和第二变换矩阵的初始参数。

在一种实施方式中，第一聚类模块602还用于：

利用预先训练的聚类模型，对多个样本增强特征进行聚类处理；

其中，聚类模型根据基础特征集训练得到。

根据本公开的另一方面，还提供了一种语音处理装置。

如图7所示，该语音处理装置包括：

特征提取模块701，用于对待处理音频包含的多个音频片段分别进行特征提取，得到多个音频片段分别对应的基础特征，待处理音频中包含至少一个话语者的声音；

特征增强模块702，用于利用特征增强模型对基础特征进行增强处理，得到增强特征；

第二聚类模块703，用于对多个增强特征进行聚类处理，得到与各话语者分别对应的聚类结果；

其中，特征增强模型采用本公开上述实施例的模型训练装置生成。

在一种实施方式中，特征提取模块701还用于：

利用特征提取模型，对多个音频片段分别进行特征提取；

其中，特征提取模型包括多个扩张卷积层。

在一种实施方式中，第二聚类模块703还用于：

利用聚类模型对多个增强特征进行聚类处理；

其中，聚类模型利用概率线性判别分析算法对多个增强特征进行相似性判定，并根据相似性判定结果对多个增强特征进行聚类处理。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如模型训练方法和/或语音处理方法。例如，在一些实施例中，模型训练方法和/或语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的模型训练方法和/或语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练方法和/或语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，所述音频样本包含至少一个话语者的声音；

对多个所述样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；

根据多个所述待选聚类结果，对所述初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；

其中，所述特征增强模型用于根据输入的基础特征，输出对应的增强特征。

2.根据权利要求1所述的方法，其中，根据多个所述待选聚类结果，对所述初始网络的参数进行调整，包括：

从任一个所述待选聚类结果中，任选两个样本增强特征作为第一锚点，计算两个所述第一锚点之间的第一距离；

从任两个所述待选聚类结果中，分别选取一个样本增强特征作为第二锚点，计算两个所述第二锚点之间的第二距离；

根据所述第一距离和所述第二距离计算损失值，并根据所述损失值调整所述初始网络的参数。

3.根据权利要求1或2所述的方法，其中，所述初始网络包括输入层、隐含层和输出层，所述输入层和所述隐含层之间具有第一变换矩阵，所述第一变换矩阵用于将所述基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；所述隐含层和所述输出层之间具有第二变换矩阵，所述第二变换矩阵用于对所述第一变换特征进行降维处理，得到增强特征。

4.根据权利要求3所述的方法，其中，所述第一变换矩阵和所述第二变换矩阵的构建方式包括：

将音频样本的多个音频片段输入预先训练的特征提取模型，得到基础特征集；

根据所述基础特征集，确定所述第一变换矩阵的初始参数和所述第二变换矩阵的初始参数。

5.根据权利要求4所述的方法，其中，对多个所述样本增强特征进行聚类处理，包括：

利用预先训练的聚类模型，对多个所述样本增强特征进行聚类处理；

其中，所述聚类模型根据所述基础特征集训练得到。

6.一种语音处理方法，包括：

对待处理音频包含的多个音频片段分别进行特征提取，得到多个所述音频片段分别对应的基础特征，所述待处理音频中包含至少一个话语者的声音；

利用特征增强模型对所述基础特征进行增强处理，得到增强特征；

对多个所述增强特征进行聚类处理，得到与各话语者分别对应的聚类结果；

其中，所述特征增强模型采用根据权利要求1至5任一项所述的模型训练方法生成。

7.根据权利要求6所述的方法，其中，所述特征增强模型包括输入层、隐含层和输出层，所述输入层和所述隐含层之间具有第一变换矩阵，所述第一变换矩阵用于将所述基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；所述隐含层和所述输出层之间具有第二变换矩阵，所述第二变换矩阵用于对所述第一变换特征进行降维处理，得到增强特征。

8.根据权利要求6所述的方法，其中，对待处理音频包含的多个音频片段分别进行特征提取，包括：

利用特征提取模型，对多个所述音频片段分别进行特征提取；

其中，所述特征提取模型包括多个扩张卷积层。

9.根据权利要求6所述的方法，其中，对多个所述增强特征进行聚类处理，包括：

利用聚类模型对多个所述增强特征进行聚类处理；

其中，所述聚类模型利用概率线性判别分析算法对多个所述增强特征进行相似性判定，并根据相似性判定结果对多个所述增强特征进行聚类处理。

10.一种模型训练装置，包括：

样本增强特征获取模块，用于将音频样本对应的多个基础特征分别输入初始网络，得到对应的多个样本增强特征，所述音频样本包含至少一个话语者的声音；

第一聚类模块，用于对多个所述样本增强特征进行聚类处理，得到与各话语者分别对应的待选聚类结果；

参数调整模块，用于根据多个所述待选聚类结果，对所述初始网络的参数进行调整，直至得到满足预设条件的特征增强模型；

11.根据权利要求10所述的装置，其中，所述参数调整模块包括：

第一计算子模块，用于从任一个所述待选聚类结果中，任选两个样本增强特征作为第一锚点，计算两个所述第一锚点之间的第一距离；

第二计算子模块，用于从任两个所述待选聚类结果中，分别选取一个样本增强特征作为第二锚点，计算两个所述第二锚点之间的第二距离；

参数调整子模块，用于根据所述第一距离和所述第二距离计算损失值，并根据所述损失值调整所述初始网络的参数。

12.根据权利要求10或11所述的装置，其中，所述初始网络包括输入层、隐含层和输出层，所述输入层和所述隐含层之间具有第一变换矩阵，所述第一变换矩阵用于将所述基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；所述隐含层和所述输出层之间具有第二变换矩阵，所述第二变换矩阵用于对所述第一变换特征进行降维处理，得到增强特征。

13.根据权利要求12所述的装置，其中，用于构建所述第一变换矩阵和所述第二变换矩阵的构建模块包括：

初始参数确定子模块，用于根据所述基础特征集，确定所述第一变换矩阵的初始参数和所述第二变换矩阵的初始参数。

14.根据权利要求13所述的装置，其中，所述第一聚类模块还用于：

其中，所述聚类模型根据所述基础特征集训练得到。

15.一种语音处理装置，包括：

特征提取模块，用于对待处理音频包含的多个音频片段分别进行特征提取，得到多个所述音频片段分别对应的基础特征，所述待处理音频中包含至少一个话语者的声音；

特征增强模块，用于利用特征增强模型对所述基础特征进行增强处理，得到增强特征；

第二聚类模块，用于对多个所述增强特征进行聚类处理，得到与各话语者分别对应的聚类结果；

其中，所述特征增强模型采用根据权利要求10至14任一项所述的模型训练装置生成。

16.根据权利要求15所述的装置，其中，所述特征增强模型包括输入层、隐含层和输出层，所述输入层和所述隐含层之间具有第一变换矩阵，所述第一变换矩阵用于将所述基础特征的协方差矩阵变换为单位矩阵，得到第一变换特征；所述隐含层和所述输出层之间具有第二变换矩阵，所述第二变换矩阵用于对所述第一变换特征进行降维处理，得到增强特征。

17.根据权利要求15所述的装置，其中，所述特征提取模块还用于：

其中，所述特征提取模型包括多个扩张卷积层。

18.根据权利要求15所述的装置，其中，所述第二聚类模块还用于：

利用聚类模型对多个所述增强特征进行聚类处理；

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至9中任一项所述的方法。