CN110853666A

CN110853666A - 一种说话人分离方法、装置、设备及存储介质

Info

Publication number: CN110853666A
Application number: CN201911301426.XA
Authority: CN
Inventors: 高天; 高建清; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-02-28
Anticipated expiration: 2039-12-17
Also published as: CN110853666B

Abstract

本申请提供了一种说话人分离方法、装置、设备及存储介质，方法包括：将包含至少一个说话人的目标语音切分为多个目标语音片段；确定多个目标语音片段分别对应的说话人分类特征，其中，一个目标语音片段对应的说话人分类特征同时包含该语音片段的声纹信息和语义信息；根据多个目标语音片段分别对应的说话人分类特征，将多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合。由于说话人分类特征既包含了能够较好的对不同说话人进行区分的声纹信息，又包含了能够反映说话人发生转折的语义信息，因此，利用各个语音片段对应的说话人分类特征能够比较准确地将不同说话人的语音片段分离开，分离效果较好。

Description

一种说话人分离方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种说话人分离方法、装置、设备及存储介质。

背景技术

语音是人和人之间进行交流的最自然、最方便、最有效的方式，也是获取信息的重要来言之一。从海量的语音中获取感兴趣的语音已成为一个重要的技术需求点。

若要从海量的语音中获取感兴趣的语音，需要对每个语音片段标注出说话人，而对每个语音片段标注出说话人，首先需要按不同的说话人对语音片段进行分类，也就是说，需要将属于不同说话人的语音片段分离开，而如何有效地将不同说话人的语音片段分离开是目前亟需解决的问题。

发明内容

有鉴于此，本申请提供了一种说话人分离方法、装置、设备及存储介质，用以有效地将不同说话人的语音片段分离开，其技术方案如下：

一种说话人分离方法，包括：

将包含至少一个说话人的目标语音切分为多个目标语音片段；

确定所述多个目标语音片段分别对应的说话人分类特征，其中，一个目标语音片段对应的说话人分类特征同时包含该语音片段的声纹信息和语义信息；

根据所述多个目标语音片段分别对应的说话人分类特征，将所述多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合。

可选的，所述将所述目标语音切分为多个目标语音片段，包括：

按预设长度对所述目标语音片段进行切分，获得多个预设长度的目标语音片段。

可选的，所述确定所述多个目标语音片段分别对应的说话人分类特征，包括：

利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征；

其中，所述说话人分离模型采用多条不同说话人的训练语音训练得到，每条训练语音只包含一个说话人。

可选的，所述利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征，包括：

利用所述说话人分离模型的声纹特征提取模块，分别对所述多个目标语音片段提取声纹特征，获得所述多个目标语音片段分别对应的短时声纹特征；

利用所述说话人分离模型的语义特征提取模块，分别对所述多个目标语音片段提取语义特征，获得所述多个目标语音片段分别对应的语义特征；

利用所述说话人分离模型的特征融合模块，将每个目标语音片段对应的语义特征与对应的短时声纹特征融合，获得所述多个目标语音片段分别对应的说话人分类特征。

可选的，所述说话人分离模型的特征融合模块为包括输入门、遗忘门、输出门和语义门的循环神经网络；

对于任一目标语音片段，所述循环神经网络的输入为该目标语音片段对应的短时声纹特征和语义特征，其中，该目标语音片段对应的语义特征通过所述语义门输入，所述循环神经网络的输出为该目标语音片段对应的、同时包含该目标语音片段对应的短时声纹特征和语义特征的说话人分类特征。

其中，各个目标语音片段分别对应的声纹特征和语义特征按顺序输入所述循环神经网络；

所述遗忘门，用于根据当前目标语音片段对应的短时声纹特征和前一目标语音片段对应的说话人分类特征，确定所述循环神经网络的记忆模块需要遗忘的信息，以将需要遗忘的信息从所述记忆模块中移除；

所述输入门，用于根据当前目标语音片段对应的短时声纹特征和前一目标语音片段对应的说话人分类特征，确定所述记忆模块需要记忆的信息，以将所述需要记忆的信息添加至所述记忆模块中；

所述输出门，用于根据当前目标语音片段对应的短时声纹特征、前一目标语音片段对应的说话人分类特征和所述记忆模块中记忆的信息，确定需要输出的信息并输出；

所述语义门，用于根据当前目标语音片段对应的语义特征、前一目标语音片段对应的说话人分类特征和所述记忆模块中记忆的信息，确定需要输出的信息并输出；

当前目标语音片段对应的说话人分类特征根据所述输出门的输出和所述语义门的输出确定。

可选的，所述根据所述多个目标语音片段分别对应的说话人分类特征，将所述多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合，包括：

对所述多个目标语音片段逐一依据其对应的说话人分类特征进行分类，以得到至少一个类别的语音片段集合；

其中，一个类别对应一个说话人；第一个目标语音片段所属的类别为一新建类别，其它每个目标语音片段所属的类别为已有类别和一新建类别中的一个类别。

可选的，所述对所述多个目标语音片段逐一依据其对应的说话人分类特征进行分类，以得到至少一个类别的语音片段集合，包括：

从所述多个目标语音片段中获取一未分类的目标语音片段；

若当前无类别，则新建一类别作为该目标语音片段所属的类别；

若当前已有类别，则将当前已有类别作为候选类别，并再以预设的初始类中心新建一类别作为一候选类别，根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别；

将该目标语音片段加入其所属类别的语音片段集合中，并根据该目标语音片段所在的语音片段集合中各目标语音片段对应的说话人分类特征，更新该目标语音片段所属类别的类中心；

返回执行所述从所述多个目标语音片段中获取一未分类的目标语音片段，直至所述多个目标语音片段中不存在未分类的目标语音片段。

可选的，所述根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别，包括：

根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，确定该目标语音片段分别属于各个候选类别的概率；

根据该目标语音片段分别属于各个候选类别的概率，确定该目标语音片段所属的类别。

可选的，建立所述说话人分离模型的过程包括：

获取训练语音，并将所述训练语音切分为多个训练语音片段；

利用说话人分离模型确定所述多个训练语音片段分别对应的说话人分类特征，其中，一个训练语音片段对应的说话人分类特征同时包含该训练语音片段的声纹信息和语义信息；

至少根据所述多个训练语音片段分别对应的说话人分类特征，更新说话人分离模型的参数。

可选的，所述利用说话人分离模型确定所述多个训练语音片段分别对应的说话人分类特征，包括：

确定所述多个训练语音片段分别对应语音特征；

利用所述多个训练语音片段分别对应的语音特征和说话人分离模型，确定所述多个训练语音片段分别对应的短时声纹特征和所述多个训练语音片段分别对应的语义特征；

利用说话人分离模型将每个训练语音片段对应的语义特征与对应的短时声纹特征融合，获得所述多个训练语音片段分别对应的说话人分类特征。

可选的，至少根据所述多个训练语音片段分别对应的说话人分类特征，更新说话人分离模型的参数，包括：

根据所述多个训练语音片段分别对应的短时声纹特征、所述多个训练语音片段分别对应的语义特征、所述多个训练语音片段分别对应的预测语音特征以及所述多个训练语音片段分别对应的说话人分类特征，确定说话人分离模型的预测损失，其中，一个训练语音片段对应的预测语音特征根据该训练语音片段对应的短时声纹特征和语义特征确定；

根据说话人分离模型的预测损失，更新说话人分离模型的参数。

一种说话人分离装置，包括：语音切分模块、说话人分类特征确定模块和语音片段分类模块；

所述语音切分模块，用于将所述目标语音切分为多个目标语音片段；

所述说话人分类特征确定模块，用于确定所述多个目标语音片段分别对应的说话人分类特征，其中，一个目标语音片段对应的说话人分类特征同时包括该目标语音片段的声纹信息和语义信息；

所述语音片段分类模块，用于根据所述多个目标语音片段分别对应的说话人分类特征，将所述多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合。

可选的，所述说话人分类特征确定模块，具体用于利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征；

可选的，所述说话人分类特征确定模块，具体用于利用所述说话人分离模型的声纹特征提取模块，分别对所述多个目标语音片段提取声纹特征，获得所述多个目标语音片段分别对应的短时声纹特征；利用所述说话人分离模型的语义特征提取模块，分别对所述多个目标语音片段提取语义特征，获得所述多个目标语音片段分别对应的语义特征；利用所述说话人分离模型的特征融合模块，将每个目标语音片段对应的语义特征与对应的短时声纹特征融合，获得所述多个目标语音片段分别对应的说话人分类特征。

一种说话人分离设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的说话人分离方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述的说话人分离方法的各个步骤。

经由上述方案可知，本申请提供的说话人分离方法、装置、设备及存储介质，首先将包含至少一个说话人的目标语音切分为多个目标语音片段，然后确定多个目标语音片段分别对应的、同时包含声纹信息和语义信息的说话人分类特征，最后根据多个目标语音片段分别对应的说话人分类特征对不同说话人的语音片段进行分离。本申请提供的说话人分离方法采用各目标语音片段对应的说话人分类特征对不同说话人的语音片段进行分离，由于说话人分类特征既包含了能够较好的对不同说话人进行区分的声纹信息，又包含了能够反映说话人发生转折的语义信息，在对语音片段进行分类时，以声纹信息作为依据，同时辅以语义信息，能够比较准确地将不同说话人的语音片段分离开，分离效果较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的说话人分离方法的流程示意图；

图2为本申请实施例提供的建立说话人分离模型的流程示意图；

图3为普通循环神经网络的结构示意图；

图4为本申请实施例提供的具有语义门的循环神经网络的结构示意图；

图5为本申请实施例提供的根据多个目标语音片段分别对应的说话人分类特征，将多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合的流程示意图；

图6为本申请实施例提供的说话人分离方法的整体实现过程的示意图；

图7为本申请实施例提供说话人分离装置的结构示意图；

图8为本申请实施例提供的说话人分离设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了能够将不同说话人的语音片段分离开，本案发明人进行了研究：

起初的思路是：首先从包含多个说话人的目标语音中检测说话人转折点(不同说话人发生转换的时间点)，然后依据说话人转折点对目标语音进行分割，从而获得多个语音片段，接着对多个语音片段进行聚类，将属于同一说话人的语音片段聚为一类。

其中，在从目标语音中检测说话人转折点时，可采用基于BIC距离的说话人转折点检测方法进行检测，进而依据检测出的说话人转折点对目标语音进行分割；在对多个语音片段进行聚类时，可利用i-vector技术对各个语音片段提取声纹特征，利用各个语音片段的声纹特征和自下而上的层次聚类方法对多个语音片段进行聚类。

然而，基于BIC距离的说话人转折点检测方法，由于基于单高斯模型假设，因此，其在应对音量变化、噪声等复杂情况时很不稳定，会产生较大的虚警率，最终导致切分的语音片段较短，而i-vector技术在有效语音时长达到30秒以上时，可以得到比较稳定的声纹特征，但当语音时长比较短时，由于语音不足以覆盖到所有的音素，因此，得到的声纹特征很不稳定，难以对声纹属性进行可靠描述，声纹特征不稳定势必影响后续语音片段分类的准确性。另外，层次聚类是一种贪心算法，每次聚类的过程都是选择距离最近的两个类别进行合并，却无法保证每一次的选择都是全局最优，这会影响说话人分离的整体效果。

鉴于上述方案存在的缺陷，本案发明人进一步进行了研究，最终提供了一种效果较好的说话人分离方法，该方法可应用于具有数据处理能力的终端，也可应用于服务器(服务器可以为一个，也可以为多个，还可以为服务器集群)，终端或服务器能够获取包括至少一个说话人的目标语音，从目标语音中将属于同一说话人的语音片段分离出来，从而获得每个说话人的语音片段集合。接下来通过下述实施例对本申请提供的说话分分离方法进行介绍。

请参阅图1，示出了本申请实施例提供的说话人分离方法的流程示意图，可以包括：

步骤S101：将包含至少一个说话人的目标语音切分为多个目标语音片段。

具体的，可按预设长度对目标语音进行切分，获得多个预设长度的目标语音片段。

需要说明的是，目标语音的切分长度(即预设长度)可根据实际情况设定，切分长度的设定原则是，尽可能使每个目标语音片段只包括一个说话人。

步骤S102：确定多个目标语音片段分别对应的说话人分类特征。

其中，一个目标语音片段对应的说话人分类特征同时包含该语音片段的声纹信息和语义信息。本实施例中的说话人分类特征可以理解为融合有语义信息的短时声纹特征。

需要说明的是，发生说话人转折通常大概率发生语义改变，因此，通过语义信息可以确定是否发生说话人转折，而声纹信息能够较好地区分不同说话人，基于此，为了能够获得较好的说话人分离效果，本申请实施例针对每个目标语音片段确定同时包含声纹信息和语义信息的说话人分类特征，将各目标语音片段对应的说话人分类特征作为说话人分离依据。

步骤S103：根据多个目标语音片段分别对应的说话人分类特征，将多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合。

本实施例将声纹信息结合语义信息作为分类依据，对多个目标语音片段按说话人分类。

本申请实施例提供的说话人分离方法，首先将包含至少一个说话人的目标语音切分为多个目标语音片段，然后确定多个目标语音片段分别对应的、同时包含声纹信息和语义信息的说话人分类特征，最后根据多个目标语音片段分别对应的说话人分类特征对不同说话人的语音片段进行分离。本申请实施例提供的说话人分离方法采用各目标语音片段对应的说话人分类特征对不同说话人的语音片段进行分离，说话人分类特征既包含了能够较好的对不同说话人进行区分的声纹信息，又包含了能够反映说话人发生转折的语义信息，

在对语音片段进行分类时，以声纹信息作为依据，同时辅以语义信息，能够比较准确地将不同说话人的语音片段分离开，分离效果较好。

在本申请的另一实施例中，对上述实施例中的“步骤S102：确定多个目标语音片段分别对应的说话人分类特征”进行介绍。

在一种可能的实现方式中，确定多个目标语音片段分别对应的说话人分类特征的过程可以包括：利用预先建立的说话人分离模型，确定多个目标语音片段分别对应的说话人分类特征。

其中，说话人分离模型采用只包含一个说话人的训练语音训练得到。

以下先对建立说话人分离模型的过程进行介绍。

请参阅图2，示出了建立说话人分离模型流程示意图，可以包括：

步骤S201：获取训练语音。

具体的，从预先构建的训练数据集中获取训练语音，其中，训练数据集中包括在真实的业务场景下收集的大量不同说话人的训练语音，每条训练语音只包含一个说话人。

本实施例使用大量不同说话人的训练语音训练说话人分离模型，为了实现无监督地训练，每条训练语音只包含一个说话人。

步骤S202：将训练语音切分为多个训练语音片段。

具体的，按预设长度对训练语音进行切分，以得到多个预设长度的训练语音片段。

步骤S203：利用说话人分离模型确定多个训练语音片段分别对应的说话人分类特征。

其中，一个训练语音片段对应的说话人分类特征同时包含该训练语音片段的声纹信息和语义信息。

步骤S204：至少根据多个训练语音片段分别对应的说话人分类特征，更新说话人分离模型的参数。

按上述过程进行多次迭代训练，直至模型收敛。

在一种可能的实现方式中，说话人分离模型可以包括：声纹特征提取模块、语义特征提取模块和特征融合模块，基于此，上述“步骤S202：利用说话人分离模型确定多个训练语音片段分别对应的说话人分类特征”的具体过程可以包括：

步骤S2021、确定多个训练语音片段分别对应语音特征。

具体的，对于每个训练语音片段，首先对其进行分帧、加窗和傅里叶变换，得到每个训练语音片段对应的FFT特征，然后将每个训练语音片段对应的FFT特征组成形状为L×d(L为语音帧的数量，d为FFT特征的维度)的特征图，最后利用多层卷积神经网络将每个训练语音片段对应的L×d的特征图映射为L×M(M为自定义的参数，一般设置为512)的特征图，目的在于将语音特征变换到非线性空间。每个训练语音片段对应的L×M的特征图输入说话人分离模型。

步骤S2022a、利用多个训练语音片段分别对应语音特征和说话人分离模型的声纹特征提取模块，分别对多个训练语音片段提取短时声纹特征，获得多个训练语音片段分别对应的短时声纹特征。

可选的，声纹特征提取模块可以为声纹相关的多层全连接神经网络，每个训练语音片段对应的L×M的特征图经声纹相关的多层全连接神经网络后，可得到每个训练语音片段对应的短时声纹特征。其中，每个训练语音片段对应的语义特征均为特征序列y，其形状为L×M。

考虑到声纹是一种长时稳定的信息，可采用高斯建模并以最大似然的无监督训练准则进行声纹特征的提取。假设t时刻的短时声纹特征服从的高斯分布的均值为m_t，m_t可表示为：

其中，y_t表示t时刻的短时声纹特征，假设声纹特征服从高斯分布，那么，t时刻的短时声纹特征要服从均值为m_t、标准差为σ的高斯分布，其中，标准差σ由网络学习得到，该标准差σ可由所有说话人共享。

在模型训练阶段可以通过优化最大似然的目标函数来驱动网络训练，目标函数写成如下形式：

Loss_vp＝-N(y_t|m_t，σ) (2)

上式中，N(y_t|m_t,σ)表示t时刻的短时声纹特征y_t在均值为m_t、标准差为σ的高斯分布下的似然度，目的是要通过更新模型的参数使得似然度越来越大。需要说明的是，在模型训练中，通常是最小化目标函数，所以目标函数写成了上式中最小化似然度的负值。

步骤S2022b、利用多个训练语音片段分别对应频域特征和说话人分离模型的语义特征提取模块，分别对多个训练语音片段提取语义特征，获得多个训练语音片段分别对应的语义特征。

可选的，语义特征提取模块可以为语义相关的多层全连接神经网络，每个训练语音片段对应的L×M的特征图经语义相关的多层全连接神经网络后，可得到每个训练语音片段对应的语义特征。其中，每个训练语音片段对应的语义特征均为特征序列，其形状为L×M。

考虑到语义信息是短时稳定的，可采用无监督对抗方法进行网络优化，具体目标函数如下：

Loss_semantic＝max(cosine(q_t，q_t+1)-cosine(q_t，q_t+1+N)-margin，0) (3)

其中，q_t表示t时刻的语义特征，q_t+1表示t+1时刻的语义特征，q_t+1+N表示t+1+N时刻的语义特征，可选的，N可取大于等于8的整数，cosine(q_t,q_t+1)表示t时刻与t+1时刻语义特征间的余弦相似度，同理，cosine(q_t,q_t+1+N)表示t时刻与t+1+N时刻语义特征间的余弦相似度，margin表示两个相似度间的最小边界距离，通常设置成0.2，max表示取最大值。

需要说明的是，上述目标函数的目的是，使语义特征序列中与q_t间隔一个时刻的语义特征q_t+1与q_t之间的语义相似度要大于与q_t间隔更大时刻的语义特征q_t+1+N与q_t之间的语义相似度，margin的引入是为了增加训练难度，防止两个相似度相等。

优选的，在获得每个训练语音特征对应的短时声纹特征和语义特征后，还可将每个训练语音特征对应的短时声纹特征和对应的语义特征拼接，将拼接后的特征输入多层全连接网络，获得L×d的新特征图，根据L×d的新特征图可获得预测的FFT特征，在此基础上，本实施例可设置如下目标函数：

其中，x表示原始的FFT特征，即通过对训练语音片段进行分帧、加窗和傅里叶变换得到的FFT特征，

表示根据训练语音特征对应的短时声纹特征和语义特征预测的FFT特征，该目标函数的目的是，最小化预测特征与原始特征间的差异。

说话人分离模型的声纹特征提取模块和语义特征提取模块可在上述三个目标函数的作用下以无监督的方式进行训练，同时提取短时声纹特征和语义特征。

步骤S2023、利用说话人分离模型的特征融合模块将每个训练语音片段对应的语义特征与对应的短时声纹特征融合，获得多个训练语音片段分别对应的说话人分类特征。

可选的，特征融合模块可以为循环神经网络，如图3所示，普通的循环神经网络包含输入门、遗忘门和输出门三个门控单元，其中，输入门如果产出近似于零的值，将把这里输入的值挡住，不会进到下一层，遗忘门如果产出近似于零的值，将把区块中记忆的值忘掉，输出门可以决定在区块记忆中的输入信息是否能输出。

为了能够更好地对说话人进行持续跟踪，如图4所示，本申请提出了包括输入门、遗忘门、语义门和输出门的循环神经网络，各个目标语音片段分别对应的声纹特征和语义特征按顺序输入循环神经网络，假设当前输入的是第t个目标语音片段对应的短时声纹特征x_t和语义特征q_t，则：

遗忘门根据第t个目标语音片段对应的短时声纹特征x_t和第t-1个目标语音片段对应的说话人分类特征h_t-1，确定循环神经网络的记忆模块(图4中的“cell”)需要遗忘的信息，以将需要遗忘的信息从记忆模块中移除；输入门根据第t个目标语音片段对应的短时声纹特征x_t和第t-1个目标语音片段对应的说话人分类特征h_t-1，确定记忆模块需要记忆的信息，以将需要记忆的信息添加至记忆模块中；输出门根据第t个目标语音片段对应的短时声纹特征x_t、第t-1个目标语音片段对应的说话人分类特征h_t-1和记忆模块中当前记忆的信息，确定需要输出的信息并输出；语义门根据第t-1个目标语音片段对应的语义特征q_t、第t-1个目标语音片段对应的说话人分类特征h_t-1和记忆模块中当前记忆的信息，确定需要输出的信息并输出；循环神经网络最终的输出，即第t个目标语音片段对应的说话人分类特征h_t根据输出门的输出和语义门的输出确定，具体的，如图4所示，用tanh处理记忆模块记忆的信息，得到-1到1的值，用该值和输出门的输出以及语义门的输出相乘，即得到第t个目标语音片段对应的说话人分类特征h_t。

本申请在普通循环神经网络的基础上引入了语义门，语义门的输入为语音片段对应的语义特征。为了后续能够在利用声纹信息对多个语音片段进行说话人分离时能够辅以语义信息，本申请通过设置语义门，使得每个语音片段对应的语义特征能够与对应的短时声纹特征融合，进而获得同时包含声纹信息和语义信息的说话人分类特征。说话人分离模型的特征融合模块采用无监督方式进行训练，假设说话人的类中心服从高斯分布，那么，在获得第t个说话人分类特征时，全局长时的说话人类中心m^l _t可以表示为：

长时声纹(由同一说话人的多个说话人分类特征组成)的高斯分布均值由m^l _t来表示，标准差σ^l由网络学习得到，在模型训练阶段可以通过优化最大似然的目标函数来驱动网络训练，目标函数如下所示：

上式中，h_t表示融合有语义信息的短时声纹特征(即说话人分类特征)，m_t ^l表示长时声纹所属高斯分布的均值，σ^l表示该高斯分布的标准差，N(h_t|m_t ^l,σ^l)表示第t个融合有语义信息的短时声纹特征在当前高斯分布下的似然度，上述目标函数的目的是，通过更新模型的参数使得似然度越来越大。在模型训练中，通常是最小化目标函数，所以目标函数写成了上式中最小化似然度的负值。

本申请在对说话人分离模型进行训练时，可基于上述四个目标函数对模型的参数进行更新，以对说话人分离模型进行优化，从而获得性能较优的说话人分离模型。

经由上述过程可建立性能较优的说话人分离模型，接下来对上述实施例提及的“利用预先建立的说话人分离模型，确定多个目标语音片段分别对应的说话人分类特征”的过程进行介绍。

利用预先建立的说话人分离模型，确定多个目标语音片段分别对应的说话人分类特征的过程可以包括：

步骤a1、利用说话人分离模型的声纹特征提取模块，分别对多个目标语音片段提取短时声纹特征，获得多个目标语音片段分别对应的短时声纹特征。

与训练阶段相同，对于每个目标语音片段，首先对其进行分帧、加窗和傅里叶变换，得到每个目标语音片段对应的FFT特征，然后将每个目标语音片段对应的FFT特征组成形状为L×d的特征图，最后利用多层卷积神经网络将每个目标语音片段对应的L×d的特征图映射为L×M的特征图，以将语音特征变换到非线性空间。

每个目标语音片段对应的L×M的特征图经声纹特征提取模块后，可得到其对应的短时声纹特征。

步骤a2、利用说话人分离模型的语义特征提取模块，分别对多个目标语音片段提取语义特征，获得多个目标语音片段分别对应的语义特征。

每个目标语音片段对应的L×M的特征图经说话人分离模型的语义特征提取模块后，可得到其对应的语义特征。

需要说明的是，本实施例并不限定步骤a1和步骤a2的执行顺序，可先执行步骤a1，再执行步骤a2，也可先执行步骤a2，再执行步骤a1，还可并行执行步骤a1和步骤a2。

步骤a3、利用说话人分离模型的特征融合模块，将每个目标语音片段对应的语义特征与对应的短时声纹特征融合，获得多个目标语音片段分别对应的说话人分类特征。

若说话人分离模型的特征融合模块为包括输入门、遗忘门、语义门和输出门的循环神经网络，则对于任一目标语音片段，循环神经网络的输入为该目标语音片段对应的短时声纹特征和语义特征，其中，该目标语音片段对应的语义特征通过语义门输入，循环神经网络的输出为该目标语音片段对应的、同时包含该目标语音片段对应的短时声纹特征和语义特征的说话人分类特征。

经由上述过程可获得多个目标语音片段分别对应的说话人分类特征，接下来对上述实施例中的“步骤S103：根据多个目标语音片段分别对应的说话人分类特征，将多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合”进行介绍。

具体的，根据多个目标语音片段分别对应的说话人分类特征，将多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合的过程可以包括：

对多个目标语音片段逐一依据其对应的说话人分类特征进行分类，以得到至少一个类别的语音片段集合。其中，一个类别对应一个说话人；第一个目标语音片段所属的类别为一新建类别，其它每个目标语音片段所属的类别为已有类别和一新建类别中的一个类别。

请参阅图5，示出了对多个目标语音片段逐一依据其对应的说话人分类特征进行分类，以得到至少一个类别的语音片段集合的流程示意图，该方法包括：

步骤S501：从多个目标语音片段中获取一未分类的目标语音片段。

步骤S502a：若当前无类别，则新建一类别，作为该目标语音片段所属的类别。

其中，一个类别对应一个说话人。

步骤S502b：若当前已有类别，则将当前已有类别作为候选类别，并再以一预设的初始类中心新建一类别作为一候选类别，根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别。

其中，根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别的过程包括：根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，确定该目标语音片段分别属于各个候选类别的概率；根据该目标语音片段分别属于各个候选类别的概率，确定该目标语音片段所属的类别。

需要说明的是，一个类别对应一个高斯分布，该高斯分布的均值为该类别的类中心，该高斯分布的标准差为σ，其预先确定，一个目标语音片段属于一个类别的概率指的是该目标语音片段对应的说话人分类特征在以该类别的类中心为均值、标准差为σ的高斯分布上的概率。

步骤S503：将该目标语音片段加入其所属类别的语音片段集合中，并根据该目标语音片段所在的语音片段集合中各目标语音片段对应的说话人分类特征，更新该目标语音片段所属类别的类中心。

具体的，将该目标语音片段所在的语音片段集合中所有语音片段分别对应的说话人分类特征求均值，将目标语音片段所属类别的类中心更新为求得的均值。

步骤S504：判断多个目标语音片段中是否还有未分类的目标语音片段，若是，则返回步骤S501；若否，则结束。

在上述实施例的基础上，下面通过一具体示例对分类过程进行说明：

假设将包含多个说话人的目标语音切分为5个目标语音片段，分别为s₁、s₂、s₃、s₄、s₅，5个目标语音片段分别对应的说话人分类特征为h₁、h₂、h₃、h₄、h₅：

首先，从5个目标语音片段获取一个目标语音片段s₁，由于当前无类别，则新建一类别，假设为类别1，则将目标语音片段s₁加入类别1的语音片段集合中，将目标语音片段s₁对应的说话人分类特征为h₁作为类别1的当前类中心；

然后，获取目标语音片段s₂，由于当前已有类别1，则确定目标语音片段s₂属于类别1的概率p(h₂|m¹,σ)(m¹为类别1的当前类中心)，并新建一类别2，该新建类别2的当前类中心为预设的初始类中心，确定目标语音片段s₂属于类别2的概率p(h₂|m²,σ)(m²为类别2的当前类中心)，若p(h₂|m¹，σ)大于p(h₂|m²,σ)，则将目标语音片段s₂加入类别1的语音片段集合中，并根据类别1的语音片段集合中各语音片段对应的说话人分类特征更新类别1的类中心，由于类别1的语音片段集合中当前包括目标语音片段s₁和s₂，因此，可用h₁和h₂的均值更新类别1的类中心；若p(h₂|m²,σ)大于p(h₂|m¹,σ)，则将目标语音片段s₂加入类别2的语音片段集合中，由于类别2的语音片段集合中当前只有目标语音片段s₂，因此，将类别2的类中心更新为目标语音片段s₂对应的说话人分类特征h₂；

对目标语音片段s₄、s₅按上述类似的方式进行分类。

将5个目标语音片段按上述过程分类后，最终会获得多个类别的语音片段集合，其中，一个类别的语音片段集合为一个说话人的语音片段集合，对于任一类别而言，将该类别的语音片段集合中所包含的所有语音片段分别对应的说话人分类特征进行组合，可获得能够表征对应说话人的长时声纹特征。

请参阅图6，示出了本申请实施例提供的说话人分离方法的整体实现过程的示意图，由图6可以看出，本申请可按预设长度将目标语音分割为多个目标语音片段，并可针对每个目标语音片段分别利用说话人分离模型的声纹特征提取模块和语义特征提取模块提取短时声纹特征和语义特征，在此基础上，可利用说话人分离模型的特征融合模块将每个目标语音片段对应的短时声纹特征与语义特征融合，如此可获得每个目标语音片段对应的说话人分类特征，进而可利用每个目标语音片段对应的说话人分类特征对多个目标语音片段按说话人进行分类。用于对多个目标语音片段进行分类的说话人分类特征既包含了能够较好的对不同说话人进行区分的声纹信息，又包含了能够反映说话人发生转折的语义信息，这使得在对多个目标语音片段按说话人分类时，能够在声纹信息的基础上辅以语义信息，从而能够比较准确地将不同说话人的语音片段分离开，分离效果较好。

下面对本申请实施例提供的说话人分离装置进行描述，下文描述的说话人分离装置与上文描述的说话人分离方法可相互对应参照。

请参阅图7，示出了本申请实施例提供的一种说话人分离装置的结构示意图，该说话人分离装置可以包括：语音切分模块701、说话人分类特征确定模块702和语音片段分类模块703。

语音切分模块701，用于将所述目标语音切分为多个目标语音片段。

说话人分类特征确定模块702，用于确定所述多个目标语音片段分别对应的说话人分类特征。

其中，一个目标语音片段对应的说话人分类特征同时包括该目标语音片段的声纹信息和语义信息；

语音片段分类模块703，用于根据所述多个目标语音片段分别对应的说话人分类特征，将所述多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合。

本申请实施例提供的说话人分离装置，采用各目标语音片段对应的说话人分类特征对不同说话人的语音片段进行分离，由于说话人分类特征既包含了能够较好的对不同说话人进行区分的声纹信息，又包含了能够反映说话人发生转折的语义信息，根据声纹信息同时结合语义信息对多个目标语音片段进行分类，能够获得较好的说话人分离效果。

在一种可能的实现方式中，上述实施例中的语音切分模块701，具体用于按预设长度对目标语音片段进行切分，获得多个预设长度的目标语音片段。

在一种可能的实现方式中，上述实施例中的说话人分类特征确定模块702，具体用于利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征；其中，所述说话人分离模型采用多条不同说话人的训练语音训练得到，每条训练语音只包含一个说话人。

在一种可能的实现方式中，上述实施例中的说话人分类特征确定模块702，在利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征时，具体用于利用所述说话人分离模型的声纹特征提取模块，分别对所述多个目标语音片段提取声纹特征，获得所述多个目标语音片段分别对应的短时声纹特征；利用所述说话人分离模型的语义特征提取模块，分别对所述多个目标语音片段提取语义特征，获得所述多个目标语音片段分别对应的语义特征；利用所述说话人分离模型的特征融合模块，将每个目标语音片段对应的语义特征与对应的短时声纹特征融合，获得所述多个目标语音片段分别对应的说话人分类特征。

在一种可能的实现方式中，上述的说话人分离模型的特征融合模块可以为包括输入门、遗忘门、输出门和语义门的循环神经网络。

对于任一目标语音片段，循环神经网络的输入为该目标语音片段对应的短时声纹特征和语义特征，其中，该目标语音片段对应的语义特征通过所述语义门输入，所述循环神经网络的输出为该目标语音片段对应的、同时包含该目标语音片段对应的短时声纹特征和语义特征的说话人分类特征。

其中，各个目标语音片段分别对应的短时声纹特征和语义特征按顺序输入所述循环神经网络；

在一种可能的实现方式中，上述实施例中的语音片段分类模块603，具体用于对所述多个目标语音片段逐一依据其对应的说话人分类特征进行分类，以得到至少一个类别的语音片段集合；其中，一个类别对应一个说话人；第一个目标语音片段所属的类别为一新建类别，其它每个目标语音片段所属的类别为已有类别和又一新建类别中的一个类别。

在一种可能的实现方式中，上述实施例中的语音片段分类模块603可以包括：语音片段获取子模块、语音片段所属类别确定子模块、语音片段处理子模块和类中心更新子模块。

语音片段获取子模块，用于从所述多个目标语音片段中获取一未分类的目标语音片段；

语音片段所属类别确定子模块，用于若当前无类别，则新建一类别作为该目标语音片段所属的类别，其中，一个类别对应一个说话人；若当前已有类别，将当前已有类别作为候选类别，并再以一预设的初始类中心新建一类别作为一候选类别，根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别；

语音片段处理子模块，用于将该目标语音片段加入其所属类别的语音片段集合中。

类中心更新子模块，用于根据该目标语音片段所在的语音片段集合中各目标语音片段对应的说话人分类特征，更新该目标语音片段所属类别的类中心。

语音片段获取子模块，还用于当多个目标语音片段中存在未分类的目标语音片段时，从所述多个目标语音片段中获取一未分类的目标语音片段。

在一种可能的实现方式中，语音片段所属类别确定子模块在根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别时，具体用于根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，确定该目标语音片段分别属于各个候选类别的概率；根据该目标语音片段分别属于各个候选类别的概率，确定该目标语音片段所属的类别。

上述实施例提供的说话人分离装置还可以包括说话人分离模型构建模块，说话人分离模型构建模块包括：训练语音获取模块、训练语音切分模块、特征确定模块和参数更新模块。

训练语音获取模块，用于获取只包含一个说话人的训练语音。

训练语音切分模块，用于将所述训练语音切分为多个训练语音片段。

特征确定模块，用于利用说话人分离模型确定所述多个训练语音片段分别对应的说话人分类特征。

参数更新模块，用于至少根据所述多个训练语音片段分别对应的说话人分类特征，更新说话人分离模型的参数。

在一种可能的实现方式中，上述的特征确定模块，具体用于确定所述多个训练语音片段分别对应语音特征；利用所述多个训练语音片段分别对应的语音特征和说话人分离模型，确定所述多个训练语音片段分别对应的短时声纹特征和所述多个训练语音片段分别对应的语义特征；利用说话人分离模型将每个训练语音片段对应的语义特征与对应的短时声纹特征融合，获得所述多个训练语音片段分别对应的说话人分类特征。

在一种可能的实现方式中，上述的参数更新模块包括：预测损失确定子模块和参数更新子模块。

预测损失确定子模块，用于根据所述多个训练语音片段分别对应的短时声纹特征、所述多个训练语音片段分别对应的语义特征、所述多个训练语音片段分别对应的预测语音特征以及所述多个训练语音片段分别对应的说话人分类特征，确定说话人分离模型的预测损失，其中，一个训练语音片段对应的预测语音特征根据该训练语音片段对应的短时声纹特征和语义特征确定。

参数更新子模块，用于根据说话人分离模型的预测损失，更新说话人分离模型的参数。

本申请实施例还提供了一种说话人分离设备，请参阅图8，示出了该说话人分离设备的结构示意图，该说话人分离设备可以包括：至少一个处理器801，至少一个通信接口802，至少一个存储器803和至少一个通信总线804；

在本申请实施例中，处理器801、通信接口802、存储器803、通信总线804的数量为至少一个，且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信；

处理器801可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器803可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种说话人分离方法，其特征在于，包括：

2.根据权利要求1所述的说话人分离方法，其特征在于，所述确定所述多个目标语音片段分别对应的说话人分类特征，包括：

3.根据权利要求2所述的说话人分离方法，其特征在于，所述利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征，包括：

4.根据权利要求3所述的说话人分离方法，其特征在于，所述说话人分离模型的特征融合模块为包括输入门、遗忘门、输出门和语义门的循环神经网络；

5.根据权利要求4所述的说话人分离方法，其特征在于，各个目标语音片段分别对应的短时声纹特征和语义特征按顺序输入所述循环神经网络；

6.根据权利要求1所述的说话人分离方法，其特征在于，所述根据所述多个目标语音片段分别对应的说话人分类特征，将所述多个目标语音片段按说话人分类，以得到每个说话人的语音片段集合，包括：

其中，一个类别对应一个说话人；第一个目标语音片段所属的类别为一新建类别，其它每个目标语音片段所属的类别为已有类别和又一新建类别中的一个类别。

7.根据权利要求6所述的说话人分离方法，其特征在于，所述对所述多个目标语音片段逐一依据其对应的说话人分类特征进行分类，以得到至少一个类别的语音片段集合，包括：

从所述多个目标语音片段中获取一未分类的目标语音片段；

8.根据权利要求7所述的说话人分离方法，其特征在于，所述根据该目标语音片段对应的说话人分类特征和每个候选类别的类中心，从所有的候选类别中确定该目标语音片段所属的类别，包括：

9.根据权利要求2所述的说话人分离方法，其特征在于，建立所述说话人分离模型的过程包括：

10.根据权利要求9所述的说话人分离方法，其特征在于，所述利用说话人分离模型确定所述多个训练语音片段分别对应的说话人分类特征，包括：

确定所述多个训练语音片段分别对应语音特征；

11.根据权利要求10所述的说话人分离方法，其特征在于，至少根据所述多个训练语音片段分别对应的说话人分类特征，更新说话人分离模型的参数，包括：

根据所述说话人分离模型的预测损失，更新说话人分离模型的参数。

12.一种说话人分离装置，其特征在于，包括：语音切分模块、说话人分类特征确定模块和语音片段分类模块；

13.根据权利要求12所述的说话人分离装置，其特征在于，所述说话人分类特征确定模块，具体用于利用预先建立的说话人分离模型，确定所述多个目标语音片段分别对应的说话人分类特征；

14.根据权利要求13所述的说话人分离装置，其特征在于，所述说话人分类特征确定模块，具体用于利用所述说话人分离模型的声纹特征提取模块，分别对所述多个目标语音片段提取声纹特征，获得所述多个目标语音片段分别对应的短时声纹特征；利用所述说话人分离模型的语义特征提取模块，分别对所述多个目标语音片段提取语义特征，获得所述多个目标语音片段分别对应的语义特征；利用所述说话人分离模型的特征融合模块，将每个目标语音片段对应的语义特征与对应的短时声纹特征融合，获得所述多个目标语音片段分别对应的说话人分类特征。

15.一种说话人分离设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～11中任一项所述的说话人分离方法的各个步骤。

16.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～11中任一项所述的说话人分离方法的各个步骤。