CN110289002B

CN110289002B - 一种端到端的说话人聚类方法及系统

Info

Publication number: CN110289002B
Application number: CN201910575862.XA
Authority: CN
Inventors: 伍强
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-04-27
Anticipated expiration: 2039-06-28
Also published as: CN110289002A

Abstract

本发明公开了一种端到端的说话人聚类方法，包括以下步骤：S001：收集至少两人的说话人语音数据；S002：提取语音数据的声学特征；S003：设计一个说话人聚类神经网络模型，用于聚类和分类；S004：设计一个说话人识别神经网络模型，用于预训练模型；S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；S004：采用说话人识别模型参数初始化说话人聚类神经网络模型；S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息。本发明可以大大减少人工参与数据标定的工作量，也有助于提高说话人识别模型的精度。

Description

一种端到端的说话人聚类方法及系统

技术领域

本发明涉及一种说话人识别学习方法及系统，具体涉及一种端到端的说话人聚类方法及系统。

背景技术

近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中，特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配，用户使用自己的声音就可以完成账户登录、购物支付等。

深度学习的发展使得很多领域都取得了惊人的进步，包括说话人识别领域，然而现在通过改变网络的结构对分类准确率的影响已经越来越小，因此人们把关注点放在扩充数据集上，现有的常见数据集规模相对现在深度学习发展水平来说也是有些不够的，然而扩充数据集是一件困难的事，许多时候需要进行人工的标注，而人工标注是费时费力。因此使用无监督的方法生成更大的数据集也成为了现在研究的需求。传统的聚类方法主要是针对固定特征之上的线性模型而设计的，只能针对某些数据有好的效果，泛化性差。

为了解决深度学习在说话人识别领域数据不足的问题，提出了一种端到端的说话人聚类方法及系统，首先预训练一个说话人识别网络模型，然后用这个预训练的说话人识别模型初始化聚类网络模型，其中聚类网络模型有聚类和分类两个输出分支，聚类分支输出的标签信息用于分类分支的输入真实标签，计算聚类网络模型的分类误差，分类误差反馈回聚类网络模型，更新聚类网络模型的参数，如此迭代直到聚类网络模型收敛，最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型，大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模型的精度。

发明内容

本发明的目的在于克服现有技术存在的人工标定工作量极大的问题，提供一种端到端的说话人聚类方法及系统。

本发明是这样实现的：

一种端到端的说话人聚类方法，包括以下步骤：

S001：收集至少两人的说话人语音数据；

S002：提取语音数据的声学特征；

S003：设计一个说话人聚类神经网络模型，用于聚类和分类；

S004：设计一个说话人识别神经网络模型，用于预训练模型；

S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；

S004：采用说话人识别模型参数初始化说话人聚类神经网络模型；

S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；

S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息。

更进一步的方案是：

声学特征提取模块提取说话人语音的声学特征，声学特征包括但不仅限梅尔频率倒谱系数(MFCC)和power-normalized cepstral coefficients(PNCC)。

更进一步的方案是：

所述的神经网络包括但不限于卷积神经网络(CNN)、递归神经网络(RNN、LSTM、GRU)和延时神经网络(TDNN)中的一种或者多种网络的组合。

更进一步的方案是：

所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数。在一个已知说话人录音标签的数据集上训练神经网络直到收敛，然后将预训练神经网络的参数初始化聚类神经网络的参数。

更进一步的方案是：

训练说话人模块中聚类神经网络模型的训练方法，包括以下步骤：

S0：将说话人录音的声学特征输入神经网络中，提取说话人录音数据的深度声纹特征；

S1：将S0中说话人的深度声纹特征进行聚类，输出说话人录音的聚类标签；

S2：将S0中说话人的深度声纹特征进行分类，得到分类标签；

S3：计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差，得到聚类神经网络的分类误差；

S4：将S3中的分类误差反馈到聚类神经网络中，更新聚类神经网络的参数；

S5：重复S0至S4的步骤，直到聚类神经网络收敛；

S6：待聚类神经网络收敛后，即可输出说话人录音数据的最终标签。

更进一步的方案是：

提取分类特征和聚类特征的神经网络的参数是共享的，聚类结果作为伪标签提供给分类器进行训练，通过分类的训练进行反向传播优化神经网络的参数。

更进一步的方案是：

所述的聚类算法包括但不仅限于k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。

本发明还提供了一种端到端的说话人聚类系统，包括顺序相连的语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块，其中：

语音采集和存储模块，用于采集和存储语音数据；

声学特征提取模块，用于提取说话人语音的声学特征；

神经网络模型预训练模块，用于得到聚类神经网络的初始参数；

说话人聚类模块，用于输出说话人语音数据的标签。

本发明首先预训练一个说话人识别网络模型，然后用这个预训练的说话人识别模型初始化聚类网络模型，其中聚类网络模型有聚类和分类两个输出分支，聚类分支输出的标签信息用于分类分支的输入真实标签，计算聚类网络模型的分类误差，分类误差反馈回聚类网络模型，更新聚类网络模型的参数，如此迭代直到聚类网络模型收敛，最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型，大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模型的精度。

附图说明

图1：语音采集和存储模块；

图2：声学特征提取模块；

图3：神经网络模型预训练模块；

图4：说话人聚类模块；

图5：端到端的说话人聚类系统示意图。

具体实施方式

本发明实现了一种端到端的说话人聚类方法及系统，能够高效且准确地对说话人录音数据进行标定。为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例进一步详细说明如下。

实施例一

本发明提出了一种端到端的说话人聚类方法，具体包括：

1)收集至少两人的说话人语音数据

待聚类的语音数据的标签类别数量必须两人及以上。

2)提取语音数据的声学特征

提取梅尔频率倒谱系数特征，假设帧长为25ms，步长为10ms，因此每个帧长内就会得到一个39维的特征向量，假设有N帧，这样每条语音可以得到39xN的二维mfcc特征矩阵。

3)设计一个说话人聚类神经网络模型，作为聚类和分类模型

设计一个卷积神经网络，两个输出分支：分类分支和聚类分支。

4)设计一个说话人识别神经网络模型，作为预训练模型

网络结构与说话人聚类神经网络模型的分类分支一致。

5)采用已知标签信息的说话人语音数据训练说话人识别神经网络模型，步骤如下：

5-1)假设一个已知说话人标签的语音数据集，类别数为M类；

5-2)按照B1的步骤的提取MFCC声学特征；

5-3)设计一个卷积神经网络，其中最后一个分类层输出设置为M；

5-4)训练卷积神经网络，直到收敛，停止训练；

5-5)保存卷积神经网络的模型，即预训练模型参数。

6)采用说话人识别模型参数初始化说话人聚类神经网络模型

采用说话人识别神经网络模型的参数初始化说话人聚类神经网络模型的分类分支，但忽略其中最后一层即分类层，此层采用随机初始化的方式。

7)采用未知标签的说话人语音数据训练说话人聚类神经网络模型

7-1)将未知标签但总类别数为N0的说话人语音数据集D提取MFCC声学特征；

7-2)将数据集D输入到聚类的卷积神经网络模型，提取深度声纹特征；

7-3)将深度特征采用K均值聚类算法进行聚类，得到每一个语音的聚类标签，总类别数为N0；

7-4)将深度声纹特征进行分类，得到每一个语音的分类标签，总类别数为N0；

7-5)计算聚类标签和分类标签的误差，得到聚类的卷积神经网络的分类误差；

7-6)将B36中的分类误差反向传播到聚类的卷积神经网络，更新每层的网络参数；

7-7)重复7-2至7-6步骤，直到网络收敛；

7-8)网络收敛之后，从聚类分支即可得到每个录音的标签。

实施例二

本发明提出了一种端到端的说话人聚类系统，具体实施例如下：

一种端到端的说话人聚类系统，整体结构如附图5所示，具体的包括以下模块：

1)语音采集和存储模块，如附图1所示

获取语音数据并存储在本地端。

2)声学特征提取模块，如附图2所示

提取说话人语音的声学特征，作为神经网络的输入。

3)神经网络模型预训练模块，如附图3所示

用于得到聚类神经网络的初始参数

3-1)已知说话人标签的数据集有M类；

3-2)设定神经网络的输出类别为M类；

3-3)训练神经网络直到收敛；

3-4)得到预训练模型参数。

4)说话人聚类模块，如附图4所示

4-1)将说话人录音的声学特征输入聚类神经网络中，提取说话人录音数据的深度声纹特征；

4-2)将4-1中说话人的深度声纹特征进行聚类，输出说话人录音的聚类标签；

4-3)将4-1中说话人的深度声纹特征进行分类，得到分类标签；

4-4)计算4-2中说话人录音的聚类标签和4-3中的分类标签的分类误差，得到聚类神经网络的分类误差；

4-5)将4-4中的分类误差反馈到聚类神经网络中，更新聚类神经网络的参数；

4-6)重复4-1至4-5的步骤，直到聚类神经网络收敛；

4-7)待聚类神经网络收敛后，即可输出说话人录音数据的最终标签。

综上所述，本发明通过语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块实现了一种端到端的说话人聚类方法及系统。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种端到端的说话人聚类方法，其特征在于包括以下步骤：

S001：收集至少两人的说话人语音数据；

S002：提取语音数据的声学特征；所述声学特征包括梅尔频率倒谱系数MFCC和power-normalized cepstral coefficients PNCC；

S003：设计一个说话人聚类神经网络模型，用于聚类和分类；

S004：设计一个说话人识别神经网络模型，用于预训练模型；

S003：采用已知标签信息的说话人语音数据训练说话人识别神经网络模型；所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数，在一个已知说话人录音标签的数据集上训练神经网络直到收敛，然后将预训练神经网络的参数初始化聚类神经网络的参数；

S005：采用未知标签的说话人语音数据训练说话人聚类神经网络模型；说话人聚类神经网络模型的训练方法，包括以下步骤：

S2：将S0中说话人的深度声纹特征进行分类，得到分类标签；

S5：重复S0至S4的步骤，直到聚类神经网络收敛；

S6：待聚类神经网络收敛后，即可输出说话人录音数据的最终标签；

S006：说话人聚类神经网络模型收敛，输出未知标签的说话人语音数据的标签信息；

所述神经网络包括卷积神经网络、递归神经网络和延时神经网络中的一种或者多种网络的组合。

2.根据权利要求1所述端到端的说话人聚类方法，其特征在于：

S003中，用于提取分类和聚类特征的神经网络的参数是共享的，聚类结果作为伪标签提供给分类器进行训练，通过分类的训练进行反向传播优化神经网络的参数。

3.根据权利要求1所述端到端的说话人聚类方法，其特征在于：

聚类采用的算法包括k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。