CN110211595B

CN110211595B - 一种基于深度学习的说话人聚类系统

Info

Publication number: CN110211595B
Application number: CN201910574851.XA
Authority: CN
Inventors: 伍强
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-08-06
Anticipated expiration: 2039-06-28
Also published as: CN110211595A

Abstract

本发明公开了一种基于深度学习的说话人聚类系统，包括：顺序相连的语音采集和存储模块、声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块，其中：语音采集和存储模块，用于采集和存储语音数据；声学特征提取模块，用于提取说话人语音的声学特征；说话人识别模块，用于提取说话人语音的帧级深度声纹特征；帧级特征融合模块，用于融合帧级深度声纹特征得到句级深度声纹特征；说话人聚类模块，用于输出说话人语音数据的标签信息。本发明提供的基于深度学习的说话人聚类系统大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模块的精度。

Description

一种基于深度学习的说话人聚类系统

技术领域

本发明涉及一种说话人识别学习系统，具体涉及一种基于深度学习的说话人聚类系统。

背景技术

近几年来，随着人工智能技术的快速发展，越来越多的带有人工智能技术的产品出现在人们的日常生活中，特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配，用户使用自己的声音就可以完成账户登录、购物支付等。

深度学习的发展使得很多领域都取得了惊人的进步，包括说话人识别领域，然而现在通过改变网络的结构对分类准确率的影响已经越来越小，因此人们把关注点放在扩充数据集上，现有的常见数据集规模相对现在深度学习发展水平来说也是有些不够的，然而扩充数据集是一件困难的事，许多时候需要进行人工的标注，而人工标注是费时费力。因此使用无监督的方法生成更大的数据集也成为了现在研究的需求。

为了解决深度学习在说话人识别领域数据不足的问题，提出了一种基于深度学习的说话人聚类系统，首先通过深度学习算法训练一个说话人识别模块，然后用说话人识别模块提取说话人语音的深度声纹特征，最后采用聚类算法对深度声纹特征聚类，输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模块，大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模块的精度。

发明内容

本发明的目的在于克服现有技术中扩充数据集需要人工标注，从而导致工作量极大增加的问题，提供一种基于深度学习的说话人聚类系统。

本发明是这样实现的：

一种基于深度学习的说话人聚类系统，包括：

语音采集和存储模块，用于采集和存储语音数据

声学特征提取模块，用于提取说话人语音的声学特征；

说话人识别模块，用于提取说话人语音的帧级深度声纹特征；

帧级特征融合模块，用于融合帧级深度声纹特征得到句级深度声纹特征；

说话人聚类模块，用于输出说话人语音数据的标签信息。

具体的，所述的声学特征提取模块提取说话人语音的声学特征，声学特征包括但不仅限梅尔频率倒谱系数(MFCC)和power-normalized cepstral coefficients(PNCC)。

具体的，所述的说话人识别模块用于提取说话人语音的帧级深度声纹特征，说话人识别模块就是一个说话人识别模块。

具体的，所述的帧级特征融合模块用于融合帧级深度声纹特征得到一个录音的完整特征表示。说话人识别模块提取的特征是一个语音数据的帧级特征，需要帧级特征融合模块将帧级特征融合为句级深度声纹特征。

具体的，所述的聚类算法包括但不仅限于k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类。

具体的，所述的说话人识别模块采用深度神经网络结构，包括但不限于卷积神经网络(CNN)、递归神经网络(RNN、LSTM、GRU)和延时神经网络(TDNN)。

具体的，所述的训练说话人识别模块包括以下步骤：

S0：设计一个深度神经网络模型，此模型结构可以是CNN、RNN、LSTM、GRU、TDNN中任何一种或者它们之间的组合；

S1：将说话人录音的声学特征输入深度神经网络中，提取说话人录音数据的深度声纹特征；

S2：将S1中说话人的深度声纹特征进行分类，得到分类标签；

S3：计算说话人录音的真实标签和S2中的分类标签的分类误差，得到深度神经网络的分类误差；

S4：将S3中的分类误差反馈到深度神经网络中，更新深度神经网络的参数；

S5：重复S1至S4的步骤，直到深度神经网络收敛；

S6：待深度神经网络收敛以后，保存模型。

具体的，所述的帧级特征融合方法包括但不仅限于平均所有的帧级特征、拼接所有的帧级特征、求所有帧级特征的最大值或者求所有帧的最小值。

本发明提供的基于深度学习的说话人聚类系统，能够通过训练说话人识别模块，然后采用聚类算法对深度声纹特征聚类，输出说话人标签信息。本发明提供的基于深度学习的说话人聚类系统大大减少人工参与数据标定的工作量，同时也有助于提高说话人识别模块的精度。

附图说明

图1：语音采集和存储模块

图2：声学特征提取模块；

图3：说话人识别模块

图4：帧级特征融合模块、

图5：说话人聚类模块

图6：基于深度学习的说话人聚类系统整体示意图。

具体实施方式

本发明实现了一种基于深度学习的说话人聚类系统，能够高效且准确地对说话人录音数据进行标定。为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例进一步详细说明如下。

本发明提出了一种基于深度学习的说话人聚类系统，如附图6所示，包括语音采集和存储模块，声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块。

一种基于深度学习的说话人聚类系统具体的包括以下模块：

1)语音采集和存储模块，如附图1所示，

用于采集和存储语音数据。

2)声学特征提取模块，如附图2所示，

提取说话人语音的声学特征，作为神经网络的输入。

3)说话人识别模块，如附图3所示，

用于提取说话人语音的帧级深度声纹特征，包括以下步骤：

3-0)：设计一个深度神经网络模型；

3-1)：将说话人录音的声学特征输入深度神经网络中，提取说话人录音数据的帧级深度声纹特征；

3-2)：将3-1中说话人的帧级深度声纹特征进行分类，得到分类标签；

3-3)：计算话人录音的真实标签和3-2中的分类标签的分类误差，得到深度神经网络的分类误差；

3-4)：将3-3中的分类误差反馈到深度神经网络中，更新深度神经网络的参数；

3-5)：重复3-1至3-4的步骤，直到聚类神经网络收敛；

3-6)：待深度神经网络收敛以后，保存模型。

3)帧级特征融合模块，如图4所示，

用于融合帧级深度声纹特征得到句级深度声纹特征，包括以下步骤：

3-1)采用说话人识别模块提取说话人录音的声学特征的帧级深度声纹特征；

3-2)采用帧级特征融合方法将帧级深度声纹特征融合为句级深度声纹特征。

4)说话人聚类模块，如附图5所示

用于输出说话人录音的标签信息，具体方法为：将说话人录音的完整特征表示采用聚类算法进行聚类，即可得到每个说话人录音的标签信息。

下面结合一个具体实施例对本发明方法和系统进一步详细说明如下：

B1、提取声学特征

提取梅尔频率倒谱系数为例：

提取梅尔频率倒谱系数特征，假设帧长为25ms，步长为10ms，因此每个帧长内就会得到一个39维的特征向量，假设有N帧，这样每条语音可以得到39xN的二维mfcc特征矩阵，

B2、训练说话人识别模块

B21、假设一个已知说话人标签的语音数据集，类别数为M类；

B22、按照B1的步骤的提取MFCC声学特征；

B23、设计一个卷积神经网络，其中最后一个分类层输出设置为M；

B24、训练此卷积神经网络，直到收敛，停止训练；

B25、保存卷积神经网络的模型，即说话人识别模块参数。

B3、帧级特征融合

B31、采用B2中的说话人识别模块提取说话人录音的声学特征的帧级深度声纹特征；

B32、将帧级深度声纹特征采用求平均值的方法融合为句级深度声纹特征。

B4、说话人聚类

采用B3中的句级深度声纹特征采用k均值聚类算法聚类，输出每一个说话人录音数据的标签信息。

综上所述，本发明通过语音采集和存储模块、声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块实现了一种基于深度学习的说话人聚类系统。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于深度学习的说话人聚类系统，其特征在于包括：

顺序相连的语音采集和存储模块、声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块，其中：

语音采集和存储模块，用于采集和存储语音数据；

声学特征提取模块，用于提取说话人语音的声学特征；

说话人聚类模块，用于输出说话人语音数据的标签信息；

所述的说话人识别模块是采用如下方法训练得到的：

S0：设计一个深度神经网络模型，此模型结构是CNN、RNN、LSTM、GRU、TDNN中任何一种或者它们之间的组合；

S2：将S1中说话人的深度声纹特征进行分类，得到分类标签；

S5：重复S1至S4的步骤，直到深度神经网络收敛；

S6：待深度神经网络收敛以后，保存，得到深度神经网络模型。

2.根据权利要求1所述基于深度学习的说话人聚类系统，其特征在于：

所述的声学特征提取模块提取说话人语音的声学特征，声学特征包括梅尔频率倒谱系数MFCC和power-normalized cepstral coefficients PNCC。

3.根据权利要求1所述基于深度学习的说话人聚类系统，其特征在于：

所述的说话人识别模块提取的帧级深度声纹特征是一个语音数据的帧级特征，帧级特征融合模块将帧级特征融合为句级深度声纹特征。

4.根据权利要求1所述基于深度学习的说话人聚类系统，其特征在于：

所述的说话人识别模块采用深度神经网络结构，包括卷积神经网络、递归神经网络、延时神经网络。

5.根据权利要求1所述基于深度学习的说话人聚类系统，其特征在于：

所述的说话人聚类模块采用的聚类算法包括k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类。

6.根据权利要求3所述基于深度学习的说话人聚类系统，其特征在于：

所述的帧级特征融合模块采用的帧级特征融合方法包括平均所有的帧级特征、拼接所有的帧级特征、求所有帧级特征的最大值或者求所有帧的最小值。