CN110289002B - 一种端到端的说话人聚类方法及系统 - Google Patents
一种端到端的说话人聚类方法及系统 Download PDFInfo
- Publication number
- CN110289002B CN110289002B CN201910575862.XA CN201910575862A CN110289002B CN 110289002 B CN110289002 B CN 110289002B CN 201910575862 A CN201910575862 A CN 201910575862A CN 110289002 B CN110289002 B CN 110289002B
- Authority
- CN
- China
- Prior art keywords
- speaker
- clustering
- neural network
- network model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims description 39
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000005354 coacervation Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种端到端的说话人聚类方法,包括以下步骤:S001:收集至少两人的说话人语音数据;S002:提取语音数据的声学特征;S003:设计一个说话人聚类神经网络模型,用于聚类和分类;S004:设计一个说话人识别神经网络模型,用于预训练模型;S003:采用已知标签信息的说话人语音数据训练说话人识别神经网络模型;S004:采用说话人识别模型参数初始化说话人聚类神经网络模型;S005:采用未知标签的说话人语音数据训练说话人聚类神经网络模型;S006:说话人聚类神经网络模型收敛,输出未知标签的说话人语音数据的标签信息。本发明可以大大减少人工参与数据标定的工作量,也有助于提高说话人识别模型的精度。
Description
技术领域
本发明涉及一种说话人识别学习方法及系统,具体涉及一种端到端的说话人聚类方法及系统。
背景技术
近几年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中,特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配,用户使用自己的声音就可以完成账户登录、购物支付等。
深度学习的发展使得很多领域都取得了惊人的进步,包括说话人识别领域,然而现在通过改变网络的结构对分类准确率的影响已经越来越小,因此人们把关注点放在扩充数据集上,现有的常见数据集规模相对现在深度学习发展水平来说也是有些不够的,然而扩充数据集是一件困难的事,许多时候需要进行人工的标注,而人工标注是费时费力。因此使用无监督的方法生成更大的数据集也成为了现在研究的需求。传统的聚类方法主要是针对固定特征之上的线性模型而设计的,只能针对某些数据有好的效果,泛化性差。
为了解决深度学习在说话人识别领域数据不足的问题,提出了一种端到端的说话人聚类方法及系统,首先预训练一个说话人识别网络模型,然后用这个预训练的说话人识别模型初始化聚类网络模型,其中聚类网络模型有聚类和分类两个输出分支,聚类分支输出的标签信息用于分类分支的输入真实标签,计算聚类网络模型的分类误差,分类误差反馈回聚类网络模型,更新聚类网络模型的参数,如此迭代直到聚类网络模型收敛,最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型,大大减少人工参与数据标定的工作量,同时也有助于提高说话人识别模型的精度。
发明内容
本发明的目的在于克服现有技术存在的人工标定工作量极大的问题,提供一种端到端的说话人聚类方法及系统。
本发明是这样实现的:
一种端到端的说话人聚类方法,包括以下步骤:
S001:收集至少两人的说话人语音数据;
S002:提取语音数据的声学特征;
S003:设计一个说话人聚类神经网络模型,用于聚类和分类;
S004:设计一个说话人识别神经网络模型,用于预训练模型;
S003:采用已知标签信息的说话人语音数据训练说话人识别神经网络模型;
S004:采用说话人识别模型参数初始化说话人聚类神经网络模型;
S005:采用未知标签的说话人语音数据训练说话人聚类神经网络模型;
S006:说话人聚类神经网络模型收敛,输出未知标签的说话人语音数据的标签信息。
更进一步的方案是:
声学特征提取模块提取说话人语音的声学特征,声学特征包括但不仅限梅尔频率倒谱系数(MFCC)和power-normalized cepstral coefficients(PNCC)。
更进一步的方案是:
所述的神经网络包括但不限于卷积神经网络(CNN)、递归神经网络(RNN、LSTM、GRU)和延时神经网络(TDNN)中的一种或者多种网络的组合。
更进一步的方案是:
所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数。在一个已知说话人录音标签的数据集上训练神经网络直到收敛,然后将预训练神经网络的参数初始化聚类神经网络的参数。
更进一步的方案是:
训练说话人模块中聚类神经网络模型的训练方法,包括以下步骤:
S0:将说话人录音的声学特征输入神经网络中,提取说话人录音数据的深度声纹特征;
S1:将S0中说话人的深度声纹特征进行聚类,输出说话人录音的聚类标签;
S2:将S0中说话人的深度声纹特征进行分类,得到分类标签;
S3:计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差,得到聚类神经网络的分类误差;
S4:将S3中的分类误差反馈到聚类神经网络中,更新聚类神经网络的参数;
S5:重复S0至S4的步骤,直到聚类神经网络收敛;
S6:待聚类神经网络收敛后,即可输出说话人录音数据的最终标签。
更进一步的方案是:
提取分类特征和聚类特征的神经网络的参数是共享的,聚类结果作为伪标签提供给分类器进行训练,通过分类的训练进行反向传播优化神经网络的参数。
更进一步的方案是:
所述的聚类算法包括但不仅限于k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。
本发明还提供了一种端到端的说话人聚类系统,包括顺序相连的语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块,其中:
语音采集和存储模块,用于采集和存储语音数据;
声学特征提取模块,用于提取说话人语音的声学特征;
神经网络模型预训练模块,用于得到聚类神经网络的初始参数;
说话人聚类模块,用于输出说话人语音数据的标签。
本发明首先预训练一个说话人识别网络模型,然后用这个预训练的说话人识别模型初始化聚类网络模型,其中聚类网络模型有聚类和分类两个输出分支,聚类分支输出的标签信息用于分类分支的输入真实标签,计算聚类网络模型的分类误差,分类误差反馈回聚类网络模型,更新聚类网络模型的参数,如此迭代直到聚类网络模型收敛,最终输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模型,大大减少人工参与数据标定的工作量,同时也有助于提高说话人识别模型的精度。
附图说明
图1:语音采集和存储模块;
图2:声学特征提取模块;
图3:神经网络模型预训练模块;
图4:说话人聚类模块;
图5:端到端的说话人聚类系统示意图。
具体实施方式
本发明实现了一种端到端的说话人聚类方法及系统,能够高效且准确地对说话人录音数据进行标定。为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例进一步详细说明如下。
实施例一
本发明提出了一种端到端的说话人聚类方法,具体包括:
1)收集至少两人的说话人语音数据
待聚类的语音数据的标签类别数量必须两人及以上。
2)提取语音数据的声学特征
提取梅尔频率倒谱系数特征,假设帧长为25ms,步长为10ms,因此每个帧长内就会得到一个39维的特征向量,假设有N帧,这样每条语音可以得到39xN的二维mfcc特征矩阵。
3)设计一个说话人聚类神经网络模型,作为聚类和分类模型
设计一个卷积神经网络,两个输出分支:分类分支和聚类分支。
4)设计一个说话人识别神经网络模型,作为预训练模型
网络结构与说话人聚类神经网络模型的分类分支一致。
5)采用已知标签信息的说话人语音数据训练说话人识别神经网络模型,步骤如下:
5-1)假设一个已知说话人标签的语音数据集,类别数为M类;
5-2)按照B1的步骤的提取MFCC声学特征;
5-3)设计一个卷积神经网络,其中最后一个分类层输出设置为M;
5-4)训练卷积神经网络,直到收敛,停止训练;
5-5)保存卷积神经网络的模型,即预训练模型参数。
6)采用说话人识别模型参数初始化说话人聚类神经网络模型
采用说话人识别神经网络模型的参数初始化说话人聚类神经网络模型的分类分支,但忽略其中最后一层即分类层,此层采用随机初始化的方式。
7)采用未知标签的说话人语音数据训练说话人聚类神经网络模型
7-1)将未知标签但总类别数为N0的说话人语音数据集D提取MFCC声学特征;
7-2)将数据集D输入到聚类的卷积神经网络模型,提取深度声纹特征;
7-3)将深度特征采用K均值聚类算法进行聚类,得到每一个语音的聚类标签,总类别数为N0;
7-4)将深度声纹特征进行分类,得到每一个语音的分类标签,总类别数为N0;
7-5)计算聚类标签和分类标签的误差,得到聚类的卷积神经网络的分类误差;
7-6)将B36中的分类误差反向传播到聚类的卷积神经网络,更新每层的网络参数;
7-7)重复7-2至7-6步骤,直到网络收敛;
7-8)网络收敛之后,从聚类分支即可得到每个录音的标签。
实施例二
本发明提出了一种端到端的说话人聚类系统,具体实施例如下:
一种端到端的说话人聚类系统,整体结构如附图5所示,具体的包括以下模块:
1)语音采集和存储模块,如附图1所示
获取语音数据并存储在本地端。
2)声学特征提取模块,如附图2所示
提取说话人语音的声学特征,作为神经网络的输入。
3)神经网络模型预训练模块,如附图3所示
用于得到聚类神经网络的初始参数
3-1)已知说话人标签的数据集有M类;
3-2)设定神经网络的输出类别为M类;
3-3)训练神经网络直到收敛;
3-4)得到预训练模型参数。
4)说话人聚类模块,如附图4所示
4-1)将说话人录音的声学特征输入聚类神经网络中,提取说话人录音数据的深度声纹特征;
4-2)将4-1中说话人的深度声纹特征进行聚类,输出说话人录音的聚类标签;
4-3)将4-1中说话人的深度声纹特征进行分类,得到分类标签;
4-4)计算4-2中说话人录音的聚类标签和4-3中的分类标签的分类误差,得到聚类神经网络的分类误差;
4-5)将4-4中的分类误差反馈到聚类神经网络中,更新聚类神经网络的参数;
4-6)重复4-1至4-5的步骤,直到聚类神经网络收敛;
4-7)待聚类神经网络收敛后,即可输出说话人录音数据的最终标签。
综上所述,本发明通过语音采集和存储模块、声学特征提取模块、神经网络模型预训练模块和说话人聚类模块实现了一种端到端的说话人聚类方法及系统。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (3)
1.一种端到端的说话人聚类方法,其特征在于包括以下步骤:
S001:收集至少两人的说话人语音数据;
S002:提取语音数据的声学特征;所述声学特征包括梅尔频率倒谱系数MFCC和power-normalized cepstral coefficients PNCC;
S003:设计一个说话人聚类神经网络模型,用于聚类和分类;
S004:设计一个说话人识别神经网络模型,用于预训练模型;
S003:采用已知标签信息的说话人语音数据训练说话人识别神经网络模型;所述的说话人识别神经网络模型用于得到说话人聚类神经网络模型的初始参数,在一个已知说话人录音标签的数据集上训练神经网络直到收敛,然后将预训练神经网络的参数初始化聚类神经网络的参数;
S004:采用说话人识别模型参数初始化说话人聚类神经网络模型;
S005:采用未知标签的说话人语音数据训练说话人聚类神经网络模型;说话人聚类神经网络模型的训练方法,包括以下步骤:
S0:将说话人录音的声学特征输入神经网络中,提取说话人录音数据的深度声纹特征;
S1:将S0中说话人的深度声纹特征进行聚类,输出说话人录音的聚类标签;
S2:将S0中说话人的深度声纹特征进行分类,得到分类标签;
S3:计算S1中说话人录音的聚类标签和S2中的分类标签的分类误差,得到聚类神经网络的分类误差;
S4:将S3中的分类误差反馈到聚类神经网络中,更新聚类神经网络的参数;
S5:重复S0至S4的步骤,直到聚类神经网络收敛;
S6:待聚类神经网络收敛后,即可输出说话人录音数据的最终标签;
S006:说话人聚类神经网络模型收敛,输出未知标签的说话人语音数据的标签信息;
所述神经网络包括卷积神经网络、递归神经网络和延时神经网络中的一种或者多种网络的组合。
2.根据权利要求1所述端到端的说话人聚类方法,其特征在于:
S003中,用于提取分类和聚类特征的神经网络的参数是共享的,聚类结果作为伪标签提供给分类器进行训练,通过分类的训练进行反向传播优化神经网络的参数。
3.根据权利要求1所述端到端的说话人聚类方法,其特征在于:
聚类采用的算法包括k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类中的一种或者多种融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575862.XA CN110289002B (zh) | 2019-06-28 | 2019-06-28 | 一种端到端的说话人聚类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910575862.XA CN110289002B (zh) | 2019-06-28 | 2019-06-28 | 一种端到端的说话人聚类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110289002A CN110289002A (zh) | 2019-09-27 |
CN110289002B true CN110289002B (zh) | 2021-04-27 |
Family
ID=68019998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910575862.XA Active CN110289002B (zh) | 2019-06-28 | 2019-06-28 | 一种端到端的说话人聚类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110289002B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110718228B (zh) * | 2019-10-22 | 2022-04-12 | 中信银行股份有限公司 | 语音分离方法、装置、电子设备及计算机可读存储介质 |
CN111161744B (zh) * | 2019-12-06 | 2023-04-28 | 华南理工大学 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
CN111599346B (zh) * | 2020-05-19 | 2024-02-20 | 科大讯飞股份有限公司 | 一种说话人聚类方法、装置、设备及存储介质 |
CN112992175B (zh) * | 2021-02-04 | 2023-08-11 | 深圳壹秘科技有限公司 | 一种语音区分方法及其语音记录装置 |
CN114023336A (zh) * | 2021-10-29 | 2022-02-08 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备以及存储介质 |
CN114694658A (zh) * | 2022-03-15 | 2022-07-01 | 青岛海尔科技有限公司 | 说话人识别模型训练、说话人识别方法及装置 |
CN115101076B (zh) * | 2022-05-26 | 2023-09-12 | 燕山大学 | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109461447A (zh) * | 2018-09-30 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及系统 |
-
2019
- 2019-06-28 CN CN201910575862.XA patent/CN110289002B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN108766440A (zh) * | 2018-05-28 | 2018-11-06 | 平安科技(深圳)有限公司 | 说话人分离模型训练方法、两说话人分离方法及相关设备 |
CN109461447A (zh) * | 2018-09-30 | 2019-03-12 | 厦门快商通信息技术有限公司 | 一种基于深度学习的端到端说话人分割方法及系统 |
CN109545228A (zh) * | 2018-12-14 | 2019-03-29 | 厦门快商通信息技术有限公司 | 一种端到端说话人分割方法及系统 |
Non-Patent Citations (1)
Title |
---|
Speaker Identification and clustering using convolutional neural networks;Yanick Lukic等;《2016 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING》;20161110;1-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN110289002A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110289002B (zh) | 一种端到端的说话人聚类方法及系统 | |
CN110211595B (zh) | 一种基于深度学习的说话人聚类系统 | |
CN108172218B (zh) | 一种语音建模方法及装置 | |
Cai et al. | Deep maxout neural networks for speech recognition | |
CN109065033B (zh) | 一种基于随机深度时延神经网络模型的自动语音识别方法 | |
CN102982809B (zh) | 一种说话人声音转换方法 | |
CN105741832B (zh) | 一种基于深度学习的口语评测方法和系统 | |
CN106157953B (zh) | 连续语音识别方法及系统 | |
CN105229725B (zh) | 多语言深神经网络 | |
CN103531199B (zh) | 基于快速稀疏分解和深度学习的生态声音识别方法 | |
CN105139864B (zh) | 语音识别方法和装置 | |
CN108694949B (zh) | 基于重排序超向量和残差网络的说话人识别方法及其装置 | |
CN107039036B (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
Woellmer et al. | Keyword spotting exploiting long short-term memory | |
CN111916111A (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
Senior et al. | GMM-free DNN acoustic model training | |
Senior et al. | GMM-free DNN training | |
CN110428803B (zh) | 一种基于发音属性的发音人国别识别模型建模方法及系统 | |
Ault et al. | On speech recognition algorithms | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
Regmi et al. | Nepali speech recognition using rnn-ctc model | |
Kumar et al. | Designing neural speaker embeddings with meta learning | |
CN113470655A (zh) | 一种基于音素对数似然比的时延神经网络的声纹识别方法 | |
KR20080026951A (ko) | 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법 | |
Ons et al. | A self learning vocal interface for speech-impaired users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |