CN110211595B - 一种基于深度学习的说话人聚类系统 - Google Patents

一种基于深度学习的说话人聚类系统 Download PDF

Info

Publication number
CN110211595B
CN110211595B CN201910574851.XA CN201910574851A CN110211595B CN 110211595 B CN110211595 B CN 110211595B CN 201910574851 A CN201910574851 A CN 201910574851A CN 110211595 B CN110211595 B CN 110211595B
Authority
CN
China
Prior art keywords
speaker
module
frame
neural network
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910574851.XA
Other languages
English (en)
Other versions
CN110211595A (zh
Inventor
伍强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910574851.XA priority Critical patent/CN110211595B/zh
Publication of CN110211595A publication Critical patent/CN110211595A/zh
Application granted granted Critical
Publication of CN110211595B publication Critical patent/CN110211595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的说话人聚类系统,包括:顺序相连的语音采集和存储模块、声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块,其中:语音采集和存储模块,用于采集和存储语音数据;声学特征提取模块,用于提取说话人语音的声学特征;说话人识别模块,用于提取说话人语音的帧级深度声纹特征;帧级特征融合模块,用于融合帧级深度声纹特征得到句级深度声纹特征;说话人聚类模块,用于输出说话人语音数据的标签信息。本发明提供的基于深度学习的说话人聚类系统大大减少人工参与数据标定的工作量,同时也有助于提高说话人识别模块的精度。

Description

一种基于深度学习的说话人聚类系统
技术领域
本发明涉及一种说话人识别学习系统,具体涉及一种基于深度学习的说话人聚类系统。
背景技术
近几年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中,特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配,用户使用自己的声音就可以完成账户登录、购物支付等。
深度学习的发展使得很多领域都取得了惊人的进步,包括说话人识别领域,然而现在通过改变网络的结构对分类准确率的影响已经越来越小,因此人们把关注点放在扩充数据集上,现有的常见数据集规模相对现在深度学习发展水平来说也是有些不够的,然而扩充数据集是一件困难的事,许多时候需要进行人工的标注,而人工标注是费时费力。因此使用无监督的方法生成更大的数据集也成为了现在研究的需求。
为了解决深度学习在说话人识别领域数据不足的问题,提出了一种基于深度学习的说话人聚类系统,首先通过深度学习算法训练一个说话人识别模块,然后用说话人识别模块提取说话人语音的深度声纹特征,最后采用聚类算法对深度声纹特征聚类,输出说话人语音的标签信息。通过此系统可以获取海量的带标签的说话人录音数据用于训练说话人识别模块,大大减少人工参与数据标定的工作量,同时也有助于提高说话人识别模块的精度。
发明内容
本发明的目的在于克服现有技术中扩充数据集需要人工标注,从而导致工作量极大增加的问题,提供一种基于深度学习的说话人聚类系统。
本发明是这样实现的:
一种基于深度学习的说话人聚类系统,包括:
语音采集和存储模块,用于采集和存储语音数据
声学特征提取模块,用于提取说话人语音的声学特征;
说话人识别模块,用于提取说话人语音的帧级深度声纹特征;
帧级特征融合模块,用于融合帧级深度声纹特征得到句级深度声纹特征;
说话人聚类模块,用于输出说话人语音数据的标签信息。
具体的,所述的声学特征提取模块提取说话人语音的声学特征,声学特征包括但不仅限梅尔频率倒谱系数(MFCC)和power-normalized cepstral coefficients(PNCC)。
具体的,所述的说话人识别模块用于提取说话人语音的帧级深度声纹特征,说话人识别模块就是一个说话人识别模块。
具体的,所述的帧级特征融合模块用于融合帧级深度声纹特征得到一个录音的完整特征表示。说话人识别模块提取的特征是一个语音数据的帧级特征,需要帧级特征融合模块将帧级特征融合为句级深度声纹特征。
具体的,所述的聚类算法包括但不仅限于k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类。
具体的,所述的说话人识别模块采用深度神经网络结构,包括但不限于卷积神经网络(CNN)、递归神经网络(RNN、LSTM、GRU)和延时神经网络(TDNN)。
具体的,所述的训练说话人识别模块包括以下步骤:
S0:设计一个深度神经网络模型,此模型结构可以是CNN、RNN、LSTM、GRU、TDNN中任何一种或者它们之间的组合;
S1:将说话人录音的声学特征输入深度神经网络中,提取说话人录音数据的深度声纹特征;
S2:将S1中说话人的深度声纹特征进行分类,得到分类标签;
S3:计算说话人录音的真实标签和S2中的分类标签的分类误差,得到深度神经网络的分类误差;
S4:将S3中的分类误差反馈到深度神经网络中,更新深度神经网络的参数;
S5:重复S1至S4的步骤,直到深度神经网络收敛;
S6:待深度神经网络收敛以后,保存模型。
具体的,所述的帧级特征融合方法包括但不仅限于平均所有的帧级特征、拼接所有的帧级特征、求所有帧级特征的最大值或者求所有帧的最小值。
本发明提供的基于深度学习的说话人聚类系统,能够通过训练说话人识别模块,然后采用聚类算法对深度声纹特征聚类,输出说话人标签信息。本发明提供的基于深度学习的说话人聚类系统大大减少人工参与数据标定的工作量,同时也有助于提高说话人识别模块的精度。
附图说明
图1:语音采集和存储模块
图2:声学特征提取模块;
图3:说话人识别模块
图4:帧级特征融合模块、
图5:说话人聚类模块
图6:基于深度学习的说话人聚类系统整体示意图。
具体实施方式
本发明实现了一种基于深度学习的说话人聚类系统,能够高效且准确地对说话人录音数据进行标定。为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例进一步详细说明如下。
本发明提出了一种基于深度学习的说话人聚类系统,如附图6所示,包括语音采集和存储模块,声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块。
一种基于深度学习的说话人聚类系统具体的包括以下模块:
1)语音采集和存储模块,如附图1所示,
用于采集和存储语音数据。
2)声学特征提取模块,如附图2所示,
提取说话人语音的声学特征,作为神经网络的输入。
3)说话人识别模块,如附图3所示,
用于提取说话人语音的帧级深度声纹特征,包括以下步骤:
3-0):设计一个深度神经网络模型;
3-1):将说话人录音的声学特征输入深度神经网络中,提取说话人录音数据的帧级深度声纹特征;
3-2):将3-1中说话人的帧级深度声纹特征进行分类,得到分类标签;
3-3):计算话人录音的真实标签和3-2中的分类标签的分类误差,得到深度神经网络的分类误差;
3-4):将3-3中的分类误差反馈到深度神经网络中,更新深度神经网络的参数;
3-5):重复3-1至3-4的步骤,直到聚类神经网络收敛;
3-6):待深度神经网络收敛以后,保存模型。
3)帧级特征融合模块,如图4所示,
用于融合帧级深度声纹特征得到句级深度声纹特征,包括以下步骤:
3-1)采用说话人识别模块提取说话人录音的声学特征的帧级深度声纹特征;
3-2)采用帧级特征融合方法将帧级深度声纹特征融合为句级深度声纹特征。
4)说话人聚类模块,如附图5所示
用于输出说话人录音的标签信息,具体方法为:将说话人录音的完整特征表示采用聚类算法进行聚类,即可得到每个说话人录音的标签信息。
下面结合一个具体实施例对本发明方法和系统进一步详细说明如下:
B1、提取声学特征
提取梅尔频率倒谱系数为例:
提取梅尔频率倒谱系数特征,假设帧长为25ms,步长为10ms,因此每个帧长内就会得到一个39维的特征向量,假设有N帧,这样每条语音可以得到39xN的二维mfcc特征矩阵,
B2、训练说话人识别模块
B21、假设一个已知说话人标签的语音数据集,类别数为M类;
B22、按照B1的步骤的提取MFCC声学特征;
B23、设计一个卷积神经网络,其中最后一个分类层输出设置为M;
B24、训练此卷积神经网络,直到收敛,停止训练;
B25、保存卷积神经网络的模型,即说话人识别模块参数。
B3、帧级特征融合
B31、采用B2中的说话人识别模块提取说话人录音的声学特征的帧级深度声纹特征;
B32、将帧级深度声纹特征采用求平均值的方法融合为句级深度声纹特征。
B4、说话人聚类
采用B3中的句级深度声纹特征采用k均值聚类算法聚类,输出每一个说话人录音数据的标签信息。
综上所述,本发明通过语音采集和存储模块、声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块实现了一种基于深度学习的说话人聚类系统。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (6)

1.一种基于深度学习的说话人聚类系统,其特征在于包括:
顺序相连的语音采集和存储模块、声学特征提取模块、说话人识别模块、帧级特征融合模块和说话人聚类模块,其中:
语音采集和存储模块,用于采集和存储语音数据;
声学特征提取模块,用于提取说话人语音的声学特征;
说话人识别模块,用于提取说话人语音的帧级深度声纹特征;
帧级特征融合模块,用于融合帧级深度声纹特征得到句级深度声纹特征;
说话人聚类模块,用于输出说话人语音数据的标签信息;
所述的说话人识别模块是采用如下方法训练得到的:
S0:设计一个深度神经网络模型,此模型结构是CNN、RNN、LSTM、GRU、TDNN中任何一种或者它们之间的组合;
S1:将说话人录音的声学特征输入深度神经网络中,提取说话人录音数据的深度声纹特征;
S2:将S1中说话人的深度声纹特征进行分类,得到分类标签;
S3:计算说话人录音的真实标签和S2中的分类标签的分类误差,得到深度神经网络的分类误差;
S4:将S3中的分类误差反馈到深度神经网络中,更新深度神经网络的参数;
S5:重复S1至S4的步骤,直到深度神经网络收敛;
S6:待深度神经网络收敛以后,保存,得到深度神经网络模型。
2.根据权利要求1所述基于深度学习的说话人聚类系统,其特征在于:
所述的声学特征提取模块提取说话人语音的声学特征,声学特征包括梅尔频率倒谱系数MFCC和power-normalized cepstral coefficients PNCC。
3.根据权利要求1所述基于深度学习的说话人聚类系统,其特征在于:
所述的说话人识别模块提取的帧级深度声纹特征是一个语音数据的帧级特征,帧级特征融合模块将帧级特征融合为句级深度声纹特征。
4.根据权利要求1所述基于深度学习的说话人聚类系统,其特征在于:
所述的说话人识别模块采用深度神经网络结构,包括卷积神经网络、递归神经网络、延时神经网络。
5.根据权利要求1所述基于深度学习的说话人聚类系统,其特征在于:
所述的说话人聚类模块采用的聚类算法包括k均值聚类、凝聚层级聚类、混合高斯模型聚类和谱聚类。
6.根据权利要求3所述基于深度学习的说话人聚类系统,其特征在于:
所述的帧级特征融合模块采用的帧级特征融合方法包括平均所有的帧级特征、拼接所有的帧级特征、求所有帧级特征的最大值或者求所有帧的最小值。
CN201910574851.XA 2019-06-28 2019-06-28 一种基于深度学习的说话人聚类系统 Active CN110211595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910574851.XA CN110211595B (zh) 2019-06-28 2019-06-28 一种基于深度学习的说话人聚类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910574851.XA CN110211595B (zh) 2019-06-28 2019-06-28 一种基于深度学习的说话人聚类系统

Publications (2)

Publication Number Publication Date
CN110211595A CN110211595A (zh) 2019-09-06
CN110211595B true CN110211595B (zh) 2021-08-06

Family

ID=67795356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910574851.XA Active CN110211595B (zh) 2019-06-28 2019-06-28 一种基于深度学习的说话人聚类系统

Country Status (1)

Country Link
CN (1) CN110211595B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910891B (zh) * 2019-11-15 2022-02-22 复旦大学 基于长短时记忆深度神经网络的说话人分段标注方法
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112992175B (zh) * 2021-02-04 2023-08-11 深圳壹秘科技有限公司 一种语音区分方法及其语音记录装置
CN113129908B (zh) * 2021-03-24 2022-07-26 中国科学院声学研究所南海研究站 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN113178196B (zh) * 2021-04-20 2023-02-07 平安国际融资租赁有限公司 音频数据提取方法、装置、计算机设备和存储介质
CN113488058B (zh) * 2021-06-23 2023-03-24 武汉理工大学 一种基于短语音的声纹识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472062B2 (en) * 2002-01-04 2008-12-30 International Business Machines Corporation Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN106782507A (zh) * 2016-12-19 2017-05-31 平安科技(深圳)有限公司 语音分割的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9368109B2 (en) * 2013-05-31 2016-06-14 Nuance Communications, Inc. Method and apparatus for automatic speaker-based speech clustering
CN106251874B (zh) * 2016-07-27 2017-08-18 深圳市鹰硕音频科技有限公司 一种语音门禁和安静环境监控方法及系统
CN106898354B (zh) * 2017-03-03 2020-05-19 北京华控智加科技有限公司 基于dnn模型和支持向量机模型的说话人个数估计方法
CN107545898B (zh) * 2017-08-07 2020-07-14 清华大学 一种区分说话人语音的处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472062B2 (en) * 2002-01-04 2008-12-30 International Business Machines Corporation Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN106782507A (zh) * 2016-12-19 2017-05-31 平安科技(深圳)有限公司 语音分割的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep neural networks for small footprint text-dependent speaker verification;Ehsan Variani et al;《2014 IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP)》;20140509;第4052,4053,4055页 *
基于深度学习的说话人无关单通道语音分离;王燕南;《中国博士学位论文全文数据库 信息科技辑》;20170915(第09期);全文 *

Also Published As

Publication number Publication date
CN110211595A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110211595B (zh) 一种基于深度学习的说话人聚类系统
CN110289002B (zh) 一种端到端的说话人聚类方法及系统
CN105741832B (zh) 一种基于深度学习的口语评测方法和系统
CN110033758B (zh) 一种基于小训练集优化解码网络的语音唤醒实现方法
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN105229725B (zh) 多语言深神经网络
CN100559462C (zh) 语音处理装置、语音处理方法、程序、和记录介质
CN101710490B (zh) 语音评测的噪声补偿方法及装置
Leung et al. A procedure for automatic alignment of phonetic transcriptions with continuous speech
CN108986797B (zh) 一种语音主题识别方法及系统
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
CN106611597A (zh) 基于人工智能的语音唤醒方法和装置
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN106782603B (zh) 智能语音评测方法及系统
CN110428803B (zh) 一种基于发音属性的发音人国别识别模型建模方法及系统
CN109377981B (zh) 音素对齐的方法及装置
CN109754790A (zh) 一种基于混合声学模型的语音识别系统及方法
CN113066499B (zh) 一种陆空通话说话人身份识别方法及装置
Bhosale et al. End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios.
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及系统
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
CN102938252A (zh) 结合韵律和发音学特征的汉语声调识别系统及方法
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
CN114254096A (zh) 一种基于交互机器人对话的多模态情感预测方法及系统
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant