CN108694950B - 一种基于深度混合模型的说话人确认方法 - Google Patents
一种基于深度混合模型的说话人确认方法 Download PDFInfo
- Publication number
- CN108694950B CN108694950B CN201810465602.2A CN201810465602A CN108694950B CN 108694950 B CN108694950 B CN 108694950B CN 201810465602 A CN201810465602 A CN 201810465602A CN 108694950 B CN108694950 B CN 108694950B
- Authority
- CN
- China
- Prior art keywords
- speaker
- mixture model
- derivative
- layer
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000203 mixture Substances 0.000 title claims abstract description 43
- 238000012790 confirmation Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提出一种基于深度混合模型的说话人确认方法,属于声纹识别、模式识别与机器学习技术领域。该方法首先获取目标说话人的训练语音数据并进行预处理,得到训练语音数据的梅尔倒谱特征集;对梅尔倒谱特征集建立第0层高斯混合模型并求导,得到一阶导数集;然后依次建立第一层高斯混合模型、第二层高斯混合模型,直至建立建立第S层高斯混合模型,将所有高斯混合模型组合得到说话人的深度混合模型;然后获取测试语音数据并提取梅尔倒谱特征集,建立测试语音数据的深度混合模型;计算两个模型的相似度:若相似度小于等于阈值,则测试语音数据属于目标说话人。本发明不仅考虑数据自身分布,还考虑数据的导数分布,提升说话人确认的准确性。
Description
技术领域
本发明属于声纹识别、模式识别与机器学习技术领域,特别地涉及一种基于深度混合模型(deep mixture model,DMM)的说话人确认方法。
背景技术
说话人确认是指判断一条测试语音是否是指定的说话人说的。随着信息技术和通信技术的迅速发展,说话人确认技术越来越受到重视并在诸多领域得到广泛的应用。如身份鉴别,缉拿电话信道罪犯,法庭中根据电话录音做身份确认,电话语音跟踪,提供防盗门开启功能。互联网应用和通信领域,说话人确认技术可以应用于声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等领域。
传统说话人确认一般先对每个人的训练语音进行分帧,得到每帧的特征向量。将这些特征向量作为训练数据对每个说话人建立高斯混合模型(Gaussian mixture model,GMM)。高斯混合模型由几个高斯模型的加权和组成,具有很强的描述能力,理论上可以近似任意的概率分布。高斯混合模型一般通过期望最大化(Expection-Maximizationalgorithm,EM)算法训练得到。通过迭代步骤E步和M步,使训练数据的似然函数逐步增大。但是高斯混合模型对数据进行建模时,仅仅考虑了数据自身的分布,没有考虑数据的导数性质。而导数性质对数据分析起着重要的作用,如果能将数据的导数性质考虑在数据概率模型中,可以大大提高说话人建模的准确性,进而提高说话人确认方法的性能。
发明内容
本发明的目的是为克服传统高斯混合模型对说话人进行建模时没有考虑数据的导数性质的缺点,提出一种基于深度混合模型的说话人确认方法。本发明不仅考虑数据自身的分布,还考虑数据的一阶导数、二阶导数至S阶导数的分布,增强了数据分布描述的准确性,提高说话人模型的准确性,进而提高说话人确认的准确性。
本发明提出一种基于深度混合模型的说话人确认方法:其特征在于,包括以下步骤
1)建立说话人的深度混合模型,具体步骤如下:
1.1)获取说话人的训练语音数据;
选取一个目标说话人的语音数据作为训练语音数据,训练语音数据数目为1条-5条,每条长度10秒-120秒;
1.2)对训练语音数据进行预处理,提取步骤1.1)获取的所有训练语音数据对应的M个D维梅尔倒谱特征集其中,M为训练语音数据的总帧数,D为特征维数,代表第i帧的梅尔倒谱特征,i=1,2…M,上标0表示未求导;
1.4)求取f0(x)的导数;
1.6)求取f1(x)的导数;
1.7)重复步骤1.5)至步骤1.6),直至建立第S层高斯混合模型fS(x),S的取值范围为2-10,得到最终说话人的深度混合模型DMM=[f0(x),f1(x),f2(x),……,fS(x)];
2)说话人确认;具体步骤如下:
2.1)获取一条测试语音数据;
2.2)对步骤2.1)获取的测试语音数据进行预处理,提取测试语音数据的D维梅尔倒谱特征集;
2.4)利用KL距离计算DMM和DMMtest之间的相似度;具体如下:
首先分别计算两个模型每层之间的相似度,其中第s层的相似度为:
再根据每层的相似度计算总体相似度:
其中weights表示第s层所占的权重:
weights=S+1-s
2.5)对步骤2.4)计算得到的相似度进行判定:若DKL小于或等于设定的阈值,则判断测试语音数据属于步骤1)选取的目标说话人;若相似度DKL大于阈值,则判断测试语音数据不属于该目标说话人;说话人确认完毕。
本发明的特点及有益效果在于:
本发明提出的一种基于深度混合模型的说话人确认方法不仅考虑了语音数据自身的分布特性,还考虑了数据的导数的分布特性,可提高说话人模型的准确性,从而提高说话人确认的准确性。
附图说明
图1是本发明方法的整体流程图。
图2是本发明中建立说话人的深度混合模型的流程图。
具体实施方式
本发明提出一种基于深度混合模型的说话人确认方法,下面结合附图和具体实施例进一步详细说明如下。
本发明提出一种基于深度混合模型的说话人确认方法,包括以下步骤:
1)建立说话人的深度混合模型,流程如图1所示,具体步骤如下:
1.1)获取说话人的训练语音数据;
本实施例中,采用NISTsre16评测中的一个目标说话人的语音数据作为训练语音数据。训练语音数据数目为1条-5条,每条长度10秒-120秒,每条训练数据都已知是该目标说话人的语音。
1.2)对训练语音数据进行预处理,提取步骤1.1)获取的所有训练语音数据对应的M个D维梅尔倒谱特征集其中,M为训练语音数据的总帧数,M等于所有训练语音数据的总长度除以每帧语音的长度,每帧长度为25ms。D为特征维数,D的取值一般为12,24,36,40,60。代表第i帧的梅尔倒谱特征,i=1,2…M,上标0表示未求导。本实施例中,维数D=40。
高斯混合模型f0(x)可以通过EM算法训练得到。
1.4)求取f0(x)的导数;
1.6)求取f1(x)的导数;
1.7)重复步骤1.5)至步骤1.6),继续建立第二层高斯混合模型f2(x)并组成三阶导数集建立第三层高斯混合模型f3(x)并组成四阶导数集……,直到建立第S层高斯混合模型fS(x),循环结束(S的取值范围为2-10),得到最终说话人的深度混合模型DMM=[f0(x),f1(x),f2(x),f3(x),……,fS(x)]。本实施例中,S=2,C2取值为512,最终该说话人的模型为DMM=[f0(x),f1(x),f2(x)]。
本发明中建的S层深度混合模型,每一层为一个高斯混合模型,f0(x)为第0层,f1(x)为第1层,……,fS(x)为第S层。2)说话人确认;具体步骤如下:
2.1)获取测试语音数据;获取方式可以为现场录音或电话录音。测试语音数据一般是10秒-120秒的一条语音数据。测试语音数据对应的说话人是未知的。本发明所提的方法目的就是判断测试语音数据是否是步骤1)中给定的目标说话人说的。
2.2)对步骤2.1)获取的测试语音数据进行预处理,提取测试语音数据的D维梅尔倒谱特征集;其中,测试语音数据的每个特征也为D维,帧数随语音长度变化,为语音长度除以每帧长度,每帧长度25ms。
2.3)重复步骤1.3)至1.7),令S及每层高斯个数C0,C1,……,CS不变,建立测试语音数据的深度混合模型其中,表示测试语音数据的第i层高斯混合模型,i=0,1,2,......,S。本实施例中,测试语音数据的深度混合模型为:
2.4)利用KL距离(Kullback-Leibler divergence)计算DMM和DMMtest之间的相似度;具体如下:
首先分别计算两个模型每层之间的相似度,其中第s层的相似度为:
再根据每层的相似度计算总体相似度:
其中weights表示第s层所占的权重:
weights=S+1-s
本实施例中,S=2,所以:
weights=3-s
2.5)对步骤2.4)计算得到的相似度进行判定:若相似度DKL小于或等于设定的阈值(阈值取值范围大于0,本实施例中,阈值取值为0.5),则判断测试语音数据属于步骤1)选取的目标说话人;若相似度DKL大于阈值,则判断测试语音数据不属于该目标说话人;说话人确认完毕。
本发明所述方法可通过本领域普通技术人员编程实现,本领域普通技术人员可以理解为,上述深度混合模型可以通过程序来完成的,所述的程序可以存储于一种计算机可读存储介质中。
以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (1)
1.一种基于深度混合模型的说话人确认方法:其特征在于,包括以下步骤
1)建立说话人的深度混合模型,具体步骤如下:
1.1)获取说话人的训练语音数据;
选取一个目标说话人的语音数据作为训练语音数据,训练语音数据数目为1条-5条,每条长度10秒-120秒;
1.2)对训练语音数据进行预处理,提取步骤1.1)获取的所有训练语音数据对应的M个D维梅尔倒谱特征集其中,M为训练语音数据的总帧数,D为特征维数,代表第i帧的梅尔倒谱特征,i=1,2...M,上标0表示未求导;
1.4)求取f0(x)的导数;
1.6)求取f1(x)的导数;
1.7)重复步骤1.5)至步骤1.6),直至建立第S层高斯混合模型fs(x),S的取值范围为2-10,得到最终说话人的深度混合模型DMM=[f0(x),f1(x),f2(x),……,fS(x)];
2)说话人确认;具体步骤如下:
2.1)获取一条测试语音数据;
2.2)对步骤2.1)获取的测试语音数据进行预处理,提取测试语音数据的D维梅尔倒谱特征集;
2.4)利用KL距离计算DMM和DMMtest之间的相似度;具体如下:
首先分别计算两个模型每层之间的相似度,其中第s层的相似度为:
再根据每层的相似度计算总体相似度:
其中weights表示第s层所占的权重:
weights=S+1-s
2.5)对步骤2.4)计算得到的相似度进行判定:若DKL小于或等于设定的阈值,则判断测试语音数据属于步骤1)选取的目标说话人;若相似度DKL大于阈值,则判断测试语音数据不属于该目标说话人;说话人确认完毕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810465602.2A CN108694950B (zh) | 2018-05-16 | 2018-05-16 | 一种基于深度混合模型的说话人确认方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810465602.2A CN108694950B (zh) | 2018-05-16 | 2018-05-16 | 一种基于深度混合模型的说话人确认方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108694950A CN108694950A (zh) | 2018-10-23 |
CN108694950B true CN108694950B (zh) | 2021-10-01 |
Family
ID=63846358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810465602.2A Active CN108694950B (zh) | 2018-05-16 | 2018-05-16 | 一种基于深度混合模型的说话人确认方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108694950B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933152B (zh) * | 2020-10-12 | 2021-01-08 | 北京捷通华声科技股份有限公司 | 注册音频的有效性的检测方法、检测装置和电子设备 |
CN113468892B (zh) * | 2021-06-21 | 2024-09-20 | 北京搜狗科技发展有限公司 | 一种模型测试方法、装置和用于模型测试的装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102820033A (zh) * | 2012-08-17 | 2012-12-12 | 南京大学 | 一种声纹识别方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140222423A1 (en) * | 2013-02-07 | 2014-08-07 | Nuance Communications, Inc. | Method and Apparatus for Efficient I-Vector Extraction |
-
2018
- 2018-05-16 CN CN201810465602.2A patent/CN108694950B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102820033A (zh) * | 2012-08-17 | 2012-12-12 | 南京大学 | 一种声纹识别方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN106683680A (zh) * | 2017-03-10 | 2017-05-17 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
Non-Patent Citations (3)
Title |
---|
"New technique to use the GMM in speaker recognition system (SRS)";Snani Cherifa et al.;《2013 International Conference on Computer Applications Technology (ICCAT)》;20130330;全文 * |
"Speaker Recognition using Gaussian Mixture Model";SN Mandal et al.;《UNIVERSITE M’HAMED BOUGARA-BOUMERDES(Année Universitaire 2013/2014)》;20151231;全文 * |
"基于高斯混合模型的说话人识别系统的研究";王书诏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20070215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108694950A (zh) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491391B (zh) | 一种基于深度神经网络的欺骗语音检测方法 | |
Liu et al. | Deep feature for text-dependent speaker verification | |
CN105869624B (zh) | 数字语音识别中语音解码网络的构建方法及装置 | |
Huang et al. | Audio-visual deep learning for noise robust speech recognition | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
TWI475558B (zh) | 詞語驗證的方法及裝置 | |
CN103730114A (zh) | 一种基于联合因子分析模型的移动设备声纹识别方法 | |
Liu et al. | Speaker verification with deep features | |
CN111554305B (zh) | 一种基于语谱图和注意力机制的声纹识别方法 | |
CN108109613A (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
CN106898355B (zh) | 一种基于二次建模的说话人识别方法 | |
CN105845140A (zh) | 应用于短语音条件下的说话人确认方法和装置 | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
Poorjam et al. | Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals | |
CN105139856B (zh) | 基于先验知识规整协方差的概率线性鉴别说话人识别方法 | |
CN110111798A (zh) | 一种识别说话人的方法及终端 | |
CN108694950B (zh) | 一种基于深度混合模型的说话人确认方法 | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Zhonghua et al. | An overview of modeling technology of speaker recognition | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
CN103544953B (zh) | 一种基于背景噪声最小统计量特征的声音环境识别方法 | |
CN114067803B (zh) | 一种基于距离相关的度量学习的说话人确认方法 | |
Jiang et al. | An Analysis Framework Based on Random Subspace Sampling for Speaker Verification. | |
Chen et al. | A preliminary study on GMM weight transformation for Emotional Speaker Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |