CN108461085A - 一种短时语音条件下的说话人识别方法 - Google Patents
一种短时语音条件下的说话人识别方法 Download PDFInfo
- Publication number
- CN108461085A CN108461085A CN201810207343.3A CN201810207343A CN108461085A CN 108461085 A CN108461085 A CN 108461085A CN 201810207343 A CN201810207343 A CN 201810207343A CN 108461085 A CN108461085 A CN 108461085A
- Authority
- CN
- China
- Prior art keywords
- short time
- bottleneck
- speech
- time speech
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000013139 quantization Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种短时语音条件下的说话人识别方法,包括以下步骤:(1):对不同说话人的短时语音进行预处理,提取语音特征向量并相应说话人标记;(2):用语音特征数据对深度置信网络进行有监督的训练,构建深度置信网络模型;(3):将深度置信网络模型中瓶颈层之后的网络结构去除,形成瓶颈输出网络模型;(4):将不同说话人的语音特征向量依次经过瓶颈输出网络模型,提取得到相应的瓶颈特征,然后将瓶颈特征作为矢量量化训练输入,构建矢量量化模型;(5):将待识别短时语音的语音特征向量经过瓶颈输出网络模型,提取相应瓶颈特征,再将得到的待识别短时语音的瓶颈特征输入矢量量化模型进行识别。本发明具有系统识别率高的优点。
Description
技术领域
本发明涉及信号处理、机器学习和模式识别技术领域,尤其涉及一种短时语音条件下的说话人识别方法。
背景技术
说话人识别又称声纹识别,是一种通过对说话人的语音进行处理和分析,自动鉴别说话人身份的技术。说话人识别是根据语音波形中反映说话人生理和行为个性特征的语音参数来区分说话人的身份。说话人识别技术与其他生物识别技术相比,具有采集设备简单、认证方式友好、易于扩展等优势,在军事安全系统、银行证券系统以及司法鉴定系统等各个领域有广泛的应用。对说话人识别系统实进行研究时,通常进行模型充分训练,采用足够的语料进行测试,但是系统在实际应用时,采集的说话人语音往往都是有限时长,严重影响系统识别率,所以在短时语音条件下更好地发挥系统性能,具有非常重要意义。
目前短时语音条件下说话人识别方法研究的比较少,主要有基于矢量量化的说话人识别方法(简称VQ)以及基于高斯混合模型的说话人识别方法(简称GMM)等识别方法,上述说话人识别方法在短时语音条件下均存在以下缺陷:(1)直接采用说话人语音MFCC特征进行模型训练,MFCC特征参数包含了语音中大量信息,包括语义信息和说话人个性特征信息,当说话人语音时长有限时,加上说话人情绪状态和周围环境的影响,使得识别模型很难对特征进行正确的说话人识别;(2)当说话人数量较多或者说话人语音时长较短时,系统识别率低。
发明内容
本发明的目的在于提供一种在短时语音条件下系统识别率高的的说话人识别方法。
为实现上述目的,本发明采用了如下技术方案:所述的一种短时语音条件下的说话人识别方法,包括以下步骤:
步骤(1):采集不同说话人的短时语音,并对所采集的不同说话人的短时语音进行预处理,提取不同说话人的语音特征向量,并对所提取的语音特征向量进行相应说话人标记;
步骤(2):用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练,构建深度置信网络模型;
步骤(3):将步骤(2)中构建完成的深度置信网络模型中瓶颈层之后的网络结构去除,形成瓶颈输出网络模型;
步骤(4):将步骤(1)中提取的不同说话人的语音特征向量依次经过步骤(3)中构建完成的瓶颈输出网络模型,提取得到相应的瓶颈特征,然后将提取到的瓶颈特征作为矢量量化输入数据进行矢量量化训练,构建矢量量化模型;
步骤(5):先将待识别短时语音的语音特征向量经过步骤(3)中构建的瓶颈输出网络模型,提取得到待识别短时语音的瓶颈特征,然后再将提取得到的待识别短时语音的瓶颈特征输入步骤(4)中构建的矢量量化模型进行识别。
进一步地,前述的一种短时语音条件下的说话人识别方法,其中:步骤(1)中采集说话人语音时长为不超过10s的短时语音。
进一步地,前述的一种短时语音条件下的说话人识别方法,其中:步骤(1)中对短时语音的预处理包括:预加重、分帧加窗以及端点检测。
进一步地,前述的一种短时语音条件下的说话人识别方法,其中:步骤(1)中提取说话人语音特征向量的具体方法为:提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后进行5帧拼接成一超帧,形成195维的语音特征向量。
进一步地,前述的一种短时语音条件下的说话人识别方法,其中:在步骤(2)中用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练后,再经网络逐层迭代预训练,接着再用微调的算法构建深度置信网络模型。
通过上述技术方案的实施,本发明的有益效果是:(1)提取说话人语音的40维MFCC参数,除去代表直流分量的第一维数据,然后连续5帧拼接成一超帧,构成一个5*(40-1)=195维的向量,更好地表征语音数据中时序特征,提高系统识别率;(2)采用深度置信网络对说话人短时语音数据进行训练,克服了传统神经网络无法求出最优解等缺点,提高系统识别率;(3)利用深度置信网络对说话人短时语音数据进行特征挖掘,可以更好的捕获到语音潜在说话人个性特征,改善系统性能;(4)采用自动编码深度置信网络提取瓶颈特征,得到更具表征性的说话人信息特征,提高了系统的识别率;(5)采用矢量量化模型进行识别,确保系统识别率。
附图说明
图1是本发明所述的一种短时语音条件下的说话人识别方法的流程示意图。。
图2是本发明中深度置信网络模型的结构示意图。
图3是本发明中瓶颈输出网络模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对发明作进一步说明。
如图1所示,所述的一种短时语音条件下的说话人识别方法(简称BF-VQ),包括以下步骤:
步骤(1):采集不同说话人的短时语音,并对所采集的不同说话人的短时语音进行预加重、分帧加窗以及端点检测等预处理,提取不同说话人的语音特征向量,并对所提取的语音特征向量进行相应说话人标记;其中提取说话人语音特征向量的具体方法为:提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后进行5帧拼接成一超帧,形成195维的语音特征向量;
本实施例采用TIMIT语音库进行实验,TIMIT是一个全英文语音数据库,由麻省理工MIT、斯坦福研究院SRI和德州仪器TI合作设计;该数据库每位说话人录制10句话,平均每句话时长3s,声音采集频率是16000Hz,采样位数为16位;本实施例选取100名说话人,其中男57名,女43名,选取每位说话人6s时长语音作为训练数据,另外选取3s-15s时长语音用作识别,将说话人短时语音经过预处理后提取40维的MFCC参数,除去代表直流分量的第一维数据,然后连续5帧拼接成一超帧,构成5*(40-1)=195维的超帧,并对每个超帧进行话者标记;
步骤(2):用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练后,再经网络逐层迭代预训练,接着再用微调的算法构建深度置信网络模型,深度置信网络模型图参见图2;
本实施例设置由5层受限玻尔兹曼机(RBM)堆叠构成深度置信网络;典型的RBM是由可见层和隐含层构成二部图模型,可见层或隐含层层内没有连接,只有可见层和隐含层节点间存在连接;RBM是一个能量模型,其能量函数表示为:
其中vi和hj表示可见层第i个节点状态和隐含层第j个节点状态,Wij是第i个可见层节点和第j个隐含层节点连接权重,ai和bj分别是可见层节点和隐含层节点的偏置。可见层v和隐含层h的联合概率分布为:
其中:Z为分配函数,或称归一化常量,可以通过所有可见层单元和隐含层单元分配能量计算得到,表示如下:
由于RBM在训练时,同一层中条件独立性,条件概率分布如下:
p(hj=0|v)=1-p(hj=1|v)
p(vi=0|h)=1-p(vi=1|h)
其中函数f为sigmoid函数,为f(x)=1/(1+e-x)。可以得到RBM的更新公式:
其中ε为学习率,设置大小为0.0002,<>data是数据的期望,<>model是模型的期望,模型期望计算比较复杂,它需要随机初始化可见层状态然后经过长时间采样,本实施例采用对比散度算法;
在本实施例中,多层RBM堆叠,依次将RBM隐含层单元的输出数据做为更高层RBM输入层数据,通过学习下一个RBM对上一个RBM隐藏单元的显著依赖关系进行建模则构成深度置信网络,本实施例中深度置信网络模型的瓶颈层设置在第四层隐含层,该层节点数为195,其他层节点数为1024;
步骤(3):将步骤(2)中构建完成的深度置信网络模型中瓶颈层之后的网络结构去除,形成瓶颈输出网络模型,瓶颈输出网络模型参见图3;
步骤(4):将步骤(1)中提取的不同说话人的语音特征向量依次经过步骤(3)中构建完成的瓶颈输出网络模型,提取得到相应的瓶颈特征,然后将提取到的瓶颈特征作为矢量量化输入数据进行矢量量化训练,其中矢量量化码长设置为32,码本设计采用LBG算法,构建矢量量化模型;
步骤(5):先将待识别短时语音的语音特征向量经过步骤(3)中构建的瓶颈输出网络模型,提取得到待识别短时语音的瓶颈特征,然后再将提取得到的待识别短时语音的瓶颈特征输入步骤(4)中构建的矢量量化模型进行识别。
下表为在短时语音条件下,本发明所述的BF-VQ与背景技术中所述的VQ及GMM两种识别方法的系统识别率对比结果:
短时语音条件下识别结果
3s | 6s | 9s | 12s | 15s | |
BF-VQ | 83% | 91% | 94% | 94% | 96% |
VQ | 72% | 88% | 91% | 91% | 93% |
GMM | 77% | 84% | 89% | 88% | 90% |
从上表可以看出,当说话人语音时长较短时,本发明所采用的说话人识别方法的系统识别率比其它两种说话人识别方法的系统识别率高。
Claims (5)
1.一种短时语音条件下的说话人识别方法,其特征在于:包括以下步骤:
步骤(1):采集不同说话人的短时语音,并对所采集的不同说话人的短时语音进行预处理,提取不同说话人的语音特征向量,并对所提取的语音特征向量进行相应说话人标记;
步骤(2):用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练,构建深度置信网络模型;
步骤(3):将步骤(2)中构建完成的深度置信网络模型中瓶颈层之后的网络结构去除,形成瓶颈输出网络模型;
步骤(4):将步骤(1)中提取的不同说话人的语音特征向量依次经过步骤(3)中构建完成的瓶颈输出网络模型,提取得到相应的瓶颈特征,然后将提取到的瓶颈特征作为矢量量化输入数据进行矢量量化训练,构建矢量量化模型;
步骤(5):先将待识别短时语音的语音特征向量经过步骤(3)中构建的瓶颈输出网络模型,提取得到待识别短时语音的瓶颈特征,然后再将提取得到的待识别短时语音的瓶颈特征输入步骤(4)中构建的矢量量化模型进行识别。
2.根据权利要求1所述的一种短时语音条件下的说话人识别方法,其特征在于:步骤(1)中采集说话人语音时长为不超过10s的短时语音。
3.根据权利要求1或2所述的一种短时语音条件下的说话人识别方法,其特征在于:步骤(1)中对短时语音的预处理包括:预加重、分帧加窗以及端点检测。
4.根据权利要求1或2所述的一种短时语音条件下的说话人识别方法,其特征在于:步骤(1)中提取说话人语音特征向量的具体方法为:提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后进行5帧拼接成一超帧,形成195维的语音特征向量。
5.根据权利要求1所述的一种短时语音条件下的说话人识别方法,其特征在于:在步骤(2)中用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练后,再经网络逐层迭代预训练,接着再用微调的算法构建深度置信网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810207343.3A CN108461085A (zh) | 2018-03-13 | 2018-03-13 | 一种短时语音条件下的说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810207343.3A CN108461085A (zh) | 2018-03-13 | 2018-03-13 | 一种短时语音条件下的说话人识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108461085A true CN108461085A (zh) | 2018-08-28 |
Family
ID=63216815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810207343.3A Pending CN108461085A (zh) | 2018-03-13 | 2018-03-13 | 一种短时语音条件下的说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108461085A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019179036A1 (zh) * | 2018-03-19 | 2019-09-26 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN110379412A (zh) * | 2019-09-05 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN114333900A (zh) * | 2021-11-30 | 2022-04-12 | 南京硅基智能科技有限公司 | 端到端提取bnf特征的方法、网络模型、训练方法及系统 |
WO2023088091A1 (zh) * | 2021-11-22 | 2023-05-25 | 北京字跳网络技术有限公司 | 语音分离方法、装置、电子设备及可读存储介质 |
CN116631427A (zh) * | 2023-07-24 | 2023-08-22 | 美智纵横科技有限责任公司 | 降噪模型的训练方法、降噪处理方法、装置及芯片 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107039036A (zh) * | 2017-02-17 | 2017-08-11 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN107492382A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN107545903A (zh) * | 2017-07-19 | 2018-01-05 | 南京邮电大学 | 一种基于深度学习的语音转换方法 |
-
2018
- 2018-03-13 CN CN201810207343.3A patent/CN108461085A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492382A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN107039036A (zh) * | 2017-02-17 | 2017-08-11 | 南京邮电大学 | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
CN107545903A (zh) * | 2017-07-19 | 2018-01-05 | 南京邮电大学 | 一种基于深度学习的语音转换方法 |
Non-Patent Citations (2)
Title |
---|
刘俊坤: ""基于AutoEncoder_DBN_VQ的说话人识别系统_", 《计算机技术与发展》 * |
王一: ""基于层次稀疏DBN的瓶颈特征提取方法"", 《模式识别与人工智能》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019179036A1 (zh) * | 2018-03-19 | 2019-09-26 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN110379412A (zh) * | 2019-09-05 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
CN110379412B (zh) * | 2019-09-05 | 2022-06-17 | 腾讯科技(深圳)有限公司 | 语音处理的方法、装置、电子设备及计算机可读存储介质 |
WO2023088091A1 (zh) * | 2021-11-22 | 2023-05-25 | 北京字跳网络技术有限公司 | 语音分离方法、装置、电子设备及可读存储介质 |
CN114333900A (zh) * | 2021-11-30 | 2022-04-12 | 南京硅基智能科技有限公司 | 端到端提取bnf特征的方法、网络模型、训练方法及系统 |
CN114333900B (zh) * | 2021-11-30 | 2023-09-05 | 南京硅基智能科技有限公司 | 端到端提取bnf特征的方法、网络模型、训练方法及系统 |
CN116631427A (zh) * | 2023-07-24 | 2023-08-22 | 美智纵横科技有限责任公司 | 降噪模型的训练方法、降噪处理方法、装置及芯片 |
CN116631427B (zh) * | 2023-07-24 | 2023-09-29 | 美智纵横科技有限责任公司 | 降噪模型的训练方法、降噪处理方法、装置及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108461085A (zh) | 一种短时语音条件下的说话人识别方法 | |
CN107464568B (zh) | 基于三维卷积神经网络文本无关的说话人识别方法及系统 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN108281137A (zh) | 一种全音素框架下的通用语音唤醒识别方法及系统 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
CN108269133A (zh) | 一种结合人体识别和语音识别的智能广告推送方法及终端 | |
CN111462729B (zh) | 基于音素对数似然比和稀疏表征的快速语种识别方法 | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN110428843A (zh) | 一种语音性别识别深度学习方法 | |
CN102201236A (zh) | 一种高斯混合模型和量子神经网络联合的说话人识别方法 | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN109637526A (zh) | 基于个人身份特征的dnn声学模型的自适应方法 | |
CN109754790A (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN102779510A (zh) | 基于特征空间自适应投影的语音情感识别方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108694949A (zh) | 基于重排序超向量和残差网络的说话人识别方法及其装置 | |
CN110390952A (zh) | 基于双特征2-DenseNet并联的城市声音事件分类方法 | |
CN105609116B (zh) | 一种语音情感维度区域的自动识别方法 | |
CN106504772A (zh) | 基于重要性权重支持向量机分类器的语音情感识别方法 | |
CN103236258B (zh) | 基于巴氏距离最优小波包分解的语音情感特征提取方法 | |
Jin et al. | End-to-end language identification using high-order utterance representation with bilinear pooling | |
CN114566189A (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
Chao et al. | Improving generation performance of speech emotion recognition by denoising autoencoders | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180828 |
|
RJ01 | Rejection of invention patent application after publication |