CN110428841A - 一种基于不定长均值的声纹动态特征提取方法 - Google Patents

一种基于不定长均值的声纹动态特征提取方法 Download PDF

Info

Publication number
CN110428841A
CN110428841A CN201910639183.4A CN201910639183A CN110428841A CN 110428841 A CN110428841 A CN 110428841A CN 201910639183 A CN201910639183 A CN 201910639183A CN 110428841 A CN110428841 A CN 110428841A
Authority
CN
China
Prior art keywords
mean value
length
frame
vocal print
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910639183.4A
Other languages
English (en)
Other versions
CN110428841B (zh
Inventor
严锡君
刘旭东
候添琪
刁宏志
蒋悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201910639183.4A priority Critical patent/CN110428841B/zh
Publication of CN110428841A publication Critical patent/CN110428841A/zh
Application granted granted Critical
Publication of CN110428841B publication Critical patent/CN110428841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于不定长均值的声纹动态特征提取方法。首先,根据实时的采样率、帧长和帧移,计算出最优均值步长;然后,根据最优均值步长和每一帧语音信号的梅尔倒谱系数,计算出帧语音信号的均值系数,得到均值系数矩阵,采用均值系数矩阵提取声纹动态特征。本发明改善了动态特征提取算法与引入信息量最优长度的匹配度,能够降低声纹识别的平均等错误率,提高识别率。

Description

一种基于不定长均值的声纹动态特征提取方法
技术领域
本发明属于智能识别技术领域,特别涉及了一种声纹动态特征提取方法。
背景技术
目前,智能家居越来越广泛地应用到人们的生活和工作中。在实际使用中,能否为使用者提供合理的人机交互很大程度上决定了智能家居系统的用户体验。智能家居采用无线通信、图像处理、语音处理等技术,基于语音交互的智能家居系统使用更为便捷、信息采集空间更为广泛,用户体验更为友好。
声纹识别在近年来已经取得了长足发展,在某些场合中,识别率也满足了人们对安全性的基本需求,且由于其具有经济性,便捷性等优势,应用前景十分广泛。如何能够尽可能地抑制外部噪声,从采集到的信号中提取尽可能纯净的语音特征,是各种语音处理技术走向实用化的前提。
在人们生活品质飞速提高的今天,社会大众对智能家居系统的要求也不再仅仅局限于使其执行标准的、普通的控制功能,而是希望整体家居的智能化、便捷性、安全性以及舒适性都能够有更高的提升。为智能家居系统添加声纹识别功能,并采用语音增强来提高系统在噪声环境下的稳定性,不但可以进一步地改善智能家居的人机交互体验,提高用户对智能家居的使用效率;还可以为智能家居的控制与操作设定等级制度,针对不同权限等级的用户提供差异化的服务功能,使得系统整体安全性、实用性得到进一步提高。而这样的系统在未来的市场中必然有着强劲的冲击力,尤其在我国目前智能家居市场发展较为缓慢的大背景下,其一定会发挥越来越重要的作用,对大众的生活产生深远的影响。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于不定长均值的声纹动态特征提取方法,提高声纹识别率。
为了实现上述技术目的,本发明的技术方案为:
一种基于不定长均值的声纹动态特征提取方法,包括以下步骤:
(1)根据实时的采样率、帧长和帧移,计算出实时的最优均值步长;
(2)根据最优均值步长和每一帧语音信号的梅尔倒谱系数,计算出帧语音信号的均值系数,得到均值系数矩阵;
(3)采用均值系数矩阵提取声纹动态特征。
进一步地,在步骤(1)中,通过下式计算最优均值步长:
上式中,T为最优矩阵步长,fs为采样率,n为帧长,m为帧移,round表示四舍五入取整函数。
进一步地,在步骤(2)中,通过下式计算帧语音信号的均值系数:
上式中,m(l,k)为语音信号的均值系数,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数。
采用上述技术方案带来的有益效果:
针对经典方法采用定长均值方法可能导致提取到的动态特征引入误差的问题,本发明提供一种基于不定长均值的声纹动态特征提取方法,在不同系统设定的不同采样率、帧长、帧移下,提取动态特征时随之调整一次特征提取引入的相关帧数,以实现对动态特征引入数据量最优长度进行匹配,从而达到降低平均等错误率、提高识别率的目的。
附图说明
图1是动态特征引入数据量最优长度示意图;
图2是不同帧长导致最优引入帧数的变化图;
图3本发明与经典方法的性能对比图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1所示,在一些系统的动态特征提取方法中,一次动态特征计算引入的数据量常有一个最优值,该最优值的设定一般与原始数据所描述对象的固有周期大致相关。当某系统设定帧长长度一定时,一次动态特征提取过程中引入的数据量较少,则可能导致提取到的动态特征信息不足,而当一次动态特征提取过程中引入的数据量较多,则可能导致提取到的动态特征引入误差。
如图2所示,对于语音信号,由于语音处理中一帧信号的长度选择在10~30毫秒之间均可,故在不同系统设定的不同采样率、帧长、帧移下提取动态特征时,应当随之调整一次特征提取引入的相关帧数,以对动态特征引入数据量最优长度进行匹配。
考虑经典差分法在进行动态特征提取时,每次引入的相关帧数为定值,即在某些系统设定的采样率、帧长、帧移下,可能导致提取动态特征时选用的信息长度与最优长度匹配度较差,故针对该现象,为改善动态特征提取算法与引入信息量最优长度的匹配度,本发明设计了基于不定长均值的动态特征提取方案以代替经典差分法来对动态特征进行描述。
在本实施例中,采用如下优选方案:
第k帧语音信号的均值系数m(l,k)可由下式计算:
其中,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数。
最优均值T步长可由下式求取:
其中,fs为系统设定的采样率,n为系统设定的帧长,m为系统设定的帧移,round函数为四舍五入取整函数。
将得到的2×L阶均值系数矩阵替换经典系数矩阵中的差分系数矩阵,进行信息提取。
设定系统UBM模型高斯元件个数为64,并选定实验数据库中60人(女性17人,男性43人,称之为“UBM模型训练组”),每人5段语音用于训练系统本地UBM模型并保存模型参数。同时选定实验数据库中另40人(女性12人,男性28人,称之为“GMM模型训练组”),每人5段语音组合得到10秒语音用于训练每个说话人的个人GMM模型并保存模型参数。将GMM模型训练组中40人每人剩余的5段语音,循环组合成10段5秒的语音用于对系统进行说话人确认测试,即一次完整的实验中包括400次说话人接受测试与15600次说话人拒绝测试,并最终以等错误率作为一次实验的输出结果。
语音数据特征提取方面,针对每次输入至系统的可分为N帧的语音段,设定基础阶数为15,即可得到15×N的原始梅尔倒谱系数矩阵。分别计算差分系数与均值系数后又可得两组15×N的系数矩阵,经过相互组合后即可得30阶的经典算法系数矩阵与30阶的本发明算法系数矩阵。设定系统采样率为16KHz,帧移为帧长的1/2,考虑短时语音处理帧长范围(10~30毫秒)与计算机常用FFT长度,分别在帧长为160(10毫秒)、256(16毫秒)、320(20毫秒)、400(25毫秒)、480(30毫秒)下对上述两种系数矩阵进行五次系统性能测试,实验结果(等错误率)见表1和表2。
表1
表2
图3为性能仿真对比图,将本发明算法与经典算法用MATLAB进行仿真、对比。当系统采用本发明算法来提取动态特征时,在实验设定的各组参数下,系统性能(平均等错误率)均优于采用经典差分法提取动态特征时的系统性能。且由于两种算法提取到的系数矩阵维度相同,故采用本发明算法生成的系数矩阵代替差分系数矩阵时,并不会因为额外增大的运算开销而致使系统响应实时性下滑。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (3)

1.一种基于不定长均值的声纹动态特征提取方法,其特征在于,包括以下步骤:
(1)根据实时的采样率、帧长和帧移,计算出实时的最优均值步长;
(2)根据最优均值步长和每一帧语音信号的梅尔倒谱系数,计算出帧语音信号的均值系数,得到均值系数矩阵;
(3)采用均值系数矩阵提取声纹动态特征。
2.根据权利要求1所述基于不定长均值的声纹动态特征提取方法,其特征在于,在步骤(1)中,通过下式计算最优均值步长:
上式中,T为最优矩阵步长,fs为采样率,n为帧长,m为帧移,round表示四舍五入取整函数。
3.根据权利要求1或2所述基于不定长均值的声纹动态特征提取方法,其特征在于,在步骤(2)中,通过下式计算帧语音信号的均值系数:
上式中,m(l,k)为语音信号的均值系数,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数。
CN201910639183.4A 2019-07-16 2019-07-16 一种基于不定长均值的声纹动态特征提取方法 Active CN110428841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910639183.4A CN110428841B (zh) 2019-07-16 2019-07-16 一种基于不定长均值的声纹动态特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910639183.4A CN110428841B (zh) 2019-07-16 2019-07-16 一种基于不定长均值的声纹动态特征提取方法

Publications (2)

Publication Number Publication Date
CN110428841A true CN110428841A (zh) 2019-11-08
CN110428841B CN110428841B (zh) 2021-09-28

Family

ID=68409627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910639183.4A Active CN110428841B (zh) 2019-07-16 2019-07-16 一种基于不定长均值的声纹动态特征提取方法

Country Status (1)

Country Link
CN (1) CN110428841B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951245A (zh) * 2021-03-09 2021-06-11 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113744759A (zh) * 2021-09-17 2021-12-03 广州酷狗计算机科技有限公司 音色模板定制方法及其装置、设备、介质、产品

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847410A (zh) * 2010-05-31 2010-09-29 中国传媒大学广播电视数字化教育部工程研究中心 一种用于数字音频信号压缩的快速量化方法
US20100286991A1 (en) * 2008-01-04 2010-11-11 Dolby International Ab Audio encoder and decoder
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103295573A (zh) * 2013-05-06 2013-09-11 东南大学 基于费舍比率最优小波包分解的语音情感特征提取方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
US20150095987A1 (en) * 2013-10-01 2015-04-02 Certify Global LLC Systems and methods of verifying an authentication using dynamic scoring
CN106407777A (zh) * 2016-08-30 2017-02-15 孟玲 一种基于生物识别的智能移动终端
CN106782500A (zh) * 2016-12-23 2017-05-31 电子科技大学 一种基于基音周期和mfcc的融合特征参数提取方法
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置
CN108922541A (zh) * 2018-05-25 2018-11-30 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109119070A (zh) * 2018-10-19 2019-01-01 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100286991A1 (en) * 2008-01-04 2010-11-11 Dolby International Ab Audio encoder and decoder
CN101847410A (zh) * 2010-05-31 2010-09-29 中国传媒大学广播电视数字化教育部工程研究中心 一种用于数字音频信号压缩的快速量化方法
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103295573A (zh) * 2013-05-06 2013-09-11 东南大学 基于费舍比率最优小波包分解的语音情感特征提取方法
CN103345922A (zh) * 2013-07-05 2013-10-09 张巍 一种长篇幅语音全自动切分方法
US20150095987A1 (en) * 2013-10-01 2015-04-02 Certify Global LLC Systems and methods of verifying an authentication using dynamic scoring
CN106407777A (zh) * 2016-08-30 2017-02-15 孟玲 一种基于生物识别的智能移动终端
CN106782500A (zh) * 2016-12-23 2017-05-31 电子科技大学 一种基于基音周期和mfcc的融合特征参数提取方法
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置
CN108922541A (zh) * 2018-05-25 2018-11-30 南京邮电大学 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109119070A (zh) * 2018-10-19 2019-01-01 科大讯飞股份有限公司 一种语音端点检测方法、装置、设备及存储介质
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG WU ET AL.: "Research_on_voiceprint_recognition_based_on_weighted_clustering_recognition_SVM_algorithm", 《2017 CHINESE AUTOMATION CONGRESS (CAC)》 *
张承伟: "基于帧间差分法的动体特征速度聚类分析", 《计算机应用研究》 *
王金芳等: "帧间差分相位谱帧长和帧移的最优设置方法", 《吉林大学学报( 工学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951245A (zh) * 2021-03-09 2021-06-11 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113744759A (zh) * 2021-09-17 2021-12-03 广州酷狗计算机科技有限公司 音色模板定制方法及其装置、设备、介质、产品
CN113744759B (zh) * 2021-09-17 2023-09-22 广州酷狗计算机科技有限公司 音色模板定制方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN110428841B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN102509547B (zh) 基于矢量量化的声纹识别方法及系统
Meng et al. Overview of the speech recognition technology
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
CN107369440A (zh) 一种针对短语音的说话人识别模型的训练方法及装置
CN105261367B (zh) 一种说话人识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN106448681B (zh) 一种超矢量的说话人辨认方法
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN105919591A (zh) 一种基于表面肌电信号的手语识别发声系统及方法
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及系统
CN103531197A (zh) 一种对用户语音识别结果反馈的命令词识别自适应优化方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN110428841A (zh) 一种基于不定长均值的声纹动态特征提取方法
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
Wang et al. Research on speech emotion recognition technology based on deep and shallow neural network
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
Rudresh et al. Performance analysis of speech digit recognition using cepstrum and vector quantization
Zhao et al. Research on end-to-end voiceprint recognition model based on convolutional neural network
CN112233655A (zh) 一种提高语音命令词识别性能的神经网络训练方法
CN110853653B (zh) 一种基于自注意力和迁移学习的声纹识别方法
Jiang et al. A Speech Emotion Recognition Method Based on Improved Residual Network
Hu et al. Speaker Recognition Based on 3DCNN-LSTM.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant