CN106782500A - 一种基于基音周期和mfcc的融合特征参数提取方法 - Google Patents
一种基于基音周期和mfcc的融合特征参数提取方法 Download PDFInfo
- Publication number
- CN106782500A CN106782500A CN201611215760.XA CN201611215760A CN106782500A CN 106782500 A CN106782500 A CN 106782500A CN 201611215760 A CN201611215760 A CN 201611215760A CN 106782500 A CN106782500 A CN 106782500A
- Authority
- CN
- China
- Prior art keywords
- mfcc
- frame
- parameters
- pitch period
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本发明提出了一种融合基音周期和Mel倒谱参数的融合特征参数PITCHMFCC。通过增加Mel倒谱参数的维度来提高声纹识别效率的方法。基音周期是基于人体发声结构提出,而Mel倒谱参数通过人耳听觉结构提出,结合这两种特征得到的混合特征参数更符合人体生理结构。方法是通过每一帧语音数据获得该帧语音的Mel倒谱参数,Mel倒谱参数的一阶差分参数,二阶差分参数以及该帧的说话人基音周期参数。将这四个参数结合成一个(3L+1)维的特征矢量。这样更逼近语音的动态特征和人体的生理结构,可以提高声纹识别的效率。
Description
技术领域
本发明提出了一种利用基音周期特征参数来增加Mel倒谱参数维度进而提高声纹识别效率的方法。使用此方法提取的语音特征更具动态性,同时此特征参数结合了人体的发声结构及听觉结构,可以提高声纹识别的效率。
背景技术
近年来人们对隐私安全越来越重视,单一的字符型密码已经无法满足人们的需求,从而致使声纹、指纹、虹膜等生物特征识别快速发展。而声纹因为其易获取,低成本的特性获得了很大的重视,市场需求极其广泛。但是声纹识别同时也有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取等等。因此寻找更有效的语音特征成为了声纹识别的首要任务。本方法结合了较为常用的两个语音特征基音周期和MFCC(Mel Frequency Cepstral Coefficents梅尔频率倒谱系数)。基音周期是根据人体发声器官提取的特征,获取容易,但是人体在情绪发生变化或者生病的时候声道会发怔变化,因此基音周期是不稳定的。所以我们又引入了相对更加稳定的Mel频率倒谱参数(MFCC)。Mel频率是基于人耳听觉特性而提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,代表根据人体声音的接收器官提取出的特征。而Mel频率倒谱参数(MFCC)是由每一帧的语音信号得到的,仅代表了该帧的特征,不具动态性,所以一般会在提取出Mel频率倒谱参数(MFCC)的基础上,再次提取其一阶差分,二阶差分,将所得的三种特征结合起来作为新的MFCC特征,使之具有动态特性。大体流程如图1所示。本方法结合语音的发声结构和听觉结构,可以获得更好的识别效果。
发明内容
本发明最终目的是基于两种声纹特征融合Mel倒谱参数及其一阶偏导,二阶偏导以及基音周期从而生成一个3L+1维度的矢量,结合语音的发声结构和听觉结构,从而获得更好的识别效果。
为实现上述目的,本发明的实施方案如下:
1)获得单人语音数据;
2)对语音数据进行预处理,包括预加重,分帧加窗等;
3)提取第一帧语音数据,并用自相关法获得其基音周期参数P;
4)计算获得第一帧语音数据的MFCC特征参数M;
5)判断如果不是最后一帧的话则计算下一帧的基音周期和MFCC参数;
6)遍历到最后一帧,获得每一帧的基音周期和MFCC参数;
7)根据每一帧的MFCC特征参数计算其一阶偏导F;
8)根据上一步获得的MFCC特征参数的一阶偏导,计算其二阶偏导S;
9)将每一帧的MFCC参数及其一阶偏导,二阶偏导和对应基音周期结合成3X+1维的矢量作为该帧的混合特征参数;
10)后续处理,如训练和识别;
附图说明
图1是本发明所述的基于基音周期和MFCC的融合特征参数获取流程示意图。图2是获取本发明所述基于基音周期和MFCC的融合特征参数的具体流程图。
具体实施步骤
下面结合说明书附图中的图1和图2及具体实施方式对本发明做进一步详细说明。需要注意的是,实施步骤中会省略部分已知的功能和描述,而着重突出对本发明的描述。
图2是本发明基于基音周期和MFCC的融合特征参数的具体处理过程。首先对语音数据进行预加重处理去除低频,从而突出语音的高频特性。然后进行分帧加窗处理,根据语音的短时平稳性取10‐30ms一帧,帧间重叠1/2帧长或1/3帧长,再乘上每帧的窗函数来增加语音帧之间的连续性。
然后对预处理后的语音进行处理分别提取基音周期和MFCC参数,具体步骤如下:
1)提取一帧语音数据
2)根据自相关函数计算各帧的基音周期,其中Sn(m)是加窗后的语音信号,k是采样点间隔个数,m是采样点数。
3)对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱,并对语音频谱平方得到语音信号功率谱。
4)定义一个有M(22‐26)个带通三角滤波器的滤波器组,将功率谱通过该滤波器组从而将频谱平滑化。
5)计算每个滤波器组输出的对数能量,然后将上述对数能量带入离散余弦变换(DCT),DCT公式如下:求出L阶的MFCC参数。此时得到了每一帧的MFCC和基音周期参数。
标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。因此再求的MFCC的一阶差分以及二阶差分参数。最后将一帧的基音周期,MFCC,一阶差分及其二阶差分组合起来就得到了3L+1维的融合特征矢量PITCHMFCC。而一段语音有X帧,则可以得到X*(3L+1)维的一个矩阵。并可用于后续的训练和识别过程。
上述描述了本发明PITCHMFCC具体实施步骤,以便本领域技术研究所人员理解本发明,但应清楚本发明不局限于具体实施方式的范围,对于各种利用本发明构思的发明均在保护之列。
Claims (2)
1.特征参数的提取是声纹识别中最重要的一个环节,一种基于是基音周期和MFCC的融合特征参数提取方法,其特征在于,包括如下步骤:
a.获得单人语音数据;
b.对语音数据进行预处理,包括预加重,分帧加窗等;
c.提取第一帧语音数据,并用自相关法获得其基音周期参数P;
d.计算获得第一帧语音数据的MFCC特征参数M;
e.判断如果不是最后一帧的话则计算下一帧的基音周期和MFCC参数;
f.遍历到最后一帧,获得每一帧的基音周期和MFCC参数;
g.根据每一帧的MFCC特征参数计算其一阶偏导F;
h.根据上一步获得的MFCC特征参数的一阶偏导,计算其二阶偏导S;
i.将每一帧的MFCC参数及其一阶偏导,二阶偏导和对应基音周期结合成3X+1维的矢量作为该帧的混合特征参数。
2.如权利要求1所描述的一种基于是基音周期和MFCC的融合特征参数提取方法,其特征在于,所述步骤i包括:
i1.根据步骤a‐h,每一帧语音数据都能得到的L(L处于12到16之间)维静态MFCC特征参数,L维(与MFCC静态参数等维)的一阶差分和二阶差分动态参数以及1维基音周期参数。
i2.将四种参数结合在一起组成3L+1维的PITCHMFCC特征参数。
i3.将此融合参数用于后续的训练和识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611215760.XA CN106782500A (zh) | 2016-12-23 | 2016-12-23 | 一种基于基音周期和mfcc的融合特征参数提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611215760.XA CN106782500A (zh) | 2016-12-23 | 2016-12-23 | 一种基于基音周期和mfcc的融合特征参数提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782500A true CN106782500A (zh) | 2017-05-31 |
Family
ID=58924795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611215760.XA Pending CN106782500A (zh) | 2016-12-23 | 2016-12-23 | 一种基于基音周期和mfcc的融合特征参数提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782500A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN110428841A (zh) * | 2019-07-16 | 2019-11-08 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
CN111489763A (zh) * | 2020-04-13 | 2020-08-04 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN112885318A (zh) * | 2019-11-29 | 2021-06-01 | 阿里巴巴集团控股有限公司 | 多媒体数据生成方法、装置、电子设备及计算机存储介质 |
CN117576763A (zh) * | 2024-01-11 | 2024-02-20 | 杭州世平信息科技有限公司 | 云环境下基于声纹信息和人脸信息的身份识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402851A (zh) * | 2000-09-30 | 2003-03-12 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
-
2016
- 2016-12-23 CN CN201611215760.XA patent/CN106782500A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402851A (zh) * | 2000-09-30 | 2003-03-12 | 英特尔公司 | 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN105719659A (zh) * | 2016-02-03 | 2016-06-29 | 努比亚技术有限公司 | 基于声纹识别的录音文件分离方法及装置 |
Non-Patent Citations (3)
Title |
---|
WEI HUANG ETC: "Combination of pitch and MFCC GMM supervectors for speaker verification", 《 2008 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING》 * |
严勤 等: "《语音信号处理与识别》", 31 December 2015, 国防工业出版社 * |
李旭飞: "说话人识别在身份认证中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN108922556B (zh) * | 2018-07-16 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN110428841A (zh) * | 2019-07-16 | 2019-11-08 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
CN110428841B (zh) * | 2019-07-16 | 2021-09-28 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
CN112885318A (zh) * | 2019-11-29 | 2021-06-01 | 阿里巴巴集团控股有限公司 | 多媒体数据生成方法、装置、电子设备及计算机存储介质 |
CN111508498A (zh) * | 2020-04-09 | 2020-08-07 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111508498B (zh) * | 2020-04-09 | 2024-01-30 | 携程计算机技术(上海)有限公司 | 对话式语音识别方法、系统、电子设备和存储介质 |
CN111489763A (zh) * | 2020-04-13 | 2020-08-04 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN111489763B (zh) * | 2020-04-13 | 2023-06-20 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
CN117576763A (zh) * | 2024-01-11 | 2024-02-20 | 杭州世平信息科技有限公司 | 云环境下基于声纹信息和人脸信息的身份识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106782500A (zh) | 一种基于基音周期和mfcc的融合特征参数提取方法 | |
Singh et al. | An approach to extract feature using MFCC | |
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
CN103236260B (zh) | 语音识别系统 | |
Gulzar et al. | Comparative analysis of LPCC, MFCC and BFCC for the recognition of Hindi words using artificial neural networks | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
Stern et al. | Hearing is believing: Biologically inspired methods for robust automatic speech recognition | |
CN110931022B (zh) | 基于高低频动静特征的声纹识别方法 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
Sinith et al. | A novel method for text-independent speaker identification using MFCC and GMM | |
Murugappan et al. | DWT and MFCC based human emotional speech classification using LDA | |
WO2020087716A1 (zh) | 人工耳蜗听觉场景识别方法 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
Jhawar et al. | Speech disorder recognition using MFCC | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN113921026A (zh) | 语音增强方法和装置 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
CN110176243A (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
Jie | Speech emotion recognition based on convolutional neural network | |
Xu et al. | The extraction and simulation of Mel frequency cepstrum speech parameters | |
CN113393847B (zh) | 基于Fbank特征和MFCC特征融合的声纹识别方法 | |
Wang et al. | Fusion of MFCC and IMFCC for Whispered Speech Recognition | |
Deng et al. | Gammachirp filter banks applied in roust speaker recognition based on GMM-UBM classifier. | |
Kim et al. | Speech recognition using hidden markov models in embedded platform | |
CN112992131A (zh) | 一种在复杂场景下提取目标人声的乒乓球指令的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |