CN106782500A - 一种基于基音周期和mfcc的融合特征参数提取方法 - Google Patents

一种基于基音周期和mfcc的融合特征参数提取方法 Download PDF

Info

Publication number
CN106782500A
CN106782500A CN201611215760.XA CN201611215760A CN106782500A CN 106782500 A CN106782500 A CN 106782500A CN 201611215760 A CN201611215760 A CN 201611215760A CN 106782500 A CN106782500 A CN 106782500A
Authority
CN
China
Prior art keywords
mfcc
frame
parameters
pitch period
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611215760.XA
Other languages
English (en)
Inventor
何兴高
张效藩
李蝉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201611215760.XA priority Critical patent/CN106782500A/zh
Publication of CN106782500A publication Critical patent/CN106782500A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明提出了一种融合基音周期和Mel倒谱参数的融合特征参数PITCHMFCC。通过增加Mel倒谱参数的维度来提高声纹识别效率的方法。基音周期是基于人体发声结构提出,而Mel倒谱参数通过人耳听觉结构提出,结合这两种特征得到的混合特征参数更符合人体生理结构。方法是通过每一帧语音数据获得该帧语音的Mel倒谱参数,Mel倒谱参数的一阶差分参数,二阶差分参数以及该帧的说话人基音周期参数。将这四个参数结合成一个(3L+1)维的特征矢量。这样更逼近语音的动态特征和人体的生理结构,可以提高声纹识别的效率。

Description

一种基于基音周期和MFCC的融合特征参数提取方法
技术领域
本发明提出了一种利用基音周期特征参数来增加Mel倒谱参数维度进而提高声纹识别效率的方法。使用此方法提取的语音特征更具动态性,同时此特征参数结合了人体的发声结构及听觉结构,可以提高声纹识别的效率。
背景技术
近年来人们对隐私安全越来越重视,单一的字符型密码已经无法满足人们的需求,从而致使声纹、指纹、虹膜等生物特征识别快速发展。而声纹因为其易获取,低成本的特性获得了很大的重视,市场需求极其广泛。但是声纹识别同时也有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取等等。因此寻找更有效的语音特征成为了声纹识别的首要任务。本方法结合了较为常用的两个语音特征基音周期和MFCC(Mel Frequency Cepstral Coefficents梅尔频率倒谱系数)。基音周期是根据人体发声器官提取的特征,获取容易,但是人体在情绪发生变化或者生病的时候声道会发怔变化,因此基音周期是不稳定的。所以我们又引入了相对更加稳定的Mel频率倒谱参数(MFCC)。Mel频率是基于人耳听觉特性而提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征,代表根据人体声音的接收器官提取出的特征。而Mel频率倒谱参数(MFCC)是由每一帧的语音信号得到的,仅代表了该帧的特征,不具动态性,所以一般会在提取出Mel频率倒谱参数(MFCC)的基础上,再次提取其一阶差分,二阶差分,将所得的三种特征结合起来作为新的MFCC特征,使之具有动态特性。大体流程如图1所示。本方法结合语音的发声结构和听觉结构,可以获得更好的识别效果。
发明内容
本发明最终目的是基于两种声纹特征融合Mel倒谱参数及其一阶偏导,二阶偏导以及基音周期从而生成一个3L+1维度的矢量,结合语音的发声结构和听觉结构,从而获得更好的识别效果。
为实现上述目的,本发明的实施方案如下:
1)获得单人语音数据;
2)对语音数据进行预处理,包括预加重,分帧加窗等;
3)提取第一帧语音数据,并用自相关法获得其基音周期参数P;
4)计算获得第一帧语音数据的MFCC特征参数M;
5)判断如果不是最后一帧的话则计算下一帧的基音周期和MFCC参数;
6)遍历到最后一帧,获得每一帧的基音周期和MFCC参数;
7)根据每一帧的MFCC特征参数计算其一阶偏导F;
8)根据上一步获得的MFCC特征参数的一阶偏导,计算其二阶偏导S;
9)将每一帧的MFCC参数及其一阶偏导,二阶偏导和对应基音周期结合成3X+1维的矢量作为该帧的混合特征参数;
10)后续处理,如训练和识别;
附图说明
图1是本发明所述的基于基音周期和MFCC的融合特征参数获取流程示意图。图2是获取本发明所述基于基音周期和MFCC的融合特征参数的具体流程图。
具体实施步骤
下面结合说明书附图中的图1和图2及具体实施方式对本发明做进一步详细说明。需要注意的是,实施步骤中会省略部分已知的功能和描述,而着重突出对本发明的描述。
图2是本发明基于基音周期和MFCC的融合特征参数的具体处理过程。首先对语音数据进行预加重处理去除低频,从而突出语音的高频特性。然后进行分帧加窗处理,根据语音的短时平稳性取10‐30ms一帧,帧间重叠1/2帧长或1/3帧长,再乘上每帧的窗函数来增加语音帧之间的连续性。
然后对预处理后的语音进行处理分别提取基音周期和MFCC参数,具体步骤如下:
1)提取一帧语音数据
2)根据自相关函数计算各帧的基音周期,其中Sn(m)是加窗后的语音信号,k是采样点间隔个数,m是采样点数。
3)对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱,并对语音频谱平方得到语音信号功率谱。
4)定义一个有M(22‐26)个带通三角滤波器的滤波器组,将功率谱通过该滤波器组从而将频谱平滑化。
5)计算每个滤波器组输出的对数能量,然后将上述对数能量带入离散余弦变换(DCT),DCT公式如下:求出L阶的MFCC参数。此时得到了每一帧的MFCC和基音周期参数。
标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。因此再求的MFCC的一阶差分以及二阶差分参数。最后将一帧的基音周期,MFCC,一阶差分及其二阶差分组合起来就得到了3L+1维的融合特征矢量PITCHMFCC。而一段语音有X帧,则可以得到X*(3L+1)维的一个矩阵。并可用于后续的训练和识别过程。
上述描述了本发明PITCHMFCC具体实施步骤,以便本领域技术研究所人员理解本发明,但应清楚本发明不局限于具体实施方式的范围,对于各种利用本发明构思的发明均在保护之列。

Claims (2)

1.特征参数的提取是声纹识别中最重要的一个环节,一种基于是基音周期和MFCC的融合特征参数提取方法,其特征在于,包括如下步骤:
a.获得单人语音数据;
b.对语音数据进行预处理,包括预加重,分帧加窗等;
c.提取第一帧语音数据,并用自相关法获得其基音周期参数P;
d.计算获得第一帧语音数据的MFCC特征参数M;
e.判断如果不是最后一帧的话则计算下一帧的基音周期和MFCC参数;
f.遍历到最后一帧,获得每一帧的基音周期和MFCC参数;
g.根据每一帧的MFCC特征参数计算其一阶偏导F;
h.根据上一步获得的MFCC特征参数的一阶偏导,计算其二阶偏导S;
i.将每一帧的MFCC参数及其一阶偏导,二阶偏导和对应基音周期结合成3X+1维的矢量作为该帧的混合特征参数。
2.如权利要求1所描述的一种基于是基音周期和MFCC的融合特征参数提取方法,其特征在于,所述步骤i包括:
i1.根据步骤a‐h,每一帧语音数据都能得到的L(L处于12到16之间)维静态MFCC特征参数,L维(与MFCC静态参数等维)的一阶差分和二阶差分动态参数以及1维基音周期参数。
i2.将四种参数结合在一起组成3L+1维的PITCHMFCC特征参数。
i3.将此融合参数用于后续的训练和识别。
CN201611215760.XA 2016-12-23 2016-12-23 一种基于基音周期和mfcc的融合特征参数提取方法 Pending CN106782500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611215760.XA CN106782500A (zh) 2016-12-23 2016-12-23 一种基于基音周期和mfcc的融合特征参数提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611215760.XA CN106782500A (zh) 2016-12-23 2016-12-23 一种基于基音周期和mfcc的融合特征参数提取方法

Publications (1)

Publication Number Publication Date
CN106782500A true CN106782500A (zh) 2017-05-31

Family

ID=58924795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611215760.XA Pending CN106782500A (zh) 2016-12-23 2016-12-23 一种基于基音周期和mfcc的融合特征参数提取方法

Country Status (1)

Country Link
CN (1) CN106782500A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922556A (zh) * 2018-07-16 2018-11-30 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN111489763A (zh) * 2020-04-13 2020-08-04 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111508498A (zh) * 2020-04-09 2020-08-07 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN112885318A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 多媒体数据生成方法、装置、电子设备及计算机存储介质
CN117576763A (zh) * 2024-01-11 2024-02-20 杭州世平信息科技有限公司 云环境下基于声纹信息和人脸信息的身份识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402851A (zh) * 2000-09-30 2003-03-12 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402851A (zh) * 2000-09-30 2003-03-12 英特尔公司 以自底向上方式将声调集成到汉语连续语音识别系统中的方向、装置和系统
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105719659A (zh) * 2016-02-03 2016-06-29 努比亚技术有限公司 基于声纹识别的录音文件分离方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI HUANG ETC: "Combination of pitch and MFCC GMM supervectors for speaker verification", 《 2008 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING》 *
严勤 等: "《语音信号处理与识别》", 31 December 2015, 国防工业出版社 *
李旭飞: "说话人识别在身份认证中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922556A (zh) * 2018-07-16 2018-11-30 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN112885318A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 多媒体数据生成方法、装置、电子设备及计算机存储介质
CN111508498A (zh) * 2020-04-09 2020-08-07 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质
CN111489763A (zh) * 2020-04-13 2020-08-04 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111489763B (zh) * 2020-04-13 2023-06-20 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN117576763A (zh) * 2024-01-11 2024-02-20 杭州世平信息科技有限公司 云环境下基于声纹信息和人脸信息的身份识别方法及系统

Similar Documents

Publication Publication Date Title
CN106782500A (zh) 一种基于基音周期和mfcc的融合特征参数提取方法
Singh et al. An approach to extract feature using MFCC
CN106971741B (zh) 实时将语音进行分离的语音降噪的方法及系统
CN103236260B (zh) 语音识别系统
Gulzar et al. Comparative analysis of LPCC, MFCC and BFCC for the recognition of Hindi words using artificial neural networks
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
Stern et al. Hearing is believing: Biologically inspired methods for robust automatic speech recognition
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
CN108597505A (zh) 语音识别方法、装置及终端设备
Sinith et al. A novel method for text-independent speaker identification using MFCC and GMM
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
WO2020087716A1 (zh) 人工耳蜗听觉场景识别方法
Chauhan et al. Speech to text converter using Gaussian Mixture Model (GMM)
Jhawar et al. Speech disorder recognition using MFCC
CN104778948A (zh) 一种基于弯折倒谱特征的抗噪语音识别方法
CN113921026A (zh) 语音增强方法和装置
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN110176243A (zh) 语音增强方法、模型训练方法、装置和计算机设备
Jie Speech emotion recognition based on convolutional neural network
Xu et al. The extraction and simulation of Mel frequency cepstrum speech parameters
CN113393847B (zh) 基于Fbank特征和MFCC特征融合的声纹识别方法
Wang et al. Fusion of MFCC and IMFCC for Whispered Speech Recognition
Deng et al. Gammachirp filter banks applied in roust speaker recognition based on GMM-UBM classifier.
Kim et al. Speech recognition using hidden markov models in embedded platform
CN112992131A (zh) 一种在复杂场景下提取目标人声的乒乓球指令的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170531