CN108922514A - 一种基于低频对数谱的鲁棒特征提取方法 - Google Patents
一种基于低频对数谱的鲁棒特征提取方法 Download PDFInfo
- Publication number
- CN108922514A CN108922514A CN201811091401.7A CN201811091401A CN108922514A CN 108922514 A CN108922514 A CN 108922514A CN 201811091401 A CN201811091401 A CN 201811091401A CN 108922514 A CN108922514 A CN 108922514A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- low frequency
- logarithmic
- logarithmic spectrum
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于低频对数谱的鲁棒特征提取方法,用语音信号的对数谱轮廓提取其特征参数。首先,对语音信号的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换,并进行时域差分,得到语音信号的特征参数。本发明可以提高语音信号特征参数的环境鲁棒性,减小说话人的改变对语音识别系统的影响,具有计算量较小、易于实时实现的优点。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到对语音信号的对数谱进行低频滤波,减小环境失配对语音识别系统影响的鲁棒特征提取方法。
背景技术
语音识别系统每个语音单元的声学模型一般用安静环境下若干人的训练语音训练而成,如果训练语音能覆盖实际说话人的发音特性,那么语音识别系统可以取得很高的识别率。然而,不同地区说话人的发音方式有较大的差别,且发音方式的种类太多,难以在声学模型的训练过程中考虑所有发音方式。而且,如果在训练过程中使用过多差别大的训练语音,也会导致系统识别率的下降。因此,说话人的改变是导致语音识别系统在实际环境中识别性能下降的重要因素。
目前,语音识别系统一般以美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficients)为语音的特征参数。MFCC具有高维分量包含的有效信息少,各维分量之间的相关性小的优点。但是,由于语音变异性的影响,在实际环境中提取的MFCC的特性与训练语音可能存在较大的差异,这会导致系统性能的下降,甚至不可用。
发明内容
发明目的:针对现有技术中存在的问题,为了减小说话人的改变对语音识别系统的影响,在特征提取时,应尽量减少说话人的个性特征,增强语音特征参数的鲁棒性,本发明提供一种基于低频对数谱的鲁棒特征提取方法。
技术方案:一种基于低频对数谱的鲁棒特征提取方法,首先对输入语音的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换(DCT:Discrete Cosine Transform),并进行时域差分,得到语音信号的特征参数。
本发明的具体步骤如下:
(1)对输入语音加窗,分帧,将输入语音分解为若干帧信号;
(2)对每一帧输入语音进行快速傅里叶变换(FFT:Fast Fourier Transform)运算,得到每帧信号的幅度谱;
(3)对每帧信号的幅度谱进行对数变换,得到语音信号的对数谱;
(4)将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;
(5)对每帧信号的低频对数谱进行指数变换,得到语音信号的低频幅度谱;
(6)对每帧信号的低频幅度谱进行Mel滤波,得到语音信号的低频Mel谱;
(7)对每帧信号的低频Mel谱进行对数变换,得到语音信号的低频Mel对数谱;
(8)对每帧信号的低频Mel对数谱进行DCT变换,得到语音信号的静态特征参数;
(9)对DCT后的静态倒谱特征作一阶差分和二阶差分,得到动态倒谱参数,静态参数和动态参数共同组成语音的39维倒谱特征向量。
本发明采用上述技术方案,具有以下有益效果:
本发明可以提高语音信号特征参数的环境鲁棒性,减小说话人的改变对语音识别系统的影响,具有计算量较小、易于实时实现的优点。
附图说明
图1为本发明实施例的基于低频对数谱的鲁棒特征提取方法的总体框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于低频对数谱的鲁棒特征提取方法主要包括预处理、FFT、对数变换、低通滤波、指数变换、Mel滤波、DCT和时域差分部分。
1、预处理
在语音预处理阶段,对输入语音进行加窗,分帧,得到帧信号x。语音信号的采样频率为8000Hz,窗函数采用海明窗,帧长为256,帧移为128。
2、FFT
对预处理后的每一帧信号x,进行快速傅里叶变换(FFT),求x的幅度谱X:
其中,N为帧长,即N=256,j是虚数单位,k为离散频谱的自变量(基频的倍数)。
3、对数谱滤波
对数谱滤波包括对数变换、低通滤波和指数变换三个部分。
首先,对幅度谱X进行对数变换:
g=ln(X) (2)
其中,g表示语音信号的对数谱。
然后,将对数谱g看作时域信号,用一个低通滤波器对其进行低通滤波,保留其低频部分,滤除高频部分,得到低频对数谱低通滤波器的截止频率用实验方法测得。
最后,对低频对数谱进行指数变换:
其中,表示语音信号的低频幅度谱。
4、低频幅度谱特征提取
首先,对低频幅度谱进行Mel滤波:
其中,Wm(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子;M为滤波器的个数;为第m个滤波器的输出。
然后,对低频Mel谱进行对数变换:
其中,表示语音信号的低频Mel对数谱。
然后,对低频Mel对数谱进行离散余弦变换(DCT):
其中,L是倒谱特征向量c的维数,这里取13。
最后,对静态参数c进行一阶和二阶时域差分:
其中,T和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数。
将ct,Δct和ΔΔct拼接,即可得到第t帧语音的39维倒谱特征向量。
Claims (5)
1.一种基于低频对数谱的鲁棒特征提取方法,其特征在于,首先对输入语音的幅度谱进行对数变换,得到对数谱;然后,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;最后,对语音信号的低频对数谱进行指数变换,Mel滤波,对数变换和离散余弦变换,并进行时域差分,得到语音信号的特征参数。
2.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法,其特征在于,对输入语音加窗,分帧,将输入语音分解为若干帧信号;对每一帧输入语音进行快速傅里叶变换运算,得到每帧信号的幅度谱;对每帧信号的幅度谱进行对数变换,得到语音信号的对数谱。
3.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法,其特征在于,将对数谱看作时域信号,用数字滤波器对其进行低通滤波,得到低频对数谱;对每帧信号的低频对数谱进行指数变换,得到语音信号的低频幅度谱;对每帧信号的低频幅度谱进行Mel滤波,得到语音信号的低频Mel谱;对每帧信号的低频Mel谱进行对数变换,得到语音信号的低频Mel对数谱;对每帧信号的低频Mel对数谱进行DCT变换,得到语音信号的静态特征参数;对DCT后的静态倒谱特征作一阶差分和二阶差分,得到动态倒谱参数,静态参数和动态参数共同组成语音的39维倒谱特征向量。
4.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法,其特征在于,对预处理后的每一帧信号x,进行快速傅里叶变换,求x的幅度谱X:
其中,N为帧长;
对数谱滤波包括对数变换、低通滤波和指数变换三个部分;
首先,对幅度谱X进行对数变换:
g=ln(X) (2)
其中,g表示语音信号的对数谱;
然后,将对数谱g看作时域信号,用一个低通滤波器对其进行低通滤波,保留其低频部分,滤除高频部分,得到低频对数谱低通滤波器的截止频率用实验方法测得;
最后,对低频对数谱进行指数变换:
其中,表示语音信号的低频幅度谱。
5.根据权利要求1所述的一种基于低频对数谱的鲁棒特征提取方法,其特征在于,首先,对低频幅度谱进行Mel滤波:
其中,Wm(k)为Mel滤波器组第m个三角滤波器在频率k处的加权因子;M为滤波器的个数;为第m个滤波器的输出;
然后,对低频Mel谱进行对数变换:
其中,表示语音信号的低频Mel对数谱;
然后,对低频Mel对数谱进行离散余弦变换:
其中,L是倒谱特征向量c的维数;
最后,对静态参数c进行一阶和二阶时域差分:
其中,T和Γ为常数,分别表示一阶差分和二阶差分时,当前帧前后参与差分运算的帧数;
将ct,Δct和ΔΔct拼接,即可得到第t帧语音的39维倒谱特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811091401.7A CN108922514B (zh) | 2018-09-19 | 2018-09-19 | 一种基于低频对数谱的鲁棒特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811091401.7A CN108922514B (zh) | 2018-09-19 | 2018-09-19 | 一种基于低频对数谱的鲁棒特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922514A true CN108922514A (zh) | 2018-11-30 |
CN108922514B CN108922514B (zh) | 2023-03-21 |
Family
ID=64408251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811091401.7A Active CN108922514B (zh) | 2018-09-19 | 2018-09-19 | 一种基于低频对数谱的鲁棒特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922514B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584888A (zh) * | 2019-01-16 | 2019-04-05 | 上海大学 | 基于机器学习的鸣笛识别方法 |
CN110931022A (zh) * | 2019-11-19 | 2020-03-27 | 天津大学 | 基于高低频动静特征的声纹识别方法 |
CN111261189A (zh) * | 2020-04-02 | 2020-06-09 | 中国科学院上海微系统与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN112233658A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于对数谱平滑滤波的特征提取方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0214728A1 (en) * | 1985-07-16 | 1987-03-18 | BRITISH TELECOMMUNICATIONS public limited company | Recognition system |
CN1347246A (zh) * | 2000-09-30 | 2002-05-01 | Lg电子株式会社 | 视频信号的对比度增强装置 |
JP2002278580A (ja) * | 2001-03-19 | 2002-09-27 | Toshiba Corp | 音響特徴抽出装置 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2009210617A (ja) * | 2008-02-29 | 2009-09-17 | Internatl Business Mach Corp <Ibm> | 発話区間検出システム、方法及びプログラム |
CN102646415A (zh) * | 2012-04-10 | 2012-08-22 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN104050642A (zh) * | 2014-06-18 | 2014-09-17 | 上海理工大学 | 彩色图像复原方法 |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN105306006A (zh) * | 2015-11-18 | 2016-02-03 | 深圳先进技术研究院 | 一种对数域差分低通滤波器 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN106356058A (zh) * | 2016-09-08 | 2017-01-25 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
CN106373559A (zh) * | 2016-09-08 | 2017-02-01 | 河海大学 | 一种基于对数谱信噪比加权的鲁棒特征提取方法 |
CN108257606A (zh) * | 2018-01-15 | 2018-07-06 | 江南大学 | 一种基于自适应并行模型组合的鲁棒语音身份识别方法 |
-
2018
- 2018-09-19 CN CN201811091401.7A patent/CN108922514B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0214728A1 (en) * | 1985-07-16 | 1987-03-18 | BRITISH TELECOMMUNICATIONS public limited company | Recognition system |
CN1347246A (zh) * | 2000-09-30 | 2002-05-01 | Lg电子株式会社 | 视频信号的对比度增强装置 |
JP2002278580A (ja) * | 2001-03-19 | 2002-09-27 | Toshiba Corp | 音響特徴抽出装置 |
JP2004012584A (ja) * | 2002-06-04 | 2004-01-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 |
JP2009210617A (ja) * | 2008-02-29 | 2009-09-17 | Internatl Business Mach Corp <Ibm> | 発話区間検出システム、方法及びプログラム |
CN102646415A (zh) * | 2012-04-10 | 2012-08-22 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN102982801A (zh) * | 2012-11-12 | 2013-03-20 | 中国科学院自动化研究所 | 一种用于鲁棒语音识别的语音特征提取方法 |
CN104050642A (zh) * | 2014-06-18 | 2014-09-17 | 上海理工大学 | 彩色图像复原方法 |
CN104076331A (zh) * | 2014-06-18 | 2014-10-01 | 南京信息工程大学 | 一种七元麦克风阵列的声源定位方法 |
CN105306006A (zh) * | 2015-11-18 | 2016-02-03 | 深圳先进技术研究院 | 一种对数域差分低通滤波器 |
CN106340292A (zh) * | 2016-09-08 | 2017-01-18 | 河海大学 | 一种基于连续噪声估计的语音增强方法 |
CN106356058A (zh) * | 2016-09-08 | 2017-01-25 | 河海大学 | 一种基于多频带特征补偿的鲁棒语音识别方法 |
CN106373559A (zh) * | 2016-09-08 | 2017-02-01 | 河海大学 | 一种基于对数谱信噪比加权的鲁棒特征提取方法 |
CN108257606A (zh) * | 2018-01-15 | 2018-07-06 | 江南大学 | 一种基于自适应并行模型组合的鲁棒语音身份识别方法 |
Non-Patent Citations (2)
Title |
---|
李聪等: "自适应并行模型组合的鲁棒语音身份识别算法", 《信号处理》 * |
马元锋等: "一种新的可应用于声目标识别的倒谱系数", 《兵工学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584888A (zh) * | 2019-01-16 | 2019-04-05 | 上海大学 | 基于机器学习的鸣笛识别方法 |
CN110931022A (zh) * | 2019-11-19 | 2020-03-27 | 天津大学 | 基于高低频动静特征的声纹识别方法 |
CN110931022B (zh) * | 2019-11-19 | 2023-09-15 | 天津大学 | 基于高低频动静特征的声纹识别方法 |
CN111261189A (zh) * | 2020-04-02 | 2020-06-09 | 中国科学院上海微系统与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN111261189B (zh) * | 2020-04-02 | 2023-01-31 | 中国科学院上海微系统与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN112233658A (zh) * | 2020-10-14 | 2021-01-15 | 河海大学 | 一种基于对数谱平滑滤波的特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108922514B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
CN108922514A (zh) | 一种基于低频对数谱的鲁棒特征提取方法 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN102543073B (zh) | 一种沪语语音识别信息处理方法 | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN109841218B (zh) | 一种针对远场环境的声纹注册方法及装置 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN108198545A (zh) | 一种基于小波变换的语音识别方法 | |
CN111243617B (zh) | 一种基于深度学习降低mfcc特征失真的语音增强方法 | |
Alam et al. | Robust feature extraction based on an asymmetric level-dependent auditory filterbank and a subband spectrum enhancement technique | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN114613389A (zh) | 一种基于改进mfcc的非语音类音频特征提取方法 | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
CN112466276A (zh) | 一种语音合成系统训练方法、装置以及可读存储介质 | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
CN107919115B (zh) | 一种基于非线性谱变换的特征补偿方法 | |
CN105355206A (zh) | 一种声纹特征提取方法和电子设备 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Pandey et al. | Significance of glottal activity detection for speaker verification in degraded and limited data condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |