CN108022588A - 一种基于双特征模型的鲁棒语音识别方法 - Google Patents
一种基于双特征模型的鲁棒语音识别方法 Download PDFInfo
- Publication number
- CN108022588A CN108022588A CN201711112809.3A CN201711112809A CN108022588A CN 108022588 A CN108022588 A CN 108022588A CN 201711112809 A CN201711112809 A CN 201711112809A CN 108022588 A CN108022588 A CN 108022588A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msup
- msub
- mfrac
- pmfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 230000003595 spectral effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 239000000654 additive Substances 0.000 claims 1
- 230000000996 additive effect Effects 0.000 claims 1
- 238000006467 substitution reaction Methods 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开一种基于双特征模型的鲁棒语音识别方法,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪输入语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency Cepstral Coefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用传统的MFCC进行声学解码。本发明可以在保持纯净输入语音高识别率的同时,提高含噪语音的抗噪声能力,优于传统的单MFCC语音识别系统。
Description
技术领域
本发明属于语音识别领域,具体涉及到针对纯净测试语音和含噪测试语音两种环境采用不同语音特征进行声学解码的鲁棒语音识别方法。
背景技术
目前大多数语音识别系统以美尔频率倒谱系数(MFCC:Mel Frequency CepstralCoefficients)为特征参数,以隐马尔可夫模型(HMM:Hidden Markov Model)为声学模型。MFCC采用对数函数对Mel滤波后的系数进行非线性变换。对数函数不仅对高能量系数进行压缩,而且对低能量系数进行放大,因此MFCC考虑了各语音单元之间的细节差异,在纯净语音环境中可以取得很高的识别率。
在实际应用中,环境噪声往往是不可避免的,语音的低能量系数容易被噪声覆盖,不但不能提高语音单元之间的分辨率,而且使噪声环境下提取的MFCC与训练环境下生成的纯净语音声学模型严重失配,导致系统的识别性能下降。因此,在含噪测试语音环境下,没有必要考虑语音的低能量系数,只需要对高能量系数进行压缩即可。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于双特征模型的鲁棒语音识别方法。在该方法中,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency Cepstral Coefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用传统的MFCC进行声学解码,保持纯净语音的高识别率。
本发明的具体步骤如下:
(1)用一个含有较少(一般取10个高斯单元)高斯单元的高斯混合模型监测输入语音中是否含有噪声,输出噪声存在标识;
(2)提取输入语音的美尔频率倒谱系数(MFCC),包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换;
(3)提取输入语音的幂美尔频率倒谱系数(PMFCC),用指数为真分数的幂函数取代对数函数对Mel滤波后的系数进行压缩,其他步骤与MFCC相同;
(4)根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音;
(5)如果输入是纯净语音,则直接输出MFCC声学模型用于声学解码;如果输入是含噪语音,则需要对PMFCC声学模型进行模型自适应,使其与含噪测试环境相匹配,再对含噪输入语音进行声学解码。
附图说明
图1为基于双特征模型的鲁棒语音识别系统的总体框架,主要包括噪声监测、MFCC提取、PMFCC提取、特征选择、模型自适应和声学解码模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于双特征模型的鲁棒语音识别方法主要包括噪声监测、MFCC提取、PMFCC提取、特征选择、模型自适应和声学解码模块。下面逐一详细说明附图中各主要模块的具体实施方案:
1、噪声监测
用一个含有较少(一般取10个高斯单元)高斯单元的高斯混合模型对环境噪声进行监测,根据其输出概率判断输入语音中是否含有噪声。
2、MFCC提取
MFCC提取采用标准方式,包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换。
3、PMFCC提取
在PMFCC提取中,用幂函数f(x)=xα,取代对数函数,对Mel滤波后的Mel谱系数进行压缩,0<α<1,α是幂函数的指数,x是Mel谱系数。设语音的Mel谱系数为xlin,则其PMFCC为:
x=C(xlin)α (1)
其中,x表示语音的PMFCC,C表示离散余弦变换矩阵。
4、特征选择
根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音。对于每种特征,都用其纯净训练语音参数训练生成每个语音单元的声学模型。
5、模型自适应
对于每种特征MFCC或PMFCC,都有其对应的声学模型。如果特征选择模块选择的是MFCC,则不对其声学模型进行变换,直接输出,用于声学解码;如果特征选择模块选择的是PMFCC,则需要对其声学模型的参数进行变换,使其与含噪测试环境相匹配。
设用纯净语音训练生成的PMFCC声学模型的均值向量和协方差矩阵分别为μx和Σx,则根据环境噪声的均值向量μn和协方差矩阵Σn对其进行参数自适应,可得:
Σy=VΣxVT+UΣnUT (3)
其中,μy和Σy分别表示含噪语音的均值向量和协方差矩阵;C和C-1分别表示离散余弦变换矩阵及其逆矩阵;U和V的表达式为:
式(4)和式(5)中,diag()表示以括号中的向量元素为对角元素生成的对角矩阵。
6、声学解码
根据特征的不同,选取MFCC声学模型或自适应后的PMFCC声学模型对纯净语音的MFCC或含噪语音的PMFCC计算概率,识别出当前输入语音对应的语音单元。
Claims (5)
1.一种基于双特征模型的鲁棒语音识别方法,其特征在于,针对语音的低能量系数容易被噪声覆盖的特点,用幂函数取代对数函数,对含噪输入语音的Mel谱系数进行压缩,得到含噪语音的幂美尔频率倒谱系数(PMFCC:Power Mel Frequency CepstralCoefficients),并根据含噪输入语音对声学模型的参数进行变换,使其与当前环境相匹配;如果输入语音是纯净测试语音,则仍采用MFCC进行声学解码,保持纯净语音的高识别率。
2.根据权利要求1所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,具体包括:
(1)用一个含有较少高斯单元的高斯混合模型监测输入语音中是否含有噪声,输出噪声存在标识;
(2)提取输入语音的美尔频率倒谱系数(MFCC),包括声学预加重、加窗、分帧、快速傅里叶变换、Mel滤波、取对数和离散余弦变换;
(3)提取输入语音的幂美尔频率倒谱系数(PMFCC),用指数为真分数的幂函数取代对数函数对Mel滤波后的系数进行压缩,其他步骤与MFCC相同;
(4)根据噪声存在标识,选择MFCC或PMFCC,作为系统的特征参数,前者用于纯净输入语音,后者用于含噪输入语音;
(5)如果输入是纯净语音,则直接输出MFCC声学模型用于声学解码;如果输入是含噪语音,则需要对PMFCC声学模型进行模型自适应,使其与含噪测试环境相匹配,再对含噪输入语音进行声学解码。
3.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,对PMFCC声学模型采用以下公式进行模型自适应:
<mrow>
<msub>
<mi>&mu;</mi>
<mi>y</mi>
</msub>
<mo>=</mo>
<mi>C</mi>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>x</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>n</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
</msup>
<mo>)</mo>
</mrow>
<mi>&alpha;</mi>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
Σy=VΣxVT+UΣnUT (2)
其中,μx和Σx分别表示用纯净语音训练生成的PMFCC声学模型的均值向量和协方差矩阵;μn和Σn分别表示加性噪声的均值向量和协方差矩阵;μy和Σy分别表示含噪语音的均值向量和协方差矩阵;C和C-1分别表示离散余弦变换矩阵及其逆矩阵。
4.根据权利要求3所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,U和V的表达式为:
<mrow>
<mi>U</mi>
<mo>=</mo>
<mi>C</mi>
<mi>d</mi>
<mi>i</mi>
<mi>a</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>x</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>n</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mi>&alpha;</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>n</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>V</mi>
<mo>=</mo>
<mi>C</mi>
<mi>d</mi>
<mi>i</mi>
<mi>a</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>x</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>n</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mi>&alpha;</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<msub>
<mi>&mu;</mi>
<mi>n</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mfrac>
<mn>1</mn>
<mi>&alpha;</mi>
</mfrac>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<msup>
<mi>C</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
式(3)和式(4)中,diag()表示以括号中的向量元素为对角元素生成的对角矩阵。
5.根据权利要求2所述的一种基于双特征模型的鲁棒语音识别方法,其特征在于,在PMFCC提取中,用幂函数f(x)=xα,0<α<1取代对数函数,对Mel滤波后的Mel谱系数进行压缩。设语音的Mel谱系数为xlin,则其PMFCC为:
x=C(xlin)α (1)
其中,x表示语音的PMFCC,C表示离散余弦变换矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112809.3A CN108022588B (zh) | 2017-11-13 | 2017-11-13 | 一种基于双特征模型的鲁棒语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711112809.3A CN108022588B (zh) | 2017-11-13 | 2017-11-13 | 一种基于双特征模型的鲁棒语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108022588A true CN108022588A (zh) | 2018-05-11 |
CN108022588B CN108022588B (zh) | 2022-03-29 |
Family
ID=62080556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711112809.3A Active CN108022588B (zh) | 2017-11-13 | 2017-11-13 | 一种基于双特征模型的鲁棒语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108022588B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986794A (zh) * | 2018-09-19 | 2018-12-11 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
CN112002307A (zh) * | 2020-08-31 | 2020-11-27 | 广州市百果园信息技术有限公司 | 一种语音识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6701291B2 (en) * | 2000-10-13 | 2004-03-02 | Lucent Technologies Inc. | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis |
US20040128130A1 (en) * | 2000-10-02 | 2004-07-01 | Kenneth Rose | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
CN102930870A (zh) * | 2012-09-27 | 2013-02-13 | 福州大学 | 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 |
CN104751845A (zh) * | 2015-03-31 | 2015-07-01 | 江苏久祥汽车电器集团有限公司 | 一种用于智能机器人的声音识别方法及系统 |
CN105185381A (zh) * | 2015-08-26 | 2015-12-23 | 江苏久祥汽车电器集团有限公司 | 智能机器人声音识别系统 |
-
2017
- 2017-11-13 CN CN201711112809.3A patent/CN108022588B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040128130A1 (en) * | 2000-10-02 | 2004-07-01 | Kenneth Rose | Perceptual harmonic cepstral coefficients as the front-end for speech recognition |
US6701291B2 (en) * | 2000-10-13 | 2004-03-02 | Lucent Technologies Inc. | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis |
CN102930870A (zh) * | 2012-09-27 | 2013-02-13 | 福州大学 | 利用抗噪幂归一化倒谱系数的鸟类声音识别方法 |
CN104751845A (zh) * | 2015-03-31 | 2015-07-01 | 江苏久祥汽车电器集团有限公司 | 一种用于智能机器人的声音识别方法及系统 |
CN105185381A (zh) * | 2015-08-26 | 2015-12-23 | 江苏久祥汽车电器集团有限公司 | 智能机器人声音识别系统 |
Non-Patent Citations (4)
Title |
---|
CHANWOO KIM: "Power-normalized cepstral coefficients (PNCC) for robust speech recognition", 《 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
SHANG CAI: "Noise Robust Feature Scheme for Automatic Speech Recognition Based on Auditory Perceptual Mechanisms", 《IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS》 * |
吴华玉: "一种具有鲁棒特性的Mel频率倒谱系数", 《金陵科技学院学报》 * |
岳倩倩: "基于非线性幂函数的听觉特征提取算法研究", 《微电子学与计算机》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986794A (zh) * | 2018-09-19 | 2018-12-11 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
CN108986794B (zh) * | 2018-09-19 | 2023-02-28 | 河海大学 | 一种基于幂函数频率变换的说话人补偿方法 |
CN112002307A (zh) * | 2020-08-31 | 2020-11-27 | 广州市百果园信息技术有限公司 | 一种语音识别方法和装置 |
CN112002307B (zh) * | 2020-08-31 | 2023-11-21 | 广州市百果园信息技术有限公司 | 一种语音识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108022588B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101014997B (zh) | 用于生成用于自动语音识别器的训练数据的方法和系统 | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
CN102483916B (zh) | 声音特征量提取装置和声音特征量提取方法 | |
Mitra et al. | Medium-duration modulation cepstral feature for robust speech recognition | |
Xiao et al. | Normalization of the speech modulation spectra for robust speech recognition | |
CN103310798A (zh) | 降噪方法和装置 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Dev et al. | Robust features for noisy speech recognition using mfcc computation from magnitude spectrum of higher order autocorrelation coefficients | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN106373559A (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN107103913B (zh) | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 | |
CN108022588A (zh) | 一种基于双特征模型的鲁棒语音识别方法 | |
CN110136746B (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
Hung et al. | Robust speech recognition via enhancing the complex-valued acoustic spectrum in modulation domain | |
Gupta et al. | High-accuracy connected digit recognition for mobile applications | |
CN107919115B (zh) | 一种基于非线性谱变换的特征补偿方法 | |
Du et al. | Cepstral shape normalization (CSN) for robust speech recognition | |
Hsieh et al. | Employing median filtering to enhance the complex-valued acoustic spectrograms in modulation domain for noise-robust speech recognition | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Pardede | On noise robust feature for speech recognition based on power function family | |
Marković et al. | Recognition of the Multimodal Speech Based on the GFCC features | |
Jung | Filtering of Filter‐Bank Energies for Robust Speech Recognition | |
Hsieh et al. | Enhancing the complex-valued acoustic spectrograms in modulation domain for creating noise-robust features in speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |