CN112233659A - 一种基于双层声学模型的快速语音识别方法 - Google Patents
一种基于双层声学模型的快速语音识别方法 Download PDFInfo
- Publication number
- CN112233659A CN112233659A CN202011095528.3A CN202011095528A CN112233659A CN 112233659 A CN112233659 A CN 112233659A CN 202011095528 A CN202011095528 A CN 202011095528A CN 112233659 A CN112233659 A CN 112233659A
- Authority
- CN
- China
- Prior art keywords
- class
- syllable
- training
- syllables
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 46
- 239000000203 mixture Substances 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开一种基于双层声学模型的快速语音识别方法,在训练阶段用共振峰聚类方法将语音识别系统的全部音节划分为若干类,为语音识别系统同时配置类声学模型和音节声学模型;在识别阶段,先对测试语音进行类识别,确定其类信息,再根据类信息对测试语音进行类内音节识别。本发明可以减小声学解码的计算量,节省手持设备的电能,延长其电池的使用时间。
Description
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于双层声学模型的快速语音识别方法。
背景技术
在传统的语音识别系统中,需要在训练阶段为语音的每个音节建立声学模型;在识别阶段,用每个音节的声学模型计算当前语音特征参数的概率,并比较概率大小,以概率最大的声学模型对应的音节为识别结果。随着语音识别系统词汇量的增加,识别阶段的运算量也随之增加,这会影响语音识别在手持设备等运算性能较差的设备中的应用。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于低频音节识别的语音增强方法,解决了语音增强后语音音质差的问题。
技术方案:本发明提供一种基于双层声学模型的快速语音识别方法,包括训练阶段和识别阶段,其中,训练阶段包括:
(1)对训练语音文本进行预处理;
(2)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(3)用每一类的所有音节的训练语音进行模型训练,生成类声学模型;
(4)用每个音节的训练语音进行模型训练,生成该音节的声学模型;
识别阶段包括:
(5)对测试语音文本进行预处理;
(6)用类声学模型对当前测试语音的特征向量进行类解码,将其归为某一类语音;
(7)根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
进一步的,包括:
所述步骤(1)中对训练语音文本进行预处理包括加窗,分帧和提取美尔频率倒谱系数,作为语音的特征向量。
设一帧语音信号的幅度谱为X(k),则美尔频率倒谱系数对应向量c的第l个元素可以表示为
其中,N0是帧长;M0是Mel滤波器组中滤波器的个数;Wm(k)是Mel滤波器组中第m个滤波器在频率k处的加权因子;L是MFCC向量c的维数。
进一步的,包括:
所述步骤(2)包括:
首先对每个音节的训练语音提取共振峰,并取平均值,得到该音节的共振峰向量;然后,对全部音节的共振峰向量进行聚类,将N个音节划分为M类,每一类的音节个数分别为N1,N2,…,NM,它们满足:
进一步的,包括:
所述步骤(3)中,对每一类音节,用这些音节的全部训练语音训练生成该类的高斯混合模型,第m类的高斯混合模型的输出概率可以表示为
其中,xt表示第t帧语音的MFCC向量;cmk、μx,mk和Σx,mk分别表示第m类的GMM中第k个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示MFCC向量的维数;Nm表示第m类的GMM的高斯混合数。
进一步的,包括:
所述步骤(4)中,设语音识别系统有N个音节,在训练阶段用每个音节的全部训练语音生成该音节的连续密度隐马尔可夫模型,得到N个连续密度隐马尔可夫模型,这N个连续密度隐马尔可夫模型组成音节模型,用于测试阶段的音节解码,每个连续密度隐马尔可夫模型由6个左右结构的状态组成,每个状态用一个高斯混合数为4的高斯混合模型表示。第n个音节的连续密度隐马尔可夫模型的第i个状态的概率密度函数可以表示为:
其中,xt表示第t帧语音的MFCC向量;cn,im、μn,im和Σn,im分别表示第n个HMM的第i个状态中第m个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示特征向量的维数。
有益效果:本发明与现有技术相比,其显著优点是:本发明用共振峰聚类的方法将语音识别系统的全部音节划分为若干类,用每一类所有音节的训练语音进行模型训练,生成该类的声学模型,在识别过程中,先用类声学模型对输入语音的特征向量进行类解码,得到类信息,再调用该类所有音节的声学模型进行音节解码,得到识别结果。设语音识别系统有N个音节,如果直接进行声学解码,那么就需要运算N次;如果将这N个音节划分为M类,每类有K个音节,那么总共只需要运算(M+K)次。本方法可以减少运算次数,节省系统的电能,延长电池的使用时间。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于双层声学模型的快速语音识别方法,其总体框架如图1所示。在该算法中,将语音识别系统的全部音节划分为若干类,为语音识别系统同时配置类声学模型和音节声学模型;在识别过程中,通过先进行类识别,确定类信息,再进行类内音节识别的方法,减小声学解码的计算量,以实现节省电能,延长电池使用时间的目的。
本发明的具体步骤如下:
(1)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(2)用每一类的所有音节的训练语音进行模型训练,生成该类的声学模型;
(3)用每个音节的训练语音进行模型训练,生成该音节的声学模型(音节模型);
(4)在识别阶段,先用类声学模型对当前语音的特征向量进行类解码,将其归为某一类语音;
(5)然后根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
主要包括特征提取、类解码、模型选择和音节解码模块。下面逐一详细说明附图中各主要模块的具体实施方案。
1、特征提取
对训练语音或测试语音加窗,分帧,提取美尔频率倒谱系数(MFCC:Mel FrequencyCepstral Coefficient),作为语音的特征向量。
设一帧语音信号的幅度谱为X(k),则MFCC向量c的第l个元素可以表示为
其中,N0是帧长;M0是Mel滤波器组中滤波器的个数;Wm(k)是Mel滤波器组中第m个滤波器在频率k处的加权因子;L是MFCC向量c的维数。
2、模型训练
在训练阶段,需要训练生成每个音节的声学模型,并且对系统的全部音节进行聚类,将其划分为若干类,生成每一类的声学模型。在本发明中,用连续密度隐马尔可夫模型(HMM:Hidden Markov Model)作为音节声学模型,即每个音节用一个HMM表示;用高斯混合模型(GMM:Gaussian Mixture Model)作为类声学模型,即每一类音节用一个GMM表示。
设语音识别系统有N个音节,在训练阶段用每个音节的全部训练语音生成该音节的HMM,得到N个HMM,这N个HMM组成音节模型,用于测试阶段的音节解码。每个HMM由6个左右结构的状态组成,每个状态用一个高斯混合数为4的高斯混合模型表示。第n个音节的HMM的第i个状态的概率密度函数可以表示为
其中,xt表示第t帧语音的MFCC向量;cn,im、μn,im和Σn,im分别表示第n个HMM的第i个状态中第m个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示特征向量的维数。
在音节分类中,首先对每个音节的训练语音提取共振峰,并取平均值,得到该音节的共振峰向量;然后,对全部音节的共振峰向量进行聚类,将N个音节划分为M类,每一类的音节个数分别为N1,N2,…,NM,它们满足:
对每一类音节,用这些音节的全部训练语音训练生成该类的GMM。第m类的GMM的输出概率可以表示为
其中,xt表示第t帧语音的MFCC向量;cmk、μx,mk和Σx,mk分别表示第m类的GMM中第k个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示MFCC向量的维数;Nm表示第m类的GMM的高斯混合数。
3、类解码
在识别阶段,用每一类的GMM对当前测试语音的特征向量进行类解码,并比较每一类GMM的输出概率,将当前测试语音归类为输出概率最大的GMM对应的类,得到类信息,即输出概率最大的GMM的类序号。
4、模型选择
根据类解码得到的类信息,类信息为类序号,选择该类所有音节的声学模型(HMM)作为后续音节解码的音节模型,其他类的音节声学模型(HMM)不参与音节解码。这样可以减小音节解码的计算量。
5、音节解码
用模型选择得到的音节模型中的每个音节的HMM对当前测试语音的特征向量计算概率,并以输出概率最大的HMM对应的音节为识别结果。具体的,将特征向量输入HMM,用前向-后向算法或Viterbi算法计算输出概率。
Claims (5)
1.一种基于双层声学模型的快速语音识别方法,其特征在于,包括训练阶段和识别阶段,其中,训练阶段包括:
(1)对训练语音文本进行预处理;
(2)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(3)用每一类的所有音节的训练语音进行模型训练,生成类声学模型;
(4)用每个音节的训练语音进行模型训练,生成该音节的声学模型;
识别阶段包括:
(5)对测试语音文本进行预处理;
(6)用类声学模型对当前测试语音的特征向量进行类解码,将其归为某一类语音;
(7)根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
5.如权利要求3所述的基于双层声学模型的快速语音识别方法,其特征在于,所述步骤(4)中,设语音识别系统有N个音节,在训练阶段用每个音节的全部训练语音生成该音节的连续密度隐马尔可夫模型,得到N个连续密度隐马尔可夫模型,这N个连续密度隐马尔可夫模型组成音节模型,用于测试阶段的音节解码,每个连续密度隐马尔可夫模型由6个左右结构的状态组成,每个状态用一个高斯混合数为4的高斯混合模型表示,第n个音节的连续密度隐马尔可夫模型的第i个状态的概率密度函数可以表示为:
其中,xt表示第t帧语音的MFCC向量;cn,im、μn,im和Σn,im分别表示第n个HMM的第i个状态中第m个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示特征向量的维数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011095528.3A CN112233659A (zh) | 2020-10-14 | 2020-10-14 | 一种基于双层声学模型的快速语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011095528.3A CN112233659A (zh) | 2020-10-14 | 2020-10-14 | 一种基于双层声学模型的快速语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112233659A true CN112233659A (zh) | 2021-01-15 |
Family
ID=74112716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011095528.3A Pending CN112233659A (zh) | 2020-10-14 | 2020-10-14 | 一种基于双层声学模型的快速语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233659A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096650A (zh) * | 2021-03-03 | 2021-07-09 | 河海大学 | 一种基于先验概率的声学解码方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485103A (zh) * | 2014-11-21 | 2015-04-01 | 东南大学 | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
CN104900232A (zh) * | 2015-04-20 | 2015-09-09 | 东南大学 | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
-
2020
- 2020-10-14 CN CN202011095528.3A patent/CN112233659A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104485103A (zh) * | 2014-11-21 | 2015-04-01 | 东南大学 | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 |
CN104485108A (zh) * | 2014-11-26 | 2015-04-01 | 河海大学 | 一种基于多说话人模型的噪声与说话人联合补偿方法 |
CN104900232A (zh) * | 2015-04-20 | 2015-09-09 | 东南大学 | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 |
CN108831445A (zh) * | 2018-05-21 | 2018-11-16 | 四川大学 | 四川方言识别方法、声学模型训练方法、装置及设备 |
CN108877784A (zh) * | 2018-09-05 | 2018-11-23 | 河海大学 | 一种基于口音识别的鲁棒语音识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096650A (zh) * | 2021-03-03 | 2021-07-09 | 河海大学 | 一种基于先验概率的声学解码方法 |
CN113096650B (zh) * | 2021-03-03 | 2023-12-08 | 河海大学 | 一种基于先验概率的声学解码方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7957959B2 (en) | Method and apparatus for processing speech data with classification models | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
Dharanipragada et al. | Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method | |
Kannadaguli et al. | A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker | |
Kannadaguli et al. | A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada | |
Zheng et al. | Text-independent voice conversion using deep neural network based phonetic level features | |
Shah et al. | Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion. | |
CN112233659A (zh) | 一种基于双层声学模型的快速语音识别方法 | |
Toda et al. | Statistical approach to vocal tract transfer function estimation based on factor analyzed trajectory HMM | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
Kannadaguli et al. | Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada | |
Kannadaguli et al. | Phoneme modeling for speech recognition in Kannada using Hidden Markov Model | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
Kannadaguli et al. | A comparison of Bayesian multivariate modeling and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in kannada | |
Ljolje | Speech recognition using fundamental frequency and voicing in acoustic modeling | |
Miguel et al. | Augmented state space acoustic decoding for modeling local variability in speech. | |
Kannadaguli et al. | Comparison of artificial neural network and gaussian mixture model based machine learning techniques using ddmfcc vectors for emotion recognition in kannada | |
Hassan et al. | Local feature or mel frequency cepstral coefficients-which one is better for mln-based bangla speech recognition? | |
Mezghani et al. | Speaker verification using a new representation based on a combination of MFCC and formants | |
Yuliani et al. | Feature transformations for robust speech recognition in reverberant conditions | |
Sai et al. | Enhancing pitch robustness of speech recognition system through spectral smoothing | |
Jia et al. | Training wake word detection with synthesized speech data on confusion words | |
Jalalvand et al. | A classifier combination approach for Farsi accents recognition | |
Sun et al. | Experiments on Chinese speech recognition with tonal models and pitch estimation using the Mandarin speecon data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |