CN112233659A - 一种基于双层声学模型的快速语音识别方法 - Google Patents

一种基于双层声学模型的快速语音识别方法 Download PDF

Info

Publication number
CN112233659A
CN112233659A CN202011095528.3A CN202011095528A CN112233659A CN 112233659 A CN112233659 A CN 112233659A CN 202011095528 A CN202011095528 A CN 202011095528A CN 112233659 A CN112233659 A CN 112233659A
Authority
CN
China
Prior art keywords
class
syllable
training
syllables
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011095528.3A
Other languages
English (en)
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202011095528.3A priority Critical patent/CN112233659A/zh
Publication of CN112233659A publication Critical patent/CN112233659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开一种基于双层声学模型的快速语音识别方法,在训练阶段用共振峰聚类方法将语音识别系统的全部音节划分为若干类,为语音识别系统同时配置类声学模型和音节声学模型;在识别阶段,先对测试语音进行类识别,确定其类信息,再根据类信息对测试语音进行类内音节识别。本发明可以减小声学解码的计算量,节省手持设备的电能,延长其电池的使用时间。

Description

一种基于双层声学模型的快速语音识别方法
技术领域
本发明属于语音识别技术领域,具体涉及到一种基于双层声学模型的快速语音识别方法。
背景技术
在传统的语音识别系统中,需要在训练阶段为语音的每个音节建立声学模型;在识别阶段,用每个音节的声学模型计算当前语音特征参数的概率,并比较概率大小,以概率最大的声学模型对应的音节为识别结果。随着语音识别系统词汇量的增加,识别阶段的运算量也随之增加,这会影响语音识别在手持设备等运算性能较差的设备中的应用。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于低频音节识别的语音增强方法,解决了语音增强后语音音质差的问题。
技术方案:本发明提供一种基于双层声学模型的快速语音识别方法,包括训练阶段和识别阶段,其中,训练阶段包括:
(1)对训练语音文本进行预处理;
(2)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(3)用每一类的所有音节的训练语音进行模型训练,生成类声学模型;
(4)用每个音节的训练语音进行模型训练,生成该音节的声学模型;
识别阶段包括:
(5)对测试语音文本进行预处理;
(6)用类声学模型对当前测试语音的特征向量进行类解码,将其归为某一类语音;
(7)根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
进一步的,包括:
所述步骤(1)中对训练语音文本进行预处理包括加窗,分帧和提取美尔频率倒谱系数,作为语音的特征向量。
设一帧语音信号的幅度谱为X(k),则美尔频率倒谱系数对应向量c的第l个元素可以表示为
Figure BDA0002723619360000021
其中,N0是帧长;M0是Mel滤波器组中滤波器的个数;Wm(k)是Mel滤波器组中第m个滤波器在频率k处的加权因子;L是MFCC向量c的维数。
进一步的,包括:
所述步骤(2)包括:
首先对每个音节的训练语音提取共振峰,并取平均值,得到该音节的共振峰向量;然后,对全部音节的共振峰向量进行聚类,将N个音节划分为M类,每一类的音节个数分别为N1,N2,…,NM,它们满足:
Figure BDA0002723619360000022
进一步的,包括:
所述步骤(3)中,对每一类音节,用这些音节的全部训练语音训练生成该类的高斯混合模型,第m类的高斯混合模型的输出概率可以表示为
Figure BDA0002723619360000023
其中,xt表示第t帧语音的MFCC向量;cmk、μx,mk和Σx,mk分别表示第m类的GMM中第k个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示MFCC向量的维数;Nm表示第m类的GMM的高斯混合数。
进一步的,包括:
所述步骤(4)中,设语音识别系统有N个音节,在训练阶段用每个音节的全部训练语音生成该音节的连续密度隐马尔可夫模型,得到N个连续密度隐马尔可夫模型,这N个连续密度隐马尔可夫模型组成音节模型,用于测试阶段的音节解码,每个连续密度隐马尔可夫模型由6个左右结构的状态组成,每个状态用一个高斯混合数为4的高斯混合模型表示。第n个音节的连续密度隐马尔可夫模型的第i个状态的概率密度函数可以表示为:
Figure BDA0002723619360000031
其中,xt表示第t帧语音的MFCC向量;cn,im、μn,im和Σn,im分别表示第n个HMM的第i个状态中第m个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示特征向量的维数。
有益效果:本发明与现有技术相比,其显著优点是:本发明用共振峰聚类的方法将语音识别系统的全部音节划分为若干类,用每一类所有音节的训练语音进行模型训练,生成该类的声学模型,在识别过程中,先用类声学模型对输入语音的特征向量进行类解码,得到类信息,再调用该类所有音节的声学模型进行音节解码,得到识别结果。设语音识别系统有N个音节,如果直接进行声学解码,那么就需要运算N次;如果将这N个音节划分为M类,每类有K个音节,那么总共只需要运算(M+K)次。本方法可以减少运算次数,节省系统的电能,延长电池的使用时间。
附图说明
图1为本发明所述的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明设计了一种基于双层声学模型的快速语音识别方法,其总体框架如图1所示。在该算法中,将语音识别系统的全部音节划分为若干类,为语音识别系统同时配置类声学模型和音节声学模型;在识别过程中,通过先进行类识别,确定类信息,再进行类内音节识别的方法,减小声学解码的计算量,以实现节省电能,延长电池使用时间的目的。
本发明的具体步骤如下:
(1)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(2)用每一类的所有音节的训练语音进行模型训练,生成该类的声学模型;
(3)用每个音节的训练语音进行模型训练,生成该音节的声学模型(音节模型);
(4)在识别阶段,先用类声学模型对当前语音的特征向量进行类解码,将其归为某一类语音;
(5)然后根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
主要包括特征提取、类解码、模型选择和音节解码模块。下面逐一详细说明附图中各主要模块的具体实施方案。
1、特征提取
对训练语音或测试语音加窗,分帧,提取美尔频率倒谱系数(MFCC:Mel FrequencyCepstral Coefficient),作为语音的特征向量。
设一帧语音信号的幅度谱为X(k),则MFCC向量c的第l个元素可以表示为
Figure BDA0002723619360000041
其中,N0是帧长;M0是Mel滤波器组中滤波器的个数;Wm(k)是Mel滤波器组中第m个滤波器在频率k处的加权因子;L是MFCC向量c的维数。
2、模型训练
在训练阶段,需要训练生成每个音节的声学模型,并且对系统的全部音节进行聚类,将其划分为若干类,生成每一类的声学模型。在本发明中,用连续密度隐马尔可夫模型(HMM:Hidden Markov Model)作为音节声学模型,即每个音节用一个HMM表示;用高斯混合模型(GMM:Gaussian Mixture Model)作为类声学模型,即每一类音节用一个GMM表示。
设语音识别系统有N个音节,在训练阶段用每个音节的全部训练语音生成该音节的HMM,得到N个HMM,这N个HMM组成音节模型,用于测试阶段的音节解码。每个HMM由6个左右结构的状态组成,每个状态用一个高斯混合数为4的高斯混合模型表示。第n个音节的HMM的第i个状态的概率密度函数可以表示为
Figure BDA0002723619360000042
其中,xt表示第t帧语音的MFCC向量;cn,im、μn,im和Σn,im分别表示第n个HMM的第i个状态中第m个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示特征向量的维数。
在音节分类中,首先对每个音节的训练语音提取共振峰,并取平均值,得到该音节的共振峰向量;然后,对全部音节的共振峰向量进行聚类,将N个音节划分为M类,每一类的音节个数分别为N1,N2,…,NM,它们满足:
Figure BDA0002723619360000051
对每一类音节,用这些音节的全部训练语音训练生成该类的GMM。第m类的GMM的输出概率可以表示为
Figure BDA0002723619360000052
其中,xt表示第t帧语音的MFCC向量;cmk、μx,mk和Σx,mk分别表示第m类的GMM中第k个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示MFCC向量的维数;Nm表示第m类的GMM的高斯混合数。
3、类解码
在识别阶段,用每一类的GMM对当前测试语音的特征向量进行类解码,并比较每一类GMM的输出概率,将当前测试语音归类为输出概率最大的GMM对应的类,得到类信息,即输出概率最大的GMM的类序号。
4、模型选择
根据类解码得到的类信息,类信息为类序号,选择该类所有音节的声学模型(HMM)作为后续音节解码的音节模型,其他类的音节声学模型(HMM)不参与音节解码。这样可以减小音节解码的计算量。
5、音节解码
用模型选择得到的音节模型中的每个音节的HMM对当前测试语音的特征向量计算概率,并以输出概率最大的HMM对应的音节为识别结果。具体的,将特征向量输入HMM,用前向-后向算法或Viterbi算法计算输出概率。

Claims (5)

1.一种基于双层声学模型的快速语音识别方法,其特征在于,包括训练阶段和识别阶段,其中,训练阶段包括:
(1)对训练语音文本进行预处理;
(2)用共振峰聚类的方法将语音识别系统的全部音节划分为若干类;
(3)用每一类的所有音节的训练语音进行模型训练,生成类声学模型;
(4)用每个音节的训练语音进行模型训练,生成该音节的声学模型;
识别阶段包括:
(5)对测试语音文本进行预处理;
(6)用类声学模型对当前测试语音的特征向量进行类解码,将其归为某一类语音;
(7)根据类解码得到的类信息,调用该类所有音节的声学模型,对当前语音的特征向量进行音节解码,得到识别结果。
2.如权利要求1所述的基于双层声学模型的快速语音识别方法,其特征在于,所述步骤(1)中对训练语音文本进行预处理包括加窗,分帧和提取美尔频率倒谱系数,作为语音的特征向量。
设一帧语音信号的幅度谱为X(k),则美尔频率倒谱系数对应向量c的第l个元素可以表示为
Figure FDA0002723619350000011
其中,N0是帧长;M0是Mel滤波器组中滤波器的个数;Wm(k)是Mel滤波器组中第m个滤波器在频率k处的加权因子;L是MFCC向量c的维数。
3.如权利要求1所述的基于双层声学模型的快速语音识别方法,其特征在于,所述步骤(2)包括:
首先对每个音节的训练语音提取共振峰,并取平均值,得到该音节的共振峰向量;然后,对全部音节的共振峰向量进行聚类,将N个音节划分为M类,每一类的音节个数分别为N1,N2,…,NM,它们满足:
Figure FDA0002723619350000012
4.如权利要求3所述的基于双层声学模型的快速语音识别方法,其特征在于,所述步骤(3)中,对每一类音节,用这些音节的全部训练语音训练生成该类的高斯混合模型,第m类的高斯混合模型的输出概率可以表示为
Figure FDA0002723619350000021
其中,xt表示第t帧语音的MFCC向量;cmk、μx,mk和Σx,mk分别表示第m类的GMM中第k个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示MFCC向量的维数;Nm表示第m类的GMM的高斯混合数。
5.如权利要求3所述的基于双层声学模型的快速语音识别方法,其特征在于,所述步骤(4)中,设语音识别系统有N个音节,在训练阶段用每个音节的全部训练语音生成该音节的连续密度隐马尔可夫模型,得到N个连续密度隐马尔可夫模型,这N个连续密度隐马尔可夫模型组成音节模型,用于测试阶段的音节解码,每个连续密度隐马尔可夫模型由6个左右结构的状态组成,每个状态用一个高斯混合数为4的高斯混合模型表示,第n个音节的连续密度隐马尔可夫模型的第i个状态的概率密度函数可以表示为:
Figure FDA0002723619350000022
其中,xt表示第t帧语音的MFCC向量;cn,im、μn,im和Σn,im分别表示第n个HMM的第i个状态中第m个高斯混合单元的混合系数、均值向量和协方差矩阵;D表示特征向量的维数。
CN202011095528.3A 2020-10-14 2020-10-14 一种基于双层声学模型的快速语音识别方法 Pending CN112233659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011095528.3A CN112233659A (zh) 2020-10-14 2020-10-14 一种基于双层声学模型的快速语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011095528.3A CN112233659A (zh) 2020-10-14 2020-10-14 一种基于双层声学模型的快速语音识别方法

Publications (1)

Publication Number Publication Date
CN112233659A true CN112233659A (zh) 2021-01-15

Family

ID=74112716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011095528.3A Pending CN112233659A (zh) 2020-10-14 2020-10-14 一种基于双层声学模型的快速语音识别方法

Country Status (1)

Country Link
CN (1) CN112233659A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096650A (zh) * 2021-03-03 2021-07-09 河海大学 一种基于先验概率的声学解码方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485103A (zh) * 2014-11-21 2015-04-01 东南大学 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN108831445A (zh) * 2018-05-21 2018-11-16 四川大学 四川方言识别方法、声学模型训练方法、装置及设备
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104485103A (zh) * 2014-11-21 2015-04-01 东南大学 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
CN104900232A (zh) * 2015-04-20 2015-09-09 东南大学 一种基于双层gmm结构和vts特征补偿的孤立词识别方法
CN108831445A (zh) * 2018-05-21 2018-11-16 四川大学 四川方言识别方法、声学模型训练方法、装置及设备
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096650A (zh) * 2021-03-03 2021-07-09 河海大学 一种基于先验概率的声学解码方法
CN113096650B (zh) * 2021-03-03 2023-12-08 河海大学 一种基于先验概率的声学解码方法

Similar Documents

Publication Publication Date Title
US7957959B2 (en) Method and apparatus for processing speech data with classification models
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
Dharanipragada et al. Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method
Kannadaguli et al. A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker
Kannadaguli et al. A comparison of Gaussian mixture modeling (GMM) and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in Kannada
Zheng et al. Text-independent voice conversion using deep neural network based phonetic level features
Shah et al. Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion.
CN112233659A (zh) 一种基于双层声学模型的快速语音识别方法
Toda et al. Statistical approach to vocal tract transfer function estimation based on factor analyzed trajectory HMM
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Kannadaguli et al. Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
Kannadaguli et al. A comparison of Bayesian multivariate modeling and hidden Markov modeling (HMM) based approaches for automatic phoneme recognition in kannada
Ljolje Speech recognition using fundamental frequency and voicing in acoustic modeling
Miguel et al. Augmented state space acoustic decoding for modeling local variability in speech.
Kannadaguli et al. Comparison of artificial neural network and gaussian mixture model based machine learning techniques using ddmfcc vectors for emotion recognition in kannada
Hassan et al. Local feature or mel frequency cepstral coefficients-which one is better for mln-based bangla speech recognition?
Mezghani et al. Speaker verification using a new representation based on a combination of MFCC and formants
Yuliani et al. Feature transformations for robust speech recognition in reverberant conditions
Sai et al. Enhancing pitch robustness of speech recognition system through spectral smoothing
Jia et al. Training wake word detection with synthesized speech data on confusion words
Jalalvand et al. A classifier combination approach for Farsi accents recognition
Sun et al. Experiments on Chinese speech recognition with tonal models and pitch estimation using the Mandarin speecon data.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination