CN103021407A - 一种黏着语语音识别方法及系统 - Google Patents

一种黏着语语音识别方法及系统 Download PDF

Info

Publication number
CN103021407A
CN103021407A CN2012105516760A CN201210551676A CN103021407A CN 103021407 A CN103021407 A CN 103021407A CN 2012105516760 A CN2012105516760 A CN 2012105516760A CN 201210551676 A CN201210551676 A CN 201210551676A CN 103021407 A CN103021407 A CN 103021407A
Authority
CN
China
Prior art keywords
feature
long
korean
agglutinative language
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105516760A
Other languages
English (en)
Other versions
CN103021407B (zh
Inventor
颜永红
徐及
潘接林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201210551676.0A priority Critical patent/CN103021407B/zh
Publication of CN103021407A publication Critical patent/CN103021407A/zh
Application granted granted Critical
Publication of CN103021407B publication Critical patent/CN103021407B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例涉及韩语语音识别方法及系统。所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。

Description

一种黏着语语音识别方法及系统
技术领域
本发明涉及语音识别领域,尤其涉及一种黏着语语音识别方法及系统。
背景技术
黏着语,主要依靠词尾的变化来表现其文法关系,其典型特征是语言中的词级单元是由大量词素连接而构成的。相较于隶属于分析语的汉语,黏着特性给语音识别带来许多新的挑战,使其在传统语音识别框架下的性能受到大幅影响。在这些新的挑战中,比较重要的可以归纳为以下两点:第一个是在语言模型建模方面,韩语自然语言单元字和词等由空格分隔的语言单元均不适宜作为语言模型建模单元;第二个是在声学模型建模方面,黏着特性导致的严重协同发音使声学模型的混淆度大幅提升。
在以上两个挑战中,第一个挑战在近年来已得到较为广泛的研究,很多研究者使用基于统计或规则的方法生成一种介于字和词之间的新单元作为语言模型建模单元,称之为词片。第二个挑战目前仍没有有效解决方案,有研究者试图在短时特征下通过引入同位音素的概念来削弱声学模型的混淆程度,但实验证明这一方法尽管在基本的单因子建模单元上效果明显,但在常规语音识别系统所使用的三因子建模单元上效果并不理想。
发明内容
针对上述问题,本发明实施例提出一种黏着语语音识别方法、系统。
在第一方面,本发明实施例提出一种黏着语语音识别方法,所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。
优选地,所述黏着语是韩语或维吾尔语。
优选地,所述长时特征将辅音根据其所在位置分解为同位音素。
优选地,所述扩展音素集包含66个韩语音素,其中首辅音18个,元音21个,尾辅音27个。
在第二方面,本发明实施例提出一种黏着语语音识别系统,所述系统包括:语音长时特征提取模块,用于提取语音长时特征;后验概率计算模块,用于对所述长时特征计算扩展音素集后验概率;多层感知特征获取模块,用于对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;识别模块,用于将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。
优选地,所述黏着语是韩语或维吾尔语。
优选地,所述长时特征将辅音根据其所在位置分解为同位音素。
优选地,所述扩展音素集包含66个韩语音素,其中首辅音18个,元音21个,尾辅音27个。
本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
附图说明
图1是本发明实施例黏着语语音识别系统示意图;
图2是本发明实施例的韩语扩展音素集示意图;
图3是本发明实施例的黏着语语音识别方法流程示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明实施例致力于解决黏着语语音识别在声学模型建模中所遇到的问题。所述黏着语包括韩语和维吾尔语。为方便叙述,下面以韩语为例进行说明。通过采取精细化的语音分析方法发掘音素中的差异,对语音识别系统中原本被认为发音一致的韩语音素进行区分,降低声学模型混淆程度,从而改善系统整体性能。
在韩语语音识别系统中,引起声学模型高混淆度的主要原因是协同发音。鉴于人类的协同发音通常影响数百毫秒语音,因此传统语音识别系统通常使用的短时特征(如Mel Freq uency Cepstru m Coefficient,M FCC和PerceptualLinear Prediction,PLP)难以对其进行有效分析。本发明实施例将长时特征应用到韩语语音识别系统,利用长时特征的高区分度对韩语音素集进行细化分类。新扩展音素集在原音素集基础上将辅音根据所在位置分解为同位音素,而元音部分保持不变。
图1是本发明实施例黏着语语音识别系统示意图。如图1所示,所述系统包括:语音长时特征提取模块100,用于提取语音长时特征;后验概率计算模块102,用于对所述长时特征计算扩展音素集后验概率;多层感知特征获取模块104,用于对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;识别模块106,用于将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。优选地,所述黏着语是韩语或维吾尔语。优选地,所述长时特征将辅音根据其所在位置分解为同位音素。优选地,所述扩展音素集包含66个韩语音素,其中首辅音18个,元音21个,尾辅音27个。所述的扩展音素集如图2所示。尾辅音中除“o”外均属于首辅音的同位音素,这些音素虽在韩语文字中有固定的书写形式但因传统意义上发音相同通常不出现于韩语语音识别音素集中。
本发明实施例中通过长时特征提供的协同发音信息进行辅助,获得较好的区分性。
所述韩语语音识别系统的主体框架沿用经典的Gaussian Mixture Model与Hidden Markov Model(GMM-HMM)相结合的框架。GMM-HMM模型在工作时需要借助词片级语言模型以及基于扩展音素集的声学模型。即声学模型所用音素集采用扩展音素集;语言模型采用词片级语言模型,分词方法为基于Bayesian Dirichlet Process(BDP)的方法。此外,本系统将基于长时特征的Multi-Layer Perception(MLP)特征作为语音特征输入GMM-HMM框架。MLP特征由扩展音素集后验概率通过主成分分析降维得到,后验概率则由长时特征经神经网络处理后得到。
本发明较传统韩语语音识别系统在性能上有大幅提升。在训练数据集相同的情况下,更丰富的信息可以被收集用于建立模型,从而令识别结果更加准确。
所述模型训练流程如下:
提取训练集语音信号的帧级filterbank能带特征。
将当前帧与左右各15帧(共计31帧)能带特征进行串接,形成长时特征。
根据长时特征和语音标注训练神经网络分类器,分类目标为扩展音素集所属音素。
将训练集数据通过训练完成的神经网络,计算神经网络输出,即扩展音素集后验概率。
对扩展音素集后验概率进行主成分分析降维处理,得到基于长时特征的MLP特征。特征维数与传统短时特征的常见维数保持一致,为39维。
使用训练集的MLP特征完成GMM-HMM框架声学模型训练,训练时所用音素集为扩展音素集。
采用BDP方法进行分词,以分词后所得词片作为语言模型建模单元,完成GMM-HMM框架语言模型训练。该步骤独立于以上其他训练步骤。
所述语音识别流程如下:
提取测试集长时特征,步骤同训练流程。
将长时特征送入预先训练好的神经网络分类器,计算扩展音素集后验概率。
对扩展音素集后验概率进行PCA降维处理,得到基于长时特征的MLP特征。
将经上述步骤获得的基于长时特征的MLP特征作为语音特征输入GMM-HMM语音识别框架,计算识别结果。识别中所使用声学模型和语言模型由训练步骤产生。
本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
图3是本发明实施例的黏着语语音识别方法流程示意图。如图3所示,所述方法包括:提取语音长时特征;对所述长时特征计算扩展音素集后验概率;对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。
所述将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,亦可简称为将所述MLP特征进行高斯混合-隐形马尔可夫模型GMM-HMM语音识别。
优选地,所述黏着语是韩语或维吾尔语。
优选地,所述长时特征将辅音根据其所在位置分解为同位音素。
优选地,所述扩展音素集包含66个韩语音素,其中首辅音18个,元音21个,尾辅音27个。
本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了语音识别的效果。
本领域技术人员应该进一步意识到,结合本文中所公开的实施例描述的各示例模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
需要指出的是,以上仅为本发明较佳实施例,并非用来限定本发明的实施范围,具有专业知识基础的技术人员可以由以上实施实例实现本发明,因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进,都被本发明的专利范围所覆盖。即,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种黏着语语音识别方法,其特征在于,所述方法包括:
提取语音长时特征;
对所述长时特征计算扩展音素集后验概率;
对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征
的多层感知MLP特征;
将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架
的语音识别,得到识别结果。
2.如权利要求1所述的黏着语语音识别方法,其特征在于:所述黏着语是韩语或维吾尔语。
3.如权利要求1所述的黏着语语音识别方法,其特征在于:所述长时特征将辅音根据其所在位置分解为同位音素。
4.如权利要求2所述的黏着语语音识别方法,其特征在于:所述黏着语是韩语,所述扩展音素集包含66个韩语音素,其中首辅音18个,元音21个,尾辅音27个。
5.一种黏着语语音识别系统,其特征在于,所述系统包括:
语音长时特征提取模块,用于提取语音长时特征;
后验概率计算模块,用于对所述长时特征计算扩展音素集后验概率;
多层感知特征获取模块,用于对所述后验概率进行主成分分析PCA降维处理,得到基于所述长时特征的多层感知MLP特征;
识别模块,用于将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别,得到识别结果。
6.如权利要求5所述的黏着语语音识别系统,其特征在于:所述黏着语是韩语或维吾尔语。
7.如权利要求5所述的黏着语语音识别系统,其特征在于:所述长时特征将辅音根据其所在位置分解为同位音素。
8.如权利要求6所述的黏着语语音识别系统,其特征在于:所述黏着语是韩语,所述扩展音素集包含66个韩语音素,其中首辅音18个,元音21个,尾辅音27个。
CN201210551676.0A 2012-12-18 2012-12-18 一种黏着语语音识别方法及系统 Expired - Fee Related CN103021407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210551676.0A CN103021407B (zh) 2012-12-18 2012-12-18 一种黏着语语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210551676.0A CN103021407B (zh) 2012-12-18 2012-12-18 一种黏着语语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN103021407A true CN103021407A (zh) 2013-04-03
CN103021407B CN103021407B (zh) 2015-07-08

Family

ID=47969939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210551676.0A Expired - Fee Related CN103021407B (zh) 2012-12-18 2012-12-18 一种黏着语语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN103021407B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN105336323A (zh) * 2015-10-14 2016-02-17 清华大学 维语语音识别方法和装置
CN105551483A (zh) * 2015-12-11 2016-05-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106250814A (zh) * 2016-07-15 2016-12-21 中国民航大学 一种基于超球粒化商空间模型的手指静脉图像识别方法
CN106297769A (zh) * 2015-05-27 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于语种识别的鉴别性特征提取方法
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504741B (zh) * 2016-09-18 2019-10-25 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于深度神经网络音素信息的语音转换方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010086492A (ko) * 2000-03-02 2001-09-13 윤장진 음성 인식기의 단어 모델 생성 방법
WO2007129802A1 (en) * 2006-05-10 2007-11-15 Kt Corporation Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法
US20080243478A1 (en) * 2007-03-28 2008-10-02 Daniel Cohen Efficient Implementation of Morphology for Agglutinative Languages

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010086492A (ko) * 2000-03-02 2001-09-13 윤장진 음성 인식기의 단어 모델 생성 방법
WO2007129802A1 (en) * 2006-05-10 2007-11-15 Kt Corporation Method for selecting training data based on non-uniform sampling for speech recognition vector quantization
US20080243478A1 (en) * 2007-03-28 2008-10-02 Daniel Cohen Efficient Implementation of Morphology for Agglutinative Languages
CN101256768A (zh) * 2008-04-03 2008-09-03 清华大学 用于语种识别的时频二维倒谱特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨雅婷等: "维吾尔语语音识别中发音变异现象", 《清华大学学报(自然科学版)》, vol. 51, no. 9, 30 September 2011 (2011-09-30) *
许友亮等: "基于长时性特征的音位属性检测方法", 《计算机工程》, vol. 38, no. 11, 30 June 2012 (2012-06-30) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN104575497B (zh) * 2013-10-28 2017-10-03 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN106297769B (zh) * 2015-05-27 2019-07-09 国家计算机网络与信息安全管理中心 一种应用于语种识别的鉴别性特征提取方法
CN106297769A (zh) * 2015-05-27 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于语种识别的鉴别性特征提取方法
CN105336323B (zh) * 2015-10-14 2018-12-28 清华大学 维语语音识别方法和装置
CN105336323A (zh) * 2015-10-14 2016-02-17 清华大学 维语语音识别方法和装置
CN105551483A (zh) * 2015-12-11 2016-05-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置
CN105957518A (zh) * 2016-06-16 2016-09-21 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN105957518B (zh) * 2016-06-16 2019-05-31 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106250814B (zh) * 2016-07-15 2019-03-19 中国民航大学 一种基于超球粒化商空间模型的手指静脉图像识别方法
CN106250814A (zh) * 2016-07-15 2016-12-21 中国民航大学 一种基于超球粒化商空间模型的手指静脉图像识别方法
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN112632977B (zh) * 2020-12-23 2023-06-06 昆明学院 一种彝语语音数据自动标注方法

Also Published As

Publication number Publication date
CN103021407B (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN103021407B (zh) 一种黏着语语音识别方法及系统
JP6198872B2 (ja) 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
US20150134332A1 (en) Speech recognition method and device
Yu et al. Word-level emphasis modelling in HMM-based speech synthesis
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
US20120078625A1 (en) Waveform analysis of speech
CN107093422A (zh) 一种语音识别方法和语音识别系统
Koolagudi et al. Real life emotion classification using VOP and pitch based spectral features
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
Urbain et al. Automatic phonetic transcription of laughter and its application to laughter synthesis
Chen et al. Vowel nasalization in American English: acoustic variability due to phonetic context
Ludusan et al. Automatic syllable segmentation using broad phonetic class information
Lekshmi et al. An acoustic model and linguistic analysis for Malayalam disyllabic words: a low resource language
Tong et al. Tokenizing fundamental frequency variation for mandarin tone error detection
Kane et al. Phonetic feature extraction for context-sensitive glottal source processing
Ma et al. Statistical formant descriptors with linear predictive coefficients for accent classification
Vasilescu et al. Large scale data based linguistic investigations using speech technology tools: The case of Romanian
Chang et al. Chinese dialect identification using segmental and prosodic features
Beke et al. Automatic phrase segmentation and clustering in spontaneous speech
Tripathi et al. Robust vowel region detection method for multimode speech
Prasad et al. Identification of F1 and F2 in Speech Using Modified Zero Frequency Filtering.
Yin et al. Voiced/unvoiced pattern-based duration modeling for language identification
Sinha et al. Spectral and prosodic features-based speech pattern classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150708

CF01 Termination of patent right due to non-payment of annual fee