CN104575497B - 一种声学模型建立方法及基于该模型的语音解码方法 - Google Patents

一种声学模型建立方法及基于该模型的语音解码方法 Download PDF

Info

Publication number
CN104575497B
CN104575497B CN201310517149.2A CN201310517149A CN104575497B CN 104575497 B CN104575497 B CN 104575497B CN 201310517149 A CN201310517149 A CN 201310517149A CN 104575497 B CN104575497 B CN 104575497B
Authority
CN
China
Prior art keywords
phoneme
decision tree
position phoneme
same position
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310517149.2A
Other languages
English (en)
Other versions
CN104575497A (zh
Inventor
颜永红
徐及
潘接林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201310517149.2A priority Critical patent/CN104575497B/zh
Publication of CN104575497A publication Critical patent/CN104575497A/zh
Application granted granted Critical
Publication of CN104575497B publication Critical patent/CN104575497B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种声学模型建立方法及基于该模型的语音解码方法,所述方法包含:步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。

Description

一种声学模型建立方法及基于该模型的语音解码方法
技术领域
本发明涉及语音识别领域,主要针对黏着语语音识别系统。
背景技术
在语言形态学中,根据语言是否需要依靠词尾的变化来表现其文法关系分为分析语和综合语,其中需要依靠词尾的变化表现其文法关系的综合语又可根据变化程度(屈折度)再次分类。黏着语是综合语的一种,属于屈折度较高的综合语,其词级单元通常由大量词素连接构成,称为黏着特性。由于语音识别系统在设计之初所针对的语种主要是分析语和准分析语,例如汉语和英语,因此黏着特性的出现为传统语音识别系统带来的许多新的问题,使其需要进一步完善和改良。
黏着特性所带来的问题主要可以归纳为两个方面。第一是在语言模型方面,黏着语缺乏自然的语言模型基本建模单元。分析语通常以词作为语言模型基本建模单元,因为词级单元能够比较多的包含语言层知识且数量相对有限。而黏着语中的词级单元由于黏着特性的存在而数量剧增,常用词语数量已远超字典可以容纳的尺寸,故不宜作为语言模型基本建模单元;同时次级自然语言单元音素(或字,视语言不同次级单元有所差异)亦不适宜作为语言模型基本建模单元,因为黏着特性会加剧该级单元的短视现象。第二是在声学模型方面,黏着语中音素的黏着会导致协同发音现象大量发生,即同一音素根据所处位置不同会具有多种不同的发音。在这种情况下,传统针对分析语设计的声学模型构建方式会导致声学模型性的不确定性升高(即高混淆度),进而导致语音识别系统性能整体下滑。
围绕以上两点问题,近年来研究者们进行过许多研究。其中第一点问题目前已找到较为恰当的解决方式,研究者使用基于统计或规则的方法生成一种新单元词片作为语言模型建模单元。词片单元介于词和音素(字)之间,能够较多的包含语言层知识,而数量又相对有限。但第二点问题目前尚未找到有效的解决方案,是困扰黏着语语音识别的难点之一。
发明内容
本发明的目的在于,为克服上述问题,本发明提供一种声学模型建立方法及基于该模型的语音解码方法。
为实现上述目的,本发明提供了一种声学模型建立方法,所述方法包含:
步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;
步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;
步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;
步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型。
上述步骤101)进一步包含:
步骤101-1)从语音训练数据中提取语音特征;
步骤101-2)使用期望最大化算法计算基础音素集的三因子高斯混合模型的统计量。
上述步骤102)进一步包含:
步骤102-1)采用自聚类方法根据统计量自动生成决策树问题集;
步骤102-2)根据决策树问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类,每个子类称为一个同位音素;
其中,子类数量根据所设定的门限进行控制。
上述步骤103)进一步包含:
步骤103-1)将基础音素集与分离出的同位音素合并作为音素集;
步骤103-2)通过决策树过程对原始语音标注进行处理,根据上下文关系将标注的中的基础音素全部转化为同位音素,处理后的语音标注称为含同位音素的语音标注。
步骤104)所述声学模型训练方法包含:期望最大化算法或深度神经网络算法。
此外,本发明还提供了一种语音解码方法,该方法用于将输入的语音信息解码为文字信息且该方法基于权利要求1得到的同位音素分离结果与声学模型,所述方法具体为:
步骤201)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;
步骤202)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;
步骤203)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;
步骤204)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型;
步骤205)基于同位音素分离结果对原始发音字典进行处理,将发音字典中上下文关系符合同位音素决策条件的音素转化为同位音素,处理后的发音字典称为含同位音素的发音字典;
步骤206)依据声学模型、语言模型和含同位音素的发音字典,对输入的语音信息进行解码,输出含同位音素的解码结果;
步骤207)利用含同位音素的发音字典将解码结果还原为文字信息,完成语音解码。
总之,本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。在对目标语种各基础音素的统计量进行计算后,通过决策树系统将高混淆度的基础音素分解为若干易于区分的同位音素,大幅降低声学模型混淆程度,从而改善系统整体性能。本算法完全基于统计进行,不需要目标语种额外的语言学知识。
与现有技术相比,本发明的技术优势在于:
本发明所述方法可以有效降低黏着语声学模型混淆度,从而大幅提升语音识别系统的整体性能。本发明亦不需要语言学知识支持,可以在缺乏语言学知识的情况下有效推广至各类黏着语语音识别系统。
附图说明
图1是本发明所述的黏着语语音识别同位音素分离算法框图。
具体实施方式
下面结合附图和实施例对本发明所述方法进行详细说明。
本发明所述的黏着语语音识别同位音素分离算法框图如图1所示。算法首先根据训练数据和采用基础音素的训练标注计算基础音素三因子(Triphone)高斯混合模型(Gaussian Mixture Model,GMM)统计量,该统计量对每个基础音素三因子在特征空间中的分布进行估计。同位音素分离过程是对相同中心因子的三因子高斯混合模型进行分割聚类的过程,分割手段在本算法中采用决策树。一般情况下,决策树过程所需的问题集会由专家知识所产生,但鉴于这种方式对语言学知识的依赖性较大,会严重限制算法的适用范围,因此本算法采用自聚类方法根据统计量自动生成决策树问题集。决策树过程根据问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类,子类数量可以根据所设定的门限进行控制。由于每个子类都具有相同的中心因子,因此称其为该中心因子(音素)的同位音素。同一基础音素的各同位音素间的差别在于三因子中的左右因子,即同位音素在语句中所处的上下文环境不同。
同位音素分离完成后,根据上下文关系将标注的中的基础音素全部转化为同位音素,并根据该标注训练声学模型。该声学模型与传统使用基础音素集的声学模型相比,将对细化后的同位音素单独建立模型,因此所建立的模型更加精确。
本发明较传统黏着语语音识别系统在性能上有大幅提升。在训练数据集相同的情况下,同位音素的使用可以大幅降低黏着特性所带来的高声学模型的混淆度,从而令识别结果更加准确。
具体实施方案:
1.计算目标语种基础音素的三因子高斯混合模型统计量。
2.采用自聚类方法根据统计量计算决策树问题集。
3.使用决策树进行同位音素分离,分离音素数量可通过决策树门限控制。
4.根据同位音素分离结果,更新音素集、标注以及字典。
5.使用新的标注训练声学模型,该声学模型使用包含同位音素的新音素集。
6.使用新声学模型和包含同位音素的字典取代仅使用基础音素的声学模型和字典进行解码。
总之,本发明将黏着语音素进行细化分解的语音识别系统框架,令黏着语语音识别系统的整体性能获得提升。该框架的原始输入和最终输出与常规语音识别系统框架在形式上相同,但在模型训练和语音解码两大模块均有改进。
实施例
本发明实施例利用同位音素分离方法对韩语音素集进行细化分类,其步骤包括:从韩语训练数据中提取语音特征;计算韩语包含40音素的基础音素集的三因子高斯混合模型统计量;采用自聚类方法根据统计量计算决策树问题集;使用决策树进行同位音素分离,分离同位音素数量为30;根据同位音素分离结果,更新音素集、标注以及字典;使用含同位音素的标注训练声学模型,该声学模型使用包含70音素的新音素集;使用新声学模型和包含同位音素的字典取代仅使用基础音素的声学模型和字典进行解码。
本发明实施例利用同位音素分离方法对韩语音素集进行细化分类,有效降低声学模型的混淆程度,提高了韩语语音识别系统的性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种声学模型建立方法,所述方法包含:
步骤101)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;
步骤102)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;
步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;
步骤104)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型;
所述步骤102)进一步包含:
步骤102-1)采用自聚类方法根据统计量自动生成决策树问题集;
步骤102-2)根据决策树问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类,每个子类称为一个同位音素;
其中,子类数量根据所设定的门限进行控制。
2.根据权利要求1所述的声学模型建立方法,其特征在于,所述步骤101)进一步包含:
步骤101-1)从语音训练数据中提取语音特征;
步骤101-2)使用期望最大化算法计算基础音素集的三因子高斯混合模型的统计量。
3.根据权利要求1所述的声学模型建立方法,其特征在于,所述步骤103)进一步包含:
步骤103-1)将基础音素集与分离出的同位音素合并作为音素集;
步骤103-2)通过决策树过程对原始语音标注进行处理,根据上下文关系将标注的中的基础音素全部转化为同位音素,处理后的语音标注称为含同位音素的语音标注。
4.根据权利要求1所述的声学模型建立方法,其特征在于,步骤104)所述声学模型训练方法包含:期望最大化算法或深度神经网络算法。
5.一种语音解码方法,该方法用于将输入的语音信息解码为文字信息且该方法基于权利要求1得到的同位音素分离结果与声学模型,所述方法具体为:
步骤201)基于训练数据,计算声学模型所需的三因子高斯混合模型的统计量;
步骤202)采用自聚类方法根据统计量计算决策树问题集,基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类,进而得到同位音素;
步骤203)将基础音素集与所述同位音素合并作为含同位音素的音素集,并通过决策树过程对原始语音标注进行处理,处理后的语音标注称为含同位音素的语音标注;
步骤204)基于含同位音素的音素集和语音标注,采用声学模型训练方法进行声学模型训练,生成含同位音素的声学模型;
步骤205)基于同位音素分离结果对原始发音字典进行处理,将发音字典中上下文关系符合同位音素决策条件的音素转化为同位音素,处理后的发音字典称为含同位音素的发音字典;
步骤206)依据声学模型、语言模型和含同位音素的发音字典,对输入的语音信息进行解码,输出含同位音素的解码结果;
步骤207)利用含同位音素的发音字典将解码结果还原为文字信息,完成语音解码。
CN201310517149.2A 2013-10-28 2013-10-28 一种声学模型建立方法及基于该模型的语音解码方法 Expired - Fee Related CN104575497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310517149.2A CN104575497B (zh) 2013-10-28 2013-10-28 一种声学模型建立方法及基于该模型的语音解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310517149.2A CN104575497B (zh) 2013-10-28 2013-10-28 一种声学模型建立方法及基于该模型的语音解码方法

Publications (2)

Publication Number Publication Date
CN104575497A CN104575497A (zh) 2015-04-29
CN104575497B true CN104575497B (zh) 2017-10-03

Family

ID=53091397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310517149.2A Expired - Fee Related CN104575497B (zh) 2013-10-28 2013-10-28 一种声学模型建立方法及基于该模型的语音解码方法

Country Status (1)

Country Link
CN (1) CN104575497B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297773B (zh) * 2015-05-29 2019-11-19 中国科学院声学研究所 一种神经网络声学模型训练方法
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
CN105654947B (zh) * 2015-12-30 2019-12-31 中国科学院自动化研究所 一种获取交通广播语音中路况信息的方法及系统
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN105957518B (zh) * 2016-06-16 2019-05-31 内蒙古大学 一种蒙古语大词汇量连续语音识别的方法
CN106653007B (zh) * 2016-12-05 2019-07-16 苏州奇梦者网络科技有限公司 一种语音识别系统
CN107154260B (zh) * 2017-04-11 2020-06-16 北京儒博科技有限公司 一种领域自适应语音识别方法和装置
CN108510978B (zh) * 2018-04-18 2020-08-21 中国人民解放军62315部队 一种应用于语种识别的英语声学模型的建模方法及系统
CN109065032B (zh) * 2018-07-16 2020-09-22 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN111666469B (zh) * 2020-05-13 2023-06-16 广州国音智能科技有限公司 语句库构建方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1346126A (zh) * 2000-09-27 2002-04-24 中国科学院自动化研究所 一种带调三音子模型及训练方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN103021407A (zh) * 2012-12-18 2013-04-03 中国科学院声学研究所 一种黏着语语音识别方法及系统
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260459A1 (en) * 2006-05-04 2007-11-08 Texas Instruments, Incorporated System and method for generating heterogeneously tied gaussian mixture models for automatic speech recognition acoustic models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1346126A (zh) * 2000-09-27 2002-04-24 中国科学院自动化研究所 一种带调三音子模型及训练方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN103021407A (zh) * 2012-12-18 2013-04-03 中国科学院声学研究所 一种黏着语语音识别方法及系统
CN103117060A (zh) * 2013-01-18 2013-05-22 中国科学院声学研究所 用于语音识别的声学模型的建模方法、建模系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"语音识别系统的声学建模研究";彭荻;《中国优秀硕士学位论文全文数据库信息科技辑》;20071115;全文 *
"面向维吾尔语电话交谈式语音识别的词典设计方法研究";李鑫;《重庆邮电大学学报( 自然科学版)》;20130630;第25卷(第3期);全文 *

Also Published As

Publication number Publication date
CN104575497A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104575497B (zh) 一种声学模型建立方法及基于该模型的语音解码方法
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN106297773B (zh) 一种神经网络声学模型训练方法
CN110517663B (zh) 一种语种识别方法及识别系统
CN103117060B (zh) 用于语音识别的声学模型的建模方法、建模系统
WO2018153213A1 (zh) 一种多语言混合语音识别方法
CN104143327B (zh) 一种声学模型训练方法和装置
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN103578471B (zh) 语音辨识方法及其电子装置
Wang et al. Acoustic segment modeling with spectral clustering methods
CN107945805A (zh) 一种智能化跨语言语音识别转化方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN109508402A (zh) 违规用语检测方法及装置
CN103021407B (zh) 一种黏着语语音识别方法及系统
CN108877769B (zh) 识别方言种类的方法和装置
WO2017177484A1 (zh) 一种语音识别解码的方法及装置
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN104952446A (zh) 基于语音交互的数字楼盘展示系统
CN106971721A (zh) 一种基于嵌入式移动设备的地方口音语音识别系统
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
TW201937479A (zh) 一種多語言混合語音識別方法
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171003