CN104575497B

CN104575497B - 一种声学模型建立方法及基于该模型的语音解码方法

Info

Publication number: CN104575497B
Application number: CN201310517149.2A
Authority: CN
Inventors: 颜永红; 徐及; 潘接林
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2013-10-28
Filing date: 2013-10-28
Publication date: 2017-10-03
Anticipated expiration: 2033-10-28
Also published as: CN104575497A

Abstract

本发明提供了一种声学模型建立方法及基于该模型的语音解码方法，所述方法包含：步骤101）基于训练数据，计算声学模型所需的三因子高斯混合模型的统计量；步骤102）采用自聚类方法根据统计量计算决策树问题集，基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类，进而得到同位音素；步骤103）将基础音素集与所述同位音素合并作为含同位音素的音素集，并通过决策树过程对原始语音标注进行处理，处理后的语音标注称为含同位音素的语音标注；步骤104）基于含同位音素的音素集和语音标注，采用声学模型训练方法进行声学模型训练，生成含同位音素的声学模型。本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。

Description

一种声学模型建立方法及基于该模型的语音解码方法

技术领域

本发明涉及语音识别领域，主要针对黏着语语音识别系统。

背景技术

在语言形态学中，根据语言是否需要依靠词尾的变化来表现其文法关系分为分析语和综合语，其中需要依靠词尾的变化表现其文法关系的综合语又可根据变化程度（屈折度）再次分类。黏着语是综合语的一种，属于屈折度较高的综合语，其词级单元通常由大量词素连接构成，称为黏着特性。由于语音识别系统在设计之初所针对的语种主要是分析语和准分析语，例如汉语和英语，因此黏着特性的出现为传统语音识别系统带来的许多新的问题，使其需要进一步完善和改良。

黏着特性所带来的问题主要可以归纳为两个方面。第一是在语言模型方面，黏着语缺乏自然的语言模型基本建模单元。分析语通常以词作为语言模型基本建模单元，因为词级单元能够比较多的包含语言层知识且数量相对有限。而黏着语中的词级单元由于黏着特性的存在而数量剧增，常用词语数量已远超字典可以容纳的尺寸，故不宜作为语言模型基本建模单元；同时次级自然语言单元音素（或字，视语言不同次级单元有所差异）亦不适宜作为语言模型基本建模单元，因为黏着特性会加剧该级单元的短视现象。第二是在声学模型方面，黏着语中音素的黏着会导致协同发音现象大量发生，即同一音素根据所处位置不同会具有多种不同的发音。在这种情况下，传统针对分析语设计的声学模型构建方式会导致声学模型性的不确定性升高（即高混淆度），进而导致语音识别系统性能整体下滑。

围绕以上两点问题，近年来研究者们进行过许多研究。其中第一点问题目前已找到较为恰当的解决方式，研究者使用基于统计或规则的方法生成一种新单元词片作为语言模型建模单元。词片单元介于词和音素（字）之间，能够较多的包含语言层知识，而数量又相对有限。但第二点问题目前尚未找到有效的解决方案，是困扰黏着语语音识别的难点之一。

发明内容

本发明的目的在于，为克服上述问题，本发明提供一种声学模型建立方法及基于该模型的语音解码方法。

为实现上述目的，本发明提供了一种声学模型建立方法，所述方法包含：

步骤101）基于训练数据，计算声学模型所需的三因子高斯混合模型的统计量；

步骤102）采用自聚类方法根据统计量计算决策树问题集，基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类，进而得到同位音素；

步骤103）将基础音素集与所述同位音素合并作为含同位音素的音素集，并通过决策树过程对原始语音标注进行处理，处理后的语音标注称为含同位音素的语音标注；

步骤104）基于含同位音素的音素集和语音标注，采用声学模型训练方法进行声学模型训练，生成含同位音素的声学模型。

上述步骤101）进一步包含：

步骤101-1）从语音训练数据中提取语音特征；

步骤101-2）使用期望最大化算法计算基础音素集的三因子高斯混合模型的统计量。

上述步骤102）进一步包含：

步骤102-1）采用自聚类方法根据统计量自动生成决策树问题集；

步骤102-2）根据决策树问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类，每个子类称为一个同位音素；

其中，子类数量根据所设定的门限进行控制。

上述步骤103）进一步包含：

步骤103-1）将基础音素集与分离出的同位音素合并作为音素集；

步骤103-2）通过决策树过程对原始语音标注进行处理，根据上下文关系将标注的中的基础音素全部转化为同位音素，处理后的语音标注称为含同位音素的语音标注。

步骤104）所述声学模型训练方法包含：期望最大化算法或深度神经网络算法。

此外，本发明还提供了一种语音解码方法，该方法用于将输入的语音信息解码为文字信息且该方法基于权利要求1得到的同位音素分离结果与声学模型，所述方法具体为：

步骤201）基于训练数据，计算声学模型所需的三因子高斯混合模型的统计量；

步骤202）采用自聚类方法根据统计量计算决策树问题集，基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类，进而得到同位音素；

步骤203）将基础音素集与所述同位音素合并作为含同位音素的音素集，并通过决策树过程对原始语音标注进行处理，处理后的语音标注称为含同位音素的语音标注；

步骤204）基于含同位音素的音素集和语音标注，采用声学模型训练方法进行声学模型训练，生成含同位音素的声学模型；

步骤205）基于同位音素分离结果对原始发音字典进行处理，将发音字典中上下文关系符合同位音素决策条件的音素转化为同位音素，处理后的发音字典称为含同位音素的发音字典；

步骤206）依据声学模型、语言模型和含同位音素的发音字典，对输入的语音信息进行解码，输出含同位音素的解码结果；

步骤207）利用含同位音素的发音字典将解码结果还原为文字信息，完成语音解码。

总之，本发明将致力于解决黏着语语音识别系统中的高声学模型混淆度问题。在对目标语种各基础音素的统计量进行计算后，通过决策树系统将高混淆度的基础音素分解为若干易于区分的同位音素，大幅降低声学模型混淆程度，从而改善系统整体性能。本算法完全基于统计进行，不需要目标语种额外的语言学知识。

与现有技术相比，本发明的技术优势在于：

本发明所述方法可以有效降低黏着语声学模型混淆度，从而大幅提升语音识别系统的整体性能。本发明亦不需要语言学知识支持，可以在缺乏语言学知识的情况下有效推广至各类黏着语语音识别系统。

附图说明

图1是本发明所述的黏着语语音识别同位音素分离算法框图。

具体实施方式

下面结合附图和实施例对本发明所述方法进行详细说明。

本发明所述的黏着语语音识别同位音素分离算法框图如图1所示。算法首先根据训练数据和采用基础音素的训练标注计算基础音素三因子（Triphone）高斯混合模型（Gaussian Mixture Model，GMM）统计量，该统计量对每个基础音素三因子在特征空间中的分布进行估计。同位音素分离过程是对相同中心因子的三因子高斯混合模型进行分割聚类的过程，分割手段在本算法中采用决策树。一般情况下，决策树过程所需的问题集会由专家知识所产生，但鉴于这种方式对语言学知识的依赖性较大，会严重限制算法的适用范围，因此本算法采用自聚类方法根据统计量自动生成决策树问题集。决策树过程根据问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类，子类数量可以根据所设定的门限进行控制。由于每个子类都具有相同的中心因子，因此称其为该中心因子（音素）的同位音素。同一基础音素的各同位音素间的差别在于三因子中的左右因子，即同位音素在语句中所处的上下文环境不同。

同位音素分离完成后，根据上下文关系将标注的中的基础音素全部转化为同位音素，并根据该标注训练声学模型。该声学模型与传统使用基础音素集的声学模型相比，将对细化后的同位音素单独建立模型，因此所建立的模型更加精确。

本发明较传统黏着语语音识别系统在性能上有大幅提升。在训练数据集相同的情况下，同位音素的使用可以大幅降低黏着特性所带来的高声学模型的混淆度，从而令识别结果更加准确。

具体实施方案：

1.计算目标语种基础音素的三因子高斯混合模型统计量。

2.采用自聚类方法根据统计量计算决策树问题集。

3.使用决策树进行同位音素分离，分离音素数量可通过决策树门限控制。

4.根据同位音素分离结果，更新音素集、标注以及字典。

5.使用新的标注训练声学模型，该声学模型使用包含同位音素的新音素集。

6.使用新声学模型和包含同位音素的字典取代仅使用基础音素的声学模型和字典进行解码。

总之，本发明将黏着语音素进行细化分解的语音识别系统框架，令黏着语语音识别系统的整体性能获得提升。该框架的原始输入和最终输出与常规语音识别系统框架在形式上相同，但在模型训练和语音解码两大模块均有改进。

实施例

本发明实施例利用同位音素分离方法对韩语音素集进行细化分类，其步骤包括：从韩语训练数据中提取语音特征；计算韩语包含40音素的基础音素集的三因子高斯混合模型统计量；采用自聚类方法根据统计量计算决策树问题集；使用决策树进行同位音素分离，分离同位音素数量为30；根据同位音素分离结果，更新音素集、标注以及字典；使用含同位音素的标注训练声学模型，该声学模型使用包含70音素的新音素集；使用新声学模型和包含同位音素的字典取代仅使用基础音素的声学模型和字典进行解码。

本发明实施例利用同位音素分离方法对韩语音素集进行细化分类，有效降低声学模型的混淆程度，提高了韩语语音识别系统的性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种声学模型建立方法，所述方法包含：

步骤101)基于训练数据，计算声学模型所需的三因子高斯混合模型的统计量；

步骤102)采用自聚类方法根据统计量计算决策树问题集，基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类，进而得到同位音素；

步骤103)将基础音素集与所述同位音素合并作为含同位音素的音素集，并通过决策树过程对原始语音标注进行处理，处理后的语音标注称为含同位音素的语音标注；

步骤104)基于含同位音素的音素集和语音标注，采用声学模型训练方法进行声学模型训练，生成含同位音素的声学模型；

所述步骤102)进一步包含：

步骤102-1)采用自聚类方法根据统计量自动生成决策树问题集；

步骤102-2)根据决策树问题集将具有相同中心因子的三因子高斯混合模型分解为若干个子类，每个子类称为一个同位音素；

其中，子类数量根据所设定的门限进行控制。

2.根据权利要求1所述的声学模型建立方法，其特征在于，所述步骤101)进一步包含：

步骤101-1)从语音训练数据中提取语音特征；

步骤101-2)使用期望最大化算法计算基础音素集的三因子高斯混合模型的统计量。

3.根据权利要求1所述的声学模型建立方法，其特征在于，所述步骤103)进一步包含：

步骤103-1)将基础音素集与分离出的同位音素合并作为音素集；

步骤103-2)通过决策树过程对原始语音标注进行处理，根据上下文关系将标注的中的基础音素全部转化为同位音素，处理后的语音标注称为含同位音素的语音标注。

4.根据权利要求1所述的声学模型建立方法，其特征在于，步骤104)所述声学模型训练方法包含：期望最大化算法或深度神经网络算法。

5.一种语音解码方法，该方法用于将输入的语音信息解码为文字信息且该方法基于权利要求1得到的同位音素分离结果与声学模型，所述方法具体为：

步骤201)基于训练数据，计算声学模型所需的三因子高斯混合模型的统计量；

步骤202)采用自聚类方法根据统计量计算决策树问题集，基于得到的决策树的问题集采用决策树算法对所述统计量进行分割聚类，进而得到同位音素；

步骤203)将基础音素集与所述同位音素合并作为含同位音素的音素集，并通过决策树过程对原始语音标注进行处理，处理后的语音标注称为含同位音素的语音标注；

步骤204)基于含同位音素的音素集和语音标注，采用声学模型训练方法进行声学模型训练，生成含同位音素的声学模型；

步骤205)基于同位音素分离结果对原始发音字典进行处理，将发音字典中上下文关系符合同位音素决策条件的音素转化为同位音素，处理后的发音字典称为含同位音素的发音字典；

步骤206)依据声学模型、语言模型和含同位音素的发音字典，对输入的语音信息进行解码，输出含同位音素的解码结果；

步骤207)利用含同位音素的发音字典将解码结果还原为文字信息，完成语音解码。