CN103021407A

CN103021407A - 一种黏着语语音识别方法及系统

Info

Publication number: CN103021407A
Application number: CN2012105516760A
Authority: CN
Inventors: 颜永红; 徐及; 潘接林
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-18
Filing date: 2012-12-18
Publication date: 2013-04-03
Anticipated expiration: 2032-12-18
Also published as: CN103021407B

Abstract

本发明实施例涉及韩语语音识别方法及系统。所述方法包括：提取语音长时特征；对所述长时特征计算扩展音素集后验概率；对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类，有效降低声学模型的混淆程度，提高了语音识别的效果。

Description

一种黏着语语音识别方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种黏着语语音识别方法及系统。

背景技术

黏着语，主要依靠词尾的变化来表现其文法关系，其典型特征是语言中的词级单元是由大量词素连接而构成的。相较于隶属于分析语的汉语，黏着特性给语音识别带来许多新的挑战，使其在传统语音识别框架下的性能受到大幅影响。在这些新的挑战中，比较重要的可以归纳为以下两点：第一个是在语言模型建模方面，韩语自然语言单元字和词等由空格分隔的语言单元均不适宜作为语言模型建模单元；第二个是在声学模型建模方面，黏着特性导致的严重协同发音使声学模型的混淆度大幅提升。

在以上两个挑战中，第一个挑战在近年来已得到较为广泛的研究，很多研究者使用基于统计或规则的方法生成一种介于字和词之间的新单元作为语言模型建模单元，称之为词片。第二个挑战目前仍没有有效解决方案，有研究者试图在短时特征下通过引入同位音素的概念来削弱声学模型的混淆程度，但实验证明这一方法尽管在基本的单因子建模单元上效果明显，但在常规语音识别系统所使用的三因子建模单元上效果并不理想。

发明内容

针对上述问题，本发明实施例提出一种黏着语语音识别方法、系统。

在第一方面，本发明实施例提出一种黏着语语音识别方法，所述方法包括：提取语音长时特征；对所述长时特征计算扩展音素集后验概率；对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。

优选地，所述黏着语是韩语或维吾尔语。

优选地，所述长时特征将辅音根据其所在位置分解为同位音素。

优选地，所述扩展音素集包含66个韩语音素，其中首辅音18个，元音21个，尾辅音27个。

在第二方面，本发明实施例提出一种黏着语语音识别系统，所述系统包括：语音长时特征提取模块，用于提取语音长时特征；后验概率计算模块，用于对所述长时特征计算扩展音素集后验概率；多层感知特征获取模块，用于对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；识别模块，用于将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。

优选地，所述黏着语是韩语或维吾尔语。

本发明实施例利用长时特征在刻画协同发音方面的优势对韩语音素集进行细化分类，有效降低声学模型的混淆程度，提高了语音识别的效果。

附图说明

图1是本发明实施例黏着语语音识别系统示意图；

图2是本发明实施例的韩语扩展音素集示意图；

图3是本发明实施例的黏着语语音识别方法流程示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例致力于解决黏着语语音识别在声学模型建模中所遇到的问题。所述黏着语包括韩语和维吾尔语。为方便叙述，下面以韩语为例进行说明。通过采取精细化的语音分析方法发掘音素中的差异，对语音识别系统中原本被认为发音一致的韩语音素进行区分，降低声学模型混淆程度，从而改善系统整体性能。

在韩语语音识别系统中，引起声学模型高混淆度的主要原因是协同发音。鉴于人类的协同发音通常影响数百毫秒语音，因此传统语音识别系统通常使用的短时特征（如Mel Freq uency Cepstru m Coefficient，M FCC和PerceptualLinear Prediction，PLP）难以对其进行有效分析。本发明实施例将长时特征应用到韩语语音识别系统，利用长时特征的高区分度对韩语音素集进行细化分类。新扩展音素集在原音素集基础上将辅音根据所在位置分解为同位音素，而元音部分保持不变。

图1是本发明实施例黏着语语音识别系统示意图。如图1所示，所述系统包括：语音长时特征提取模块100，用于提取语音长时特征；后验概率计算模块102，用于对所述长时特征计算扩展音素集后验概率；多层感知特征获取模块104，用于对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；识别模块106，用于将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。优选地，所述黏着语是韩语或维吾尔语。优选地，所述长时特征将辅音根据其所在位置分解为同位音素。优选地，所述扩展音素集包含66个韩语音素，其中首辅音18个，元音21个，尾辅音27个。所述的扩展音素集如图2所示。尾辅音中除“o”外均属于首辅音的同位音素，这些音素虽在韩语文字中有固定的书写形式但因传统意义上发音相同通常不出现于韩语语音识别音素集中。

本发明实施例中通过长时特征提供的协同发音信息进行辅助，获得较好的区分性。

所述韩语语音识别系统的主体框架沿用经典的Gaussian Mixture Model与Hidden Markov Model（GMM-HMM）相结合的框架。GMM-HMM模型在工作时需要借助词片级语言模型以及基于扩展音素集的声学模型。即声学模型所用音素集采用扩展音素集；语言模型采用词片级语言模型，分词方法为基于Bayesian Dirichlet Process（BDP）的方法。此外，本系统将基于长时特征的Multi-Layer Perception（MLP）特征作为语音特征输入GMM-HMM框架。MLP特征由扩展音素集后验概率通过主成分分析降维得到，后验概率则由长时特征经神经网络处理后得到。

本发明较传统韩语语音识别系统在性能上有大幅提升。在训练数据集相同的情况下，更丰富的信息可以被收集用于建立模型，从而令识别结果更加准确。

所述模型训练流程如下：

提取训练集语音信号的帧级filterbank能带特征。

将当前帧与左右各15帧（共计31帧）能带特征进行串接，形成长时特征。

根据长时特征和语音标注训练神经网络分类器，分类目标为扩展音素集所属音素。

将训练集数据通过训练完成的神经网络，计算神经网络输出，即扩展音素集后验概率。

对扩展音素集后验概率进行主成分分析降维处理，得到基于长时特征的MLP特征。特征维数与传统短时特征的常见维数保持一致，为39维。

使用训练集的MLP特征完成GMM-HMM框架声学模型训练，训练时所用音素集为扩展音素集。

采用BDP方法进行分词，以分词后所得词片作为语言模型建模单元，完成GMM-HMM框架语言模型训练。该步骤独立于以上其他训练步骤。

所述语音识别流程如下：

提取测试集长时特征，步骤同训练流程。

将长时特征送入预先训练好的神经网络分类器，计算扩展音素集后验概率。

对扩展音素集后验概率进行PCA降维处理，得到基于长时特征的MLP特征。

将经上述步骤获得的基于长时特征的MLP特征作为语音特征输入GMM-HMM语音识别框架，计算识别结果。识别中所使用声学模型和语言模型由训练步骤产生。

图3是本发明实施例的黏着语语音识别方法流程示意图。如图3所示，所述方法包括：提取语音长时特征；对所述长时特征计算扩展音素集后验概率；对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。

所述将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，亦可简称为将所述MLP特征进行高斯混合-隐形马尔可夫模型GMM-HMM语音识别。

优选地，所述黏着语是韩语或维吾尔语。

本领域技术人员应该进一步意识到，结合本文中所公开的实施例描述的各示例模块及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

需要指出的是，以上仅为本发明较佳实施例，并非用来限定本发明的实施范围，具有专业知识基础的技术人员可以由以上实施实例实现本发明，因此凡是根据本发明的精神和原则之内所做的任何的变化、修改与改进，都被本发明的专利范围所覆盖。即，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种黏着语语音识别方法，其特征在于，所述方法包括：

提取语音长时特征；

对所述长时特征计算扩展音素集后验概率；

对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征

的多层感知MLP特征；

将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架

的语音识别，得到识别结果。

2.如权利要求1所述的黏着语语音识别方法，其特征在于：所述黏着语是韩语或维吾尔语。

3.如权利要求1所述的黏着语语音识别方法，其特征在于：所述长时特征将辅音根据其所在位置分解为同位音素。

4.如权利要求2所述的黏着语语音识别方法，其特征在于：所述黏着语是韩语，所述扩展音素集包含66个韩语音素，其中首辅音18个，元音21个，尾辅音27个。

5.一种黏着语语音识别系统，其特征在于，所述系统包括：

语音长时特征提取模块，用于提取语音长时特征；

后验概率计算模块，用于对所述长时特征计算扩展音素集后验概率；

多层感知特征获取模块，用于对所述后验概率进行主成分分析PCA降维处理，得到基于所述长时特征的多层感知MLP特征；

识别模块，用于将所述MLP特征进行基于高斯混合-隐形马尔可夫模型GMM-HMM框架的语音识别，得到识别结果。

6.如权利要求5所述的黏着语语音识别系统，其特征在于：所述黏着语是韩语或维吾尔语。

7.如权利要求5所述的黏着语语音识别系统，其特征在于：所述长时特征将辅音根据其所在位置分解为同位音素。

8.如权利要求6所述的黏着语语音识别系统，其特征在于：所述黏着语是韩语，所述扩展音素集包含66个韩语音素，其中首辅音18个，元音21个，尾辅音27个。