CN102063900A

CN102063900A - 克服混淆发音的语音识别方法及系统

Info

Publication number: CN102063900A
Application number: CN2010105682920A
Authority: CN
Inventors: 朱维彬; 李强; 祝真宇; 肖云鹏; 孔彦; 宋新航
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2010-11-26
Filing date: 2010-11-26
Publication date: 2011-05-18

Abstract

本发明公开了一种克服混淆发音的语音识别方法及系统。该方法包括：接收语音信号，提取声学特征，确定特征向量；利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。本发明改进了发音词典及其生成方法，有效地提高了语音识别中带有混淆发音的音字转换的精度。

Description

克服混淆发音的语音识别方法及系统

技术领域

本发明涉及计算机人工智能及模式识别技术领域，尤其涉及一种克服混淆发音的语音识别方法及系统。

背景技术

当今世界正处在信息时代，对于信息的有效利用，是关系到国家安全、经济发展、社会安定等方面的重大科学问题，这其中也包括了语音信息的利用。作为语言处理最为重要的研究领域之一，语音识别技术，无论是在理论方法还是技术手段上，都取得了一系列重要成果。但在应用过程中，语音识别技术也遇到了障碍，主要包括：背景噪声、信道不匹配、发音不准确、习惯性误读、自然口语发音。尽管一直连续不断地有局部性的技术改进，但对于口语识别来讲，任务还远未完成。

现在的语音识别系统主要由声学特征提取模块，声学模型模块，语言模型模块和解码模块构成，如图1所示。

声学特征提取

声学特征提取是语音识别的一个重要环节，把语音信号按帧提取出表征信号声学特征的多维向量。

常用的声学特征有：Mel倒谱系数MFCC和感知线性预测PLP。

声学模型

隐马尔可夫模型(Hidden Markov Model，HMM)：

马尔可夫模型是一个离散时域有限状态自动机，HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。

由于汉语的音节仅由声母和韵母构成，且声韵母的声学特性相差很大，所以汉语声学模型的常用建模单元是声韵母。通常把声母依照后续介母的不同细化为更多的细化声母作为建模的基本单元。

语言模型

语言模型主要分为基于规则的语言模型和基于统计的语言模型两种。统计语言模型是用概率统计的方法来揭示语言内在的统计规律，其中n-gram简单有效，被广泛使用。

n-gram：该模型基于这样一种假设，第n个词的出现只与前面n-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。由于计算量太大，n一般取值不会很大，常用的是二元的bigram和三元的trigram。

发音词典

发音词典是联系声学模型和语言模型的重要部分，通常的发音词典形式是一个<词，模型序列>的二元组，如图2所示；

发音词典的词表部分是通过对文本语料的整理统计之后获取的，模型序列部分是通过自动注音与人工检查的方式生成全拼注音后改写为HMM模型名称序列，两部分得到后综合在一起形成了正则发音词表。

发音词典的规模直接影响了语音识别系统的规模，词表中的词条越多，语音识别系统可以识别的词就越多，词表中没有出现的词，是不会以词为单位被语音识别系统识别出来的。这样就存在，对于个别不准确、习惯性误读的发音，由于发音词典中对应的词没有非正则(混淆)发音的音位注音，将会被识别成为其它的音位，的问题。这就意味着，系统找不到对应的二元组描述非正则的发音音位，也就不能解码出对应的词序列，因而得不到正确的识别效果。

解码过程

有了特征提取模块，声学模型，语言模型和发音词典之后，语音识别系统接收语音信号，提取声学特征后将语音信号的特征向量传入到识别系统中，解码过程就是用声学模型和语言模型对接收到的特征向量进行打分，寻找一个最佳的词序列以描述输入语音信号，从而得到词解码序列。常用的解码算法是由基于动态规划的Viterbi算法与基于词树的n-best搜索算法构成的。

存在的问题

大词汇量连续汉语语音识别已取得了很大的进展，对于标准普通话，识别的准确率可达95％以上。但是，类似方言、口音、发音不准确、习惯性误读等问题影响着汉语语音识别系统的发展。这也是当前语音识别技术亟待解决的问题。

现有的改进

现阶段一种针对方言的改进方法是基于方言发音规则改变生成的音节映射表，可以避免用大规模方言语料重复训练现有模型并做自适应。这种方案解决了收集非标准语音数据工作量巨大的问题和识别系统之间共享数据的问题。这种方法的缺点是：

(1)基于规则的知识总结总是和真实情况有一定差异，特别是不能反映口语中发音不准确、非方言规则的习惯性误读的现象。

(2)无法自动生成音节映射表，工作量繁琐，易出错。

发明内容

本发明的目的在于提供一种克服混淆发音的语音识别方法及系统。基于本发明，可以自动生成发音音标词典，以有效提高语音识别中带有混淆发音的音字转换的精度。

本发明一种克服混淆发音的语音识别方法，包括：提取步骤，接收语音信号，提取声学特征，确定特征向量；识别步骤，利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；选择步骤，选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。

上述语音识别方法所述识别步骤中，所述音位混淆音标词典包括二维矩阵和音位混淆发音表，通过如下方式获取：训练集生成步骤，依据训练声学模型的语音数据库，生成音位混淆矩阵的训练集；二维矩阵记录步骤，采用音位识别器，对选取的所述训练集语料进行识别，记录得到的音位模型序列，根据标注信息统计对于每个音位被识别成其它音位的信息，以二维矩阵进行记录；音位混淆发音表获取步骤，根据所述二维矩阵，生成线性的音位混淆发音表；所述音位发音表中每一项包括：正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。

本发明还提供了一种克服混淆发音的语音识别系统，包括：提取模块、识别模块和选择模块。其中，提取模块用于接收语音信号，提取声学特征，确定特征向量；识别模块用于利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；选择模块用于选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。

上述语音识别系统，优选所述识别模块包括：训练集生成单元、二维矩阵记录单元和音位混淆发音表获取单元。其中，训练集生成单元，采用训练声学模型的语音数据库，构成音位混淆矩阵的训练集；二维矩阵记录单元用于采用音位识别器，对选取的所述训练集语料进行识别，记录得到的音位模型序列，根据标注信息统计对于每个音位被识别成其它音位的信息，以二维矩阵进行记录；音位混淆发音表获取单元用于根据所述二维矩阵，生成线性的音位混淆发音表；所述音位发音表中每一项包括：正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。

本发明改进了现有技术中的发音词典及其生成方法，有效地提高了语音识别中带有混淆发音的音字转换的精度。

附图说明

图1为现有技术中语音识别系统的结构示意图；

图2为现有技术中发音词典示意图；

图3为本发明克服混淆发音的语音识别方法实施例的步骤流程图；

图4为音位混淆矩阵示意图；

图5为音位混淆发音表示意图；

图6为加入音位混淆音标词典后的搜索树；

图7为采用音位混淆音标词典后的发音词典逻辑示意图；

图8为本发明克服混淆发音的语音识别系统实施例的结构示意图；

图9为本发明克服混淆发音的语音识别系统中，识别模块的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图3，图3为本发明克服混淆发音的语音识别方法实施例的步骤流程图，包括：

提取步骤310，接收语音信号，提取声学特征，确定特征向量；识别步骤320，利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；选择步骤330，选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。

下面，对上述各个步骤进行详细的说明。

音位混淆音标词典的自动生成：

步骤1：选取训练集

将所有训练声学模型的语音数据库作为生成音位混淆矩阵的训练集。

步骤2：识别结果统计

对选取的语料用现有的音位识别器进行识别，记录得到的音位模型序列，根据标注信息统计对于每个音位i被识别成其它音位j的信息，以二维矩阵的形式记录下来。如图4所示，以汉语中平翘舌不分的现象为例，音位S在训练集中共出现了42次，其中识别正确31次，被识别成音位SH有11次，将频次信息按照行列记录在矩阵M(i，j)中。

步骤3：根据统计信息生成词典

根据统计的二维矩阵信息，生成线性的音位混淆发音表。如图5所示，把出现频率大于一定阈值的混淆发音保留下来记录在音位混淆发音表中，表中的每一项都是正则发音及其对应的混淆发音以及混淆发音在训练数据中出现的频次。例如，当阈值取1时，保留矩阵中所有大于1的数据项，表中T_s的数据项是(S，((SH，11)，(S，31)))，表明音位S在训练集中共出现了42次，其中识别正确31次，被识别成音位SH有11次，其它小于1的数据不予记录，这样有效的压缩了矩阵，节省了存储需要的空间和访问所需的时间。矩阵M和音位混淆发音表T构成了音位混淆音标词典。

音位混淆音标词典的使用方法：

根据音位混淆音标词典，搜索过程中向词表中加入一个新词W。识别器中一个词至少由三个属性构成：包括该词的标识码(ID)、汉字串、发音序列。加入的新词标识码和汉字串均不变，仅把该词的音节串替换为音位混淆音标词典中的发音序列，该步骤使得它具有一个新的读音；

按照已有的搜索树的创建方法，为加入了新词后的词表建立搜索树，参照图6。

检查搜索树中所有非叶子节点对应的有向弧，如果该有向弧中所标的音位在音位混淆音标词典中含有该音位的的混淆发音，则将该有向弧扩展出一个与之并列的有向弧。

在扩展搜索树后，音位混淆音标词典可以看成改进的发音词典，逻辑上如图7所示。此时无需修改现有的模型和识别搜索算法，即可完成带有音位混淆音标词典的语音识别任务。

另一方面，本发明还提供了一种克服混淆发音的语音识别系统，参照图8，包括：

提取模块82，用于接收语音信号，提取声学特征，确定特征向量；识别模块84，用于利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；选择模块86，用于选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。

参照图9，在一个实施例中，识别模块84进一步包括：训练集生成单元841，用于依据训练声学模型的语音数据库，生成音位混淆矩阵的训练集；二维矩阵记录单元842，用于采用音位识别器，对选取的所述训练集语料进行识别，记录得到的音位模型序列，根据标注信息统计对于每个音位被识别成其它音位的信息，以二维矩阵进行记录；音位混淆发音表获取步骤843，根据所述二维矩阵，生成线性的音位混淆发音表；所述音位发音表中每一项包括：正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。

上述系统实施例与方法实施例原理相同，相关之处互相参照即可，在此不再赘述。

以上对本发明所提供的一种带有混淆发音的语音识别方法及系统进行详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种克服混淆发音的语音识别方法，其特征在于，包括：

提取步骤，接收语音信号，提取声学特征，确定特征向量；

识别步骤，利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；

选择步骤，选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。

2.根据权利要求1所述的语音识别方法，其特征在于，所述识别步骤中，所述音位混淆音标词典包括二维矩阵和音位混淆发音表，通过如下方式获取：

训练集生成步骤，依据训练声学模型的语音数据库，生成音位混淆矩阵的训练集；

二维矩阵记录步骤，采用音位识别器，对选取的所述训练集语料进行识别，记录得到的音位模型序列，根据标注信息统计对于每个音位被识别成其它音位的信息，以二维矩阵进行记录；

音位混淆发音表获取步骤，根据所述二维矩阵，生成线性的音位混淆发音表；所述音位发音表中每一项包括：正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。

3.一种克服混淆发音的语音识别系统，其特征在于，包括：

提取模块，用于接收语音信号，提取声学特征，确定特征向量；

识别模块，用于利用声学模型、语言模型和音位混淆音标词典对接收到的所述特征向量进行识别；

选择模块，用于选择最佳词序列以描述所述输入语音信号，进而得到词解码序列。

4.根据权利要求3所述的语音识别系统，其特征在于，所述识别模块中，包括：

训练集生成单元，用于依据训练声学模型的语音数据库，生成音位混淆矩阵的训练集；

二维矩阵记录单元，用于采用音位识别器，对选取的所述训练集语料进行识别，记录得到的音位模型序列，根据标注信息统计对于每个音位被识别成其它音位的信息，以二维矩阵进行记录；

音位混淆发音表获取单元，用于根据所述二维矩阵，生成线性的音位混淆发音表；所述音位发音表中每一项包括：正则发音、所述正则发音对应的混淆发音以及混淆发音在所述训练集中出现的频次。