CN101604522B

CN101604522B - 非特定人的嵌入式中英文混合语音识别方法及系统

Info

Publication number: CN101604522B
Application number: CN2009101575984A
Authority: CN
Inventors: 王辉
Original assignee: BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: BEIJING SENBOKE INTELLIGENCE SCIENCE AND TECHNOLOGY Co Ltd
Priority date: 2009-07-16
Filing date: 2009-07-16
Publication date: 2011-09-28
Anticipated expiration: 2029-07-16
Also published as: CN101604522A

Abstract

一种非特定人的、支持中英文混合语言、面向嵌入式应用的语音识别方法及系统。本发明采用海量语音数据训练的声学模型，兼容中文和英文发音方式的声学建模单元集，从而实现非特定人的中英文混合语音识别。本发明采用多个背景模型，由背景模型进行均值自适应训练得到混合高斯模型(GMM)参数，然后再对混合高斯模型(GMM)均值与背景模型均值的差值向量进行矢量量化，压缩模型参数；在识别阶段，使用快速高斯选择、声学得分预运算、以及简化GMM模型，从而大幅降低识别的计算量和模型的存储空间，使得本语音识别方法及系统可以在各种嵌入式应用系统上使用。

Description

非特定人的嵌入式中英文混合语音识别方法及系统

技术领域

本发明涉及自动语音识别技术领域，是一种非特定人的、面向计算和存储资源有限的嵌入式应用环境、支持中英文混合语言的语音识别方法及系统。

背景技术

语音是人类沟通和获取信息最自然、最便捷的方式。智能语音交互技术主要包括语音识别技术、语音合成技术、语音评测技术等，智能语音交互将是继图形交互模式(GUI)之后人机交互模式上具有突破性意义的变革。

语音识别技术是让机器听懂人说话，通过机器自动将语音信号转化为文本及相关信息的技术，是智能语音交互技术中非常重要的、也是非常关键的部分。从语音识别技术发展的情况看，其应用主要向以下两个方向发展：一个是大词汇量连续语音识别系统，主要应用于听写机、语音信息查询服务系统、海量音频数据自动标注系统等，这些系统都运行在PC平台或服务器上；另一个是嵌入式语音识别系统，面向小型化、便携式的、嵌入式的产品应用，如手机上的语音拨号、车载设备的语音控制、智能语音玩具、家电遥控等，这些嵌入式应用系统大都使用专门的硬件系统实现，如MCU、DSP和语音识别专用芯片，其运算速度、存储容量都非常有限。同时，它这些嵌入式应用系统还要求识别是实时的，并具有体积小、可靠性高、耗电少、成本低等特点。嵌入式语音产品的这些应用特点以及嵌入式系统资源的有限性是目前语音识别技术嵌入式应用的难点。

现有的嵌入式语音识别系统主要还是特定人孤立词语音识别，即需要用户在使用前让系统对所识别的词条先进行学习或训练。这一类识别功能对语种、方言没有限制，识别率很高，但使用前的录音和训练很不方便。

有一些嵌入式语音识别系统能实现非特定人语音识别，即预先将所要识别的语音模型训练好并装入系统的存储器，用户使用时不需要再进行学习而直接使用。但这类识别功能只适用于特定的语种和方言，识别率比特定人系统低，还有待进一步提高。

21世纪全球大融合的趋势越来越明显，甚至不同语种语言之间的融合特征也越来越多。在中国，外来英语词汇越来越多，一个人同时有中英文名字的情况越来越多，现实社会中越来越多的应用环境和产品系统中出现了中英文混用的情况。在这样的情况下，目前单一语种的中文语音识别技术无法实现中英文混合的语音识别，中英文混合识别是未来的中文语音识别技术发展的趋势。

结合语音识别技术的发展趋势，针对嵌入式系统语音识别应用的特点，以及目前中英文混用的应用特点，本发明采用全新的语音识别理念和框架，实现了一种非特定人的，面向嵌入式应用的，支持中英文混合识别的语音识别系统，该系统可广泛应用于各种小型化的嵌入式电子产品和嵌入式系统中，实现高识别率的、中英文混合语音识别。

发明内容

本发明克服现有语音识别技术的不足，实现了一种高识别率、非特定人、支持中英文混合的嵌入式语音识别方法及系统，使其能够应用于各种嵌入式应用领域，实现实时的语音识别，且在中等词汇量上识别率达95％以上。本发明算法压力小，存储空间小，适合在各种主流硬件环境中实时运行。

本发明是通过以下技术方案实现的，主要由S1-声学模型训练、S2-词树生成、S3-前端处理、S4-识别解码四个部分组成，如图1所示。

以下是对本发明进一步的说明：

S1-声学模型训练

特征提取：按帧长25毫秒，帧移10毫秒提取12维MFCC特征，再加上1维能量特征，共13维静态特征。动态特征取一阶和二阶差分特征，得到39维的声学特征向量序列。

兼容中文和英文发音方式的声学建模单元集，基于海量语音数据训练的声学模型，使得该语音识别方法是非特定人的、并支持中英文语言混合识别。具体是在英文音素集的基础上，扩展了英文中没有的中文发音单元，再加上静音单元构成。

基本声学模型的训练：声学建模方法使用CDHMM+GMM，利用本领域熟知的方法训练状态绑定的上下文相关三音子模型，并得到与每个GMM模型的每个混合项绑定的特征集合。

采用二叉树形式组织的多背景模型(背景模型-Background Model，简称BM，其中BM-n表示第n个背景模型)，如图2所示，然后将声学模型中混合高斯模型(GMM)的每个混合项与某个背景模型按最大似然准则绑定，对背景模型进行均值自适应训练得到混合项的均值参数，并将其与背景模型均值相减得到两者的差值向量。每个背景模型均采用正态分布模型，所有背景模型采用二叉树形式来组织。背景模型的训练方式如下：首先使用所有的声学特征训练一个背景模型作为二叉树的根节点，然后使用分裂法训练得到两个子节点背景模型，再对每个子节点进行分裂，如此循环，直到分裂满足停止条件，则停止分裂，待所有节点都停止分裂后，即得到二叉树形式的背景模型。

在自适应训练完成后，对所有的差值向量进行矢量量化，并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项。其中混合系数的含义与标准GMM混合系数的含义一致，混合项高斯模型的均值向量由其绑定的背景模型的均值加上其绑定的差值向量得到，其方差向量等于其绑定的背景模型的方差向量。

用最大混合项得分代替混合概率相加来计算GMM模型的声学得分，从而简化GMM模型。依据简化的GMM模型，对GMM模型的某些参数进行预运算，并保存为新的混合系数参数，减少计算GMM模型声学得分时的计算量。

简化GMM模型的方法是，用最大混合项得分代替混合概率相加来计算GMM模型的声学得分，具体数学公式如下：

标准GMM模型：

N (O | M) = Σ_{m = 1}^{M} C_{m} N (O | μ_{m}, σ_{m}^{2})

简化GMM模型：

N (O | M) = {Max}_{m = 1}^{M} {C_{m} N (O | μ_{m}, σ_{m}^{2})}

依据简化的GMM模型，对GMM模型的某些参数进行预运算，并保存为新的混合系数参数，以下是GMM模型某一混合项的数学公式推导：

C_{m} N (O | μ_{m}, σ_{m}^{2}) = - \frac{C_{m}}{\sqrt{2 π | σ_{m}^{2} |}} e^{- \frac{{(x - μ_{m})}^{2}}{2 σ_{m}^{2}}}

\log (C_{m} N (O | μ_{m}, σ_{m}^{2})) = - \log (\frac{C_{m}}{\sqrt{2 π | σ_{m}^{2} |}}) + \frac{1}{- {2 σ}_{m}^{2}} {(x - μ_{m})}^{2}

令新的混合系数为：

C_{m}^{'} = - \log (\frac{C_{m}}{\sqrt{2 π | σ_{m}^{2} |}})

令新的方差向量为：

σ_{m}^{' 2} = \frac{1}{- 2 σ_{m}^{2}}

则有：

\log (C_{m} N (O | μ_{m}, σ_{m}^{2})) = C_{m}^{'} + σ_{m}^{' 2} {(x - μ_{m})}^{2}

S2-词树生成

发音标注：把词表中的每一个词看作一个字符串，把字符串分隔为汉字串、字母串、数字串、其他符号，依据发音词典，对汉字串、字母串和数字串标注发音，忽略其他符号，把这些发音再按原顺序连接在一起，得到该词的发音单元序列。对词表中的每个词标注发音，得到一系列的发音单元序列，利用这些发音单元序列生成词树。

词树生成：词树的数据结构为平凡树，词树中除根节点和叶节点代表静音外，其余每个节点代表一个发音单元，从根节点出发到达叶节点的一天完整路径表示一个词或多个发音相同的词，词表中有多少个发音不同的词，词树中就有多少个这样的路径。用词树的根节点和叶节点代表静音的目的是允许语音指令前后带静音。

S3-前端处理

前端处理有两个功能，语音增强和语音端点检测。首先对信号进行语音增强处理，消除平稳背景噪声或缓慢渐变的非平稳噪声；然后进行语音端点检测，特征采用帧对数能量，由于语音增强处理后的背景噪音能量近似一个很小的常量，因此可以采用绝对门限来判断是否是语音。语音增强处理后的语音信号中可能会残留突发噪声，因此设定语音段最小长度门限，如果检测到的语音段小于该门限，则判断为突发噪声。由于语音前后部分的能量较弱，容易造成漏检，这通常会导致识别错误，由于语音识别器容许语音前后带静音，因此在语音端点检测过程中，分别把语音开始点向前扩展200毫秒，语音结束点向后扩展200毫秒。

S4-识别解码

识别解码部分，首先用与声学模型训练阶段一样的方法提取声学特征。提取完声学特征后，对声学特征序列进行归一化处理，然后送入识别器进行识别。

识别采用Viterbi-Beam宽度优先的帧同步搜索方法。对每一帧声学特征，首先计算其所有背景模型的声学得分，并对背景模型按声学得分高低排序。然后在二叉树上自上而下地对背景模型的声学得分进行退化处理，具体方法是：令根节点背景模型的退化得分等于其声学得分，如果子节点的声学得分低于父节点的退化得分，则将子节点的退化得分设为父节点的退化得分，否则子节点的退化得分等于其声学得分。

接下来计算所有由一个背景模型和矢量量化表中的一个差值向量所确定的高斯模型的声学得分，并将该声学得分保存于高斯得分缓存中。具体做法是：选择声学得分较高的若干个背景模型、以及其所有子节点背景模型，计算矢量量化表中每个差值向量与背景模型对应的声学得分差值，将该声学得分差值与背景模型的声学得分相加，得到对应高斯模型的声学得分，如果该得分小于背景模型的退化得分，则将该高斯模型的声学得分修改为背景模型的退化得分，并将之保存到高斯得分缓存中；对其余的背景模型，其跟矢量量化表中的任一差值向量所确定的高斯模型的声学得分不再运算，直接将对应的高斯得分缓存设为背景模型的退化得分。

下面介绍计算矢量量化表中每个差值向量与背景模型对应的声学得分差值的方法。以下是GMM模型某混合项的高斯模型的声学得分的数学公式推导：

σ_{m}^{' 2} {(x - μ_{m})}^{2} = σ_{m}^{' 2} {(x - (μ_{b} + Δ μ_{i}))}^{2} = σ_{m}^{' 2} {(x - μ_{b})}^{2} + σ_{m}^{' 2} ({(Δ μ_{i})}^{2} - 2 Δ μ_{i} (x - μ_{b}))

其中σ′_m ²(x-μ_b)²为背景模型的声学得分，σ′_m ²((Δμ_i)²-2Δμ_i(x-μ_b))为差值向量Δμ_i对应的声学得分差值，两者相加，即得到GMM模型某混合项的高斯模型的声学得分。

然后利用背景模型声学得分排序信息、及GMM模型与背景模型的绑定信息进行快速高斯选择，在计算GMM模型的声学得分时，仅计算该GMM模型的若干个候选混合项的声学得分。GMM模型某混合项的声学得分的计算方法是：根据该混合项绑定的背景模型标号、与背景模型均值的差值向量标号，从高斯得分缓存中读取该混合项的高斯模型声学得分，将该得分与混合项的混合系数相加，即得到该混合项的声学得分。

基于二叉树多背景模型的快速高斯选择方法如下：根据GMM模型各混合项所绑定的背景模型的标号，再参照背景模型的排序信息，得到这些背景模型中声学得分为最高的背景模型标号，然后选择绑定该背景模型标号的一个或多个混合项作为待运算的混合项。

最后用最大混合项得分代替混合概率相加来计算GMM模型的声学得分，从而简化GMM模型，避免计算量较大的指数运算和对数运算。

发明实例

为了说明本方法的有效性，下面用一个实验来比较本方法与CDHMM模型、混合绑定CDHMM模型(Tied Mixture CDHMM，TM-CDHMM)在识别率、识别速度、模型大小方面的区别。

训练数据：标注普通话纯净语音数据库，100男100女；南方口音语音数据库，50男50女；北方口音语音数据库，50男50女。

测试数据：自录的人命库，共500个人名，5男5女，每人100句，共1000个句子。

测试平台为ARM9处理器，主频200MHz。

模型参数为：GMM个数1528，GMM混合数16，TM-CDHMM的共享高斯个数为8192，本方法背景模型个数为255个，差值矢量量化表含256个向量。

以下是测试结果：

	识别正确率	识别速度	模型大小
				CDHMM	96.79％	13.20倍实时	30336KB
TM-CDHMM	95.55％	9.64倍实时	2748KB
				本文方法	95.10％	0.92倍实时	776KB

附图说明

图1为本发明的框架示意图

图2为基于二叉树的背景模型示意图

图3为本发明的系统流程示意图

具体实施方式

下面结合附图对本发明做进一步说明。

图1为本发明的框架示意图，图3为本发明的系统流程示意图，如图1和图3所示，本系统主要由S1-声学模型训练、S2-词树生成、S3-前端处理、S4-识别解码四个部分组成，系统流程如下：

S1-声学模型训练部分流程如下：

1.S1-1，特征提取。按帧长25毫秒，帧移10毫秒提取12维MFCC特征，再加上1维能量特征，共13维静态特征。动态特征取一阶和二阶差分特征，得到39维的声学特征向量序列；

2.S1-2，训练背景模型；

3.S1-3，自适应训练GMM模型的参数；

4.S1-4，训练差值向量的矢量量化表，并对GMM模型参数进行矢量量化。

S2-词树生成部分流程如下：

1.S2-1，把词表中的每一个词看作一个字符串，把字符串分隔为汉字串、字母串、数字串、其他符号；

2.S2-2，依据发音词典，对汉字串、字母串和数字串标注发音，忽略其他符号，把这些发音再按原顺序连接在一起，得到该词的发音单元序列；

3.S2-3，对词表中的每个词标注发音，得到一系列的发音单元序列，利用这些发音单元序列生成词树。

S3-前端处理部分流程如下：

1.S3-1，对信号进行语音增强处理，消除平稳背景噪声或缓慢渐变的非平稳噪声；

2.S3-2，采用帧对数能量为特征，进行语音端点检测；

3.S3-3，如果检测到的语音段小于语音段最小长度门限，则判断为突发噪声，否则，将检测到语音送入识别器识别。

S4-识别解码部分流程如下：

1.步骤S4-1，参照步骤S1-1，提取声学特征序列；

2.步骤S4-2，进行Viterbi-Beam搜索，将声学得分最高的词作为最终识别结果。

Claims

1.非特定人的嵌入式中英文混合语音识别方法，是一种非特定人的、支持中英文混合语言、面向计算和存储资源有限的嵌入式应用环境的语音识别方法，本方法由声学模型训练、词树生成、前端处理、及识别解码四个部分组成，其特征在于：

兼容中文和英文发音方式的声学建模单元集，基于海量语音数据训练的声学模型，使得非特定人的嵌入式中英文混合语音识别方法是非特定人的、并支持中英文语言混合识别；

采用二叉树形式组织的多背景模型，然后将声学模型中混合高斯模型(GMM)的每个混合项与多背景模型中的一个按最大似然准则绑定，对背景模型进行均值自适应训练得到混合项的均值参数，并将其与背景模型均值相减得到两者的差值向量；

在自适应训练完成后，对所有的差值向量进行矢量量化，并用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项；

用最大混合项得分代替混合概率相加来计算GMM模型的声学得分，从而简化GMM模型，依据简化的GMM模型，对GMM模型的参数进行预运算，并保存为新的混合系数参数，减少计算GMM模型声学得分时的计算量；

识别解码阶段，对每一帧声学特征，首先计算其所有背景模型的声学得分，并对背景模型按声学得分高低排序，然后在二叉树上自上而下地对背景模型的声学得分进行退化处理，具体方法是：令根节点背景模型的退化得分等于其声学得分，如果子节点的声学得分低于父节点的退化得分，则将子节点的退化得分设为父节点的退化得分，否则子节点的退化得分等于其声学得分；

接下来计算所有由一个背景模型和矢量量化表中的一个差值向量所确定的高斯模型的声学得分，并将该声学得分保存于高斯得分缓存中，具体做法是：选择声学得分较高的若干个背景模型、以及其所有子节点背景模型，计算矢量量化表中每个差值向量与背景模型对应的声学得分差值，将该声学得分差值与背景模型的声学得分相加，得到对应高斯模型的声学得分，如果该得分小于背景模型的退化得分，则将该高斯模型的声学得分修改为背景模型的退化得分，并将之保存到高斯得分缓存中；对其余的背景模型，其跟矢量量化表中的任一差值向量所确定的高斯模型的声学得分不再运算，直接将对应的高斯得分缓存设为背景模型的退化得分；

然后利用背景模型声学得分排序信息、及GMM模型与背景模型的绑定信息进行快速高斯选择，在计算GMM模型的声学得分时，仅计算该GMM模型的若干个候选混合项的声学得分，GMM模型某混合项的声学得分的计算方法是：根据该混合项绑定的背景模型标号、与背景模型均值的差值向量标号，从高斯得分缓存中读取该混合项的高斯模型声学得分，将该得分与混合项的混合系数相加，即得到该混合项的声学得分；

2.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，声学建模单元集兼容中文和英文发音方式，是在英文音素集的基础上，扩展了英文中没有的中文发音单元，再加上静音单元构成。

3.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，使用了多个背景模型，每个背景模型均采用正态分布模型，所有背景模型采用二叉树形式来组织，背景模型的训练方式如下：首先使用所有的声学特征训练一个背景模型作为二叉树的根节点，然后使用分裂法训练得到两个子节点背景模型，再对每个子节点进行分裂，如此循环，直到分裂满足停止条件，则停止分裂，待所有节点都停止分裂后，即得到二叉树形式的背景模型。

4.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，用混合系数、绑定的背景模型标号、与背景模型均值的差值向量标号三个信息表达GMM模型的每个混合项，其中混合项高斯模型的均值向量由其绑定的背景模型的均值加上其绑定的差值向量得到，其方差向量等于其绑定的背景模型的方差向量。

5.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，简化GMM模型的方法是，用最大混合项得分代替混合概率相加来计算GMM模型的声学得分，具体数学公式如下：

标准GMM模型：

简化GMM模型：

其中

表示第m个混合项概率分布函数，O表示观察值，μ_m表示第m个混合项的均值向量，

表示第m个混合项的对角均方差向量，C_m表示第m个混合项的混合系数，M表示GMM模型。

6.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，依据简化的GMM模型，对GMM模型的某些参数进行预运算，并保存为新的混合系数参数，以下是GMM模型第m个混合项的数学公式推导：

令新的混合系数为：

令新的方差向量为：

则有：

其中

表示第m个混合项的对角均方差向量，C_m表示第m个混合项的混合系数，x表示当前语音特征向量。

7.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，计算矢量量化表中每个差值向量与背景模型对应的声学得分差值的方法，以下是GMM模型第m个混合项的高斯模型的声学得分的数学公式推导：

其中

为背景模型的声学得分，

为Δμ_i对应的声学得分差值，两者相加，即得到GMM模型第m个混合项的高斯模型的声学得分，其中μ_b表示背景模型的均值向量，Δμ_i表示GMM模型第m个混合项的均值向量μ_m与μ_b的差值向量，μ_m表示第m个混合项的均值向量，

表示第m个混合项的新的方差向量，x表示当前语音特征向量。

8.根据权利要求1所述的非特定人的嵌入式中英文混合语音识别方法，其特征在于，基于二叉树多背景模型的快速高斯选择方法，如下：根据GMM模型各混合项所绑定的背景模型的标号，再参照背景模型的排序信息，得到这些背景模型中声学得分为最高的背景模型标号，然后选择绑定该背景模型标号的一个或多个混合项作为待运算的混合项。