CN101393740B

CN101393740B - 一种计算机多方言背景的汉语普通话语音识别的建模方法

Info

Publication number: CN101393740B
Application number: CN2008102253540A
Authority: CN
Inventors: 郑方; 肖熙; 刘林泉; 游展; 曹文晓; 赤羽诚; 陈如新; 高桥良和
Original assignee: Tsinghua University; Sony Computer Entertainment Inc
Current assignee: Tsinghua University; Sony Interactive Entertainment Inc
Priority date: 2008-10-31
Filing date: 2008-10-31
Publication date: 2011-01-19
Anticipated expiration: 2028-10-31
Also published as: JP2010107982A; US8712773B2; JP4951664B2; CN101393740A; US20100121640A1

Abstract

本发明涉及一种计算机多方言背景的汉语普通话语音识别的建模方法，属于计算机语音识别技术领域。本方法先根据标准普通话的训练数据建立基于三音子的标准普通话模型，同时分别根据方言口音普通话1和2的训练数据建立基于单音子的方言口音普通话模型1和2；然后根据标准普通话模型识别方言口音普通话1的测试数据得到的混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中得临时归并模型；最后根据临时归并模型识别方言口音普通话2的测试数据得到的混淆矩阵2将方言口音普通话模型2归并到临时归并模型中得到识别模型。本发明方法有效地提高了工作效率，明显提高对方言口音普通话的识别率，同时对于标准普通话的识别率也有所提升。

Description

一种计算机多方言背景的汉语普通话语音识别的建模方法

技术领域

本发明涉及一种计算机多方言背景的汉语普通话语音识别的建模方法，属于计算机语音识别技术领域。

背景技术

提高稳健性一直是语音识别的重点也是难点，而口音问题正是导致稳健性降低的主要原因之一。对汉语来说，由于方言众多，口音问题显得更加突出，也更具有研究价值。目前的语音识别系统对于标准普通话的识别率很高，但是对于具有方言口音的普通话识别率则很低。对于这个问题，一般的解决方案是采用自适应等方法，但是这样做的前提是有足够多的方言口音普通话数据，而且这种方法会导致标准普通话识别率的显著下降。另一方面，由于方言的种类很多，如果针对每个方言都需要重新训练码本的话，工作效率将很低。

发明内容

本发明的目的是提出一种计算机多方言背景的汉语普通话语音识别的建模方法，以便在数据量较小的情况下提高带方言口音普通话的识别率，同时又保证对标准普通话的识别率不会显著下降。

本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法，包括以下各步骤：

(1)根据标准普通话的训练数据建立一个基于三音子的标准普通话模型，根据第一种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型1，根据第二种方言口音普通话的训练数据建立基于单音子的方言口音普通话模型2；

(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据，得到混淆矩阵1，根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中，得到临时归并模型；

(3)使用上述临时归并模型识别第二种方言口音普通话的测试数据，得到混淆矩阵2，根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中，得到识别模型。

上述方法中，步骤(2)和(3)中所述的归并方法为：

用x表示被识别语音的观察特征矢量，用s表示标准普通话模型中的隐马尔可夫状态，用d₁表示方言口音普通话模型1中的隐马尔可夫状态，用d₂表示方言口音普通话模型2中的隐马尔可夫状态，由下式得到临时归并模型中的概率密度函数为：

p′(x|s)＝λ₁p(x|s)+(1-λ₁)p(x|d₁)p(d₁|s) (1)

其中λ₁是线性加权系数，0<λ₁<1；

识别模型的概率密度函数为：

p'' (x | s) = Σ_{k = 1}^{K} w_{k}^{(sc)'} N_{k}^{(sc)} (\cdot) + Σ_{m = 1}^{M} Σ_{n = 1}^{N} w_{mn}^{(dc 1)'} N_{mn}^{(dc 1)} (\cdot) + Σ_{p = 1}^{P} Σ_{q = 1}^{Q} w_{pq}^{(dc 2)'} N_{pq}^{(dc 2)} (\cdot)

其中，

为标准普通话模型中的隐马尔可夫状态所占的权重，

分别表示方言口音普通话模型1和方言普通话模型2中隐马尔可夫状态所占的权重，K和

分别表示标准普通话模型高斯混合矩阵的维度和第k行k列元素，M、N和分别表示方言口音普通话模型1的高斯混合矩阵的行数、列数和第m行n列元素，P、Q和

分别表示方言口音普通话模型2的高斯混合矩阵的行数、列数和第p行q列元素。

本发明提出的计算机多方言背景的汉语普通话语音识别的建模方法，其优点是：本发明的方法，通过迭代的方式将多个方言口音普通话模型一一归并到标准普通话模型当中去，避免对每种方言都重复训练码本的工作，有效地提高了工作效率。本发明的方法可以明显提高对方言口音普通话的识别率，同时对于标准普通话的识别率不会显著下降甚至会有所提升，因而解决了其他方法引入方言口音普通话后导致对标准普通话的识别率显著下降的问题。

附图说明

图1是本发明方法的原理框图。

具体实施方式

上述方法中，步骤(2)和(3)中所述的归并方法为：

p′(x|s)＝λ₁p(x|s)+(1-λ₁)p(x|d₁)p(d₁|s) (1)

其中λ₁是线性加权系数，0<λ₁<1；

识别模型的概率密度函数为：

p'' (x | s) = Σ_{k = 1}^{K} w_{k}^{(sc)'} N_{k}^{(sc)} (\cdot) + Σ_{m = 1}^{M} Σ_{n = 1}^{N} w_{mn}^{(dc 1)'} N_{mn}^{(dc 1)} (\cdot) + Σ_{p = 1}^{P} Σ_{q = 1}^{Q} w_{pq}^{(dc 2)'} N_{pq}^{(dc 2)} (\cdot),

其中，

为标准普通话模型中的隐马尔可夫状态所占的权重，分别表示方言口音普通话模型1和方言普通话模型2中隐马尔可夫状态所占的权重，K和分别表示标准普通话模型高斯混合矩阵的维度和第k行k列元素，M、N和

分别表示方言口音普通话模型1的高斯混合矩阵的行数、列数和第m行n列元素，P、Q和

本发明方法是采用迭代的方式将各种带方言口音的数据建立的模型归并到标准普通话模型中去，其基本流程如图1所示，图1中以两个方言口音普通话模型和标准普通话模型的合并为例，用x，s，d₁，d₂分别表示特征矢量，标准普通话模型中的状态以及两个方言普通话模型中的状态。则临时合并模型中的概率密度函数可以写为：

p′(x|s)＝λ₁p(x|s)+(1-λ₁)p(x|d₁)p(d₁|s) (1)

其中λ₁是线性加权系数，代表了标准普通话模型在临时合并模型中占有的比重，在实际中最优的λ₁是通过实验来确定的。而p(d₁|s)正是前面提到的混淆矩阵1，它描述了方言1相对与标准普通话的发音变化，同理最终合并模型的概率密度函数可以写为：

p'' (x | s) = λ_{2} p' (x | s) + (1 - λ_{2}) p (x | d_{2}) p' (d_{2} | s)

= λ_{2} λ_{1} p (x | s) + λ_{2} (1 - λ_{1}) p (x | d_{1}) p (d_{1} | s) + (1 - λ_{2}) p (x | d_{2}) p' (d_{2} | s)

= λ_{2} λ_{1} Σ_{k = 1}^{K} w_{k}^{(sc)} N_{k}^{(sc)} (\cdot) + λ_{2} (1 - λ_{1}) Σ_{m = 1}^{M} P (d_{1 m} | s) \cdot Σ_{n = 1}^{N} w_{mn}^{(dc 1)} N_{mn}^{(dc 1)} (\cdot) +

(1 - λ_{2}) Σ_{p = 1}^{P} P (d_{2 p} | s) \cdot Σ_{q = 1}^{Q} w_{pq}^{(dc 2)} N_{pq}^{(dc 2)} (\cdot)

= Σ_{k = 1}^{K} λ_{2} λ_{1} w_{k}^{(sc)} N_{k}^{(sc)} (\cdot) + Σ_{m = 1}^{M} Σ_{n = 1}^{N} λ_{2} (1 - λ_{1}) \cdot P (d_{1 m} | s) \cdot w_{mn}^{(dc 1)} N_{mn}^{(dc 1)} (\cdot) +

Σ_{p = 1}^{P} Σ_{q = 1}^{Q} (1 - λ_{2}) \cdot P (d_{2 p} | s) \cdot w_{pq}^{(dc 2)} N_{pq}^{(dc 2)} (\cdot)

= Σ_{k = 1}^{K} w_{k}^{(sc)'} N_{k}^{(sc)} (\cdot) + Σ_{m = 1}^{M} Σ_{n = 1}^{N} w_{mn}^{(dc 1)'} N_{mn}^{(dc 1)} (\cdot) + Σ_{p = 1}^{P} Σ_{q = 1}^{Q} w_{pq}^{(dc 2)'} N_{pq}^{(dc 2)} (\cdot)

从上式最后一行中可以看出，最终合并模型实际上是由标准普通话模型、方言普通话模型1和方言普通话模型2的加权和组成的。一般来讲这三个模型都由若干个高斯混合构成，而

和

分别表示了这三个模型各自高斯混合的权重。由于已经知道了混淆矩阵P(d_1m|s)、P(d_2p|s)和加权系数λ₁和λ₂，所以可以很方便地确定这三个模型各自高斯混合的权重。

以下介绍本发明的实施例：

表1：实验数据说明

数据集	数据库	描述
			标准普通话训练集	标准普通话训练数据	120个人，每人200个长句子
标准普通话测试集	标准普通话测试数据	12个人，每人100个命令词
			四川普通话训练集	带四川口音的普通话训练数据	20个人，每人50个长句子

四川普通话测试集	带四川口音的普通话测试数据	15个人，每人75个命令词
			闽南普通话训练集	带闽南口音的普通话训练数据	20个人，每人50个长句子

闽南普通话测试集

带四川口音的普通话测试数据

15个人，每人75个命令词

从表中可以看出，数据根据口音分为标准普通话，带四川口音的普通话和带闽南口音的普通话，都分为两部分，分别用于训练和测试。

测试基准系统(Baseline)：

表2：测试基准系统说明

基准系统中采用的是混合训练识别模型，由所有三种数据加在一起训练得到。

实验结果：

表3：实验结果

可以看出在使用了本算法训练出的模型对于两种方言的识别率都有很明显的提升，同时对于标准普通话的识别率也有不小的改进。这说明这种方式确实是可行的，有效的。

另外，使用本发明方法，无论有多少种方言，都可以通过迭代的方式将方言口音普通话模型一一归并到标准普通话模型当中，归并得到最后的识别模型。

Claims

1.一种用于多方言背景的汉语普通话语音识别的建模方法，其特征在于该方法包括以下各步骤：

(2)使用上述标准普通话模型识别第一种方言口音普通话的测试数据，得到混淆矩阵1，根据混淆矩阵1将方言口音普通话模型1归并到标准普通话模型中，得到临时归并模型；使用上述临时归并模型识别第二种方言口音普通话的测试数据，得到混淆矩阵2，根据混淆矩阵2将方言口音普通话模型2归并到上述临时归并模型中，得到识别模型；具体的归并过程为：

p′(x|s)＝λ₁p(x|s)+(1-λ₁)p(x|d₁)p(d₁|s) (1)

其中λ₁是线性加权系数，0＜λ₁＜1；

识别模型的概率密度函数为：

其中，

为标准普通话模型中的隐马尔可夫状态所占的权重，

分别表示方言口音普通话模型1和方言普通话模型2中隐马尔可夫状态所占的权重，K和分别表示标准普通话模型高斯混合矩阵的维度和第k行k列元素，M、N和